hypothesetests zijn een essentieel proces in inferentiële statistieken waarbij het doel is om steekproefgegevens te gebruiken om conclusies te trekken over een volledige populatie. In het testproces gebruikt u significantieniveaus en p-waarden om te bepalen of de testresultaten statistisch significant zijn.
u hoort altijd dat de resultaten statistisch significant zijn. Maar wat vertegenwoordigen significantieniveaus, P-waarden en statistische significantie eigenlijk? Waarom moeten we hypothesetests gebruiken in statistieken?,
in dit bericht beantwoord ik al deze vragen. Ik gebruik grafieken en concepten om uit te leggen hoe hypothesen functioneren om een meer intuïtieve uitleg te geven. Dit helpt u verder te gaan met het begrijpen van uw statistische resultaten.
hypothese Test voorbeeld Scenario
om te beginnen zal ik demonstreren waarom we hypothesis tests moeten gebruiken met behulp van een voorbeeld.
een onderzoeker bestudeert de brandstofuitgaven voor gezinnen en wil bepalen of de maandelijkse kosten zijn veranderd ten opzichte van vorig jaar, toen het gemiddelde $260 per maand was., De onderzoeker trekt een willekeurige steekproef van 25 families en voert hun maandelijkse kosten voor dit jaar in statistische software. U kunt het CSV-gegevensbestand Downloaden: FuelsCosts. Hieronder vindt u de beschrijvende statistieken van dit jaar.
We zullen voortbouwen op dit voorbeeld om de onderzoeksvraag te beantwoorden en te laten zien hoe hypothesen werken.
beschrijvende statistieken alleen geven geen antwoord op de vraag
De onderzoeker verzamelde een aselecte steekproef en stelde vast dat het gemiddelde van de steekproef van dit jaar (330,6) groter is dan het gemiddelde van vorig jaar (260). Waarom een hypothese test uitvoeren?, We kunnen zien dat het gemiddelde van dit jaar hoger is met $70! Is dat niet anders?
helaas is de situatie niet zo duidelijk als je zou denken omdat we een steekproef analyseren in plaats van de volledige populatie. Er zijn enorme voordelen bij het werken met monsters, omdat het meestal onmogelijk is om gegevens te verzamelen van een hele bevolking. Echter, de afweging voor het werken met een beheersbaar monster is dat we moeten rekening houden met monster fout.
De steekproeffout is de kloof tussen de steekproefstatistiek en de populatieparameter., Voor ons voorbeeld is de steekproefstatistiek het steekproefgemiddelde, dat 330,6 is. De populatieparameter is μ, Of mu, wat het gemiddelde is van de gehele populatie. Helaas is de waarde van de populatie parameter niet alleen onbekend, maar meestal onkenbaar.
we hebben een steekproefgemiddelde van 330,6 verkregen. Echter, het is denkbaar dat, als gevolg van monstername fout, Het gemiddelde van de bevolking zou kunnen zijn slechts 260. Als de onderzoeker een andere willekeurige steekproef trok, zou het volgende steekproefgemiddelde dichter bij 260 kunnen zijn. Het is onmogelijk om deze mogelijkheid te beoordelen door alleen naar het steekproefgemiddelde te kijken., Hypothese testen is een vorm van inferentiële statistieken die ons in staat stelt om conclusies te trekken over een hele populatie op basis van een representatieve steekproef. We moeten een hypothese test gebruiken om de waarschijnlijkheid te bepalen van het verkrijgen van ons steekproefgemiddelde als de populatie gemiddelde 260 is.,
achtergrondinformatie: het verschil tussen beschrijvende en inferentiële statistieken en populaties, Parameters en monsters in inferentiële statistieken
een steekproefverdeling bepaalt of ons steekproefgemiddelde onwaarschijnlijk is
Het is zeer onwaarschijnlijk dat een steekproefgemiddelde gelijk is aan het populatiegemiddelde vanwege een fout in de steekproef. In ons geval is het steekproefgemiddelde van 330,6 vrijwel zeker niet gelijk aan het bevolkingsgemiddelde voor brandstofuitgaven.,
als we een substantieel aantal aselecte steekproeven konden verkrijgen en het steekproefgemiddelde voor elke steekproef konden berekenen, zouden we een breed spectrum van steekproefgemiddelden observeren. We zouden zelfs in staat zijn om de verdeling van de steekproef middelen uit dit proces grafieken.
Dit type distributie wordt een sampling Distributie genoemd. U verkrijgt een steekproefverdeling door veel willekeurige steekproeven van dezelfde grootte uit dezelfde populatie te trekken. Waarom zouden we dit doen?,
omdat sampling distributies u in staat stellen om de waarschijnlijkheid van het verkrijgen van uw steekproef statistieken te bepalen en ze zijn cruciaal voor het uitvoeren van hypothesen testen.
gelukkig hoeven we niet zoveel moeite te doen om een groot aantal willekeurige samples te verzamelen! We kunnen de steekproefverdeling schatten met behulp van de t-verdeling, onze steekproefgrootte en de variabiliteit in onze steekproef.
We willen weten of het gemiddelde brandstofverbruik dit jaar (330,6) verschilt van vorig jaar (260)., Om deze vraag te beantwoorden, zullen we een grafiek maken van de steekproefverdeling op basis van de aanname dat de gemiddelde brandstofkosten voor de gehele bevolking niet veranderd zijn en nog steeds 260 zijn. In de statistiek noemen we dit gebrek aan effect, of geen verandering, de nulhypothese. We gebruiken de nulhypothesewaarde als basis voor vergelijking voor onze waargenomen steekproefwaarde.
Steekproefverdelingen en t-distributies zijn soorten kansverdelingen. Meer informatie over kansverdelingen!,
grafisch ons steekproefgemiddelde in het kader van de steekproefverdeling
onderstaande grafiek toont welke steekproefgemiddelden waarschijnlijker en minder waarschijnlijk zijn als het populatiegemiddelde 260 is. Wij kunnen ons steekproefgemiddelde in deze verdeling plaatsen. Deze grotere context helpt ons te zien hoe onwaarschijnlijk ons steekproefgemiddelde is als de nulhypothese waar is (μ = 260).
de grafiek toont de geschatte verdeling van de steekproefgemiddelden. De meest waarschijnlijke waarden liggen in de buurt van 260 omdat het perceel ervan uitgaat dat dit het werkelijke bevolkingsgemiddelde is., Gezien de aselecte steekproeffout zou het echter niet verwonderlijk zijn om steekproefmiddelen tussen 167 en 352 vast te stellen. Als het gemiddelde van de populatie nog steeds 260 is, is ons waargenomen steekproefgemiddelde (330,6) niet de meest waarschijnlijke waarde, maar het is ook niet helemaal ongeloofwaardig.
de rol van hypothesetests
de steekproefverdeling toont ons dat het relatief onwaarschijnlijk is dat we een steekproef van 330,6 krijgen als het gemiddelde van de populatie 260 is. Is ons steekproefgemiddelde zo onwaarschijnlijk dat we het idee kunnen verwerpen dat het bevolkingsgemiddelde 260 is?
in statistieken noemen we dit het afwijzen van de nulhypothese., Als we de null voor ons voorbeeld afwijzen, is het verschil tussen het steekproefgemiddelde (330.6) en 260 statistisch significant. Met andere woorden, de steekproefgegevens begunstigen de hypothese dat het bevolkingsgemiddelde niet gelijk is aan 260.
kijk echter nog eens naar het bemonsteringsschema. Merk op dat er geen speciale locatie op de curve is waar u definitief deze conclusie kunt trekken. Er is slechts een consistente afname in de waarschijnlijkheid van het waarnemen van steekproefmiddelen die verder van de nulhypothesewaarde zijn. Waar beslissen we dat een steekproefgemiddelde ver genoeg weg is?,
om deze vraag te beantwoorden, hebben we meer tools—hypothesis tests nodig! De hypothese testprocedure kwantificeert de onbruikbaarheid van ons monster met een waarschijnlijkheid en vergelijkt het dan met een bewijskracht standaard. Dit proces stelt u in staat om een objectieve beslissing te nemen over de sterkte van het bewijs.
We gaan de Hulpmiddelen die we nodig hebben om deze beslissing te maken toevoegen aan de graph—significance levels en p-waarden!
met deze hulpmiddelen kunnen we deze twee hypothesen testen:
- nulhypothese: het populatiegemiddelde is gelijk aan het nulhypothesegemiddelde (260).,
- alternatieve hypothese: het populatiegemiddelde is niet gelijk aan het nulhypothesegemiddelde (260).
gerelateerd post: Hypothesis Testing Overview
Wat zijn Significantieniveaus (Alfa)?
een significantieniveau, ook bekend als alfa of α, is een bewijskracht standaard die een onderzoeker stelt voor de studie. Het bepaalt hoe sterk het bewijs van de steekproef de nulhypothese moet tegenspreken voordat u de nulhypothese voor de gehele bevolking kunt verwerpen. De sterkte van het bewijs wordt bepaald door de waarschijnlijkheid van het afwijzen van een nulhypothese die Waar is., Met andere woorden, het is de kans dat je zegt dat er een effect is als er geen effect is.
bijvoorbeeld, een significantieniveau van 0,05 betekent een risico van 5% om te beslissen dat een effect bestaat wanneer het niet bestaat.
lagere significantieniveaus vereisen sterkere steekproefgegevens om de nulhypothese te kunnen verwerpen. Bijvoorbeeld, om statistisch significant te zijn op het 0,01 significantieniveau vereist meer substantieel bewijs dan het 0,05 significantieniveau. Er is echter een afweging in hypothesetests., Lagere significantieniveaus verminderen ook de kracht van een hypothese test om een verschil te ontdekken dat wel bestaat.
de technische aard van dit soort vragen kan je hoofd doen draaien. Een foto kan deze ideeën tot leven brengen!
voor een meer conceptuele benadering van significantieniveaus, zie mijn bericht over het begrijpen van Significantieniveaus.
grafieken van Significantieniveaus als kritieke gebieden
op de kansverdelingsplot bepaalt het significantieniveau hoe ver de steekproefwaarde van de nulwaarde moet zijn voordat we de nulwaarde kunnen afwijzen., Het percentage van het oppervlak onder de kromme dat gearceerd is, is gelijk aan de kans dat de steekproefwaarde in die gebieden zal dalen als de nulhypothese correct is.
om een significantieniveau van 0,05 weer te geven, zal ik 5% van de distributie het verst van de null-waarde afkleuren.
de twee gearceerde gebieden in de grafiek staan op gelijke afstand van de centrale waarde van de nulhypothese. Elke regio heeft een waarschijnlijkheid van 0,025, wat neerkomt op ons gewenste totaal van 0,05. Deze gearceerde gebieden worden het kritieke gebied genoemd voor een tweestaart hypothese test.,
het kritische gebied definieert monsterwaarden die onwaarschijnlijk genoeg zijn om afwijzing van de nulhypothese te rechtvaardigen. Als de nulhypothese correct is en het populatiegemiddelde 260 is, hebben aselecte steekproeven (n = 25) van deze populatie middelen die in het kritieke gebied 5% van de tijd dalen.
ons steekproefgemiddelde is statistisch significant op het 0,05-niveau omdat het in het kritieke gebied valt.
gerelateerde post: One-Tailed en Two-Tailed Tests Explained
comparing Significantieniveaus
laten we deze hypothese test opnieuw uitvoeren met behulp van het andere gemeenschappelijke significantieniveau van 0.,01 om te zien hoe het zich verhoudt.
Deze keer is de som van de twee gearceerde gebieden gelijk aan ons nieuwe significantieniveau van 0,01. Het gemiddelde van onze steekproef valt niet binnen het kritieke gebied. Daarom slagen we er niet in de nulhypothese te verwerpen. We hebben dezelfde exacte steekproefgegevens, hetzelfde verschil tussen het steekproefgemiddelde en de nulhypothesewaarde, maar een ander testresultaat.
Wat is er gebeurd? Door het specificeren van een lagere significantieniveau, stellen we een hogere bar voor het monster bewijs., Zoals de grafiek laat zien, verplaatsen lagere significantieniveaus de kritieke gebieden verder van de nulwaarde. Bijgevolg vereisen lagere significantieniveaus dat extremere steekproefmiddelen statistisch significant zijn.
u moet het significantieniveau instellen voordat u een studie uitvoert. Je wilt niet de verleiding van het kiezen van een niveau na de studie die significante resultaten oplevert. De enige reden dat ik de twee significantieniveaus vergeleek, was om de effecten te illustreren en de verschillende resultaten uit te leggen.,
de grafische versie van de 1-sample t-test die we hebben gemaakt stelt ons in staat om statistische significantie te bepalen zonder de p-waarde te beoordelen. Meestal moet u de p-waarde vergelijken met het significantieniveau om deze bepaling te maken.
gerelateerd bericht: stap-voor-stap instructies voor het uitvoeren van t-Tests in Excel
Wat zijn P-waarden?
P waarden zijn de waarschijnlijkheid dat een monster een effect zal hebben dat minstens zo extreem is als het effect dat in uw monster wordt waargenomen als de nulhypothese correct is.
deze kronkelende, technische definitie voor P-waarden kan je hoofd laten draaien., Laten we het tekenen!
eerst moeten we het effect berekenen dat aanwezig is in onze steekproef. Het effect is de afstand tussen de monsterwaarde en de nulwaarde: 330,6 – 260 = 70,6. Vervolgens zal ik schaduw de regio ‘ s aan beide zijden van de verdeling die ten minste zo ver weg als 70.6 van de null (260 +/- 70.6). Deze procesgrafieken de waarschijnlijkheid van het observeren van een steekproefgemiddelde minstens zo extreem als ons steekproefgemiddelde.
de totale waarschijnlijkheid van de twee gearceerde gebieden is 0,03112., Als de waarde van de nulhypothese (260) waar is en u veel willekeurige steekproeven hebt getrokken, zou u verwachten dat de steekproefmiddelen ongeveer 3,1% van de tijd in de gearceerde gebieden vallen. Met andere woorden, u zult steekproefeffecten minstens zo groot als 70.6 ongeveer 3,1% van de tijd waarnemen als De null waar is. Dat is de P waarde!
gebruik P-waarden en Significantieniveaus samen
als uw P-waarde kleiner is dan of gelijk is aan uw alfaniveau, verwerpt u de nulhypothese.
de resultaten van de p-waarde zijn consistent met onze grafische weergave. De p-waarde van 0,03112 is significant bij het alfaniveau van 0,05 maar niet 0.,01. Nogmaals, in de praktijk kies je één betekenisniveau voor het experiment en blijf erbij!
bij gebruik van het significantieniveau van 0,05 is het effect van de steekproef statistisch significant. Onze gegevens ondersteunen de alternatieve hypothese, die stelt dat het bevolkingsgemiddelde niet gelijk is aan 260. We kunnen concluderen dat de gemiddelde brandstofuitgaven zijn gestegen sinds vorig jaar.
P waarden worden vaak verkeerd geïnterpreteerd als de kans op het afwijzen van een nulhypothese die eigenlijk waar is. Deze interpretatie is verkeerd! Om te begrijpen waarom, lees mijn bericht: hoe P-waarden correct te interpreteren.,
discussie over statistisch significante resultaten
hypothesetests bepalen of uw steekproefgegevens voldoende bewijs leveren om de nulhypothese voor de gehele populatie te verwerpen. Om deze test uit te voeren, vergelijkt de procedure uw steekproefstatistiek met de nulwaarde en bepaalt of deze voldoende zeldzaam is. “Voldoende zeldzaam” wordt in een hypothesetest gedefinieerd door:
- uitgaande van de veronderstelling dat de nulhypothese waar is—de grafieken centreren op de nulwaarde.
- het significantieniveau (Alfa) – hoe ver is het kritieke gebied verwijderd van de nulwaarde?,
- de steekproefstatistiek-is het binnen de kritieke regio?
er is geen speciaal significantieniveau dat correct bepaalt welke studies 100% van de tijd reële populatieeffecten hebben. De traditionele significantieniveaus van 0,05 en 0,01 zijn pogingen om de afweging te beheren tussen het hebben van een lage kans op het afwijzen van een echte nulhypothese en het hebben van voldoende macht om een effect te detecteren als er daadwerkelijk een bestaat.
het significantieniveau is de snelheid waarmee u ten onrechte nulhypothesen afwijst die werkelijk waar zijn (type I-fout)., Bijvoorbeeld, voor alle studies die een significantieniveau van 0,05 gebruiken en de nulhypothese correct is, kunt u verwachten dat 5% van hen steekproefstatistieken heeft die in het kritieke gebied vallen. Wanneer deze fout optreedt, bent u zich er niet van bewust dat de nulhypothese correct is, maar u zult het afwijzen omdat de p-waarde kleiner is dan 0,05.
Deze fout geeft niet aan dat de onderzoeker een fout heeft gemaakt. Zoals de grafieken laten zien, kunt u extreme steekproefstatistieken observeren als gevolg van steekproeffout alleen. Het is het geluk van de loting!,
gerelateerde post: soorten fouten in hypothesetests
hypothesetests zijn cruciaal wanneer u steekproefgegevens wilt gebruiken om conclusies over een populatie te maken, omdat deze tests rekening houden met steekproeffouten. Het gebruik van significantieniveaus en P-waarden om te bepalen wanneer de nulhypothese moet worden afgewezen, verbetert de kans dat u de juiste conclusie trekt.
houd in gedachten dat statistische significantie niet noodzakelijk betekent dat het effect belangrijk is in een praktische, reële zin. Voor meer informatie, lees mijn bericht over praktische vs. statistische significantie.,
Als u dit bericht leuk vindt, lees dan het begeleidende bericht: hoe Hypothesis Tests werken: betrouwbaarheidsintervallen en betrouwbaarheidsniveaus.
u kunt ook mijn andere berichten lezen die beschrijven hoe andere tests werken:
- hoe t-Tests werken
- Hoe de F-test werkt in ANOVA
- Hoe Chi-kwadraat tests van Onafhankelijkheid werken
om een alternatieve benadering te zien van traditionele hypothese testen die geen gebruik maakt van kansverdelingen en teststatistieken, leer over bootstrapping in statistieken!
Leave a Reply