hypotesprovning är en viktig process i inferentiell statistik där målet är att använda provdata för att dra slutsatser om en hel befolkning. I testprocessen använder du signifikansnivåer och p-värden för att avgöra om testresultaten är statistiskt signifikanta.
du hör att resultaten är statistiskt signifikanta hela tiden. Men vad representerar signifikansnivåer, p-värden och statistisk betydelse egentligen? Varför behöver vi ens använda hypotestester i statistiken?,
i det här inlägget svarar jag på alla dessa frågor. Jag använder grafer och begrepp för att förklara hur hypotestester fungerar för att ge en mer intuitiv förklaring. Detta hjälper dig att gå vidare för att förstå dina statistiska resultat.
hypotese Test Example Scenario
för att starta, ska jag visa varför vi behöver använda hypotestester med ett exempel.
en forskare studerar bränsleutgifter för familjer och vill avgöra om den månatliga kostnaden har förändrats sedan förra året när genomsnittet var $260 per månad., Forskaren drar ett slumpmässigt urval av 25 familjer och går in i sina månatliga kostnader för detta år i statistisk programvara. Du kan ladda ner CSV-datafilen: FuelsCosts. Nedan följer den beskrivande statistiken för detta år.
Vi bygger vidare på det här exemplet för att svara på forskningsfrågan och visa hur hypotestester fungerar.
beskrivande statistik ensam kommer inte att svara på frågan
forskaren samlade ett slumpmässigt urval och fann att årets provmedelvärde (330,6) är större än förra årets medelvärde (260). Varför utföra ett hypotesprov alls?, Vi kan se att årets medelvärde är högre med $ 70! Är inte det annorlunda?
tyvärr är situationen inte så tydlig som du kanske tror eftersom vi analyserar ett prov istället för hela befolkningen. Det finns stora fördelar när man arbetar med prover eftersom det vanligtvis är omöjligt att samla in data från en hel befolkning. Tradeoff för att arbeta med ett hanterbart prov är dock att vi måste redogöra för provfel.
provtagningsfelet är klyftan mellan provstatistiken och populationsparametern., I vårt exempel är provstatistiken provmedelvärdet, vilket är 330,6. Populationsparametern är μ eller mu, vilket är genomsnittet för hela befolkningen. Tyvärr är värdet av populationsparametern inte bara okänd men vanligtvis okänd.
vi fick ett provmedelvärde på 330,6. Det är dock tänkbart att medelvärdet av befolkningen på grund av provtagningsfel kan vara endast 260. Om forskaren drog ett annat slumpmässigt prov kan nästa provmedel vara närmare 260. Det är omöjligt att bedöma denna möjlighet genom att bara titta på provmedelvärdet., Hypotesprövning är en form av inferentiell statistik som gör det möjligt för oss att dra slutsatser om en hel befolkning baserat på ett representativt urval. Vi måste använda ett hypotesprov för att bestämma sannolikheten för att få vårt provmedel om befolkningens medelvärde är 260.,
bakgrundsinformation: skillnaden mellan beskrivande och inferentiell statistik och populationer, parametrar och prover i inferentiell statistik
en provtagningsfördelning avgör om vårt Provmedelvärde är osannolikt
det är mycket osannolikt att något prov betyder att befolkningen är lika på grund av provfel. I vårt fall är provmedelvärdet på 330,6 nästan definitivt inte lika med befolkningens medelvärde för bränsleutgifter.,
om vi kunde få ett stort antal slumpmässiga prover och beräkna provmedelvärdet för varje prov, skulle vi observera ett brett spektrum av provmedel. Vi skulle till och med kunna gradera fördelningen av provmedel från denna process.
denna typ av distribution kallas en provtagningsdistribution. Du får en samplingsfördelning genom att dra många slumpmässiga prover av samma storlek från samma population. Varför skulle vi göra det här?,
eftersom samplingsfördelningar tillåter dig att bestämma sannolikheten för att få din provstatistik och de är avgörande för att utföra hypotestester.
lyckligtvis behöver vi inte gå till besväret att samla många slumpmässiga prover! Vi kan uppskatta samplingsfördelningen med hjälp av t-fördelningen, vår provstorlek och variationen i vårt prov.
vi vill ta reda på om de genomsnittliga bränsleutgifterna i år (330,6) skiljer sig från förra året (260)., För att svara på denna fråga kommer vi att gradera provtagningsfördelningen baserat på antagandet att den genomsnittliga bränslekostnaden för hela befolkningen inte har förändrats och fortfarande är 260. I statistiken kallar vi denna brist på effekt, eller ingen förändring, nollhypotesen. Vi använder nollhypotesvärdet som grund för jämförelsen för vårt observerade provvärde.
Samplingsfördelningar och t-fördelningar är typer av sannolikhetsfördelningar. Läs mer om sannolikhetsfördelningar!,
grafera vårt prov medelvärde i samband med Provtagningsdistributionen
diagrammet nedan visar vilka provmedel som är mer sannolika och mindre troliga om populationens medelvärde är 260. Vi kan placera vårt prov medelvärde i denna distribution. Detta större sammanhang hjälper oss att se hur osannolikt vårt provmedel är om nollhypotesen är sann (μ = 260).
diagrammet visar den beräknade fördelningen av provmedel. De mest troliga värdena är nära 260 eftersom tomten förutsätter att detta är den sanna befolkningens medelvärde., Med tanke på slumpmässigt urvalsfel skulle det emellertid inte vara förvånande att observera provmedel som sträcker sig från 167 till 352. Om befolkningens medelvärde fortfarande är 260 är vårt observerade provmedelvärde (330,6)inte det mest sannolika värdet, men det är inte helt osannolikt heller.
Hypotesprovens Roll
provtagningsdistributionen visar oss att vi är relativt osannolikt att få ett prov på 330,6 om befolkningens medelvärde är 260. Är vårt prov så osannolikt att vi kan avvisa uppfattningen att befolkningens medelvärde är 260?
i statistiken kallar vi detta förkastande av nollhypotesen., Om vi avvisar null för vårt exempel är skillnaden mellan provmedelvärdet (330,6) och 260 statistiskt signifikant. Med andra ord gynnar provdata hypotesen att befolkningsgenomsnittet inte motsvarar 260.
titta dock på samplingsdistributionsschemat igen. Observera att det inte finns någon speciell plats på kurvan där du definitivt kan dra denna slutsats. Det finns bara en konsekvent minskning av sannolikheten för att observera provmedel som ligger längre från nollhypotesvärdet. Var bestämmer vi att ett provmedel är tillräckligt långt borta?,
för att svara på denna fråga behöver vi fler verktyg-hypotestester! Hypotesprovningsförfarandet kvantifierar det ovanliga i vårt prov med en sannolikhet och jämför det sedan med en bevisstandard. Denna process gör att du kan fatta ett objektivt beslut om bevisets styrka.
Vi kommer att lägga till de verktyg vi behöver för att fatta detta beslut till graf-signifikansnivåer och p-värden!
dessa verktyg gör det möjligt för oss att testa dessa två hypoteser:
- nollhypotes: befolkningens medelvärde är lika med nollhypotesen medelvärdet (260).,
- alternativ hypotes: befolkningens medelvärde motsvarar inte nollhypotesen medelvärdet (260).
relaterat inlägg: översikt över hypotesprövning
Vad är Signifikansnivåer (Alfa)?
en signifikansnivå, även känd som alfa eller α, är en bevisnorm som en forskare sätter före studien. Det definierar hur starkt provbeviset måste motsäga nollhypotesen innan du kan avvisa nollhypotesen för hela befolkningen. Styrkan i bevisen definieras av sannolikheten att avvisa en nollhypotes som är sann., Med andra ord är det sannolikheten att du säger att det finns en effekt när det inte finns någon effekt.
till exempel innebär en signifikansnivå på 0,05 en risk på 5% att besluta att en effekt föreligger när den inte existerar.
lägre signifikansnivåer kräver starkare provbevis för att kunna avvisa nollhypotesen. För att till exempel vara statistiskt signifikant vid 0.01-signifikansnivån krävs mer väsentliga bevis än 0.05-signifikansnivån. Det finns dock en tradeoff i hypotestester., Lägre signifikansnivåer minskar också kraften i ett hypotestest för att upptäcka en skillnad som existerar.
den tekniska karaktären hos dessa typer av frågor kan göra ditt huvud spinn. En bild kan ge dessa idéer till liv!
för att lära sig ett mer begreppsmässigt tillvägagångssätt för signifikansnivåer, se mitt inlägg om att förstå Signifikansnivåer.
Grafbetydelsenivåer som kritiska regioner
på sannolikhetsfördelningsplanen definierar signifikansnivån hur långt provvärdet måste vara från null-värdet innan vi kan avvisa null., Procentandelen av området under kurvan som är skuggad motsvarar sannolikheten för att provvärdet kommer att falla i dessa regioner om nollhypotesen är korrekt.
för att representera en signifikansnivå på 0,05, skuggar jag 5% av fördelningen längst bort från null-värdet.
de två skuggade regionerna i grafen är lika långt från det centrala värdet av nollhypotesen. Varje region har en sannolikhet på 0,025, vilket summerar till vår önskade totala 0,05. Dessa skuggade områden kallas den kritiska regionen för ett två-tailed hypotestest.,
den kritiska regionen definierar provvärden som är osannolika nog för att motivera att nollhypotesen förkastas. Om nollhypotesen är korrekt och befolkningens medelvärde är 260, har slumpmässiga prover (n=25) Från denna population att falla i den kritiska regionen 5% av tiden.
vårt provmedelvärde är statistiskt signifikant på 0.05-nivån eftersom det faller i den kritiska regionen.
relaterat inlägg: en-Tailed och två-Tailed test förklarade
jämföra Signifikansnivåer
låt oss göra om detta hypotestest med den andra gemensamma signifikansnivån på 0.,01 för att se hur det kan jämföras.
den här gången motsvarar summan av de två skuggade regionerna vår nya signifikansnivå på 0,01. Medelvärdet av vårt prov faller inte inom den kritiska regionen. Följaktligen misslyckas vi med att avvisa nollhypotesen. Vi har samma exakta provdata, samma skillnad mellan provmedelvärdet och nollhypotesvärdet, men ett annat testresultat.
vad hände? Genom att ange en lägre signifikansnivå sätter vi en högre stapel för provbeviset., Som diagrammet visar flyttar lägre signifikansnivåer de kritiska regionerna längre bort från nollvärdet. Följaktligen kräver lägre signifikansnivåer att mer extrema provmedel är statistiskt signifikanta.
Du måste ställa in signifikansnivån innan du genomför en studie. Du vill inte frestelsen att välja en nivå efter studien som ger betydande resultat. Den enda anledningen till att jag jämförde de två signifikansnivåerna var att illustrera effekterna och förklara de olika resultaten.,
den grafiska versionen av 1-prov T-test som vi skapade tillåter oss att bestämma statistisk signifikans utan att bedöma p-värdet. Vanligtvis måste du jämföra p-värdet till signifikansnivån för att göra denna bestämning.
relaterat inlägg: steg-för-steg-instruktioner för hur man gör T-test i Excel
Vad är P-värden?
p-värden är sannolikheten att ett prov kommer att ha en effekt minst lika extrem som effekten som observeras i ditt prov om nollhypotesen är korrekt.
denna slingrande, tekniska definition för p-värden kan göra ditt huvud snurrar., Låt oss gradera det!
först måste vi beräkna effekten som finns i vårt prov. Effekten är avståndet mellan provvärdet och nollvärdet: 330,6 – 260 = 70,6. Därefter skuggar jag regionerna på båda sidor av distributionen som är minst så långt bort som 70,6 från null (260 +/- 70.6). Denna process grafer sannolikheten att observera ett prov betyder minst lika extremt som vårt prov betyder.
den totala sannolikheten för de två skuggade regionerna är 0,03112., Om nollhypotesvärdet (260) är sant och du ritade många slumpmässiga prover, förväntar du dig att provmedel faller i de skuggade regionerna om 3.1% av tiden. Med andra ord kommer du att observera proveffekter minst lika stora som 70,6 om 3,1% av tiden om null är sant. Det är P-värdet!
använda p-värden och Signifikansnivåer tillsammans
om ditt p-värde är mindre än eller lika med din alfa-nivå, avvisa nollhypotesen.
P-värderesultaten överensstämmer med vår grafiska representation. P-värdet på 0,03112 är signifikant vid alfa – nivån på 0,05 men inte 0.,01. Återigen, i praktiken väljer du en signifikansnivå före experimentet och håller fast vid det!
med hjälp av signifikansnivån på 0,05 är proveffekten statistiskt signifikant. Våra data stöder den alternativa hypotesen, som säger att befolkningen betyder inte lika 260. Vi kan dra slutsatsen att de genomsnittliga bränsleutgifterna har ökat sedan förra året.
p-värden misstolkas ofta som sannolikheten att avvisa en nollhypotes som faktiskt är sann. Denna tolkning är fel! För att förstå varför, läs mitt inlägg: Hur man tolkar P-värden korrekt.,
diskussion om statistiskt signifikanta resultat
Hypotestester avgör om dina provdata ger tillräckliga bevis för att avvisa nollhypotesen för hela befolkningen. För att utföra detta test jämför proceduren din provstatistik med nollvärdet och bestämmer om det är tillräckligt sällsynt. ”Tillräckligt sällsynt” definieras i ett hypotestest av:
- förutsatt att nollhypotesen är sann—graferna centrerar på nollvärdet.
- signifikansnivån (alpha)—hur långt ut från null-värdet är den kritiska regionen?,
- provstatistiken—ligger den inom den kritiska regionen?
det finns ingen särskild signifikansnivå som korrekt bestämmer vilka studier som har verkliga befolkningseffekter 100% av tiden. De traditionella signifikansnivåerna på 0.05 och 0.01 är försök att hantera avfarten mellan att ha en låg sannolikhet att avvisa en sann nollhypotes och ha tillräcklig kraft för att upptäcka en effekt om man faktiskt existerar.
signifikansnivån är den hastighet med vilken du felaktigt avvisar nollhypoteser som faktiskt är sanna (typ i-fel)., Till exempel, för alla studier som använder en signifikansnivå på 0,05 och nollhypotesen är korrekt, kan du förvänta dig att 5% av dem har provstatistik som faller i den kritiska regionen. När det här felet uppstår är du inte medveten om att nollhypotesen är korrekt, men du avvisar den eftersom p-värdet är mindre än 0,05.
det här felet indikerar inte att forskaren gjorde ett misstag. Som graferna visar kan du observera extrem provstatistik på grund av provfel ensam. Det är tur med dragningen!,
relaterat inlägg: typer av fel i hypotesprovning
hypotesprov är avgörande när du vill använda provdata för att dra slutsatser om en population eftersom dessa tester står för provfel. Med hjälp av signifikansnivåer och p-värden för att bestämma när du ska avvisa nollhypotesen förbättras sannolikheten att du kommer att dra rätt slutsats.
tänk på att statistisk betydelse inte nödvändigtvis betyder att effekten är viktig i en praktisk, verklig mening. För mer information, läs mitt inlägg om praktisk vs. statistisk signifikans.,
om du gillar det här inlägget läser du följeslagaren: hur Hypotestester fungerar: konfidensintervall och konfidensnivåer.
Du kan också läsa mina andra inlägg som beskriver hur andra tester fungerar:
- hur t-tester fungerar
- Hur F-testet fungerar i ANOVA
- hur Chi-Squared tester av oberoende arbete
för att se en alternativ metod för traditionell hypotesprovning som inte använder sannolikhetsfördelningar och teststatistik, lära sig om bootstrapping i statistik!
Leave a Reply