hypotesetest er en vigtig proces i inferentiel statistik, hvor målet er at bruge prøvedata til at drage konklusioner om en hel befolkning. I testprocessen bruger du signifikansniveauer og p-værdier til at bestemme, om testresultaterne er statistisk signifikante.
du hører om, at resultaterne er statistisk signifikante hele tiden. Men hvad repræsenterer signifikansniveauer, P-værdier og statistisk betydning faktisk? Hvorfor skal vi endda bruge hypotesetest i statistikker?,
i dette indlæg besvarer jeg alle disse spørgsmål. Jeg bruger grafer og koncepter til at forklare, hvordan hypotesetest fungerer for at give en mere intuitiv forklaring. Dette hjælper dig med at gå videre til at forstå dine statistiske resultater.
Hypotesetesteksempelscenarie
for at starte, vil jeg demonstrere, hvorfor vi skal bruge hypotesetest ved hjælp af et eksempel.
en forsker studerer brændstofudgifter til familier og ønsker at afgøre, om de månedlige omkostninger er ændret siden sidste år, hvor gennemsnittet var $260 pr., Forskeren trækker en tilfældig stikprøve på 25 familier og indtaster deres månedlige omkostninger for dette år i statistisk soft .are. Du kan do .nloade CSV-datafilen: FuelsCosts. Nedenfor er de beskrivende statistikker for dette år.
Vi bygger videre på dette eksempel for at besvare forskningsspørgsmålet og vise, hvordan hypotesetest fungerer.
Beskrivende statistik alene svarer ikke på spørgsmålet
forskeren indsamlede en tilfældig prøve og fandt, at dette års prøvemiddelværdi (330.6) er større end sidste års gennemsnit (260). Hvorfor udføre en hypotesetest overhovedet?, Vi kan se, at dette års middelværdi er højere med $ 70! Er det ikke anderledes?
Desværre er situationen ikke så klar, som du måske tror, fordi vi analyserer en prøve i stedet for den fulde befolkning. Der er enorme fordele, når man arbejder med prøver, fordi det normalt er umuligt at indsamle data fra en hel befolkning. Men afvejningen for at arbejde med en håndterbar prøve er, at vi skal tage højde for prøvefejl.
prøvetagningsfejlen er afstanden mellem prøvestatistikken og populationsparameteren., For vores eksempel er prøvestatistikken prøvemiddelværdien, som er 330.6. Befolkningsparameteren er μ eller mu, hvilket er gennemsnittet af hele befolkningen. Desværre er værdien af populationsparameteren ikke kun ukendt, men normalt uvidende.
Vi opnåede en prøve middelværdi på 330.6. Det er dog tænkeligt, at gennemsnittet af befolkningen på grund af prøveudtagningsfejl kun kan være 260. Hvis forskeren tegnede en anden tilfældig prøve, kan den næste prøvemiddelværdi være tættere på 260. Det er umuligt at vurdere denne mulighed ved kun at se på prøvemidlet., Hypotesetest er en form for inferentiel statistik, der giver os mulighed for at drage konklusioner om en hel befolkning baseret på en repræsentativ prøve. Vi er nødt til at bruge en hypotesetest for at bestemme sandsynligheden for at opnå vores prøvemiddelværdi, hvis befolkningsmiddelet er 260.,
baggrundsinformation: Forskellen mellem Beskrivende og Empiriske Statistikker og Befolkninger, Parametre, og Prøver i de Empiriske Statistikker
Et udsnit Distribution Bestemmer, Om Vores Stikprøve Mener, er Usandsynligt
Det er meget usandsynligt, at nogen prøve betyde, at lige populationsmiddelværdien på grund af prøven fejl. I vores tilfælde er prøvemiddelværdien på 330,6 næsten absolut ikke lig med befolkningens gennemsnit for brændstofudgifter.,
Hvis vi kunne få et betydeligt antal stikprøver og beregne prøvens gennemsnit for hver prøve, ville vi observere et bredt spektrum af prøvemidler. Vi ville endda være i stand til at tegne fordelingen af prøvemidler fra denne proces.
denne type distribution kaldes en prøveudtagningsfordeling. Du får en prøveudtagningsfordeling ved at tegne mange tilfældige prøver af samme størrelse fra samme population. Hvorfor skulle vi gøre det?,
fordi samplingfordelinger giver dig mulighed for at bestemme sandsynligheden for at få din prøvestatistik, og de er afgørende for at udføre hypotesetest.
heldigvis behøver vi ikke at gå til besværet med at indsamle mange tilfældige prøver! Vi kan estimere prøveudtagningsfordelingen ved hjælp af t-distributionen, vores prøvestørrelse og variabiliteten i vores prøve.
Vi ønsker at finde ud af, om de gennemsnitlige brændstofudgifter i år (330.6) adskiller sig fra sidste år (260)., For at besvare dette spørgsmål grafer vi prøveudtagningsfordelingen ud fra antagelsen om, at den gennemsnitlige brændstofpris for hele befolkningen ikke har ændret sig og stadig er 260. I statistikker kalder vi denne mangel på effekt, eller ingen ændring, nulhypotesen. Vi bruger nulhypotesværdien som sammenligningsgrundlag for vores observerede prøveværdi.Sampling distributioner og t-distributioner er typer af sandsynlighedsfordelinger. Lær mere om sandsynlighedsfordelinger!,
graftegning af vores Prøvemiddelværdi i forbindelse med prøveudtagningsfordelingen
grafen nedenfor viser, hvilke prøvemidler der er mere sandsynlige og mindre sandsynlige, hvis populationsgennemsnittet er 260. Vi kan placere vores prøve middelværdi i denne fordeling. Denne større sammenhæng hjælper os med at se, hvor usandsynligt vores prøvemiddelværdi er, hvis nullhypotesen er sand (==260).
grafen viser den estimerede fordeling af prøvemidler. De mest sandsynlige værdier er nær 260 fordi plottet antager, at dette er den sande befolkning betyder., I betragtning af tilfældig prøveudtagningsfejl ville det imidlertid ikke være overraskende at observere prøvemidler fra 167 til 352. Hvis befolkningstallet stadig er 260, er vores observerede prøvemiddelværdi (330.6) ikke den mest sandsynlige værdi, men det er heller ikke helt umuligt.
Hypotesetests rolle
prøveudtagningsfordelingen viser os, at det er relativt usandsynligt, at vi får en prøve på 330.6, hvis populationsgennemsnittet er 260. Er vores stikprøve så usandsynligt, at vi kan afvise forestillingen om, at befolkningen betyder 260?
i statistikker kalder vi dette afvisning af nulhypotesen., Hvis vi afviser null for vores eksempel, er forskellen mellem prøvemiddelværdien (330.6) og 260 statistisk signifikant. Med andre ord favoriserer prøvedataene hypotesen om, at befolkningsgennemsnittet ikke svarer til 260.
se dog på samplingfordelingsdiagrammet igen. Bemærk, at der ikke er nogen speciel placering på kurven, hvor du definitivt kan drage denne konklusion. Der er kun en konsekvent fald i sandsynligheden for at observere prøve midler, der er længere fra nul hypotese værdi. Hvor skal vi beslutte en prøve middelværdi er langt væk nok?,
for at besvare dette spørgsmål har vi brug for flere værktøjer—hypotesetests! Hypotesetestproceduren kvantificerer det usædvanlige ved vores prøve med en sandsynlighed og sammenligner det derefter med en bevisstandard. Denne proces giver dig mulighed for at træffe en objektiv beslutning om bevisets styrke.
vi vil tilføje de værktøjer, vi har brug for for at tage denne beslutning, til grafen—signifikansniveauer og p-værdier!
disse værktøjer giver os mulighed for at teste disse to hypoteser:
- Nulhypotese: populationsmiddelværdien er lig med nulhypotesens gennemsnit (260).,
- alternativ hypotese: befolkningsgennemsnittet svarer ikke til nulhypotesen (260).
relateret indlæg: oversigt over hypotesetest
Hvad er Signifikansniveauer (Alfa)?
et signifikansniveau, også kendt som alfa eller α, er en bevisstandard, som en forsker sætter før undersøgelsen. Det definerer, hvor stærkt prøvebeviset skal modsige nulhypotesen, før du kan afvise nulhypotesen for hele befolkningen. Styrken af beviserne er defineret af sandsynligheden for at afvise en nulhypotese, der er sand., Det er med andre ord sandsynligheden for, at du siger, at der er en effekt, når der ikke er nogen effekt.
for eksempel betyder et signifikansniveau på 0,05 en 5% risiko for at beslutte, at en effekt eksisterer, når den ikke eksisterer.
lavere signifikansniveauer kræver stærkere prøvebevis for at kunne afvise nulhypotesen. For at være statistisk signifikant på 0.01 signifikansniveauet kræver for eksempel mere omfattende beviser end 0.05 signifikansniveauet. Der er dog en afvejning i hypotesetest., Lavere signifikansniveauer reducerer også kraften i en hypotesetest for at detektere en forskel, der eksisterer.
den tekniske karakter af disse typer spørgsmål kan få dit hoved til at dreje. Et billede kan bringe disse ideer til live!for at lære en mere konceptuel tilgang til signifikansniveauer, se mit indlæg om forståelse af Signifikansniveauer.
grafik Signifikansniveauer som kritiske regioner
på sandsynlighedsfordelingsplottet definerer signifikansniveauet, hvor langt prøveværdien skal være fra nulværdien, før vi kan afvise null., Procentdelen af arealet under kurven, der er skraveret, er lig med sandsynligheden for, at prøveværdien vil falde i disse regioner, hvis nulhypotesen er korrekt.
for at repræsentere et signifikansniveau på 0,05, skygger jeg 5% af fordelingen længst fra nulværdien.
de to skraverede regioner i grafen er lige langt fra den centrale værdi af nulhypotesen. Hver region har en sandsynlighed på 0,025, hvilket svarer til vores ønskede total på 0,05. Disse skraverede områder kaldes den kritiske region for en to-tailed hypotese test.,
den kritiske region definerer prøveværdier, der er usandsynlige nok til at berettige afvisning af nulhypotesen. Hvis nulhypotesen er korrekt, og populationsmiddelværdien er 260, har tilfældige prøver (n=25) Fra denne population midler, der falder i den kritiske region 5% af tiden.
vores prøvemiddelværdi er statistisk signifikant på 0.05-niveauet, fordi det falder i det kritiske område.
relateret indlæg: one-Tailed og T .o-Tailed Tests e Explainedplained
sammenligning Signifikansniveauer
lad os gentage denne hypotesetest ved hjælp af det andet almindelige signifikansniveau på 0.,01 for at se, hvordan det sammenligner.
Denne gang er summen af de to skraverede regioner er lig med vores nye signifikans niveau på 0,01. Gennemsnittet af vores prøve falder ikke inden for den kritiske region. Derfor undlader vi at afvise nulhypotesen. Vi har de samme nøjagtige prøvedata, den samme forskel mellem prøvemiddelværdien og nulhypotesværdien, men et andet testresultat.
Hvad skete der? Ved at angive et lavere signifikansniveau sætter vi en højere bjælke for prøvebeviset., Som grafen viser, flytter lavere signifikansniveauer de kritiske regioner længere væk fra nulværdien. Følgelig kræver lavere signifikansniveauer mere ekstreme prøvemidler for at være statistisk signifikante.
Du skal indstille signifikansniveauet, før du gennemfører en undersøgelse. Du ønsker ikke fristelsen til at vælge et niveau efter undersøgelsen, der giver betydelige resultater. Den eneste grund til at jeg sammenlignede de to signifikansniveauer var at illustrere virkningerne og forklare de forskellige resultater.,
den grafiske version af den 1-prøve t-test, vi oprettede, giver os mulighed for at bestemme statistisk betydning uden at vurdere P-værdien. Typisk skal du sammenligne P-værdien med signifikansniveauet for at gøre denne bestemmelse.relateret indlæg: trinvise instruktioner til, hvordan du udfører t-test i E ?cel
Hvad er p-værdier?
p værdier er sandsynligheden for, at en prøve vil have en effekt mindst lige så ekstrem som den effekt, der observeres i din prøve, hvis nulhypotesen er korrekt.
denne indviklede, tekniske definition for p-værdier kan få dit hoved til at dreje., Lad os tegne det!
først skal vi beregne den effekt, der er til stede i vores prøve. Effekten er afstanden mellem prøveværdien og nulværdien: 330.6-260 = 70.6. Dernæst vil jeg skygge regionerne på begge sider af distributionen, der er mindst så langt væk som 70,6 fra null (260 +/- 70.6). Denne proces grafer sandsynligheden for at observere en prøve middel mindst lige så ekstrem som vores prøve middelværdi.
den samlede sandsynlighed for de to skraverede regioner er 0, 03112., Hvis nulhypotesværdien (260) er sand, og du tegner mange tilfældige prøver, ville du forvente, at prøvemidler falder i de skraverede regioner omkring 3,1% af tiden. Med andre ord vil du observere prøveeffekter mindst lige så store som 70.6 om 3.1% af tiden, hvis nullet er sandt. Det er P-værdien!
brug af P-værdier og Signifikansniveauer sammen
Hvis din P-værdi er mindre end eller lig med dit alfaniveau, skal du afvise nulhypotesen.
resultaterne af p-værdien er i overensstemmelse med vores grafiske repræsentation. P-værdien på 0,03112 er signifikant ved alfa-niveauet på 0,05, men ikke 0.,01. Igen vælger du i praksis et signifikansniveau før eksperimentet og holder fast i det!
Ved anvendelse af signifikansniveauet på 0, 05 er prøveeffekten statistisk signifikant. Vores data understøtter den alternative hypotese, som siger, at befolkningen betyder ikke lig 260. Vi kan konkludere, at de gennemsnitlige brændstofudgifter er steget siden sidste år.
p-værdier fortolkes meget ofte forkert som sandsynligheden for at afvise en nulhypotese, der faktisk er sand. Denne fortolkning er forkert! For at forstå hvorfor, læs venligst mit indlæg: Sådan fortolkes P-værdier korrekt.,
diskussion om statistisk signifikante resultater
hypotesetest afgør, om dine prøvedata giver tilstrækkelige beviser til at afvise nulhypotesen for hele befolkningen. For at udføre denne test sammenligner proceduren din prøvestatistik med nullværdien og bestemmer, om den er tilstrækkelig sjælden. “Tilstrækkeligt sjælden” defineres i en hypotesetest af:
- under forudsætning af, at nullhypotesen er sand—graferne centrerer sig om nullværdien.
- signifikansniveauet (alfa)—hvor langt ud fra nulværdien er den kritiske region?,
- prøvestatistikken-er den inden for den kritiske region?
Der er ikke noget særligt signifikansniveau, der korrekt bestemmer, hvilke undersøgelser der har reelle befolkningseffekter 100% af tiden. De traditionelle signifikansniveauer på 0,05 og 0,01 er forsøg på at styre udvekslingen mellem at have en lav sandsynlighed for at afvise en sand nulhypotese og have tilstrækkelig magt til at opdage en effekt, hvis man faktisk eksisterer.signifikansniveauet er den hastighed, hvormed du forkert afviser null-hypoteser, der faktisk er sande (type i-fejl)., For eksempel for alle undersøgelser, der bruger et signifikansniveau på 0,05, og nulhypotesen er korrekt, kan du forvente, at 5% af dem har prøvestatistikker, der falder i den kritiske region. Når denne fejl opstår, er du ikke klar over, at nulhypotesen er korrekt, men du afviser den, fordi p-værdien er mindre end 0,05.
denne fejl angiver ikke, at forskeren har lavet en fejl. Som graferne viser, kan du observere ekstreme prøvestatistikker på grund af prøvefejl alene. Det er lykken i lodtrækningen!,relaterede indlæg: typer af fejl i hypotesetestning
hypotesetest er afgørende, når du vil bruge prøvedata til at drage konklusioner om en population, fordi disse test tegner sig for prøvefejl. Brug af signifikansniveauer og p-værdier til at bestemme, hvornår nulhypotesen skal afvises, forbedrer sandsynligheden for, at du vil drage den rigtige konklusion.
Husk, at statistisk betydning ikke nødvendigvis betyder, at effekten er vigtig i en praktisk, virkelighedens forstand. For mere information, læse mit indlæg om praktisk vs. statistisk betydning.,
Hvis du kan lide dette indlæg, skal du læse ledsagerindlægget: hvordan hypotesetest fungerer: konfidensintervaller og konfidensniveauer.
Du kan også læse mine andre indlæg, der beskriver, hvordan andre tests arbejde med:
- Hvordan t-Tests Arbejde
- Hvordan F-test virker i ANOVA
- Hvordan Chi-Squared Test af Uafhængighed Arbejde
for At se en alternativ tilgang til de traditionelle hypotese test, der ikke bruger sandsynlighedsfordelinger og test statistikker, lær om bootstrapping i statistikken!
Leave a Reply