Hypotese-testing er en viktig prosess i slutningsstatistikk hvor målet er å bruke for eksempel data til å trekke konklusjoner om en hel befolkning. I testing prosessen, kan du bruke betydning nivåer og p-verdier for å finne ut om test resultatene er statistisk signifikante.
Du høre om resultater som er statistisk signifikante, hele tiden. Men, hva gjør betydning nivåer, P-verdier, og statistisk signifikans faktisk representerer? Hvorfor gjør vi selv trenger å bruke hypotesetestene i statistikken?,
I dette innlegget, jeg svarer på alle disse spørsmålene. Jeg bruke grafer og begreper for å forklare hvordan hypotesen tester funksjonen for å gi en mer intuitiv forklaring. Dette hjelper deg med å flytte på å forstå statistiske resultatene.
hypotesetest Eksempel Scenario
for Å starte, jeg vil demonstrere hvorfor vi trenger å bruke hypotese tester ved hjelp av et eksempel.
En forsker er å studere drivstoffutgifter for familier og ønsker å finne ut om de månedlige kostnadene er endret siden i fjor, da var snittet $260 per måned., Forskeren trekker et tilfeldig utvalg på 25 familier og går inn i sin månedlige kostnader for dette året til statistisk programvare. Du kan laste ned CSV-data file: FuelsCosts. Nedenfor er den beskrivende statistikken for dette året.
Vi vil bygge videre på dette eksempel for å svare på spørsmålet forskning og vise hvordan hypotesetestene arbeid.
Beskrivende Statistikk Alene Vil ikke Svare på Spørsmålet
forskeren samlet inn et tilfeldig utvalg, og fant at årets eksempel betyr (330.6) er større enn fjorårets mean (260). Hvorfor utføre en hypotesetest i det hele tatt?, Vi kan se at dette året er gjennomsnittlig er høyere ved $70! Er ikke så forskjellig?
Dessverre er situasjonen ikke er så klart som du kanskje tror, fordi vi er å analysere et utvalg i stedet for hele befolkningen. Det er store fordeler når du arbeider med prøver fordi det vanligvis er umulig å samle inn data fra hele populasjonen. Imidlertid er ulempen for å arbeide med et håndterlig eksempel er at vi må konto for eksempel feil.
utvalgsfeilen er gapet mellom eksempel statistikk og befolkningen parameter., For vårt eksempel, eksempel statistikk er utvalgsgjennomsnittet, som er 330.6. Befolkningen parameteren ĩ, eller mu, som er gjennomsnittet av hele befolkningen. Dessverre, verdien av befolkningen parameteren er ikke bare ukjent, men vanligvis ukjennelige.
– Vi har fått et utvalgsgjennomsnitt av 330.6. Det er imidlertid tenkelig at, på grunn av utvalgsfeilen, gjennomsnittet av befolkningen kan være bare 260. Hvis forskeren trakk annen tilfeldig utvalg, er det neste eksempel mener kan være nærmere 260. Det er umulig å vurdere denne muligheten ved å se på bare utvalgsgjennomsnittet., Hypotesetesting er en form for slutningsstatistikk som tillater oss å trekke konklusjoner om hele befolkningen basert på et representativt utvalg. Vi trenger å bruke en hypotesetest for å fastslå sannsynligheten for å oppnå vårt eksempel bety at hvis befolkningen mener er 260.,
Bakgrunnsinformasjon: Forskjellen mellom Beskrivende og slutningsstatistikk og Bestander, Parametre, og Prøver i slutningsstatistikk
En Prøvetaking Distribusjon Avgjør Om utvalget Vårt Mener er Usannsynlig
Det er svært usannsynlig for noen eksempel bety å like befolkningen mener eksempel på grunn av feil. I vårt tilfelle, utvalgsgjennomsnittet av 330.6 er nesten definitivt ikke er lik befolkningen bety for drivstoff utgifter.,
Hvis vi kunne få et betydelig antall stikkprøver og beregne eksempel bety for hver prøve, vil vi observere et bredt spekter av prøven betyr. Vi vil selv være i stand til å grafen fordelingen av prøven betyr at fra denne prosessen.
Denne typen distribusjon kalles et utvalg distribusjon. Du får et utvalg distribusjon av tegning mange tilfeldige prøver av samme størrelse fra den samme populasjonen. Hvorfor pokker skulle vi gjøre dette?,
Fordi prøvetaking distribusjoner tillate deg å fastslå sannsynligheten for å oppnå eksempel statistikk og de er avgjørende for å utføre tester hypotesen.
Heldigvis, vi trenger ikke å gå til problemer med å samle en rekke stikkprøver! Vi kan beregne prøvetaking distribusjon bruke t-fordeling, vårt eksempel størrelse, og variasjon i utvalget vårt.
ønsker Vi å finne ut om gjennomsnittlig drivstoff-utgifter i året (330.6) er forskjellig fra siste år (260)., For å besvare dette spørsmålet, vil vi grafen prøvetaking distribusjon basert på en antakelse om at gjennomsnittlig drivstoffkostnad for hele befolkningen har ikke forandret seg, og er fortsatt 260. I statistikken, vi kaller denne mangelen på effekt, eller ingen endring, nullhypotesen. Vi bruker nullhypotesen verdi som grunnlag for sammenligningen for våre observert eksempel verdi.
Sampling-distribusjoner, og t-distribusjoner er typer av sannsynlighetsfordelinger. Les mer om sannsynlighetsfordelinger!,
– Graftegning vårt Eksempel Betyr i Sammenheng med Prøvetakingen Distribusjon
grafen nedenfor viser som eksempel betyr at det er mer sannsynlig mindre sannsynlig hvis befolkningen mener er 260. Vi kan plassere vårt eksempel betyr i denne fordelingen. Denne større sammenhengen hjelper oss til å se hvor usannsynlig utvalget vårt mener er hvis nullhypotesen er sann (μ = 260).
grafen viser anslått fordeling av prøven betyr. Den mest sannsynlige verdier er i nærheten 260 fordi handlingen antar at dette er sant befolkningen mener., Imidlertid, gitt tilfeldig utvalg feil, ville det ikke være overraskende å observere eksempel betyr alt fra 167 til 352. Hvis populasjonsgjennomsnittet er fortsatt 260, vår observert eksempel betyr (330.6) ikke er det mest sannsynlig verdi, men det er ikke helt usannsynlig heller.
Rollen hypotesetestene
Den tilfeldige fordelingen viser oss at vi er relativt usannsynlig å få en prøve av 330.6 hvis befolkningen mener er 260. Er vårt eksempel betyr så usannsynlig at vi kan avvise forestillingen om at befolkningen mener er 260?
I statistikk, kaller vi dette å forkaste nullhypotesen., Hvis vi avviser null i vårt eksempel forskjellen mellom utvalgsgjennomsnittet (330.6) og 260 er statistisk signifikant. Med andre ord, eksempeldataene favør av hypotesen om at gjennomsnittet for befolkningen ikke er lik 260.
Men se på prøvetaking distribusjon kartet igjen. Legg merke til at det er ingen spesiell plassering på kurven der du kan definitivt trekke denne konklusjonen. Det er bare en konsistent nedgang i sannsynligheten for å observere eksempel betyr at det er lenger fra nullhypotesen verdi. Hvor kan vi bestemme et utvalgsgjennomsnitt er langt nok?,
for Å svare på dette spørsmålet, trenger vi flere verktøy—hypotesen tester! Hypotesen testprosedyre tallfester unusualness av vårt eksempel med en sannsynlighet og deretter sammenligner det med en evidentiary standard. Denne prosessen lar deg gjøre en objektiv avgjørelse om styrken av bevis.
Vi kommer til å legge de verktøyene vi trenger for å lage denne beslutning om å grafen—betydning nivåer og p-verdier!
Disse verktøyene gir oss mulighet til å teste disse to hypoteser:
- nullhypotesen: populasjonsgjennomsnittet er lik null-hypotesen mean (260).,
- Alternativ hypotese: befolkningen mener ikke er lik null hypotesen mean (260).
Relaterte innlegg: hypotesetesting Oversikt
Hva er Betydningen Nivåer (Alpha)?
En betydning nivå, også kjent som alfa-eller α, er en evidentiary standard som forsker sett før studien. Den definerer hvor sterke bevis for eksempel må motsi nullhypotesen før du kan forkaste nullhypotesen for hele befolkningen. Styrken av bevis er definert som sannsynligheten for å forkaste en null-hypotesen er riktig., Med andre ord, det er sannsynligheten for at du sier at det er en effekt når det ikke er noen effekt.
For eksempel, en betydning nivå på 0,05 betyr en 5% risiko for å bestemme at en effekt eksisterer når det ikke eksisterer.
Lavere betydning nivåer krever sterkere bevis for eksempel å være i stand til å forkaste nullhypotesen. For eksempel, for å være statistisk signifikant på 0.01 betydning nivå krever betydelig mer bevis enn 0.05 betydning nivå. Men, det er en tradeoff i hypotesetestene., Lavere betydning nivåer også redusere makten til en hypotesetest for å oppdage en forskjell som eksisterer.
Den tekniske arten av slike spørsmål kan gjøre hodet spinn. Et bilde kan bringe disse ideene ut i livet!
for Å lære mer konseptuell tilnærming til betydningen nivåer, se innlegget mitt om å Forstå Betydningen Nivåer.
– Graftegning Betydning Nivåer som Kritiske Regioner
På sannsynlighetsfordeling tomten, betydningen nivået, definerer du hvor langt eksempel verdien må være fra null verdi før vi kan forkaste null., Andelen av arealet under kurven som er skyggelagt er lik sannsynligheten for at prøven verdi vil falle i de regionene hvis nullhypotesen er riktig.
for Å representere en betydning nivå på 0,05, jeg vil skyggen 5% av fordelingen lengst fra null-verdi.
De to skyggelagte områder i grafen er like langt fra den sentrale verdien av nullhypotesen. Hver region har en sannsynlighet på 0.025, som oppsummerer våre ønsket sum på 0,05. Disse skraverte områdene kalles den kritiske regionen for en to-tailed hypotesetest.,
Den kritiske regionen definerer eksempel verdier som er usannsynlig nok til å rettferdiggjøre å forkaste nullhypotesen. Hvis nullhypotesen er riktig, og at befolkningen mener er 260, stikkprøver (n=25) fra denne bestanden har midler som faller i den kritiske regionen 5% av tiden.
utvalget Vårt mener er statistisk signifikant på 0.05 nivå fordi det faller i den kritiske regionen.
Relaterte innlegg: One-Tailed og To-Tailed Tester Forklart
Sammenligning av Betydning Nivåer
La oss gjøre denne hypotesen test ved hjelp av de andre vanlige betydning nivå 0.,01 for å se hvordan det er sammenlignet.
Denne gangen er summen av de to skyggelagte områder er lik vår nye betydning nivå på 0,01. Det betyr i vårt eksempel ikke faller innenfor med den kritiske regionen. Følgelig, vi klarer ikke å avvise nullhypotesen. Vi har nøyaktig samme eksempel data, den samme forskjellen mellom utvalgsgjennomsnittet og nullhypotesen verdi, men en annen test resultat.
Hva skjedde? Ved å angi en lavere betydning nivå, og vi har satt en høyere søyle for eksempel bevis., Som grafen viser, lavere betydning nivåer flytte den kritiske områder lenger vekk fra null-verdi. Følgelig lavere betydning nivåer krever mer ekstreme eksempel betyr å være statistisk signifikant.
Du må angi betydningen nivå før du gjennomfører en undersøkelse. Ønsker du ikke fristelsen til å velge et nivå etter studiet som gir signifikante resultater. Den eneste grunnen til at jeg sammenlignet de to betydning nivåene var for å illustrere virkninger og forklare de ulike resultatene.,
Den grafiske versjonen av 1-utvalg t-test opprettet vi tillater oss å fastslå statistisk signifikans uten å vurdere P-verdi. Vanligvis, du trenger for å sammenligne P-verdi til den betydning nivå for å fastslå dette.
Relaterte innlegg: Trinn-for-Trinn-Instruksjoner for Hvordan du Gjør t-Tester i Excel
Hva Er P-verdier?
P-verdier er sannsynligheten for at en prøve vil ha en effekt minst like ekstrem som effekt observert i ditt eksempel hvis nullhypotesen er riktig.
Dette er kroket, teknisk definisjon for P-verdier kan gjøre hodet spinn., La oss grafen er det!
for det Første, vi trenger for å beregne effekten som er til stede i vårt eksempel. Effekten er avstanden mellom prøven og verdien null-verdi: 330.6 – 260 = 70.6. Neste, jeg vil skjerme områder på begge sider av fordelingen som er minst like langt borte som 70.6 fra null (260 +/- 70.6). Denne prosessen grafer sannsynligheten for å observere et eksempel bety minst like ekstrem som vårt eksempel betyr.
Den totale sannsynligheten for de to skyggelagte områder er 0.03112., Hvis nullhypotesen verdi (260) er sann, og du trakk mange stikkprøver, du forventer eksempel betyr å falle inn i det skyggelagte områder omkring 3,1% av tiden. Med andre ord, du vil observere eksempel virkninger minst like stor som 70.6 om 3.1% av tiden hvis null er sant. Det er P-verdi!
ved Hjelp av P-verdier og Betydning Nivåer Sammen
Hvis P-verdien er mindre enn eller lik din alpha-nivå, forkaster nullhypotesen.
P-verdi resultater er i tråd med vår grafiske fremstilling. P-verdien av 0.03112 er signifikante på alpha-nivå på 0,05 men ikke er 0.,01. Igjen, i praksis, kan du velge en betydning nivå før eksperimentet og stokk med det!
ved Hjelp av betydning nivå på 0,05, prøve-effekten er statistisk signifikant. Våre data støtter den alternative hypotesen, som sier at befolkningen mener ikke lik 260. Vi kan konkludere med at gjennomsnittlig drivstoff-utgifter har økt siden i fjor.
P-verdier er svært ofte feiltolkes som sannsynligheten for å forkaste en null-hypotese som er faktisk sant. Denne tolkningen er feil! For å forstå hvorfor, kan du lese innlegget mitt: Hvordan å Tolke P-verdier på Riktig måte.,
Diskusjon om Statistisk Signifikante Resultater
Hypotese tester for å fastslå om ditt eksempel data gir tilstrekkelig bevis for å forkaste nullhypotesen for hele befolkningen. For å utføre denne testen, prosedyre sammenligner eksempel statistikken til null-verdi og avgjør om det er tilstrekkelig sjeldne. «Tilstrekkelig sjeldne» er definert i en hypotesetest av:
- Forutsatt at nullhypotesen er sann—grafer center på null-verdi.
- Den betydning (alpha) nivå—hvor langt ut fra null-verdi er den kritiske regionen?,
- eksempel statistikk—er det i løpet av den kritiske regionen?
Det er ingen spesiell betydning nivå som riktig avgjør hvilke studier har ekte befolkning effekter 100% av tiden. Den tradisjonelle betydningen nivåer på 0,05 og 0,01 er forsøk på å behandle kompromisset mellom å ha en lav sannsynlighet for å forkaste en sann nullhypotesen og ha tilstrekkelig kraft til å oppdage en effekt hvis man faktisk eksisterer.
Den betydning nivå er den hastigheten som du feilaktig forkaste null-hypoteser som er faktisk sant (type i feil)., For eksempel, for alle studier som bruker en betydning nivå på 0,05 og nullhypotesen er riktig, kan du forvente 5% av dem for å ha for eksempel statistikk som faller i den kritiske regionen. Når denne feilen oppstår, er du ikke klar over at nullhypotesen er riktig, men du vil avvise det, fordi p-verdien er mindre enn 0.05.
Denne feilen tyder ikke på at forskeren har gjort en feil. Som grafene viser, kan du observere ekstreme eksempel statistikk på grunn av for eksempel feil alene. Det er flaks for uavgjort!,
Relaterte innlegg: Typer av Feil i Hypotese-Testing
hypotesetestene er avgjørende når du ønsker å bruke for eksempel data for å gjøre slutninger om en populasjon fordi disse testene konto for eksempel feil. Ved hjelp av betydning nivåer og P-verdier for å bestemme når man skal avvise nullhypotesen øker sannsynligheten for at du vil trekke den riktige konklusjonen.
husk at statistisk signifikans betyr ikke nødvendigvis at effekten er viktig i en praktisk, reell forstand. For mer informasjon, kan du lese innlegget mitt om Praktisk versus Statistisk Signifikans.,
Hvis du liker dette innlegget, må du lese companion-post: Hvordan hypotesetestene Arbeid: konfidensintervaller og Tillit Nivåer.
Du kan også lese min andre innlegg som beskriver hvordan andre tester arbeid:
- Hvordan t-Tester Arbeid
- Hvordan F-test virker i ANOVA
- Hvordan Chi-Kvadrat Tester av Uavhengighet Arbeid
for Å se en alternativ tilnærming til tradisjonelle hypotesetesting som ikke bruker sannsynlighetsfordelinger og test statistikk, lære om bootstrapping i statistikk!
Leave a Reply