inferentiel statistik kan du drage konklusioner om populationer ved hjælp af små prøver. Følgelig giver inferentiel statistik enorme fordele, fordi du typisk ikke kan måle en hel befolkning.
for at opnå disse fordele skal du dog forstå forholdet mellem populationer, underpopulationer, populationsparametre, prøver og prøvestatistikker.
i dette blogindlæg diskuterer jeg disse begreber, og hvordan man får repræsentative prøver ved hjælp af tilfældig prøveudtagning.,relateret indlæg: forskel mellem beskrivende og inferentiel statistik
populationer
populationer kan omfatte mennesker, men andre eksempler inkluderer objekter, begivenheder, virksomheder og så videre. I statistikker er der to generelle typer populationer.populationer kan være det komplette sæt af alle lignende ting, der findes. For eksempel omfatter befolkningen i et land alle mennesker i øjeblikket inden for dette land. Det er en begrænset, men potentielt stor liste over medlemmer.
en population kan dog være en teoretisk konstruktion, der potentielt er uendelig i størrelse., For eksempel overvejer kvalitetsforbedringsanalytikere ofte, at al nuværende og fremtidig produktion fra en produktionslinje er en del af en befolkning.populationer deler et sæt attributter, som du definerer. For eksempel er følgende populationer:
- stjerner i Mælkevejsgalaksen.
- dele fra en produktionslinje.
- borgere i USA.
før du begynder en undersøgelse, skal du omhyggeligt definere den befolkning, du studerer. Disse populationer kan defineres snævert for at imødekomme behovene i din analyse., For eksempel voksne svenske kvinder, der ellers er sunde, men har osteoporose.
subpopulationer kan forbedre din analyse
subpopulationer deler yderligere attributter. For eksempel, befolkningen i USA indeholder underpopulationer af mænd og kvinder. Du kan også opdele det på andre måder som region, alder, socioøkonomisk status og så videre. Forskellige undersøgelser, der involverer den samme population, kan opdele det i forskellige underpopulationer afhængigt af, hvad der giver mening for dataene og analyserne.,forståelse af underpopulationerne i din undersøgelse hjælper dig med at forstå emnet mere grundigt. De kan også hjælpe dig med at producere statistiske modeller, der passer bedre til dataene. Subpopulationer er især vigtige, når de har karakteristika, der systematisk adskiller sig fra den samlede befolkning. Når du analyserer dine data, skal du være opmærksom på disse dybere divisioner. Faktisk kan du behandle de relevante underpopulationer som yderligere faktorer i senere analyser.,hvis du for eksempel analyserer den gennemsnitlige højde for voksne i USA, forbedrer du dine resultater ved at inkludere mandlige og kvindelige underpopulationer, fordi deres højder systematisk er forskellige. Jeg vil dække dette eksempel i dybden senere i dette indlæg!
Populationsparametre versus Prøvestatistik
en parameter er en værdi, der beskriver et kendetegn for en hel population, såsom populationsmiddelværdien. Fordi du næsten aldrig kan måle en hel befolkning, kender du normalt ikke den reelle værdi af en parameter., Faktisk er parameterværdier næsten altid uvidende. Selvom vi ikke kender værdien, eksisterer den bestemt.for eksempel er den gennemsnitlige højde for voksne kvinder i USA en parameter, der har en nøjagtig værdi—vi ved bare ikke, hvad det er!
populationsmiddelværdien og standardafvigelsen er to almindelige parametre. I statistikker repræsenterer græske symboler normalt befolkningsparametre, såsom μ (mu) for middelværdien og sig (Sigma) for standardafvigelsen.
en statistik er et kendetegn ved en prøve., Hvis du samler en prøve og beregner middelværdien og standardafvigelsen, er disse prøvestatistikker. Inferentiel statistik giver dig mulighed for at bruge prøvestatistikker til at drage konklusioner om en befolkning. For at drage gyldige konklusioner skal du dog bruge bestemte prøveudtagningsteknikker. Disse teknikker hjælper med at sikre, at prøver producerer upartiske skøn. Partiske estimater er systematisk for høje eller for lave. Du ønsker upartiske skøn, fordi de er korrekte i gennemsnit.
i inferentielle statistikker bruger vi prøvestatistikker til at estimere befolkningsparametre., For eksempel, hvis vi indsamler en tilfældig prøve af voksne kvinder i USA og måler deres højder, vi kan beregne prøvemiddelværdien og bruge den som et upartisk skøn over befolkningens middelværdi. Vi kan også udføre hypotesetest på prøvestimatet og skabe tillidsintervaller for at konstruere et interval, som den faktiske befolkningsværdi sandsynligvis falder inden for.,div id=”6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Når du har tegnet prøven, måler du en eller flere egenskaber ved alle elementer i prøven, såsom højde, indkomst, temperatur, mening osv. Hvis du vil drage konklusioner om disse egenskaber i hele befolkningen, pålægger Det begrænsninger for, hvordan du samler prøven. Hvis du bruger en forkert metode, repræsenterer prøven muligvis ikke befolkningen, hvilket kan føre dig til fejlagtige konklusioner.
den mest kendte metode til at opnå en objektiv, repræsentativ prøve er simpel tilfældig prøveudtagning., Med denne metode har alle elementer i befolkningen en lige stor sandsynlighed for at blive valgt. Denne proces hjælper med at sikre, at prøven omfatter hele befolkningens rækkevidde. Desuden bør alle relevante delpopulationer indarbejdes i prøven og repræsenteres nøjagtigt i gennemsnit. Simpel tilfældig prøveudtagning minimerer bias og forenkler dataanalyse.
Jeg vil diskutere prøveudtagningsmetode mere detaljeret i et fremtidigt blogindlæg, men der er flere afgørende advarsler om simpel tilfældig prøveudtagning., Mens denne tilgang minimerer bias, indikerer det ikke, at din prøvestatistik nøjagtigt svarer til befolkningsparametrene. I stedet vil estimater fra en bestemt prøve sandsynligvis være lidt høje eller lave, men processen producerer nøjagtige estimater i gennemsnit. Desuden er det muligt at opnå usædvanlige prøver med tilfældig prøveudtagning—det er bare ikke det forventede resultat.relaterede indlæg: Sample statistik er altid forkert (til en vis grad)!
derudover kan tilfældig prøveudtagning lyde lidt tilfældigt og let at gøre—som begge ikke er sande., Enkel tilfældig prøveudtagning forudsætter, at du systematisk udarbejder en komplet liste over alle mennesker eller genstande, der findes i befolkningen. Du vælger derefter tilfældigt emner fra denne liste og inkluderer dem i prøven. Det kan være en meget besværlig proces.
lad os bringe disse begreber til liv!
Eksempel på en Population med Vigtige Delpopulationer
Antag, at vi studerer højden af Amerikanske borgere, og lad os yderligere antage, at vi ikke ved meget om emnet., Derfor indsamler vi en tilfældig prøve, måler højderne i centimeter og beregner prøvens gennemsnit og standardafvigelse. Her er CSV – datafilen: højder.
Vi opnå følgende resultater:
Fordi vi samlet en tilfældig stikprøve, kan vi antage, at disse eksempler på statistikker er unbiased estimater af befolkningen parametre.antag nu, at vi lærer mere om studieområdet og inkluderer mandlige og kvindelige som underpopulationer. Vi opnår følgende resultater.,
bemærk, hvordan den enkelte brede distribution er blevet erstattet af to smalere distributioner? Fordelingen for hvert køn har en mindre standardafvigelse end den enkelte fordeling for alle voksne, hvilket er i overensstemmelse med den strammere spredning omkring midlerne for både mænd og kvinder i grafen. Disse resultater viser, hvordan gennemsnittet giver mere præcise estimater, når vi vurderer højder efter køn. Faktisk svarer gennemsnittet for hele befolkningen ikke til gennemsnittet for nogen af underbefolkningen. Det er vildledende!,
under denne proces lærer vi, at køn er en afgørende underbefolkning, der vedrører højde og øger vores forståelse af emnet. I fremtidige studier om højde kan vi inkludere køn som en forudsigelsesvariabel.dette eksempel bruger en kategorisk grupperingsvariabel (køn) og en kontinuerlig resultatvariabel (højder). Når du ønsker at sammenligne distributioner af kontinuerlige værdier mellem grupper som dette eksempel, overveje at bruge bo .plots og individuelle værdi plots. Disse tomter bliver mere nyttige, da antallet af grupper stiger.,
dette eksempel er med vilje let at forstå, men forestil dig en undersøgelse om et mindre indlysende emne. Denne proces hjælper dig med at få ny indsigt og producere bedre statistiske modeller.
Ved hjælp af din viden om populationer, underpopulationer, parametre, prøveudtagning og prøvestatistik kan du drage værdifulde konklusioner om store populationer ved at bruge små prøver. For mere information om, hvordan du kan teste hypoteser om populationer, læs min oversigt over hypotesetest.
Leave a Reply