inferentiell statistik kan du dra slutsatser om populationer genom att använda små prover. Följaktligen ger inferentiell statistik enorma fördelar eftersom du vanligtvis inte kan mäta en hel befolkning.
För att få dessa fördelar måste du förstå sambandet mellan populationer, subpopulationer, populationsparametrar, prover och provstatistik.
i det här blogginlägget diskuterar jag dessa begrepp och hur man får representativa prover med slumpmässig provtagning.,
relaterat inlägg: skillnad mellan beskrivande och inferentiell statistik
populationer
populationer kan inkludera människor, men andra exempel inkluderar objekt, händelser, företag och så vidare. I statistiken finns det två allmänna typer av populationer.
populationer kan vara den kompletta uppsättningen av alla liknande objekt som finns. Till exempel omfattar befolkningen i ett land alla personer som för närvarande befinner sig i det landet. Det är en ändlig men potentiellt stor lista över medlemmar.
en population kan dock vara en teoretisk konstruktion som är potentiellt oändlig i storlek., Till exempel anser kvalitetsförbättringsanalytiker ofta att all nuvarande och framtida produktion från en tillverkningslinje är en del av en befolkning.
populationer delar en uppsättning attribut som du definierar. Till exempel är följande populationer:
- stjärnor i Vintergatan.
- delar från en produktionslinje.
- medborgare i USA.
innan du börjar en studie måste du noggrant definiera den population du studerar. Dessa populationer kan definieras snävt för att möta behoven hos din analys., Till exempel vuxna svenska kvinnor som annars är friska men har osteoporos.
subpopulationer kan förbättra din analys
subpopulationer dela ytterligare attribut. Till exempel, befolkningen i USA innehåller subpopulationer av män och kvinnor. Du kan också dela upp det på andra sätt som region, ålder, socioekonomisk status och så vidare. Olika studier som involverar samma befolkning kan dela upp det i olika subpopulationer beroende på vad som är meningsfullt för data och analyser.,
att förstå subpopulationerna i din studie hjälper dig att förstå ämnet mer noggrant. De kan också hjälpa dig att producera statistiska modeller som passar data bättre. Subpopulationer är särskilt viktiga när de har egenskaper som systematiskt skiljer sig från den totala befolkningen. När du analyserar dina data måste du vara medveten om dessa djupare divisioner. I själva verket kan du behandla relevanta subpopulationer som ytterligare faktorer i senare analyser.,
om du till exempel analyserar den genomsnittliga höjden för vuxna i USA, kommer du att förbättra dina resultat genom att inkludera manliga och kvinnliga subpopulationer eftersom deras höjder är systematiskt olika. Jag täcker det exemplet på djupet senare i det här inlägget!
Populationsparametrar kontra provstatistik
en parameter är ett värde som beskriver en egenskap hos en hel population, t.ex. populationsmedelvärdet. Eftersom du nästan aldrig kan mäta en hel befolkning, vet du vanligtvis inte det verkliga värdet av en parameter., Faktum är att parametervärdena nästan alltid är okännliga. Även om vi inte vet värdet, det finns definitivt.
till exempel är den genomsnittliga höjden för vuxna kvinnor i USA en parameter som har ett exakt värde—vi vet bara inte vad det är!
populationens medelvärde och standardavvikelse är två vanliga parametrar. I statistiken representerar grekiska symboler vanligtvis populationsparametrar, såsom μ (mu) för medelvärdet och σ (sigma) för standardavvikelsen.
en statistik är en egenskap hos ett prov., Om du samlar in ett prov och beräknar medel-och standardavvikelsen är det provstatistik. Inferentiell statistik gör att du kan använda provstatistik för att dra slutsatser om en befolkning. För att dra giltiga slutsatser måste du dock använda särskilda provtagningstekniker. Dessa tekniker bidrar till att prover ger opartiska uppskattningar. Partiska uppskattningar är systematiskt för höga eller för låga. Du vill ha objektiva uppskattningar eftersom de är korrekta i genomsnitt.
i inferentiell statistik använder vi provstatistik för att uppskatta populationsparametrar., Om vi till exempel samlar in ett slumpmässigt urval av vuxna kvinnor i USA och mäter deras höjder, kan vi beräkna provmedelvärdet och använda det som en objektiv uppskattning av befolkningens medelvärde. Vi kan också utföra hypotesprovning på provberäkningen och skapa konfidensintervall för att konstruera ett intervall som det faktiska befolkningsvärdet sannolikt faller inom.,div id=”6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Efter att ha ritat provet mäter du en eller flera egenskaper hos alla objekt i provet, såsom höjd, inkomst, temperatur, åsikt etc. Om du vill dra slutsatser om dessa egenskaper hos hela befolkningen, innebär det begränsningar för hur du samlar provet. Om du använder en felaktig metod kan provet inte representera befolkningen, vilket kan leda till felaktiga slutsatser.
den mest kända metoden för att erhålla ett opartiskt representativt prov är enkel slumpmässig provtagning., Med denna metod har alla objekt i befolkningen lika stor sannolikhet att väljas. Denna process hjälper till att säkerställa att provet innehåller hela befolkningen. Dessutom bör alla relevanta delpopulationer införlivas i provet och representeras exakt i genomsnitt. Enkel slumpmässig provtagning minimerar bias och förenklar dataanalys.
Jag ska diskutera provtagningsmetodik mer detaljerat i ett framtida blogginlägg, men det finns flera viktiga varningar om enkel slumpmässig provtagning., Medan detta tillvägagångssätt minimerar bias, indikerar det inte att din provstatistik exakt motsvarar befolkningsparametrarna. I stället kommer uppskattningar från ett specifikt prov sannolikt att vara lite höga eller låga, men processen ger exakta uppskattningar i genomsnitt. Dessutom är det möjligt att få ovanliga prover med slumpmässig provtagning-det är bara inte det förväntade resultatet.
relaterat inlägg: provstatistik är alltid fel (till viss del)!
dessutom kan slumpmässig provtagning låta lite slumpmässig och lätt att göra—vilka båda inte är sanna., Enkel slumpmässig provtagning förutsätter att du systematiskt sammanställer en komplett lista över alla personer eller objekt som finns i befolkningen. Du väljer sedan slumpmässigt ämnen från den listan och inkluderar dem i provet. Det kan vara en mycket besvärlig process.
låt oss få dessa begrepp till liv!
exempel på en befolkning med viktiga subpopulationer
Antag att vi studerar amerikanska medborgares höjd och låt oss vidare anta att vi inte vet mycket om ämnet., Följaktligen samlar vi ett slumpmässigt prov, mäter höjderna i centimeter och beräknar provmedelvärdet och standardavvikelsen. Här är CSV-datafilen: Heights.
vi får följande resultat:
eftersom vi samlat ett slumpmässigt urval kan vi anta att dessa provstatistik är objektiva uppskattningar av populationsparametrarna.
anta nu att vi lär oss mer om studieområdet och inkluderar manliga och kvinnliga som subpopulationer. Vi får följande resultat.,
Lägg märke till hur den enda breda distributionen har ersatts av två smalare distributioner? Fördelningen för varje kön har en mindre standardavvikelse än den enskilda fördelningen för alla vuxna, vilket överensstämmer med den snävare spridningen kring medel för både män och kvinnor i diagrammet. Dessa resultat visar hur medelvärdet ger mer exakta uppskattningar när vi bedömer höjder efter kön. Faktum är att medelvärdet för hela befolkningen inte motsvarar medelvärdet för antingen subpopulation. Det är vilseledande!,
under denna process lär vi oss att kön är en avgörande subpopulation som relaterar till höjd och ökar vår förståelse av ämnet. I framtida studier om höjd kan vi inkludera kön som en prediktorvariabel.
det här exemplet använder en kategorisk grupperingsvariabel (kön) och en kontinuerlig resultatvariabel (höjder). När du vill jämföra distributioner av kontinuerliga värden mellan grupper som det här exemplet, överväg att använda boxplots och enskilda värdediagram. Dessa tomter blir mer användbara eftersom antalet grupper ökar.,
det här exemplet är avsiktligt lätt att förstå men föreställ dig en studie om ett mindre uppenbart ämne. Denna process hjälper dig att få nya insikter och producera bättre statistiska modeller.
med din kunskap om populationer, subpopulationer, parametrar, provtagning och provstatistik kan du dra värdefulla slutsatser om stora populationer genom att använda små prover. För mer information om hur du kan testa hypoteser om populationer, läs min översikt över Hypotestester.
Leave a Reply