inferenciális statisztikák segítségével következtetéseket vonhat le a populációkról kis minták felhasználásával. Következésképpen az inferenciális statisztikák óriási előnyökkel járnak, mivel általában nem lehet mérni egy egész népességet.
ezeknek az előnyöknek a megszerzéséhez azonban meg kell értened a populációk, a szubpopulációk, a populációs paraméterek, a minták és a mintastatisztika közötti kapcsolatot.
ebben a blogbejegyzésben megvitatom ezeket a fogalmakat, valamint azt, hogyan lehet reprezentatív mintákat szerezni véletlenszerű mintavételezéssel.,
kapcsolódó bejegyzés: a leíró és inferenciális statisztikák közötti különbség
populációk
populációk lehetnek emberek, de más példák lehetnek tárgyak, események, vállalkozások stb. A statisztikákban két általános típusú populáció létezik.
a populációk lehetnek az összes létező hasonló elem teljes halmaza. Például egy ország lakossága magában foglalja az adott országon belüli összes embert. Ez egy véges, de potenciálisan nagy tagok listája.
azonban egy populáció lehet egy elméleti konstrukció, amely potenciálisan végtelen méretű., Például a minőségjavító elemzők gyakran úgy vélik, hogy a gyártósorból származó összes jelenlegi és jövőbeli kibocsátás a lakosság része.
a populációk egy sor attribútumot osztanak meg, amelyeket megad. Például a következők populációk:
- csillagok a Tejútrendszer galaxisában.
- alkatrészek gyártósorról.
- Az Egyesült Államok polgárai.
a vizsgálat megkezdése előtt gondosan meg kell határoznia a vizsgált populációt. Ezek a populációk szűken definiálhatók, hogy megfeleljenek az elemzés igényeinek., Például felnőtt svéd nők, akik egyébként egészségesek, de osteoporosisban szenvednek.
Subpopulations javíthatja az elemzés
Subpopulations megosztani további attribútumokat. Az Egyesült Államok lakossága például a férfiak és a nők szubpopulációit tartalmazza. Más módon is feloszthatja, mint például a régió, az életkor, a társadalmi-gazdasági helyzet stb. Különböző tanulmányok, amelyek ugyanazt a populációt foglalják magukban, különböző alpopulációkra oszthatják, attól függően, hogy mi értelme van az adatoknak és az elemzéseknek.,
A tanulmány alpopulációinak megértése segít alaposabban megérteni a témát. Segíthetnek olyan statisztikai modellek előállításában is, amelyek jobban illeszkednek az adatokhoz. A szubpopulációk különösen fontosak, ha olyan jellemzőkkel rendelkeznek, amelyek szisztematikusan különböznek a teljes populációtól. Az adatok elemzésekor tisztában kell lennie ezekkel a mélyebb megosztottságokkal. Valójában a későbbi elemzésekben további tényezőként kezelheti a vonatkozó alpopulációkat.,
például, ha az Egyesült Államokban a felnőttek átlagos magasságát elemezzük, akkor javítjuk az eredményeket a férfi és női alpopulációk bevonásával, mivel magasságuk szisztematikusan eltérő. Ezt a példát később részletesen ismertetem ebben a bejegyzésben!
populációs paraméterek versus Sample Statistics
a paraméter egy olyan érték, amely leírja a jellemző egy egész populáció, mint például a populáció átlagos. Mivel szinte soha nem lehet mérni egy egész populációt, általában nem ismeri a paraméter valós értékét., Valójában a paraméterértékek szinte mindig ismeretlenek. Bár nem tudjuk az értéket, határozottan létezik.
például az Egyesült Államokban a felnőtt nők átlagos magassága olyan paraméter, amelynek pontos értéke van-csak nem tudjuk, mi az!
a populációs átlag és a szórás két közös paraméter. A statisztikákban a görög szimbólumok általában populációs paramétereket képviselnek, például μ (mu) az átlagra, és σ (sigma) a szórásra.
a statisztika egy minta jellemzője., Ha összegyűjti a mintát, és kiszámítja az átlagos és szórás, ezek minta statisztikák. Az inferenciális statisztikák lehetővé teszik a mintastatisztikák használatát a lakosságra vonatkozó következtetések levonására. Az érvényes következtetések levonásához azonban bizonyos mintavételi technikákat kell használnia. Ezek a technikák segítenek biztosítani, hogy a minták elfogulatlan becsléseket készítsenek. Az elfogult becslések szisztematikusan túl magasak vagy túl alacsonyak. Elfogulatlan becsléseket akarsz, mert átlagosan helyesek.
az inferenciális statisztikákban minta statisztikákat használunk a populációs paraméterek becslésére., Például, ha véletlenszerű mintát gyűjtünk felnőtt Nőkről Az Egyesült Államokban, és megmérjük magasságukat, kiszámolhatjuk a minta átlagát, és felhasználhatjuk a népesség átlagának elfogulatlan becslésére. Mi is elvégezheti hipotézis vizsgálat a mintában becsült létre konfidencia-intervallum építeni egy sor, hogy a tényleges népesség érték valószínűleg tartozik.,div id=”6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., A minta rajzolása után megméri a minta összes elemének egy vagy több jellemzőjét, például magasságot, jövedelmet, hőmérsékletet, véleményt stb. Ha következtetéseket szeretne levonni ezekről a jellemzőkről az egész népességben, akkor korlátozza a minta gyűjtésének módját. Ha helytelen módszertant használ, előfordulhat, hogy a minta nem képviseli a lakosságot, ami téves következtetésekhez vezethet.
a legismertebb módszer elfogulatlan, reprezentatív minta megszerzésére egyszerű véletlenszerű mintavétel., Ezzel a módszerrel a lakosság minden elemének egyenlő valószínűsége van a kiválasztásnak. Ez a folyamat segít biztosítani, hogy a minta tartalmazza a lakosság teljes körét. Ezenkívül minden releváns alpopulációt be kell építeni a mintába, és átlagosan pontosan meg kell jelölni. Az egyszerű véletlenszerű mintavétel minimalizálja a torzítást, és egyszerűsíti az adatelemzést.
a mintavételi módszertant részletesebben tárgyalom egy jövőbeli blogbejegyzésben, de számos alapvető figyelmeztetés van az egyszerű véletlenszerű mintavételről., Bár ez a megközelítés minimalizálja az elfogultságot, nem jelzi, hogy a minta statisztikái pontosan megegyeznek a népesség paramétereivel. Ehelyett egy adott mintából származó becslések valószínűleg kissé magasak vagy alacsonyak, de a folyamat átlagosan pontos becsléseket eredményez. Ezenkívül véletlenszerű mintavétellel szokatlan mintákat lehet beszerezni-ez csak nem a várt eredmény.
kapcsolódó hozzászólás: a minta statisztikái mindig rosszak (bizonyos mértékig)!
ezenkívül a véletlenszerű mintavétel kissé véletlenszerűnek és könnyen végrehajthatónak tűnhet—mindkettő nem igaz., Az egyszerű véletlenszerű mintavétel feltételezi, hogy szisztematikusan összeállítja a lakosságban létező összes ember vagy elem teljes listáját. Ezután véletlenszerűen kiválasztod az alanyokat a listából, és beveszed őket a mintába. Ez nagyon nehézkes folyamat lehet.
hozzuk életre ezeket a fogalmakat!
példa egy fontos Alpopulációval rendelkező populációra
tegyük fel, hogy tanulmányozzuk az amerikai állampolgárok magasságát, és tegyük fel, hogy nem tudunk sokat a témáról., Következésképpen véletlenszerű mintát gyűjtünk, mérjük meg a magasságokat centiméterben, és kiszámítjuk a minta átlagát és szórását. Itt van a CSV adatfájl: Heights.
a következő eredményeket kapjuk:
mivel véletlenszerű mintát gyűjtöttünk össze, feltételezhetjük, hogy ezek a mintastatisztikák a populációs paraméterek elfogulatlan becslései.
most tegyük fel, hogy többet megtudunk a vizsgálati területről, és a hím és a nőstény szubpopulációként szerepel. A következő eredményeket kapjuk.,
figyeljük meg, hogy az egységes széles eloszlást hogyan váltotta fel két szűkebb disztribúció? Az egyes nemek eloszlása kisebb szórással rendelkezik, mint az összes felnőtt egyetlen eloszlása, ami összhangban van a gráfban mind a férfiak, mind a nők eszközeinek szorosabb elterjedésével. Ezek az eredmények azt mutatják, hogy az átlag pontosabb becsléseket ad, amikor a magasságot nemek szerint értékeljük. Valójában a teljes népesség átlaga nem egyenlő az egyik alpopuláció átlagával. Ez félrevezető!,
e folyamat során megtanuljuk, hogy a nem egy kritikus alnépesedés, amely a magassághoz kapcsolódik, és növeli a tárgy megértését. A magasságról szóló jövőbeli tanulmányokban a nemet prediktor változóként is felvehetjük.
Ez a példa egy kategorikus csoportosítási változót (nem) és egy folyamatos eredményváltozót (Heights) használ. Ha össze szeretné hasonlítani a folyamatos értékek eloszlását az ilyen csoportok között, fontolja meg a boxplots és az egyedi érték parcellák használatát. Ezek a telkek hasznosabbá válnak, mivel a csoportok száma növekszik.,
ezt a példát szándékosan könnyű megérteni, de elképzelni egy kevésbé nyilvánvaló témáról szóló tanulmányt. Ez a folyamat segít új betekintést nyerni és jobb statisztikai modelleket előállítani.
a populációk, szubpopulációk, paraméterek, mintavételi és mintavételi statisztikák ismeretével értékes következtetéseket vonhat le a nagy populációkról kis minták felhasználásával. Ha többet szeretne megtudni arról, hogyan tesztelheti a populációkkal kapcsolatos hipotéziseket, olvassa el a hipotézis tesztek áttekintését.
Leave a Reply