inferenční statistika umožňuje vyvodit závěry o populacích pomocí malých vzorků. V důsledku toho inferenční statistiky poskytují obrovské výhody, protože obvykle nemůžete měřit celou populaci.
Chcete-li však tyto výhody získat, musíte pochopit vztah mezi populacemi, subpopulacemi, parametry populace, vzorky a statistikami vzorků.
v tomto blogu diskutuji o těchto konceptech a o tom, jak získat reprezentativní vzorky pomocí náhodného odběru vzorků.,
Související příspěvek: Rozdíl mezi Deskriptivní a Inferenční Statistiky
Populace
Populace může zahrnovat lidi, ale i jiné příklady zahrnují objekty, události, podniky, a tak dále. Ve statistikách existují dva obecné typy populací.
populace může být kompletní sada všech podobných položek, které existují. Například populace země zahrnuje všechny lidi v současné době v této zemi. Je to konečný, ale potenciálně velký seznam členů.
populace však může být teoretický konstrukt, který má potenciálně nekonečnou velikost., Například analytici zlepšování kvality často považují veškerý současný a budoucí výstup z výrobní linky za součást populace.
populace sdílejí sadu atributů, které definujete. Například následující jsou populace:
- hvězdy v galaxii Mléčné dráhy.
- díly z výrobní linky.
- občané Spojených států.
než začnete studovat, musíte pečlivě definovat populaci, kterou studujete. Tyto populace mohou být úzce definovány tak, aby vyhovovaly potřebám vaší analýzy., Například dospělé švédské ženy, které jsou jinak zdravé, ale mají osteoporózu.
subpopulace mohou zlepšit vaši analýzu
subpopulace sdílejí další atributy. Například populace Spojených států obsahuje subpopulace mužů a žen. Můžete jej také rozdělit jinými způsoby, jako je region, věk, socioekonomický status atd. Různé studie, které zahrnují stejnou populaci, ji mohou rozdělit do různých subpopulací v závislosti na tom, co má smysl pro data a analýzy.,
pochopení subpopulací ve vaší studii vám pomůže důkladněji pochopit předmět. Mohou vám také pomoci vytvářet statistické modely, které lépe zapadají do dat. Subpopulace jsou zvláště důležité, pokud mají charakteristiky, které jsou systematicky odlišné od celkové populace. Když analyzujete svá data, musíte si být vědomi těchto hlubších divizí. Ve skutečnosti můžete příslušné subpopulace považovat za další faktory v pozdějších analýzách.,
například, pokud jste analýza průměrná výška dospělých ve Spojených Státech, budete zlepšit své výsledky, včetně mužských a ženských skupin, protože jejich výšky jsou systematicky liší. Tento příklad podrobně pokryji později v tomto příspěvku!
Population Parameters versus Sample Statistics
parametr je hodnota, která popisuje charakteristiku celé populace, například populačního průměru. Protože téměř nikdy nemůžete měřit celou populaci, obvykle neznáte skutečnou hodnotu parametru., Ve skutečnosti jsou hodnoty parametrů téměř vždy neznámé. I když neznáme hodnotu, rozhodně existuje.
například, průměrná výška dospělých žen ve Spojených Státech je parametr, který má přesnou hodnotu—jen nevíme, co to je!
populační průměr a směrodatná odchylka jsou dva společné parametry. Ve statistikách řecké symboly obvykle představují populační parametry, jako je μ (mu) pro průměr a σ (sigma) pro směrodatnou odchylku.
statistika je charakteristika vzorku., Pokud shromáždíte vzorek a vypočítáte střední a směrodatnou odchylku, jedná se o statistiky vzorků. Inferenční statistiky vám umožňují použít ukázkové statistiky k vyvození závěrů o populaci. Chcete-li však vyvodit platné závěry, musíte použít konkrétní techniky odběru vzorků. Tyto techniky pomáhají zajistit, aby vzorky vytvářely objektivní odhady. Zkreslené odhady jsou systematicky příliš vysoké nebo příliš nízké. Chcete objektivní odhady, protože jsou správné v průměru.
v inferenční statistice používáme statistiku vzorků k odhadu parametrů populace., Pokud například shromáždíme náhodný vzorek dospělých žen ve Spojených státech a změříme jejich výšky, můžeme vypočítat průměr vzorku a použít jej jako nezaujatý odhad populačního průměru. Můžeme také provést testování hypotéz na odhadu vzorku a vytvořit intervaly spolehlivosti pro vytvoření rozsahu, do kterého skutečná hodnota populace pravděpodobně spadá.,div id=“6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Po nakreslení vzorku změříte jednu nebo více charakteristik všech položek ve vzorku, jako je výška, příjem, teplota, názor atd. Pokud chcete vyvodit závěry o těchto charakteristikách v celé populaci, ukládá omezení toho, jak sbíráte vzorek. Pokud použijete nesprávnou metodiku, vzorek nemusí představovat populaci, což vás může vést k chybným závěrům.
nejznámější metodou pro získání nezaujatého reprezentativního vzorku je jednoduchý náhodný odběr vzorků., S touto metodou mají všechny položky v populaci stejnou pravděpodobnost výběru. Tento proces pomáhá zajistit, aby vzorek zahrnoval celý rozsah populace. Kromě toho by všechny relevantní subpopulace měly být začleněny do vzorku a měly by být v průměru přesně reprezentovány. Jednoduchý náhodný vzorkování minimalizuje zkreslení a zjednodušuje analýzu dat.
podrobněji budu diskutovat o metodice odběru vzorků v budoucím blogu, ale existuje několik zásadních upozornění na jednoduchý náhodný vzorkování., I když tento přístup minimalizuje zkreslení, neznamená to, že vaše statistiky vzorků přesně odpovídají parametrům populace. Namísto, odhady z konkrétního vzorku budou pravděpodobně trochu vysoké nebo nízké, ale proces vytváří v průměru přesné odhady. Kromě toho je možné získat neobvyklé vzorky s náhodným vzorkováním-prostě to není očekávaný výsledek.
související příspěvek: statistiky vzorků jsou vždy Špatné (do jisté míry)!
náhodný odběr vzorků může navíc znít trochu nahodile a snadno—oba nejsou pravdivé., Jednoduchý náhodný odběr vzorků předpokládá, že systematicky sestavujete úplný seznam všech lidí nebo položek, které existují v populaci. Poté náhodně vyberete předměty z tohoto seznamu a zahrnete je do vzorku. Může to být velmi těžkopádný proces.
pojďme tyto pojmy oživit!
příklad populace s důležitými Subpopulacemi
Předpokládejme, že studujeme výšku amerických občanů a předpokládejme, že o tomto tématu toho moc nevíme., V důsledku toho shromažďujeme náhodný vzorek, změříme výšky v centimetrech a vypočítáme průměr vzorku a směrodatnou odchylku. Zde je datový soubor CSV: Heights.
získáme následující výsledky:
Protože jsme se sešli náhodný vzorek, můžeme předpokládat, že tyto ukázkové statistiky jsou nestranné odhady parametrů základního souboru.
nyní předpokládejme, že se dozvíme více o studijní oblasti a zahrneme muže a ženy jako subpopulace. Získáme následující výsledky.,
Všimněte si, jak jeden široká distribuce byla nahrazena dvěma užší distribucí? Distribuce pro každé pohlaví má menší směrodatnou odchylku než jeden distribuci pro všechny dospělé, což je v souladu s přísnější šíří kolem znamená pro muže a ženy v grafu. Tyto výsledky ukazují, jak průměr poskytuje přesnější odhady, když hodnotíme výšky podle pohlaví. Ve skutečnosti se průměr pro celou populaci nerovná průměru pro subpopulaci. Je to zavádějící!,
během tohoto procesu se dozvídáme, že pohlaví je zásadní subpopulace, která se týká výšky a zvyšuje naše chápání předmětu. V budoucích studiích o výšce můžeme zahrnout pohlaví jako prediktorovou proměnnou.
tento příklad používá kategorickou seskupovací proměnnou (pohlaví) a proměnnou spojitého výsledku (výšky). Když chcete porovnat rozdělení spojitých hodnot mezi skupinami, jako je tento příklad, zvažte použití boxplots a jednotlivé hodnoty pozemků. Tyto pozemky se stávají užitečnějšími, protože se zvyšuje počet skupin.,
tento příklad je záměrně snadno pochopitelný, ale představte si studii o méně zřejmém předmětu. Tento proces vám pomůže získat nové poznatky a vytvořit lepší statistické modely.
pomocí svých znalostí populací, subpopulací, parametrů, vzorkování a statistik vzorků můžete pomocí malých vzorků vyvodit cenné závěry o velkých populacích. Pro více informací o tom, jak můžete testovat hypotézy o populacích, si přečtěte můj přehled testů hypotéz.
Leave a Reply