Inferential statistics pozwala wyciągnąć wnioski na temat populacji za pomocą małych próbek. W związku z tym, wnioskowane statystyki zapewniają ogromne korzyści, ponieważ zazwyczaj nie można zmierzyć całej populacji.
jednak, aby uzyskać te korzyści, musisz zrozumieć związek między populacjami, subpopulacjami, parametrami populacji, próbkami i statystykami próbek.
w tym poście na blogu omawiam te pojęcia i jak uzyskać reprezentatywne próbki za pomocą losowego pobierania próbek.,
Related post: różnica między statystykami opisowymi i Wnioskowymi
populacje
populacje mogą obejmować ludzi, ale inne przykłady obejmują obiekty, wydarzenia, firmy i tak dalej. W statystyce istnieją dwa ogólne typy populacji.
populacje mogą być kompletnym zbiorem wszystkich podobnych elementów, które istnieją. Na przykład ludność danego kraju obejmuje wszystkich ludzi znajdujących się obecnie w tym kraju. To skończona, ale potencjalnie duża lista członków.
jednak populacja może być konstrukcją teoretyczną o potencjalnie nieskończonej wielkości., Na przykład analitycy poprawy jakości często uważają wszystkie obecne i przyszłe produkty z linii produkcyjnej za część populacji.
populacje mają określony zestaw atrybutów. Na przykład, następujące populacje:
- gwiazdy w galaktyce Drogi Mlecznej.
- części z linii produkcyjnej.
- obywatele Stanów Zjednoczonych.
zanim rozpoczniesz studia, musisz dokładnie określić populację, którą studiujesz. Populacje te mogą być wąsko zdefiniowane w celu zaspokojenia potrzeb analizy., Na przykład, dorosłych Szwedzkich kobiet, które są inaczej zdrowe, ale osteoporoza.
subpopulacje mogą poprawić Twoją analizę
subpopulacje mają dodatkowe atrybuty. Na przykład, populacja Stanów Zjednoczonych zawiera subpopulacje mężczyzn i kobiet. Możesz również podzielić go na inne sposoby, takie jak region, wiek, status społeczno-ekonomiczny i tak dalej. Różne badania, które dotyczą tej samej populacji, mogą podzielić ją na różne subpopulacje w zależności od tego, co ma sens dla danych i analiz.,
zrozumienie subpopulacji w badaniu pomaga lepiej zrozumieć przedmiot. Mogą również pomóc w tworzeniu modeli statystycznych, które lepiej pasują do danych. Subpopulacje są szczególnie ważne, gdy mają cechy, które systematycznie różnią się od ogólnej populacji. Analizując dane, musisz zdawać sobie sprawę z tych głębszych podziałów. W rzeczywistości odpowiednie subpopulacje można traktować jako dodatkowe czynniki w późniejszych analizach.,
na przykład, jeśli analizujesz średni wzrost dorosłych w Stanach Zjednoczonych, poprawisz swoje wyniki, włączając męskie i żeńskie subpopulacje, ponieważ ich wysokość jest systematycznie różna. Omówię ten przykład w dalszej części tego postu!
parametry populacji a Statystyki próbek
parametr jest wartością, która opisuje charakterystykę całej populacji, taką jak średnia populacji. Ponieważ prawie nigdy nie można zmierzyć całej populacji, zwykle nie znasz rzeczywistej wartości parametru., W rzeczywistości wartości parametrów są prawie zawsze niepoznawalne. Chociaż nie znamy wartości, to na pewno istnieje.
na przykład średni wzrost dorosłych kobiet w Stanach Zjednoczonych jest parametrem, który ma dokładną wartość—po prostu nie wiemy, co to jest!
średnia populacji i odchylenie standardowe to dwa wspólne parametry. W statystyce Greckie symbole Zwykle reprezentują parametry populacji, takie jak μ (mu) dla średniej i σ (sigma) dla odchylenia standardowego.
statystyka jest cechą próbki., Jeśli zbierzesz próbkę i obliczysz średnią i odchylenie standardowe, są to statystyki próbki. Statystyki wnioskowania pozwalają na wykorzystanie przykładowych statystyk do wyciągania wniosków na temat populacji. Jednak, aby wyciągnąć poprawne wnioski, należy użyć określonych technik pobierania próbek. Techniki te pomagają zapewnić, że próbki wytwarzają bezstronne szacunki. Tendencyjne szacunki są systematycznie zbyt wysokie lub zbyt niskie. Chcesz bezstronnych szacunków, ponieważ są one poprawne średnio.
w statystyce wnioskowej używamy statystyk przykładowych do oszacowania parametrów populacji., Na przykład, jeśli zbierzemy losową próbkę dorosłych kobiet w Stanach Zjednoczonych i zmierzymy ich wysokość, możemy obliczyć średnią próbki i użyć jej jako bezstronnego oszacowania średniej populacji. Możemy również wykonać Testowanie hipotezy na oszacowaniu próbki i utworzyć przedziały ufności, aby skonstruować zakres, w którym rzeczywista wartość populacji prawdopodobnie mieści się.,div id=”6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Po pobraniu próbki mierzysz jedną lub więcej cech wszystkich elementów w próbce, takich jak wysokość, dochód, temperatura, opinia itp. Jeśli chcesz wyciągnąć wnioski na temat tych cech w całej populacji, nakłada to ograniczenia dotyczące sposobu zbierania próbki. Jeśli zastosujesz nieprawidłową metodologię, próbka może nie reprezentować populacji, co może prowadzić do błędnych wniosków.
najbardziej znaną metodą uzyskania bezstronnej, reprezentatywnej próbki jest proste losowe pobieranie próbek., Dzięki tej metodzie wszystkie elementy w populacji mają równe prawdopodobieństwo wyboru. Proces ten pomaga zapewnić, że próbka obejmuje pełny zakres populacji. Ponadto wszystkie istotne subpopulacje powinny zostać włączone do próby i przedstawione dokładnie średnio. Proste losowe pobieranie próbek minimalizuje odchylenie i upraszcza analizę danych.
omówię metodologię pobierania próbek bardziej szczegółowo w przyszłym poście na blogu, ale istnieje kilka istotnych zastrzeżeń dotyczących prostego losowego pobierania próbek., Chociaż takie podejście minimalizuje uprzedzenia, nie oznacza to, że Twoje statystyki próbki dokładnie odpowiadają parametrom populacji. Zamiast tego szacunki z określonej próbki mogą być nieco wysokie lub niskie, ale proces produkuje dokładne szacunki średnio. Ponadto możliwe jest uzyskanie nietypowych próbek z losowym pobieraniem próbek—nie jest to po prostu oczekiwany wynik.
Related post: przykładowe Statystyki są zawsze błędne (w pewnym stopniu)!
dodatkowo, losowe próbkowanie może brzmieć nieco przypadkowo i łatwo zrobić—oba z nich nie są prawdziwe., Proste losowe pobieranie próbek zakłada, że systematycznie kompilujesz pełną listę wszystkich osób lub przedmiotów, które istnieją w populacji. Następnie losowo wybierasz tematy z tej listy i włączasz je do próbki. Może to być bardzo uciążliwy proces.
ożywmy te koncepcje!
przykład populacji o ważnych Subpopulacjach
Załóżmy, że badamy wzrost obywateli amerykańskich i załóżmy dalej, że nie wiemy zbyt wiele na ten temat., W związku z tym zbieramy próbkę losową, mierzymy wysokość w centymetrach oraz obliczamy średnią próbkę i odchylenie standardowe. Oto plik danych CSV: Heights.
otrzymujemy następujące wyniki:
ponieważ zebraliśmy próbkę losową, możemy założyć, że te statystyki próbek są bezstronnymi szacunkami parametrów populacji.
teraz Załóżmy, że dowiemy się więcej o obszarze badań i uwzględnimy mężczyzn i kobiety jako subpopulacje. Otrzymujemy następujące wyniki.,
zauważ, jak pojedyncza szeroka dystrybucja została zastąpiona przez dwie węższe dystrybucje? Rozkład dla każdej płci ma mniejsze odchylenie standardowe niż rozkład pojedynczy dla wszystkich dorosłych, co jest zgodne z dokładniejszym rozłożeniem środków zarówno dla mężczyzn, jak i kobiet na wykresie. Wyniki te pokazują, w jaki sposób średnia zapewnia bardziej precyzyjne szacunki, gdy oceniamy wysokość według płci. W rzeczywistości średnia dla całej populacji nie jest równa średniej dla żadnej subpopulacji. To wprowadza w błąd!,
podczas tego procesu dowiadujemy się, że płeć jest kluczową subpopulacją, która odnosi się do wzrostu i zwiększa nasze zrozumienie tematu. W przyszłych badaniach dotyczących wzrostu możemy uwzględnić płeć jako zmienną predykcyjną.
Ten przykład wykorzystuje zmienną kategoryczną grupującą (płeć) i zmienną ciągłą wyniku (wysokość). Jeśli chcesz porównać dystrybucje wartości ciągłych między grupami, jak w tym przykładzie, rozważ użycie diagramów i pojedynczych Wykresów wartości. Działki te stają się bardziej użyteczne wraz ze wzrostem liczby grup.,
Ten przykład jest celowo łatwy do zrozumienia, ale wyobraź sobie badanie na mniej oczywisty temat. Proces ten pomaga uzyskać nowe spostrzeżenia i stworzyć lepsze modele statystyczne.
korzystając z wiedzy na temat populacji, subpopulacji, parametrów, pobierania próbek i statystyk próbek, możesz wyciągnąć cenne wnioski na temat dużych populacji za pomocą małych próbek. Aby uzyskać więcej informacji o tym, jak można testować hipotezy o populacjach, przeczytaj mój przegląd testów hipotez.
Leave a Reply