Testowanie hipotez jest istotnym procesem w wnioskowaniu statystyk, gdzie celem jest wykorzystanie danych przykładowych do wyciągania wniosków na temat całej populacji. W procesie testowania używa się poziomów istotności i wartości p, aby określić, czy wyniki testu są istotne statystycznie.
cały czas słyszysz, że wyniki są istotne statystycznie. Ale co poziomy istotności, wartości P i znaczenie statystyczne faktycznie reprezentują? Dlaczego w ogóle musimy używać testów hipotez w statystykach?,
w tym poście odpowiadam na wszystkie te pytania. Używam wykresów i pojęć, aby wyjaśnić, jak działają testy hipotetyczne, aby zapewnić bardziej intuicyjne Wyjaśnienie. Pomaga to przejść do zrozumienia wyników statystycznych.
przykładowy scenariusz testu hipotetycznego
aby rozpocząć, zademonstruję, dlaczego musimy użyć testu hipotetycznego na przykładzie.
badacz bada wydatki na paliwo dla rodzin i chce ustalić, czy miesięczny koszt zmienił się od zeszłego roku, kiedy średnia wynosiła 260 USD miesięcznie., Badacz pobiera losową próbkę 25 rodzin i wpisuje ich miesięczne koszty za ten rok do oprogramowania statystycznego. Możesz pobrać plik danych CSV: FuelsCosts. Poniżej przedstawiamy statystyki opisowe za ten rok.
będziemy budować na tym przykładzie, aby odpowiedzieć na pytanie badawcze i pokazać, jak działają testy hipotezy.
same statystyki opisowe nie odpowiedzą na pytanie
badacz zebrał próbkę losową i stwierdził, że tegoroczna średnia próbna (330,6) jest większa niż ubiegłoroczna średnia (260). Po co w ogóle testować hipotezy?, Widzimy, że tegoroczna średnia jest wyższa o 70 dolarów! Czy to nie różnica?
Niestety sytuacja nie jest tak jasna, jak mogłoby się wydawać, ponieważ analizujemy próbkę zamiast pełnej populacji. Istnieją ogromne korzyści podczas pracy z próbkami, ponieważ zwykle nie można zebrać danych z całej populacji. Jednak kompromis w pracy z kontrolowaną próbką polega na tym, że musimy uwzględnić błąd próbki.
błąd pobierania próbek jest luką między statystyką próbki a parametrem populacji., Dla naszego przykładu, statystyka próbki jest średnia próbka, która jest 330.6. Parametrem populacji jest μ lub mu, który jest średnią całej populacji. Niestety, wartość parametru population jest nie tylko nieznana, ale zazwyczaj nie do poznania.
uzyskaliśmy średnią próbną 330,6. Jednak jest to możliwe, że z powodu błędu pobierania próbek, średnia populacji może być tylko 260. Jeśli badacz narysował kolejną próbkę losową, Następna średnia próbki może być bliżej 260. Nie jest możliwe, aby ocenić tę możliwość, patrząc tylko na średnią próbki., Testowanie hipotez jest formą wnioskowania statystyki, która pozwala nam wyciągnąć wnioski o całej populacji na podstawie reprezentatywnej próbki. Musimy użyć testu hipotezy, aby określić prawdopodobieństwo uzyskania naszej średniej próbki, jeśli średnia populacji wynosi 260.,
Informacje podstawowe: różnica między opisowych i wnioskowania statystyki i populacje, parametry, i próbki w wnioskowania statystyki
rozkład próbkowania Określa, czy Nasza średnia próbka jest mało prawdopodobne
jest bardzo mało prawdopodobne dla każdej średniej próbki równa średniej populacji z powodu błędu próbki. W naszym przypadku średnia próbna 330,6 jest prawie na pewno nie równa średniej populacji dla wydatków na paliwo.,
gdybyśmy mogli uzyskać znaczną liczbę losowych próbek i obliczyć średnią próbki dla każdej próbki, zaobserwowalibyśmy szerokie spektrum środków próbki. Moglibyśmy nawet wykreślić rozkład środków próbki z tego procesu.
ten rodzaj rozkładu nazywa się rozkładem próbkowania. Można uzyskać rozkład próbkowania, rysując wiele losowych próbek tej samej wielkości z tej samej populacji. Po cholerę mielibyśmy to robić?,
ponieważ rozkład próbkowania pozwala określić prawdopodobieństwo uzyskania statystyki próbki i są one kluczowe dla wykonywania testów hipotez.
na szczęście nie musimy się trudzić zbieraniem wielu losowych próbek! Możemy oszacować rozkład próbkowania za pomocą rozkładu t, naszej wielkości próbki i zmienności w naszej próbce.
chcemy się dowiedzieć, czy średnie wydatki na paliwo w tym roku (330,6) różnią się od ubiegłorocznych (260)., Aby odpowiedzieć na to pytanie, wykresujemy rozkład próbkowania w oparciu o założenie, że średni koszt paliwa dla całej populacji nie zmienił się i nadal wynosi 260. W statystyce, nazywamy ten brak efektu, lub brak zmiany, hipoteza zerowa. Używamy wartości hipotezy zerowej jako podstawy porównania dla naszej obserwowanej wartości próbki.
rozkład próbkowania i rozkład t są rodzajami rozkładów prawdopodobieństwa. Dowiedz się więcej o rozkładach prawdopodobieństwa!,
wykresy naszej średniej próbki w kontekście rozkładu pobierania próbek
Poniższy wykres pokazuje, które środki próbki są bardziej prawdopodobne i mniej prawdopodobne, jeśli średnia populacji wynosi 260. Możemy umieścić naszą próbkę średnią w tym rozkładzie. Ten większy kontekst pomaga nam zobaczyć, jak mało prawdopodobne jest nasza średnia próbka, jeśli hipoteza zerowa jest prawdziwa (μ = 260).
wykres wyświetla szacunkowy rozkład średnich próbek. Najbardziej prawdopodobne wartości to blisko 260, ponieważ Wykres zakłada, że jest to prawdziwa średnia dla populacji., Jednakże, biorąc pod uwagę losowy błąd pobierania próbek, nie byłoby zaskakujące, aby obserwować środki próbki w zakresie od 167 do 352. Jeśli średnia populacji wynosi nadal 260, nasza obserwowana średnia próbki (330.6) nie jest najbardziej prawdopodobną wartością, ale nie jest też całkowicie nieprawdopodobna.
rola testów hipotez
rozkład próbkowania pokazuje nam, że jesteśmy stosunkowo mało prawdopodobne, aby uzyskać próbkę 330,6, jeśli średnia populacji wynosi 260. Czy Nasza średnia próbna jest tak mało prawdopodobna, że możemy odrzucić pogląd, że średnia populacji wynosi 260?
w statystyce nazywamy to odrzuceniem hipotezy zerowej., Jeśli odrzucimy null dla naszego przykładu, różnica między średnią próbki (330.6) i 260 jest statystycznie istotna. Innymi słowy, przykładowe dane sprzyjają hipotezie, że średnia ludności nie równa 260.
jednak spójrz na wykres rozkładu próbkowania ponownie. Zauważ, że nie ma specjalnego miejsca na krzywej, w którym można definitywnie wyciągnąć ten wniosek. Istnieje tylko konsekwentny spadek prawdopodobieństwa obserwacji próbki oznacza, że są dalej od wartości hipotezy zerowej. Gdzie decydujemy, że średnia próbki jest wystarczająco daleko?,
aby odpowiedzieć na to pytanie, będziemy potrzebować więcej narzędzi—testów hipotez! Procedura testowania hipotezy kwantyfikuje niezwykłość naszej próbki z prawdopodobieństwem, a następnie porównuje ją do standardu dowodowego. Proces ten pozwala na podjęcie obiektywnej decyzji o sile dowodów.
dodamy narzędzia potrzebne do podjęcia tej decyzji do poziomów istotności wykresu i wartości p!
narzędzia te pozwalają nam przetestować te dwie hipotezy:
- hipoteza zerowa: średnia populacji równa się średnia hipoteza zerowa (260).,
- hipoteza Alternatywna: średnia populacji nie równa średniej hipotezy zerowej (260).
Related post: przegląd testów hipotez
jakie są poziomy istotności (Alfa)?
poziom istotności, znany również jako alfa lub α, jest standardem dowodowym, który badacz ustala przed badaniem. Określa, jak mocno dowody próbki musi przeczyć hipotezę zerową, zanim można odrzucić hipotezę zerową dla całej populacji. Siła dowodu jest określona przez prawdopodobieństwo odrzucenia hipotezy zerowej, która jest prawdziwa., Innymi słowy, jest to prawdopodobieństwo, że mówisz, że istnieje efekt, gdy nie ma efektu.
na przykład poziom istotności 0,05 oznacza 5% ryzyko stwierdzenia, że efekt istnieje, gdy nie istnieje.
niższe poziomy istotności wymagają silniejszych dowodów próbki, aby móc odrzucić hipotezę zerową. Na przykład, aby być statystycznie istotnym na poziomie istotności 0,01 wymaga bardziej istotnych dowodów niż poziom istotności 0,05. Istnieje jednak kompromis w testach hipotez., Niższe poziomy istotności zmniejszają również moc testu hipotetycznego do wykrycia różnicy, która istnieje.
techniczny charakter tego typu pytań może sprawić, że kręci ci się w głowie. Zdjęcie może ożywić te pomysły!
aby dowiedzieć się bardziej konceptualnego podejścia do poziomów istotności, zobacz mój post o zrozumieniu poziomów istotności.
wykresy poziomów istotności jako krytyczne regiony
na wykresie rozkładu prawdopodobieństwa, poziom istotności określa, jak daleko wartość próbki musi być od wartości null, zanim możemy odrzucić null., Procent powierzchni pod krzywą, która jest zacieniona, równa się prawdopodobieństwu, że wartość próbki spadnie w tych regionach, jeśli hipoteza zerowa jest poprawna.
aby reprezentować poziom istotności 0.05, odcień 5% rozkładu najdalej od wartości null.
dwa zacienione regiony na wykresie są w równej odległości od centralnej wartości hipotezy zerowej. Prawdopodobieństwo dla każdego regionu wynosi 0,025, co daje nam oczekiwaną sumę 0,05. Te zacienione obszary nazywane są regionem krytycznym dla testu hipotezy dwuogonowej.,
region krytyczny definiuje wartości próbki, które są na tyle nieprawdopodobne, aby uzasadnić odrzucenie hipotezy zerowej. Jeśli hipoteza zerowa jest poprawna, a średnia populacji wynosi 260, losowe próbki (n=25) z tej populacji oznacza, że spadek w regionie krytycznym 5% czasu.
Nasza średnia próbkowa jest statystycznie istotna na poziomie 0,05, ponieważ spada w regionie krytycznym.
Related post: testy jedno-i dwu-ogoniaste wyjaśnione
porównanie poziomów istotności
powtórzmy ten Test hipotezy, używając drugiego wspólnego poziomu istotności 0.,01, aby zobaczyć, jak to porównuje.
tym razem suma dwóch zacienionych regionów jest równa naszemu nowemu poziomowi znaczenia 0.01. Średnia naszej próbki nie mieści się w krytycznym regionie. W konsekwencji nie możemy odrzucić hipotezy zerowej. Mamy te same dokładne dane próbki, tę samą różnicę między średnią próbki i wartość hipotezy zerowej, ale inny wynik testu.
Co się stało? Określając niższy poziom istotności, ustawiamy wyższą poprzeczkę dla przykładowych dowodów., Jak pokazuje wykres, niższe poziomy istotności oddalają regiony krytyczne od wartości null. W związku z tym niższe poziomy istotności wymagają bardziej ekstremalnych środków próbki, aby były istotne statystycznie.
musisz ustawić poziom istotności przed przeprowadzeniem badania. Nie chcesz pokusy wyboru poziomu po badaniu, które daje znaczące wyniki. Jedynym powodem, dla którego porównałem dwa poziomy istotności, było zilustrowanie efektów i wyjaśnienie różnic w wynikach.,
graficzna wersja 1-próbkowego testu t, który stworzyliśmy, pozwala nam określić istotność statystyczną bez oceny wartości P. Zazwyczaj, trzeba porównać wartość P do poziomu istotności, aby to określenie.
Related post: instrukcje krok po kroku Jak zrobić t-testy w Excelu
czym są wartości P?
wartości P są prawdopodobieństwo, że próbka będzie mieć efekt co najmniej tak ekstremalne jak efekt zaobserwowany w próbce, jeśli hipoteza zerowa jest poprawna.
Ta kręta, techniczna definicja wartości P może sprawić, że zakręcisz głową., Wykreślmy to!
najpierw musimy obliczyć efekt obecny w naszej próbce. Efektem jest odległość między wartością próbki a wartością zerową: 330,6-260 = 70,6. Następnie zaciemnię regiony po obu stronach rozkładu, które są co najmniej tak daleko, jak 70.6 od null (260 +/- 70.6). Proces ten wykresy prawdopodobieństwo obserwacji średniej próbki co najmniej tak ekstremalne jak nasza średnia próbki.
całkowite prawdopodobieństwo obu zacienionych regionów wynosi 0.03112., Jeśli wartość hipotezy zerowej (260) jest prawdziwa i narysowałeś wiele losowych próbek, można oczekiwać, że próbka oznacza spadek w zacienionych regionach o 3.1% czasu. Innymi słowy, można zaobserwować efekty próbki co najmniej tak duże, jak 70.6 około 3.1% czasu, jeśli null jest prawdziwe. To jest wartość P!
używanie wartości P i poziomów istotności razem
Jeśli wartość P jest mniejsza lub równa poziomowi Alfa, Odrzuć hipotezę zerową.
wyniki wartości p są zgodne z naszą graficzną reprezentacją. Wartość P wynosząca 0,03112 jest znacząca na poziomie Alfa wynoszącym 0,05, ale nie 0.,01. Ponownie, w praktyce, wybrać jeden poziom znaczenia przed eksperymentem i trzymać się go!
korzystając z poziomu istotności 0,05, efekt próbki jest statystycznie istotny. Według danych na rok 1990 gminę zamieszkiwało 260 osób, a gęstość zaludnienia wynosiła 26 osób / km2. Możemy stwierdzić, że średnie wydatki na paliwo wzrosły od zeszłego roku.
wartości P są bardzo często błędnie interpretowane jako prawdopodobieństwo odrzucenia hipotezy zerowej, która jest rzeczywiście prawdziwa. Ta interpretacja jest błędna! Aby zrozumieć dlaczego, proszę przeczytać mój post: jak poprawnie interpretować wartości P.,
dyskusja na temat statystycznie istotnych wyników
testy hipotezy określić, czy dane próbki dostarczyć wystarczających dowodów, aby odrzucić hipotezę zerową dla całej populacji. Aby wykonać ten test, procedura porównuje statystyki próbki do wartości null i określa, czy jest wystarczająco rzadkie. „Wystarczająco Rzadki” jest zdefiniowany w teście hipotezy przez:
- zakładając, że hipoteza zerowa jest prawdziwa—wykresy centrum na wartości null.
- poziom istotności (Alfa) – jak daleko od wartości Nul jest Region krytyczny?,
- przykładowa statystyka – czy jest w regionie krytycznym?
nie ma specjalnego poziomu istotności, który poprawnie określa, które badania mają rzeczywisty wpływ na populację w 100% przypadków. Tradycyjne poziomy istotności 0.05 i 0.01 są próby zarządzania kompromis między mając niskie prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej i posiadające odpowiednią moc do wykrycia efektu, jeśli jeden rzeczywiście istnieje.
poziom istotności to szybkość, z jaką błędnie odrzucasz hipotezy zerowe, które są rzeczywiście prawdziwe(błąd typu I)., Na przykład, dla wszystkich badań, które wykorzystują poziom istotności 0.05 i hipoteza zerowa jest poprawna, można oczekiwać, że 5% z nich mają statystyki próbki, które wchodzą w regionie krytycznym. Gdy wystąpi ten błąd, nie jesteś świadomy, że hipoteza zerowa jest poprawna, ale odrzucisz ją, ponieważ wartość p jest mniejsza niż 0,05.
ten błąd nie oznacza, że badacz popełnił błąd. Jak pokazują wykresy, możesz obserwować ekstremalne statystyki próbek z powodu samego błędu próbki. To szczęście w losowaniu!,
Related post: rodzaje błędów w testowaniu hipotez
testy hipotez są kluczowe, gdy chcesz użyć przykładowych danych do wyciągnięcia wniosków na temat populacji, ponieważ testy te stanowią przykładowy błąd. Korzystanie poziomy istotności i wartości P w celu określenia, kiedy odrzucić hipotezę zerową zwiększa prawdopodobieństwo, że będzie wyciągnąć poprawny wniosek.
należy pamiętać, że znaczenie statystyczne nie musi oznaczać, że efekt jest ważny w praktycznym, rzeczywistym sensie. Aby uzyskać więcej informacji, przeczytaj mój post o znaczeniu praktycznym a statystycznym.,
Jeśli podoba ci się ten post, przeczytaj Post towarzyszący: jak działają testy hipotetyczne: przedziały ufności i poziomy ufności.
Możesz również przeczytać moje inne posty, które opisują, jak działają inne testy:
- Jak działają testy t
- jak działa Test F W ANOVA
- Jak działają testy chi-kwadrat niezależności
aby zobaczyć alternatywne podejście do tradycyjnego testowania hipotez, które nie wykorzystuje rozkładów prawdopodobieństwa i statystyk testów, dowiedz się o bootstrapping w statystykach!
Leave a Reply