testování Hypotéz je životně důležitý proces v inferenční statistice, kde cílem je použít ukázková data vyvodit závěry o celé populaci. V procesu testování, použijete úrovně významnosti a hodnoty p k určení, zda jsou výsledky testů statisticky významné.
slyšíte, že výsledky jsou statisticky významné po celou dobu. Co však skutečně představují úrovně významnosti, hodnoty P a statistická významnost? Proč dokonce potřebujeme ve statistikách používat testy hypotéz?,
v tomto příspěvku odpovídám na všechny tyto otázky. Používám grafy a koncepty, abych vysvětlil, jak fungují testy hypotéz, abych poskytl intuitivnější vysvětlení. To vám pomůže přejít k pochopení vašich statistických výsledků.
příklad testu hypotézy scénář
pro začátek ukážu, proč musíme použít testy hypotéz pomocí příkladu.
výzkumník studuje paliva výdaje pro rodiny s dětmi a chce zjistit, zda měsíční náklady se změnilo od loňského roku, kdy v průměru 260 dolarů za měsíc., Výzkumník čerpá náhodný vzorek 25 rodin a vkládá své měsíční náklady na tento rok do statistického softwaru. Můžete si stáhnout datový soubor CSV: FuelsCosts. Níže jsou uvedeny popisné statistiky pro tento rok.
na tomto příkladu budeme stavět, abychom odpověděli na výzkumnou otázku a ukázali, jak testy hypotéz fungují.
Popisné Statistiky Sám nechce Odpovědět na Otázku
výzkumník zjišťovat náhodný vzorek a zjistil, že v letošním roce je výběrový průměr (330.6) je větší než v loňském roce průměrná (260). Proč vůbec provést test hypotézy?, Vidíme, že letošní průměr je vyšší o $70! Není to jiné?
bohužel, situace není tak jasná, jak si myslíte, protože analyzujeme vzorek místo plné populace. Při práci se vzorky jsou obrovské výhody, protože je obvykle nemožné shromažďovat data od celé populace. Kompromisem pro práci s zvládnutelným vzorkem je však to, že musíme počítat s chybou vzorku.
chyba vzorkování je mezera mezi statistikou vzorku a parametrem populace., Pro náš příklad je ukázkovou statistikou průměr vzorku, který je 330.6. Parametr populace je μ nebo mu, což je průměr celé populace. Bohužel hodnota parametru populace není jen neznámá, ale obvykle nepoznatelná.
získali jsme průměr vzorku 330.6. Lze si však představit, že v důsledku chyby vzorkování může být průměr populace pouze 260. Pokud výzkumník nakreslil další náhodný vzorek, další průměr vzorku by mohl být blíže k 260. Tuto možnost nelze posoudit pouze pohledem na průměr vzorku., Testování hypotéz je forma inferenční statistiky, která nám umožňuje vyvodit závěry o celé populaci založené na reprezentativním vzorku. Musíme použít test hypotézy k určení pravděpodobnosti získání průměru vzorku, pokud je průměr populace 260.,
základní informace: Rozdíl mezi Deskriptivní a Inferenční Statistiky a Populace, Parametry a Ukázky v Inferenční Statistiky
výběrového Rozdělení Určuje, Zda je Náš výběrový průměr, je Nepravděpodobné, že
je velmi nepravděpodobné, že pro jakýkoli výběrový průměr se rovná populačnímu průměru, protože chyb ze vzorku. V našem případě se vzorový průměr 330,6 téměř rozhodně nerovná populačnímu průměru za výdaje na pohonné hmoty.,
Pokud bychom mohli získat značný počet náhodných vzorků a výpočet střední vzorku pro každý vzorek, budeme pozorovat široké spektrum vzorku znamená. Z tohoto procesu bychom dokonce mohli grafovat distribuci vzorových prostředků.
tento typ distribuce se nazývá vzorkovací distribuce. Distribuci vzorků získáte nakreslením mnoha náhodných vzorků stejné velikosti ze stejné populace. Proč bychom to sakra dělali?,
protože distribuce vzorků vám umožňují určit pravděpodobnost získání statistiky vzorku a jsou rozhodující pro provádění testů hypotéz.
naštěstí nemusíme chodit do potíží se sběrem četných náhodných vzorků! Rozdělení vzorků můžeme odhadnout pomocí t-distribuce, velikosti vzorku a variability našeho vzorku.
chceme zjistit, zda se průměrné výdaje na pohonné hmoty v letošním roce (330, 6) liší od loňského roku (260)., Odpovědět na tuto otázku, budeme graf vzorkování distribuce založená na předpokladu, že průměrné náklady na palivo pro celou populaci, se nezměnila a je stále 260. Ve statistikách nazýváme tento nedostatek účinku nebo žádnou změnu nulovou hypotézou. Hodnotu nulové hypotézy používáme jako základ srovnání pro naši pozorovanou hodnotu vzorku.
vzorkovací distribuce a t-distribuce jsou typy rozdělení pravděpodobnosti. Další informace o rozdělení pravděpodobnosti!,
Grafující průměr našeho vzorku v souvislosti s distribucí vzorku
níže uvedený graf ukazuje, které prostředky vzorku jsou pravděpodobnější a méně pravděpodobné, pokud je populační průměr 260. Do této distribuce můžeme umístit náš vzorový průměr. Tento větší kontext nám pomáhá vidět, jak nepravděpodobný je náš vzorový průměr, pokud je nulová hypotéza pravdivá (μ = 260).
graf zobrazuje odhadované rozdělení vzorkových prostředků. Nejpravděpodobnější hodnoty jsou blízko 260, protože spiknutí předpokládá, že se jedná o skutečný populační průměr., Vzhledem k chybě náhodného odběru vzorků by však nebylo překvapivé pozorovat prostředky vzorku v rozmezí od 167 do 352. Pokud je průměr populace stále 260, náš pozorovaný průměr vzorku (330.6) není nejpravděpodobnější hodnotou, ale není to ani zcela nepravděpodobné.
Role Hypotéza Zkoušky
výběrového rozložení nám ukazuje, že jsme poměrně nepravděpodobné, že získat vzorek 330.6, kdyby populační průměr je 260. Je náš vzorek tak nepravděpodobný, že můžeme odmítnout představu, že průměr populace je 260?
ve statistikách to nazýváme odmítnutím nulové hypotézy., Pokud odmítneme null pro náš příklad, je statisticky významný rozdíl mezi průměrem vzorku (330, 6) a 260. Jinými slovy, údaje o vzorku upřednostňují hypotézu, že průměr populace se nerovná 260.
podívejte se však znovu na graf distribuce vzorků. Všimněte si, že na křivce není žádné zvláštní místo, kde můžete tento závěr definitivně vyvodit. Existuje pouze konzistentní snížení pravděpodobnosti pozorování vzorku znamená, že jsou dále od hodnoty nulové hypotézy. Kde se rozhodneme, že vzorový průměr je dostatečně daleko?,
abychom mohli odpovědět na tuto otázku, budeme potřebovat více nástrojů—testy hypotéz! Postup testování hypotéz kvantifikuje neobvyklost našeho vzorku s pravděpodobností a poté jej porovná s důkazním standardem. Tento proces Vám umožňuje objektivně rozhodnout o síle důkazů.
přidáme nástroje, které potřebujeme k tomuto rozhodnutí, do úrovní významnosti grafu a hodnot p!
Tyto nástroje nám umožňují testovat tyto dvě hypotézy:
- Nulová hypotéza: průměr populace rovná se nulová hypotéza (260).,
- alternativní hypotéza: populační průměr se nerovná průměru nulové hypotézy (260).
související příspěvek: přehled testování hypotéz
jaké jsou úrovně významnosti (Alpha)?
úroveň významnosti, známá také jako alfa nebo α, je důkazním standardem, který výzkumník stanoví před studií. Definuje, jak silně musí ukázkový důkaz odporovat nulové hypotéze, než můžete odmítnout nulovou hypotézu pro celou populaci. Síla důkazů je definována pravděpodobností odmítnutí nulové hypotézy, která je pravdivá., Jinými slovy, je pravděpodobné, že říkáte, že existuje účinek, když neexistuje žádný účinek.
například úroveň významnosti 0,05 znamená 5% riziko rozhodování o tom, že efekt existuje, pokud neexistuje.
nižší úrovně významnosti vyžadují silnější důkaz vzorku, aby bylo možné odmítnout nulovou hypotézu. Například být statisticky významný na úrovni významnosti 0.01 vyžaduje podstatnější důkazy než úroveň významnosti 0.05. Existuje však kompromis v testech hypotéz., Nižší úrovně významnosti také snižují sílu testu hypotézy k detekci rozdílu, který existuje.
technická povaha těchto typů otázek může způsobit, že se vaše hlava otáčí. Obrázek může tyto myšlenky oživit!
Chcete-li se naučit koncepčnější přístup k úrovním významu, podívejte se na můj příspěvek o porozumění úrovním významu.
grafy hodnot významnosti jako kritické oblasti
na grafu rozdělení pravděpodobnosti určuje úroveň významnosti, jak daleko musí být hodnota vzorku od hodnoty null, než můžeme null odmítnout., Procento plochy pod stínovanou křivkou se rovná pravděpodobnosti, že hodnota vzorku klesne v těchto oblastech, pokud je nulová hypotéza správná.
Chcete-li reprezentovat úroveň významnosti 0,05, zastíním 5% distribuce nejdále od hodnoty null.
dvě stínované oblasti v grafu jsou stejně vzdálené od centrální hodnoty nulové hypotézy. Každá oblast má pravděpodobnost 0,025, což odpovídá našemu požadovanému součtu 0,05. Tyto stínované oblasti se nazývají kritická oblast pro test hypotézy s dvěma ocasy.,
kritická oblast definuje hodnoty vzorků, které jsou dostatečně nepravděpodobné, aby zaručily odmítnutí nulové hypotézy. Pokud je nulová hypotéza správná a populační průměr je 260, náhodné vzorky (n=25) z této populace mají prostředky, které spadají do kritické oblasti 5% času.
náš průměr vzorku je statisticky významný na úrovni 0, 05, protože klesá v kritické oblasti.
Související příspěvek: jednostranný a dvoustranný Testy Vysvětlil,
Srovnání Hladiny Významnosti
Pojďme zopakovat tento test hypotézy pomocí dalších společných význam na úroveň 0.,01 vidět, jak to porovnává.
tentokrát se součet dvou stínovaných oblastí rovná naší nové úrovni významnosti 0.01. Průměr našeho vzorku nespadá do kritické oblasti. V důsledku toho nedokážeme odmítnout nulovou hypotézu. Máme stejná přesná data vzorku, stejný rozdíl mezi průměrem vzorku a hodnotou nulové hypotézy, ale jiný výsledek testu.
co se stalo? Zadáním nižší úrovně významnosti nastavíme vyšší lištu pro důkazy o vzorku., Jak ukazuje graf, nižší úrovně významnosti posouvají kritické oblasti dále od hodnoty null. V důsledku toho nižší úrovně významnosti vyžadují, aby statisticky významné byly extrémnější vzorkovací prostředky.
před provedením studie musíte nastavit úroveň významnosti. Nechcete pokušení zvolit úroveň po studii, která přináší významné výsledky. Jediný důvod, proč jsem porovnal dvě úrovně významnosti, bylo ilustrovat účinky a vysvětlit různé výsledky.,
grafická verze t-testu 1-sample, který jsme vytvořili, nám umožňuje určit statistickou významnost bez posouzení hodnoty p. Obvykle je třeba porovnat hodnotu P s úrovní významnosti, abyste toto určení provedli.
související příspěvek: podrobné pokyny, jak provádět t-testy v aplikaci Excel
jaké jsou hodnoty P?hodnoty
p jsou pravděpodobnost, že vzorek bude mít účinek alespoň tak extrémní jako účinek pozorovaný ve vašem vzorku, pokud je nulová hypotéza správná.
tato klikatá, technická definice pro hodnoty P může způsobit, že se vaše hlava otáčí., Pojďme to Graf!
nejprve musíme vypočítat účinek, který je přítomen v našem vzorku. Účinek je vzdálenost mezi hodnotou vzorku a nulovou hodnotou: 330,6-260 = 70,6. Dále zastíním oblasti na obou stranách distribuce, které jsou alespoň tak daleko jako 70.6 od null (260 +/- 70.6). Tento proces grafy pravděpodobnost pozorování vzorku znamenat alespoň tak extrémní jako náš vzorek střední.
celková pravděpodobnost dvou stínovaných oblastí je 0,03112., Pokud nulovou hypotézu hodnota (260) je pravda, a kreslil mnoho náhodných vzorků, které byste očekávali vzorku znamená, že k pádu v zastíněných regionů o 3,1%. Jinými slovy, budete pozorovat ukázkové účinky alespoň tak velké jako 70.6 asi 3.1% času, pokud je null pravdivý. To je hodnota P!
pomocí hodnot P a úrovní významnosti společně
Pokud je vaše hodnota P menší nebo rovna vaší úrovni alfa, odmítněte nulovou hypotézu.
výsledky hodnoty P jsou v souladu s naší grafickou reprezentací. Hodnota P 0.03112 je významná na alfa úrovni 0.05, ale ne 0.,01. Opět platí, že v praxi si vyberete jednu úroveň významnosti před experimentem a držet se ho!
při použití úrovně významnosti 0, 05 je vzorek statisticky významný. Naše data podporují alternativní hypotézu, která uvádí, že počet obyvatel se nerovná 260. Můžeme konstatovat, že průměrné výdaje na pohonné hmoty se od loňského roku zvýšily.hodnoty
p jsou velmi často nesprávně interpretovány jako pravděpodobnost odmítnutí nulové hypotézy, která je ve skutečnosti pravdivá. Tato interpretace je špatná! Chcete-li pochopit proč, přečtěte si prosím můj příspěvek: Jak správně interpretovat hodnoty P.,
diskuse o statisticky významných výsledcích
testy hypotéz určují, zda vaše vzorová data poskytují dostatečné důkazy k odmítnutí nulové hypotézy pro celou populaci. Chcete-li provést tento test, postup porovnává statistiku vzorku s hodnotou null a určuje, zda je dostatečně vzácná. „Dostatečně vzácné“ je definován v test hypotézy:
- za Předpokladu, že nulová hypotéza je pravda—grafy centrum na hodnotu null.
- úroveň významnosti (alfa) – jak daleko od hodnoty null je kritická oblast?,
- statistika vzorku-je to v kritické oblasti?
Neexistuje žádný zvláštní význam úroveň, která správně určí, které studie populační efekty 100% času. Tradiční hladiny významnosti 0,05 a 0,01 jsou pokusy řídit kompromis mezi nízkou pravděpodobnost zamítnutí pravdivé nulové hypotézy a s adekvátní výkon k detekci účinek, pokud skutečně existuje.
úroveň významnosti je míra, při které nesprávně odmítáte nulové hypotézy, které jsou skutečně pravdivé (chyba typu I)., Například, pro všechny studie, které používají hladinu významnosti 0,05 a nulová hypotéza je správná, můžete očekávat, že 5% z nich má vzorek statistik, které spadají do kritické oblasti. Když dojde k této chybě, nejste si vědomi, že nulová hypotéza je správná, ale odmítnete ji, protože hodnota p je menší než 0,05.
tato chyba nenaznačuje, že výzkumník udělal chybu. Jak ukazují grafy, můžete pozorovat extrémní statistiky vzorků pouze kvůli chybě vzorku. Je to štěstí remízy!,
Související příspěvek: Typy Chyb v Testování Hypotéz
Hypotéza testy jsou velmi důležité, pokud chcete použít vzorek dat, aby se závěry o populaci, protože tyto testy účet pro vzorek chybu. Použití úrovní významnosti a hodnot P k určení, kdy odmítnout nulovou hypotézu, zvyšuje pravděpodobnost, že vyvodíte správný závěr.
mějte na paměti, že statistická významnost nemusí nutně znamenat, že efekt je důležitý v praktickém smyslu reálného světa. Pro více informací si přečtěte můj příspěvek o praktické vs. statistické významnosti.,
Pokud se vám tento příspěvek líbí, přečtěte si doprovodný příspěvek: Jak fungují testy hypotéz: intervaly spolehlivosti a úrovně spolehlivosti.
můžete Si také přečíst můj další příspěvky, které popisují, jak další testy práce:
- Jak t-Testy Práce
- Jak F-test funguje v ANOVA
- Jak Chí-Kvadrát Testy Nezávislosti Práce
Chcete vidět alternativní přístup k tradiční testování hypotézy, že nepoužívá rozdělení pravděpodobnosti a statistiky zkoušek, dozvědět se o bootstrap ve statistice!
Leave a Reply