Testarea ipotezelor este un proces vital în Statisticile inferențiale în care scopul este de a utiliza date de probă pentru a trage concluzii despre o întreagă populație. În procesul de testare, utilizați nivelurile de semnificație și valorile p pentru a determina dacă rezultatele testului sunt semnificative statistic.ai auzit despre rezultatele fiind semnificative statistic tot timpul. Dar, ce reprezintă de fapt nivelurile de semnificație, valorile P și semnificația statistică? De ce chiar trebuie să folosim teste de ipoteze în statistici?,
în această postare, răspund la toate aceste întrebări. Folosesc grafice și concepte pentru a explica modul în care funcționează testele de ipoteze pentru a oferi o explicație mai intuitivă. Acest lucru vă ajută să treceți la înțelegerea rezultatelor statistice.pentru a începe, voi demonstra de ce trebuie să folosim teste de ipoteze folosind un exemplu.un cercetător studiază cheltuielile cu combustibilul pentru familii și dorește să determine dacă costul lunar s-a schimbat de anul trecut, când media a fost de 260 USD pe lună., Cercetătorul trage un eșantion aleatoriu de 25 de familii și introduce costurile lunare pentru acest an în software-ul statistic. Puteți descărca fișierul de date CSV: FuelsCosts. Mai jos sunt statisticile descriptive pentru acest an.
vom construi pe acest exemplu pentru a răspunde la întrebarea de cercetare și a arăta cum funcționează testele de ipoteză.
statisticile Descriptive singure nu vor răspunde la întrebarea
cercetătorul a colectat un eșantion aleatoriu și a constatat că media eșantionului din acest an (330.6) este mai mare decât media de anul trecut (260). De ce să efectuați un test de ipoteză?, Putem vedea că media din acest an este mai mare cu $70! Nu e diferit?din păcate, situația nu este atât de clară pe cât ați putea crede, deoarece analizăm un eșantion în locul întregii populații. Există beneficii uriașe atunci când lucrați cu eșantioane, deoarece de obicei este imposibil să colectați date de la o întreagă populație. Cu toate acestea, compromisul pentru lucrul cu un eșantion gestionabil este că trebuie să luăm în considerare eroarea de eșantion.
eroarea de eșantionare este diferența dintre statistica eșantionului și parametrul populație., Pentru exemplul nostru, statistica eșantionului este media eșantionului, care este 330.6. Parametrul populației este μ sau mu, care este media întregii populații. Din păcate, valoarea parametrului populației nu este doar necunoscută, ci de obicei necunoscută.
am obținut o medie a eșantionului de 330,6. Cu toate acestea, este de conceput că, din cauza erorii de eșantionare, media populației ar putea fi doar 260. Dacă cercetătorul a atras un alt eșantion aleatoriu, următoarea medie a eșantionului ar putea fi mai aproape de 260. Este imposibil să evaluezi această posibilitate analizând doar media eșantionului., Testarea ipotezelor este o formă de statistici inferențiale care ne permite să tragem concluzii despre o întreagă populație pe baza unui eșantion reprezentativ. Trebuie să folosim un test de ipoteză pentru a determina probabilitatea de a obține media eșantionului nostru dacă media populației este 260.,
informații de fond: diferența dintre statisticile Descriptive și inferențiale și populații, parametri și eșantioane în Statisticile inferențiale
o distribuție de eșantionare determină dacă media eșantionului nostru este puțin probabil
este foarte puțin probabil ca orice medie a eșantionului să fie egală cu media populației din cauza erorii eșantionului. În cazul nostru, media eșantionului de 330, 6 nu este aproape cu siguranță egală cu media populației pentru cheltuielile cu combustibil.,
dacă am putea obține un număr substanțial de probe aleatorii și să calculeze media eșantionului pentru fiecare probă, am observa un spectru larg de mijloace de probă. Am putea chiar să graficăm distribuția mijloacelor de probă din acest proces.acest tip de distribuție se numește distribuție de eșantionare. Obțineți o distribuție de eșantionare prin desenarea mai multor eșantioane aleatorii de aceeași dimensiune de la aceeași populație. De ce naiba am face asta?,deoarece distribuțiile de eșantionare vă permit să determinați probabilitatea de a obține statisticile eșantionului și sunt cruciale pentru efectuarea testelor de ipoteze.din fericire ,nu avem nevoie pentru a merge la probleme de colectare a numeroase probe aleatoare! Putem estima distribuția eșantionării utilizând distribuția t, dimensiunea eșantionului nostru și variabilitatea eșantionului nostru.vrem să aflăm dacă cheltuielile medii de combustibil din acest an (330.6) sunt diferite de anul trecut (260)., Pentru a răspunde la această întrebare, vom grafic distribuția de eșantionare pe baza presupunerii că costul mediu de combustibil pentru întreaga populație nu sa schimbat și este încă 260. În statistici, numim această lipsă de efect sau nicio schimbare, ipoteza nulă. Folosim valoarea ipotezei nule ca bază de comparație pentru valoarea eșantionului observat.distribuțiile de eșantionare și distribuțiile t sunt tipuri de distribuții de probabilitate. Aflați mai multe despre distribuțiile de probabilitate!,
graficul mediei eșantionului nostru în contextul distribuției eșantionării
graficul de mai jos arată ce medii ale eșantionului sunt mai probabile și mai puțin probabile dacă media populației este 260. Putem plasa eșantionul nostru în această distribuție. Acest context mai larg ne ajută să vedem cât de puțin probabil este media eșantionului nostru dacă ipoteza nulă este adevărată (μ = 260).
graficul afișează distribuția estimată a mijloacelor de probă. Valorile cele mai probabile sunt aproape de 260, deoarece parcela presupune că aceasta este adevărata medie a populației., Cu toate acestea, având în vedere eroarea de eșantionare aleatorie, nu ar fi surprinzător să observăm mijloacele de eșantionare cuprinse între 167 și 352. Dacă media populației este încă 260, media eșantionului observat (330.6) nu este cea mai probabilă valoare, dar nici nu este complet neplauzibilă.
rolul testelor de ipoteză
distribuția eșantionării ne arată că este relativ puțin probabil să obținem un eșantion de 330, 6 dacă media populației este de 260. Eșantionul nostru este atât de puțin probabil încât să putem respinge ideea că media populației este de 260?
în statistici, numim aceasta respingerea ipotezei nule., Dacă respingem nul pentru exemplul nostru, diferența dintre media eșantionului (330.6) și 260 este semnificativă statistic. Cu alte cuvinte, datele eșantionului favorizează ipoteza că media populației nu este egală cu 260.
cu toate acestea, uita-te la diagrama de distribuție de eșantionare din nou. Observați că nu există o locație specială pe curbă unde puteți trage definitiv această concluzie. Există doar o scădere consistentă a probabilității de observare a mijloacelor de probă care sunt mai departe de valoarea ipotezei nule. În cazul în care vom decide o medie eșantion este destul de departe?,pentru a răspunde la această întrebare, vom avea nevoie de mai multe instrumente—teste de ipoteze! Procedura de testare a ipotezelor cuantifică neobișnuința eșantionului nostru cu o probabilitate și apoi o compară cu un standard probatoriu. Acest proces vă permite să luați o decizie obiectivă cu privire la puterea dovezilor.vom adăuga instrumentele de care avem nevoie pentru a lua această decizie la nivelurile de semnificație grafică și la valorile p!aceste instrumente ne permit să testăm aceste două ipoteze:
- ipoteza nulă: media populației este egală cu media ipotezei nule (260).,
- ipoteza alternativă: media populației nu este egală cu media ipotezei nule (260).
Related post: Testarea ipotezelor Prezentare generală
care sunt nivelurile de semnificație (Alfa)?
un nivel de semnificație, cunoscut și sub numele de alfa sau α, este un standard probatoriu pe care un cercetător îl stabilește înainte de studiu. Acesta definește cât de puternic probele de probă trebuie să contrazică ipoteza nulă înainte de a putea respinge ipoteza nulă pentru întreaga populație. Puterea dovezilor este definită de probabilitatea respingerii unei ipoteze nule care este adevărată., Cu alte cuvinte, este probabilitatea să spuneți că există un efect atunci când nu există niciun efect.
de exemplu, un nivel de semnificație de 0.05 înseamnă un risc de 5% de a decide că un efect există atunci când nu există.
nivelurile de semnificație mai mici necesită dovezi de probă mai puternice pentru a putea respinge ipoteza nulă. De exemplu, a fi semnificativ statistic la nivelul de semnificație 0.01 necesită dovezi mai substanțiale decât nivelul de semnificație 0.05. Cu toate acestea, există un compromis în testele de ipoteză., Nivelurile de semnificație mai mici reduc, de asemenea, puterea unui test de ipoteză pentru a detecta o diferență care există.natura tehnică a acestor tipuri de întrebări vă poate face capul să se rotească. O imagine poate aduce aceste idei la viață!pentru a afla o abordare mai conceptuală a nivelurilor de semnificație, consultați postarea mea despre înțelegerea nivelurilor de semnificație.
grafice niveluri de semnificație ca regiuni critice
pe graficul de distribuție a probabilității, nivelul de semnificație definește cât de departe trebuie să fie valoarea eșantionului de la valoarea nulă înainte de a putea respinge null., Procentul zonei de sub curba care este umbrită este egal cu probabilitatea ca valoarea eșantionului să scadă în acele regiuni dacă ipoteza nulă este corectă.
pentru a reprezenta un nivel de semnificație de 0,05, voi umbri 5% din distribuție cel mai departe de valoarea nulă.
cele două regiuni umbrite din grafic sunt echidistante față de valoarea centrală a ipotezei nule. Fiecare regiune are o probabilitate de 0.025, ceea ce însumează totalul dorit de 0.05. Aceste zone umbrite sunt numite Regiunea critică pentru un test de ipoteză cu două cozi.,
Regiunea critică definește valorile eșantionului care sunt destul de improbabile pentru a justifica respingerea ipotezei nule. Dacă ipoteza nulă este corectă și media populației este de 260, probele aleatorii (n=25) din această populație au mijloace care se încadrează în regiunea critică 5% din timp.
media eșantionului nostru este semnificativă statistic la nivelul 0.05, deoarece se încadrează în regiunea critică.
Related post: testele cu o singură coadă și cu două cozi explicate
comparând nivelurile de semnificație
să refacem acest test de ipoteză folosind celălalt nivel de semnificație comun de 0.,01 pentru a vedea cum se compară.
de data aceasta suma celor două regiuni umbrite este egală cu noul nostru nivel de semnificație de 0,01. Media eșantionului nostru nu se încadrează în regiunea critică. În consecință, nu reușim să respingem ipoteza nulă. Avem aceleași date exacte ale eșantionului, aceeași diferență între media eșantionului și valoarea ipotezei nule, dar un rezultat diferit al testului.
ce s-a întâmplat? Prin specificarea unui nivel de semnificație mai mic, am stabilit o bară mai mare pentru probele de probă., După cum arată graficul, nivelurile de semnificație mai mici mută regiunile critice mai departe de valoarea nulă. În consecință, nivelurile de semnificație mai mici necesită mijloace de probă mai extreme pentru a fi semnificative din punct de vedere statistic.
trebuie să setați nivelul de semnificație înainte de a efectua un studiu. Nu vrei tentația de a alege un nivel după studiu care dă rezultate semnificative. Singurul motiv pentru care am comparat cele două niveluri de semnificație a fost să ilustrez efectele și să explic rezultatele diferite.,versiunea grafică a testului t cu 1 eșantion pe care l-am creat ne permite să determinăm semnificația statistică fără a evalua valoarea P. De obicei, trebuie să comparați valoarea P cu nivelul de semnificație pentru a face această determinare.
Related post: instrucțiuni pas cu pas pentru modul de efectuare a testelor T în Excel
care sunt valorile P?valorile P sunt probabilitatea ca un eșantion să aibă un efect cel puțin la fel de extrem ca efectul observat în eșantionul dvs. dacă ipoteza nulă este corectă.această definiție tehnică sinuoasă pentru valorile P vă poate face capul să se rotească., Să-l grafic!în primul rând, trebuie să calculăm efectul care este prezent în eșantionul nostru. Efectul este distanța dintre valoarea eșantionului și valoarea nulă: 330.6 – 260 = 70.6. Apoi, voi umbri regiunile de pe ambele părți ale distribuției care sunt cel puțin la fel de departe ca 70.6 de nul (260 +/- 70.6). Acest proces grafice probabilitatea de a observa un eșantion înseamnă cel puțin la fel de extremă ca medie noastre eșantion.
probabilitatea totală a celor două regiuni umbrite este 0.03112., Dacă valoarea ipotezei nule (260) este adevărată și ați atras multe eșantioane aleatorii, v-ați aștepta ca eșantionul să scadă în regiunile umbrite aproximativ 3.1% din timp. Cu alte cuvinte, veți observa efectele eșantionului cel puțin la fel de mari ca 70.6 despre 3.1% din timp dacă null este adevărat. Asta e Valoarea P!
folosind valorile P și nivelurile de semnificație împreună
dacă valoarea P este mai mică sau egală cu nivelul alfa, respingeți ipoteza nulă.
rezultatele valorii P sunt în concordanță cu reprezentarea noastră grafică. Valoarea P de 0,03112 este semnificativă la nivelul alfa de 0,05, dar nu 0.,01. Din nou, în practică, alegeți un nivel de semnificație înainte de experiment și rămâneți cu el!
folosind nivelul de semnificație de 0,05, efectul eșantionului este semnificativ statistic. Datele noastre susțin ipoteza alternativă, care afirmă că media populației nu este egală cu 260. Putem concluziona că cheltuielile medii de combustibil au crescut de anul trecut.valorile P sunt foarte frecvent interpretate greșit ca probabilitatea respingerii unei ipoteze nule care este de fapt adevărată. Această interpretare este greșită! Pentru a înțelege de ce, vă rugăm să citiți postarea mea: Cum să interpretați corect valorile P.,
discuții despre rezultate semnificative statistic
testele de ipoteză determină dacă datele dvs. de probă oferă dovezi suficiente pentru a respinge ipoteza nulă pentru întreaga populație. Pentru a efectua acest test, procedura compară statistica eșantionului cu valoarea nulă și determină dacă este suficient de rară. „Suficient de rar” este definit într—un test de ipoteză prin:
- presupunând că ipoteza nulă este adevărată-graficele se centrează pe valoarea nulă.
- nivelul de semnificație (alfa)—cât de departe de valoarea nulă este regiunea critică?,
- statistica eșantionului—este în regiunea critică?
nu există un nivel de semnificație special care să determine corect care studii au efecte reale asupra populației 100% din timp. Nivelurile de semnificație tradiționale de 0.05 și 0.01 sunt încercări de a gestiona compromisul între a avea o probabilitate scăzută de respingere a unei ipoteze adevărate nule și a avea o putere adecvată pentru a detecta un efect dacă există de fapt.
nivelul de semnificație este rata la care respingeți incorect ipotezele nule care sunt de fapt adevărate (eroare de tip I)., De exemplu, pentru toate studiile care utilizează un nivel de semnificație de 0, 05 și ipoteza nulă este corectă, vă puteți aștepta ca 5% dintre ei să aibă statistici de eșantion care se încadrează în regiunea critică. Când apare această eroare, nu știți că ipoteza nulă este corectă, dar o veți respinge deoarece valoarea p este mai mică de 0.05.această eroare nu indică faptul că cercetătorul a făcut o greșeală. După cum arată graficele, puteți observa statistici extreme ale eșantionului numai din cauza erorii eșantionului. E norocul tragerii la sorți!,
Related post: tipuri de erori în testarea ipotezelor
testele de ipoteze sunt cruciale atunci când doriți să utilizați date eșantion pentru a face concluzii despre o populație, deoarece aceste teste reprezintă o eroare eșantion. Utilizarea nivelurilor de semnificație și a valorilor P pentru a determina când să respingeți ipoteza nulă îmbunătățește probabilitatea că veți trage concluzia corectă.rețineți că semnificația statistică nu înseamnă neapărat că efectul este important într-un sens practic, real. Pentru mai multe informații, citiți postarea mea despre semnificația practică vs.Statistică.,dacă vă place această postare, citiți postarea însoțitoare: cum funcționează testele de ipoteză: intervale de încredere și niveluri de încredere.puteți citi și alte postări care descriu cum funcționează alte teste:
- cum funcționează testele t
- cum funcționează testul F în ANOVA
- cum funcționează testele Chi-pătrat de Independență
pentru a vedea o abordare alternativă la testarea ipotezelor tradiționale care nu utilizează distribuții de probabilitate și statistici de testare, aflați despre bootstrapping în statistici!
Leave a Reply