Il test di ipotesi è un processo vitale nelle statistiche inferenziali in cui l’obiettivo è utilizzare dati campione per trarre conclusioni su un’intera popolazione. Nel processo di test, si utilizzano i livelli di significatività e i valori p per determinare se i risultati del test sono statisticamente significativi.
Si sente parlare di risultati statisticamente significativi per tutto il tempo. Ma cosa rappresentano effettivamente i livelli di significatività, i valori P e la significatività statistica? Perché abbiamo anche bisogno di usare i test di ipotesi nelle statistiche?,
In questo post, rispondo a tutte queste domande. Uso grafici e concetti per spiegare come funzionano i test di ipotesi al fine di fornire una spiegazione più intuitiva. Questo ti aiuta a passare alla comprensione dei tuoi risultati statistici.
Scenario di esempio di test di ipotesi
Per iniziare, dimostrerò perché abbiamo bisogno di usare test di ipotesi usando un esempio.
Un ricercatore sta studiando le spese di carburante per le famiglie e vuole determinare se il costo mensile è cambiato rispetto allo scorso anno, quando la media era di $260 al mese., Il ricercatore disegna un campione casuale di 25 famiglie e inserisce i loro costi mensili per quest’anno nel software statistico. È possibile scaricare il file di dati CSV: FuelsCosts. Di seguito sono riportate le statistiche descrittive per quest’anno.
Costruiremo su questo esempio per rispondere alla domanda di ricerca e mostrare come funzionano i test di ipotesi.
Le statistiche descrittive da sole non risponderanno alla domanda
Il ricercatore ha raccolto un campione casuale e ha scoperto che la media del campione di quest’anno (330,6) è maggiore della media dello scorso anno (260). Perché eseguire un test di ipotesi?, Possiamo vedere che la media di quest’anno è più alta di $70! Non e ‘ diverso?
Purtroppo, la situazione non è così chiara come si potrebbe pensare perché stiamo analizzando un campione invece della popolazione completa. Ci sono enormi vantaggi quando si lavora con i campioni perché di solito è impossibile raccogliere dati da un’intera popolazione. Tuttavia, il compromesso per lavorare con un campione gestibile è che dobbiamo tenere conto dell’errore del campione.
L’errore di campionamento è il divario tra la statistica del campione e il parametro di popolazione., Per il nostro esempio, la statistica del campione è la media del campione, che è 330.6. Il parametro della popolazione è μ, o mu, che è la media dell’intera popolazione. Sfortunatamente, il valore del parametro della popolazione non è solo sconosciuto ma di solito inconoscibile.
Abbiamo ottenuto una media campione di 330.6. Tuttavia, è concepibile che, a causa di un errore di campionamento, la media della popolazione potrebbe essere solo 260. Se il ricercatore ha disegnato un altro campione casuale, la media del campione successivo potrebbe essere più vicina a 260. È impossibile valutare questa possibilità guardando solo la media del campione., Il test di ipotesi è una forma di statistica inferenziale che ci consente di trarre conclusioni su un’intera popolazione basata su un campione rappresentativo. Dobbiamo usare un test di ipotesi per determinare la probabilità di ottenere la nostra media campione se la media della popolazione è 260.,
Informazioni di base: La differenza tra statistiche descrittive e inferenziali e popolazioni, parametri e campioni nelle statistiche inferenziali
Una distribuzione di campionamento determina se la nostra media campionaria è improbabile
È molto improbabile che qualsiasi media campionaria sia uguale alla media della popolazione a causa dell’errore del campione. Nel nostro caso, la media del campione di 330,6 non è quasi sicuramente uguale alla media della popolazione per le spese di carburante.,
Se potessimo ottenere un numero considerevole di campioni casuali e calcolare la media del campione per ogni campione, osserveremmo un ampio spettro di mezzi del campione. Saremmo persino in grado di tracciare la distribuzione dei mezzi campione da questo processo.
Questo tipo di distribuzione è chiamata distribuzione di campionamento. Si ottiene una distribuzione di campionamento disegnando molti campioni casuali della stessa dimensione dalla stessa popolazione. Perche ‘ diavolo dovremmo farlo?,
Perché le distribuzioni di campionamento consentono di determinare la probabilità di ottenere la statistica del campione e sono cruciali per l’esecuzione di test di ipotesi.
Per fortuna, non abbiamo bisogno di andare alla briga di raccogliere numerosi campioni casuali! Possiamo stimare la distribuzione del campionamento utilizzando la distribuzione t, la nostra dimensione del campione e la variabilità nel nostro campione.
Vogliamo scoprire se la spesa media di carburante quest’anno (330,6) è diversa dall’anno scorso (260)., Per rispondere a questa domanda, illustreremo la distribuzione del campionamento in base al presupposto che il costo medio del carburante per l’intera popolazione non è cambiato ed è ancora 260. In statistica, chiamiamo questa mancanza di effetto, o nessun cambiamento, l’ipotesi nulla. Usiamo il valore di ipotesi nulla come base di confronto per il nostro valore del campione osservato.
Le distribuzioni di campionamento e le distribuzioni t sono tipi di distribuzioni di probabilità. Scopri di più sulle distribuzioni di probabilità!,
Rappresentare graficamente la media del campione nel contesto della distribuzione del campionamento
Il grafico seguente mostra quali medie del campione sono più probabili e meno probabili se la media della popolazione è 260. Possiamo inserire la nostra media campione in questa distribuzione. Questo contesto più ampio ci aiuta a vedere quanto sia improbabile la nostra media campione se l’ipotesi nulla è vera (μ = 260).
Il grafico mostra la distribuzione stimata delle medie campione. I valori più probabili sono vicini a 260 perché la trama presuppone che questa sia la vera media della popolazione., Tuttavia, dato l’errore di campionamento casuale, non sarebbe sorprendente osservare i mezzi di campionamento che vanno da 167 a 352. Se la media della popolazione è ancora 260, la nostra media del campione osservata (330,6) non è il valore più probabile, ma non è del tutto plausibile.
Il ruolo dei test di ipotesi
La distribuzione del campionamento ci mostra che è relativamente improbabile ottenere un campione di 330,6 se la media della popolazione è 260. La nostra media del campione è così improbabile che possiamo rifiutare l’idea che la media della popolazione sia 260?
In statistica, chiamiamo questo rifiuto dell’ipotesi nulla., Se rifiutiamo il null per il nostro esempio, la differenza tra la media del campione (330.6) e 260 è statisticamente significativa. In altre parole, i dati del campione favoriscono l’ipotesi che la media della popolazione non sia uguale a 260.
Tuttavia, guarda di nuovo il grafico di distribuzione di campionamento. Si noti che non esiste una posizione speciale sulla curva in cui è possibile trarre definitivamente questa conclusione. C’è solo una diminuzione consistente nella probabilità di osservare i mezzi campione che sono più lontani dal valore di ipotesi nulla. Dove decidiamo che una media campione è abbastanza lontana?,
Per rispondere a questa domanda, avremo bisogno di più strumenti-test di ipotesi! La procedura di test di ipotesi quantifica l’inusualità del nostro campione con una probabilità e poi lo confronta con uno standard probatorio. Questo processo ti consente di prendere una decisione obiettiva sulla forza delle prove.
Aggiungeremo gli strumenti di cui abbiamo bisogno per prendere questa decisione ai livelli di significatività del grafico e ai valori p!
Questi strumenti ci permettono di testare queste due ipotesi:
- Ipotesi nulla: La media della popolazione è uguale alla media dell’ipotesi nulla (260).,
- Ipotesi alternativa: La media della popolazione non è uguale alla media dell’ipotesi nulla (260).
Post correlato: Panoramica dei test di ipotesi
Quali sono i livelli di significatività (Alfa)?
Un livello di significatività, noto anche come alfa o α, è uno standard probatorio che un ricercatore stabilisce prima dello studio. Definisce quanto fortemente l’evidenza del campione deve contraddire l’ipotesi nulla prima di poter rifiutare l’ipotesi nulla per l’intera popolazione. La forza dell’evidenza è definita dalla probabilità di rifiutare un’ipotesi nulla che è vera., In altre parole, è la probabilità che tu dica che c’è un effetto quando non c’è alcun effetto.
Ad esempio, un livello di significatività di 0,05 indica un rischio del 5% di decidere che un effetto esiste quando non esiste.
Livelli di significatività inferiori richiedono prove campione più forti per essere in grado di rifiutare l’ipotesi nulla. Ad esempio, per essere statisticamente significativo al livello di significatività 0.01 richiede prove più sostanziali rispetto al livello di significatività 0.05. Tuttavia, c’è un compromesso nei test di ipotesi., Livelli di significatività inferiori riducono anche la potenza di un test di ipotesi per rilevare una differenza che esiste.
La natura tecnica di questi tipi di domande può far girare la testa. Una foto può dare vita a queste idee!
Per imparare un approccio più concettuale ai livelli di significatività, vedi il mio post sulla comprensione dei livelli di significatività.
Rappresentare graficamente i livelli di significatività come regioni critiche
Sul grafico della distribuzione di probabilità, il livello di significatività definisce quanto deve essere lontano il valore del campione dal valore null prima di poter rifiutare il null., La percentuale dell’area sotto la curva ombreggiata è uguale alla probabilità che il valore del campione cada in quelle regioni se l’ipotesi nulla è corretta.
Per rappresentare un livello di significatività di 0,05, ombreggerò il 5% della distribuzione più lontano dal valore null.
Le due regioni ombreggiate nel grafico sono equidistanti dal valore centrale dell’ipotesi nulla. Ogni regione ha una probabilità di 0,025, che somma al nostro totale desiderato di 0,05. Queste aree ombreggiate sono chiamate la regione critica per un test di ipotesi a due code.,
La regione critica definisce valori di esempio abbastanza improbabili da giustificare il rifiuto dell’ipotesi nulla. Se l’ipotesi nulla è corretta e la media della popolazione è 260, i campioni casuali (n=25) di questa popolazione hanno mezzi che cadono nella regione critica il 5% delle volte.
La nostra media campione è statisticamente significativa al livello 0.05 perché cade nella regione critica.
Post correlato: Test a una coda e a due code Spiegati
Confrontando i livelli di significatività
Rifacciamo questo test di ipotesi usando l’altro livello di significatività comune di 0.,01 per vedere come si confronta.
Questa volta la somma delle due regioni ombreggiate è uguale al nostro nuovo livello di significatività di 0.01. La media del nostro campione non rientra nella regione critica. Di conseguenza, non riusciamo a respingere l’ipotesi nulla. Abbiamo gli stessi dati esatti del campione, la stessa differenza tra la media del campione e il valore di ipotesi nulla, ma un risultato del test diverso.
Cosa è successo? Specificando un livello di significatività inferiore, impostiamo una barra più alta per l’evidenza del campione., Come mostra il grafico, livelli di significatività inferiori spostano le regioni critiche più lontano dal valore null. Di conseguenza, livelli di significatività più bassi richiedono mezzi di campionamento più estremi per essere statisticamente significativi.
È necessario impostare il livello di significatività prima di condurre uno studio. Non vuoi la tentazione di scegliere un livello dopo lo studio che produce risultati significativi. L’unica ragione per cui ho confrontato i due livelli di significatività era illustrare gli effetti e spiegare i risultati diversi.,
La versione grafica del t-test 1-campione che abbiamo creato ci consente di determinare la significatività statistica senza valutare il valore P. In genere, è necessario confrontare il valore P con il livello di significatività per effettuare questa determinazione.
Post correlato: istruzioni passo – passo su come eseguire i test t in Excel
Quali sono i valori P?
I valori P sono la probabilità che un campione abbia un effetto almeno altrettanto estremo dell’effetto osservato nel campione se l’ipotesi nulla è corretta.
Questa definizione tecnica e tortuosa per i valori P può far girare la testa., Facciamolo grafico!
In primo luogo, dobbiamo calcolare l’effetto che è presente nel nostro campione. L’effetto è la distanza tra il valore del campione e il valore null: 330.6-260 = 70.6. Successivamente, ombreggerò le regioni su entrambi i lati della distribuzione che sono almeno lontane da 70.6 dal null (260 +/- 70.6). Questo processo rappresenta la probabilità di osservare una media del campione almeno quanto la nostra media del campione.
La probabilità totale delle due regioni ombreggiate è 0,03112., Se il valore di ipotesi nulla (260) è vero e hai disegnato molti campioni casuali, ti aspetteresti che i mezzi di campionamento cadano nelle regioni ombreggiate circa il 3,1% delle volte. In altre parole, osserverai effetti campione almeno fino a 70,6 circa il 3,1% delle volte se il null è vero. Questo è il valore P!
Utilizzando valori P e livelli di significatività insieme
Se il valore P è minore o uguale al livello alfa, rifiutare l’ipotesi nulla.
I risultati del valore P sono coerenti con la nostra rappresentazione grafica. Il valore P di 0,03112 è significativo al livello alfa di 0,05 ma non 0.,01. Ancora una volta, in pratica, si sceglie un livello di significato prima dell’esperimento e bastone con esso!
Utilizzando il livello di significatività di 0,05, l’effetto campione è statisticamente significativo. I nostri dati supportano l’ipotesi alternativa, che afferma che la media della popolazione non è uguale a 260. Possiamo concludere che le spese medie di carburante sono aumentate dall’anno scorso.
I valori P sono molto spesso interpretati erroneamente come la probabilità di rifiutare un’ipotesi nulla che è effettivamente vera. Questa interpretazione è sbagliata! Per capire perché, si prega di leggere il mio post: Come interpretare correttamente i valori P.,
Discussione su risultati statisticamente significativi
I test di ipotesi determinano se i dati del campione forniscono prove sufficienti per rifiutare l’ipotesi nulla per l’intera popolazione. Per eseguire questo test, la procedura confronta la statistica del campione con il valore null e determina se è sufficientemente rara. “Sufficientemente raro” è definito in un test di ipotesi da:
- Supponendo che l’ipotesi nulla sia vera—i grafici si concentrano sul valore nullo.
- Il livello di significatività (alfa) – quanto è lontana dal valore null la regione critica?,
- La statistica del campione-è all’interno della regione critica?
Non esiste un livello di significatività speciale che determini correttamente quali studi hanno effetti reali sulla popolazione 100% delle volte. I livelli di significatività tradizionali di 0,05 e 0,01 sono tentativi di gestire il compromesso tra avere una bassa probabilità di rifiutare una vera ipotesi nulla e avere un potere adeguato per rilevare un effetto se esiste effettivamente.
Il livello di significatività è la velocità con cui si rifiutano erroneamente ipotesi nulle che sono effettivamente vere (errore di tipo I)., Ad esempio, per tutti gli studi che utilizzano un livello di significatività di 0,05 e l’ipotesi nulla è corretta, puoi aspettarti che il 5% di essi abbia statistiche campione che rientrano nella regione critica. Quando si verifica questo errore, non si è consapevoli che l’ipotesi nulla è corretta, ma la si rifiuterà perché il valore p è inferiore a 0,05.
Questo errore non indica che il ricercatore abbia commesso un errore. Come mostrano i grafici, è possibile osservare statistiche di esempio estreme a causa dell’errore del campione da solo. E ‘ la fortuna del sorteggio!,
Post correlato: Tipi di errori nei test di ipotesi
I test di ipotesi sono cruciali quando si desidera utilizzare i dati di esempio per trarre conclusioni su una popolazione perché questi test rappresentano l’errore di esempio. L’utilizzo di livelli di significatività e valori P per determinare quando rifiutare l’ipotesi nulla migliora la probabilità che si tragga la conclusione corretta.
Tieni presente che la significatività statistica non significa necessariamente che l’effetto sia importante in un senso pratico e reale. Per ulteriori informazioni, leggere il mio post su Pratico vs. Significatività statistica.,
Se ti piace questo post, leggi il post complementare: Come funzionano i test di ipotesi: intervalli di confidenza e livelli di confidenza.
Puoi anche leggere i miei altri post che descrivono come funzionano gli altri test:
- Come funzionano i t-Test
- Come funziona il F-test in ANOVA
- Come funzionano i test di indipendenza del Chi-quadrato
Per vedere un approccio alternativo al test di ipotesi tradizionale che non utilizza distribuzioni di probabilità e statistiche di test, scopri il bootstrap in statistics!
Leave a Reply