Le statistiche inferenziali consentono di trarre conclusioni sulle popolazioni utilizzando piccoli campioni. Di conseguenza, le statistiche inferenziali forniscono enormi benefici perché in genere non è possibile misurare un’intera popolazione.
Tuttavia, per ottenere questi benefici, è necessario comprendere la relazione tra popolazioni, sottopopolazioni, parametri di popolazione, campioni e statistiche dei campioni.
In questo post del blog, discuto questi concetti e come ottenere campioni rappresentativi usando il campionamento casuale.,
Post correlato: Differenza tra statistiche descrittive e inferenziali
Popolazioni
Le popolazioni possono includere persone, ma altri esempi includono oggetti, eventi, aziende e così via. Nelle statistiche, ci sono due tipi generali di popolazioni.
Le popolazioni possono essere il set completo di tutti gli elementi simili esistenti. Ad esempio, la popolazione di un paese include tutte le persone attualmente all’interno di quel paese. È una lista finita ma potenzialmente ampia di membri.
Tuttavia, una popolazione può essere un costrutto teorico potenzialmente di dimensioni infinite., Ad esempio, gli analisti di miglioramento della qualità spesso considerano tutti i prodotti attuali e futuri di una linea di produzione come parte di una popolazione.
Le popolazioni condividono un insieme di attributi definiti dall’utente. Ad esempio, le seguenti sono popolazioni:
- Stelle nella galassia della Via Lattea.
- Parti da una linea di produzione.
- Cittadini degli Stati Uniti.
Prima di iniziare uno studio, è necessario definire attentamente la popolazione che si sta studiando. Queste popolazioni possono essere definite in modo ristretto per soddisfare le esigenze dell’analisi., Ad esempio, donne svedesi adulte che sono altrimenti sane ma hanno l’osteoporosi.
Le sottopopolazioni possono migliorare la tua analisi
Le sottopopolazioni condividono attributi aggiuntivi. Per esempio, la popolazione degli Stati Uniti contiene le sottopopolazioni di uomini e donne. Puoi anche suddividerlo in altri modi come regione, età, stato socioeconomico e così via. Diversi studi che coinvolgono la stessa popolazione possono dividerla in diverse sottopopolazioni a seconda di ciò che ha senso per i dati e le analisi.,
Comprendere le sottopopolazioni nel tuo studio ti aiuta a cogliere l’argomento in modo più approfondito. Possono anche aiutarti a produrre modelli statistici che si adattano meglio ai dati. Le sottopopolazioni sono particolarmente importanti quando hanno caratteristiche sistematicamente diverse rispetto alla popolazione complessiva. Quando analizzi i tuoi dati, devi essere consapevole di queste divisioni più profonde. In effetti, è possibile trattare le sottopopolazioni rilevanti come fattori aggiuntivi nelle analisi successive.,
Ad esempio, se stai analizzando l’altezza media degli adulti negli Stati Uniti, migliorerai i tuoi risultati includendo sottopopolazioni maschili e femminili perché le loro altezze sono sistematicamente diverse. Tratterò questo esempio in modo approfondito più avanti in questo post!
Parametri della popolazione rispetto alle statistiche del campione
Un parametro è un valore che descrive una caratteristica di un’intera popolazione, ad esempio la media della popolazione. Poiché non è quasi mai possibile misurare un’intera popolazione, di solito non si conosce il valore reale di un parametro., In effetti, i valori dei parametri sono quasi sempre inconoscibili. Anche se non conosciamo il valore, esiste sicuramente.
Ad esempio, l’altezza media delle donne adulte negli Stati Uniti è un parametro che ha un valore esatto—semplicemente non sappiamo cosa sia!
La media della popolazione e la deviazione standard sono due parametri comuni. Nelle statistiche, i simboli greci di solito rappresentano parametri di popolazione, come μ (mu) per la media e σ (sigma) per la deviazione standard.
Una statistica è una caratteristica di un campione., Se si raccoglie un campione e si calcola la media e la deviazione standard, si tratta di statistiche di esempio. Le statistiche inferenziali consentono di utilizzare statistiche di esempio per trarre conclusioni su una popolazione. Tuttavia, per trarre conclusioni valide, è necessario utilizzare particolari tecniche di campionamento. Queste tecniche aiutano a garantire che i campioni producano stime imparziali. Le stime di parte sono sistematicamente troppo alte o troppo basse. Vuoi stime imparziali perché sono corrette in media.
Nelle statistiche inferenziali, utilizziamo statistiche di esempio per stimare i parametri della popolazione., Ad esempio, se raccogliamo un campione casuale di donne adulte negli Stati Uniti e misuriamo le loro altezze, possiamo calcolare la media del campione e usarla come una stima imparziale della media della popolazione. Possiamo anche eseguire test di ipotesi sulla stima del campione e creare intervalli di confidenza per costruire un intervallo in cui il valore effettivo della popolazione probabilmente rientra.,div id=”6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Dopo aver disegnato il campione, si misurano una o più caratteristiche di tutti gli elementi del campione, come altezza, reddito, temperatura, opinione, ecc. Se si desidera trarre conclusioni su queste caratteristiche in tutta la popolazione, impone restrizioni su come si raccoglie il campione. Se si utilizza una metodologia errata, il campione potrebbe non rappresentare la popolazione, il che può portare a conclusioni errate.
Il metodo più noto per ottenere un campione rappresentativo e imparziale è il semplice campionamento casuale., Con questo metodo, tutti gli elementi della popolazione hanno la stessa probabilità di essere selezionati. Questo processo aiuta a garantire che il campione includa l’intera gamma della popolazione. Inoltre, tutte le sottopopolazioni rilevanti dovrebbero essere incorporate nel campione e rappresentate in media con precisione. Il semplice campionamento casuale riduce al minimo il bias e semplifica l’analisi dei dati.
Discuterò la metodologia di campionamento in modo più dettagliato in un futuro post sul blog, ma ci sono diversi avvertimenti cruciali sul semplice campionamento casuale., Sebbene questo approccio minimizzi il bias, non indica che le statistiche di esempio siano esattamente uguali ai parametri della popolazione. Invece, le stime da un campione specifico sono suscettibili di essere un po ‘ alto o basso, ma il processo produce stime accurate in media. Inoltre, è possibile ottenere campioni insoliti con campionamento casuale—non è solo il risultato atteso.
Post correlato: le statistiche di esempio sono sempre sbagliate (in una certa misura)!
Inoltre, il campionamento casuale potrebbe sembrare un po ‘ casuale e facile da fare—entrambi non sono veri., Il semplice campionamento casuale presuppone che si compili sistematicamente un elenco completo di tutte le persone o gli elementi esistenti nella popolazione. È quindi selezionare in modo casuale soggetti da tale elenco e includerli nel campione. Può essere un processo molto ingombrante.
Diamo vita a questi concetti!
Esempio di una popolazione con importanti sottopopolazioni
Supponiamo che stiamo studiando l’altezza dei cittadini americani e supponiamo inoltre che non sappiamo molto sull’argomento., Di conseguenza, raccogliamo un campione casuale, misuriamo le altezze in centimetri e calcoliamo la media del campione e la deviazione standard. Ecco il file di dati CSV: Heights.
Otteniamo i seguenti risultati:
Poiché abbiamo raccolto un campione casuale, possiamo supporre che queste statistiche di esempio siano stime imparziali dei parametri della popolazione.
Ora, supponiamo di saperne di più sull’area di studio e di includere maschio e femmina come sottopopolazioni. Otteniamo i seguenti risultati.,
Si noti come la singola distribuzione ampia sia stata sostituita da due distribuzioni più strette? La distribuzione per ogni genere ha una deviazione standard minore rispetto alla distribuzione singola per tutti gli adulti, che è coerente con la diffusione più stretta intorno ai mezzi per uomini e donne nel grafico. Questi risultati mostrano come la media fornisce stime più precise quando valutiamo le altezze per genere. In effetti, la media per l’intera popolazione non è uguale alla media per entrambe le sottopopolazioni. È fuorviante!,
Durante questo processo, apprendiamo che il genere è una sottopopolazione cruciale che si riferisce all’altezza e aumenta la nostra comprensione dell’argomento. Negli studi futuri sull’altezza, possiamo includere il genere come variabile predittiva.
Questo esempio utilizza una variabile di raggruppamento categoriale (Genere) e una variabile di risultato continuo (Altezze). Quando si desidera confrontare le distribuzioni di valori continui tra gruppi come questo esempio, considerare l’utilizzo di boxplot e singoli grafici di valore. Questi grafici diventano più utili all’aumentare del numero di gruppi.,
Questo esempio è intenzionalmente facile da capire ma immagina uno studio su un argomento meno ovvio. Questo processo consente di ottenere nuove informazioni e produrre modelli statistici migliori.
Utilizzando la vostra conoscenza delle popolazioni, sottopopolazioni, parametri, campionamento, e le statistiche del campione, è possibile trarre preziose conclusioni su grandi popolazioni utilizzando piccoli campioni. Per ulteriori informazioni su come testare le ipotesi sulle popolazioni, leggi la mia panoramica dei test di ipotesi.
Leave a Reply