I tipi di dati sono un concetto importante di statistica, che deve essere compreso, per applicare correttamente le misurazioni statistiche ai dati e quindi per concludere correttamente alcune ipotesi a riguardo. Questo post del blog ti introdurrà ai diversi tipi di dati che devi conoscere, per fare una corretta analisi dei dati esplorativi (EDA), che è una delle parti più sottovalutate di un progetto di apprendimento automatico.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Metodi statistici
- Sommario
Avere una buona comprensione dei diversi tipi di dati, chiamati anche scale di misura, è un prerequisito cruciale per fare l’analisi esplorativa dei dati (EDA), dal momento che è possibile utilizzare alcune misurazioni statistiche solo per tipi di dati specifici.
Devi anche sapere con quale tipo di dati hai a che fare per scegliere il giusto metodo di visualizzazione. Pensa ai tipi di dati come a un modo per classificare diversi tipi di variabili. Discuteremo i principali tipi di variabili e esamineremo un esempio per ciascuna., A volte ci riferiremo a loro come scale di misura.
Dati categoriali
I dati categoriali rappresentano le caratteristiche. Pertanto può rappresentare cose come il genere di una persona, la lingua ecc. I dati categoriali possono anche assumere valori numerici (esempio: 1 per la femmina e 0 per il maschio). Si noti che quei numeri non hanno significato matematico.
Dati nominali
I valori nominali rappresentano unità discrete e vengono utilizzati per etichettare variabili che non hanno valore quantitativo. Basta pensare a loro come “etichette”. Si noti che i dati nominali che non ha ordine., Pertanto, se cambiassi l’ordine dei suoi valori, il significato non cambierebbe. Si possono vedere due esempi di caratteristiche nominali di seguito:
La sinistra caratteristica che descrive se una persona è sposata sarebbe chiamato “dicotomica”, che è un tipo di nominale scale che contiene solo due categorie.
Dati ordinali
I valori ordinali rappresentano unità discrete e ordinate., È quindi quasi uguale ai dati nominali, tranne per il fatto che sta ordinando questioni. Potete vedere un esempio qui sotto:
Si noti che la differenza tra Elementari e superiori è diverso la differenza tra il liceo e l’università. Questa è la principale limitazione dei dati ordinali, le differenze tra i valori non sono realmente note., Per questo motivo, le scale ordinali vengono solitamente utilizzate per misurare caratteristiche non numeriche come felicità, soddisfazione del cliente e così via.
Dati numerici
Parliamo di dati discreti se i suoi valori sono distinti e separati. In altre parole: Parliamo di dati discreti se i dati possono assumere solo determinati valori. Questo tipo di dati non può essere misurato ma può essere contato. Rappresenta fondamentalmente informazioni che possono essere classificate in una classificazione. Un esempio è il numero di teste in 100 lanci di monete.,
Puoi verificare ponendo le seguenti due domande se hai a che fare con dati discreti o meno: Puoi contarli e possono essere divisi in parti sempre più piccole?
Dati continui
I dati continui rappresentano le misurazioni e quindi i loro valori non possono essere contati ma possono essere misurati. Un esempio potrebbe essere l’altezza di una persona, che puoi descrivere usando gli intervalli sulla linea dei numeri reali.
Dati di intervallo
I valori di intervallo rappresentano unità ordinate che hanno la stessa differenza., Pertanto parliamo di dati di intervallo quando abbiamo una variabile che contiene valori numerici ordinati e dove conosciamo le differenze esatte tra i valori. Un esempio potrebbe essere una funzione che contiene la temperatura di un dato luogo, come potete vedere qui sotto:
Il problema con intervallo di valori di dati che non hanno un “vero ” zero”. Ciò significa, per quanto riguarda il nostro esempio, che non esiste alcuna temperatura., Con i dati di intervallo, possiamo aggiungere e sottrarre, ma non possiamo moltiplicare, dividere o calcolare i rapporti. Poiché non esiste un vero zero, non è possibile applicare molte statistiche descrittive e inferenziali.
I dati del rapporto
i valori del rapporto sono anche unità ordinate che hanno la stessa differenza. I valori del rapporto sono gli stessi dei valori dell’intervallo, con la differenza che hanno uno zero assoluto. Buoni esempi sono altezza, peso, lunghezza ecc.,
Perché i Tipi di Dati sono importanti?
I tipi di dati sono un concetto importante perché i metodi statistici possono essere utilizzati solo con determinati tipi di dati. È necessario analizzare i dati continui in modo diverso rispetto ai dati categoriali altrimenti si tradurrebbe in un’analisi errata. Pertanto, conoscere i tipi di dati con cui si ha a che fare, consente di scegliere il metodo corretto di analisi.,
Ora esamineremo di nuovo ogni tipo di dati, ma questa volta per quanto riguarda quali metodi statistici possono essere applicati. Per capire correttamente cosa discuteremo ora, devi capire le basi delle statistiche descrittive. Se non li conosci, puoi leggere il mio post sul blog (9min read) a riguardo: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
Metodi statistici
Quando si ha a che fare con dati nominali, si raccolgono informazioni attraverso:
Frequenze: La frequenza è la velocità con cui qualcosa si verifica in un periodo di tempo o all’interno di un set di dati.,
Proporzione: Puoi facilmente calcolare la proporzione dividendo la frequenza per il numero totale di eventi. (ad esempio, quanto spesso è successo qualcosa diviso per quanto spesso potrebbe accadere)
Percentuale.
Metodi di visualizzazione: Per visualizzare i dati nominali è possibile utilizzare un grafico a torta o un grafico a barre.
In Data Science, è possibile utilizzare una vasca di codifica, per trasformare i dati nominali in un numerici funzione.,
Dati ordinali
Quando si ha a che fare con dati ordinali, è possibile utilizzare gli stessi metodi come con i dati nominali, ma si ha anche accesso ad alcuni strumenti aggiuntivi. Pertanto puoi riassumere i tuoi dati ordinali con frequenze, proporzioni, percentuali. E puoi visualizzarlo con grafici a torta e barre. Inoltre, puoi utilizzare percentili, mediana, modalità e intervallo interquartile per riassumere i tuoi dati.
In Data Science, è possibile utilizzare una codifica etichetta, per trasformare i dati ordinali in una funzione numerica.,
Dati continui
Quando si tratta di dati continui, è possibile utilizzare la maggior parte dei metodi per descrivere i dati. Puoi riassumere i tuoi dati utilizzando percentili, mediana, intervallo interquartile, media, modalità, deviazione standard e intervallo.
Metodi di visualizzazione:
Per visualizzare dati continui, è possibile utilizzare un istogramma o un box-plot. Con un istogramma, è possibile controllare la tendenza centrale, la variabilità, la modalità e la curtosi di una distribuzione. Nota che un istogramma non può mostrarti se hai valori anomali. Questo è il motivo per cui usiamo anche box-plot.,
Sommario
In questo post, hai scoperto i diversi tipi di dati che sono utilizzati in tutto le statistiche. Hai imparato la differenza tra i dati continui discreti & e hai imparato quali sono le scale di misurazione nominali, ordinali, interval e ratio. Inoltre, ora sapete quali misurazioni statistiche è possibile utilizzare a quale tipo di dati e quali sono i giusti metodi di visualizzazione., Hai anche imparato, con quali metodi le variabili categoriali possono essere trasformate in variabili numeriche. Ciò consente di creare una grande parte di un’analisi esplorativa su un determinato set di dati.
Risorse
Questo post è stato inizialmente pubblicato sul mio blog (https://machinelearning-blog.com).
Leave a Reply