tipurile de date sunt un concept important al statisticilor, care trebuie înțeles, pentru a aplica corect măsurătorile statistice datelor dvs. și, prin urmare, pentru a încheia corect anumite ipoteze despre acestea. Această postare pe blog vă va prezenta diferitele tipuri de date pe care trebuie să le cunoașteți, pentru a face o analiză adecvată a datelor exploratorii (EDA), care este una dintre cele mai subestimate părți ale unui proiect de învățare automată.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Metode Statistice
- Sumar
Având o bună înțelegere a diferite tipuri de date, de asemenea, numit de scale de măsurare, este o condiție esențială pentru a face Explorare, Analiză a Datelor (EDA), deoarece puteți utiliza anumite măsurători statistice doar pentru anumite tipuri de date.de asemenea, trebuie să știți cu ce tip de date aveți de-a face pentru a alege metoda de vizualizare potrivită. Gândiți-vă la tipurile de date ca o modalitate de a clasifica diferite tipuri de variabile. Vom discuta principalele tipuri de variabile și vom analiza un exemplu pentru fiecare., Ne vom referi uneori la ele ca scale de măsurare.
date categorice
datele categorice reprezintă caracteristici. Prin urmare, poate reprezenta lucruri precum sexul unei persoane, Limba etc. Datele categorice pot lua, de asemenea, valori numerice (exemplu: 1 Pentru femei și 0 pentru bărbați). Rețineți că aceste numere nu au semnificație matematică.
date nominale
valorile nominale reprezintă unități discrete și sunt utilizate pentru a eticheta variabile, care nu au valoare cantitativă. Gândește-te la ele ca la „etichete”. Rețineți că datele nominale care nu au nici o comandă., Prin urmare, dacă ați schimba ordinea valorilor sale, sensul Nu s-ar schimba. Puteți vedea două exemple nominale de caracteristici de mai jos:
Stânga caracteristică care descrie dacă o persoană este căsătorită s-ar fi numit „dihotomice”, care este un tip de scale nominale, care conține doar două categorii.valorile ordinale reprezintă unități discrete și ordonate., Prin urmare, este aproape la fel ca datele nominale, cu excepția faptului că ordonă probleme. Puteți vedea un exemplu de mai jos:
Rețineți că diferența între Școala Elementară și liceul este diferit decât diferența între Liceu și Facultate. Aceasta este principala limitare a datelor ordinale, diferențele dintre valori nu sunt cu adevărat cunoscute., Din acest motiv, scalele ordinale sunt de obicei folosite pentru a măsura caracteristicile non-numerice, cum ar fi fericirea, satisfacția clienților și așa mai departe.
date numerice
vorbim de date discrete dacă valorile sale sunt distincte și separate. Cu alte cuvinte: vorbim de date discrete dacă datele pot lua doar anumite valori. Acest tip de date nu pot fi măsurate, dar pot fi numărate. Practic reprezintă informații care pot fi clasificate într-o clasificare. Un exemplu este numărul de capete în 100 de monede flips.,
puteți verifica punând următoarele două întrebări dacă aveți de-a face cu date discrete sau nu: le puteți număra și pot fi împărțite în părți din ce în ce mai mici?
date continue
datele continue reprezintă măsurători și, prin urmare, valorile lor nu pot fi numărate, dar pot fi măsurate. Un exemplu ar fi înălțimea unei persoane, pe care o puteți descrie folosind intervale pe linia numărului real.valorile intervalului reprezintă unități ordonate care au aceeași diferență., Prin urmare, vorbim de date de interval atunci când avem o variabilă care conține valori numerice care sunt ordonate și unde cunoaștem diferențele exacte dintre valori. Un exemplu ar fi o caracteristică care conține temperatura de un anumit loc ca să puteți vedea mai jos:
Problema cu intervalul de valori de date este că ele nu au un „zero absolut”. Asta înseamnă, în ceea ce privește exemplul nostru, că nu există temperatură., Cu datele de interval, putem adăuga și scădea, dar nu putem multiplica, împărți sau calcula raporturile. Deoarece nu există zero adevărat, o mulțime de statistici descriptive și inferențiale nu pot fi aplicate.
datele raportului
valorile raportului sunt, de asemenea, ordonate unități care au aceeași diferență. Valorile raportului sunt aceleași cu valorile intervalului, cu diferența că au un zero absolut. Exemple bune sunt înălțimea, greutatea, lungimea etc.,
de Ce Tipuri de Date sunt importante?
tipurile de date sunt un concept important deoarece metodele statistice pot fi utilizate numai cu anumite tipuri de date. Trebuie să analizați datele continue în mod diferit decât datele categorice, altfel ar duce la o analiză greșită. Prin urmare, cunoașterea tipurilor de date cu care aveți de-a face, vă permite să alegeți metoda corectă de analiză.,
vom trece acum peste fiecare tip de date din nou, dar de data aceasta în ceea ce privește metodele statistice care pot fi aplicate. Pentru a înțelege corect ceea ce vom discuta acum, trebuie să înțelegeți elementele de bază ale statisticilor descriptive. Dacă nu le cunoașteți, puteți citi postarea pe blog (9min read) despre aceasta: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
metode statistice
când aveți de-a face cu date nominale, colectați informații prin:
frecvențe: frecvența este rata la care se întâmplă ceva într-o perioadă de timp sau într-un set de date.,
proporție: puteți calcula cu ușurință proporția împărțind frecvența la numărul total de evenimente. (de exemplu, cât de des s-a întâmplat ceva împărțit la cât de des s-ar putea întâmpla)
procentaj.
metode de vizualizare: pentru a vizualiza datele nominale, puteți utiliza o diagramă radială sau o diagramă cu bare.
În Știință de Date, puteți utiliza o codificare, pentru a transforma datele nominale într-un numerică caracteristică.,când aveți de-a face cu date ordinale, puteți utiliza aceleași metode ca în cazul datelor nominale, dar aveți acces și la unele instrumente suplimentare. Prin urmare, puteți rezuma datele ordinale cu frecvențe, proporții, procente. Și îl puteți vizualiza cu diagrame de plăcintă și bare. În plus, puteți utiliza percentilele, mediana, modul și intervalul interquartil pentru a rezuma datele.
în știința datelor, puteți utiliza o codificare etichetă, pentru a transforma datele ordinale într-o caracteristică numerică.,când aveți de-a face cu date continue, puteți utiliza cele mai multe metode pentru a descrie datele. Puteți rezuma datele utilizând percentilele, mediana, intervalul interquartil, media, modul, abaterea standard și intervalul.
metode de vizualizare:
pentru a vizualiza date continue, puteți utiliza o histogramă sau o casetă-plot. Cu o histogramă, puteți verifica tendința centrală, variabilitatea, modalitatea și kurtoza unei distribuții. Rețineți că o histogramă nu vă poate arăta dacă aveți valori aberante. Acesta este motivul pentru care folosim, de asemenea, cutii-parcele.,
Sumar
În acest post, ai descoperit diferite tipuri de date care sunt utilizate în statistică. Ați învățat diferența dintre datele discrete & date continue și ați învățat care sunt scalele de măsurare nominale, ordinale, de interval și de raport. În plus, acum știți ce măsurători statistice puteți utiliza la ce tip de date și care sunt metodele corecte de vizualizare., De asemenea, ați învățat, cu ce metode variabile categorice pot fi transformate în variabile numerice. Acest lucru vă permite să creați o mare parte dintr-o analiză exploratorie pe un anumit set de date.
resurse
această postare a fost publicată inițial pe blogul meu (https://machinelearning-blog.com).
Leave a Reply