tietotyypit ovat tärkeä käsite tilastoja, jotka on ymmärrettävä, jotta oikein soveltaa tilastollisia mittauksia tietosi ja siksi oikein tehdä tiettyjä oletuksia siitä. Tämä blogi esittelee sinulle eri data-tyyppejä, sinun täytyy tietää, tehdä asianmukainen eksploratiivinen data-analyysi (EDA), joka on yksi kaikkein aliarvioida osia koneen oppimisen projekti.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- tilastolliset menetelmät
- Yhteenveto
eri tietotyyppien, joita kutsutaan myös mittausasteiksi, hyvä ymmärtäminen on keskeinen edellytys Eksploratiivisen Data-analyysin (EDA) tekemiselle, sillä tiettyjä tilastollisia mittauksia voi käyttää vain tietyntyyppisiin.
sinun on myös tiedettävä, minkä tietotyypin kanssa olet tekemisissä oikean visualisointimenetelmän valitsemiseksi. Ajattele tietotyyppejä keinona luokitella erilaisia muuttujia. Keskustelemme tärkeimmistä muuttujista ja katsomme esimerkin jokaiselle., Joskus kutsumme niitä mitta-asteikoiksi.
kategoriset tiedot
kategoriset tiedot edustavat ominaisuuksia. Siksi se voi edustaa asioita, kuten henkilön sukupuoli, kieli jne. Kategoriset tiedot voivat myös ottaa numeerisia arvoja (Esimerkki: 1 naisille ja 0 miehille). Huomaa, että noilla numeroilla ei ole matemaattista merkitystä.
nimelliset tiedot
nimellisarvot edustavat erillisiä yksiköitä, ja niitä käytetään sellaisten muuttujien merkitsemiseen, joilla ei ole kvantitatiivista arvoa. Ajattele niitä ”etiketteinä”. Huomaa, että nimellistiedot, joilla ei ole järjestystä., Jos siis muuttaisit sen arvojen järjestystä, merkitys ei muuttuisi. Näet kaksi esimerkkiä nimellinen ominaisuuksia alla:
Vasemmalla ominaisuus, joka kuvaa, jos henkilö on naimisissa, olisi nimeltään ”kaksijakoinen”, joka on eräänlainen nimellinen asteikot, joka sisältää vain kaksi luokkaa.
Ordinaaliset tiedot
Ordinaaliset arvot edustavat diskreettejä ja tilattuja yksiköitä., Se on siis lähes sama kuin nimellistiedot, paitsi että se tilaa asioita. Alla on esimerkki:
huomaa, että peruskoulun ja lukion ero on erilainen kuin lukion ja opiston ero. Tämä on ordinaalidatan päärajoitus, arvojen eroja ei varsinaisesti tunneta., Sen vuoksi ordinaalisia asteikkoja käytetään yleensä mittaamaan ei-numeerisia ominaisuuksia, kuten onnellisuutta, asiakastyytyväisyyttä ja niin edelleen.
Numeeriset Tiedot
Emme puhu diskreetti tiedot, jos sen arvot ovat erillisiä. Toisin sanoen: puhumme diskreetistä datasta, jos data voi ottaa vain tiettyjä arvoja. Tällaista dataa ei voi mitata, mutta se voidaan laskea. Se edustaa pohjimmiltaan tietoa, joka voidaan luokitella luokitteluun. Esimerkkinä voidaan mainita 100 kolikon kääntöpäiden lukumäärä.,
Voit tarkistaa kysymällä seuraavat kaksi kysymystä, onko olet tekemisissä erillisiä tietoja tai ei: voit laskea ja se voidaan jakaa pienempiin ja pienempiin osiin?
jatkuvat tiedot
jatkuvat tiedot edustavat mittauksia, joten niiden arvoja ei voida laskea, mutta ne voidaan mitata. Esimerkkinä voisi mainita henkilön korkeuden, jonka voi kuvata käyttämällä välejä reaalilukulinjalla.
Intervallitiedot
Intervalliarvot edustavat tilattuja yksiköitä, joilla on sama ero., Siksi puhumme välein tiedot, kun meillä on muuttuja, joka sisältää numeerisia arvoja, jotka on tilattu ja missä emme tiedä tarkkaa erot arvojen välillä. Esimerkki voisi olla ominaisuus, joka sisältää lämpötilan tietyn paikan, kuten näet alla:
Ongelma väli-arvot tietoja on se, että heillä ei ole ”true zero”. Se tarkoittaa meidän esimerkkimme osalta sitä, että ei ole olemassa sellaista asiaa kuin ei lämpötilaa., Intervalli tiedot, voimme lisätä ja vähentää, mutta emme voi kertoa, jakaa tai laskea suhdelukuja. Koska todellista Nollaa ei ole, ei voida soveltaa paljon kuvailevia ja johdettavissa olevia tilastoja.
Suhde Tiedot,
Suhde arvot ovat myös tilanneet yksiköt, joilla on sama ero. Suhdearvot ovat samat kuin intervalliarvot, sillä erolla, että niillä on absoluuttinen nolla. Hyviä esimerkkejä ovat pituus, paino, pituus jne.,
Miksi tietotyypit ovat tärkeitä?
Tietotyypit ovat tärkeä käsite, koska tilastollisia menetelmiä voidaan käyttää vain tiettyjä tietotyyppejä. Jatkuva data on analysoitava eri tavalla kuin kategoriset tiedot, muuten se johtaisi väärään analyysiin. Siksi tietäen millaisia tietoja olet tekemisissä, voit valita oikea analyysimenetelmä.,
käymme nyt jokaisen tietotyypin uudelleen läpi, mutta tällä kertaa sen osalta, mitä tilastollisia menetelmiä voidaan soveltaa. Ymmärtääksemme oikein, mitä nyt keskustelemme, sinun täytyy ymmärtää kuvailevan tilastoinnin perusteet. Jos et tunne heitä, voit lukea siitä blogikirjoitukseni (9min read): https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
Tilastolliset Menetelmät
Kun olet tekemisissä nimellinen tiedot, kerätä tietoa kautta:
Taajuudet: Taajuus on nopeus, jolla jotain tapahtuu yli ajan kuluessa tai datajoukon.,
osuus: osuus voidaan helposti laskea jakamalla esiintymistiheys tapahtumien kokonaismäärällä. (esim.kuinka usein jotain tapahtui ja kuinka usein se saattoi tapahtua)
prosenttiluku.
visualisointimenetelmät: nimellisdatan visualisointiin voi käyttää piirakkakaaviota tai viivakaaviota.
Data Science, voit käyttää one-hot-koodausta, muuttaa nimellinen datan numeerinen ominaisuus.,
Järjestysluku Tiedot
Kun olet tekemisissä järjestysluku tietoja, voit käyttää samoja menetelmiä kuin nimellinen tiedot, mutta voit myös saada joitakin ylimääräisiä työkaluja. Siksi voit tiivistää ordinaalitiedot taajuuksilla, mittasuhteilla, prosenttiosuuksilla. Sen voi visualisoida piirakka-ja baarikartoilla. Lisäksi voit käyttää prosenttipisteet, mediaani ja kvartiilivälin pituus tiivistää tietosi.
Data Science, voit käyttää yksi label koodaus, muuttaa järjestysluku datan numeerinen ominaisuus.,
jatkuvatoimiset tiedot
kun käsittelet jatkuvaa tietoa, voit käyttää eniten menetelmiä tietojesi kuvaamiseen. Voit tiivistää tietosi käyttämällä prosenttipisteet, mediaani, kvartiiliväli, keskiarvo, moodi, keskihajonta ja vaihteluväli.
visualisointimenetelmät:
jatkuvien tietojen visualisoimiseksi voit käyttää histogrammia tai laatikkoa. Kanssa histogrammi, voit tarkistaa, keski taipumus, vaihtelu, yhteistoiminta, ja kurtosis jakelu. Huomaa, että histogrammi ei voi näyttää, jos sinulla on poikkeamia. Siksi käytämme myös laatikkopalstoja.,
Tiivistelmä
Tässä postitse, sinun löysi eri tietotyyppejä, joita käytetään koko tilastot. Olet oppinut ero diskreetti & jatkuva tietojen ja oppinut, mitä nimellinen, järjestysluku, väli-ja suhde mitta-asteikot ovat. Lisäksi, nyt tiedät mitä tilastollisia mittauksia, voit käyttää joka tietotyyppi ja jotka ovat oikea visualisoinnin menetelmiä., Opit myös, millä menetelmillä kategoriset muuttujat voidaan muuttaa numeerisiksi muuttujiksi. Näin voit luoda suuren osan tietyn aineiston tutkimisesta.
resurssit
tämä viesti julkaistiin aluksi blogissani (https://machinelearning-blog.com).
Leave a Reply