az adattípusok a statisztikák fontos fogalma, amelyet meg kell érteni, hogy helyesen alkalmazzák a statisztikai méréseket az adataira, ezért bizonyos feltételezések helyes megkötésére. Ez a blogbejegyzés bemutatja a különböző adattípusokat, amelyeket tudnia kell, a megfelelő feltáró Adatelemzés (EDA) elvégzéséhez, amely a gépi tanulási projekt egyik leginkább alábecsült része.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- statisztikai módszerek
- összefoglaló
a különböző adattípusok, más néven mérési skálák jó megértése elengedhetetlen előfeltétele a feltáró Adatelemzés (EDA) elvégzésének, mivel bizonyos statisztikai méréseket csak bizonyos adattípusokhoz használhat.
azt is tudnia kell, hogy melyik adattípussal foglalkozik a megfelelő megjelenítési módszer kiválasztásához. Gondolj adattípusok, mint egy módja annak, hogy kategorizálni a különböző típusú változók. Megvitatjuk a változók főbb típusait, és mindegyikre egy példát mutatunk be., Néha mérési skáláknak nevezzük őket.
kategorikus adatok
a kategorikus adatok jellemzőket jelentenek. Ezért olyan dolgokat képviselhet,mint egy személy neme, nyelve stb. A kategorikus adatok numerikus értékeket is felvehetnek (például: 1 a nő esetében, 0 a férfi esetében). Vegye figyelembe, hogy ezeknek a számoknak nincs matematikai jelentése.
névleges adatok
A névleges értékek diszkrét egységeket képviselnek, és olyan változók címkézésére használják, amelyeknek nincs kvantitatív értéke. Csak gondolj rájuk, mint “címkék”. Vegye figyelembe, hogy a névleges adatok, amelyeknek nincs rendelése., Ezért, ha megváltoztatná értékeinek sorrendjét,a jelentés nem változik. Látod, két példa a névleges jellemzői a következők:
A bal funkció, amely leírja, ha az illető házas lenne az úgynevezett “dichotomous”, amely egyfajta névleges mérleg, amely csak két kategória.
Ordinal Data
Ordinal values represent discrete and ordered units., Ezért majdnem ugyanaz, mint a névleges adatok, kivéve, hogy rendelési ügyekben. Lehet, lásd az alábbi példát:
Vegye figyelembe, hogy a különbség a között, hogy Általános, illetve középiskolai más, mint a különbség aközött, középiskola, egyetem. Ez az ordinális adatok fő korlátozása, az értékek közötti különbségek nem igazán ismertek., Emiatt a sorskálákat általában nem numerikus funkciók mérésére használják, mint például a boldogság, az ügyfelek elégedettsége stb.
numerikus adatok
diszkrét adatokról beszélünk, ha értékei elkülönültek és különállóak. Más szavakkal: diszkrét adatokról beszélünk, ha az adatok csak bizonyos értékeket vehetnek fel. Az ilyen típusú adatokat nem lehet mérni, de meg lehet számolni. Alapvetően olyan információkat jelent,amelyek osztályozhatók. Példa erre a fejek száma 100 érme fejtetőn.,
a következő két kérdés feltevésével ellenőrizheti, hogy diszkrét adatokkal foglalkozik – e vagy sem: meg tudja-e számolni, és fel lehet-e osztani kisebb-kisebb részekre?
folyamatos adatok
a folyamatos adatok méréseket jelentenek, ezért értékeiket nem lehet megszámolni, de meg lehet mérni. Példa lenne egy személy magassága, amelyet leírhat a valós számsor intervallumainak használatával.
intervallumadatok
Intervallumértékek olyan rendezett egységeket jelölnek, amelyek azonos különbséggel rendelkeznek., Ezért intervallumadatokról beszélünk, amikor van egy változó, amely numerikus értékeket tartalmaz, amelyeket megrendelnek, és ahol tudjuk az értékek közötti pontos különbségeket. Egy példa lenne egy olyan funkció, amely tartalmazza a hőmérséklet egy adott helyen, mint látható az alábbi:
A probléma az intervallum értékek, adatok, hogy nem egy “igazi nulla”. Ez azt jelenti, annak tekintetében, hogy a példa, hogy nincs olyan dolog, mint nincs hőmérséklet., Az intervallumadatokkal összeadhatjuk és kivonhatjuk, de nem tudjuk szaporítani, osztani vagy kiszámítani az arányokat. Mivel nincs valódi nulla, sok leíró és inferenciális statisztika nem alkalmazható.
Arány adatok
Arány értékek is rendezett egységek, amelyek ugyanazt a különbséget. Az arányértékek megegyeznek az intervallumértékekkel, azzal a különbséggel, hogy abszolút nulla. Jó példák a magasság, súly, hosszúság stb.,
miért fontosak az adattípusok?
az adattípusok fontos fogalom, mivel a statisztikai módszerek csak bizonyos adattípusoknál használhatók. A folyamatos adatokat másképp kell elemezni, mint a kategorikus adatokat, különben rossz elemzést eredményezne. Ezért az Ön által kezelt adatok típusának ismerete lehetővé teszi a helyes elemzési módszer kiválasztását.,
most újra átmegyünk minden adattípuson, de ezúttal annak tekintetében, hogy milyen statisztikai módszereket lehet alkalmazni. Ahhoz, hogy megértsük, mit fogunk most megvitatni, meg kell értenünk a leíró statisztikák alapjait. Ha nem ismeri őket, elolvashatja a blogbejegyzésemet (9min olvasni) róla: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
statisztikai módszerek
ha névleges adatokkal foglalkozik, információkat gyűjt:
frekvenciák: a frekvencia az a sebesség, amellyel valami egy bizonyos idő alatt vagy egy adatkészleten belül történik.,
Arány: könnyen kiszámíthatja az arányt úgy, hogy a frekvenciát elosztja az események teljes számával. (pl. milyen gyakran történt valami osztva, hogy milyen gyakran megtörténhet)
százalék.
vizualizációs módszerek: a névleges adatok megjelenítéséhez használhat kördiagramot vagy sávdiagramot.
Az Adatok a Tudomány, használhatja egy forró kódolás, hogy átalakítsa névleges adatok a numerikus funkciót.,
Ordinal Data
ha sorszámadatokkal foglalkozik, ugyanazokat a módszereket használhatja, mint a névleges adatokkal, de hozzáférhet néhány további eszközhöz is. Ezért összefoglalhatja az ordinális adatait frekvenciákkal, arányokkal, százalékokkal. És láthatod pitével és bárdiagramokkal. Ezen felül percentilisek, medián, mód és interquartilis tartomány segítségével összegezheti adatait.
az Adattudományban egy címkekódolást használhat, hogy az ordinális adatokat numerikus funkcióvá alakítsa.,
folyamatos adatok
Ha folyamatos adatokkal foglalkozik, akkor a legtöbb módszert használhatja az adatok leírására. Az adatokat percentiles, medián, interquartilis tartomány, átlag, mód, szórás és tartomány segítségével foglalhatja össze.
vizualizációs módszerek:
a folyamatos adatok megjelenítéséhez használhat hisztogramot vagy doboz-parcellát. A hisztogram segítségével ellenőrizheti az eloszlás központi tendenciáját, variabilitását, modalitását és kurtózisát. Vegye figyelembe,hogy a hisztogram nem tudja megmutatni, ha bármilyen kiugró. Ezért is használjuk a doboz-parcellákat.,
összefoglaló
ebben a bejegyzésben felfedezte a statisztikák során használt különböző adattípusokat. Megtanultad a különbséget a diszkrét & folytonos adatok között, és megtudtad, hogy milyen névleges, ordinális, intervallum – és aránymérési skálák vannak. Továbbá, most már tudja, milyen statisztikai méréseket lehet használni, amely adattípus, amelyek a megfelelő megjelenítési módszerek., Azt is megtanulta, hogy mely módszerekkel a kategorikus változók numerikus változókká alakíthatók. Ez lehetővé teszi, hogy hozzon létre egy nagy része egy feltáró elemzés egy adott adatbázisba.
források
ezt a bejegyzést eredetileg a blogomban tették közzé (https://machinelearning-blog.com).
Leave a Reply