datové typy jsou důležitým konceptem statistiky, který je třeba pochopit, správně aplikovat statistická měření na vaše data, a proto správně uzavřít určité předpoklady o tom. Tento blogový příspěvek vás seznámí s různými typy dat, které potřebujete vědět, abyste mohli provést správnou průzkumnou analýzu dat (EDA), která je jednou z nejvíce podceňovaných částí projektu strojového učení.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Statistické Metody
- Shrnutí
S dobré porozumění různých typů dat, také volal měření váhy, je zásadní podmínkou pro to Explorační Analýza Dat (EDA), protože můžete použít některé statistické měření pouze pro určité datové typy.
musíte také vědět, s jakým typem dat máte co do činění, abyste zvolili správnou metodu vizualizace. Přemýšlejte o datových typech jako o způsobu kategorizace různých typů proměnných. Budeme diskutovat o hlavních typech proměnných a podíváme se na příklad pro každého., Někdy je budeme označovat jako měřicí váhy.
kategorická Data
kategorická data představují vlastnosti. Proto může představovat věci, jako je pohlaví člověka, jazyk atd. Kategorická data mohou také nabývat číselných hodnot (Příklad: 1 pro ženu a 0 pro muže). Všimněte si, že tato čísla nemají matematický význam.
Jmenovitá Data
jmenovité hodnoty představují diskrétní jednotky a používají se k označení proměnných, které nemají kvantitativní hodnotu. Jen je považujte za“štítky“. Všimněte si, že nominální údaje, které nemají žádnou objednávku., Pokud byste tedy změnili pořadí jeho hodnot, význam by se nezměnil. Níže jsou uvedeny dva příklady jmenovitých funkcí:
levá funkce, která popisuje, zda je osoba Vdaná, by se nazývala „dichotomous“, což je typ nominálních měřítek, který obsahuje pouze dvě kategorie.
pořadová Data
pořadové hodnoty představují diskrétní a uspořádané jednotky., Je tedy téměř stejná jako nominální data, kromě toho, že objednává záležitosti. Můžete vidět příklad níže:
Všimněte si, že rozdíl mezi Základní a Střední Školou je jiný než rozdíl mezi střední a Vysokou. Toto je hlavní omezení pořadových dat, rozdíly mezi hodnotami nejsou skutečně známy., Z tohoto důvodu se pořadové váhy obvykle používají k měření nečíselných vlastností, jako je štěstí, spokojenost zákazníků atd.
Numerická Data
mluvíme o diskrétních datech, pokud jsou její hodnoty odlišné a oddělené. Jinými slovy: mluvíme o diskrétních datech, pokud data mohou přijímat pouze určité hodnoty. Tento typ dat nelze měřit, ale lze jej spočítat. V podstatě představuje informace, které lze rozdělit do klasifikace. Příkladem je počet hlav ve 100 hodech mincí.,
můžete zkontrolovat položením následujících dvou otázek, zda máte co do činění s diskrétními daty nebo ne: můžete je spočítat a lze je rozdělit na menší a menší části?
kontinuální Data
kontinuální Data představují měření, a proto jejich hodnoty nelze počítat, ale lze je měřit. Příkladem by byla výška osoby, kterou můžete popsat pomocí intervalů na řádku skutečného čísla.
intervalová Data
intervalové hodnoty představují uspořádané jednotky, které mají stejný rozdíl., Proto mluvíme o intervalu dat, když máme proměnnou, která obsahuje číselné hodnoty, které jsou objednané a kde známe přesné rozdíly mezi hodnotami. Příkladem může být funkce, která obsahuje teplotu na daném místě, jako můžete vidět níže:
Problém s interval hodnot dat je, že nemají „nuly“. To znamená, pokud jde o náš příklad, že neexistuje žádná taková věc jako žádná teplota., S intervalovými daty můžeme přidávat a odečítat, ale nemůžeme vynásobit, rozdělit nebo vypočítat poměry. Protože neexistuje žádná skutečná nula, nelze použít mnoho popisných a inferenčních statistik.
Data poměru
hodnoty poměru jsou také seřazeny jednotky, které mají stejný rozdíl. Hodnoty poměru jsou stejné jako hodnoty intervalu, s tím rozdílem, že mají absolutní nulu. Dobrými příklady jsou výška, hmotnost, délka atd.,
Proč Datové Typy jsou důležité?
datové typy jsou důležitým pojmem, protože statistické metody lze použít pouze u určitých datových typů. Musíte analyzovat nepřetržitá data jinak než kategorická data, jinak by to mělo za následek nesprávnou analýzu. Znalost typů dat, se kterými se zabýváte, vám proto umožňuje zvolit správnou metodu analýzy.,
nyní projdeme každý datový typ znovu, ale tentokrát s ohledem na to, jaké statistické metody lze použít. Chcete-li správně pochopit, o čem budeme nyní diskutovat, musíte pochopit základy popisné statistiky. Pokud je neznáte, můžete si o tom přečíst můj blogový příspěvek (9min číst): https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
statistické metody
když se zabýváte jmenovitými daty, shromažďujete informace prostřednictvím:
frekvence: frekvence je rychlost, při které se něco děje po určitou dobu nebo v datovém souboru.,
poměr: poměr můžete snadno vypočítat vydělením frekvence celkovým počtem událostí. (např. jak často se něco stalo děleno podle toho, jak často se to může stát)
procento.
metody vizualizace: pro vizualizaci jmenovitých dat můžete použít koláčový graf nebo sloupcový graf.
V Data Science, můžete použít jeden hot kódování, transformace nominálních dat do numerické funkce.,
Ordinální Data
Když máte co do činění s ordinální data, můžete použít stejné metody jako u nominálních dat, ale budete mít také přístup k některé další nástroje. Proto můžete shrnout své pořadové údaje s frekvencemi, proporcemi, procenty. A můžete si to představit pomocí koláčových a barových grafů. Kromě toho můžete pro shrnutí vašich dat použít percentily, medián, režim a mezikvartilní rozsah.
ve vědě o datech můžete použít jedno kódování štítků k transformaci pořadových dat na číselnou funkci.,
kontinuální Data
Pokud máte co do činění s nepřetržitými daty,můžete použít nejvíce metod k popisu vašich dat. Svá data můžete shrnout pomocí percentilů, mediánu, mezikvartilního rozsahu, průměru, režimu, směrodatné odchylky a rozsahu.
metody vizualizace:
pro vizualizaci spojitých dat můžete použít histogram nebo box-plot. Pomocí histogramu můžete zkontrolovat centrální tendenci, variabilitu, modalitu a kurtózu distribuce. Všimněte si, že histogram vám nemůže ukázat, pokud máte nějaké odlehlé hodnoty. Proto také používáme krabicové pozemky.,
Shrnutí
V tomto příspěvku jsi zjistil, že různé typy dat, které jsou použity statistiky. Jste se naučil rozdíl mezi diskrétní & kontinuální data a dozvěděl se, co je to nominální, ordinální, intervalové a měření poměru váhy jsou. Kromě toho nyní víte, jaká statistická měření můžete použít při kterém typu dat a které jsou správné metody vizualizace., Také jste se naučili, s jakými metodami lze kategorické proměnné přeměnit na číselné proměnné. To vám umožní vytvořit velkou část průzkumné analýzy na daném datovém souboru.
Zdroje
Tento příspěvek byl původně publikován na mém blogu (https://machinelearning-blog.com).
Leave a Reply