datatyper er et vigtigt begreb med statistikker, som skal forstås, for korrekt at anvende statistiske målinger på dine data og derfor korrekt konkludere visse antagelser om det. Dette blogindlæg introducerer dig til de forskellige datatyper, du har brug for at vide, for at udføre korrekt sonderende dataanalyse (EDA), som er en af de mest undervurderede dele af et maskinlæringsprojekt.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Statistiske Metoder
- Oversigt
at Have en god forståelse af de forskellige data typer, også kaldet måling skalaer, er en afgørende forudsætning for at gøre Sonderende Data Analysis (EDA), da du kan bruge visse statistiske målinger kun til bestemte typer data.
Du skal også vide, hvilken datatype du har at gøre med for at vælge den rigtige visualiseringsmetode. Tænk på datatyper som en måde at kategorisere forskellige typer variabler på. Vi vil diskutere hovedtyperne af variabler og se på et eksempel for hver., Vi vil undertiden henvise til dem som måleskalaer.
Kategoriske Data
Kategoriske data repræsenterer egenskaber. Derfor kan det repræsentere ting som en persons køn, sprog osv. Kategoriske data kan også tage på numeriske værdier (eksempel: 1 For kvinder og 0 for mænd). Bemærk, at disse tal ikke har matematisk betydning.
nominelle Data
nominelle værdier repræsenterer diskrete enheder og bruges til at mærke variabler, der ikke har nogen kvantitativ værdi. Bare tænk på dem som”etiketter”. Bemærk, at nominelle data, der ikke har nogen ordre., Derfor, hvis du ville ændre rækkefølgen af dens værdier, ville betydningen ikke ændre sig. Du kan se to eksempler på nominelle funktioner nedenfor:
Venstre-funktionen, der beskriver, at hvis en person er gift og ville blive kaldt “dikotome”, som er en type nominel skalaer, der kun indeholder to kategorier.
ordinære Data
ordinære værdier repræsenterer diskrete og bestilte enheder., Det er derfor næsten det samme som nominelle data, bortset fra at det bestiller spørgsmål. Du kan se et eksempel nedenfor:
Bemærk, at forskellen mellem folkeskole og gymnasium er anderledes end forskellen mellem High School og College. Dette er hovedbegrænsningen af ordinære data, forskellene mellem værdierne er ikke rigtig kendt., På grund af det bruges ordinære skalaer normalt til at måle ikke-numeriske funktioner som lykke, kundetilfredshed og så videre.
numeriske Data
vi taler om diskrete data, hvis dens værdier er forskellige og separate. Med andre ord: vi taler om diskrete data, hvis dataene kun kan påtage sig bestemte værdier. Denne type data kan ikke måles, men det kan tælles. Det repræsenterer dybest set oplysninger, der kan kategoriseres i en klassificering. Et eksempel er antallet af hoveder i 100 mønt flips.,
Du kan tjekke ved at stille følgende to spørgsmål, om du har at gøre med diskrete data eller ej: kan du tælle dem og kan de opdeles i mindre og mindre dele?
kontinuerlige data
kontinuerlige Data repræsenterer målinger, og derfor kan deres værdier ikke tælles, men de kan måles. Et eksempel ville være højden på en person, som du kan beskrive ved at bruge intervaller på den reelle tallinie.intervaldata
Intervalværdier repræsenterer bestilte enheder, der har samme forskel., Derfor taler vi om intervaldata, når vi har en variabel, der indeholder numeriske værdier, der er bestilt, og hvor vi kender de nøjagtige forskelle mellem værdierne. Et eksempel kunne være en funktion, der indeholder temperatur på et givet sted, som du kan se nedenfor:
Problemet med interval-værdier data er, at de ikke har en “sand nul”. Det betyder i forhold til vores eksempel, at der ikke er sådan noget som ingen temperatur., Med intervaldata kan vi tilføje og trække fra, men vi kan ikke multiplicere, opdele eller beregne forhold. Fordi der ikke er noget sandt nul, kan en masse beskrivende og inferentielle statistikker ikke anvendes.
Ratio Data
Ratio værdier er også bestilt enheder, der har den samme forskel. Ratio værdier er de samme som intervalværdier, med den forskel, at de har et absolut nul. Gode eksempler er Højde, Vægt, Længde osv.,
Hvorfor Data Typer er vigtige?
datatyper er et vigtigt begreb, fordi statistiske metoder kun kan bruges med visse datatyper. Du skal analysere kontinuerlige data anderledes end kategoriske data, ellers ville det resultere i en forkert analyse. Derfor at kende de typer af data, du har at gøre med, gør det muligt at vælge den rigtige metode til analyse.,
Vi vil nu gennemgå hver datatype igen, men denne gang med hensyn til hvilke statistiske metoder der kan anvendes. For at forstå korrekt, hvad vi nu vil diskutere, skal du forstå det grundlæggende i beskrivende statistik. Hvis du ikke kender dem, kan du læse mit blogindlæg (9min læse) om det: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
statistiske metoder
Når du har at gøre med nominelle data, indsamler du oplysninger gennem:
frekvenser: frekvensen er den hastighed, hvormed noget sker over en periode eller inden for et datasæt.,
andel: du kan nemt beregne andelen ved at dividere frekvensen med det samlede antal begivenheder. (f how hvor ofte der skete noget divideret med hvor ofte det kunne ske)
procentdel.
visualiseringsmetoder: for at visualisere nominelle data kan du bruge et cirkeldiagram eller et søjlediagram.
I Data Videnskab, du kan bruge en hot-kodning, til at omdanne nominelle data i et numerisk funktion.,
Ordinal Data
Når du har at gøre med ordinal data, kan du bruge de samme metoder som med de nominelle data, men du har også adgang til nogle yderligere værktøjer. Derfor kan du opsummere dine ordinære data med frekvenser, proportioner, procenter. Og du kan visualisere det med tærte og søjlediagrammer. Derudover kan du bruge percentiler, median, tilstand og det interkvartile område til at opsummere dine data.
i datavidenskab kan du bruge en etiketkodning til at omdanne ordinære data til en numerisk funktion.,
kontinuerlige data
Når du har at gøre med kontinuerlige data, kan du bruge de fleste metoder til at beskrive dine data. Du kan opsummere dine data ved hjælp af percentiler, median, interkvartil rækkevidde, middelværdi, tilstand, standardafvigelse og rækkevidde.
visualiseringsmetoder:
for at visualisere kontinuerlige data kan du bruge et histogram eller et boksplot. Med et histogram kan du kontrollere den centrale tendens, variabilitet, modalitet og kurtose af en distribution. Bemærk, at et histogram ikke kan vise dig, om du har nogen outliers. Derfor bruger vi også bo.-plots.,
Oversigt
I dette indlæg, du opdagede, at de forskellige data typer, som er anvendt i hele statistik. Du lærte forskellen mellem diskret & kontinuerlige data og lærte, hvad nominelle, ordinære, interval-og forholdsmåleskalaer er. Derudover ved du nu, hvilke statistiske målinger du kan bruge til hvilke datatype, og hvilke der er de rigtige visualiseringsmetoder., Du lærte også, med hvilke metoder kategoriske variabler kan omdannes til numeriske variabler. Dette giver dig mulighed for at oprette en stor del af en sonderende analyse på et givet datasæt.
ressourcer
dette indlæg blev oprindeligt offentliggjort på min blog (https://machinelearning-blog.com).
Leave a Reply