Typer Data, er et viktig konsept av statistikk, som trenger å bli forstått, å riktig å anvende statistiske målinger til dine data, og derfor riktig å konkludere med visse forutsetninger om det. Denne bloggen vil introdusere deg til de forskjellige typer data du trenger å vite, til å gjøre skikkelig utforskende data analyse (EDA), som er en av de mest undervurderte deler av en maskin læring prosjektet.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Statistiske Metoder
- Oppsummering
å Ha en god forståelse av de forskjellige data-typer, også kalt måling skalaer, er en avgjørende forutsetning for å gjøre Utforskende Data Analyse (EDA), siden du kan bruke enkelte statistiske målinger bare for bestemte typer data.
Du trenger også å vite hvilken datatype du har å gjøre med å velge riktig visualisering metode. Tenk på datatyper som en måte å kategorisere forskjellige typer variabler. Vil vi diskutere de viktigste typer av variabler og se på et eksempel for hver., Vi vil noen ganger referere til dem som måling skalaer.
Kategoriske Data
Kategoriske data representerer egenskaper. Derfor kan det representere ting som en persons kjønn, språk etc. Kategoriske data kan også ta på numeriske verdier (Eksempel: 1 for kvinne og 0 for menn). Merk at disse tallene ikke har matematisk betydning.
Nominelle Data
Nominelle verdier representerer diskrete enheter og er brukt til å merke variabler, som har ingen kvantitativ verdi. Bare tenk på dem som «labels». Vær oppmerksom på at nominelle data som ikke har noen ordre., Derfor hvis du vil endre rekkefølgen på sine verdier, betyr ikke ville endre. Du kan se to eksempler på nominell funksjoner nedenfor:
Venstre har som beskriver hvis en person er gift, ville bli kalt «dichotomous», som er en type av nominelle vekter som bare inneholder to kategorier.
Ordenstallet Data
Ordenstallet verdiene representerer diskret og bestilte enheter., Det er derfor nesten det samme som nominell data, bortsett fra at det er bestilling av saker. Du kan se et eksempel nedenfor:
Vær oppmerksom på at forskjellen mellom Grunnskole og Videregående Skole er annerledes enn forskjellen mellom Videregående Skole og Høyskole. Dette er den viktigste begrensning av ordenstallet data, er det forskjeller mellom de verdier er egentlig ikke kjent., På grunn av at ordenstallet skalaer er vanligvis brukt til å måle ikke-numeriske funksjoner som lykke, kundetilfredshet og så videre.
Numeriske Data
Vi snakker om diskrete data om sine verdier er distinkte og separate. Med andre ord: Vi snakker om diskrete data hvis data kan bare ta på visse verdier. Denne type data kan ikke måles, men det kan telles. Det er i utgangspunktet representerer informasjon som kan kategoriseres i en klassifikasjon. Et eksempel er antall hoder i 100 knips.,
Du kan sjekke ved å stille følgende to spørsmål om du handler med diskrete data eller ikke: Kan du telle det, og kan det deles opp i mindre og mindre deler?
Kontinuerlig Data
Kontinuerlig Data representerer målinger og derfor deres verdier som ikke kan telles, men de kan måles. Et eksempel ville være høyden på en person, som du kan beskrive ved hjelp av intervaller på den reelle tall-linjen.
Intervall Data
Intervall verdiene representerer bestilte enheter som har den samme forskjellen., Derfor snakker vi om intervall data når vi har en variabel som inneholder numeriske verdier som er bestilt og hvor vi vet nøyaktig forskjeller mellom de verdier. Et eksempel ville være en funksjon som inneholder temperaturen på et gitt sted som du kan se nedenfor:
Problemet med intervall verdier data er at de ikke har en «true null». Det betyr at i forhold til vårt eksempel, at det er ingen slike ting som ingen temperatur., Med intervall data, kan vi legge til og trekke fra, men vi kan ikke multiplisere, dividere, eller beregne kapitaldekningen. Fordi det er ingen true null, mye av beskrivende og slutningsstatistikk kan ikke være anvendt.
Ratio Data
Ratio verdier er også bestilt enheter som har den samme forskjellen. Forholdet verdiene er de samme som intervall verdier, med den forskjell at de har en absolutt null. Gode eksempler er høyde, vekt, lengde etc.,
Hvorfor Datatyper er viktig?
Datatyper er et viktig konsept grunn statistiske metoder kan bare brukes sammen med visse typer data. Du har å kontinuerlig analysere data på en annen måte enn kategoriske data som ellers ville det resultere i en feil analyse. Derfor vite hvilke typer data du arbeider med, gjør det mulig for deg å velge riktig metode for analyse.,
Vi vil nå gå over hver datatype igjen, men denne gangen i forhold til hva statistiske metoder kan brukes. For å forstå skikkelig hva vi vil nå diskutere, du har å forstå det grunnleggende av beskrivende statistikk. Hvis du ikke kjenner dem, kan du lese mitt blogginnlegg (9min lese om det: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
Statistiske Metoder
Når du arbeider med nominell data du samler inn informasjon gjennom:
Frekvenser: Frekvensen er hastigheten som noe som skjer over en periode av tid eller innen et datasett.,
Andel: Du kan enkelt beregne andelen ved å dele frekvensen av det totale antall hendelser. (e.g hvor ofte skjedde det noe delt inn etter hvor ofte det kan skje)
Prosentpoeng.
Visualisering Metoder: Å visualisere nominelle data du kan bruke et kakediagram eller et stolpediagram.
I Data Vitenskap, du kan bruke en hot-koding, for å transformere data nominell inn en numerisk funksjonen.,
Ordenstallet Data
Når du arbeider med ordenstallet data, kan du bruke de samme metodene som med nominell data, men du har også tilgang til noen ekstra verktøy. Derfor kan du oppsummere din ordenstallet data med frekvenser, proporsjoner, prosenter. Og du kan se det med pie og stolpediagrammer. I tillegg kan du bruke prosentiler, median, modus og interkvartil avstand for å oppsummere dine data.
I Data Vitenskap, kan du bruke en etikett koding, for å forvandle ordenstallet data inn en numerisk funksjonen.,
Kontinuerlig Data
Når du arbeider med kontinuerlige data, kan du bruke de fleste metoder for å beskrive data. Kan du oppsummere dine data ved hjelp av prosentiler, median, interkvartil avstand, gjennomsnitt, modus, standardavvik og utvalg.
Visualisering Metoder:
for Å visualisere kontinuerlig data, kan du bruke et histogram eller en boks-plot. Med et histogram, kan du sjekke den sentrale tendens, variasjon, modalitet, og kurtosis i en fordeling. Vær oppmerksom på at en histogram kan ikke vise deg hvis du har noen uteliggere. Dette er grunnen til at vi også bruke box-plott.,
Oppsummering
I dette innlegget, du oppdaget de ulike typer data som er brukt i statistikken. Du har lært forskjellen mellom diskret & kontinuerlig data og lært hva nominell, ordenstallet, intervall og forholdet måling skalaer er. Videre, du vet nå hva statistiske målinger du kan bruke på hvilken datatype og som er riktig visualisering metoder., Du lærte også, med hvilke metoder kategoriske variabler kan bli forvandlet til numeriske variabler. Dette gjør det mulig for deg å opprette en stor del av en eksplorativ analyse på et gitt datasett.
Ressurser
Dette innlegget ble opprinnelig publisert på bloggen min (https://machinelearning-blog.com).
Leave a Reply