datatyper är ett viktigt begrepp för statistik, som måste förstås, för att korrekt tillämpa statistiska mätningar på dina data och därför korrekt avsluta vissa antaganden om det. Det här blogginlägget kommer att introducera dig till de olika datatyperna du behöver veta, för att göra korrekt utforskande dataanalys (EDA), vilket är en av de mest underskattade delarna av ett maskininlärningsprojekt.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- statistiska metoder
- sammanfattning
att ha en god förståelse för de olika datatyperna, även kallade mätskalor, är en viktig förutsättning för att göra utforskande dataanalys (Eda), eftersom du endast kan använda vissa statistiska mätningar för specifika datatyper.
Du måste också veta vilken datatyp du har att göra med för att välja rätt visualiseringsmetod. Tänk på datatyper som ett sätt att kategorisera olika typer av variabler. Vi kommer att diskutera de viktigaste typerna av variabler och titta på ett exempel för varje., Vi kommer ibland att hänvisa till dem som mätskalor.
kategoriska Data
kategoriska data representerar egenskaper. Därför kan det representera saker som en persons kön, språk etc. Kategoriska data kan också ta på sig numeriska värden (exempel: 1 för kvinnor och 0 för män). Observera att dessa siffror inte har matematisk mening.
nominella Data
nominella värden representerar diskreta enheter och används för att märka variabler, som inte har något kvantitativt värde. Tänk bara på dem som”etiketter”. Observera att nominella data som inte har någon order., Därför om du skulle ändra ordningen på dess värden, skulle meningen inte förändras. Du kan se två exempel på nominella funktioner nedan:
eskriver om en person är gift skulle kallas ”dikotomös”, som är en typ av nominella skalor som innehåller endast två kategorier.
ordinära Data
ordinära värden representerar diskreta och beställda enheter., Det är därför nästan samma som nominella data, förutom att det beställer frågor. Du kan se ett exempel nedan:
kolan är annorlunda än skillnaden mellan gymnasiet och college. Detta är den största begränsningen av ordinära data, skillnaderna mellan värdena är inte riktigt kända., På grund av detta, ordinal skalor används vanligtvis för att mäta icke-numeriska funktioner som lycka, kundnöjdhet och så vidare.
numeriska Data
vi talar om diskreta data om dess värden är distinkta och separata. Med andra ord: vi talar om diskreta data om data bara kan ta på sig vissa värden. Denna typ av data kan inte mätas men det kan räknas. Det representerar i princip information som kan kategoriseras i en klassificering. Ett exempel är antalet huvuden i 100 slantsinglingar.,
Du kan kontrollera genom att ställa följande två frågor om du har att göra med diskreta data eller inte: kan du räkna det och kan det delas upp i mindre och mindre delar?
kontinuerliga Data
kontinuerliga Data representerar mätningar och därför kan deras värden inte räknas men de kan mätas. Ett exempel skulle vara höjden på en person, som du kan beskriva genom att använda intervaller på den verkliga nummerlinjen.
intervalldata
intervallvärden representerar beställda enheter som har samma skillnad., Därför talar vi om intervalldata när vi har en variabel som innehåller numeriska värden som beställs och där vi känner till de exakta skillnaderna mellan värdena. Ett exempel skulle vara en funktion som innehåller temperaturen på en viss plats som du kan se nedan:
problemet med intervallvärden är att de inte har en”sann noll”. Det betyder i fråga om vårt exempel att det inte finns något sådant som ingen temperatur., Med intervalldata kan vi lägga till och subtrahera, men vi kan inte multiplicera, dela eller beräkna förhållanden. Eftersom det inte finns någon sann noll kan mycket beskrivande och inferentiell statistik inte tillämpas.
Ratio Data
Ratio värden beställs också enheter som har samma skillnad. Förhållandet värden är samma som intervallvärden, med skillnaden att de har en absolut noll. Bra exempel är höjd, vikt, längd etc.,
varför datatyper är viktiga?
datatyper är ett viktigt begrepp eftersom statistiska metoder endast kan användas med vissa datatyper. Du måste analysera kontinuerliga data annorlunda än kategoriska data annars skulle det resultera i en felaktig analys. Därför att veta vilka typer av data du har att göra med, kan du välja rätt analysmetod.,
Vi kommer nu att gå igenom varje datatyp igen men den här gången när det gäller vilka statistiska metoder som kan tillämpas. För att förstå vad vi nu ska diskutera måste du förstå grunderna för beskrivande statistik. Om du inte känner till dem kan du läsa mitt blogginlägg (9min läs) om det: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
statistiska metoder
När du hanterar nominella data samlar du in information genom:
frekvenser: frekvensen är den takt med vilken något inträffar under en tidsperiod eller inom en datauppsättning.,
andel: Du kan enkelt beräkna andelen genom att dividera frekvensen med det totala antalet händelser. (t.ex. hur ofta något hände dividerat med hur ofta det kunde hända)
procentandel.
visualiseringsmetoder: för att visualisera nominella data kan du använda ett cirkeldiagram eller ett stapeldiagram.
sammanfattning
i det här inlägget, du upptäckte de olika datatyper som används i statistiken. Du lärde dig skillnaden mellan diskreta& kontinuerliga data och lärde dig vilka nominella, ordinära, intervall-och kvotmätningsvågar som är. Dessutom vet du nu vilka statistiska mätningar du kan använda vid vilken datatyp och vilka är rätt visualiseringsmetoder., Du lärde dig också, med vilka metoder kategoriska variabler kan omvandlas till numeriska variabler. Detta gör att du kan skapa en stor del av en utforskande analys på en given datauppsättning.
resurser
det här inlägget publicerades ursprungligen på min blogg (https://machinelearning-blog.com).
Leave a Reply