gegevenstypen zijn een belangrijk begrip van statistieken, dat moet worden begrepen, om statistische metingen correct toe te passen op uw gegevens en daarom om bepaalde aannames hierover correct te concluderen. Deze blog post zal u kennismaken met de verschillende soorten gegevens die u moet weten, om de juiste verkennende data-analyse (EDA), dat is een van de meest onderschatte onderdelen van een machine learning project.,

Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- statistische methoden
- samenvatting
een goed begrip van de verschillende gegevenstypen, ook wel meetschalen genoemd, is een cruciale voorwaarde voor het uitvoeren van verkennende gegevensanalyse (Eda), omdat u bepaalde statistische metingen alleen voor specifieke gegevenstypen kunt gebruiken.
u moet ook weten met welk gegevenstype u te maken hebt om de juiste visualisatiemethode te kiezen. Denk aan gegevenstypen als een manier om verschillende soorten variabelen te categoriseren. We zullen de belangrijkste soorten variabelen bespreken en kijken naar een voorbeeld voor elk., We noemen ze soms meetschalen.
categorische gegevens
categorische gegevens vertegenwoordigen kenmerken. Daarom kan het dingen vertegenwoordigen zoals iemands geslacht, taal, enz. Categorische gegevens kunnen ook numerieke waarden aannemen (Voorbeeld: 1 Voor vrouw en 0 voor man). Merk op dat deze getallen geen wiskundige betekenis hebben.
Nominale gegevens
nominale waarden vertegenwoordigen afzonderlijke eenheden en worden gebruikt om variabelen te etiketteren die geen kwantitatieve waarde hebben. Zie ze maar als ‘labels’. Merk op dat nominale gegevens die geen orde heeft., Dus als je de volgorde van de waarden zou veranderen, zou de betekenis niet veranderen. U kunt twee voorbeelden van nominale eigenschappen hieronder zien:

het linkerkenmerk dat beschrijft of een persoon getrouwd is, zou “dichotoom” worden genoemd, wat een type nominale schalen is dat slechts twee categorieën bevat.
ordinale gegevens
ordinale waarden vertegenwoordigen discrete en geordende eenheden., Het is daarom bijna hetzelfde als nominale gegevens, behalve dat het bestellen van zaken. U kunt een voorbeeld hieronder zien:

merk op dat het verschil tussen basisschool en middelbare school anders is dan het verschil tussen middelbare school en hogeschool. Dit is de belangrijkste beperking van ordinale gegevens, de verschillen tussen de waarden is niet echt bekend., Daarom worden ordinale schalen meestal gebruikt om niet-numerieke functies zoals geluk, klanttevredenheid en ga zo maar door te meten.
numerieke gegevens
we spreken van discrete gegevens als de waarden verschillend en afzonderlijk zijn. Met andere woorden: we spreken van discrete gegevens als de gegevens slechts bepaalde waarden kunnen aannemen. Dit type gegevens kan niet worden gemeten, maar het kan worden geteld. Het vertegenwoordigt in principe informatie die kan worden gecategoriseerd in een classificatie. Een voorbeeld is het aantal hoofden in 100 munt salto ‘ s.,
u kunt controleren door de volgende twee vragen te stellen of u te maken hebt met discrete gegevens of niet: kunt u het tellen en kan het worden opgedeeld in kleinere en kleinere delen?
continue gegevens
continue gegevens vertegenwoordigen metingen en daarom kunnen hun waarden niet worden geteld, maar ze kunnen wel worden gemeten. Een voorbeeld is de hoogte van een persoon, die je kunt beschrijven met intervallen op de reële getallenlijn.
Intervalgegevens
Intervalwaarden vertegenwoordigen geordende eenheden die hetzelfde verschil hebben., Daarom spreken we van intervalgegevens wanneer we een variabele hebben die numerieke waarden bevat die geordend zijn en waar we de exacte verschillen tussen de waarden kennen. Een voorbeeld hiervan is een functie waarin de temperatuur van een bepaalde plaats, zoals u hieronder kunt zien:

Het probleem met het interval van de waarden is dat ze niet een “echte nul”. Dat betekent met betrekking tot ons voorbeeld, dat er niet zoiets als geen temperatuur., Met intervalgegevens kunnen we optellen en aftrekken, maar we kunnen verhoudingen niet vermenigvuldigen, delen of berekenen. Omdat er geen echte nul is, kunnen veel beschrijvende en inferentiële statistieken niet worden toegepast.
Ratio Data
Ratio waarden zijn ook geordende eenheden die hetzelfde verschil hebben. Ratio waarden zijn hetzelfde als intervalwaarden, met het verschil dat ze een absoluut nul hebben. Goede voorbeelden zijn hoogte, gewicht, lengte etc.,

<
waarom zijn gegevenstypen belangrijk?
Datatypes zijn een belangrijk begrip omdat statistische methoden alleen voor bepaalde gegevenstypen kunnen worden gebruikt. Je moet continue gegevens anders analyseren dan categorische gegevens anders zou het resulteren in een verkeerde analyse. Het kennen van de soorten gegevens waarmee u te maken heeft, stelt u in staat om de juiste analysemethode te kiezen.,
We zullen nu elk gegevenstype opnieuw doornemen, maar deze keer met betrekking tot welke statistische methoden kunnen worden toegepast. Om goed te begrijpen wat we nu gaan bespreken, moet je de basisprincipes van beschrijvende statistieken begrijpen. Als je ze niet kent, kun je er mijn blogbericht (9min lezen) over lezen: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
statistische methoden
wanneer u te maken heeft met nominale gegevens, verzamelt u informatie door middel van:
frequenties: de frequentie is de snelheid waarmee iets optreedt gedurende een periode of binnen een dataset.,
verhouding: U kunt de verhouding eenvoudig berekenen door de frequentie te delen door het totale aantal gebeurtenissen. (bijvoorbeeld hoe vaak iets gebeurde gedeeld door hoe vaak het kon gebeuren)
Percentage.
visualisatiemethoden: om Nominale gegevens te visualiseren kunt u een cirkeldiagram of een staafdiagram gebruiken.

in data science kunt u één hete codering gebruiken om Nominale gegevens om te zetten in een numerieke functie.,
ordinale gegevens
wanneer u met ordinale gegevens te maken heeft, kunt u dezelfde methoden gebruiken als met nominale gegevens, maar u hebt ook toegang tot enkele extra hulpmiddelen. Daarom kunt u uw ordinale gegevens samenvatten met frequenties, verhoudingen, percentages. En je kunt het visualiseren met taart en staafdiagrammen. Daarnaast kunt u percentielen, mediaan, modus en het interkwartielbereik gebruiken om uw gegevens samen te vatten.
In Data Science kunt u één labelcodering gebruiken om ordinale gegevens om te zetten in een numerieke functie.,
continue gegevens
wanneer u te maken heeft met continue gegevens, kunt u de meeste methoden gebruiken om uw gegevens te beschrijven. U kunt uw gegevens samenvatten met percentielen, mediaan, interkwartielbereik, gemiddelde, modus, standaardafwijking en bereik.
visualisatiemethoden:
om continue gegevens te visualiseren, kunt u een histogram of een box-plot gebruiken. Met een histogram kunt u de centrale tendens, variabiliteit, modaliteit en kurtose van een distributie controleren. Merk op dat een histogram je niet kan laten zien of je uitschieters hebt. Daarom gebruiken we ook box-plots.,

<
samenvatting
in dit bericht ontdekte u de verschillende gegevenstypen die in de statistieken worden gebruikt. U leerde het verschil tussen discrete & continue gegevens en leerde wat nominale, ordinale, interval en ratio meetschalen zijn. Bovendien weet u nu welke statistische metingen u kunt gebruiken bij welk datatype en welke de juiste visualisatiemethoden zijn., Je hebt ook geleerd, met welke methoden categorische variabelen kunnen worden omgezet in numerieke variabelen. Dit stelt u in staat om een groot deel van een verkennende analyse van een bepaalde dataset te maken.
bronnen
Dit bericht werd oorspronkelijk gepubliceerd op mijn blog (https://machinelearning-blog.com).
Leave a Reply