Datentypen sind ein wichtiges Konzept der Statistik, das verstanden werden muss, um statistische Messungen korrekt auf Ihre Daten anzuwenden und daher bestimmte Annahmen darüber korrekt abzuschließen. Dieser Blogbeitrag führt Sie in die verschiedenen Datentypen ein, die Sie kennen müssen, um eine ordnungsgemäße explorative Datenanalyse (EDA) durchzuführen, die einer der am meisten unterschätzten Teile eines maschinellen Lernprojekts ist.,

Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Statistische Methoden
- Zusammenfassung
Ein gutes Verständnis der verschiedenen Datentypen, auch Messskalen genannt, ist eine entscheidende Voraussetzung für die explorative Datenanalyse (EDA), da Sie bestimmte statistische Messungen nur für bestimmte Datentypen verwenden können.
Sie müssen auch wissen, mit welchem Datentyp Sie es zu tun haben, um die richtige Visualisierungsmethode auszuwählen. Betrachten Sie Datentypen als eine Möglichkeit, verschiedene Arten von Variablen zu kategorisieren. Wir werden die Haupttypen von Variablen diskutieren und für jede ein Beispiel betrachten., Wir werden sie manchmal als Maßskalen bezeichnen.
Kategoriale Daten
Kategoriale Daten stellen Merkmale dar. Daher kann es Dinge wie das Geschlecht, die Sprache usw. einer Person darstellen. Kategoriale Daten können auch numerische Werte annehmen (Beispiel: 1 für weiblich und 0 für männlich). Beachten Sie, dass diese Zahlen keine mathematische Bedeutung haben.
Nominaldaten
Nominalwerte stellen diskrete Einheiten dar und werden verwendet, um Variablen zu kennzeichnen, die keinen quantitativen Wert haben. Betrachten Sie sie einfach als“Etiketten“. Beachten Sie, dass Nominaldaten, die keine Reihenfolge haben., Wenn Sie also die Reihenfolge ihrer Werte ändern würden, würde sich die Bedeutung nicht ändern. Sie können zwei Beispiele für nominale Merkmale unten sehen:

Die linke Funktion, die wenn eine Person verheiratet ist, würde sie „dichotom“ genannt, eine Art nominaler Skalen, die nur zwei Kategorien enthält.
Ordinaldaten
Ordinalwerte stellen diskrete und geordnete Einheiten dar., Es ist daher fast das gleiche wie Nominaldaten, außer dass es auf die Reihenfolge ankommt. Sie können ein Beispiel unten sehen:

Beachten Sie, dass der Unterschied zwischen Elementar und Hoch Schule ist anders als der Unterschied zwischen High School und College. Dies ist die Hauptbeschränkung von Ordnungsdaten, die Unterschiede zwischen den Werten sind nicht wirklich bekannt., Aus diesem Grund werden Ordinalskalen normalerweise verwendet, um nicht numerische Merkmale wie Glück, Kundenzufriedenheit usw. zu messen.
Numerische Daten
Wir sprechen von diskreten Daten, wenn ihre Werte unterschiedlich und getrennt sind. Mit anderen Worten: Wir sprechen von diskreten Daten, wenn die Daten nur bestimmte Werte annehmen können. Diese Art von Daten kann nicht gemessen, aber gezählt werden. Es stellt grundsätzlich Informationen dar, die in eine Klassifizierung eingeteilt werden können. Ein Beispiel ist die Anzahl der Köpfe in 100 münzwürfe.,
Sie können überprüfen, indem Sie die folgenden zwei Fragen stellen, ob es sich um diskrete Daten handelt oder nicht: Können Sie sie zählen und können sie in immer kleinere Teile aufteilen?
Kontinuierliche Daten
Kontinuierliche Daten darstellt, Messungen und Ihre Werte können nicht gezählt werden, aber Sie kann gemessen werden. Ein Beispiel wäre die Größe einer Person, die Sie anhand von Intervallen in der reellen Zahlenzeile beschreiben können.
Intervalldaten
Intervallwerte stellen geordnete Einheiten dar, die den gleichen Unterschied aufweisen., Daher sprechen wir von Intervalldaten, wenn wir eine Variable haben, die geordnete numerische Werte enthält und in der wir die genauen Unterschiede zwischen den Werten kennen. Ein Beispiel wäre ein Feature, das die Temperatur eines bestimmten Ortes enthält, wie Sie unten sehen können:

div>
Das Problem mit Intervallwertdaten ist, dass sie keine „wahre Null“haben. Das bedeutet in Bezug auf unser Beispiel, dass es keine Temperatur gibt., Mit Intervalldaten können wir addieren und subtrahieren, aber wir können Verhältnisse nicht multiplizieren, dividieren oder berechnen. Da es keine wahre Null gibt, können viele beschreibende und inferentielle Statistiken nicht angewendet werden.
Ratio-Daten
Ratio-Werte sind auch geordnete Einheiten, die den gleichen Unterschied aufweisen. Verhältniswerte sind die gleichen wie Intervallwerte, mit dem Unterschied, dass sie eine absolute Null haben. Gute Beispiele sind Größe,Gewicht, Länge usw.,

Warum sind Datentypen wichtig?
Datentypen sind ein wichtiges Konzept, da statistische Methoden nur mit bestimmten Datentypen verwendet werden können. Sie müssen kontinuierliche Daten anders analysieren als kategoriale Daten, da dies sonst zu einer falschen Analyse führen würde. Wenn Sie also die Datentypen kennen, mit denen Sie es zu tun haben, können Sie die richtige Analysemethode auswählen.,
Wir werden nun jeden Datentyp noch einmal durchgehen, aber diesmal in Bezug darauf, welche statistischen Methoden angewendet werden können. Um richtig zu verstehen, was wir jetzt diskutieren werden, müssen Sie die Grundlagen der beschreibenden Statistik verstehen. Wenn Sie sie nicht kennen, können Sie meinen Blogbeitrag (9min gelesen) darüber lesen: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
Statistische Methoden
Wenn Sie mit Nenndaten zu tun haben, sammeln Sie Informationen über:
Frequenzen: Die Häufigkeit ist die Rate, mit der etwas über einen bestimmten Zeitraum oder innerhalb eines Datensatzes auftritt.,
Anteil: Sie können den Anteil leicht berechnen, indem Sie die Häufigkeit durch die Gesamtzahl der Ereignisse dividieren. (zB wie oft etwas passiert ist geteilt durch wie oft es passieren könnte)
Prozentsatz.
Visualisierungsmethoden: Zur Visualisierung von Nominaldaten können Sie ein Kreisdiagramm oder ein Balkendiagramm verwenden.

In der Datenwissenschaft können Sie eine heiße Kodierung verwenden, um nominale daten in eine numerische Funktion.,
Ordinale Daten
Wenn Sie mit ordinalen Daten arbeiten, können Sie die gleichen Methoden wie mit nominalen Daten verwenden, aber Sie haben auch Zugriff auf einige zusätzliche Tools. Daher können Sie Ihre Ordinaldaten mit Frequenzen, Proportionen, Prozentsätzen zusammenfassen. Und Sie können es mit Kreis-und Balkendiagrammen visualisieren. Zusätzlich können Sie Perzentile, Median, Mode und den Interquartilbereich verwenden, um Ihre Daten zusammenzufassen.
In Data Science können Sie eine Beschriftungscodierung verwenden, um Ordinaldaten in eine numerische Funktion umzuwandeln.,
Kontinuierliche Daten
Wenn Sie mit kontinuierlichen Daten zu tun haben, können Sie die meisten Methoden verwenden, um Ihre Daten zu beschreiben. Sie können Ihre Daten mit Perzentilen, Median, Interquartilbereich, Mittelwert, Modus, Standardabweichung und Bereich zusammenfassen.
Visualisierungsmethoden:
Zur Visualisierung kontinuierlicher Daten können Sie ein Histogramm oder ein Box-Plot verwenden. Mit einem Histogramm können Sie die zentrale Tendenz, Variabilität, Modalität und Kurtose einer Verteilung überprüfen. Beachten Sie, dass ein Histogramm Sie nicht zeigen kann, wenn Sie Ausreißer haben. Deshalb verwenden wir auch Box-Plots.,

Zusammenfassung
In diesem Beitrag haben Sie die verschiedenen Datentypen, die in der Statistik verwendet werden. Sie haben den Unterschied zwischen diskreten & kontinuierlichen Daten gelernt und gelernt, was Nominal -, Ordinal -, Intervall-und Verhältnismessskalen sind. Darüber hinaus wissen Sie nun, welche statistischen Messungen Sie bei welchem Datentyp verwenden können und welche die richtigen Visualisierungsmethoden sind., Sie haben auch gelernt, mit welchen Methoden kategoriale Variablen in numerische Variablen umgewandelt werden können. Auf diese Weise können Sie einen großen Teil einer explorativen Analyse für einen bestimmten Datensatz erstellen.
Ressourcen
Dieser Beitrag wurde ursprünglich in meinem Blog veröffentlicht (https://machinelearning-blog.com).
Leave a Reply