Datentypen sind ein wichtiges Konzept der Statistik, das verstanden werden muss, um statistische Messungen korrekt auf Ihre Daten anzuwenden und daher bestimmte Annahmen darüber korrekt abzuschließen. Dieser Blogbeitrag führt Sie in die verschiedenen Datentypen ein, die Sie kennen müssen, um eine ordnungsgemäße explorative Datenanalyse (EDA) durchzuführen, die einer der am meisten unterschätzten Teile eines maschinellen Lernprojekts ist.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Statistische Methoden
- Zusammenfassung
Ein gutes Verständnis der verschiedenen Datentypen, auch Messskalen genannt, ist eine entscheidende Voraussetzung für die explorative Datenanalyse (EDA), da Sie bestimmte statistische Messungen nur für bestimmte Datentypen verwenden können.
Sie müssen auch wissen, mit welchem Datentyp Sie es zu tun haben, um die richtige Visualisierungsmethode auszuwählen. Betrachten Sie Datentypen als eine Möglichkeit, verschiedene Arten von Variablen zu kategorisieren. Wir werden die Haupttypen von Variablen diskutieren und für jede ein Beispiel betrachten., Wir werden sie manchmal als Maßskalen bezeichnen.
Kategoriale Daten
Kategoriale Daten stellen Merkmale dar. Daher kann es Dinge wie das Geschlecht, die Sprache usw. einer Person darstellen. Kategoriale Daten können auch numerische Werte annehmen (Beispiel: 1 für weiblich und 0 für männlich). Beachten Sie, dass diese Zahlen keine mathematische Bedeutung haben.
Nominaldaten
Nominalwerte stellen diskrete Einheiten dar und werden verwendet, um Variablen zu kennzeichnen, die keinen quantitativen Wert haben. Betrachten Sie sie einfach als“Etiketten“. Beachten Sie, dass Nominaldaten, die keine Reihenfolge haben., Wenn Sie also die Reihenfolge ihrer Werte ändern würden, würde sich die Bedeutung nicht ändern. Sie können zwei Beispiele für nominale Merkmale unten sehen: