les Types de données sont un concept important de la statistique, qui doit être compris, pour appliquer correctement les mesures statistiques à vos données et donc pour conclure correctement certaines hypothèses à ce sujet. Cet article de blog vous présentera les différents types de données que vous devez connaître pour effectuer une analyse exploratoire appropriée des données (EDA), qui est l’une des parties les plus sous-estimées d’un projet d’apprentissage automatique.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- méthodes statistiques
- résumé
Une bonne compréhension des différents types de données, également appelés échelles de mesure, est une condition essentielle pour effectuer une analyse exploratoire des données (EDA), car vous ne pouvez utiliser certaines mesures statistiques que pour des types de données spécifiques.
Vous devez également savoir à quel type de données vous avez affaire pour choisir la bonne méthode de visualisation. Considérez les types de données comme un moyen de catégoriser différents types de variables. Nous discuterons des principaux types de variables et examinerons un exemple pour chacune., Nous les appellerons parfois échelles de mesure.
données catégorielles
Les données catégorielles représentent des caractéristiques. Par conséquent, il peut représenter des choses comme le sexe d’une personne, la langue, etc. Les données catégorielles peuvent également prendre des valeurs numériques (exemple: 1 pour les femmes et 0 pour les hommes). Notez que ces nombres n’ont pas de signification mathématique.
données nominales
Les valeurs nominales représentent des unités discrètes et sont utilisées pour étiqueter les variables, qui n’ont pas de valeur quantitative. Il suffit de les considérer comme des »étiquettes ». Notez que les données nominales qui n’ont pas d’ordre., Par conséquent, si vous changiez l’ordre de ses valeurs, le sens ne changerait pas. Vous pouvez voir les deux exemples de la valeur nominale des caractéristiques ci-dessous:
La gauche de la fonction qui décrit si une personne est mariée, serait appelé « dichotomique », qui est un type de la valeur nominale des échelles qui contient seulement deux catégories.
données ordinales
Les valeurs ordinales représentent des unités discrètes et ordonnées., C’est donc presque la même chose que les données nominales, sauf que c’est l’ordre des questions. Vous pouvez voir un exemple ci-dessous:
Notez que la différence entre le Primaire et le secondaire est différent de celui de la différence entre la Haute École et le Collège. C’est la principale limitation des données ordinales, les différences entre les valeurs ne sont pas vraiment connues., Pour cette raison, les échelles ordinales sont généralement utilisées pour mesurer des caractéristiques non numériques telles que le bonheur, la satisfaction du client, etc.
Données Numériques
Nous parlons de données discrètes si ses valeurs sont distinctes et séparées. En d’autres termes: Nous parlons de données discrètes si les données ne peuvent prendre que certaines valeurs. Ce type de données ne peut pas être mesuré mais il peut être compté. Il représente essentiellement des informations qui peuvent être classées dans une classification. Un exemple est le nombre de têtes dans 100 de pouce.,
Vous pouvez vérifier en posant les deux questions suivantes si vous avez affaire à des données discrètes ou non: Pouvez-vous les compter et les diviser en parties de plus en plus petites?
données continues
Les données continues représentent des mesures et donc leurs valeurs ne peuvent pas être comptées mais elles peuvent être mesurées. Un exemple serait la taille d’une personne, que vous pouvez décrire en utilisant des intervalles sur la ligne du nombre réel.
données D’intervalle
les valeurs D’intervalle représentent des unités ordonnées qui ont la même différence., Par conséquent, nous parlons de données d’intervalle lorsque nous avons une variable qui contient des valeurs numériques ordonnées et où nous connaissons les différences exactes entre les valeurs. Un exemple serait une fonctionnalité qui contient de la température d’un lieu donné, comme vous pouvez le voir ci-dessous:
Le problème avec les valeurs de l’intervalle de données, c’est qu’ils n’ont pas de « zéro absolu ». Cela signifie en ce qui concerne notre exemple, qu’il n’y a pas de température., Avec des données d’intervalle, nous pouvons ajouter et soustraire, mais nous ne pouvons pas multiplier, diviser ou calculer des ratios. Parce qu’il n’y a pas de vrai zéro, beaucoup de statistiques descriptives et inférentielles ne peuvent pas être appliquées.
données de rapport
les valeurs de rapport sont également des unités ordonnées qui ont la même différence. Les valeurs de rapport sont les mêmes que les valeurs d’intervalle, à la différence qu’elles ont un zéro absolu. De bons exemples sont la hauteur, le poids, la longueur, etc.,
Pourquoi les Types de Données sont-elles importantes?
les types de données sont un concept important car les méthodes statistiques ne peuvent être utilisées qu’avec certains types de données. Vous devez analyser les données continues différemment des données catégorielles, sinon cela entraînerait une mauvaise analyse. Par conséquent, connaître les types de données que vous traitez vous permet de choisir la bonne méthode d’analyse.,
Nous allons maintenant revoir chaque type de données, mais cette fois en ce qui concerne les méthodes statistiques qui peuvent être appliquées. Pour bien comprendre ce que nous allons maintenant discuter, vous devez comprendre les bases des statistiques descriptives. Si vous ne les connaissez pas, vous pouvez lire mon article de blog (9min lu) à ce sujet: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
méthodes statistiques
lorsque vous traitez des données nominales, vous collectez des informations via:
fréquences: la fréquence est la vitesse à laquelle quelque chose se produit sur une période de temps ou dans un ensemble de données.,
Proportion: Vous pouvez facilement calculer la proportion en divisant la fréquence par le nombre total d’événements. (par exemple, combien de fois quelque chose s’est passé divisé par combien de fois cela pourrait arriver)
pourcentage.
méthodes de Visualisation: pour visualiser les données nominales, vous pouvez utiliser un graphique circulaire ou un graphique à barres.
Dans la Science des Données, vous pouvez utiliser l’une chaude, l’encodage, pour transformer les données nominales dans une fonction numérique.,
Ordinale des Données
Lorsque vous travaillez avec des données ordinales, vous pouvez utiliser les mêmes méthodes comme avec les données nominales, mais vous avez également accès à des outils supplémentaires. Par conséquent, vous pouvez résumer vos données ordinales avec des fréquences, proportions, pourcentages. Et vous pouvez le visualiser avec des graphiques à secteurs et à barres. De plus, vous pouvez utiliser les percentiles, la médiane, le mode et la plage interquartile pour résumer vos données.
en science des données, vous pouvez utiliser un codage d’étiquette pour transformer des données ordinales en une entité numérique.,
données continues
lorsque vous avez affaire à des données continues, vous pouvez utiliser la plupart des méthodes pour décrire vos données. Vous pouvez résumer vos données en utilisant les percentiles, la médiane, la plage interquartile, la moyenne, le mode, l’écart type et la plage.
méthodes de Visualisation:
pour visualiser des données continues, vous pouvez utiliser un histogramme ou un Box-plot. Avec un histogramme, vous pouvez vérifier la tendance centrale, la variabilité, la modalité et la kurtose d’une distribution. Notez qu’un histogramme ne peut pas vous montrer si vous avez des valeurs aberrantes. C’est pourquoi nous utilisons également la boîte de parcelles.,
Résumé
Dans ce post, vous avez découvert les différents types de données qui sont utilisées dans les statistiques. Vous avez appris la différence entre les données continues discrètes & et appris ce que sont les échelles de mesure nominales, ordinales, d’intervalle et de rapport. De plus, vous savez maintenant quelles mesures statistiques vous pouvez utiliser pour quel type de données et quelles sont les bonnes méthodes de visualisation., Vous avez également appris, avec quelles méthodes variables catégorielles peuvent être transformées en variables numériques. Cela vous permet de créer une grande partie d’une analyse exploratoire sur un ensemble de données donné.
Ressources
Ce billet a été initialement publié sur mon blog (https://machinelearning-blog.com).
Leave a Reply