Los tipos de datos son un concepto importante de Estadística, que debe entenderse, para aplicar correctamente las mediciones estadísticas a sus datos y, por lo tanto, para concluir correctamente ciertas suposiciones al respecto. Esta entrada de blog le presentará los diferentes tipos de datos que necesita saber, para hacer un análisis exploratorio de datos (Eda) adecuado, que es una de las partes más subestimadas de un proyecto de aprendizaje automático.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Métodos Estadísticos
- Resumen
tener una buena comprensión de los diferentes tipos de datos, también llamados escalas de medición, es un requisito previo crucial para hacer análisis de datos exploratorios (EDA), ya que puede usar ciertas mediciones estadísticas solo para tipos de datos específicos.
también necesita saber con qué tipo de datos está tratando para elegir el método de visualización correcto. Piense en los tipos de datos como una forma de categorizar diferentes tipos de variables. Discutiremos los principales tipos de variables y veremos un ejemplo para cada uno., A veces nos referiremos a ellas como escalas de medición.
datos categóricos
los datos categóricos representan características. Por lo tanto, puede representar cosas como el género de una persona, el idioma, etc. Los datos categóricos también pueden tomar valores numéricos (ejemplo: 1 para mujeres y 0 para hombres). Tenga en cuenta que esos números no tienen un significado matemático.
datos nominales
Los valores nominales representan unidades discretas y se utilizan para etiquetar variables que no tienen valor cuantitativo. Solo piensa en ellas como «etiquetas». Tenga en cuenta que los datos nominales que no tiene orden., Por lo tanto, si cambiara el orden de sus valores, el significado no cambiaría. Puedes ver dos ejemplos de funciones nominales a continuación:
La izquierda característica que describe si una persona está casada sería llamado «dicotómica», que es un tipo de escalas nominales, que contiene sólo dos categorías.
datos ordinales
los valores ordinales representan unidades discretas y ordenadas., Por lo tanto, es casi lo mismo que los datos nominales, excepto que es ordenar asuntos. Puede ver un ejemplo a continuación:
Tenga en cuenta que la diferencia entre la escuela Primaria y la Escuela secundaria es diferente de la diferencia entre la Escuela secundaria y la Universidad. Esta es la principal limitación de los datos ordinales, las diferencias entre los valores no se conocen realmente., Debido a eso, las escalas ordinales generalmente se usan para medir características no numéricas como la felicidad, la satisfacción del cliente, etc.
Datos Numéricos
hablamos de datos discretos si sus valores son distintos y separados. En otras palabras: hablamos de datos discretos si los datos solo pueden tomar ciertos valores. Este tipo de datos no se pueden medir, pero se pueden contar. Básicamente representa información que se puede categorizar en una clasificación. Un ejemplo es el número de cabezas en 100 giros de moneda.,
Puede verificar haciendo las siguientes dos preguntas si está tratando con datos discretos o no: ¿puede contarlos y puede dividirlos en partes cada vez más pequeñas?
datos continuos
Los datos continuos representan mediciones y, por lo tanto, sus valores no se pueden contar, pero se pueden medir. Un ejemplo sería la altura de una persona, que puede describir usando intervalos en la línea numérica real.
datos de intervalo
Los valores de intervalo representan unidades ordenadas que tienen la misma diferencia., Por lo tanto, hablamos de datos de intervalo cuando tenemos una variable que contiene valores numéricos que están ordenados y donde conocemos las diferencias exactas entre los valores. Un ejemplo podría ser una característica que contiene la temperatura de un determinado lugar, como se puede ver a continuación:
El problema con el intervalo de valores de datos que no tienen una «verdadera cero». Eso significa en lo que respecta a nuestro ejemplo, que no hay tal cosa como no hay temperatura., Con los datos de intervalo, podemos sumar y restar, pero no podemos multiplicar, dividir o calcular ratios. Debido a que no hay cero verdadero, no se pueden aplicar muchas estadísticas descriptivas e inferenciales.
datos de relación
Los valores de relación también son unidades ordenadas que tienen la misma diferencia. Los valores de relación son los mismos que los valores de intervalo, con la diferencia de que tienen un cero absoluto. Buenos ejemplos son la altura, el peso, la longitud, etc.,
¿por Qué Tipos de Datos son importantes?
Los tipos de datos son un concepto importante porque los métodos estadísticos solo se pueden usar con ciertos tipos de datos. Tienes que analizar los datos continuos de manera diferente a los datos categóricos de lo contrario resultaría en un análisis incorrecto. Por lo tanto, conocer los tipos de datos con los que está tratando le permite elegir el método de análisis correcto.,
ahora repasaremos cada tipo de datos de nuevo, pero esta vez en lo que respecta a qué métodos estadísticos se pueden aplicar. Para entender correctamente lo que vamos a discutir ahora, usted tiene que entender los fundamentos de las estadísticas descriptivas. Si no los conoces, puedes leer mi entrada de blog (9min de lectura) al respecto: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
métodos estadísticos
cuando se trata de datos nominales, se recopila información a través de:
frecuencias: la frecuencia es la velocidad a la que algo ocurre durante un período de tiempo o dentro de un conjunto de datos.,
proporción: puede calcular fácilmente la proporción dividiendo la frecuencia por el número total de eventos. (por ejemplo, la frecuencia con la que algo sucedió dividido por la frecuencia con la que podría suceder)
porcentaje.
Métodos de visualización: para visualizar datos nominales puede utilizar un gráfico circular o un gráfico de barras.
En la Ciencia de Datos, puede utilizar una bañera de codificación, para transformar los datos nominales en un numérico de la función.,
datos ordinales
cuando se trata de datos ordinales, puede utilizar los mismos métodos que con datos nominales, pero también tiene acceso a algunas herramientas adicionales. Por lo tanto, puede resumir sus datos ordinales con frecuencias, proporciones, porcentajes. Y puede visualizarlo con gráficos circulares y de barras. Además, puede usar percentiles, mediana, modo y el rango intercuartílico para resumir sus datos.
en Ciencia de datos, puede usar una codificación de etiqueta para transformar datos ordinales en una entidad numérica.,
datos continuos
cuando se trata de datos continuos, puede utilizar la mayoría de los métodos para describir sus datos. Puede resumir sus datos utilizando percentiles, mediana, rango intercuartílico, Media, modo, desviación estándar y rango.
Métodos de visualización:
para visualizar datos continuos, puede utilizar un histograma o una gráfica de caja. Con un histograma, puede verificar la tendencia central, la variabilidad, la modalidad y la curtosis de una distribución. Ten en cuenta que un histograma no puede mostrarte si tienes valores atípicos. Esta es la razón por la que también utilizamos gráficos de caja.,
Resumen
En este post, descubre los diferentes tipos de datos que se utilizan en las estadísticas. Aprendiste la diferencia entre los datos continuos discretos & y aprendiste qué son las escalas de medición nominales, ordinales, de intervalos y de relación. Además, ahora sabe qué mediciones estadísticas puede usar en qué tipo de datos y cuáles son los métodos de visualización correctos., También aprendiste, con qué métodos las variables categóricas se pueden transformar en variables numéricas. Esto le permite crear una gran parte de un análisis exploratorio en un conjunto de datos dado.
Resources
Este post fue publicado inicialmente en mi blog (https://machinelearning-blog.com).
Leave a Reply