las estadísticas inferenciales le permiten extraer conclusiones sobre las poblaciones mediante el uso de muestras pequeñas. En consecuencia, las estadísticas inferenciales proporcionan enormes beneficios porque normalmente no se puede medir toda una población.
sin embargo, para obtener estos beneficios, debe comprender la relación entre poblaciones, subpoblaciones, parámetros poblacionales, muestras y estadísticas de muestras.
en esta entrada de blog, discuto estos conceptos y cómo obtener muestras representativas utilizando el muestreo aleatorio.,
entrada relacionada: diferencia entre estadísticas descriptivas e inferenciales
poblaciones
las poblaciones pueden incluir personas, pero otros ejemplos incluyen objetos, eventos, negocios, etc. En las estadísticas, hay dos tipos generales de poblaciones.
Las poblaciones pueden ser el conjunto completo de todos los elementos similares que existen. Por ejemplo, la población de un país incluye a todas las personas que se encuentran actualmente en ese país. Es una lista finita pero potencialmente grande de miembros.
sin embargo, una población puede ser una construcción teórica que es potencialmente infinita en tamaño., Por ejemplo, los analistas de mejora de la calidad a menudo consideran que toda la producción actual y futura de una línea de fabricación es parte de una población.
Las Poblaciones comparten un conjunto de atributos que usted define. Por ejemplo, las siguientes son poblaciones:
- estrellas en la Vía Láctea.
- piezas de una línea de producción.
- ciudadanos de los Estados Unidos.
antes de comenzar un estudio, debe definir cuidadosamente la población que está estudiando. Estas poblaciones se pueden definir estrictamente para satisfacer las necesidades de su análisis., Por ejemplo, mujeres suecas adultas que por lo demás están sanas pero tienen osteoporosis.las subpoblaciones
pueden mejorar su análisis
las subpoblaciones comparten atributos adicionales. Por ejemplo, la población de los Estados Unidos contiene las subpoblaciones de hombres y mujeres. También puede subdividirlo de otras maneras, como región, edad, nivel socioeconómico, etc. Diferentes estudios que involucran a la misma población pueden dividirla en diferentes subpoblaciones dependiendo de lo que tenga sentido para los datos y los análisis.,
comprender las subpoblaciones en su estudio le ayuda a comprender el tema más a fondo. También pueden ayudarle a producir modelos estadísticos que se ajusten mejor a los datos. Las subpoblaciones son particularmente importantes cuando tienen características que son sistemáticamente diferentes de la población general. Cuando analiza sus datos, debe ser consciente de estas divisiones más profundas. De hecho, puede tratar las subpoblaciones relevantes como factores adicionales en análisis posteriores.,
por ejemplo, si estás analizando la altura promedio de los adultos en los Estados Unidos, mejorarás tus resultados al incluir subpoblaciones masculinas y femeninas porque sus alturas son sistemáticamente diferentes. Voy a cubrir ese ejemplo en profundidad más adelante en este post!
parámetros poblacionales versus estadísticas de muestra
un parámetro es un valor que describe una característica de toda una población, como la media poblacional. Debido a que casi nunca se puede medir una población completa, por lo general no se conoce el valor real de un parámetro., De hecho, los valores de los parámetros son casi siempre incognoscibles. Si bien no sabemos el valor, definitivamente existe.
por ejemplo, la estatura promedio de las mujeres adultas en los Estados Unidos es un parámetro que tiene un valor exacto, ¡simplemente no sabemos qué es!
la media poblacional y la desviación estándar son dos parámetros comunes. En Estadística, los símbolos Griegos generalmente representan parámetros de población, como μ (mu) para la media y σ (sigma) para la desviación estándar.
Una estadística es una característica de una muestra., Si recoge una muestra y calcula la media y la desviación estándar, estas son estadísticas de muestra. Las estadísticas inferenciales le permiten usar estadísticas de muestra para sacar conclusiones sobre una población. Sin embargo, para sacar conclusiones válidas, debe utilizar técnicas de muestreo particulares. Estas técnicas ayudan a garantizar que las muestras produzcan estimaciones imparciales. Las estimaciones sesgadas son sistemáticamente demasiado altas o demasiado bajas. Usted quiere estimaciones imparciales porque son correctas en promedio.
en estadística inferencial, utilizamos estadísticas de muestra para estimar parámetros poblacionales., Por ejemplo, si recolectamos una muestra aleatoria de mujeres adultas en los Estados Unidos y medimos sus alturas, podemos calcular la media de la muestra y usarla como una estimación imparcial de la media de la población. También podemos realizar pruebas de hipótesis en la estimación de la muestra y crear intervalos de confianza para construir un rango dentro del cual el valor real de la población probablemente caiga.,div id=»6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Después de dibujar la muestra, mide una o más características de todos los elementos de la muestra, como altura, ingresos, temperatura, opinión, etc. Si desea sacar conclusiones sobre estas características en toda la población, impone restricciones sobre cómo recoger la muestra. Si utiliza una metodología incorrecta, La muestra podría no representar a la población, lo que puede llevarlo a conclusiones erróneas.
el método más conocido para obtener una muestra imparcial y representativa es el muestreo aleatorio simple., Con este método, todos los elementos de la población tienen la misma probabilidad de ser seleccionados. Este proceso ayuda a asegurar que la muestra incluya toda la gama de la población. Además, todas las subpoblaciones relevantes deben incorporarse a la muestra y representarse con precisión en promedio. El muestreo aleatorio simple minimiza el sesgo y simplifica el análisis de datos.
discutiré la metodología de muestreo con más detalle en una futura publicación de blog, pero hay varias advertencias cruciales sobre el muestreo aleatorio simple., Si bien este enfoque minimiza el sesgo, no indica que las estadísticas de la muestra sean exactamente iguales a los parámetros de la población. En cambio, es probable que las estimaciones de una muestra específica sean un poco altas o bajas, pero el proceso produce estimaciones precisas en promedio. Además, es posible obtener muestras inusuales con muestreo aleatorio, simplemente no es el resultado esperado.
entrada relacionada: las estadísticas de muestra siempre están equivocadas (hasta cierto punto)!
Además, el muestreo aleatorio puede sonar un poco desordenado y fácil de hacer, ambos no son ciertos., El muestreo aleatorio simple asume que se compila sistemáticamente una lista completa de todas las personas o elementos que existen en la población. A continuación, seleccione aleatoriamente los temas de esa lista e incluirlos en la muestra. Puede ser un proceso muy engorroso.
¡demos vida a estos conceptos!
ejemplo de una población con subpoblaciones importantes
supongamos que estamos estudiando la altura de los ciudadanos estadounidenses y asumamos además que no sabemos mucho sobre el tema., En consecuencia, recogemos una muestra aleatoria, medimos las alturas en centímetros y calculamos la media muestral y la desviación estándar. Aquí está el archivo de datos CSV: Heights.
obtenemos los siguientes resultados:
debido a que reunimos una muestra aleatoria, podemos asumir que estas estadísticas de muestra son estimaciones imparciales de los parámetros poblacionales.
ahora, supongamos que aprendemos más sobre el área de estudio e incluimos a hombres y mujeres como subpoblaciones. Obtenemos los siguientes resultados.,
Observe cómo el único amplia distribución ha sido sustituido por dos más estrecho de las distribuciones? La distribución para cada género tiene una desviación estándar menor que la distribución única para todos los adultos, lo que es consistente con la distribución más estrecha alrededor de las medias para hombres y mujeres en el gráfico. Estos resultados muestran cómo la media proporciona estimaciones más precisas cuando evaluamos las alturas por género. De hecho, la media para toda la población no es igual a la media para ninguna de las subpoblaciones. Es engañoso!,
durante este proceso, aprendemos que el género es una subpoblación crucial que se relaciona con la altura y aumenta nuestra comprensión del tema. En futuros estudios sobre la altura, podemos incluir el género como variable predictora.
este ejemplo utiliza una variable de agrupación categórica (género) y una variable de resultado continuo (alturas). Cuando desee comparar distribuciones de valores continuos entre grupos como este ejemplo, considere usar gráficas de caja y gráficas de valores individuales. Estas parcelas se vuelven más útiles a medida que aumenta el número de grupos.,
Este ejemplo es intencionalmente fácil de entender, pero imagine un estudio sobre un tema menos obvio. Este proceso le ayuda a obtener nuevos conocimientos y producir mejores modelos estadísticos.
utilizando su conocimiento de poblaciones, subpoblaciones, parámetros, muestreo y estadísticas de muestra, puede extraer conclusiones valiosas sobre poblaciones grandes utilizando muestras pequeñas. Para obtener más información sobre cómo probar hipótesis sobre poblaciones, lea mi resumen de las pruebas de hipótesis.
Leave a Reply