Las pruebas de hipótesis son un proceso vital en las estadísticas inferenciales donde el objetivo es usar datos de muestra para sacar conclusiones sobre una población completa. En el proceso de prueba, se utilizan niveles de significación y valores p para determinar si los resultados de la prueba son estadísticamente significativos.
oyes que los resultados son estadísticamente significativos todo el tiempo. Pero, ¿qué representan realmente los niveles de significación, los valores de P y la significación estadística? ¿Por qué necesitamos usar pruebas de hipótesis en las estadísticas?,
en este post, respondo a todas estas preguntas. Utilizo gráficos y conceptos para explicar cómo funcionan las pruebas de hipótesis con el fin de proporcionar una explicación más intuitiva. Esto te ayuda a entender tus resultados estadísticos.
escenario de ejemplo de prueba de hipótesis
para comenzar, demostraré por qué necesitamos usar pruebas de hipótesis usando un ejemplo.
Un investigador está estudiando los gastos de combustible para las familias y quiere determinar si el costo mensual ha cambiado desde el año pasado, cuando el promedio era de $260 por mes., El investigador dibuja una muestra aleatoria de 25 familias e ingresa sus costos mensuales para este año en un software estadístico. Puede descargar el archivo de datos CSV: FuelsCosts. A continuación se presentan las estadísticas descriptivas de este año.
nos basaremos en este ejemplo para responder la pregunta de investigación y mostrar cómo funcionan las pruebas de hipótesis.
la Estadística Descriptiva por sí sola no responde a la pregunta
el investigador recolectó una muestra aleatoria y encontró que la media de la muestra de este año (330.6) es mayor que la media del año pasado (260). ¿Por qué realizar una prueba de hipótesis?, Podemos ver que la media de este año es superior en 7 70! ¿No es diferente?
lamentablemente, la situación no es tan clara como se podría pensar porque estamos analizando una muestra en lugar de la población completa. Hay enormes beneficios cuando se trabaja con muestras porque generalmente es imposible recopilar datos de una población completa. Sin embargo, la compensación para trabajar con una muestra manejable es que necesitamos tener en cuenta el error de la muestra.
el error de muestreo es la brecha entre la estadística de la muestra y el parámetro de la población., Para nuestro ejemplo, la estadística de la muestra es la media de la muestra, que es 330.6. El parámetro de población es μ, O mu, que es el promedio de toda la población. Desafortunadamente, el valor del parámetro de población no solo es Desconocido, sino que generalmente es incognoscible.
Se obtuvo una media muestral de 330,6. Sin embargo, es concebible que, debido al error de muestreo, la media de la población podría ser de solo 260. Si el investigador dibujó otra muestra aleatoria, la media de la siguiente muestra podría estar más cerca de 260. Es imposible evaluar esta posibilidad mirando solo la media de la muestra., La prueba de hipótesis es una forma de estadística inferencial que nos permite sacar conclusiones sobre toda una población a partir de una muestra representativa. Necesitamos utilizar una prueba de hipótesis para determinar la probabilidad de obtener nuestra media muestral si la media poblacional es de 260.,
información básica: la diferencia entre estadística descriptiva e inferencial y poblaciones, parámetros y muestras en estadística inferencial
una distribución muestral determina si nuestra media muestral es improbable
es muy improbable que cualquier media muestral iguale la media poblacional debido a un error muestral. En nuestro caso, la media muestral de 330.6 no es casi definitivamente igual a la media poblacional para gastos de combustible.,
si pudiéramos obtener un número sustancial de muestras aleatorias y calcular la media muestral para cada muestra, observaríamos un amplio espectro de medias muestrales. Incluso seríamos capaces de graficar la distribución de las medias de muestra de este proceso.
este tipo de distribución se denomina distribución de muestreo. Se obtiene una distribución de muestreo dibujando muchas muestras aleatorias del mismo tamaño de la misma población. ¿Por qué diablos haríamos esto?,
porque las distribuciones de muestreo le permiten determinar la probabilidad de obtener su estadística de muestra y son cruciales para realizar pruebas de hipótesis.
afortunadamente, ¡no necesitamos tomarnos la molestia de recolectar numerosas muestras aleatorias! Podemos estimar la distribución muestral usando la distribución t, nuestro tamaño muestral y la variabilidad en nuestra muestra.
queremos saber si el gasto medio de combustible de este año (330,6) es diferente del del año pasado (260)., Para responder a esta pregunta, graficaremos la distribución del muestreo basada en la suposición de que el costo medio del combustible para toda la población no ha cambiado y sigue siendo 260. En Estadística, llamamos a esta falta de efecto, o ningún cambio, la hipótesis nula. Utilizamos el valor de hipótesis nula como base de comparación para nuestro valor de muestra observado.
Las distribuciones de muestreo y las distribuciones t son tipos de distribuciones de probabilidad. ¡Más información sobre las distribuciones de probabilidad!,
graficando nuestra media muestral en el contexto de la distribución muestral
el gráfico siguiente muestra qué Medias muestrales son más probables y menos probables si la media poblacional es 260. Podemos colocar nuestra media muestral en esta distribución. Este contexto más amplio nos ayuda a ver cuán improbable es nuestra media muestral si la hipótesis nula es verdadera (μ = 260).
El gráfico muestra la distribución estimada de la muestra de medios. Los valores más probables están cerca de 260 porque la gráfica asume que esta es la verdadera media de la población., Sin embargo, dado el error de muestreo aleatorio, no sería sorprendente observar Medias muestrales que oscilan entre 167 y 352. Si la media poblacional sigue siendo de 260, nuestra media muestral observada (330,6) no es el valor más probable, pero tampoco es completamente inverosímil.
El papel de las pruebas de hipótesis
la distribución muestral nos muestra que es relativamente poco probable obtener una muestra de 330,6 si la media poblacional es de 260. ¿Es nuestra media muestral tan improbable que podamos rechazar la noción de que la media poblacional es de 260?
en Estadística, llamamos a esto rechazar la hipótesis nula., Si rechazamos el null para nuestro ejemplo, la diferencia entre la media muestral (330.6) y 260 es estadísticamente significativa. En otras palabras, los datos de la muestra favorecen la hipótesis de que el promedio de la población no es igual a 260.
sin embargo, mire el gráfico de distribución de muestreo de nuevo. Observe que no hay una ubicación especial en la curva donde pueda sacar definitivamente esta conclusión. Solo hay una disminución consistente en la probabilidad de observar medias de muestra que están más lejos del valor de hipótesis nula. ¿Dónde decidimos que una media de muestra está lo suficientemente lejos?,
para responder a esta pregunta, necesitaremos más herramientas – ¡pruebas de hipótesis! El procedimiento de prueba de hipótesis cuantifica la inutilidad de nuestra muestra con una probabilidad y luego la compara con un estándar probatorio. Este proceso le permite tomar una decisión objetiva sobre la fuerza de la evidencia.
vamos a añadir las herramientas que necesitamos para tomar esta decisión al gráfico – niveles de significación y valores p!
estas herramientas nos permiten probar estas dos hipótesis:
- hipótesis nula: la media de la población es igual a la media de la hipótesis nula (260).,
- hipótesis alternativa: la media de la población no es igual a la media de la hipótesis nula (260).
entrada relacionada: Descripción general de las pruebas de hipótesis
¿qué son los niveles de significación (Alfa)?
un nivel de significancia, también conocido como alfa o α, es un estándar probatorio que un investigador establece antes del estudio. Define cuán fuertemente la evidencia de la muestra debe contradecir la hipótesis nula antes de que pueda rechazar la hipótesis nula para toda la población. La fuerza de la evidencia se define por la probabilidad de rechazar una hipótesis nula que es verdadera., En otras palabras, es la probabilidad de que usted diga que hay un efecto cuando no hay efecto.
por ejemplo, un nivel de significancia de 0,05 significa un riesgo del 5% de decidir que existe un efecto cuando no existe.
los niveles de significación más bajos requieren evidencia muestral más fuerte para poder rechazar la hipótesis nula. Por ejemplo, para ser estadísticamente significativo en el nivel de significación de 0,01 se requiere evidencia más sustancial que en el nivel de significación de 0,05. Sin embargo, hay una compensación en las pruebas de hipótesis., Los niveles de significancia más bajos también reducen el poder de una prueba de hipótesis para detectar una diferencia que sí existe.
la naturaleza técnica de este tipo de preguntas puede hacer que su cabeza gire. ¡Una imagen puede dar vida a estas ideas!
para aprender un enfoque más conceptual de los niveles de significación, ver mi post sobre la comprensión de los niveles de significación.
graficando los niveles de significancia como regiones críticas
en la gráfica de distribución de probabilidad, el nivel de significancia define qué tan lejos debe estar el valor de la muestra del valor nulo antes de que podamos rechazar el valor nulo., El porcentaje del área bajo la curva que está sombreada es igual a la probabilidad de que el valor de la muestra caiga en esas regiones si la hipótesis nula es correcta.
para representar un nivel de significancia de 0.05, sombrearé el 5% de la distribución más alejada del valor nulo.
Las dos regiones sombreadas en el gráfico son equidistantes del valor central de la hipótesis nula. Cada región tiene una probabilidad de 0.025, que suma a nuestro total deseado de 0.05. Estas áreas sombreadas se llaman la región crítica para una prueba de hipótesis de dos colas.,
la región crítica define valores de muestra que son lo suficientemente improbables como para justificar el rechazo de la hipótesis nula. Si la hipótesis nula es correcta y la media poblacional es de 260, las muestras aleatorias (n = 25) de esta población tienen medias que caen en la región crítica el 5% del tiempo.
nuestra media muestral es estadísticamente significativa en el nivel de 0,05 porque cae en la región crítica.
entrada relacionada: pruebas de una y dos colas explicadas
comparando niveles de significación
rehacamos esta prueba de hipótesis usando el otro nivel de significación común de 0.,01 para ver cómo se compara.
Esta vez la suma de las dos regiones sombreadas que equivale a nuestro nuevo nivel de significación de 0,01. La media de nuestra muestra no se corresponde con la región crítica. En consecuencia, no rechazamos la hipótesis nula. Tenemos los mismos datos exactos de la muestra, la misma diferencia entre la media de la muestra y el valor de la hipótesis nula, pero un resultado de prueba diferente.
¿Qué pasó? Al especificar un nivel de significancia más bajo, establecemos una barra más alta para la evidencia de la muestra., Como muestra el gráfico, los niveles de significancia más bajos mueven las regiones críticas más lejos del valor nulo. En consecuencia, los niveles de significación más bajos requieren medias de muestra más extremas para ser estadísticamente significativas.
debe establecer el nivel de significación antes de realizar un estudio. No querrás la tentación de elegir un nivel después del estudio que produzca resultados significativos. La única razón por la que comparé los dos niveles de significación fue para ilustrar los efectos y explicar los resultados diferentes.,
la versión gráfica de la prueba t de 1 muestra que creamos nos permite determinar la significación estadística sin evaluar el valor de P. Por lo general, es necesario comparar el valor de P con el nivel de significación para hacer esta determinación.
entrada relacionada: instrucciones paso a paso sobre cómo hacer pruebas t en Excel
¿Qué son los valores P?
los valores de P son la probabilidad de que una muestra tenga un efecto al menos tan extremo como el efecto observado en su muestra si la hipótesis nula es correcta.
esta definición tortuosa y técnica de los valores P Puede hacer que tu cabeza gire., Vamos a graficarlo!
primero, necesitamos calcular el efecto que está presente en nuestra muestra. El efecto es la distancia entre el valor de muestra y el valor nulo: 330.6-260 = 70.6. A continuación, sombrearé las regiones en ambos lados de la distribución que están al menos tan lejos como 70.6 del null (260 +/- 70.6). Este proceso grafica la probabilidad de observar una media muestral al menos tan extrema como nuestra media muestral.
la probabilidad total de las dos regiones sombreadas es 0.03112., Si el valor de hipótesis nula (260) es verdadero y dibujó muchas muestras aleatorias, esperaría que las medias de muestra caigan en las regiones sombreadas aproximadamente el 3.1% del tiempo. En otras palabras, observará efectos de muestra al menos tan grandes como 70.6 aproximadamente 3.1% del tiempo si el null es verdadero. ¡Ese es el valor P!
usando valores de P y niveles de significación juntos
si su valor de P es menor o igual a su nivel alfa, rechace la hipótesis nula.
los resultados del valor P son consistentes con nuestra representación gráfica. El valor de P de 0.03112 es significativo en el nivel alfa de 0.05 pero no 0.,01. Una vez más, en la práctica, se elige un nivel de importancia antes del experimento y se adhieren a él!
utilizando el nivel de significación de 0,05, el efecto muestral es estadísticamente significativo. Nuestros datos apoyan la hipótesis alternativa, que afirma que la media de la población no es igual a 260. Podemos concluir que los gastos medios de combustible han aumentado desde el año pasado.
los valores de P son muy frecuentemente malinterpretados como la probabilidad de rechazar una hipótesis nula que es realmente verdadera. ¡Esta interpretación es incorrecta! Para entender por qué, por favor lea mi post: Cómo interpretar los valores p correctamente.,
discusión sobre resultados estadísticamente significativos
Las pruebas de hipótesis determinan si los datos de la muestra proporcionan evidencia suficiente para rechazar la hipótesis nula para toda la población. Para realizar esta prueba, el procedimiento compara la estadística de la muestra con el valor nulo y determina si es suficientemente rara. «Suficientemente raro» se define en una prueba de hipótesis por:
- asumiendo que la hipótesis nula es verdadera—los gráficos se centran en el valor nulo.
- El nivel de significancia (Alfa) – ¿qué tan lejos del valor nulo está la región crítica?,
- La estadística de muestra—¿está dentro de la región crítica?
no existe un nivel de significación especial que determine correctamente qué estudios tienen efectos reales en la población el 100% de las veces. Los niveles de significación tradicionales de 0.05 y 0.01 son intentos de manejar el equilibrio entre tener una baja probabilidad de rechazar una hipótesis nula verdadera y tener la potencia adecuada para detectar un efecto si realmente existe.
el nivel de significación es la velocidad a la que rechaza incorrectamente hipótesis nulas que son realmente verdaderas (error de tipo I)., Por ejemplo, para todos los estudios que utilizan un nivel de significancia de 0.05 y la hipótesis nula es correcta, se puede esperar que el 5% de ellos tengan estadísticas de muestra que caen en la región crítica. Cuando ocurre este error, no eres consciente de que la hipótesis nula es correcta, pero la rechazarás porque el valor p es menor que 0.05.
este error no indica que el investigador cometió un error. Como muestran los gráficos, puede observar estadísticas de muestra extremas debido solo al error de muestra. Es la suerte del sorteo!,
entrada relacionada: tipos de errores en las pruebas de hipótesis
Las pruebas de hipótesis son cruciales cuando se desea utilizar datos de muestra para sacar conclusiones sobre una población porque estas pruebas explican el error de muestra. El uso de niveles de significación y valores de P para determinar cuándo rechazar la hipótesis nula mejora la probabilidad de que extraiga la conclusión correcta.
tenga en cuenta que la significación estadística no significa necesariamente que el efecto sea importante en un sentido práctico del mundo real. Para más información, lee mi post sobre significancia práctica vs. estadística.,
si te gusta esta publicación, lee la publicación complementaria: cómo funcionan las pruebas de hipótesis: intervalos de confianza y niveles de confianza.
también puedes leer mis otros posts que describen cómo funcionan otras pruebas:
- Cómo funcionan las pruebas t
- Cómo funciona la prueba F en ANOVA
- Cómo funcionan las pruebas Chi-cuadradas de Independencia
para ver un enfoque alternativo a las pruebas de hipótesis tradicionales que no usan distribuciones de probabilidad y estadísticas de prueba, ¡aprende sobre el bootstrapping en estadísticas!
Leave a Reply