Este sitio web tiene como objetivo presentar los fundamentos de la estadística inferencial y su aplicación en el análisis de datos.
La estadística inferencial es una rama de la estadística que permite extraer conclusiones sobre una población a partir del análisis de una muestra. Su relevancia radica en que, en la mayoría de situaciones reales, resulta inviable estudiar la totalidad de los individuos de una población, por lo que se emplean métodos probabilísticos y herramientas matemáticas para realizar estimaciones y tomar decisiones fundamentadas (Triola, 2018).
Entre las herramientas utilizadas en estadística inferencial destacan los contrastes de hipótesis.
Un contraste de hipótesis es un procedimiento estadístico que permite decidir, a partir de una muestra de datos, si la evidencia observada es compatible o no con la hipótesis nula planteada (Triola, 2018).
Este método constituye una de las bases fundamentales de la inferencia estadística y se utiliza ampliamente en todo tipo de disciplinas científicas, médicas, industriales y sociales (Triola, 2018).
Entre sus objetivos principales están:
El contraste de hipótesis se desarrolla en una serie de etapas estructuradas que permiten evaluar, a partir de datos muestrales, la validez de una afirmación sobre una población.
El procedimiento puede resumirse en las siguientes etapas:
Se parte de la formulación de una hipótesis estadística que permita contrastar la existencia de un efecto o diferencia significativa en el sistema analizado. Se distingue entre hipótesis nula \(H_0\) e hipótesis alternativa \(H_1\) (Triola, 2018).
La hipótesis nula \(H_0\) se define como la afirmación de referencia que se asume válida inicialmente y que se somete a contraste con los datos para evaluar su compatibilidad con la evidencia muestral.
La hipótesis alternativa \(H_1\) representa la afirmación contraria a la hipótesis nula y recoge los valores del parámetro que no son compatibles con la hipótesis nula.
En función del tipo de contraste, la hipótesis alternativa puede formularse como una afirmación bilateral, cuando se plantea simplemente la existencia de una diferencia respecto al valor de referencia, o como una afirmación unilateral, cuando se especifica la dirección de dicha desviación (mayor o menor que el valor hipotetizado).
Esta elección no es arbitraria, sino que depende directamente del objetivo del estudio y de la formulación del problema, ya que determina la región de rechazo y, por tanto, la sensibilidad del contraste frente a distintos tipos de desviaciones respecto a la hipótesis nula.
El nivel de significación \(\alpha\) corresponde a la probabilidad máxima que se acepta de cometer un error al rechazar la hipótesis nula cuando esta es verdadera.
Los valores más habituales utilizados son:
Error tipo I
Ocurre cuando se rechaza la hipótesis nula \(H_0\) siendo esta verdadera. Es decir, se concluye que existe una diferencia o efecto cuando en realidad no lo hay.
Este error está directamente controlado por el nivel de significación \(\alpha\).
Error tipo II
Ocurre cuando no se rechaza la hipótesis nula \(H_0\) siendo esta falsa. Es decir, no se detecta una diferencia o efecto que realmente existe.
En este caso, se está pasando por alto un efecto real.
El nivel de confianza es la probabilidad complementaria al nivel de significación y expresa el grado de fiabilidad asociado a un procedimiento de inferencia estadística. Se denota como:
\[ \text{Nivel de confianza} = 1 - \alpha \]
Por ejemplo:
El nivel de confianza debe fijarse antes de realizar el análisis de los datos, ya que forma parte del diseño del contraste de hipótesis. No se ajusta en función de los resultados observados, sino que se establece a priori para controlar la probabilidad de cometer un error de tipo I y definir el criterio de decisión del test.
Un nivel de confianza del 95% indica que si se repitiese el muestreo infinitas veces, aproximadamente el 95% de los intervalos construidos contendrían el verdadero parámetro poblacional.
El tamaño muestral es un factor determinante en la validez y fiabilidad de un contraste de hipótesis, ya que condiciona tanto la precisión de las estimaciones como las propiedades del test estadístico.
En términos generales, un mayor tamaño muestral:
Una vez formuladas las hipótesis, se debe elegir el estadístico de prueba más adecuado según el tipo de variable, los supuestos que se cumplan y el objetivo del estudio.
Los principales métodos utilizados en contrastes de hipótesis son:
Test Z
Se utiliza cuando se quiere contrastar una media y se conoce la desviación estándar poblacional (σ).
Este caso es habitual en entornos industriales donde el proceso está bien caracterizado y la variabilidad poblacional puede considerarse conocida y estable.
Es especialmente apropiado cuando la población es normal o cuando el tamaño muestral es suficientemente grande, de forma que la distribución de la media muestral puede aproximarse a una normal en virtud del Teorema Central del Límite.
En la práctica, se utiliza con frecuencia la regla orientativa \(n \geq 30\), aunque no constituye un criterio estricto.
El estadístico de contraste se define como
\[ Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]
Donde:
Bajo la hipótesis nula \(H_0\), este estadístico sigue una distribución normal estándar \(\mathcal{N}(0,1)\).
Test t de Student
El test t de Student es el enfoque más habitual cuando la desviación estándar poblacional es desconocida.
En este caso, la variabilidad del proceso se estima a partir de la muestra mediante la desviación estándar muestral (s).
Es adecuado especialmente cuando:
Se define como
\[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \]
donde:
Bajo la hipótesis nula \(H_0\), este estadístico sigue una distribución t de Student con \(n - 1\) grados de libertad.
Test Z para dos proporciones
El test Z para dos proporciones se utiliza para comparar si dos proporciones poblacionales pueden considerarse iguales o si existen diferencias estadísticamente significativas entre ellas.
Es especialmente útil cuando se desea comparar la frecuencia de aparición de una característica en dos poblaciones independientes.
Es adecuado cuando:
El estadístico de contraste se define como:
\[ Z = \frac{\hat{p}_1 - \hat{p}_2} {\sqrt{\hat{p}(1-\hat{p}) \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}} \]
donde:
La proporción combinada se calcula como:
\[ \hat{p} = \frac{x_1+x_2} {n_1+n_2} \]
donde \(x_1\) y \(x_2\) representan el número de observaciones con la característica estudiada en cada muestra.
Bajo la hipótesis nula \(H_0\), el estadístico sigue aproximadamente una distribución normal estándar:
\[ Z \sim \mathcal{N}(0,1) \]
Este contraste se utiliza con frecuencia en estudios de calidad industrial, epidemiología, ciencias ambientales y análisis comparativos de materiales, donde el objetivo es determinar si dos poblaciones presentan proporciones significativamente diferentes.
Test Chi-cuadrado (χ²)
El test Chi-cuadrado se utiliza con variables categóricas (por ejemplo, tipos, clases o categorías) y permite comparar lo que se observa en los datos con lo que se esperaría bajo una hipótesis teórica.
Su objetivo es determinar si las diferencias entre frecuencias observadas y esperadas son suficientemente grandes como para indicar que existe una relación entre variables o un desajuste respecto a un modelo teórico.
Se aplica principalmente en estos contextos: análisis de independencia entre variables categóricas, comprobación de la bondad de ajuste de una distribución y comparación de proporciones entre grupos.
\[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \]
donde
Bootstrapping
Es un método computacional muy flexible. No requiere asumir normalidad ni conocer la distribución poblacional. Consiste en generar miles de muestras artificiales (con reemplazo) a partir de los datos originales para estimar la distribución del estadístico.
Es especialmente útil cuando:
| Estadístico | Tipo de variable | Supuestos principales | Tamaño muestral recomendado | Coste computacional | Uso más frecuente |
|---|---|---|---|---|---|
| Test Z | Numérica (media) | Normalidad + σ conocida | Grande (n ≥ 30) | Muy bajo | Procesos industriales |
| Test t | Numérica (media) | Normalidad aproximada | Pequeño o mediano | Bajo | Experimentos científicos |
| Chi-cuadrado | Categórica | Frecuencias esperadas ≥ 5 | Grande | Bajo | Encuestas |
| Bootstrapping | Cualquier tipo | Muy pocos supuestos | Cualquier tamaño | Alto | Datos no normales o muestras pequeñas |
| Z (dos proporciones) | Proporciones | Muestras independientes y tamaño grande | Grande | Muy bajo | Comparación de proporciones |
Una vez seleccionado el estadístico de contraste adecuado, se calcula su valor a partir de los datos muestrales.
A partir de este valor observado y de la distribución del estadístico bajo la hipótesis nula \(H_0\), se obtiene el p-valor, utilizando tablas estadísticas o software especializado.
El p-valor es la probabilidad de obtener un resultado igual o más extremo que el observado, suponiendo que la hipótesis nula \(H_0\) es verdadera.
En otras palabras, mide la compatibilidad entre los datos observados y la hipótesis nula.
p-valor pequeño (\(p \leq \alpha\), por ejemplo \(\alpha = 0{,}05\)):
Los datos observados serían poco probables bajo \(H_0\). Se rechaza \(H_0\) y se considera que existe evidencia estadísticamente significativa a favor de \(H_1\).
p-valor grande (\(p > \alpha\)):
Los datos son compatibles con \(H_0\). No se rechaza \(H_0\), ya que no existe evidencia suficiente en su contra.
El p-valor no es la probabilidad de que \(H_0\) sea verdadera.
Solo indica cuán consistentes son los datos con la hipótesis nula.
La decisión en un contraste de hipótesis se basa en la comparación entre el p-valor y el nivel de significación \(\alpha\):
En un contraste bilateral, el p-valor considera ambas colas de la distribución, mientras que en un contraste unilateral se considera una sola cola.
A continuación, se muestran dos figuras que ilustran el comportamiento de los contrastes de hipótesis en sus versiones bilateral y unilateral.
Figura 1: Contraste bilateral
En un contraste bilateral, la región crítica se distribuye en ambas colas de la distribución, de modo que la probabilidad de error \(\alpha\) se reparte entre los dos extremos. Este enfoque se utiliza cuando la hipótesis alternativa plantea diferencias en cualquier dirección.
Aquí:
Regla visual:
Figura 2: Contraste unilateral
En un contraste unilateral, la región crítica se sitúa únicamente en una de las colas de la distribución, de modo que toda la probabilidad de error α se concentra en un solo lado en función de la hipótesis alternativa.
Aquí:
Regla visual:
Tras el análisis, se toma la decisión estadística (rechazar o no rechazar \(H_0\)),
Si se rechaza \(H_0\): se concluye que existe evidencia suficiente para afirmar que el efecto, diferencia o relación planteada en \(H_1\) es compatible con los datos observados.
Si no se rechaza \(H_0\): no se dispone de evidencia suficiente para afirmar que exista el efecto o diferencia planteada en \(H_1\), aunque esto no implica que \(H_0\) sea necesariamente verdadera.
Una vez tomada la decisión estadística (rechazar o no rechazar \(H_0\)), el resultado debe interpretarse en términos del problema original.
En este paso se traduce la conclusión estadística a una conclusión contextual, explicando qué implica la decisión sobre la hipótesis en el ámbito real del estudio.
Es importante destacar que esta interpretación no afirma que \(H_0\) sea verdadera o falsa, sino que la evidencia disponible no es suficiente para rechazarla bajo el riesgo de error establecido.
A continuación, se presentan dos escenarios prácticos con el objetivo de ejemplificar la aplicación de los contrastes de hipótesis en contextos reales
Se analiza el comportamiento térmico de un reactor industrial con el objetivo de determinar si la temperatura media de operación supera el valor de referencia especificado por el fabricante.
El problema se plantea como un contraste de hipótesis, ya que temperaturas elevadas de forma sostenida pueden indicar fallos en el sistema o un funcionamiento anómalo.
La población está formada por todas las* posibles mediciones de temperatura del reactor en condiciones normales de operación.
La variable de estudio es la temperatura interna del reactor, medida en grados Celsius (°C). Se trata de una variable cuantitativa continua, ya que puede tomar cualquier valor dentro de un intervalo.
Se obtiene una muestra aleatoria de mediciones de temperatura del reactor registradas en distintos instantes de tiempo durante condiciones de funcionamiento estable.
Las observaciones se consideran independientes y pueden recogerse mediante muestreo aleatorio simple, asegurando que la muestra sea representativa del comportamiento del sistema.
El tamaño muestral \(n\) debe ser suficientemente grande para garantizar estabilidad en las estimaciones.
La base de datos incluye, al menos, la temperatura registrada en cada medición, pudiendo incorporarse también el instante de registro para fines de trazabilidad y análisis temporal.
Se plantea un contraste de hipótesis sobre la media poblacional \(\mu\), con el objetivo de evaluar si la temperatura media del reactor supera el valor de referencia establecido por el fabricante \(\mu_0\).
\[ H_0: \mu \leq \mu_0 \]
\[ H_1: \mu > \mu_0 \]
Se trata de un contraste unilateral de cola derecha, diseñado para detectar incrementos en la media respecto al valor de referencia.
Se fija el nivel de significación del contraste en:
\[ \alpha = 0.05, \quad 1 - \alpha = 0.95 \]
Este parámetro determina el umbral de decisión del contraste y controla la probabilidad de cometer un error de tipo I, es decir, rechazar la hipótesis nula siendo esta verdadera.
\[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \]
En función de las características de los datos y de los supuestos disponibles, podrían emplearse otros métodos de contraste:
| Método | Ventajas | Limitaciones | Uso típico |
|---|---|---|---|
| Test Z | Simple | Requiere σ conocida | Procesos muy controlados |
| Bootstrapping | Sin supuestos fuertes | Coste computacional alto | Datos no normales |
La decisión del contraste se toma comparando el p-valor con el nivel de significación \(\alpha = 0.05\):
En el contexto del reactor industrial, esta regla permite determinar si la temperatura media observada es incompatible con el valor de referencia establecido por el fabricante.
Rechazo de \(H_0\): se concluye que existe evidencia estadística de que la temperatura media del reactor supera el valor de referencia, lo que puede indicar sobrecalentamiento o una desviación relevante en las condiciones de operación del sistema.
No rechazo de \(H_0\): no se dispone de evidencia suficiente para afirmar que la temperatura media supere el valor de referencia, por lo que el comportamiento térmico del reactor se considera compatible con la variabilidad normal del proceso.
Se analiza si dos muestras de material radiactivo pueden proceder de la misma fuente de origen a partir de la comparación de la proporción de uranio presente en cada una.
El objetivo es determinar si las diferencias observadas son atribuibles a variabilidad aleatoria o a diferencias estructurales entre poblaciones.
Se eligen las siguientes poblaciones, ya que representan posibles fuentes distintas de material radiactivo.
Población 1: muestras de material radiactivo de origen desconocido A
Población 2: muestras de material radiactivo de origen desconocido B
Variable de estudio: proporción de uranio en cada muestra
Tipo: variable categórica/binomial
Interpretación: porcentaje de uranio respecto al total de la muestra
Se obtienen dos muestras independientes procedentes de cada una de las poblaciones.
En cada una de ellas se registran:
Estas proporciones se obtienen a partir de la frecuencia de detección de uranio respecto al total de observaciones en cada muestra.
Condiciones del muestreo:
Se plantea un contraste bilateral para determinar si existen diferencias en la proporción de uranio entre ambas poblaciones.
\[ H_0: p_1 = p_2 \]
\[ H_1: p_1 \neq p_2 \]
Bajo la hipótesis nula \(H_0\), se asume que ambas poblaciones presentan la misma proporción de uranio, mientras que la hipótesis alternativa (H_01) plantea la existencia de diferencias significativas entre ellas.
Se fija el nivel de significación en:
\[ \alpha = 0.05 \] —
Se utiliza el estadístico Z (dos proporciones)para comparar la proporción de uranio entre ambas poblaciones.
\[ Z = \frac{\hat{p}_1 - \hat{p}_2} {\sqrt{\hat{p}(1 - \hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} \]
Este contraste permite evaluar si las diferencias observadas en el contenido de uranio entre las dos muestras son estadísticamente significativas.
| Método | Ventajas | Limitaciones | |
|---|---|---|---|
| Chi-cuadrado | Enfoque alternativo al Z en tablas de contingencia | Menos directo para interpretación de proporciones | Verificación de diferencias globales |
A diferencia del contraste de proporciones (Z), que compara directamente las proporciones estimadas en cada muestra, el chi-cuadrado mide si las diferencias en el uranio entre las dos muestras son demasiado grandes como para explicarse solo por casualidad, evaluando la discrepancia entre las frecuencias observadas y las que se esperarían si ambas poblaciones fueran iguales.
La decisión se basa en comparar el p-valor obtenido en el contraste sobre la proporción de uranio entre ambas muestras con el nivel de significación \(\alpha = 0.05\).
A partir del resultado del contraste sobre la proporción de uranio entre las muestras, la interpretación se conecta directamente con el objetivo del estudio: determinar si ambas muestras pueden proceder del mismo origen.
Rechazo de \(H_0\): se concluye que existen diferencias significativas en la proporción de uranio entre las muestras. Esto indica que la composición química no es compatible bajo un mismo patrón de generación, por lo que es razonable considerar que las muestras podrían proceder de fuentes de origen distintas.
No rechazo de \(H_0\): no se encuentran diferencias estadísticamente significativas en la proporción de uranio. En este caso, las variaciones observadas se interpretan como resultado de la variabilidad aleatoria del muestreo, por lo que los datos son compatibles con la hipótesis de un mismo origen para ambas muestras.