Web publicada en: https://rpubs.com/jocamso/1434641
Un contraste de hipótesis es un procedimiento estadístico que permite decidir si una afirmación sobre un parámetro poblacional es compatible con la evidencia observada. Los elementos clave se muestran en la Tabla 1 (Triola, 2009, cap. 8).
| Concepto | Descripción |
|---|---|
| Hipótesis nula (\(H_0\)) | Afirmación de partida; normalmente “no hay efecto”.El valor de un parámetro de población (como una proporción, media o desviación estándar) es igual a un valor predefinido. |
| Hipótesis alternativa (\(H_1\)) | Afirmación que compite con \(H_0\); el parámetro tiene un valor que, de alguna manera, difiere de la hipótesis nula. Puede ser unilateral (mayor o menor) o bilateral (diferente). |
| Estadístico de contraste | Función de los datos: \(z\), \(t\), \(\chi^2\), etc., cuya distribución bajo \(H_0\) es conocida. |
| Nivel de significación (\(\alpha\)) | Probabilidad máxima tolerada de rechazar \(H_0\) siendo cierta (error tipo I). |
| p-valor | Probabilidad de obtener un resultado al menos tan extremo como el observado, asumiendo \(H_0\). |
| Región crítica | Conjunto de valores del estadístico para los cuales se rechaza \(H_0\). |
Tabla 1. Elementos fundamentales de un contraste de hipótesis. Se resumen los conceptos clave del marco teórico con sus definiciones.
Existen dos métodos equivalentes de decisión:
Las distribuciones más utilizadas son: normal (\(z\)), t de Student, Poisson y binomial. Refs: Martin (2012); Triola (2009).
A continuación, sintetizamos los pasos del algoritmo general de un contraste de hipótesis (Triola, 2009, cap. 8):
Paso 1 — Formular \(H_0\) y \(H_1\).
Paso 2 — Elegir el nivel de significación \(\alpha\) (habitualmente 0.05).
Paso 3 — Identificar el estadístico relevante y determinar su distribución muestral (normal, \(t\), \(\chi^2\)).
Paso 4 — Obtener los datos y calcular el valor del estadístico.
Paso 5 — Tomar la decisión por p-valor (\(p < \alpha \Rightarrow\) rechazar \(H_0\)) o por región crítica.
Paso 6 — Formular la conclusión en el contexto del problema.
Los detectores como LIGO registran \(x(t) = h(t) + n(t)\), con ruido gaussiano \(n(t)\) y una posible señal \(h(t)\). El contraste es:
Generamos datos sintéticos: señal sinusoidal (\(f = 150\) Hz), ruido gaussiano (\(\sigma_n = 0.5\)), 10 realizaciones con amplitudes aleatorias \(A_i \in [0, 1]\) y una realización \(r_0\) de solo ruido.
Figure 1: Distribuciones de amplitud. Izquierda: ruido puro \(r_0\) con densidad gaussiana teórica \(N(0, 0.5)\). Derecha: realización \(r_5\) con señal, cuya distribución es más ancha.
El resultado esperado para la muestra de ruido puro es una distribución gaussiana, mientras que la presencia de señal ensancha la distribución, como se observa en la Figura 1.
Para cada realización calculamos la correlación \(\rho\) con la señal esperada (template): bajo \(H_0\), \(\rho \approx 0\); bajo \(H_1\), \(\rho > 0\). Con muchos puntos, \(\rho\) se distribuye aproximadamente como una normal, lo que permite un contraste \(z\) unilateral derecho (\(H_0\): \(\rho = 0\); \(H_1\): \(\rho > 0\)) aplicando ambos métodos: p-valor y región crítica (\(\alpha = 0.05\)).
Calculamos \(\rho_i = \text{cor}(r_i, s)\) para cada realización y ajustamos una regresión lineal \(\rho = \beta_0 + \beta_1 A\). El coeficiente de determinación \(R^2\) indica qué fracción de la variabilidad de \(\rho\) explica la amplitud. Como se observa en la Figura 2, la correlación crece linealmente con la amplitud.
Figure 2: Correlación con el template en función de la amplitud. Cada punto representa una realización; la regresión lineal confirma la relación proporcional entre \(\rho\) y \(A\).
Simulamos 10,000 realizaciones de solo ruido para obtener la distribución de \(\rho\) bajo \(H_0\), determinar el valor crítico \(\rho_c\) (método tradicional) y calcular p-valores (método del p-valor). En el panel izquierdo de la Figura 3, las líneas verticales marcan los valores críticos de \(\rho\): naranja para \(\alpha = 0.05\) y roja para \(\alpha = 0.01\). Todo \(\rho\) a la derecha cae en la región crítica y lleva a rechazar \(H_0\). El panel derecho muestra la decisión por realización con \(\alpha = 0.05\).
Figure 3: Contraste de hipótesis para la detección de señal. Izquierda: distribución nula de \(\rho\) con valores críticos. Derecha: decisión (detectado o no) por realización.
La búsqueda del Higgs se basa en contar eventos en un rango de energía y comprobar si hay un exceso respecto al número esperado de eventos de fondo, \(B\). Un pico de señal en torno a 125 GeV, indicaría la presencia del bosón de Higgs (ver Figura 4). El conteo de eventos en cada bin de energía sigue una distribución de Poisson porque se trata de sucesos discretos, independientes entre sí, que ocurren con una tasa media conocida \(\lambda\) en un intervalo fijo de energía (Martin, 2012). La varianza de una Poisson es igual a su media (\(\sigma^2 = \lambda\)), por lo que la incertidumbre estadística del fondo es \(\sqrt{B}\).
Para \(B\) grande, el conteo se aproxima por una normal \(N(B, B)\) y el exceso se estandariza como \[z = \frac{n - B}{\sqrt{B}}\] donde \(n\) es el número de eventos observados y \(B\) el fondo esperado. Bajo \(H_0\), \(z \sim N(0,1)\); un valor alto de \(z\) indica un exceso incompatible con las fluctuaciones estadísticas del fondo.
Figure 4: Espectro de energía del escenario Higgs. Izquierda: densidades teóricas de fondo, señal y total. Derecha: histograma de datos simulados con curvas teóricas superpuestas.
Con \(B\) grande, \(z = (n - B)/\sqrt{B}\) sigue una normal estándar bajo \(H_0\).
Del p-valor a la significancia \(\sigma\): el p-valor se convierte en número de desviaciones estándar mediante \(z = \Phi^{-1}(1-p)\), donde \(\Phi^{-1}\) es la inversa de la normal acumulada. Por ejemplo, \(p = 0.05\) equivale a \(z = 1.64\) (\(\sim 1.6\sigma\)), mientras que el criterio de descubrimiento de \(5\sigma\) exige \(p \approx 2.87 \times 10^{-7}\). La significancia \(S/\sqrt{B}\) es precisamente este estadístico \(z\).
Decisión: rechazar \(H_0\) si \(p < 2.87 \times 10^{-7}\) (método del p-valor) o si \(z_{\text{obs}} > z_c = 5\) (método de la región crítica).
En la ventana [119, 131] GeV: señal esperada \(S\) = 263.3, fondo esperado \(B\) = 1935.7.
Simulamos 5000 realizaciones bajo cada hipótesis para visualizar la separación entre las distribuciones. Representamos estos datos en forma de histograma en la Figura 5, y se confirma que las distribuciones bajo \(H_0\) y \(H_1\) están claramente separadas, haciendo el exceso fácilmente detectable.
Figure 5: Simulación del conteo de eventos en la ventana de señal. Izquierda: distribuciones bajo \(H_0\) y \(H_1\). Derecha: la media observada bajo \(H_1\) resulta incompatible con \(H_0\).
Variamos \(n_s\) y calculamos \(z = S/\sqrt{B}\) para determinar el umbral de detección. La Figura 6 muestra que se necesitan aproximadamente 150 eventos de señal para alcanzar el umbral de \(5\sigma\).
Figure 6: Significancia estadística. La curva \(z = S/\sqrt{B}\) crece con \(n_s\); se indican los umbrales de \(3\sigma\) y \(5\sigma\).
| Aspecto | Onda gravitacional | Bosón de Higgs |
|---|---|---|
| Datos | Serie temporal \(x(t)\) | Conteo de eventos (histograma) |
| Distribución bajo \(H_0\) | Normal (ruido gaussiano) | Poisson (→ aprox. normal) |
| Estadístico | Correlación \(\rho\) (test \(z\)) | \(z = S/\sqrt{B}\) (test \(z\)) |
| Parámetro clave | Amplitud \(A\) (→ SNR) | \(n_s\) (→ \(S/\sqrt{B}\)) |
| Requisito | Conocer señal esperada (template) | Conocer fondo \(B\) con precisión |
Tabla 2. Comparación de los dos escenarios analizados. Se contrastan los datos, distribuciones, estadísticos y requisitos de cada caso.
Ambos escenarios demuestran que el contraste de hipótesis es la herramienta fundamental en física experimental para cuantificar evidencia, controlar falsos positivos y evaluar la potencia del experimento. La Tabla 2 sintetiza las principales características de cada caso, mostrando cómo el marco teórico se adapta a contextos muy distintos pero con la misma lógica inferencial.