Introducción

Este tutorial explora dos de las herramientas más importantes de la inferencia estadística aplicadas a datos categóricos: los intervalos de confianza y las pruebas de hipótesis para una proporción poblacional. Aprenderemos a estimar un parámetro desconocido y a tomar decisiones basadas en evidencia, utilizando un ejemplo clínico a lo largo del documento.

Caso de estudio: Un laboratorio farmacéutico afirma que su medicamento estándar para la hipertensión controla al 70% de los pacientes (p₀ = 0.70). Se desarrolla una nueva fórmula y se prueba en 250 pacientes, de los cuales 195 logran el control. ¿Podemos estimar la verdadera eficacia de la nueva fórmula? ¿Es estadísticamente mejor que la estándar?


Parte 1: El Intervalo de Confianza (Estimación)

El objetivo de un intervalo de confianza es proporcionar un rango de valores plausibles para un parámetro poblacional desconocido (en este caso, la verdadera proporción p de pacientes que responden a la nueva fórmula).

1. Estimación Puntual (La Proporción Observada)

Nuestra mejor conjetura sobre la verdadera proporción p es la proporción que observamos en nuestra muestra, denotada como p̂ (“p-gorro”).

  • Propósito: Es el punto de partida, nuestro “centro” para construir el intervalo.

Cálculo Manual: \[\hat{p} = \frac{x}{n} = \frac{195}{250} = 0.78\]

# Datos del caso de estudio
x <- 195 # Éxitos (pacientes controlados)
n <- 250 # Tamaño de la muestra

# 1. Calculamos la estimación puntual (p-hat)
p_hat <- x / n
print(paste("La proporción observada (p̂) es:", p_hat))
## [1] "La proporción observada (p̂) es: 0.78"

Observamos que el 78% de los pacientes en la muestra respondieron al tratamiento.

2. Desviación Estándar para una Proporción (Error Estándar)

El error estándar (EE) mide la variabilidad esperada de la proporción muestral (p̂) si tomáramos muchas muestras diferentes de la misma población. Es la desviación estándar de la distribución muestral.

Cálculo Manual: \[EE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.78(1-0.78)}{250}} = \sqrt{\frac{0.78(0.22)}{250}} = \sqrt{0.0006864} \approx 0.0262\]

# 2. Calculamos el Error Estándar (EE)
error_estandar <- sqrt(p_hat * (1 - p_hat) / n)
print(paste("El Error Estándar (EE) es:", round(error_estandar, 4)))
## [1] "El Error Estándar (EE) es: 0.0262"

3. El Margen de Error

El margen de error (ME) define la “distancia” que nos extendemos a cada lado de nuestra estimación puntual (p̂) para crear el intervalo. Representa la incertidumbre de nuestra estimación.

  • Fórmula: ME = Valor Crítico (Z*) * Error Estándar (EE)

4. Valor Crítico de Z (Z*)

El valor crítico Z* depende del nivel de confianza que deseemos. Proviene de la distribución normal estándar y define cuántos errores estándar necesitamos para capturar el porcentaje deseado de la distribución.

Nivel de Confianza Valor Crítico (Z*)
90% 1.645
95% 1.96
99% 2.576

5. Cálculo e Interpretación del Intervalo de Confianza

Finalmente, construimos el intervalo sumando y restando el margen de error a nuestra estimación puntual.

Cálculo Manual: 1. Calcular el Margen de Error (ME): Se usa el Z* para 95% de confianza, que es 1.96. \[ME = Z^* \times EE = 1.96 \times 0.0262 \approx 0.0514\] 2. Construir el Intervalo: Se suma y resta el ME a la estimación puntual (p̂). \[IC = \hat{p} \pm ME\] \[IC = 0.78 \pm 0.0514\] * Límite Inferior: \(0.78 - 0.0514 = 0.7286\) * Límite Superior: \(0.78 + 0.0514 = 0.8314\)

El intervalo de confianza al 95% es aproximadamente (0.7286, 0.8314).

# Usando los valores calculados manualmente
z_critico <- 1.96
margen_error <- z_critico * error_estandar
limite_inferior <- p_hat - margen_error
limite_superior <- p_hat + margen_error

print(paste0("El Intervalo de Confianza al 95% es: (",
             round(limite_inferior, 4), ", ",
             round(limite_superior, 4), ")"))
## [1] "El Intervalo de Confianza al 95% es: (0.7286, 0.8314)"
# Forma automática en R con prop.test()
resultado_ic <- prop.test(x = x, n = n, conf.level = 0.95, correct = FALSE)
print(resultado_ic$conf.int)
## [1] 0.7246273 0.8268981
## attr(,"conf.level")
## [1] 0.95
  • Interpretación: “Tenemos una confianza del 95% de que la verdadera proporción de todos los pacientes que controlarían su presión arterial con la nueva fórmula se encuentra entre el 72.86% y el 83.14%.”

6. Significado del “Nivel de Confianza”

Un nivel de confianza del 95% no significa que hay un 95% de probabilidad de que el parámetro esté en nuestro intervalo. El parámetro es un valor fijo, o está o no está.

  • Significado Correcto: “Si repitiéramos este estudio muchísimas veces, el 95% de los intervalos de confianza que construyamos capturarían la verdadera proporción poblacional.” Es una medida de la fiabilidad de nuestro método a largo plazo.

7. Equilibrio: Confianza vs. Amplitud

Existe un equilibrio: a mayor nivel de confianza, más ancho será el intervalo. Para estar “más seguros” (ej. 99% de confianza), necesitamos un rango de valores más amplio.

  • Visualización: Comparamos un IC del 90% con uno del 99%.

8. Supuestos para un Intervalo de Confianza Válido

Para que nuestro IC sea robusto, se deben cumplir tres condiciones:

  1. Independencia: Las observaciones deben ser independientes. Esto se logra con una muestra aleatoria y asegurando que el tamaño de la muestra no sea más del 10% de la población total.

  2. Tamaño de Muestra Suficiente (Condición de Éxito-Fracaso): La distribución muestral de p̂ debe ser aproximadamente normal. Verificamos que tengamos al menos 10 “éxitos” y 10 “fracasos” en nuestra muestra.

    • n * p̂ ≥ 10 -> 250 * 0.78 = 195 (Cumple)
    • n * (1 - p̂) ≥ 10 -> 250 * (1-0.78) = 55 (Cumple)

Parte 2: La Prueba de Hipótesis (Decisión)

El objetivo de una prueba de hipótesis es decidir si la evidencia de nuestra muestra es lo suficientemente fuerte como para rechazar una afirmación preestablecida sobre la población (la hipótesis nula).

9. Los 5 Pasos para una Prueba de Proporción

Aplicaremos los 5 pasos a nuestro caso de estudio para determinar si la nueva fórmula es mejor que la estándar (p₀ = 0.70).

  • Paso 1: Formular las Hipótesis

    • Hipótesis Nula (\(H_0\)): La nueva fórmula no es mejor que la estándar; la proporción de éxito sigue siendo del 70%.
      H₀: p = 0.70
    • Hipótesis Alternativa (\(H_1\)): La nueva fórmula es mejor que la estándar; la proporción de éxito es mayor al 70%.
      H₁: p > 0.70
  • Paso 2: Establecer el Nivel de Significancia (\(\alpha\))

    • Fijamos el umbral para rechazar \(H_0\). Es la probabilidad de cometer un Error Tipo I. Usaremos el estándar en salud: α = 0.05.
  • Paso 3: Calcular el Estadístico de Prueba (Puntaje Z)

    • Medimos qué tan lejos está nuestra muestra (p̂) del valor de la hipótesis nula (p₀), en unidades de error estándar.
    • Importante: El error estándar aquí (EE₀) se calcula con p₀, no con .

    Cálculo Manual:

    1. Calcular el Error Estándar bajo H₀ (\(EE_0\)): Usamos \(p_0 = 0.70\). \[EE_0 = \sqrt{\frac{p_0(1-p_0)}{n}} = \sqrt{\frac{0.70(1-0.70)}{250}} = \sqrt{\frac{0.70(0.30)}{250}} = \sqrt{0.00084} \approx 0.02898\]
    2. Calcular el Puntaje Z: \[Z = \frac{\hat{p} - p_0}{EE_0} = \frac{0.78 - 0.70}{0.02898} = \frac{0.08}{0.02898} \approx 2.76\]
    p0 <- 0.70
    # Error estándar bajo la hipótesis nula
    ee0 <- sqrt(p0 * (1 - p0) / n)
    
    # Estadístico de prueba Z
    z_score <- (p_hat - p0) / ee0
    print(paste("El puntaje Z es:", round(z_score, 2)))
    ## [1] "El puntaje Z es: 2.76"

    Nuestro resultado está 2.76 errores estándar por encima de lo que esperaríamos si la H₀ fuera cierta.

  • Paso 4: Calcular el Valor p (p-value)

    • El valor p es la probabilidad de observar un resultado tan extremo (o más) como el nuestro, asumiendo que la hipótesis nula es cierta.

    Obtención del Valor p: El cálculo manual del valor p requiere una tabla de distribución normal estándar o una calculadora. Buscamos la probabilidad asociada a nuestro puntaje Z. Para nuestra prueba de cola derecha, buscamos: \[P(Z \ge 2.76)\] Al consultar una tabla Z, encontramos que esta probabilidad es aproximadamente 0.0028.

    # Calculamos el p-value para la cola derecha
    p_value <- pnorm(z_score, lower.tail = FALSE)
    print(paste("El valor p es:", round(p_value, 4)))
    ## [1] "El valor p es: 0.0029"
  • Paso 5: Tomar una Decisión e Interpretar

    • Regla de Decisión: Si p-value < α, rechazamos \(H_0\).
    • Decisión: 0.0028 < 0.05. Por lo tanto, rechazamos la hipótesis nula.
    • Conclusión Clínica: “Con un nivel de significancia del 5%, existe evidencia estadística suficiente para concluir que la nueva fórmula del medicamento es más efectiva que la fórmula estándar para controlar la presión arterial.”

10. Supuestos para la Prueba

Son los mismos que para el intervalo de confianza, pero la condición de éxito-fracaso se verifica con p₀:

1.Independencia: Muestra aleatoria, n < 10% de la población.

2.Tamaño de Muestra Suficiente:

a) n * p₀ ≥ 10  -> 250 * 0.70 = 175 (Cumple)

b) n * (1 - p₀) ≥ 10 -> 250 * 0.30 = 75 (Cumple)

11. Hipótesis Unilaterales (a una cola) y Bilaterales (a dos colas)

  • Unilateral (a una cola): Busca un cambio en una dirección específica. Se usa cuando hay una justificación teórica previa.
    • H₁: p > p₀ (cola derecha, como en nuestro ejemplo: “¿es mejor?”)
    • H₁: p < p₀ (cola izquierda: “¿reduce la tasa?”)
  • Bilateral (a dos colas): Busca cualquier cambio o diferencia, sin importar la dirección. Es más conservadora.
    • H₁: p ≠ p₀ (dos colas: “¿es diferente?”)

12. ¿Qué se Mide en las Pruebas Estadísticas?

El estadístico de prueba (como el puntaje Z) mide la distancia entre el resultado de nuestra muestra (el estadístico) y la afirmación de la hipótesis nula (el parámetro hipotético). Esta distancia se estandariza en unidades de error estándar. Un Z de 2.76 significa que nuestro resultado está “muy lejos” de lo que esperaríamos por puro azar si la H₀ fuera cierta.

13. Interpretar el Valor p en Contexto Clínico

  • Interpretación Técnica: El valor p de 0.0028 significa que si la nueva fórmula en realidad no fuera mejor que la estándar (si \(H_0\) fuera cierta), la probabilidad de obtener una muestra con una eficacia del 78% o más sería de solo 0.28%.
  • Significado Práctico: Este resultado es tan improbable bajo la \(H_0\) que nos lleva a dudar de ella. La evidencia sugiere fuertemente que la mejora observada no es una casualidad.

14. Significancia Estadística vs. Relevancia Clínica

  • Significancia Estadística: Nos la da el valor p. Un p-value bajo nos dice que el efecto observado (la diferencia entre p̂ y p₀) es probablemente real y no debido al azar.
  • Relevancia Clínica: Se pregunta si ese efecto, aunque sea real, es lo suficientemente grande como para importar en la práctica médica.

Ejemplo: Podríamos encontrar que un medicamento reduce la presión arterial en 0.5 mmHg con un p < 0.001. El resultado es estadísticamente significativo, pero una reducción tan pequeña es clínicamente irrelevante. Siempre debemos evaluar ambas.

15. El Rol del Intervalo de Confianza en las Pruebas de Hipótesis

Un intervalo de confianza nos da más información que una prueba de hipótesis. No solo nos dice si hay un efecto, sino que también nos da un rango de la magnitud de ese efecto.

  • Relación Directa: Un IC al 95% puede usarse para una prueba de dos colas con α = 0.05. Si el valor de la hipótesis nula (p₀) cae fuera del intervalo, se rechaza \(H_0\).
  • En nuestro ejemplo: Nuestro IC al 95% es (0.7286, 0.8314). El valor de \(H_0\), p₀ = 0.70, está fuera de este rango, lo que confirma nuestra decisión de rechazar \(H_0\).

Parte 3: Errores y Consecuencias

Tomar decisiones con incertidumbre implica la posibilidad de cometer errores.

16. Errores Tipo I y Tipo II

Realidad: H₀ es Verdadera Realidad: H₀ es Falsa
Decisión: Rechazar H₀ Error Tipo I (Falso Positivo) Decisión Correcta (Poder)
Decisión: No Rechazar H₀ Decisión Correcta Error Tipo II (Falso Negativo)
  • Error Tipo I (\(\alpha\)): Rechazar la hipótesis nula cuando en realidad es cierta. (Concluir que el medicamento es efectivo cuando no lo es).
  • Error Tipo II (\(\beta\)): No rechazar la hipótesis nula cuando en realidad es falsa. (No detectar la eficacia de un medicamento que sí funciona).

17. Nivel de Significancia y la Probabilidad de Error

  • El nivel de significancia \(\alpha\) es la probabilidad de cometer un Error Tipo I. Si fijamos α = 0.05, estamos aceptando un 5% de riesgo de cometer este error.
  • Existe un equilibrio inverso: si hacemos \(\alpha\) más pequeño para reducir el riesgo de un Falso Positivo, aumentamos la probabilidad de cometer un Falso Negativo (\(\beta\)). No podemos minimizar ambos errores simultáneamente.

18. ¿Qué Error es Más Importante en Contextos Clínicos?

La respuesta depende de las consecuencias de cada error.

  • Escenario 1: Aprobar un nuevo medicamento.
    • Un Falso Positivo (Error Tipo I) es más grave. Significaría aprobar y vender un medicamento inútil, exponiendo a los pacientes a costos y efectos secundarios sin beneficio. La prioridad es la seguridad y la eficacia probada.
  • Escenario 2: Detectar un brote epidémico.
    • Un Falso Negativo (Error Tipo II) es más grave. Significaría no detectar un brote real, permitiendo que la enfermedad se propague sin control, con consecuencias catastróficas. La prioridad es la sensibilidad y la acción rápida.

La elección del nivel de significancia y el diseño del estudio deben reflejar cuál de estos errores tiene consecuencias más devastadoras para la salud pública.