Unidad 2: Teoría de la decisión estadística

Clase 4

El análisis estadístico permite tomar decisiones fundamentadas sobre datos mediante la formulación y prueba de hipótesis. Una hipótesis estadística es una afirmación sobre una población que se somete a prueba utilizando datos muestrales. La metodología de ensayos de hipótesis es fundamental en la investigación científica, ya que permite evaluar la validez de afirmaciones con base en evidencia empírica. En este documento, exploraremos las decisiones estadísticas y los ensayos de hipótesis utilizando RStudio y Quarto.
Autor/a
Afiliación

Blás Antonio Benítez Cristaldo

Fecha de publicación

2 de abril de 2025

1 Introducción

El análisis estadístico permite tomar decisiones fundamentadas sobre datos mediante la formulación y prueba de hipótesis. Una hipótesis estadística es una afirmación sobre una población que se somete a prueba utilizando datos muestrales. La metodología de ensayos de hipótesis es fundamental en la investigación científica, ya que permite evaluar la validez de afirmaciones con base en evidencia empírica. En este documento, exploraremos las decisiones estadísticas y los ensayos de hipótesis utilizando RStudio y Quarto.

2 Introducción a las decisiones estadísticas y la hipótesis nula

En estadística, una decisión estadística se basa en la formulación y prueba de una hipótesis. La hipótesis nula (\(H_0\)) es una afirmación sobre la población que se asume verdadera hasta que la evidencia indique lo contrario.

Código
# Ejemplo: generación de datos para una prueba de hipótesis
data <- rnorm(100, mean = 50, sd = 10)
summary(data)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  21.46   41.73   50.02   50.12   57.51   76.30 

Interpretación: Aquí generamos un conjunto de 100 datos con media 50 y desviación estándar 10. La función summary(data) nos proporciona un resumen estadístico de estos datos, incluyendo media, mediana y cuartiles.

3 Ensayo de hipótesis y significación

El ensayo de hipótesis evalúa la plausibilidad de una hipótesis con base en datos muestrales. La significación estadística se mide mediante un p-valor.

Hipótesis:

  • \(H₀\): La media de la población es igual a 50.
  • \(H₁\): La media de la población es diferente de 50.
Código
# Prueba t para una muestra
t.test(data, mu = 50)

    One Sample t-test

data:  data
t = 0.12007, df = 99, p-value = 0.9047
alternative hypothesis: true mean is not equal to 50
95 percent confidence interval:
 48.11290 52.13019
sample estimates:
mean of x 
 50.12154 

Interpretación: Esta prueba t evalúa si la media de la muestra es significativamente diferente de 50. Si el p-valor es menor que 0.05, rechazamos la hipótesis nula y concluimos que la media de la muestra difiere significativamente de 50.

4 Errores tipo I y II. Nivel de significación y potencia estadística

  • Error Tipo I (\(\alpha\)): Rechazar H₀ cuando es verdadera.
  • Error Tipo II (\(\beta\)): No rechazar H₀ cuando es falsa.
  • Nivel de significación (\(\alpha\)): Probabilidad de cometer un error Tipo I.
Código
# Potencia estadística con pwr
library(pwr)
pwr.t.test(d = 0.5, n = 30, sig.level = 0.05, power = NULL, type = "one.sample")

     One-sample t test power calculation 

              n = 30
              d = 0.5
      sig.level = 0.05
          power = 0.7539647
    alternative = two.sided

Interpretación: Aquí utilizamos la librería pwr para calcular la potencia de una prueba t con un tamaño de muestra de 30 y una diferencia de medias esperada de 0.5. La potencia indica la probabilidad de detectar un efecto cuando realmente existe.

5 Pruebas para distribuciones no normales y pruebas de una y dos colas

Cuando los datos no siguen una distribución normal, se emplean pruebas no paramétricas.

Hipótesis:

  • \(H₀\): Los datos siguen una distribución normal.
  • \(H₁\): Los datos no siguen una distribución normal.
Código
# Prueba de normalidad de Shapiro-Wilk
shapiro.test(data)

    Shapiro-Wilk normality test

data:  data
W = 0.99106, p-value = 0.7498

Interpretación: Si el p-valor es menor que 0.05, rechazamos la hipótesis nula de normalidad y concluimos que los datos no siguen una distribución normal.

Hipótesis:

  • \(H₀\): La mediana de la población es igual a 50.
  • \(H₁\): La mediana de la población es diferente de 50.
Código
# Prueba de Wilcoxon para datos no normales
wilcox.test(data, mu = 50)

    Wilcoxon signed rank test with continuity correction

data:  data
V = 2549, p-value = 0.9356
alternative hypothesis: true location is not equal to 50

Interpretación: La prueba de Wilcoxon es una alternativa no paramétrica a la prueba t cuando los datos no son normales. Si el p-valor es menor que 0.05, rechazamos \(H₀\) y concluimos que la mediana de los datos es significativamente diferente de 50.

6 Pruebas especiales y curvas características de operación (OC Curves)

Las curvas características de operación muestran la probabilidad de aceptar H₀ bajo distintas condiciones.

Código
# Generación de una curva OC
p <- seq(0, 1, length=100)
oc_curve <- 1 - pbinom(5, size=10, prob=p)
plot(p, oc_curve, type="l", main="Curva Característica de Operación", xlab="p", ylab="P(Aceptar Ho)")

Interpretación: La curva OC muestra la probabilidad de aceptar la hipótesis nula en función de la proporción real en la población. Nos ayuda a evaluar la calidad de un procedimiento de prueba.

7 Pruebas de significación para diferencias entre muestras

Hipótesis:

  • \(H₀\): Las medias de los dos grupos son iguales.
  • \(H₁\): Las medias de los dos grupos son diferentes.
Código
# Prueba t para muestras independientes
group1 <- rnorm(50, mean=55, sd=10)
group2 <- rnorm(50, mean=50, sd=10)
t.test(group1, group2)

    Welch Two Sample t-test

data:  group1 and group2
t = 1.6885, df = 93.379, p-value = 0.09466
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.5890455  7.2816673
sample estimates:
mean of x mean of y 
 53.33397  49.98766 

Interpretación: Esta prueba t compara las medias de dos grupos independientes. Si el p-valor es menor que 0.05, concluimos que hay una diferencia significativa entre las medias de los dos grupos.

8 Ejercicio de práctica

Planteamiento: Un investigador quiere determinar si el nivel de colesterol medio de una muestra de 40 pacientes es significativamente diferente de \(200 mg/dL\). Para ello, se toman mediciones de colesterol en los pacientes y se registran los valores.

Instrucciones:

  1. Generar una muestra aleatoria de 40 valores con media 205 y desviación estándar 15.
  2. Plantea las hipótesis respecto a una media de 200
  3. Realizar una prueba t para una muestra en R, considerando un nivel de significación del \(5\%\).
  4. Interpretar los resultados de la prueba.
Código
# Completa el código
colesterol <- rnorm(n, mean=, sd=)
# Realizar la prueba t
t.test(colesterol, mu = )

Pregunta: ¿El nivel medio de colesterol de los pacientes es significativamente diferente de \(200 mg/dL\)? Explica tu conclusión basada en el p-valor obtenido.