Introducción

Las pruebas de hipótesis son una herramienta alternativa para hacer inferencia estadística sobre los parÔmetros de una población.

En pruebas de hipótesis se busca rechazar o no rechazar una afirmación acerca de una característica de la población, con base en la información de una muestra aleatoria de la población.

Conceptos preliminares

Para probar una hipótesis estadística, se utiliza directamente el método científico:

  1. Establecer el estado actual del conocimiento (Statu Quo).
  2. Proponer un sistema de hipótesis acerca del fenómeno de interés.
  3. Observar una muestra aleatoria (experimentar).
  4. Analizar los resultados respecto a las hipótesis bajo consideración.
  5. Tomar decisiones con base en los datos obtenidos.

Sistema de hipótesis

Hipótesis estadística (\(H\)): afirmación sobre la distribución de la población, que comúnmente se expresa por medio de un parÔmetro \(\theta\in\Theta\), donde \(\Theta\) es el conjunto de todos los posibles valores que puede asumir \(\theta\).

Hipótesis nula (\(H_0\)): hipótesis que refleja el estado actual de conocimiento de la población. Es la hipótesis que al final del protocolo se debe rechazar o no rechazar. \[ H_0: \theta\in\Theta_0\qquad \text{donde $\Theta_0\subset\Theta$.} \]

Hipótesis alternativa (\(H_1\)): hipótesis sobre la cual se quiere hallar evidencia empírica. \[ H_1: \theta\in\Theta_1\qquad\text{donde $\Theta_1\subseteq\Theta$ y $\Theta_0\cap\Theta_1=\emptyset$.} \]

Sistema de hipótesis: pareja de hipótesis conformada por la hipótesis nula y la hipótesis alternativa.

\[H_0: \theta\in\Theta_0\qquad \text{frente a}\qquad H_1: \theta\in\Theta_1\,.\] Test (\(\tau\)): regla, norma, procedimiento o protocolo que permite tomar una decisión (rechazar \(H_0\) o no rechazar \(H_0\)).

Observaciones:

  • Las hipótesis son afirmaciones acerca de la población, que por lo general se expresan por medio de los parĆ”metros de la población.
  • El objetivo consiste en establecer si existe suficiente evidencia en la realización de una muestra aleatoria para rechazar \(H_0\) o no rechazar \(H_0\), es decir, identificar cuĆ”l es la hipótesis que mejor explica los datos observados.

Ejemplo

En un juicio el acusado se considera inocente hasta que se demuestre lo contrario mƔs allƔ de cualquier duda razonable.

  • Sistema de hipótesis: \(H_0:\) El acusado es inocente frente a \(H_1:\) El acusado es culpable.

Ejemplo

Cierto tipo de motor de automóvil emite una media de 100 mg de óxidos de nitrógeno (NO) por segundo con 100 caballos de fuerza. Se ha propuesto una modificación al diseño del motor para reducir las emisiones de NO. El nuevo diseño se producirÔ si se demuestra que la media de las emisiones es menor de 100 mg/seg. Se construye y se prueba una muestra de 50 motores modificados. La media muestral de emisiones de NO es de 92 mg/s, y la desviación estÔndar muestral es de 21 mg/s.

  • Población: emisiones de NO (mg/s) de los motores con el diseƱo del motor modificado.
  • Valor hipotĆ©tico: \(\mu_0=100\).
  • Sistema de hipótesis: \(H_0:\mu = 100\) frente a \(H_1:\mu < 100\).
  • Información muestral: \(n=50\), \(\bar{x} = 92\) mg/s, y \(s = 21\) mg/s.

Errores

Cuando se hace una prueba de hipótesis podría ocurrir que la muestra no dé evidencias acerca de lo que ocurre en la población:

El error tipo I consiste en rechazar la hipótesis nula, cuando ésta es cierta.

La probabilidad de cometer el error tipo I se llama nivel de significancia (\(\alpha\)) y se fija antes de iniciar el estudio:

\[\alpha = \textsf{Pr}(\text{Rechazar }H_0\mid H_0\text{ es cierta}).\]

El complemento de \(\alpha\) es la confiabilidad:

\[1-\alpha = \textsf{Pr}(\text{No rechazar }H_0\mid H_0\text{ es cierta}).\]

El error tipo II consiste en no rechazar la hipótesis nula, cuando ésta es falsa.

La probabilidad de cometer el error tipo II se llama función característica y se denota con \(\beta(\theta)\). Esta función se puede calcular para cada \(\theta\in\Theta_1\):

\[\beta(\theta)=\textsf{Pr}(\text{No rechazar }H_0\mid H_0\text{ es falsa}).\]

El complemento de \(\beta(\theta)\) se llama función de potencia:

\[\pi(\theta)=1-\beta(\theta) = \textsf{Pr}(\text{Rechazar }H_0\mid H_0\text{ es falsa}).\]

Observaciones

  • El nivel de significancia se fija de antemano a 0.1, 0.05, o 0.01.
  • \(H_0\) se mantiene a menos de que haya suficiente evidencia para revocarla.
  • Para rechazar \(H_0\) se debe observar algo en la muestra tan improbable que ocurra si \(H_0\) es cierta, que obliga al investigador a favorecer \(H_1\) (rechazar \(H_0\)).

Ejemplo

En el ejemplo del juicio:

  • Error tipo I: establecer que el acusado es culpable, cuando en realidad es inocente.
  • Error tipo II: establecer que el acusado es inocente, cuando en realidad es culpable.

Ejemplo

En el ejemplo de emisiones de óxidos de nitrógeno (NO):

  • Error tipo I: establecer que el diseƱo del motor modificado sĆ­ reduce las emisiones de NO promedio a menos de 100 mg/seg, cuando en realidad no lo hace.
  • Error tipo I: establecer que el diseƱo del motor modificado no reduce las emisiones de NO promedio a menos de 100 mg/seg, cuando en realidad sĆ­ lo hace.

Procedimiento de prueba

¿Cómo decidir si se debe rechazar o no la hipótesis nula?

  1. Establecer el sistema de hipótesis.
  2. Fijar el nivel de significancia.
  3. Establecer la región de crítica y/o calcular el valor \(p\).
  4. Tomar la decisión.
  5. Interpretar los resultados.

Región crítica

Recorrido del estadĆ­stico de prueba correspondiente al nivel de significancia.

El test consiste en:

\[\tau:\text{Rechazar }H_0\text{ el estadístico de prueba pertenece a la región de rechazo.}\]

Valor \(p\) (\(p\)-value)

El valor \(p\) se define como \[ p = \textsf{Pr}(\text{Observar datos tan o mÔs extremos en dirección de } H_1\mid H_0\text{ es cierta}). \] El test consiste en:

\[\tau:\text{Rechazar }H_0\text{ si el valor }p<\alpha.\]

Ejemplo

En el ejemplo de emisiones de óxidos de nitrógeno (NO):

Sistema de hipótesis: \(H_0:\mu = 100\) frente a \(H_1:\mu < 100\).

Nivel de significancia: \(\alpha = 0.05\).

Valor \(p\):

Bajo \(H_0\), se tiene que el estadĆ­stico de prueba es

\[Z = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\sim\textsf{N}(0,1),\] que al calcularse con la información muestral (\(n=50\), \(\bar{x} = 92\), \(s = 21\)) da como resultado \(z_c=-2.69\).

La región crítica (región de rechazo) es \((-\infty,-1.64)\).

# info muestral
n   <- 50
xb  <- 92
s   <- 21
# valor hipotetico
mu0 <- 100
# estadistico de prueba
est <- (xb - mu0)/(s/sqrt(n))
print(est)
## [1] -2.69374
# percentil 5% (cola izquierda)
z05 <- qnorm(p = 0.05)
z05
## [1] -1.644854

El valor \(p\) es

\[p = \textsf{Pr}(Z < z_c\mid H_0\text{ es cierta}) = \int_{-\infty}^{z_c} f_Z(z)\,\textsf{d}z = 0.003532762\]

# valor p
pnorm(q = est, lower.tail = TRUE)
## [1] 0.003532762

Intervalo de confianza unilateral:

Utilizando la cantidad pivotal se tiene que \[ \textsf{Pr}\left( \textsf{z}_\alpha < Z \right) = \textsf{Pr}\left( \textsf{z}_\alpha < \frac{\bar{X} - \mu}{S/\sqrt{n}} \right) = \textsf{Pr}\left( \mu < \bar{X} - \text{z}_{\alpha}\,\frac{S}{\sqrt{n}} \right) = \textsf{Pr}\left( \mu < \bar{X} + \text{z}_{1-\alpha}\,\frac{S}{\sqrt{n}} \right) = 1-\alpha \]

El intervalo calculado es \((-\infty; 96.88)\).

# info muestral
n  <- 50
xb <- 92
s  <- 21
# percentiles
z05 <- qnorm(p = 0.05)
z95 <- qnorm(p = 0.95)
# intervalo de confianza unilateral al 95%
xb - z05*s/sqrt(n)
## [1] 96.88497
xb + z95*s/sqrt(n)
## [1] 96.88497

Decisión: rechazar \(H_0\) dado que \(p = 0.0035 < \alpha = 0.05\).

Conclusión: existe suficiente evidencia empírica para establecer que el diseño del motor modificado sí reduce significativamente las emisiones de NO promedio a menos de 100 mg/s.

Potencia de la prueba:

\[ \begin{align*} \pi(\mu) &= \textsf{Pr}\left(Z < -1.64\mid H_0\text{ es falsa}\right) \\ &=\textsf{Pr}\left(\frac{\bar{X}-100}{S/\sqrt{n}} < -1.64\mid \mu < 100\right) \\ &=\textsf{Pr}\left(\bar{X} < 100 -1.64\frac{S}{\sqrt{n}}\mid \mu < 100\right) \\ &=\textsf{Pr}\left( Z < \frac{100 - \mu}{S/\sqrt{n}} -1.64\right) \\ \end{align*} \]

# funcion de potencia
f <- function (mu, mu0, n, s, alpha) {
  z_alpha <- qnorm(p = alpha)
  z <- (mu0 - mu)/(s/sqrt(n)) + z_alpha
  return(pnorm(q = z, lower.tail = TRUE))
}
# funcion de caracteristica
g <- function (mu, mu0, n, s, alpha) {
  z_alpha <- qnorm(p = alpha)
  z <- (mu0 - mu)/(s/sqrt(n)) + z_alpha
  return(pnorm(q = z, lower.tail = FALSE))
}
# grafico de la funcion de potencia
curve(expr = f(x, mu0 = 100, n = 50, s = 21, alpha = 0.05), lwd = 2, col = 4, from = 85, to = 100, ylim = c(0,1), xlab = expression(mu), ylab = "Potencia")
curve(expr = g(x, mu0 = 100, n = 50, s = 21, alpha = 0.05), lwd = 2, col = 2, add = TRUE)

Pruebas de hipótesis bajo normlidad bajo una población

Se asume que \(X_1,\ldots,X_n\) es una muestra aleatoria tal que \(X_i\stackrel{\text{IID}}{\sim} \textsf{N}(\mu, \sigma^2)\), para \(i=1,\ldots,n\).

Antes de implementar las pruebas, es indispensable verificar que la distribución de la variable aleatoria objeto de estudio tenga distribución Normal, de lo contrario, se deben utilizar otras técnicas de inferencia (e.g., Bootstrap).

Para la media pobacional \(\mu\)

El proceso de prueba para \(\mu\) se puede resumir con el siguiente esquema:

Observaciones

Se pueden utilizar estas pruebas de acuerdo con la condición de \(\sigma\) siempre que:

  • La distribución de la población es Normal, sin importar el tamaƱo de la muestra.
  • El tamaƱo de la muestra es grande para aplicar los teoremas de convergencia.

Ejemplo

Se simula una muestra de 50 estudiantes para determinar si en promedio los estudiantes no tienen sobrepeso (IMC < 25) con un nivel de significancia del \(5\%\).

Solución

El sistema de hipótesis que se quiere probar es:

\[H_0:\mu= 25\qquad\text{ frente a }\qquad H_1: \mu< 25\]

# simulación de la muestra aleatoria
set.seed(123)
imc <- rnorm(n = 50, mean = 25.5, sd = 1)
head(imc)
## [1] 24.93952 25.26982 27.05871 25.57051 25.62929 27.21506
# prueba sobre el promedio poblacional
t.test(x = imc, alternative = "less", mu = 25, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  imc
## t = 4.0814, df = 49, p-value = 0.9999
## alternative hypothesis: true mean is less than 25
## 95 percent confidence interval:
##      -Inf 25.75393
## sample estimates:
## mean of x 
##   25.5344

Dado que el valor \(p > 0.05\), con una confiabilidad del 95% no existe suficiente evidencia empĆ­rica para establecer que en promedio los estudiantes no tienen sobrepeso.

Para probar los supuestos del modelo se debe probar el sistema de hipótesis:

\[ H_0: \text{La población tiene distribución Normal} \qquad\text{ frente a }\qquad H_1: \text{La población no tiene distribución Normal} \]

# prueba de normalidad de Shapiro-Wilk
shapiro.test(imc)
## 
##  Shapiro-Wilk normality test
## 
## data:  imc
## W = 0.98928, p-value = 0.9279
# prueba de normalidad de Kolmogorov-Smirnov
nortest::lillie.test(imc)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  imc
## D = 0.083232, p-value = 0.5233
# prueba de normalidad de Anderson-Darling
nortest::ad.test(imc)
## 
##  Anderson-Darling normality test
## 
## data:  imc
## A = 0.20995, p-value = 0.8529

Dado que el valor \(p > 0.05\), con una confiabilidad del 95% no existe suficiente evidencia empírica para establecer el IMC de la población no tiene distribución Normal.

# descripcion
summary(imc)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   23.53   24.94   25.43   25.53   26.20   27.67
# grafico
par(mfrow = c(1,2))
# histograma
hist(x = imc, freq = F, col = "white", xlim = c(21,29), ylim = c(0,0.5), xlab = "Balance", ylab = "Densidad", main = "")
curve(expr = dnorm(x, mean = mean(imc), sd = sd(imc)), col = 2, add = TRUE)
# grfico cuantil-cuantil
qqnorm(imc, xlab = "Cuantiles normales", ylab = "Cuantiles observados", main = "")
qqline(imc, col = 2)

Para la varianza poblacional \(\sigma^2\)

El proceso de prueba para \(\mu\) se puede resumir con el siguiente esquema:

Generalmente, \(\epsilon=\alpha/2\) y \(\delta=1-\alpha/2\).

Ejemplo

Una pieza debe fabricarse con medidas de tolerancia muy estrechas para que sea aceptada por el cliente. Las especificaciones de producción indican que la varianza mÔxima en la longitud de la pieza debe ser 0.0004. En 30 piezas la varianza muestral encontrada es 0.0005. Use un nivel de significancia de 0.05 para probar si se estÔ violando la especificación acerca de la variabilidad poblacional.

Solución

var1_test_V1 <- function(s2, n, sigma2, alternativa = "diferente", confianza = 0.95) {
  # informacion muestral
  s2 <- as.numeric(s2)
  n  <- as.numeric(n)
  # estadistico de prueba
  chi <- (n-1)*s2/sigma2
  # valor p
  if (alternativa == "menor") {
    p <- pchisq(q = chi, df = n-1, lower.tail = T)
  }
  if (alternativa == "mayor") {
    p <- pchisq(q = chi, df = n-1, lower.tail = F)
  }
  if (alternativa == "diferente") {
    p1 <- pchisq(q = chi, df = n-1, lower.tail = T)
    p2 <- pchisq(q = chi, df = n-1, lower.tail = F)
    p  <- 2*min(p1,p2)
  }
  # salida
  return(p)
}
var1_test_V2 <- function(s2, n, sigma2, alternativa = "diferente", confianza = 0.95) {
  # informacion muestral
  s2 <- as.numeric(s2)
  n  <- as.numeric(n)
  # estadistico de prueba
  chi <- (n-1)*s2/sigma2
  # valor p
  if (alternativa == "menor") {
    p <- pchisq(q = chi, df = n-1, lower.tail = T)
  }
  if (alternativa == "mayor") {
    p <- pchisq(q = chi, df = n-1, lower.tail = F)
  }
  if (alternativa == "diferente") {
    p1 <- pchisq(q = chi, df = n-1, lower.tail = T)
    p2 <- pchisq(q = chi, df = n-1, lower.tail = F)
    p  <- 2*min(p1,p2)
  }
  # imprimir en pantalla
  cat("Prueba sobre la varianza poblaciónal bajo normalidad \n",
      "El valor valor p es ", p, sep = "")
}

El sistema de hipótesis que se quiere probar es:

\[H_0:\sigma^2 = 0.0004\qquad\text{ frente a }\qquad H_1: \sigma^2 > 0.0004\]

# prueba sobre la varianza poblacional
var1_test_V1(s2 = 0.0005, n = 30, sigma2 = 0.0004, alternativa = "mayor", confianza = 0.95)
## [1] 0.1663945
# prueba sobre la varianza poblacional
var1_test_V2(s2 = 0.0005, n = 30, sigma2 = 0.0004, alternativa = "mayor", confianza = 0.95)
## Prueba sobre la varianza poblaciónal bajo normalidad 
## El valor valor p es 0.1663945

Dado que el valor \(p > 0.05\), con una confiabilidad del 95% no existe suficiente evidencia empírica para establecer que se estÔ violando la especificación acerca de la variabilidad poblacional del proceso de producción.

Para la proporción poblacional \(\pi\)

Se considera una muestra aleatoria \(X_1,\ldots,X_n\) de una población \(\textsf{Bernoulli}(\pi)\).

Se tienen los siguientes sistemas de hipótesis:

\[\text{Sistema A: }\qquad H_0:\pi=\pi_0\qquad\text{ frente a }\qquad H_1:\pi<\pi_0\] \[\text{Sistema B: }\qquad H_0:\pi=\pi_0\qquad \text{ frente a }\qquad H_1:\pi>\pi_0\] \[\text{Sistema C: }\qquad H_0:\pi=\pi_0\qquad \text{ frente a }\qquad H_1:\pi\neq\pi_0\] El estadĆ­stico de prueba es

\[Z=\frac{P-\pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}}\]

y los tests son respectivamente:

\[\tau_A:\qquad \text{Rechazar }H_0\text{ si }z_c<z_{\alpha}\]

\[\tau_B:\qquad \text{Rechazar }H_0\text{ si }z_c>z_{1-\alpha}\]

\[\tau_C:\qquad \text{Rechazar }H_0\text{ si }|z_c|>z_{1-\alpha/2}\]

Ejemplo

Se observa una muestra aleatoria de 300 componentes electrónicos fabricados mediante un proceso específico y se encuentra que 25 son defectuosos. Sea \(\pi\) la proporción poblacional de componentes fabricados mediante este proceso que presentan defectos. El responsable del proceso de producción afirma que \(p \leq 0.05\). ¿La muestra proporciona suficiente evidencia para rechazar la afirmación?

Pruebas de hipótesis bajo normalidad para dos poblaciones

Se consideran dos poblaciones, a saber, \(X\sim \textsf{N}(\mu_X,\sigma_X^2)\) y \(Y\sim \textsf{N}(\mu_Y,\sigma_Y^2)\), de las cuales se tienen muestras aleatorias independientes \(X_1,\ldots,X_{n_X}\) y \(Y_1,\ldots,Y_{n_Y}\), respectivamente.

El objetivo es comparar los parƔmetros de las dos poblaciones.

Para la diferencia de medias pobacional \(\mu_X - \mu_Y\)

El proceso de prueba para \(\mu_X - \mu_Y\) se puede resumir con el siguiente esquema:

donde

\[ f=\frac{\left(\frac{s^2_{X}}{n_X}+\frac{s^2_{Y}}{n_Y} \right)^2 }{\frac{\left( \frac{s^2_{X}}{n_X}\right)^2 }{n_X-1}+\frac{\left( \frac{s^2_{Y}}{n_Y}\right)^2 }{n_Y-1}} \]

y

\[ S_p=\sqrt{\frac{(n_X-1)S^2_{X}+(n_Y-1)S^2_{Y}}{n_X+n_Y-2}} \]

Cuando se quiere probar la igualdad de las medias se usa \(\delta_0=0\).

Ejemplo

Simular dos muestras aleatorias, una de tamaño \(n_X=25\) de una población Normal con media \(\mu_X=5\) y varianza \(\sigma_X=0.50\), y otra de tamaño \(n_Y=20\) de una población Normal con media \(\mu_Y=4\) y varianza \(\sigma_Y=0.25\). Usando estas muestras, probar al 95% de confianza el sistema de hipótesis

\[H_0:\mu_X-\mu_Y = 0\qquad\text{ frente a }\qquad H_1:\mu_X-\mu_Y\neq 0\,.\]

# simulacion de los datos
set.seed(1234)
x <- rnorm(n = 25, mean = 5, sd = 0.50)
y <- rnorm(n = 20, mean = 4, sd = 0.25)
# inspeccionar los datos
head(x)
## [1] 4.396467 5.138715 5.542221 3.827151 5.214562 5.253028
head(y)
## [1] 3.637949 4.143689 3.744086 3.996215 3.766013 4.275574
# tendencia
summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.827   4.612   4.755   4.879   5.139   6.208
summary(y)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.455   3.727   3.804   3.847   3.927   4.362
# diagrama de caja
boxplot(x, y, border = c("darkblue","black"), col = "white", boxwex = 0.4, outline = F)
points(x = jitter(x = rep(1,25), amount = 0.08), y = x, pch = 16, col = adjustcolor("blue",  0.5))
points(x = jitter(x = rep(2,20), amount = 0.08), y = y, pch = 16, col = adjustcolor("black", 0.5))

# prueba normalidad
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.93222, p-value = 0.09781
shapiro.test(y)
## 
##  Shapiro-Wilk normality test
## 
## data:  y
## W = 0.94453, p-value = 0.2916
# prueba de diferencia de medias
t.test(x = x, y = y, alternative = "two.sided", mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)
## 
##  Welch Two Sample t-test
## 
## data:  x and y
## t = 9.8489, df = 36.047, p-value = 9.186e-12
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.8197809 1.2449267
## sample estimates:
## mean of x mean of y 
##  4.879109  3.846755

Prueba de homocedasticidad

Se tienen los siguientes sistemas de hipótesis:

\[\text{Sistema A: }\qquad H_0:\sigma_1^2=\sigma_2^2\qquad\text{ frente a }\qquad H_1:\sigma_1^2<\sigma_2^2\] \[\text{Sistema B: }\qquad H_0:\sigma_1^2=\sigma_2^2\qquad \text{ frente a }\qquad H_1:\sigma_1^2>\sigma_2^2\] \[\text{Sistema C: }\qquad H_0:\sigma_1^2=\sigma_2^2\qquad \text{ frente a }\qquad H_1:\sigma_1^2\neq\sigma_2^2\] El estadĆ­stico de prueba es

\[F=\frac{S^2_X}{S^2_Y}\]

y los tests son respectivamente:

\[\tau_A:\qquad \text{Rechazar }H_0\text{ si }f_c<\textsf{F}_{n_X-1,n_Y-1,\alpha}\]

\[\tau_B:\qquad \text{Rechazar }H_0\text{ si }f_c>\textsf{F}_{n_X-1,n_Y-1,1-\alpha}\]

\[\tau_C:\qquad \text{Rechazar }H_0\text{ si }f_c<\textsf{F}_{n_X-1,n_Y-1,\alpha/2}\text{ o } f_c>\textsf{F}_{n_X-1,n_Y-1,1-\alpha/2}\]

Ejemplo

Hacer la prueba de homocedasticidad a dos colas usando los datos de la simulación anterior.

var.test(x = x, y = y, ratio = 1, alternative = "two.sided", conf.level = 0.95)
## 
##  F test to compare two variances
## 
## data:  x and y
## F = 4.3366, num df = 24, denom df = 19, p-value = 0.001858
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   1.768377 10.170061
## sample estimates:
## ratio of variances 
##           4.336629
# estadistico de prueba
(est <- var(x)/var(y))
## [1] 4.336629
# percentiles
qf(p = 0.025, df1 = 25-1, df2 = 20-1, lower.tail = TRUE )
## [1] 0.4264113
qf(p = 0.025, df1 = 25-1, df2 = 20-1, lower.tail = FALSE)
## [1] 2.452321
# valor p
(p1 <- pf(q = est, df1 = 25-1, df2 = 20-1, lower.tail = TRUE ))
## [1] 0.9990709
(p2 <- pf(q = est, df1 = 25-1, df2 = 20-1, lower.tail = FALSE))
## [1] 0.000929077
(p  <- 2*min(p1,p2))
## [1] 0.001858154

Para la diferencia de proporciones poblacional \(\pi_X-\pi_Y\)

Se consideran dos poblaciones, a saber, \(X\sim Ber(\pi_X)\) y \(Y\sim Ber(\pi_Y)\), de las cuales se tienen las muestras aleatorias independientes \(X_1,\ldots,X_{n_X}\) y \(Y_1,\ldots,Y_{n_Y}\), respectivamente.

Se tienen los siguientes sistemas de hipótesis:

\[\text{Sistema A: }\qquad H_0:\pi_X-\pi_Y=\delta_0\qquad\text{ frente a }\qquad H_1:\pi_X-\pi_Y<\delta_0\] \[\text{Sistema B: }\qquad H_0:\pi_X-\pi_Y=\delta_0\qquad \text{ frente a }\qquad H_1:\pi_X-\pi_Y>\delta_0\] \[\text{Sistema C: }\qquad H_0:\pi_X-\pi_Y=\delta_0\qquad \text{ frente a }\qquad H_1:\pi_X-\pi_Y\neq\delta_0\] El estadĆ­stico de prueba es

\[Z=\frac{(P_X-P_Y) - \delta_0}{\sqrt{\frac{P_X(1-P_X)}{n_X}+\frac{P_Y(1-P_Y)}{n_Y}}}\]

y los tests son respectivamente:

\[\tau_A:\qquad \text{Rechazar }H_0\text{ si }z_c<z_{\alpha}\]

\[\tau_B:\qquad \text{Rechazar }H_0\text{ si }z_c>z_{1-\alpha}\]

\[\tau_C:\qquad \text{Rechazar }H_0\text{ si }|z_c|>z_{1-\alpha/2}\]

Ejercicio

Los extractos de St.Ā John’s Wort se utilizan ampliamente para tratar la depresión. Un artĆ­culo del nĆŗmero del 18 de abril de 2001 del Journal of the American Medical Association, tĆ­tulado Effectiveness of St.Ā John’s Wort on Major Depression: A Randomized Controlled Trial, comparó la eficacia de un extracto estĆ”ndar de St.Ā John’s Wort con un placebo en 200 pacientes diagnosticados de depresión mayor.

Los pacientes fueron asignados aleatoriamente a dos grupos (50/50). Un grupo recibió la hierba y el otro recibió el placebo. DespuĆ©s de 8 semanas, 19 de los pacientes tratados con placebo mostraron una mejorĆ­a y 27 de los tratados con St.Ā John’s Wort mejoraron. ĀæExiste alguna razón para creer que el tratamiento es eficaz para tratar la depresión mayor? Use una confiabilidad del 95%.

Prueba de independencia entre dos variables categóricas

La prueba de independencia se utiliza cuando se quiere probar si existe una relación entre dos variables categóricas.

El sistema de hipótesis es: \[ H_0:\text{Las variables son independientes} \]

\[ \text{frente a} \]

\[ H_1:\text{Las variables no son independientes.} \]

El estadístico de prueba es: \[ \chi^2=\sum_{i=1}^{k}\sum_{j=1}^{p}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}\,. \] donde \(k\) es el número de categorías de \(X\), \(p\) es el número de categorías de \(Y\), \(n_{ij}\) es la frecuencia absoluta de la \(i\)-ésima categoría de \(X\) y la \(j\)-ésima categoría de \(Y\), y \(e_{ij}=\frac{n_{i\bullet}n_{\bullet j}}{n_{\bullet\bullet}}\) es la frecuencia esperada bajo la hipótesis de independencia.

El test es: \[ \tau:\qquad \text{Rechazar }H_0\text{ si }\chi^2_c>\chi^2_{(k-1)(p-1),1-\alpha}\,. \]

Ejemplo

Se seleccionó una muestra de 500 niños para determinar si existe una asociación entre el nivel socio-económico y la presencia o ausencia de un defecto de pronunciación. Con base en los resultados de la tabla, ¿qué se puede concluir utilizando un 5% de significancia?

\(X\): Defecto en la pronunciación.

\(Y\): Nivel socio-económico.

\(X / Y\) Alto Medio-alto Medio-bajo Bajo
SĆ­ 8 24 32 27
No 42 121 138 108

El sistema de hipótesis estÔ dado por:

\[H_0:\text{No existe una asociación entre el defecto en la pronunciación y el nivel socio-económico}\] \[\text{frente a}\] \[H_1:\text{Sí existe una asociación entre el defecto en la pronunciación y el nivel socio-económico}\]

#tabla de frecuencias
tabla <- matrix(data = c(8,24,32,27,42,121,138,108), nrow = 2, ncol = 4, byrow = T)
colnames(tabla) <- c("Alto","Medio-alto","Medio-bajo","Bajo")
rownames(tabla) <- c("Con defecto", "Sin defecto")
print(tabla)
##             Alto Medio-alto Medio-bajo Bajo
## Con defecto    8         24         32   27
## Sin defecto   42        121        138  108
# prueba de hipótesis
chisq.test(x = tabla)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 0.76536, df = 3, p-value = 0.8577
# percentil
qchisq(p = 0.05, df = 3, lower.tail = F)
## [1] 7.814728

Como el valor \(p=0.8577>0.05\), se concluye que no hay suficiente evidencia estadística para afirmar que existe una asociación entre el nivel socio-económico y tener un defecto de pronunciación.

Ejercicios

  • Suponga que se tiene una muestra aleatoria \(X_1,\ldots,X_n\) de una población \(X\) cuya distribución depende de un parĆ”metro desconocido \(\theta\). Considere la prueba de hipótesis \(H_0: \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\).
    Se quiere usar la muestra para ver cuÔl es la evidencia relativa a favor de \(H_1 : \theta = \theta_1\) en comparación con \(H_0: \theta = \theta_0\). Una forma de medir la fuerza de la evidencia es observar la verosimilitud bajo ambas hipótesis. De esta manera, la verosimilitud relativa de \(\theta_1\) frente a \(\theta_0\) estÔ dada por la razón de verosimilitudes

\[ \Lambda=\frac{L(\theta_1)}{L(\theta_0)}\,, \]

donde \(L(\theta)\) es la función de verosimilitud evaluada en \(\theta\).

Si queremos usar \(\Lambda\) como nuestra medida de evidencia, entonces debemos rechazar \(H_0\) cuando la verosimilitud bajo \(\theta_1\) es grande en relación con la verosimilitud bajo \(\theta_0\), es decir, cuando \(\Lambda\) es grande. Por lo tanto, debemos rechazar \(H_0\) si \(\Lambda \geq c\), donde elegimos \(c\) de tal forma que la probabilidad de cometer un error de Tipo I sea \(\alpha\), es decir, donde \(c\) resuelve \(\Pr(\Lambda \geq c\mid\theta = \theta_0) = \alpha\). Neyman y Pearson demostraron que este procedimiento da la prueba mÔs potente. Esto se resume en el llamado lema de Neyman-Pearson.

(Lema de Neyman-Pearson). Al probar \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\), la prueba mÔs potente de nivel \(\alpha\) tiene la estadística \(\Lambda=\frac{L(\theta_1)}{L(\theta_0)}\) y la región de rechazo es \(R = [c,\infty)\), donde \(c\) es tal que \(\Pr(\Lambda \geq c\mid\theta = \theta_0) = \alpha\). El número \(c\) se llama el valor crítico de la prueba.

Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población Bernoulli con parÔmetro \(\theta\). Se quiere probar el sistema \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\), con \(\theta_0 < \theta_1\).

  1. Demostrar que el test mƔs potente para probar este sistema satisface que

    \[ \Lambda \geq c \Longleftrightarrow \sum_{i=1}^n X_i \geq \log(c) - n\log\left(\tfrac{1-\theta_1}{1-\theta_0}\right)\left(\log\left(\tfrac{\theta_1}{\theta_0}\right) - \log\left(\tfrac{1-\theta_1}{1-\theta_0}\right) \right)^{-1} \]

  2. El término en el lado derecho no depende de ningún valor desconocido aparte de \(c\). Entonces, si fijamos \(c\), también fijamos el lado derecho; llamémoslo \(d\). Ahora vemos que encontrar \(c\) tal que \(\Pr(\Lambda \geq c \mid \theta = \theta_0) = \alpha\) es equivalente a encontrar algún \(d\) tal que \(\Pr( \sum_{i=1}^n X_i \geq d \mid \theta = \theta) = \alpha\). Esto es posible porque conocemos la distribución muestral de \(\sum_{i=1}^n X_i\). Demostrar que si \(n=15\), \(\theta_0=1/4\), \(\theta_1=1/2\), entonces el test mÔs potente de nivel \(\alpha\) para probar \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\) es \(\tau:\) Rechazar \(H_0\) si \(\sum_{i=1}^n x_i \geq 8\).

    Sugerencia: Bajo \(H_0\) se tiene que \(\sum_{i=1}^n X_i \sim\textsf{Bin}(n,\theta_0)\).

  3. Note que encontrarĆ­amos el mismo \(d\) para cualquier alternativa \(\theta_1 > \theta_0\). Por lo tanto, \(\theta_1\) no tiene influencia en el nivel de la prueba. Sin embargo, sĆ­ influye en la potencia, ya que

    \[ \beta = \Pr(\textstyle\sum_{i=1}^n X_i \geq d\mid\theta=\theta_1)\,. \]

Demostrar que si \(n=15\), \(\theta_0=1/4\), \(\theta_1=1/2\), entonces para el test mƔs potente de nivel \(\alpha\) para probar \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\) se tiene que \(\beta=0.5\).

  1. Demostrar que si \(n=15\), \(\theta_0=1/4\), \(\theta_1=3/4\), entonces para el test mƔs potente de nivel \(\alpha\) para probar \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\) se tiene que \(\beta=0.0173\).

  • Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población Normal con media \(\theta\) y varianza \(\sigma^2\) (conocida). Se quiere probar el sistema \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\), con \(\theta_0 < \theta_1\).

    1. Demostrar que el test mƔs potente para probar este sistema satisface que

    \[ \Lambda \geq c \Longleftrightarrow \sum_{i=1}^n X_i \geq \frac{\sigma^2\log(c) - \frac{n}{2}(\theta^2_1 - \theta^2_0)}{\theta_1-\theta_0}\,. \]

    1. Demostrar que el test mƔs potente de nivel \(\alpha\) para probar el sistema \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\), con \(\theta_0 < \theta_1\) es \(\tau:\) Rechazar \(H_0\) si \(\bar{X} \geq d\), donde \(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\) y \(d\) es tal que \(\Pr( \bar{x} \geq d \mid \theta = \theta) = \alpha\).

    2. Demostrar que si \(n=\sigma^2=10\), \(\theta_0=0\) y \(\theta_1=1\), entonces \(d = 1.645\) usando \(\alpha=0.05\).

    3. Demostrar que si \(n=\sigma^2=10\), \(\theta_0=0\) y \(\theta_1=1\), entonces \(\beta = 0.7402\).

    4. Demostrar que si \(n=\sigma^2=10\), \(\theta_0=0\) y \(\theta_1=3\), entonces \(\beta = 0.0875\).


  • Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población Poisson con parĆ”metro \(\theta\). Se quiere probar el sistema \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\), con \(\theta_0 = 2\) y \(\theta_1 = 4\). Demostrar que el test mĆ”s potente de nivel \(\alpha=0.05\) para probar este sistema es \(\tau:\) Rechazar \(H_0\) si \(\bar{X} \geq 16\). ĀæCuĆ”l es la potencia de este test?

  • Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población Exponencial con parĆ”metro de razón \(\theta\). Se quiere probar el sistema \(H_0 : \theta = \theta_0\) frente a \(H_1 : \theta = \theta_1\). Encontrar el test mĆ”s potente de nivel \(\alpha\) para probar este sistema.

  • Sea \(\sigma = 3.1\) la desviación estĆ”ndar verdadera de la población de la cual se elige una muestra aleatoria. ĀæCuĆ”nto debe ser el tamaƱo de la muestra para probar \(H_0: \mu = 0.5\) contra \(H_1: \mu = 5.5\) de manera que \(\alpha = 0.01\) y \(\beta = 0.05\)?

    Sugerencia: Ver la seccion 6.1.1 (p.Ā 260) de Ramachandran & Tsokos (2020).


  • Suponga que se tiene una muestra aleatoria de tamaƱo 25 de una población normal con media desconocida y desviación estĆ”ndar 4. Se quiere probar \(H_0:\mu=10\) frente a \(H_1:\mu > 10\) usando \(\tau:\) rechazar \(H_0\) si \(\bar{X} > 11.2\). Calcular:
    • El tamaƱo del test (nivel de significancia) \(\alpha\).
    • El error tipo II \(\beta\) para \(H_1:\mu = 11\).
    • Graficar la función de potencia.
    • Determinar el tamaƱo de muestra necesario para lograr \(\alpha=0.01\) y \(\beta = 0.2\).

  • Sobre pruebas de hipótesis compuestas:

    Para \(H_0: \theta = \theta_0\) vs \(H_1: \theta > \theta_0\), podemos usar un \(\theta_1 > \theta_0\) para encontrar la prueba mƔs potente. Si no depende de \(\theta_1\), la prueba es uniformemente mƔs potente.

    Sea \(X_1,\ldots,X_n\) de una población geométrica con parÔmetro \(\theta\):

    1. Encontrar el test mƔs potente de nivel \(\alpha\) para \(H_0:\theta = \theta_0\) vs \(H_1:\theta=\theta_1\), con \(\theta_0 < \theta_1\).
    2. Encontrar el test uniformemente mƔs potente de nivel \(\alpha\) para \(H_0:\theta = \theta_0\) vs \(H_1:\theta > \theta_0\).
  • Sintetizar la sección 6.3 (p.Ā 267) de Ramachandran & Tsokos (Mathematical Statistics With Applications in R, 2020).


  • Sintetizar la sección 6.5.2 (p.Ā 297) de Ramachandran & Tsokos (Mathematical Statistics With Applications in R, 2020).

  • Ejercicio 6.5.2 (p.Ā 289) de Ramachandran & Tsokos (Mathematical Statistics With Applications in R, 2020).

  • Es deseable comprobar la calibración de una balanza pesando un peso-patrón de 10 gr 100 veces. Sea \(\mu\) la media poblacional de lecturas en la balanza, por lo que esta estarĆ” calibrada si \(\mu = 10\).

    1. Simular 100 datos independientes del peso-patrón de 10 gr obtenidos bajo condiciones idénticas e independientes de una distribución normal con media 10.5 y desviación estÔndar 0.1.
    2. Usando una confiabilidad del 95%, ¿hay suficiente evidencia para asegurar que la balanza no estÔ calibrada? Responder esta pregunta por medio de pruebas de intervalos de confianza y pruebas de hipótesis.
    3. Graficar la función de potencia correspondiente.
    4. ¿Hay suficiente evidencia para asegurar que los datos provienen de una distribución normal? Responder esta pregunta por medio de métodos descriptivos y pruebas de hipótesis.

  • Se recomienda la instalación de un dispositivo de disminución de radón en cualquier casa donde la media de la concentración de radón es de 4.0 picocuries por litro (pCi/l) o mayor, porque a la larga esa exposición representa una dosis suficientemente grande que puede aumentar el riesgo de cĆ”ncer. Se hicieron 25 mediciones en una casa especĆ­fica. La media de las concentraciones fue de 3.72 pCi/l y la desviación estĆ”ndar de 1.93 pCi/l.

    1. El inspector de casas que realizó la prueba informó que debido a que la media de las mediciones es menor de 4.0 es innecesaria la instalación de un dispositivo de disminución de radón. Explique por qué este razonamiento es incorrecto.
    2. Debido a motivos de salud, se recomienda la disminución de radón siempre que sea factible que la concentración media de radón pueda ser de 4.0 pCi/l o mayor. Establezca las hipótesis nula y alternativa adecuadas para determinar si se requiere de un dispositivo que disminuya la concentración de radón.
    3. Probar el sistema de hipótesis del numeral anterior. ¿Usted recomendaría la instalación de dicho dispositivo utilizando un nivel de significancia del 1%?
    4. Graficar la función de potencia correspondiente.
    5. Responder la pregunta anterior nuevamente por medio de intervalos de confianza.
    6. ¿Qué es necesario suponer acerca de la población para llevar a cabo la inferencia estadística? ¿Por qué?

  • Las incineradoras pueden ser una fuente de emisiones peligrosas en la atmósfera. Se recolectaron muchas muestras de gases de una muestra de 50 incineradoras en una ciudad. De las 50, sólo 18 satisfacĆ­an una norma ambiental para la concentración de un compuesto peligroso. Usando una confiabilidad de 95%, Āæse puede concluir que menos de la mitad de las incineradoras en toda la ciudad satisfacen la norma? Responder esta pregunta por medio de pruebas de hipótesis e intervalos de confianza.

  • El National Center for Health Statistics reportó que 70% de los adultos no hacen ejercicio con regularidad. Un investigador decide realizar un estudio para ver si esto es diferente en cada uno de los Estados del paĆ­s.

    1. Establezca el sistema de hipótesis si la intención del investigador es identificar los estados que tienen un porcentaje de personas que hacen ejercicio, diferente al 70% nacional.
    2. Con un nivel de significancia de 5%, cuÔl es la conclusión en los siguientes estados: Wisconsin (252 de 350 adultos no hacen ejercicio con regularidad) y California (189 de 300 adultos no hacen ejercicio con regularidad).
    3. Graficar la función de potencia correspondiente.
    4. Responder esta pregunta nuevamente por medio de intervalos de confianza.

  • Una pieza debe fabricarse con medidas de tolerancia muy estrechas para que sea aceptada por el cliente. Las especificaciones de producción indican que la varianza mĆ”xima en la longitud de la pieza debe ser 0.0004. Suponga que en 30 piezas la varianza muestral encontrada es 0.0005. Usando \(\alpha = 0.05\) para probar si se estĆ” violando la especificación para la varianza poblacional de la longitud. ĀæEl proceso de producción estĆ” bajo control en tĆ©rminos de la variabilidad? Responder esta pregunta por medio de pruebas de hipótesis e intervalos de confianza. Graficar la función de potencia correspondiente. ĀæQuĆ© es necesario suponer acerca de la población para llevar a cabo la inferencia estadĆ­stica? ĀæPor quĆ©?

  • El artĆ­culo Modeling the Inactivation of Particle-Associated Coliform Bacteria (R. Emerick, F. Loge y cols., en Water Environment Research, 2000:432-438) presenta los recuentos de nĆŗmeros de partĆ­culas de diferentes tamaƱos en muestras de agua residual que contenĆ­an bacterias coliformes. De las 161 partĆ­culas de 75-80 mm de diĆ”metro, 19 contenĆ­an bacterias coliformes, y de las 95 partĆ­culas de 90-95 mm de diĆ”metro, 22 contenĆ­an bacterias coliformes. Con una confiabilidad del 99%, Āæpuede concluir que las partĆ­culas mĆ”s grandes tienen una probabilidad mayor de tener bacterias coliformes? Responder esta pregunta por medio de pruebas de hipótesis e intervalos de confianza. Graficar la función de potencia correspondiente.

  • Muchos autores afirman que los pacientes con depresión tienen una función cortical por debajo de lo normal debido a un riego sanguĆ­neo cerebral por debajo de lo normal. A dos muestras de individuos, unos con depresión y otros normales, se les midió un Ć­ndice que indica el flujo sanguĆ­neo en la materia gris (dado en mg/(100g/min)), obteniĆ©ndose que:
    Depresivos: \(n_1 =19\), \(\bar{x}_1=47\), \(s_1 = 7.8\).
    Normales: \(n_2=22\), \(\bar{x}_2=53.1\), \(s_2 = 6.1\).

    ¿Hay evidencia significativa a favor de la afirmación de los autores? Responder esta pregunta por medio de pruebas de hipótesis e intervalos de confianza. Graficar la función de potencia correspondiente. ¿Qué es necesario suponer acerca de la población para llevar a cabo la inferencia estadística? ¿Por qué?


  • La National Sleep Foundation realiza encuestas para determinar si las horas de sueƱo por noche son independientes de la edad (Newsweek, 19 de enero de 2004). Las siguientes son las horas de sueƱo entre semana en una muestra de personas de 49 aƱos o menos y en otra muestra de personas de 50 aƱos o mĆ”s.
Edad Menos de 6h 6h a 6.9h 7h a 7.9h 8h o mƔs
49 aƱos o menos 38 60 77 65
50 aƱos o mƔs 36 57 75 92

Referencias