AL finalizar la sesión, el estudiante deberá comprender el proceso de estimación por intervalo, al igual que aplicar el método de la variable aleatoria pivote para determinar los límites de un intervalo de confianza.
Dada una muestra aleatoria \(X_1,X_2,\ldots,X_n\) tal que \(X_i \stackrel{\text{IID}}{\sim} F(\theta)\), para \(i=1,\ldots,n\), la estimación por intervalo consiste en encontrar un intervalo aleatorio (es decir un cuyos límites son variables aleatorias) tal que: \[ \textsf{Pr}(L_I\leq\theta\leq L_S)=1-\alpha \] \(100(1-\alpha)\%\) se denomina nivel de confianza (confiabilidad), la cual se interpreta (desde el punto de vista frecuentista) como la proporción de intervalos calculados a partir de muestras hipotéticas (información contrafactual) que contienen a \(\theta\).
Por ejemplo, Un intervalo de confianza del 95%, indica que el 95% de los intervalos de confianza de un gran número de muestras aleatorias independientes, incluiría el verdadero valor del parámetro.
Antes de observar los datos, los límites del intervalo son aleatorios. Una vez se tiene una realización de la muestra, los límites del intervalo pierden su calidad aleatoria y se convierten en valores observados, y por lo tanto la probabilidad (frecuentista) de que el intervalo calculado contenga \(\theta\) es \(1\) o \(0\).
La confianza se encuentra en el proceso de la construcción de intervalos de confianza, no en los resultados obtenidos al hacerlo en un caso particular.
Dada una muestra aleatoria \(X_1,X_2,\ldots,X_n\), tal que \(X_i \stackrel{\text{IID}}{\sim} F(\theta)\), para \(i=1,\ldots,n\), una función \(Q\) de \(X_1,X_2,\ldots,X_n\) es una variable aleatoria pivote para \(\theta\) si la distribución de \(Q\) no depende de \(\theta\).
El procedimiento para encontrar los limites del intervalo es:
Asumiremos que \(X_1,X_2,\ldots,X_n\) es una muestra aleatoria tal que \(X_i\stackrel{\text{IID}}{\sim} \textsf{N}(\mu, \sigma^2)\); es decir que antes de utilizar los intervalos propuestos en esta sección, es indispensable verificar que la distribución de la variable aleatoria objeto de estudio tenga distribución (aproximadamente) normal, de lo contrario, se deberán buscar otras variables aleatorias pivote o utilizar otras ténicas de inferencia (e.g., Bootstrap).
La variable aleatoria pivote está dada por: \[Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim \textsf{N}(0,1)\]
Luego: \[P\left(a\leq\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\leq b \right) =1-\alpha\] entonces, \(a=z_{\alpha/2}=-z_{1-\alpha/2}\) y \(b=z_{1-\alpha/2}\): \[ \textsf{Pr}\left(\bar{X}-z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\leq\mu\leq \bar{X}+z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\right)=1-\alpha \]
Así, \(L_I=\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\) y \(L_S=\bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\), donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.
En virtud del Torema del Límite Central, este intervalo de confianza aplica incluso si la población no tiene distribución normal, siempre que el tamaño de la muestra \(n\) sea grande.
La cantidad \(\textsf{ME} = z_{1-\alpha/2}\sigma/\sqrt{n}\) se denomina margen de error.
¿Que implicaciones tiene el aumento del tamaño de la muestra cuando \(n\) crece?
¿Cómo se puede utilizar el margen de error para derivar una fórmula que permita determinar el tamaño de la muestra para un margen de error dado?
La variable aleatoria pivote está dada por:
\[T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim \textsf{t}_{n-1}\] donde \[S=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}\] denota la desviación estándar muestral.
Así, \(L_I=\bar{X}-t_{n-1,1-\alpha/2}S/\sqrt{n}\) y \(L_S=\bar{X}+t_{n-1,1-\alpha/2}S/\sqrt{n}\), donde \(t_{n-1,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n-1\) grados de libertad.
En virtud del Torema del Límite Central (y otro teorema de similar importancia), este intervalo de confianza aplica incluso si la población no tiene distribución normal, siempre que el tamaño de la muestra \(n\) sea grande.
Trabajando con muestras pequeñas, la distribución de la población tiene que ser Normal.
La cantidad \(\textsf{ME} = t_{n-1,1-\alpha/2}S/\sqrt{n}\) se denomina margen de error.
La distribución \(\textsf{t}\) tiene colas más “pesadas” que la distribución \(Z\). ¿Qué implicaciones tiene este hecho en el margen de error, particularmente cuando \(n\) es pequeño?
\(\textsf{t}_{n-1}\approx Z\), cuando n es grande.
En el archivo geriatra.txt
se presentan los datos de un estudio prospectivo con 100 individuos de por lo menos 65 años de edad en buenas condiciones físicas. Los datos se muestran en el siguiente orden:
Para las variables balance y fuerza cuanto mayor es el valor mayor el balance y la fuerza del individuo mayor es el puntaje, respectivamente.
Construir un intervalo deconfianza al 90% de confianza para el promedio poblacional de la puntuación del balance.
# Lectura de los datos
datos <- read.table("geriatra.txt")
names(datos) <- c("caidas", "intervencion", "sexo", "balance", "fuerza")
# promedio muestral
xb <- mean(datos$balance)
# desviacion estandar
s <- sd(datos$balance)
# ¿La variable de estudio (balance) sigue una distribución normal?
par(mfrow=c(1,2))
# qqplot
qqnorm(datos$balance, main = "")
qqline(datos$balance, col = 2)
# histograma
hist(datos$balance, freq = F, col = "gray95", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, 0.02), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
# Formalmente (prueba de hipotesis)
shapiro.test(datos$balance)
##
## Shapiro-Wilk normality test
##
## data: datos$balance
## W = 0.98634, p-value = 0.3947
# Función para calcular un intervalo de confianza para la media, bajo normalidad
ICmu <- function(data, alpha) {
xb <- mean(data)
s <- sd(data)
tp <- qt(1-alpha/2,length(data)-1)
li <- xb-tp*s/sqrt(length(data))
ls <- xb+tp*s/sqrt(length(data))
int<-c(li,ls)
names(int)<-c("L. Inferior","L. Superior")
return(int)
}
ICmu(datos$balance,0.1)
## L. Inferior L. Superior
## 49.63277 56.02723
De acuerdo con la Escala de Berg, un puntaje menor a 46 puntos indica la aparición de caídas múltiples con frecuencia. ¿El intervalo de confianza indica que el promedio de la población presenta diferencias significativas con este puntaje? ¿La diferencia entre el 46 puntos y el promedio de la población presenta diferencias prácticas?
Diferencia práctica: diferencia entre dos cantidades lo suficientemente grande para que sea declarada como relevante en la aplicación de interés.
Diferencia significativa: diferencia lo suficientemente grande observada en los estadísticos para que sea declarada como relevante para los parámetros y no sea consecuencia del error de muestreo.
La variable aleatoria pivote está dada por:
\[\chi^2=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\] Así, \(L_I=\frac{(n-1)S^2}{\chi^2_{n-1,1-\alpha/2}}\) y \(L_I=\frac{(n-1)S^2}{\chi^2_{n-1,\alpha/2}}\), donde \(\chi^2_{n-1,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(\chi^2\) con \(n-1\) grados de libertad.
La distribución de la población tiene que ser Normal.
Con los datos del ejemplo anterior, calcular un intervalo de confianza para la varianza del puntaje en el balance.
En este caso tenemos una muestra aleatoria \(X_1,X_2,\ldots,X_n\), con \(X_i \stackrel{\text{IID}}{\sim} \textsf{Ber}(\pi)\), para \(i=1,\ldots,n\). La variable aleatoria pivote para estimar una proporción (\(\pi\)), se construye a partir del Teorema del Límite Central (y otro teorema de similar importancia) cuando el tamaño de la muestra es grande:
\[\frac{P-\pi}{\sqrt{\frac{P(1-P)}{n}}}\sim N(0,1)\] donde \(P=\frac{1}{n}\sum_{i=1}^n X_i\) es la proporción muestral. De tal forma que, los límites del intervalo están dados por \(L_I=P-z_{1-\alpha/2}\sqrt{\frac{P(1-P)}{n}}\) y \(L_s=P+z_{1-\alpha/2}\sqrt{\frac{P(1-P)}{n}}\)
Considere el conjunto de datos birthwt
de la libreria MASS
de R
. Este conjunto de datos incluye el peso al nacer (en gramos) de 189 recién nacidos junto con algunas características (p. Ej., Edad, tabaquismo) de sus madres. Los datos se recopilaron en Baystate Medical Center, Springfield, MA, durante 1986.
Encontrar el intervalo de confianza al 95% para la proporción poblacional de madres que fuman durante su embarazo (birthwt$smoke
) en el año 1986.