En la estimación puntual la probabilidad de que la estimación coincida con el parámetro es \(0\) o \(1\), mientras que en la estimación puntual es posible asignar un nivel de confianza, asociado a una probabilidad, de que el intervalo contenga el verdadero valor del parámetro.
AL finalizar la sesión, el estudiante deberá comprender el proceso de estimación por intervalo, al igual que aplicar el método de la variable aleatoria pivote para determinar los límites de un intervalo confidencial.
Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), la estimación por intervalo consiste en encontrar un intervalo aleatorio, es decir un cuyos límites son variables aleatorias, tal que: \[P(L_I\leq\theta\leq L_S)=1-\alpha\] Donde \(1-\alpha\) es nivel de confianza o confiabilidad, el cuál debe interpretarse como la proporción de muestras que contienen al verdadero valor del parámetro a estimar (\(\theta\)).
## sample size 100
Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), una función \(Q_X\) de \(X_1,....,X_n,\theta\), es una variable aleatoria pivote para \(\theta\) si su distribución no depende de \(\theta\).
El procedimiento para encontrar los limites del intervalo es:
Encontrar los valores \(a\) y \(b\) tales que:
\[P(a\leq Q_x\leq b)=1-\alpha\]
Lo cuál implica determinar la distribución muestral de \(Q_x\).Despejar \(\theta\) en el intervalo anterior, de tal forma que se llega a: \[P(L_I\leq \theta\leq L_s)=1-\alpha\] Así, \(L_I\) es el límite inferior y \(L_s\) es el límite superior.
Asumiremos que \(X_1,....,X_n\) es una muestra aleatoria tal que \(X_i\sim N(\mu, \sigma)\), es decir que antes de utilizar los intervalos propuestos en esta sección, es indispensable verificar que la distribución de la variable aleatoria con la que se está trabajando es normal, de lo contrario, se deberán buscar otras variables aleatorias pivote.
La variable aleatoria pivote está dada por: \[Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\]
Luego: \[P\left(a\leq\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\leq b \right) =1-\alpha\]
entonces, \(a=z_{\alpha/2}=-z_{1-\alpha/2}\) y \(b=z_{1-\alpha/2}\): \[\begin{align*} P\left(-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\bar{X}-\mu\leq z_{1-\alpha/2}\sigma/\sqrt{n} \right)&=1-\alpha\\ P\left(\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\mu\leq \bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\right)&=1-\alpha \end{align*}\]
Así, \(L_I=\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\) y \(L_S=\bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\), donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.
La variable aleatoria pivote está dada por:
\[T=\frac{\bar{X}-\mu}{S_n/\sqrt{n}}\sim t_{(n-1)}\] Donde \(S_n^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\). Así, \(L_I=\bar{X}-t_{(n-1)1-\alpha/2}S_n/\sqrt{n}\) y \(L_S=\bar{X}+t_{(n-1)1-\alpha/2}S_n/\sqrt{n}\), donde \(t_{(n-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n-1\) grados de libertad.
En el archivo geriatra.txt se describen los datos de un estudio prospectivo con 100 individuos de por lo menos 65 años de edad en buenas condiciones físicas. Los datos se describen en el siguiente orden: - caídas (número de caídas en el período)
intervención (= 0 educación solamente, = 1 educación y ejercicios físicos)
sexo (= 0femenino, = 1 masculino)
balance (puntuación)
fuerza (puntuación)
Para las variables balance y fuerza cuanto mayor es el valor mayor el balance y la fuerza del individuo mayor es el puntaje, respectivamente.
Construya un intervalo del 90% de confianza para el promedio de la puntuación del balance.
#Lectura de los datos
datos<-read.table("geriatra.txt")
names(datos)<-c("caidas","int","sexo","balance","fuerza")
#Veamos si es razonable utilizar un intervalo con el supuesto de que los datos tienen distribución normal
par(mfrow=c(1,2))
qqnorm(datos$balance)
qqline(datos$balance)
hist(datos$balance, freq=F)
curve(dnorm(x,mean=mean(datos$balance),sd=sd(datos$balance)), col = 2, lty = 2, lwd = 2, add = TRUE)
##
## Shapiro-Wilk normality test
##
## data: datos$balance
## W = 0.98634, p-value = 0.3947
#Función para calcular un intervalo de confianza para la media, bajo normalidad
ICmu<-function(data, alpha){
mu<-mean(data)
sd<-sd(data)
t<-qt(1-alpha/2,length(data)-1)
li<-mu-t*sd/sqrt(length(data))
ls<-mu+t*sd/sqrt(length(data))
int<-c(li,ls)
names(int)<-c("L inf","L sup")
int
}
ICmu(datos$balance,0.1)
## L inf L sup
## 49.63277 56.02723
La variable aleatoria pivote está dada por:
\[\chi^2=\frac{(n-1)S^2_n}{\sigma^2}\sim\chi^2_{(n-1)}\] Así, \(L_I=\frac{(n-1)S^2_n}{\chi^2_{(n-1)1-\alpha/2}}\) y \(L_I=\frac{(n-1)S^2_n}{\chi^2_{\alpha/2}}\),donde \(\chi^2_{(n-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(\chi^2\) con \(n-1\) grados de libertad.
En este caso tenemos una muestra aleatoria \(X_1,....,X_n\), con \(X_i\sim Ber(\pi)\). La variable aleatoria pivote para estimar una proporción (\(\pi\)), se construye a partir del teorema del límite central (\(n>30\)):
\[\frac{P_n-\pi}{\sqrt{\frac{P_n(1-P_n)}{n}}}\rightarrow N(0,1)\] donde \(P_n=\frac{1}{n}\sum_{i=1}^n X_i\) es la proporción muestral. De tal forma que, los límites del intervalo están dados por:\(L_I=P_n-z_{1-\alpha/2}\sqrt{\frac{P_n(1-P_n)}{n}}\) y \(L_s=P_n+z_{1-\alpha/2}\sqrt{\frac{P_n(1-P_n)}{n}}\)
Ahora asumiremos que dentro de la población hay un partición que consta de dos subpoblaciones, \(X\sim N(\mu_x,\sigma_x^2)\) la variable aleatoria de la primera subpoblación y \(Y\sim N(\mu_y,\sigma_y^2)\) la variable aleatoria de la primera subpoblación, de tal manera que se tienen respectivamente las muestras aleatorias \(X_1,....,X_{n_1}\) y \(Y_1,....,Y_{n_2}\). Asumiremos además, que dichas muestras son independientes. Y el objetivo principal será la comparación de los parámetros de las dos poblaciones.
Para esta estimación hay tres casos, dependiendo del comportamiento o conocimiento de las varianzas poblacionales. En este caso, lo importante es analizar los signos obtenidos en los límites del intervalo, si los dos son positivos, entonces con confiabilidad \(1-\alpha\), \(\mu_x>\mu_y\) y si los dos son negativos, \(\mu_x<\mu_y\).
La variable aleatoria pivote está dada por:
\[Z=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}}\sim N(0,1)\]
Así, \(L_I=\bar{X}-\bar{Y}-z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}\) y \(L_S=\bar{X}-\bar{Y}+z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}\), donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.
La variable aleatoria pivote está dada por:
\[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p}\sim t_{(n_1+n_2-2)}\]
Donde \(S_p^2=\frac{(n_1-1)S^2_{n_1}+(n_2-1)S^2_{n_2}}{n_1+n_2-2}\) , \(S^2_{n_1}=\frac{1}{n_1-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\) \ y \(S^2_{n_21}=\frac{1}{n_2-1}\sum_{i=1}^{n}(Y_i-\bar{Y})^2\).
Así, \(L_I=\bar{X}-\bar{Y}-t_{(n_1+n_2-2)1-\alpha/2}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p\) y \(L_S=\bar{X}-\bar{Y}+t_{(n_1+n_2-2)1-\alpha/2}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p\), donde \(t_{(n_1+n_2-2)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n_1+n_2-2\) grados de libertad.
La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}}\sim t_{(f-1)}\]
Donde: \[f=\frac{\left(\frac{s^2_{n_1}}{n_1}+\frac{s^2_{n_2}}{n_2} \right)^2 }{\frac{\left( \frac{s^2_{n_1}}{n_1}\right)^2 }{n_1-1}+\frac{\left( \frac{s^2_{n_2}}{n_2}\right)^2 }{n_2-1}}\].
Así, \(L_I=\bar{X}-\bar{Y}-t_{(f-1)1-\alpha/2}\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}\) y \(L_S=\bar{X}-\bar{Y}+t_{(f-1)1-\alpha/2}\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}\), donde \(t_{(f-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(f-1\) grados de libertad.
De igual forma que en el caso anterior, se deben analizar los límites del intervalo, pero comparándolos con 1, si los dos mayores a 1, entonces con confiabilidad \(1-\alpha\), \(\sigma^2_y>\sigma^2_x\) y si los dos son menores que 1, \(\sigma^2_y<\sigma^2_x\). La variable aleatoria pivote está dada por:
\[F=\frac{\frac{S^2_{n_1}}{\sigma_x^2}}{\frac{S^2_{n_2}}{\sigma_y^2}}\sim F_{(n_1-1,n_2-1)}\]
Así, \(L_I=\frac{S^2_{n_2}}{S^2_{n_1}}f_{(n_1-1,n_2-1)\alpha/2}\) y \(L_S=\frac{S^2_{n_2}}{S^2_{n_1}}f_{(n_1-1,n_2-1)1-\alpha/2}\), donde \(f_{(n_1-1,n_2-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(f\) con \((n_1-1,n_2-1)\) grados de libertad.