En la estimación puntual la probabilidad de que la estimación coincida con el parámetro es \(0\) o \(1\), mientras que en la estimación por intervalo es posible asignar un nivel de confianza, asociado a una probabilidad, de que el intervalo contenga el verdadero valor del parámetro.
La estimación por intervalo generalmente se prefiere a la estimación puntual ya que esta última no provee información respecto al error en la estimación.
Un intervalo de confianza es un rango de valores que se determina en base a información muestral, en el cual es probable que el parámetro poblacional esté contenido.
AL finalizar la sesión, el estudiante deberá comprender el proceso de estimación por intervalo, al igual que aplicar el método de la variable aleatoria pivote para determinar los límites de un intervalo confidencial.
Un intervalo de confianza es una región de valores plausibles (con cierta probabilidad) dada una muestra, sé calcula a partir de un estadístico calculado de una muestra. La confianza hace alusión a la probabilidad que tiene el intervalo calculado a partir de ella de contener, o no, al parámetro. Una confianza del 95% implicará que se espera que de cada 100 muestras 95 contendran el verdadero valor del parámetro (La estimación punual correspondera al punto medio del intervalo.)
A continuación generaremos 100 intervalos de confianza para la distribución normal de la altura de los colombianos y es
set.seed(12)
# install.packages("TeachingDemos")
library(TeachingDemos)
POPULATION.MEAN <- 171.66
POPULATION.SD <- 5.60
## Repeat at different sample size
junk <- lapply(c(5,10,50,100), function(N){
cat(paste0(" sample size ",N))
ci.examp(mean.sim = POPULATION.MEAN,
sd = POPULATION.SD,
n = N,
reps = 100,
conf.level = 0.95,
method = "z")
})
## sample size 5
## sample size 10
## sample size 50
## sample size 100
# install.packages("mvtnorm")
# install.packages("ellipse")
# install.packages("rgl")
library(mvtnorm) # References rmvnorm()
library(ellipse) # References ellipse()
##
## Attaching package: 'ellipse'
## The following object is masked from 'package:graphics':
##
## pairs
library(MASS)
set.seed(17)
# Set the covariance matrix
sigma2 <- matrix(c(5, 2, 2, 5), ncol=2)
# sigma2 <- matrix(c(5, 0, 0, 5), ncol=2)
# Set the means
mu <- c(5,5)
# Get the correlation matrix
P <- cov2cor(sigma2)
# Generate the data
p <- rmvnorm(n=1000, mean=mu, sigma=sqrt(sigma2))
# Plot the data
plot(p)
bivn.kde <- kde2d(p[,1], p[,2], n = 50) # from MASS package
# Contour plot overlayed on heat map image of results
image(bivn.kde) # from base graphics package
contour(bivn.kde, add = TRUE)
persp(bivn.kde, phi = 45, theta = 30, shade = .1, border = NA) # from base graphics package
# RGL interactive plot
library(rgl)
col2 <- heat.colors(length(bivn.kde$z))[rank(bivn.kde$z)]
persp3d(x=bivn.kde, col = col2)
# Plot the ellipse
plot(p,main="elipsoide de confianza al 95%")
lines( ellipse( P, centre = c(5,5)) , col='red')
Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), la estimación por intervalo consiste en encontrar un intervalo aleatorio, es decir un cuyos límites son variables aleatorias, tal que: \[P(L_I\leq\theta\leq L_S)=1-\alpha\] Donde \(1-\alpha\) es nivel de confianza o confiabilidad, el cuál debe interpretarse como la proporción de muestras que contienen al verdadero valor del parámetro a estimar (\(\theta\)).
Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), una función \(Q_X\) de \(X_1,....,X_n,\theta\), es una variable aleatoria pivote para \(\theta\) si su distribución no depende de \(\theta\).\
El procedimiento para encontrar los limites del intervalo es:
Asumiremos que \(X_1,....,X_n\) es una muestra aleatoria tal que \(X_i\sim N(\mu, \sigma)\), es decir que antes de utilizar los intervalos propuestos en esta sección, es indispensable verificar que la distribución de la variable aleatoria con la que se está trabajando es normal, de lo contrario, se deberán buscar otras variables aleatorias pivote.
La variable aleatoria pivote está dada por: \[Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\]
Luego: \[P\left(a\leq\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\leq b \right) =1-\alpha\]
entonces, \(a=z_{\alpha/2}=-z_{1-\alpha/2}\) y \(b=z_{1-\alpha/2}\): \[\begin{align*} P\left(-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\bar{X}-\mu\leq z_{1-\alpha/2}\sigma/\sqrt{n} \right)&=1-\alpha\\ P\left(\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\mu\leq \bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\right)&=1-\alpha \end{align*}\]
Así, \(L_I=\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\) y \(L_S=\bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\), donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.
La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\mu}{S_n/\sqrt{n}}\sim t_{(n-1)}\] Donde \(S_n^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\).\ Así, \(L_I=\bar{X}-t_{(n-1)1-\alpha/2}S_n/\sqrt{n}\) y \(L_S=\bar{X}+t_{(n-1)1-\alpha/2}S_n/\sqrt{n}\), donde \(t_{(n-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n-1\) grados de libertad.
El intervalo de confianza para estimar una proporción p, conocida como una proporción muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% se construye a partir de la apróximación de una binomial a una normal
Variable pivote: \[\frac{\hat p-p}{\sqrt{\frac{\hat p(1-\hat p)}{n}}}\rightarrow N(0,1)\]
\[{\displaystyle P\Big(\hat p-z_{\alpha /2}{\sqrt {\frac {\hat p(1-\hat p)}{n}}}<p<\;\hat p+z_{\alpha /2}{\sqrt {\frac {\hat p(1-\hat p)}{n}}}\Big)}=1-\alpha \]
En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal (requiere probabilidades de exito no “extremas” y número de mónedas “grande” >30).
Es común encontrar como fórmula para determinar el tamaño de muestra:
\(\displaystyle n={{N\sigma ^{2}Z_{\alpha }^{2}} \over {e^{2}(N-1)+\sigma ^{2}Z_{\alpha }^{2}}}\) Donde: n = el tamaño de la muestra.
N = tamaño de la población.
$$ = Desviación estándar de la población, que generalmente cuando no se tiene su valor, suele utilizarse un valor estimado a ojo o a partir de una pequeña muestra o muestra piloto. Para ser conservador (prudente), mejor errar estimando por exceso que por defecto.
\(Z_\alpha\): Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,64 (como más usual) o en relación al 99% de confianza equivale 2,33, valor que queda a criterio del investigador.
\(e\) = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.
La fórmula anterior se obtiene de la fórmula para calcular la estimación del intervalo de confianza para la media:
\[{\displaystyle {\overline {X}}-Z_{\alpha }{\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}\leq \mu \leq {\overline {X}}+Z_{\alpha }{\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}}\]
\[{\sqrt{\frac{N-n}{N-1}}}\] llamado coeficiente de exhaustividad o Factor Corrector de Poblaciones Finitas (la estimación de la varianza se ve afectada por en muestras pequeñas sin reemplazamiento) y que da cuenta del efecto que produce la no reposición de los elementos extraídos en el muestreo. Debe emplearse si la población es finita y el tamaño de la población no es 20 veces mayor al de la muestra \(N<20n\)
De donde el error es:
\[{\displaystyle e=Z_{\alpha }{\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}} \] Elevando al cuadrado ambos miembros de la ecuación se tiene:
\[{\displaystyle e^{2}=\left(Z_{\alpha }{\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}\right)^{2}} \]
Despejando para \(n\) se obtiene:
\[{\displaystyle n={{N\sigma ^{2}Z_{\alpha }^{2}} \over {e^{2}(N-1)+\sigma ^{2}Z_{\alpha }^{2}}}} \] Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 95%
Solución: Se tiene N=500, para el 95% de confianza Zα=1.64, y como no se tienen los demás valores se usará σ=0.5, y e=0.05.
Reemplazando valores en la fórmula se obtiene:
\[{\displaystyle n={\frac {N\sigma ^{2}Z_{\alpha }^{2}}{e^{2}(N-1)+\sigma ^{2}Z_{\alpha }^{2}}}={\frac {{500}\cdot {0.5}^{2}\cdot {1.64}^{2}}{{0.05}^{2}\cdot (500-1)+{0.5}^{2}\cdot {1.64}^{2}}}={\frac {338.19}{1.9238}}=175.79}\]
Lo cual se aproxima a 176.
\[{\displaystyle n={\frac {{Z}_{\alpha }^{2}Npq}{e^{2}(N-1)+{Z}_{\alpha }^{2}pq}}}\]
prob=seq(0,1,by=0.05)
Z=1.96
N=5000
e=0.05
n=(Z^2*N*prob*(1-prob))/(e^2*(N-1)+Z^2*prob*(1-prob))
plot(cbind(prob,n), main="tamaño de la muestra para distintos prob")
La variable aleatoria pivote está dada por: \[\chi^2=\frac{(n-1)S^2_n}{\sigma^2}\sim\chi^2_{(n-1)}\] Así, \(L_I=\frac{(n-1)S^2_n}{\chi^2_{(n-1)1-\alpha/2}}\) y \(L_I=\frac{(n-1)S^2_n}{\chi^2_{\alpha/2}}\),donde \(\chi^2_{(n-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(\chi^2\) con \(n-1\) grados de libertad.\
Ahora asumiremos que dentro de la población hay un partición que consta de dos subpoblaciones, \(X\sim N(\mu_x,\sigma_x^2)\) la variable aleatoria de la primera subpoblación y \(Y\sim N(\mu_y,\sigma_y^2)\) la variable aleatoria de la primera subpoblación, de tal manera que se tienen respectivamente las muestras aleatorias \(X_1,....,X_{n_1}\) y \(Y_1,....,Y_{n_2}\) respectivamente. Asumiremos además, que dichas muestras son independientes. Y el objetivo principal será la comparación de los parámetros de las dos poblaciones.
Para esta estimación hay tres casos, dependiendo del comportamiento o conocimiento de las varianzas poblacionales. En este caso, lo importante es analizar los signos obtenidos en los límites del intervalo, si los dos son positivos, entonces con confiabilidad \(1-\alpha\), \(\mu_x>\mu_y\) y si los dos son negativos, \(\mu_x<\mu_y\).
La variable aleatoria pivote está dada por: \[Z=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}}\sim N(0,1)\]
Así, \(L_I=\bar{X}-\bar{Y}-z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}\) y \(L_S=\bar{X}-\bar{Y}+z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}\), donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.
La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p}\sim t_{(n_1+n_2-2)}\]
Donde \(S_p^2=\frac{(n_1-1)S^2_{n_1}+(n_2-1)S^2_{n_2}}{n_1+n_2-2}\) , \(S^2_{n_1}=\frac{1}{n_1-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\) \ y \(S^2_{n_21}=\frac{1}{n_2-1}\sum_{i=1}^{n}(Y_i-\bar{Y})^2\).
Así, \(L_I=\bar{X}-\bar{Y}-t_{(n_1+n_2-2)1-\alpha/2}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p\) y \(L_S=\bar{X}-\bar{Y}+t_{(n_1+n_2-2)1-\alpha/2}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p\), donde \(t_{(n_1+n_2-2)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n_1+n_2-2\) grados de libertad.
La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}}\sim t_{(f-1)}\]
Donde: \[f=\frac{\left(\frac{s^2_{n_1}}{n_1}+\frac{s^2_{n_2}}{n_2} \right)^2 }{\frac{\left( \frac{s^2_{n_1}}{n_1}\right)^2 }{n_1-1}+\frac{\left( \frac{s^2_{n_2}}{n_2}\right)^2 }{n_2-1}}\].
Así, \(L_I=\bar{X}-\bar{Y}-t_{(f-1)1-\alpha/2}\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}\) y \(L_S=\bar{X}-\bar{Y}+t_{(f-1)1-\alpha/2}\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}\), donde \(t_{(f-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(f-1\) grados de libertad.
De igual forma que en el caso anterior, se deben analizar los límites del intervalo, pero comparándolos con 1, si los dos mayores a 1, entonces con confiabilidad \(1-\alpha\), \(\sigma^2_y>\sigma^2_x\) y si los dos son menores que 1, \(\sigma^2_y<\sigma^2_x\). La variable aleatoria pivote está dada por:
\[F=\frac{\frac{S^2_{n_1}}{\sigma_x^2}}{\frac{S^2_{n_2}}{\sigma_y^2}}\sim F_{(n_1-1,n_2-1)}\]
Así, \(L_I=\frac{S^2_{n_2}}{S^2_{n_1}}f_{(n_1-1,n_2-1)\alpha/2}\) y \(L_S=\frac{S^2_{n_2}}{S^2_{n_1}}f_{(n_1-1,n_2-1)1-\alpha/2}\), donde \(f_{(n_1-1,n_2-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(f\) con \((n_1-1,n_2-1)\) grados de libertad.