Introducción

En la estimación puntual la probabilidad de que la estimación coincida con el parámetro es \(0\) o \(1\), mientras que en la estimación por intervalo es posible asignar un nivel de confianza, asociado a una probabilidad, de que el intervalo contenga el verdadero valor del parámetro.

La estimación por intervalo generalmente se prefiere a la estimación puntual ya que esta última no provee información respecto al error en la estimación.

Un intervalo de confianza es un rango de valores que se determina en base a información muestral, en el cual es probable que el parámetro poblacional esté contenido.

Objetivos

Competencias

AL finalizar la sesión, el estudiante deberá comprender el proceso de estimación por intervalo, al igual que aplicar el método de la variable aleatoria pivote para determinar los límites de un intervalo confidencial.

Ejemplo

Un intervalo de confianza es una región de valores plausibles (con cierta probabilidad) dada una muestra, sé calcula a partir de un estadístico calculado de una muestra. La confianza hace alusión a la probabilidad que tiene el intervalo calculado a partir de ella de contener, o no, al parámetro. Una confianza del 95% implicará que se espera que de cada 100 muestras 95 contendran el verdadero valor del parámetro (La estimación punual correspondera al punto medio del intervalo.)

A continuación generaremos 100 intervalos de confianza para la distribución normal de la altura de los colombianos y es

set.seed(12)
# install.packages("TeachingDemos")
library(TeachingDemos)

POPULATION.MEAN <- 171.66
POPULATION.SD <- 5.60

## Repeat at different sample size
junk <- lapply(c(5,10,50,100), function(N){
    cat(paste0(" sample size ",N))
    ci.examp(mean.sim   = POPULATION.MEAN,
             sd         = POPULATION.SD,
             n          = N,
             reps       = 100,
             conf.level = 0.95,
             method     = "z")
  
  
})
##  sample size 5

##  sample size 10

##  sample size 50

##  sample size 100

Elipsoides de confianza

# install.packages("mvtnorm")
# install.packages("ellipse")
# install.packages("rgl")

library(mvtnorm) # References rmvnorm()
library(ellipse) # References ellipse()
## 
## Attaching package: 'ellipse'
## The following object is masked from 'package:graphics':
## 
##     pairs
library(MASS)
set.seed(17)
 
# Set the covariance matrix
sigma2 <- matrix(c(5, 2, 2, 5), ncol=2)
# sigma2 <- matrix(c(5, 0, 0, 5), ncol=2)
 
# Set the means
mu <- c(5,5)
 
# Get the correlation matrix
P <- cov2cor(sigma2)
 
# Generate the data
p <- rmvnorm(n=1000, mean=mu, sigma=sqrt(sigma2))

# Plot the data
plot(p) 

bivn.kde <- kde2d(p[,1], p[,2], n = 50)   # from MASS package

# Contour plot overlayed on heat map image of results
image(bivn.kde)       # from base graphics package
contour(bivn.kde, add = TRUE)

persp(bivn.kde, phi = 45, theta = 30, shade = .1, border = NA) # from base graphics package

 # RGL interactive plot
library(rgl)
col2 <- heat.colors(length(bivn.kde$z))[rank(bivn.kde$z)]
persp3d(x=bivn.kde, col = col2)
 
# Plot the ellipse

plot(p,main="elipsoide de confianza al 95%") 
lines( ellipse( P, centre = c(5,5)) , col='red')

Conceptos preliminares

Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), la estimación por intervalo consiste en encontrar un intervalo aleatorio, es decir un cuyos límites son variables aleatorias, tal que: \[P(L_I\leq\theta\leq L_S)=1-\alpha\] Donde \(1-\alpha\) es nivel de confianza o confiabilidad, el cuál debe interpretarse como la proporción de muestras que contienen al verdadero valor del parámetro a estimar (\(\theta\)).

El método de la variable aleatoria pivote

Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), una función \(Q_X\) de \(X_1,....,X_n,\theta\), es una variable aleatoria pivote para \(\theta\) si su distribución no depende de \(\theta\).\

El procedimiento para encontrar los limites del intervalo es:

  1. Encontrar una v.a. pivote para \(\theta\) (de la cual conozco su función de distribución)
  2. Encontrar los valores \(a\) y \(b\) tales que: \[P(a\leq Q_x\leq b)=1-\alpha\] Lo cuál implica determinar la distribución muestral de \(Q_x\)
  3. Despejar \(\theta\) en el intervalo anterior, de tal forma que se llega a: \[P(L_I\leq \theta\leq L_s)=1-\alpha\] Así, \(L_I\) es el límite inferior y \(L_s\) es el límite superior.

Intervalos de confianza bajo normalidad

Asumiremos que \(X_1,....,X_n\) es una muestra aleatoria tal que \(X_i\sim N(\mu, \sigma)\), es decir que antes de utilizar los intervalos propuestos en esta sección, es indispensable verificar que la distribución de la variable aleatoria con la que se está trabajando es normal, de lo contrario, se deberán buscar otras variables aleatorias pivote.

Para la media (\(\mu\))

Con \(\sigma^2\) conocida:

La variable aleatoria pivote está dada por: \[Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\]

Luego: \[P\left(a\leq\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\leq b \right) =1-\alpha\]

entonces, \(a=z_{\alpha/2}=-z_{1-\alpha/2}\) y \(b=z_{1-\alpha/2}\): \[\begin{align*} P\left(-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\bar{X}-\mu\leq z_{1-\alpha/2}\sigma/\sqrt{n} \right)&=1-\alpha\\ P\left(\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\mu\leq \bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\right)&=1-\alpha \end{align*}\]

Así, \(L_I=\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\) y \(L_S=\bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\), donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.

Con \(\sigma^2\) desconocida:

La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\mu}{S_n/\sqrt{n}}\sim t_{(n-1)}\] Donde \(S_n^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\).\ Así, \(L_I=\bar{X}-t_{(n-1)1-\alpha/2}S_n/\sqrt{n}\) y \(L_S=\bar{X}+t_{(n-1)1-\alpha/2}S_n/\sqrt{n}\), donde \(t_{(n-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n-1\) grados de libertad.

Intervalo de confianza de una proporción

El intervalo de confianza para estimar una proporción p, conocida como una proporción muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% se construye a partir de la apróximación de una binomial a una normal

Variable pivote: \[\frac{\hat p-p}{\sqrt{\frac{\hat p(1-\hat p)}{n}}}\rightarrow N(0,1)\]

\[{\displaystyle P\Big(\hat p-z_{\alpha /2}{\sqrt {\frac {\hat p(1-\hat p)}{n}}}<p<\;\hat p+z_{\alpha /2}{\sqrt {\frac {\hat p(1-\hat p)}{n}}}\Big)}=1-\alpha \]

En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal (requiere probabilidades de exito no “extremas” y número de mónedas “grande” >30).

Tamaño de muestra a partir de la variable pivote (media y proporción)

Es común encontrar como fórmula para determinar el tamaño de muestra:

\(\displaystyle n={{N\sigma ^{2}Z_{\alpha }^{2}} \over {e^{2}(N-1)+\sigma ^{2}Z_{\alpha }^{2}}}\) Donde: n = el tamaño de la muestra.

N = tamaño de la población.

$$ = Desviación estándar de la población, que generalmente cuando no se tiene su valor, suele utilizarse un valor estimado a ojo o a partir de una pequeña muestra o muestra piloto. Para ser conservador (prudente), mejor errar estimando por exceso que por defecto.

\(Z_\alpha\): Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,64 (como más usual) o en relación al 99% de confianza equivale 2,33, valor que queda a criterio del investigador.

\(e\) = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.

La fórmula anterior se obtiene de la fórmula para calcular la estimación del intervalo de confianza para la media:

\[{\displaystyle {\overline {X}}-Z_{\alpha }{\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}\leq \mu \leq {\overline {X}}+Z_{\alpha }{\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}}\]

\[{\sqrt{\frac{N-n}{N-1}}}\] llamado coeficiente de exhaustividad o Factor Corrector de Poblaciones Finitas (la estimación de la varianza se ve afectada por en muestras pequeñas sin reemplazamiento) y que da cuenta del efecto que produce la no reposición de los elementos extraídos en el muestreo. Debe emplearse si la población es finita y el tamaño de la población no es 20 veces mayor al de la muestra \(N<20n\)

De donde el error es:

\[{\displaystyle e=Z_{\alpha }{\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}} \] Elevando al cuadrado ambos miembros de la ecuación se tiene:

\[{\displaystyle e^{2}=\left(Z_{\alpha }{\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}\right)^{2}} \]

Despejando para \(n\) se obtiene:

\[{\displaystyle n={{N\sigma ^{2}Z_{\alpha }^{2}} \over {e^{2}(N-1)+\sigma ^{2}Z_{\alpha }^{2}}}} \] Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 95%

Solución: Se tiene N=500, para el 95% de confianza Zα=1.64, y como no se tienen los demás valores se usará σ=0.5, y e=0.05.

Reemplazando valores en la fórmula se obtiene:

\[{\displaystyle n={\frac {N\sigma ^{2}Z_{\alpha }^{2}}{e^{2}(N-1)+\sigma ^{2}Z_{\alpha }^{2}}}={\frac {{500}\cdot {0.5}^{2}\cdot {1.64}^{2}}{{0.05}^{2}\cdot (500-1)+{0.5}^{2}\cdot {1.64}^{2}}}={\frac {338.19}{1.9238}}=175.79}\]

Lo cual se aproxima a 176.

Para una proporción

\[{\displaystyle n={\frac {{Z}_{\alpha }^{2}Npq}{e^{2}(N-1)+{Z}_{\alpha }^{2}pq}}}\]

prob=seq(0,1,by=0.05)
Z=1.96
N=5000
e=0.05

n=(Z^2*N*prob*(1-prob))/(e^2*(N-1)+Z^2*prob*(1-prob))
plot(cbind(prob,n), main="tamaño de la muestra para distintos prob")

Problemas:

  • El supuesto de normalidad es razonable
  • Para la apròximación a la normal las probabilidades de éxito no deben ser “extremas” y Mínimo 30 individuos en la poblacíón
  • es un suceso raro, se podría modelar con una Poisson?
  • Tasa de no respuesta
  • Existen covariables que pueden cambiar la prevalencia por lo cual se deba estratificar (Hacer para cada grupo lo que corresponde)
  • Es la estrategia más eficiente en términos de confiabilidad, precisión y costo?

Para la varianza (\(\sigma\)):

La variable aleatoria pivote está dada por: \[\chi^2=\frac{(n-1)S^2_n}{\sigma^2}\sim\chi^2_{(n-1)}\] Así, \(L_I=\frac{(n-1)S^2_n}{\chi^2_{(n-1)1-\alpha/2}}\) y \(L_I=\frac{(n-1)S^2_n}{\chi^2_{\alpha/2}}\),donde \(\chi^2_{(n-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(\chi^2\) con \(n-1\) grados de libertad.\

Ahora asumiremos que dentro de la población hay un partición que consta de dos subpoblaciones, \(X\sim N(\mu_x,\sigma_x^2)\) la variable aleatoria de la primera subpoblación y \(Y\sim N(\mu_y,\sigma_y^2)\) la variable aleatoria de la primera subpoblación, de tal manera que se tienen respectivamente las muestras aleatorias \(X_1,....,X_{n_1}\) y \(Y_1,....,Y_{n_2}\) respectivamente. Asumiremos además, que dichas muestras son independientes. Y el objetivo principal será la comparación de los parámetros de las dos poblaciones.

Para la diferencia de medias (\(\mu_x-\mu_y\)):

Para esta estimación hay tres casos, dependiendo del comportamiento o conocimiento de las varianzas poblacionales. En este caso, lo importante es analizar los signos obtenidos en los límites del intervalo, si los dos son positivos, entonces con confiabilidad \(1-\alpha\), \(\mu_x>\mu_y\) y si los dos son negativos, \(\mu_x<\mu_y\).

Con \(\sigma_x^2\) y \(\sigma_y^2\) conocidas:}

La variable aleatoria pivote está dada por: \[Z=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}}\sim N(0,1)\]

Así, \(L_I=\bar{X}-\bar{Y}-z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}\) y \(L_S=\bar{X}-\bar{Y}+z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}\), donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.

Con \(\sigma_x^2=\sigma_y^2\) desconocidas:

La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p}\sim t_{(n_1+n_2-2)}\]

Donde \(S_p^2=\frac{(n_1-1)S^2_{n_1}+(n_2-1)S^2_{n_2}}{n_1+n_2-2}\) , \(S^2_{n_1}=\frac{1}{n_1-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\) \ y \(S^2_{n_21}=\frac{1}{n_2-1}\sum_{i=1}^{n}(Y_i-\bar{Y})^2\).

Así, \(L_I=\bar{X}-\bar{Y}-t_{(n_1+n_2-2)1-\alpha/2}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p\) y \(L_S=\bar{X}-\bar{Y}+t_{(n_1+n_2-2)1-\alpha/2}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p\), donde \(t_{(n_1+n_2-2)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n_1+n_2-2\) grados de libertad.

Con \(\sigma_x^2\neq\sigma_y^2\) desconocidas:

La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}}\sim t_{(f-1)}\]

Donde: \[f=\frac{\left(\frac{s^2_{n_1}}{n_1}+\frac{s^2_{n_2}}{n_2} \right)^2 }{\frac{\left( \frac{s^2_{n_1}}{n_1}\right)^2 }{n_1-1}+\frac{\left( \frac{s^2_{n_2}}{n_2}\right)^2 }{n_2-1}}\].

Así, \(L_I=\bar{X}-\bar{Y}-t_{(f-1)1-\alpha/2}\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}\) y \(L_S=\bar{X}-\bar{Y}+t_{(f-1)1-\alpha/2}\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}\), donde \(t_{(f-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(f-1\) grados de libertad.

Para el cociente de varianzas (\(\sigma^2_y/\sigma^2_x\)):

De igual forma que en el caso anterior, se deben analizar los límites del intervalo, pero comparándolos con 1, si los dos mayores a 1, entonces con confiabilidad \(1-\alpha\), \(\sigma^2_y>\sigma^2_x\) y si los dos son menores que 1, \(\sigma^2_y<\sigma^2_x\). La variable aleatoria pivote está dada por:

\[F=\frac{\frac{S^2_{n_1}}{\sigma_x^2}}{\frac{S^2_{n_2}}{\sigma_y^2}}\sim F_{(n_1-1,n_2-1)}\]

Así, \(L_I=\frac{S^2_{n_2}}{S^2_{n_1}}f_{(n_1-1,n_2-1)\alpha/2}\) y \(L_S=\frac{S^2_{n_2}}{S^2_{n_1}}f_{(n_1-1,n_2-1)1-\alpha/2}\), donde \(f_{(n_1-1,n_2-1)1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(f\) con \((n_1-1,n_2-1)\) grados de libertad.

Bibliografía