La inferencia es la rama de la estadística que permite sacar conclusiones de una población a través de los resultados obtenidos con una muestra. Es decir, el objetivo de la inferencia es estimar o probar hipótesis sobre parámetros poblacionales, teniendo en cuenta la distribución o modelo de probabilidad de la población, a partir de los valores observados de la muestra.
En particular, en la estimación puntual, se busca encontrar estimadores, con ciertas características de calidad deseables .
Comprender los criterios para evaluar estimadores puntuales
Comprender el proceso de estimación máximo verosímil
En esta sección el estudiante comprenderá:
Para planear la demanda de los servicios de salud de la ciudad, el secretario de salud de Bogotá necesita concocer la prevalencia de VPH cervico-uterino en las mujeres mayores de 25 años que viven en la ciudad, pero le es imposible hacer la prueba de ADN-VPH a todas ellas, por lo tanto, necesita una estimación de dicha prevalencia.
Pregunta de investigación ¿Cuál es la prevalencia de VPH en las mujeres mayores de 25 años en Bogotá?
https://sclerodermainfo.org/prevalence-and-incidence-of-systemic-scleroderma-in-the-us/
Población: Conjunto de individuos o elementos que son diferentes entre si, pero que tienen ciertas características en común, que los hace ser de interés para el investigador.
Unidades estadísticas:Son aquellas que conforman la población.
Parámetro (\(\theta\)): Son valores poblacionales, que en general son desconocidos, tales como el valor esperado, la varianza poblacional o alguna función de ellos.Ej: En una población \(X\sim N(\mu, \sigma^2)\), donde \(\mu\) y \(\sigma\) son desconocidas, \(\theta=(\mu, \sigma^2)\). Si \(X\sim N(\mu, \sigma^2)\) y \(\sigma\) es conocida, \(\theta=\mu\).
Muestra: Subconjunto de la población sobre el cual se hace la medición de interés.
Muestra aleatoria: Es una sucesión finita de v.a.s., \(X_1,...,X_n\) independientes e idénticamente distribuidas (\(X_i\sim f_X(x,\theta)\))
Estadística: Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), sea \(t\) una función tal que \(t(X_1,...,X_n)\) no depende de \(\theta\) ni de constantes desconocidas, \(t(X_1,...,X_n)\) es una estadística.
Estimador: Es una estadística con igual dimensión al vector de parámetros (\(\theta\)), cuyas realizaciones son usadas para estimar a \(\theta\).
Distribución muestral: Es el modelo probabilístico que rige el comportamiento de una estadística o de un estimador.
Dada \(X_1,...,X_n\) una muestra aleatoria con f.d.p. \(f_X(x,\theta)\), se definen:
Estimador: Es una estadística, \(t(X_1,...,X_n)\) con igual dimensión al vector de parámetros (\(\theta\)), cuyas realizaciones son usadas para estimar a \(\theta\).
Estimación: Es el valor es observado y calculado del estimador en la muestra seleccionada (\(x_1,...,x_n\)), es decir, \(t(x_1,...,x_n)\).
\(X_1,...,X_n\) donde: \[X_i=\begin{cases} 1\text{ si la mujer } i \text{ tiene VPH}\\ 0\text{ si la mujer } i \text{ no tiene VPH} \end{cases}\]
Luego, \(X_i\sim Ber(\theta), i=1,...,n\).
Dada una muestra aleatoria \(X_1,...,X_n\) de una población con f.d.p \(f_X(x,\theta)\), \(T_n^{1}=t_1(X_1,...,X_n)\) y \(T_n^{2}=t_2(X_1,...,X_n)\) dos estimadores para \(r(\theta)\). \(T_n^{1}\) es más concentrado que \(T_n^{2}\) sii: \[P_\theta[r(\theta)-\lambda<T_n^{1}<r(\theta)+\lambda]\geq P_\theta[r(\theta)-\lambda<T_n^{2}<r(\theta)+\lambda]\]
\(X_1,...,X_n\) una muestra aleatoria de una población \(N(0,1)\), se quiere estimar el valor esperado a partir de: \(T_n^{(1)}=\frac{1}{n}\sum_{i=1}^{n}X_i\) y \(T_n^{(2)}=X_1\)
set.seed(123)
vars10<-NULL
vars100<-NULL
vars500<-NULL
simula<-rnorm(1000,0,1)
n<-100
for(i in 1:1000){
muestra<-sample(simula,n)
vars100<-c(vars100,muestra[1])
vars500<-c(vars500,mean(muestra))
}
test<-rbind(cbind("X1",vars100),
cbind("Media",vars500))
a<-data.frame(test)
# install.packages("sm")
library(sm)
## Warning in fun(libname, pkgname): couldn't connect to display ":0"
## Package 'sm', version 2.2-5.6: type help(sm) for summary information
## Package 'sm', version 2.2-5.6: type help(sm) for summary information
a$vars10<-as.numeric(as.character(a$vars10))
sm.density.compare(a$vars10, a$V1, xlab="")
legend("topright", levels(a$V1), fill=2+(0:nlevels(a$V1)))
Dada una muestra aleatoria \(X_1,...,X_n\) de una población con f.d.p \(f_X(x,\theta)\), \(T_n=t(X_1,...,X_n)\) es un estimador insesgado para \(r(\theta)\) sii:
\[E_\theta(T_n)=r(\theta)\]
Se define el sesgo de \(T_n\) para \(r(\theta)\): \[B_\theta(T_n)=E_\theta(T_n)-r(\theta)\]
\(\Rightarrow\) si \(T_n\) es insesgado, \(B_\theta(T_n)=0\).
\(X_1,...,X_n\) una muestra aleatoria de una población \(N(0,1)\), se quiere estimar la varianza a partir de:
\(T_n^{(1)}=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X}_n)^2\) y \(T_n^{(2)}=P_{75}-P_{25}\)
set.seed(123)
vars10<-NULL
vars100<-NULL
vars500<-NULL
simula<-rnorm(1000,0,1)
for(i in 1:1000){
muestra<-sample(simula,100)
vars100<-c(vars100,var(muestra))
vars500<-c(vars500,quantile(muestra,probs = 0.75)-quantile(muestra,probs = 0.25))
}
test<-rbind(cbind("Varianza",vars100),
cbind("Rango intercuartílico",vars500))
a<-data.frame(test)
# install.packages("sm")
library(sm)
## Package 'sm', version 2.2-5.6: type help(sm) for summary information
a$vars10<-as.numeric(as.character(a$vars10))
sm.density.compare(a$vars10, a$V1, xlab="t_n")
legend("topright", levels(a$V1), fill=2+(0:nlevels(a$V1)))
\(X_1,...,X_n\) m.a. de una población \(X\sim Ber(\theta)\).
\[E\left( \frac{1}{n}\sum_{i=1}^{n}X_i\right)=\theta\]
\(\Rightarrow\bar{X_n}=\frac{1}{n}\sum_{i=1}^{n}X_i\) es insesgado para \(\theta\)
La consistencia es un criterio relacionado con el comportamiento del estimador cuando el tamaño muestral es grande. Hay diferentes tipos de consistencia dependiendo del tipo de convergencia que tenga el estimador, por ejemplo, \(T_n\) se denomina un estimador CAN (Consistent Asymptotically Normal) si para todo \(\theta\in\Theta\):
\[\sqrt n(T_n-r(\theta))\rightarrow^d N(0, \sigma^2(\theta))\]
Definido por Fisher, 1922. Retención de información (Mayorga, 2004). Una estadística suficiente:
Dada una muestra aleatoria \(X_1,...,X_n\) de una población con f.d.p \(f_X(x,\theta)\), \(T_n=t(X_1,...,X_n)\) es una estadística suficiente para \(\theta\) si \[f_{X_1,...,X_n|T_n}(x_1,...,x_n|tn)\] no depende de \(\theta\)
Sea \(X_1,...,X_n\) una m.a. de una población con f.d.p. \(f_X(x,\theta)\), la estadística \(T_n=t(X_1,...,X_n)\) es suficiente para \(\theta\) sii:
\[L(\theta)=g(t(x_1,...x_n);\theta)h(x_1,...,x_n)\]
con \(g\) y \(h\) funciones no negativas.
Definición: Una f.d.p \(f_X(x,\theta)\), \(\theta\in\Theta\subseteq\Re\) pertenece a la familia exponencial unidimensional de densidades si: \[f_X(x,\theta)=a(\theta)b(x)\exp\left( c(\theta)d(x)\right)\]
\(\Rightarrow\) Dada \(X_1,...,X_n\) m.a. de una población \(X\sim Ber(\theta)\) perteneciente a la familia exponencial de densidades:
\[L(\theta)=g\left( \sum_{i=1}^{n}d(x_i), \theta\right) h(x_1,...,x_n)\]
con \(g\left( \sum_{i=1}^{n}d(x_i)\right) =a^n(\theta)\exp\left\lbrace c(\theta)\sum_{i=1}^{n}d(x_i)\right\rbrace\) \(\Rightarrow T_n=\sum_{i=1}^{n}d(X_i)\) es una estadística suficiente para \(\theta\).
La distribución Bernoulli pertenece a la familia exponencial de densidades:
\[f_X(x,\theta)=\theta^x(1-\theta)^{1-x}I_{\left\lbrace 0,1\right\rbrace}(x)\] \[f_X(x,\theta)=a(\theta)b(x)\exp(c(\theta)d(x))\] Con \(a(\theta)=(1-\theta)\), \(b(x)=I_{\left\lbrace 0,1\right\rbrace}(x)\), \(c(\theta)=\ln\left(\frac{\theta}{1-\theta} \right)\) y \(d(x)=x\).
\(\Rightarrow T_n=\sum_{i=1}^{n}X_i\) es una estadística suficiente para \(\theta\).
La distribución Poisson pertenece a la familia exponencial de densidades:
\[f_X(x,\theta)=\frac{\theta^xe^{-\theta}}{x!}I_{\left\lbrace 0,1,2,...\right\rbrace}(x)\] \[f_X(x,\theta)=a(\theta)b(x)\exp(c(\theta)b(x))\]
Con \(a(\theta)=e^{-\theta}\), \(b(x)=I_{\left\lbrace 0,1,2,...\right\rbrace}(x)\), \(c(\theta)=\theta\) y \(d(x)=x\). \(\Rightarrow T_n=\sum_{i=1}^{n}X_i\) es una estadística suficiente para \(\theta\).
Una de las formas de evaluar la precisión de un estimador es a partir de su varianza, de tal forma que entre más pequeña sea ésta, más preciso es el estimador.
Un estimador \(T_n=t(X_1,...,X_n)\) es UMVUE para \(r(\theta)\) si y solamente si, es aquel que tiene la menor varianza entre los estimadores insesgados, es decir que sería el estimador más preciso entre todos los estimadores insesgados.
La completez es una característica de la familia de densidades del estimador, y a la vez, menos intuitiva, sin embargo, el hecho de que una estadística sea completa, permite encontrar más fácilmente UMVUEs. Más formalmente:
Una estadística \(T_n=t(X_1,...,X_n)\) es una estadística completa para \(\theta\) si su función de densidad \(f_{T_n}(t)\) pertenece a una familia de densidades completa.
Dada una m.a. X_1,…,X_n de una población con f.d.p \(f_X(x,\theta)\) que pertence a la familia exponencial de densidades, la estadística \(\sum_{i=1}^{n}d(X_i)\) es una estadística completa para \(\theta\).
En ejemplos anteriores habíamos visto que la distribución Bernoulli pertenece a la familia exponencial de densidades con:
\(a(\theta)=(1-\theta)\), \(b(x)=I_{\left\lbrace 0,1\right\rbrace}(x)\), \(c(\theta)=\ln\left(\frac{\theta}{1-\theta} \right)\) y \(d(x)=x\).
\(\Rightarrow T_n=\sum_{i=1}^{n}X_i\) es una estadística completa para \(\theta\).
Dada una m.a. X_1,…,X_n de una población con f.d.p \(f_X(x,\theta)\), \(T_n=t(X_1,X_2,...,X_n)\) una estadística suficiente y completa y \(T_n^*=t^*(T_n)\) un estimador insesgado para \(r(\theta)\), entonces \(T_n^*\) es un UMVUE para \(r(\theta)\).
Habíamos visto que \(\Rightarrow T_n=\sum_{i=1}^{n}X_i\) es una estadística suficiente y completa para \(\theta\), además vimos que \(\bar{X_n}=\frac{1}{n}\sum_{i=1}^{n}X_i\) es insesgado para \(\theta\), dado que \(\bar{X_n}\) es función de \(T_n\) y es insesgado, es UMVUE para \(\theta\) que en este caso es la prevalencia de VPH en mujeres mayores de 25 años en Bogotá.
Un estimador \(T_n=t(X_1,...,X_n)\) es un estimador robusto si no se altera ante disconformiades con el modelo original.
Existen diferentes métodos para encontrar estimadores para un parámetro determinado, entre ellos se encuentran el método por analogía, el de los momentos, el método de máxima verosimilitud, entre otros. Haremos una revisión rápida de los métodos más sencillos y una un poco más detallada del método de máxima verosimiliud, pues éste es de los más usados dado que los estimadores resultantes tienen propiedades deseables.
Es el método más sencillo, éste consiste en asignar como estimador la estadística que cumpla la misma función que el parámetro poblacional, por ejemplo, si mi interés es estimar \(\mu\), un estimador por analogía sería \(\bar{X}\).
Ejercicio: ¿Cuál podría ser un estimador por analogía para la prevalencia de VPH?.
Dada \(X_1,...X_n\) una m.a. de una población con f.d.p \(f_X(x,\theta)\), la función de verosimilitud está dada por:
\[L(\theta)=\prod_{i=1}^{n}f_X(x_i,\theta)\]
A este punto es importante pensar entonces en ¿cuál es la diferencia entre la función de verosimilitud y la función de probabilidad o densidad conjunta?, pues bien, la función de probabilidad es una función de los valores de la muestra y los parámetros son conocidos, mientras que en la función de verosimilitud los valores de la muestra ya están observados, son fijos, mientras que los valores de \(\theta\) son desconocidos.
El estimador máximo verosímil es aquella estadística \(T=t(X_1,...,X_n)\), tal que el valor más alto de \(L(\theta)\) se consigue cuando \(\theta=t(x_1,...,x_n)\), es decir que el valor más alto de la función de verosimilitud estaría dado por \(L(t(x_1,...,x_n))\). A \(t(x_1,...,x_n)\) se le llama estimación máximo verosímil. En palabras más sencillas, el estimador máximo verosimil es aquel que logra “maximizar” la función de verosimilitud.
Resultado Si \(T=t(X_1,...,X_n)\) maximiza a \(\ln L(\theta)\), también maximiza a \(L(\theta)\).
\(X_i\sim Ber(\theta), i=1,...,n\):
\[f_X(x,\theta)=\theta^x(1-\theta)^{1-x}I_{\left\lbrace 0,1\right\rbrace }(x)\]
entonces la función de verosimilitud está dada por: \[L(\theta)=\prod_{i=1}^{n}\left\lbrace \theta^{x_i}(1-\theta)^{1-x_i}I_{\left\lbrace 0,1\right\rbrace }(x_i) \right\rbrace \]
Haciendo el proceso de maximización de \(\ln L(\theta)\), se llega a que el estimador máximo verosímil de \(\theta\) es \(\bar{X}\), el cual en este caso corresponde a la proporción muestral de mujeres con VPH, adicionalmente, habíamos visto que este estimador es UMVUE.
Invarianza: Si \(T_n\) es el MLE de \(\theta\), entonces \(g(T_n)\) es el MLE de \(g(\theta)\)
Consistencia: Bajo ciertas condiciones de regularidad, se cumple que la distribución del MLE estandarizado converge a una normal estándar
Bajo ciertas condiciones de regularidad, en caso de existir un estimador insesgado con varianza mínima (cota de Cramer-Rao), ese estimador es el MLE
Asintóticamente insesgado: Si el MLE es sesgado, el sesgo tiende a cero en la medida que el tamaño de muestra aumenta.