1 Introducción

La inferencia es la rama de la estadística que permite sacar conclusiones de una población a través de los resultados obtenidos con una muestra. Es decir, el objetivo de la inferencia es estimar o probar hipótesis sobre parámetros poblacionales, teniendo en cuenta la distribución o modelo de probabilidad de la población, a partir de los valores observados de la muestra.

En particular, en la estimación puntual, se busca encontrar estimadores, con ciertas características de calidad deseables .

2 Objetivos

Comprender los criterios para evaluar estimadores puntuales

Comprender el proceso de estimación máximo verosímil

3 Competencias

En esta sección el estudiante comprenderá:

En qué consiste el proceso de estimación y en qué tipo de problemas se podrían resolver a partir de éste.
Cuáles son y en qué consisten algunos de los criterios para evaluar estimadores.

4 Problema de investigación

Para planear la demanda de los servicios de salud de la ciudad, el secretario de salud de Bogotá necesita concocer la prevalencia de VPH cervico-uterino en las mujeres mayores de 25 años que viven en la ciudad, pero le es imposible hacer la prueba de ADN-VPH a todas ellas, por lo tanto, necesita una estimación de dicha prevalencia.

Pregunta de investigación ¿Cuál es la prevalencia de VPH en las mujeres mayores de 25 años en Bogotá?

Medidas de frecuencia

https://sclerodermainfo.org/prevalence-and-incidence-of-systemic-scleroderma-in-the-us/

5 Conceptos preliminares

Población: Conjunto de individuos o elementos que son diferentes entre si, pero que tienen ciertas características en común, que los hace ser de interés para el investigador.
Unidades estadísticas:Son aquellas que conforman la población.
Parámetro (\(\theta\)): Son valores poblacionales, que en general son desconocidos, tales como el valor esperado, la varianza poblacional o alguna función de ellos.Ej: En una población \(X\sim N(\mu, \sigma^2)\), donde \(\mu\) y \(\sigma\) son desconocidas, \(\theta=(\mu, \sigma^2)\). Si \(X\sim N(\mu, \sigma^2)\) y \(\sigma\) es conocida, \(\theta=\mu\).
Muestra: Subconjunto de la población sobre el cual se hace la medición de interés.
Muestra aleatoria: Es una sucesión finita de v.a.s., \(X_1,...,X_n\) independientes e idénticamente distribuidas (\(X_i\sim f_X(x,\theta)\))
Estadística: Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), sea \(t\) una función tal que \(t(X_1,...,X_n)\) no depende de \(\theta\) ni de constantes desconocidas, \(t(X_1,...,X_n)\) es una estadística.
Estimador: Es una estadística con igual dimensión al vector de parámetros (\(\theta\)), cuyas realizaciones son usadas para estimar a \(\theta\).
Distribución muestral: Es el modelo probabilístico que rige el comportamiento de una estadística o de un estimador.

Dada \(X_1,...,X_n\) una muestra aleatoria con f.d.p. \(f_X(x,\theta)\), se definen:

Estimador: Es una estadística, \(t(X_1,...,X_n)\) con igual dimensión al vector de parámetros (\(\theta\)), cuyas realizaciones son usadas para estimar a \(\theta\).
Estimación: Es el valor es observado y calculado del estimador en la muestra seleccionada (\(x_1,...,x_n\)), es decir, \(t(x_1,...,x_n)\).

Espacio del parámetro(\(\Theta\)): Dada \(X\sim f_X(x,\theta)\), el espacio del parámetro es el conjunto de todos los posibles valores de \(\theta\).

5.1 Ejemplo: Problema de investigación

\(X_1,...,X_n\) donde: \[X_i=\begin{cases} 1\text{ si la mujer } i \text{ tiene VPH}\\ 0\text{ si la mujer } i \text{ no tiene VPH} \end{cases}\]

Luego, \(X_i\sim Ber(\theta), i=1,...,n\).

Parámetro: \(\theta=P(X_i=1)\), prevalencia de VPH.
Espacio del parámetro: \(\Theta=(0,1)\)
Estimador: Por ejemplo, \(\frac{X_{1}+X_{n}}{2}\) y \(\frac{1}{n}\sum_{i=1}^{n}X_i\)

6 Algunos criterios para evaluar estimadores

Concentración
Insesgamiento
Consistencia
Suficiencia
Completez
Mínima varianza
Robustez

6.1 Concentración

Dada una muestra aleatoria \(X_1,...,X_n\) de una población con f.d.p \(f_X(x,\theta)\), \(T_n^{1}=t_1(X_1,...,X_n)\) y \(T_n^{2}=t_2(X_1,...,X_n)\) dos estimadores para \(r(\theta)\). \(T_n^{1}\) es más concentrado que \(T_n^{2}\) sii: \[P_\theta[r(\theta)-\lambda<T_n^{1}<r(\theta)+\lambda]\geq P_\theta[r(\theta)-\lambda<T_n^{2}<r(\theta)+\lambda]\]

6.1.1 Ejemplo

\(X_1,...,X_n\) una muestra aleatoria de una población \(N(0,1)\), se quiere estimar el valor esperado a partir de: \(T_n^{(1)}=\frac{1}{n}\sum_{i=1}^{n}X_i\) y \(T_n^{(2)}=X_1\)

set.seed(123)
vars10<-NULL
vars100<-NULL
vars500<-NULL
simula<-rnorm(1000,0,1)
n<-100
for(i in 1:1000){
muestra<-sample(simula,n)
vars100<-c(vars100,muestra[1])
vars500<-c(vars500,mean(muestra))
}

test<-rbind(cbind("X1",vars100),
cbind("Media",vars500))

a<-data.frame(test)
# install.packages("sm")
library(sm)

## Warning in fun(libname, pkgname): couldn't connect to display ":0"

## Package 'sm', version 2.2-5.6: type help(sm) for summary information

## Package 'sm', version 2.2-5.6: type help(sm) for summary information
a$vars10<-as.numeric(as.character(a$vars10))
sm.density.compare(a$vars10, a$V1, xlab="")
legend("topright", levels(a$V1), fill=2+(0:nlevels(a$V1)))

6.2 Insesgamiento

Dada una muestra aleatoria \(X_1,...,X_n\) de una población con f.d.p \(f_X(x,\theta)\), \(T_n=t(X_1,...,X_n)\) es un estimador insesgado para \(r(\theta)\) sii:

\[E_\theta(T_n)=r(\theta)\]

Se define el sesgo de \(T_n\) para \(r(\theta)\): \[B_\theta(T_n)=E_\theta(T_n)-r(\theta)\]

\(\Rightarrow\) si \(T_n\) es insesgado, \(B_\theta(T_n)=0\).

6.2.1 Ejemplo

\(X_1,...,X_n\) una muestra aleatoria de una población \(N(0,1)\), se quiere estimar la varianza a partir de:

\(T_n^{(1)}=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X}_n)^2\) y \(T_n^{(2)}=P_{75}-P_{25}\)

set.seed(123)
vars10<-NULL
vars100<-NULL
vars500<-NULL
simula<-rnorm(1000,0,1)
for(i in 1:1000){
  muestra<-sample(simula,100)
vars100<-c(vars100,var(muestra))
vars500<-c(vars500,quantile(muestra,probs = 0.75)-quantile(muestra,probs = 0.25))
}

test<-rbind(cbind("Varianza",vars100),
cbind("Rango intercuartílico",vars500))

a<-data.frame(test)
# install.packages("sm")
library(sm)
## Package 'sm', version 2.2-5.6: type help(sm) for summary information
a$vars10<-as.numeric(as.character(a$vars10))
sm.density.compare(a$vars10, a$V1, xlab="t_n")
legend("topright", levels(a$V1), fill=2+(0:nlevels(a$V1)))

6.2.2 Insesgamiento-problema de investigación

\(X_1,...,X_n\) m.a. de una población \(X\sim Ber(\theta)\).

\[E\left( \frac{1}{n}\sum_{i=1}^{n}X_i\right)=\theta\]

\(\Rightarrow\bar{X_n}=\frac{1}{n}\sum_{i=1}^{n}X_i\) es insesgado para \(\theta\)

6.3 Consistencia

La consistencia es un criterio relacionado con el comportamiento del estimador cuando el tamaño muestral es grande. Hay diferentes tipos de consistencia dependiendo del tipo de convergencia que tenga el estimador, por ejemplo, \(T_n\) se denomina un estimador CAN (Consistent Asymptotically Normal) si para todo \(\theta\in\Theta\):

\[\sqrt n(T_n-r(\theta))\rightarrow^d N(0, \sigma^2(\theta))\]

6.4 Suficiencia

Definido por Fisher, 1922. Retención de información (Mayorga, 2004). Una estadística suficiente:

Conserva la información contenida en una muestra aleatoria
Su contorno no depende del valor del parámetro \((\theta)\)

Dada una muestra aleatoria \(X_1,...,X_n\) de una población con f.d.p \(f_X(x,\theta)\), \(T_n=t(X_1,...,X_n)\) es una estadística suficiente para \(\theta\) si \[f_{X_1,...,X_n|T_n}(x_1,...,x_n|tn)\] no depende de \(\theta\)

6.4.1 Criterio de factorización de Fisher-Neyman

Sea \(X_1,...,X_n\) una m.a. de una población con f.d.p. \(f_X(x,\theta)\), la estadística \(T_n=t(X_1,...,X_n)\) es suficiente para \(\theta\) sii:

\[L(\theta)=g(t(x_1,...x_n);\theta)h(x_1,...,x_n)\]

con \(g\) y \(h\) funciones no negativas.

6.4.1.1 Ejemplo-familia exponencial de densidades

Definición: Una f.d.p \(f_X(x,\theta)\), \(\theta\in\Theta\subseteq\Re\) pertenece a la familia exponencial unidimensional de densidades si: \[f_X(x,\theta)=a(\theta)b(x)\exp\left( c(\theta)d(x)\right)\]

\(\Rightarrow\) Dada \(X_1,...,X_n\) m.a. de una población \(X\sim Ber(\theta)\) perteneciente a la familia exponencial de densidades:

\[L(\theta)=g\left( \sum_{i=1}^{n}d(x_i), \theta\right) h(x_1,...,x_n)\]

con \(g\left( \sum_{i=1}^{n}d(x_i)\right) =a^n(\theta)\exp\left\lbrace c(\theta)\sum_{i=1}^{n}d(x_i)\right\rbrace\) \(\Rightarrow T_n=\sum_{i=1}^{n}d(X_i)\) es una estadística suficiente para \(\theta\).

6.4.1.2 Ejemplo-problema de investigación

La distribución Bernoulli pertenece a la familia exponencial de densidades:

\[f_X(x,\theta)=\theta^x(1-\theta)^{1-x}I_{\left\lbrace 0,1\right\rbrace}(x)\] \[f_X(x,\theta)=a(\theta)b(x)\exp(c(\theta)d(x))\] Con \(a(\theta)=(1-\theta)\), \(b(x)=I_{\left\lbrace 0,1\right\rbrace}(x)\), \(c(\theta)=\ln\left(\frac{\theta}{1-\theta} \right)\) y \(d(x)=x\).

\(\Rightarrow T_n=\sum_{i=1}^{n}X_i\) es una estadística suficiente para \(\theta\).

6.4.1.3 Ejemplo

La distribución Poisson pertenece a la familia exponencial de densidades:

\[f_X(x,\theta)=\frac{\theta^xe^{-\theta}}{x!}I_{\left\lbrace 0,1,2,...\right\rbrace}(x)\] \[f_X(x,\theta)=a(\theta)b(x)\exp(c(\theta)b(x))\]

Con \(a(\theta)=e^{-\theta}\), \(b(x)=I_{\left\lbrace 0,1,2,...\right\rbrace}(x)\), \(c(\theta)=\theta\) y \(d(x)=x\). \(\Rightarrow T_n=\sum_{i=1}^{n}X_i\) es una estadística suficiente para \(\theta\).

6.5 Varianza mínima

Una de las formas de evaluar la precisión de un estimador es a partir de su varianza, de tal forma que entre más pequeña sea ésta, más preciso es el estimador.

6.5.1 Estimador insesgado de varianza uniformemente mínima (UMVUE)

Un estimador \(T_n=t(X_1,...,X_n)\) es UMVUE para \(r(\theta)\) si y solamente si, es aquel que tiene la menor varianza entre los estimadores insesgados, es decir que sería el estimador más preciso entre todos los estimadores insesgados.

6.6 Completez

La completez es una característica de la familia de densidades del estimador, y a la vez, menos intuitiva, sin embargo, el hecho de que una estadística sea completa, permite encontrar más fácilmente UMVUEs. Más formalmente:

Una estadística \(T_n=t(X_1,...,X_n)\) es una estadística completa para \(\theta\) si su función de densidad \(f_{T_n}(t)\) pertenece a una familia de densidades completa.

6.6.1 Resultado-Familia exponencial de densidades

Dada una m.a. X_1,…,X_n de una población con f.d.p \(f_X(x,\theta)\) que pertence a la familia exponencial de densidades, la estadística \(\sum_{i=1}^{n}d(X_i)\) es una estadística completa para \(\theta\).

6.6.1.1 Ejemplo-problema de investigación

En ejemplos anteriores habíamos visto que la distribución Bernoulli pertenece a la familia exponencial de densidades con:

\(a(\theta)=(1-\theta)\), \(b(x)=I_{\left\lbrace 0,1\right\rbrace}(x)\), \(c(\theta)=\ln\left(\frac{\theta}{1-\theta} \right)\) y \(d(x)=x\).

\(\Rightarrow T_n=\sum_{i=1}^{n}X_i\) es una estadística completa para \(\theta\).

6.6.2 Teorema de Lehmann-Scheffé

Dada una m.a. X_1,…,X_n de una población con f.d.p \(f_X(x,\theta)\), \(T_n=t(X_1,X_2,...,X_n)\) una estadística suficiente y completa y \(T_n^*=t^*(T_n)\) un estimador insesgado para \(r(\theta)\), entonces \(T_n^*\) es un UMVUE para \(r(\theta)\).

6.6.2.1 Ejemplo-problema de investigación

Habíamos visto que \(\Rightarrow T_n=\sum_{i=1}^{n}X_i\) es una estadística suficiente y completa para \(\theta\), además vimos que \(\bar{X_n}=\frac{1}{n}\sum_{i=1}^{n}X_i\) es insesgado para \(\theta\), dado que \(\bar{X_n}\) es función de \(T_n\) y es insesgado, es UMVUE para \(\theta\) que en este caso es la prevalencia de VPH en mujeres mayores de 25 años en Bogotá.

6.7 Robustez

Un estimador \(T_n=t(X_1,...,X_n)\) es un estimador robusto si no se altera ante disconformiades con el modelo original.

7 Métodos para encontrar estimadores

Existen diferentes métodos para encontrar estimadores para un parámetro determinado, entre ellos se encuentran el método por analogía, el de los momentos, el método de máxima verosimilitud, entre otros. Haremos una revisión rápida de los métodos más sencillos y una un poco más detallada del método de máxima verosimiliud, pues éste es de los más usados dado que los estimadores resultantes tienen propiedades deseables.

7.1 Método por analogía

Es el método más sencillo, éste consiste en asignar como estimador la estadística que cumpla la misma función que el parámetro poblacional, por ejemplo, si mi interés es estimar \(\mu\), un estimador por analogía sería \(\bar{X}\).

Ejercicio: ¿Cuál podría ser un estimador por analogía para la prevalencia de VPH?.

7.2 Método de máxima verosimilitud

7.2.1 Función de verosimilitud

Dada \(X_1,...X_n\) una m.a. de una población con f.d.p \(f_X(x,\theta)\), la función de verosimilitud está dada por:

\[L(\theta)=\prod_{i=1}^{n}f_X(x_i,\theta)\]

A este punto es importante pensar entonces en ¿cuál es la diferencia entre la función de verosimilitud y la función de probabilidad o densidad conjunta?, pues bien, la función de probabilidad es una función de los valores de la muestra y los parámetros son conocidos, mientras que en la función de verosimilitud los valores de la muestra ya están observados, son fijos, mientras que los valores de \(\theta\) son desconocidos.

7.2.2 Estimador máximo verosímil (MLE)

El estimador máximo verosímil es aquella estadística \(T=t(X_1,...,X_n)\), tal que el valor más alto de \(L(\theta)\) se consigue cuando \(\theta=t(x_1,...,x_n)\), es decir que el valor más alto de la función de verosimilitud estaría dado por \(L(t(x_1,...,x_n))\). A \(t(x_1,...,x_n)\) se le llama estimación máximo verosímil. En palabras más sencillas, el estimador máximo verosimil es aquel que logra “maximizar” la función de verosimilitud.

Resultado Si \(T=t(X_1,...,X_n)\) maximiza a \(\ln L(\theta)\), también maximiza a \(L(\theta)\).

7.2.2.1 Ejemplo-problema de investigación

\(X_i\sim Ber(\theta), i=1,...,n\):

\[f_X(x,\theta)=\theta^x(1-\theta)^{1-x}I_{\left\lbrace 0,1\right\rbrace }(x)\]

entonces la función de verosimilitud está dada por: \[L(\theta)=\prod_{i=1}^{n}\left\lbrace \theta^{x_i}(1-\theta)^{1-x_i}I_{\left\lbrace 0,1\right\rbrace }(x_i) \right\rbrace \]

Haciendo el proceso de maximización de \(\ln L(\theta)\), se llega a que el estimador máximo verosímil de \(\theta\) es \(\bar{X}\), el cual en este caso corresponde a la proporción muestral de mujeres con VPH, adicionalmente, habíamos visto que este estimador es UMVUE.

7.2.2.2 Propiedades

Invarianza: Si \(T_n\) es el MLE de \(\theta\), entonces \(g(T_n)\) es el MLE de \(g(\theta)\)
Consistencia: Bajo ciertas condiciones de regularidad, se cumple que la distribución del MLE estandarizado converge a una normal estándar
Bajo ciertas condiciones de regularidad, en caso de existir un estimador insesgado con varianza mínima (cota de Cramer-Rao), ese estimador es el MLE
Asintóticamente insesgado: Si el MLE es sesgado, el sesgo tiende a cero en la medida que el tamaño de muestra aumenta.

8 Bibliografía

Mayorga H. Inferencia estadística. Universidad Nacional de Colombia, 2004.
Soto O, Franco D. Fundamentos conceptuales de estadística. Universidad Nacional de Colombia. Notas de clase.
Shao J. Mathematical Statistics. Springer, 2003.
Buitrago L. Notas de clase. Universidad de la Sabana. Maestría en Epidemiología Clinica, 2017.

Principios de inferencia estadística

Lina Angélica Buitrago Reyes - lina.buitrago2@unisabana.edu.co