Ver video: https://www.youtube.com/embed/hRAFPdDppzs

0.1 Introducción

La estimación puntual hace parte importante de la inferencia estadística, ésta consiste en encontrar estimadores, con características especiales, para los parámetros, de tal forma que se pueda determinar la calidad del mismo. Dichas características de calidad se pueden clasificar en dos: exactitud y precisión, la primera relacionada con que en promedio los valores de la estimación tienden hacia el valor del parámetro, y la segunda con la variabilidad del estimador. A continuación revisaremos algunas de estas características, al igual que la forma de hacer estimación puntual via máxima verosimilitud.

0.2 Objetivos

-Diferenciar los conceptos de estimador y estimación -Comprender las propiedades más relevantes de los estimadores puntuales -Conocer la definición de la función de verosimilitud y el método de máxima verosimilitud

0.3 Competencias

En esta sección el estudiante comprenderá el proceso de la estimación puntual y las propiedades a evaluar de un estimador. De igual forma comprenderá el proceso de estimación máximo verosímil, el cual es la base de muchas estimaciones, en especial en la de los modelos lineales.

0.4 Conceptos preliminares

  • Estimador: Es una estadística, \(t(X_1,...,X_n)\) con igual dimensión al vector de parámetros (\(\theta\)), cuyas realizaciones son usadas para estimar a \(\theta\).

-Estimación: Es el valor es observado y calculado del estimador en la muestra seleccionada (\(x_1,...,x_n\)), es decir, \(t(x_1,...,x_n)\) se llama estimación.

-Espacio del parámetro(\(\Theta\)): Dada \(X\sim f_X(x,\theta)\), el espacio del parámetro es el conjunto de todos los posibles valores de \(\theta\). Ejemplo: Si \(X\sim Ber(\theta)\), \(\Theta=(0,1)\).

0.5 Estimadores puntuales

Queremos hacer inferencia respecto de una población, basados en la información contenida en una muestra aleatoria. Nos centraremos en características específicas, parámetros, de la población. Por ejemplo: - El nivel de consumo medio de cierto medicamento. - La proporción de mujeres con portadoras de hemofilia clásica.

Cualquier inferencia sobre la población estará basada en estadísticos muestrales.

Un estadístico es una función de la información muestral. La elección del estadístico adecuado dependerá en cuál es el parámetro poblacional de interés.

Por sus propiedades, ciertos estadísticos son generalmente preferidos como estimadores de la media poblacional \(\mu\) o la proporción poblacional \(p\)

Parámetro Estimador
\(\mu\) \(\displaystyle \bar X =\frac{\sum_iX_i}{n}\)
\(p\) \(\displaystyle \hat p =\frac{número\ de\ éxitos}{n}\)

0.6 Muestral vs Poblacional

Muestral Poblacional
Frecuencia Probabilidad
Histograma Distribución de probabilidades
Media muestral \(\bar X\) Media poblacional (µ)
Varianza muestral \(S^2\) Varianza poblacional (σ2)
Proporción muestral \(p\) Proporción poblacional (p)
Covarianza muestral \(S_{XY}\) Covarianza \(COV(X,Y)\) o \(\sigma_{XY}\)
Coeficiente de correlación \(r_{XY}\) Coeficiente de correlación \(\rho_{XY}\)

0.7 Distribuciones muestrales

Una distribución muestral es la distribución de probabilidad de un estadístico.

  • ¡Sí! ¡Los estadísticos (como \(\bar X\)) son también variables aleatorias!
  • Entonces, podemos estar interesados en conocer su distribución.
  • Pensemos en la media muestral \(\bar X\)

0.8 Media muestral \(\bar{X}\)

  • Depende de la muestra, ¡que es aleatoria!
  • Por ser una variable aleatoria tiene una media y una varianza.
  • Si se extrae una muestra aleatoria de una población con media \(\mu\) y varianza \(\sigma^2\). La media y la varianza de X serán:

\[\displaystyle E(X) = E\Big(\frac{\sum_iX_i}{n}\Big)=\frac{1}{n}E\Big(\sum_iX_i\Big)=\frac{1}{n}n\mu=\mu\] \[V (X) = V\Big(\frac{\sum_iX_i}{n}\Big)=\frac{1}{n^2}V\Big(\sum_iX_i\Big)=\frac{1}{n^2}n\sigma^2=\frac{\sigma^2}{n}\] Nota: para el cálculo de la varianza tengan en cuenta que X1, X2, …, Xn son independientes porque vienen de una muestra aleatoria.

0.9 El tamaño de muestra importa

set.seed(123)
vars10<-NULL
vars100<-NULL
vars500<-NULL
simula<-runif(1000,0,1)
for(i in 1:100){
vars10<-c(vars10,var(sample(simula,10)))
vars100<-c(vars100,var(sample(simula,100)))
vars500<-c(vars500,var(sample(simula,500)))
}

test<-rbind(cbind("muestras10",vars10),
cbind("muestras100",vars100),
cbind("muestras500",vars500))

a<-data.frame(test)
# install.packages("sm")
library(sm)
## Package 'sm', version 2.2-5.6: type help(sm) for summary information
a$vars10<-as.numeric(as.character(a$vars10))
sm.density.compare(a$vars10, a$V1, xlab="Species")

0.10 En suma

  • \(X\) y \(\hat p\) son estadísticos y, por lo tanto, variables aleatorias.
  • Entonces, tienen una distribución asociada (distribución muestral).
  • Necesitamos conocer dichas distribuciones para poder hacer inferencia estadística.

0.11 Métodos para encontrar estimadores

Existen diferentes métodos para encontrar estimadores para un parámetro determinado, entre ellos se encuentran el método por analogía, el de los momentos, el método de máxima verosimilitud, entre otros. Haremos una revisión rápida de los métodos más sencillos y una un poco más detallada del método de máxima verosimiliud, pues éste es de los más usados dado que los estimadores resultantes tienen propiedades deseables.

0.11.1 Método por analogía

Es el método más sencillo, éste consiste en asignar como estimador la estadística que cumpla la misma función que el parámetro poblacional, por ejemplo, si mi interés es estimar \(\mu\), un estimador por analogía sería \(\bar{X}\).

0.11.1.1 Ejercicio:

¿Cuál podría ser un estimador por analogía para \(\sigma^2\)?.

0.11.2 Método de máxima verosimilitud

0.11.2.1 Función de verosimilitud:

es una función de los parámetros de un modelo estadístico que permite realizar inferencias acerca de su valor a partir de un conjunto de observaciones.

Formaliza la noción de actualizar el conocimineto (a priori) a partir de observaciones como vimos en teorema de Bayes, solo que solo se itera una vez, es decir solo obtengo evidencia de una muestra.

Se considera una moneda de la que se desconoce la probabilidad p de que al lanzarla salga cara. La moneda se lanza cuatro veces y se obtiene la siguiente serie: CSCC (cara-sello-cara-cara). Entonces,

\[\displaystyle P(CSCC\mid p)=p^{3}(1-p).\] La función de verosimilitud sería entonces

\[\displaystyle L(p)=L(p\mid CSCC)=p^{3}(1-p) \] que nos permite intuir, por ejemplo, que el valor 0,6 para p es más verosímil que el valor 0,5 dado que

\[{\displaystyle {\frac {L(0,6)}{L(0,5)}}={\frac {0,6^{3}(1-0,6)}{0,5^{3}(1-0,5)}}=1,3824\geq 1.} \]

Es razonable en este caso dar por bueno el valor 0.75 para p dado que dicho valor es el que maximiza el valor de la función de verosimilitud. Este razonamiento es la base del método de estimación de parámetros por máxima verosimilitud.

Intuitivamente, la prueba de razón de verosimilitudes nos permite comparar que parámetro es más “probable” para la muestra

\[{\displaystyle {\frac {L(0,75)}{L(0,6)}}={\frac {0,75^{3}(1-0,75)}{0,6^{3}(1-0,6)}}=1,3824\geq 1.} \]

(0.75^3*(1-0.75))/(0.6^3*(1-0.6))
## [1] 1.220703
val<-seq(0,1,0.05)
plot(cbind(val,val^3*(1-val)),main=c("Estimador máximo verosimil ",val[which.max(val^3*(1-val))]),xlab = "parámetro")

0.11.3 Formalmente

Dada \(X_1,...X_n\) una m.a. de una población con f.d.p \(f_X(x,\theta)\), la función de verosimilitud está dada por:

\[L(\theta)=\prod_{i=1}^{n}f_X(x_i,\theta)\]

A este punto es importante pensar entonces en ¿cuál es la diferencia entre la función de verosimilitud y la función de probabilidad o densidad conjunta?, pues bien, la función de probabilidad es una función de los valores de la muestra y los parámetros son conocidos, mientras que en la función de verosimilitud los valores de la muestra ya están observados, son fijos, mientras que los valores de \(\theta\) son desconocidos.

0.11.3.1 Estimador máximo verosímil (MLE):

Es aquel que máximiza la probabilidad del parámetro dada la muestra, es decir que dada la información (sobre el parámetro) contenida en la muestra (estadístico) estima cual es su valor del parámetro más verosimil (probable), dada la información.

Produce estimadores con buenas propiedades consistencia, sesgo, eficiencia(Varianza mínima) y suficiencia

El estimador máximo verosímil es aquella estadística \(T=t(X_1,...,X_n)\), tal que el valor más alto de \(L(\theta)\) se consigue cuando \(\theta=t(x_1,...,x_n)\), es decir que el valor más alto de la función de verosimilitud estaría dado por \(L(t(x_1,...,x_n))\). A \(t(x_1,...,x_n)\) se le llama estimación máximo verosímil. En palabras más sencillas, el estimador máximo verosimil es aquel que logra “maximizar” la función de verosimilitud.

0.11.3.2 Resultado:

Si \(T=t(X_1,...,X_n)\) maximiza a \(\ln L(\theta)\), también maximiza a \(L(\theta)\).

0.11.3.3 Ejemplo:

Supongamos que tenemos una muestra aleatoria \(X_1,...,X_n\) donde: \[X_i=\begin{cases} 1\text{ si el paciente }$i$\text{ tuvo el desenlace}\\ 0\text{ si el paciente }$i$\text{ no tuvo el desenlace} \end{cases}\]

Luego, \(X_i\sim Ber(\theta), i=1,...,n\): \[f_X(x,\theta)=\theta^x(1-\theta)^{1-x}I_{\left\lbrace 0,1\right\rbrace }(x)\]

entonces la función de verosimilitud está dada por: \[L(\theta)=\prod_{i=1}^{n}\left\lbrace \theta^{x_i}(1-\theta)^{1-x_i}I_{\left\lbrace 0,1\right\rbrace }(x_i) \right\rbrace \]

Haciendo el proceso de maximización de \(\ln L(\theta)\), se llega a que el estimador máximo verosímil de \(\theta\) es \(\bar{X}\), el cual en este caso corresponde a la proporción muestral.

0.12 Algunos criterios para evaluar estimadores

0.12.1 Insesgamiento

El insesgamiento está relacionado con la exactitud del estimador. Se dice que un estimador es insesgado si el promedio de su valor en todas las posibles muestras es el valor del parámetro. En otras palabras, si \(X_1,...,X_n\) es una m.a. tal que \(X_i\sim f_X(x,\theta)\), el estimador \(T_n=t(X_1,...,X_n)\) es insesgado si: \[E(T_n)=\theta\]

0.12.1.1 Sesgo:

El sesgo de un estimador \(T_n\) para \(\theta\) se define como \(B(T_n)=E(T_n)-\theta\).

Cuando \(n \rightarrow \infty\) por ley de los grandes números el estimador convergerá al valor real

0.12.1.2 Error cuadrático medio (MSE):

El error cuadrático medio es un medida de concentración de un estimador, se define como: \[\begin{align*} MSE_{T_n}(\theta)&=E((T_n-\theta)^2)\\ &=V(T_n)+B^2(T_n) \end{align*}\]

A menor MSE, el estimador está más concentrado y por lo tanto es de mejor calidad.

0.12.1.3 Ejemplo:

Supongamos \(X_1,...,X_n\) una m.a de una población con distribución \(N(\mu,\sigma^2)\), evaluemos a \(\bar{X}\) como estimador de \(\mu\) en términos de insesgamiento:

\[\begin{align*} E(\bar{X})&=E\left( \frac{1}{n}\sum_{i=1}^{n}X_i\right) \\ &= \frac{1}{n}\sum_{i=1}^{n}E(X_i)\\ &=\frac{1}{n}\sum_{i=1}^{n}\mu\\ &=\mu \end{align*}\]

Entonces \(\bar{X}\) es insesgado para \(\mu\), por lo que \(B(\bar{X})=V(\bar{X})\):

\[\begin{align*} V(\bar{X})&=V\left( \frac{1}{n}\sum_{i=1}^{n}X_i\right)\\ &=\frac{1}{n^2}\sum_{i=1}^{n}V(X_i)\\ &=\frac{1}{n^2}\sum_{i=1}^{n}\sigma^2\\ &=\frac{\sigma^2}{n} \end{align*}\]

0.12.2 Consistencia

Existen diferentes tipos de consistencia, pero a grandes rasgos se dice que un estimador es consistente si a medida que el tamaño de muestra crece, el estimador se va “pareciendo” más al parámetro. Otros tipos de consistencia están relacionados con convergencias a distribuciones normales, es decir con que cuando el tamaño de muestra es grande, la distribución del estimador tiende a ser normal. Lo aclararemos con ley de los grandes números

0.12.3 Suficiencia

La suficiencia es un concepto difícil de explicar sin una definción formal. En forma sencilla, se dice que una estadística es suficiente si conserva la información sobre el parámetro que tiene la muestra.

0.12.4 Varianza mínima (eficiencia)

El criterio de varianza mínima está relacionado con la precisión de un estimador, de tal forma que un estimador \(T_{n1}\) es más preciso que \(T_{n2}\) cuando la variabilidad de \(T_{n1}\) es menor que la de \(T_{n2}\) ($V( T_{n1})<V( T_{n2}) $).

0.12.4.1 Estimador insesgado de mínima varianza (UMVUE):

Un estimador \(T_n\) es un UMVUE para \(\theta\) si: es insesgado para \(\theta\) y su varianza es menor que la de cualquier otro estimador.

Existen otros criterios para evaluar estimadores, sin embargo, éstos se salen del alcance de este curso.

0.13 Bibliografía

  • Mayorga H. Inferencia estadística. Universidad Nacional de Colombia, 2004.
  • Soto O, Franco D. Fundamentos conceptuales de estadística. Universidad Nacional de Colombia. Notas de clase.
  • Buitrago, L. 2016. Notas de clase Bioestadística I.