Integrantes:

  • Dennis Navarrete
  • Valeria Ocampo
  • Alyson Sánchez
  • Cristhian Sumba

Teoría

  • Fue recomendado, analizado y popularizado por R. A. Fisher entre 1912 y 1922.
  • La Estimación de Máxima Verosimilitud es un método para estimar parámetros de una distribución de probabilidad que depende de las observaciones de la muestra.
  • Matemáticamente, dada una muestra \(X=(X_1,…,X_n)\) y parámetros, \(\theta=(\theta_1, … ,\theta_n)\) entonces:

\[ L(X|\theta)=\prod_{i=1}^{n}f(X_i,\theta) \] - Cuanto más grande el valor de L(θ|x), es decir, el valor de la función de máxima verosimilitud, más probables serán los parámetros basados en la muestra.

  • Para encontrar las estimaciones de máxima verosimilitud tenemos que diferenciar los productos de funciones de densidad.

  • Cuando nos encontramos con funciones complicadas, lo que podemos hacer es una transformación monótona. la hacemos mediante logaritmos naturales dado que son funciones monótonas y crecientes. \[ ln[L(\theta|x)]={\sum_{i=1}^{n}ln f(x_i,\theta)} \]

  • Las propiedades de los logaritmos nos permiten expresar la multiplicación anterior como el sumatorio de logaritmos naturales aplicados a las funciones de densidad.

  • El valor estimado de los parámetros que maximice la probabilidad de los parámetros de la función de máxima verosimilitud con logaritmos es equivalente al valor estimado de los parámetros que maximice la probabilidad de los parámetros de la función de máxima verosimilitud original.

  • Cuando estamos aplicando MCO, estamos aplicando EMV implícitamente dado que ambos son equivalentes en términos de consistencia.

Propiedades del estimador

a) Insesgadez Un estimador es insesgado cuando la esperanza matemática de este es igual al parámetro que se desea estimar. Por tanto la diferencia entre el parámetro a estimar y la esperanza de nuestro estimador puntual tendría que ser cero. \[ E(\widehat\theta)=\theta \] b) Eficiencia Un estimador es más eficiente o tiene la capacidad de estimar de forma precisa cuando su varianza es reducida. Por lo tanto, cuando se tienen dos estimadores para un parámetro, será mejor el de varianza menor.

c) Invariantes si \(\widehat\theta\) es un estimador de máximo verosímil de \(\theta\), cualquier función de \(\widehat\theta\) lo es también.

Cálculos

Procedimiento

a) Buscar la distribución conjunta de las variables aleatorias \[ L(X,\theta)=f(X_1,\theta)\cdot f(X_2,\theta)\cdot f(X_3,\theta),...,f(X_n,\theta) \]

b) Aplicar logaritmo natural a la función de distribución conjunta \[ ln[L(X,\theta)] \] c) Derivar respecto al parámetro poblacional \[ \frac{d}{d\theta}ln[L(X,\theta)] \] d) Igualar a cero la derivada y despejar \(\theta\) y así encontramos el estimador de máxima verosimilitud \[ \frac{d}{d\theta}ln[L(X,\theta)]=0 \]

Ejemplos

Ejemplo 1:

Sea, \((X_1,X_2,...,X_n)\), una m.a de una variable \(X\sim Poisson(\lambda)\), encuentre un estimador de máxima verosimilitud para \(\lambda\) y \(\sqrt{\lambda+3}\): \[ f(X,\lambda)= \frac{e^{-\lambda}\cdot \lambda^X}{X!} ;\quad Si(X \geq 0) \] \[X=(0,1,2,3,...,n)\] Paso a)

\[L(X,\lambda)=f(X_1,\lambda)\cdot f(X_2,\lambda)\cdot f(X_3,\lambda),...,f(X_n,\lambda) \] \[ \frac{e^{-\lambda}\cdot\lambda^{X_1}}{X_1!}\cdot\frac{e^{-\lambda}\cdot\lambda^{X_2}}{X_2!}\cdot\frac{e^{-\lambda}\cdot\lambda^{X_3}}{X_3!},...,\frac{e^{-\lambda}\cdot\lambda^{X_n}}{X_n!} \] \[ \frac{e^{-n\lambda}\cdot\lambda^{X_1+X_2+X_3+...+X_n}}{X_1!\cdot X_2!\cdot X_3!...X_n!}\] \[ L(X,\lambda)=\frac{e^{-n\lambda}.\lambda^{ \sum_{i=1}^{n}X_{i}}}{\prod_{i=1}^{n}X_i! }\] Paso b)

\[ ln[L(X,\lambda)] \] \[ ln[L(X,\lambda)]=ln\cdot e^{-n\lambda}+ln\cdot\lambda^{ \sum_{i=1}^{n}X_{i}}-ln.\prod_{i=1}^{n}X_i! \]

\[ \implies ln.\prod_{i=1}^{n}x_i!=ln(X_1!\cdot X_2!\cdot X_3!,...,X_n!)\] \[ = ln(X_1!)+ln(X_2!)+ln(X_3!)+...+ln(X_n!)\] \[ =\sum_{i=1}^{n}ln(X_{i}!)\] \[ ln[L(X,\lambda)]=-n\lambda+\sum_{i=1}^{n}X_i\cdot ln(\lambda)-\sum_{i=1}^{n}ln(X_{i}!) \] Paso c)

\[ \frac{d}{d\lambda}ln[L(X,\lambda)]=-n+\sum_{i=1}^{n}X_i\cdot\frac{1}{\lambda} \]

Paso d) \[ \frac{d}{d\lambda}ln[L(X,\lambda)]=0 \] \[ -n+\sum_{i=1}^{n}X_i\cdot \frac{1}{\lambda}=0 \] \[ \sum_{i=1}^{n}X_i\cdot\frac{1}{\lambda}=n \] \[ \hat{\lambda}=\frac{\sum_{i=1}^{n}X_i}{n} \] \[Estimador\implies \hat{\lambda}=\overline{X} \]

Gráfico

#Funcion discreta
x<- seq(0,50) #Creamos una muestra
n <- length(x)
lambda<- sum(x)/n #estimador = Promedio
## El valor de lambda es: 25
#Funcion de distribucion
fx<-  dpois(x,lambda) 

#Grafico----------------
par(bg = "#f7f7f7")
plot(x, fx, type = "o", lwd = 1,
     main = "Distribución de función de probabilidad",
     ylab = "P(X = x)", xlab = "Valores de x",
     ylim = c(0,0.2));grid() #Lambda = 26

lines(dpois(x, 12), type = "o", lwd = 1, col = c("royalblue")) #Lambda = 12
lines(dpois(x, 5), type = "o", lwd = 1, col = c("red"))       #Lambda = 5
# Leyenda
legend("topright", legend = c(lambda,"12","5"),
       title = expression(lambda), title.adj = 0.75,
       lty = 4, ,col = c("black","royalblue","red"), lwd = 2, box.lty = 0,bg=NULL)

Ejemplo 2:

Sea, \((X_1,X_2,...,X_n)\), una m.a de una poblacion X con funcion de densidad: \[f(X,\theta)= \theta \cdot (\frac{1}{X})^{\theta+1} ;\quad Si(X > 1) \] - Encuentre un estimador de máxima verosimilitud para \(\theta\):

a) \(L(X,\theta)= \prod_{i=1}^{n}\theta \cdot ( \frac{1}{X})^{\theta+1}\)

\(\quad L(X,\theta)= \theta (\frac{1}{X_1})^{\theta+1} \cdot \theta (\frac{1}{X_2})^{\theta+1}...\theta (\frac{1}{X_n})^{\theta+1}\)

\(\quad L(X,\theta)=(\theta)^n \cdot (\frac{1}{X_1})^{\theta+1}... (\frac{1}{X_n})^{\theta+1}\)

\(\quad L(X,\theta)=(\theta)^n \prod_{i=1}^n({\frac{1}{X_i})^{\theta+1}}\)

b) \(ln(L)=ln[ (\theta)^n\cdot \prod_{i=1}^n (\frac{1}{X_i})^{\theta+1}]\)

\(\quad ln(L)=ln(\theta)^n+ln\prod_{i=1}^n (\frac{1}{X_i})^{\theta+1}\)

\(\quad ln(L)=nln(\theta)+\sum_{i=1}^n ln(\frac{1}{X_i})^{\theta+1}\)

c) \(\frac{d}{d\theta}(ln(L))=n\frac{d}{d\theta}(\theta)+\sum_{i=1}^n ln(\frac{1}{X_i})\frac{d}{d\theta}(\theta+1)\)

\(\quad \frac{d}{d\theta}(ln(L))=n(\frac{1}{\theta})+\sum_{i=1}^n ln(\frac{1}{X_i})\)

d) \[\frac{d}{d\theta}(ln(L))=0\]

\[\quad n(\frac{1}{\theta})+\sum_{i=1}^n ln(\frac{1}{X_i})=0\] \[\quad \frac{n}{\theta}=-\sum_{i=1}^n ln(\frac{1}{X_i})\]

\[\quad \theta=\frac{n}{-\sum_{i=1}^n ln(\frac{1}{X_i})}\]

\[\quad \theta=\frac{n}{-\sum_{i=1}^n [ln(1)-ln(x_i)]}\]

\[\quad Estimador \implies \hat{\theta}= \frac{n}{\sum_{i=1}^n ln(x_i)}\]

Gráfico

#-------------------EJERCICIO 2---------------------------
  #maxima verosmilitud
fun_01<- function(x,n){
  theta<- n/(sum(log(sample(x,n,replace = T)))) #estimador
  cat("el valor de theta es:", theta)
  fx<- theta*(1/x)^(theta+1) #funcion de distribucion
}
# Abrir la ventana grafica
x11()
layout(matrix(c(1:2), nrow=1, byrow=FALSE))
#-----------
# n: 60
#-----------
x<- seq(1,60,0.5) #Distribucion continua
#graficos----------------
par(bg = "#f7f7f7")
plot(function(x) fun_01(x,n=50),xlim = c(1,60),main = 'Distribucion de funcion\n de probabilidad (n=60)',xlab='Valores de x',ylab= 'Valores de f(x)',
     col='blue',lwd=2);grid()
## el valor de theta es: 0.3160478
#-----------
# n: 1000
#-----------
x2<- seq(1,1000,0.5) #Distribucion continua
#graficos----------------
plot(function(x2) fun_01(x=x2,n=1000),xlim = c(1,60),main = 'Distribucion de funcion\n de probabilidad (n=1000)',xlab='Valores de x',ylab= 'Valores de f(x)',
     col='chocolate3',lwd=2);grid()
## el valor de theta es: 0.3143598

Propiedades

Propiedades para el ejercicio 1

\[Estimador\implies \hat{\lambda}=\overline{X} \] Sesgo \(E(\widehat\theta)=\theta\) \[ E(\widehat\theta)=\theta \] \[ E(\widehat\lambda)=E(\overline{X}) \]

\[ E(\widehat\lambda)=E(\sum_{i=1}^{n}X_i\cdot\frac{1}n) \] \[ E(\widehat\lambda)=\frac{1}n\cdot E(\sum_{i=1}^{n}X_i) \] \[ E(\widehat\lambda)=\frac{1}n\cdot E(X_1)+E(X_2)+...+E(X_n) \] \[ como: E(x)=\lambda \] \[ E(\widehat\lambda)=\frac{1}n\cdot [\lambda+\lambda+...+\lambda] \] \[ E(\widehat\lambda)=\frac{1}n\cdot n\lambda \] \[ E(\widehat\lambda)=\lambda \]

Invariante quiero el E.M.V de \(\sqrt{\lambda+3}\):

\[ E.M.V\sqrt{\lambda+3}=\sqrt{\sum_{i=1}^{n}X_i\cdot\frac{1}n+3} \] \[ E.M.V\sqrt{\lambda+3}=\sqrt{\overline{X}+3} \] b) Eficiencia

Sea \(X_1,X_2,X_3\) una muestra aleatoria que proviene de una distribución normal con media \(\mu\) y \(\sigma^2\). Se propone dos estimadores puntuales para el parámetro \(\mu\):

\[ \widehat\mu_1=(X_1+2X_2+3X_3)\frac{1}6 \] \[ \widehat\mu_2=(4X_2-X_1)\frac{1}3 \] ¿Cuál es el mejor estimador? primero hay que ver si son insesgados

\[ E(\widehat\mu_1)=E[(X_1+2X_2+3X_3)\frac{1}6] \] \[ E(\widehat\mu_1)=\frac{1}6E[(X_1+2X_2+3X_3)] \] \[ E(\widehat\mu_1)=\frac{1}6[E(X_1)+E(2X_2)+E(3X_3)] \] \[ E(\widehat\mu_1)=\frac{1}6[E(X_1)+2E(X_2)+3E(X_3)] \] si sabemos que: \[ E(x)=\mu \] Entonces: \[ V(x)=\sigma^2 \] \[ E(\widehat\mu_1)=\frac{1}6[\mu+2\mu+3\mu)] \] \[ E(\widehat\mu_1)=\mu \] \[ \widehat\mu_2=(4X_2-X_1)\frac{1}3 \] Para \(\widehat\mu_2\): \[ E(\widehat\mu_2)=E[(4X_2-X_1)\frac{1}3] \] \[ E(\widehat\mu_2)=\frac{1}3E[(4X_2-X_1)] \] \[ E(\widehat\mu_2)=\frac{1}3[E(4X_2)-E(X_1)] \] \[ E(\widehat\mu_2)=\frac{1}3[4E(X_2)-E(X_1)] \] \[ E(\widehat\mu_2)=\frac{1}3[4\mu-\mu] \] \[ E(\widehat\mu_2)=\mu \] \(\widehat\mu_1\) y \(\widehat\mu_2\) son insesgados

para \(\widehat\mu_1\) \[ V(\widehat\mu_1)=V[(X_1+2X_2+3X_3)\frac{1}6] \] \[ V(\widehat\mu_1)=\frac{1}{36} V[(X_1+2X_2+3X_3)] \] \[ V(\widehat\mu_1)=\frac{1}{36} [V(X_1)+4V(X_2)+9V(X_3)] \] \[ V(\widehat\mu_1)=\frac{1}{36} [\sigma^2+4\sigma^2+9\sigma^2] \] \[ V(\widehat\mu_1)=\frac{7}{18}\sigma^2 \] para \(\widehat\mu_2\) \[ V(\widehat\mu_2)=V[(4X_2-X_1)\frac{1}3] \] \[ V(\widehat\mu_2)=\frac{1}9[16V(X_2)-V(X_1)] \] \[ V(\widehat\mu_2)=\frac{1}9[16\sigma^2+\sigma^2] \] \[ V(\widehat\mu_2)=\frac{17}9\sigma^2 \] ¿Cuál tiene varianza menor?

Respuesta: \(\mu_1\) por ende en mejor estimador