hllinas2023

1 Paquetes utilizados

library(ggplot2)
library(dplyr)
library(tidyr)
library(tidyverse)

#Para generar videos interctivos: 
library(transformr)
library(av)
library(gifski)
library(gganimate)

2 Preliminares

A continuación, se enumeran algunos resultados que se aplicarán en este capítulo.Sus correspondientes demostraciones se pueden revisar en los siguientes documentos: Teoría de probabilidad y Distribución muestral.

2.0.1 Teoría de probabilidad

Theorem 2.1 (Chi-cuadrada) Supongamos que \(\chi^2 (n)\) representa la distribución chi-cuadrada con \(n\) grados de libertad.

  1. \(\chi^2(n)=\gamma\left(\frac{n}{2}, \frac{1}{2}\right)\).

  2. Si \(X\stackrel{\atop d}{=} \mathcal{N}(0,1)\), entonces, \(X^2\stackrel{\atop d}{=} \chi^2(1)\).

A continuación, vemos algunas distribuciones chi-cuadradas.

#library(ggplot2)

grosor = 1 # Grosor de las líneas de la  gráfica

ggplot(data.frame(x =  0:1000 / 100), aes(x = x)) +
  
  xlim(0 , 10) + 
  
  stat_function(fun = dgamma, args = list(rate = 1, shape = 2), aes(colour = "1"), size=grosor) + 
  stat_function(fun = dgamma, args = list(rate = 2, shape = 2), aes(colour = "2 "), size=grosor) + 
  stat_function(fun = dgamma, args = list(rate = 3, shape = 2), aes(colour = "3"), size=grosor) + 
  stat_function(fun = dgamma, args = list(rate = 4, shape = 2), aes(colour = "4"), size=grosor) + 
  
  scale_color_manual("Parameter \n (n)", values = c("black", "blue", "red", "green")) +
  
  labs(x = "\n x", y = "f(x) \n", 
       title = "Chi-square distribution") + 
  
  theme(plot.title = element_text(hjust = 0.5), 
        axis.title.x = element_text(face="bold", colour="blue", size = 12),
        axis.title.y = element_text(face="bold", colour="blue", size = 12),
        legend.title = element_text(face="bold", size = 10),
        legend.position = "right")

Theorem 2.2 (Convoluciones especiales) Sean \(X_1, \ldots, X_n\) variables aleatorias independientes.

  1. Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu_i,\sigma^2_i)\) para cada \(i=1,\ldots, n\), entonces, \[X_1+\cdots+ X_n \stackrel{\atop d}{=} \mathcal{N}(\mu_1+\cdots + \mu_n,\sigma^2_1 + \cdots + \sigma^2_n)\]

  2. Si \(X_i \stackrel{\atop d}{=} \gamma(\alpha_i,\beta)\) para cada \(i=1,\ldots, n\), entonces, \[X_1+\cdots+ X_n \stackrel{\atop d}{=} \gamma(\alpha_1+\cdots+ \alpha_n, \beta)\]

  3. Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(0,1)\) para cada \(i=1,\ldots, n\), entonces, \[X_1^2+\cdots+ X_n^2 \stackrel{\atop d}{=} \chi^2(n)\]

Definition 2.1 (Media y varianza empírica) Sean \(X_1, \ldots, X_n\) variables aleatorias. Entonces, la variable aleatoria

\[\overline{X}_{(n)}:=\frac{1}{n}(X_1 + \cdots + X_n)\]

se llama la media aritmética o media empírica de \(X_1, \ldots, X_n\) y a

\[S^2_{(n)}:= \frac{1}{n-1} \sum\limits_{k=1}^n (X_k-\overline{X}_{(n)})^2\]

se le llama varianza empírica.

Theorem 2.3 (Varianza muestral y chi-cuadrada) Sean \(X_1, \ldots, X_n\) variables aleatorias independientes con \(E(X_k)=\mu\) y \(Var(X_k)=\sigma^2\), para cada \(k=1,\ldots, n\). Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) la varianza y media empírica de \(X_1, \ldots, X_n\), respectivamente.

  1. Se cumple que \(E(S_{(n)}^2)=\sigma^2\).

  2. Para \(k=2, \ldots, n\), \(Y_k\) y \(Y_k^2\) son independientes, siendo:

\[Y_k:= \big(X_k- \overline{X}_{(k-1)}\big) \sqrt{\frac{k-1}{k}}\]

  1. Se cumple que:

\[\sum\limits_{k=2}^n Y_k^2 = \sum\limits_{k=1}^n \big(X_k- \overline{X}_{(k-1)}\big)^2 = (n-1)S_{(n)}^2\]

  1. Si \(X_k \stackrel{\atop d}{=} \mathcal{N}(\mu, \sigma^2)\) para todo \(k=1, \ldots, n\), entonces,

\[\frac{n-1}{\sigma^2} S_{(n)}^2 \stackrel{\atop d}{=} \chi^2(n-1)\]

Theorem 2.4 (Distribución t de Student) Sean \(X\), \(Y\), \(X_1, \ldots, X_n\) y \(Y_1, \ldots, Y_m\) variables aleatorias. Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) resp. \(S_{(m)}^2\) y \(\overline{Y}_{(m)}\) la varianza y media empírica de \(X_1, \ldots, X_n\) y de \(Y_1, \ldots, Y_m\), respectivamente. Supongamos que se tiene la independencia, por un lado, entre todas las \(X_i\); por otro lado, entre todas las \(Y_j\); y también entre \(X\) y \(Y\). Si \(\mathcal{T}(n)\) representa la distribución \(t\) de Student con \(n\) grados de libertad, entonces:

  1. Si \(X \stackrel{\atop d}{=} \mathcal{N}(0,1)\) y \(Y\stackrel{\atop d}{=} \chi^2(n)\), entonces, \[t:= \frac{X}{\sqrt{Y/n}} \stackrel{\atop d}{=} \mathcal{T}(n)\]

  2. Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu, \sigma^2)\) para cada \(i=1,\ldots, n\), entonces, se cumple que \[t:=\frac{\overline{X}_{(n)}- \mu}{S_{(n)} /\sqrt{n}} \stackrel{\atop d}{=} \mathcal{T}(n-1)\]

  3. Sea \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu_1, \sigma^2)\) para cada \(i=1,\ldots, n\) y \(Y_j \stackrel{\atop d}{=} \mathcal{N}(\mu_2, \sigma^2)\) para cada \(j=1,\ldots, m\). Si \(S_{(n,m)}^2\) es la llamada varianza muestral combinada, entonces,

\[t:= \frac{\left(\overline{X}_{(n)} - \overline{Y}_{(m)}\right)\, - \, (\mu_1-\mu_2)}{\sqrt{\frac{S_{(n,m)}^2}{n} \,+\, \frac{S_{(n,m)}^2}{m}}} \stackrel{\atop d}{=} \mathcal{T}(m+n-2), \qquad \mbox{con}\qquad S_{(n,m)}^2:= \frac{(n-1)S_{(n)}^2 + (m-1)S_{(m)}^2}{m+n-2}\]

A continuación, vemos algunas distribuciones \(t\) de Student.

#library(ggplot2)
#library(dplyr)

a<- 100
mean_sim <- 0
varianza <- a/(a-2)
std_sim <- sqrt(varianza)

grosor = 1 # Grosor de las líneas de la  gráfica

ggplot(data = data.frame(u = 0:1000 / 100), mapping = aes(x = u)) +
  
  xlim(c(-20, 20))+
  
  stat_function(mapping = aes(colour = "Distbn. 1"),
                fun = dt,
                args = list(df = (1/100)*std_sim), size=grosor) +
  
  stat_function(mapping = aes(colour = "Distbn. 2"),
                fun = dt,
                args = list(df = (1/20)*std_sim), size=grosor) +
  
  stat_function(mapping = aes(colour = "Distbn. 3"),
                fun = dt,
                args = list(df = (1/5)*std_sim), size=grosor) +
  
  stat_function(mapping = aes(colour = "Distbn. 4"),
                fun = dt,
                args = list(df = (1/1)*std_sim), size=grosor)+
  
  labs(x = "Valores x",
       y = "Densidades f(x)",
       fill="",
       title = "Diferentes densidades t de Student con v grados de libertad")+
  
  scale_colour_manual(values = c("red", "blue", "black", "green")) +
  # Edit legend title and labels: 
  scale_color_discrete(name   =   expression(paste("t", " ", "con", ":")), 
                       labels = c(expression(paste(nu==1)),     
                                  expression(paste(nu==5)),   
                                  expression(paste(nu==20)),        
                                  expression(paste(nu==100)) 
                                 )
                       ) 

Theorem 2.5 (Distribución F de Fisher) Sean \(X\), \(Y\), \(X_1, \ldots, X_n\) y \(Y_1\), \(\ldots\), \(Y_m\) variables aleatorias. Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) resp. \(S_{(m)}^2\) y \(\overline{Y}_{(m)}\) la varianza y media empírica de \(X_1, \ldots, X_n\) resp. \(Y_1, \ldots, Y_m\). Supongamos que se tiene la independencia, por un lado, entre todas las \(X_i\); por otro lado, entre todas las \(Y_j\); y también entre \(X\) y \(Y\). Si \(\mathcal{F}(m,n)\) representa la la distribución \(F\) de Fisher con \(m\) y \(n\) grados de libertad, entonces:

  1. Si \(X \stackrel{\atop d}{=} \chi^2(m)\) y \(Y \stackrel{\atop d}{=} \chi^2(n)\), entonces,

\[F:= \frac{X/m}{Y/n} = \frac{nX}{mY} \stackrel{\atop d}{=} \mathcal{F}(m,n)\]

  1. Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu_1, \sigma^2_1)\) para cada \(i=1,\ldots, n\) y \(Y_j \stackrel{\atop d}{=} \mathcal{N}(\mu_2, \sigma^2_2)\) para cada \(j=1,\ldots, m\), entonces,

\[F:= \frac{S_{(n)}^2 / \sigma_1^2}{S_{(m)}^2/\sigma^2_2} \stackrel{\atop d}{=} \mathcal{F}(n-1,m-1)\]

A continuación, vemos algunas distribuciones \(F\) de Fisher.

#library(dplyr)
#library(ggplot2)
#library(tidyr)

grosor = 1 # Grosor de las líneas de la  gráfica

data.frame(f = 0:1000 / 100) %>% 
  
mutate(df_01_01   = df(x = f, df1 = 1,   df2 = 1),
       df_02_01   = df(x = f, df1 = 2,   df2 = 1),
       df_05_02   = df(x = f, df1 = 5,   df2 = 2),
       df_10_01   = df(x = f, df1 = 10,  df2 = 1),
       df_100_100 = df(x = f, df1 = 100, df2 = 100)
      ) %>%
  
gather(key = "df", value = "density", -f) %>%

ggplot() +
  geom_line(aes(x = f, y = density, color = df),
            size=grosor
           ) +
  
  ylim(c(0, 2.2))+
  xlim(c(0, 5))+
  labs(x = "Valores x",
       y = "Densidades f(x)",
       fill="",
       title = "Diferentes densidades F de Fisher"
      )+
  
 scale_colour_manual(values = c("red", "blue", "black", "green", "grey")) +
# Edit legend title and labels:
 scale_color_discrete(name   =   expression(paste("F", " ", "con", " ", "parámetros", ":")), 
                      labels = c(expression(paste(m==1, ", ", " ", n==1)),     
                                 expression(paste(m==2, ", ", " ", n==1)),   
                                 expression(paste(m==5, ", ", " ", n==2)), 
                                 expression(paste(m==10, ", ", " ", n==1)),
                                 expression(paste(m==100, ", ", " ", n==100)) 
                                 )
                     ) 

–>

2.0.2 Distribución muestral

Definition 2.2 (Distribución muestral) La distribución de un estadístico muestral recibe el nombre de distribución muestral o distribución en el muestreo.

En la imagen de abajo se ilustra gráficamente este concepto.

Theorem 2.6 (Media muestral) Sea \(X_1, \ldots, X_n\) una muestra aleatoria de una población que tiene distribución normal con media \(\mu\) y varianza \(\sigma^2\). Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) la varianza y media empírica de \(X_1, \ldots, X_n\), respectivamente. Si \(\mathcal{T}(n)\) representa la distribución \(t\) de Student con \(n\) grados de libertad, entonces:

  1. \(\overline{X}_{(n)} \stackrel{\atop d}{=}\mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)\).

  2. Si \(\sigma^2\) es desconocida, entonces \(\frac{\overline{X}_{(n)}-\mu}{S_{(n)} /\sqrt{n}} \stackrel{\atop d}{=} \mathcal{T}(n-1)\).

Para el caso en que la muestra aleatoria provenga de poblaciones no normales o desconocidas, se puede aplicar el teorema central del límite. Para la solución de problemas prácticos se puede tener en cuenta la tabla A.1 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

En los videos de abajo, se ilustran dos ejemplos relacionados con este teorema.

Simulando muestras:

# Generar la media de una muestra de tamaño N: 

xbarra <- function(FUN, N) {   # N es el tamaño de la muestra
            Valores <- FUN(N)  # Valores k de las variables
            mean(Valores)      # Media de los valores
          }

# Seleccionar R muestras de tamaño N y, de cada una, obtener sus medias (vector de tamaño R). Entrega un data frame con las medias (llamada "muestra_N"): 

Media_Muestral <- function(FUN, N, R) {
                  name <- glue::glue("muestra_{N}")
                  
                  rerun(R, xbarra(FUN, N)) %>% 
                  map(data.frame) %>% 
                  bind_rows() %>% 
                  rename(!!quo_name(name) := ".x..i..")
                  }

# Seleccionar R muestras de K diferentes tamaños n=(N1, N2,...NK) y, de cada una, obtener sus medias. Entrega un data frame de RxK filas  y 3 columnas ("simulaciones", "n" y "value=Medias")

montecarlo <- function(FUN, n, R) {
              map_dfc(n, ~ Media_Muestral(FUN, .x, R)) %>% 
              cbind(simulaciones = 1:R) %>% 
              pivot_longer(-simulaciones, names_to = "n", values_to = "value") %>% 
              mutate(n = str_extract(n, "\\d+"), n = as.numeric(n))
              }

# Al data frame anterior, se le agrega otra columna que contine los valores Z. Es decir, es un data frame de RxK filas y 4 columnas ("simulaciones", "n", "value=Medias" y "Z")

montecarlo_con_Z <-  function(FUN, n, R, mu, sigma) {
                     montecarlo(FUN, n, R) %>%
                     rename(Media = value) %>% 
                     group_by(n) %>% 
                     mutate(z = (Media - mu)/ (sigma/sqrt(n))) %>% 
                     ungroup() %>% 
                     mutate(n = factor(n, ordered = TRUE))
                    }

Distribución exponencial:

#library(tidyverse)
FUN <- rexp  # Exponencial con lambda = 1
lambda <- 1
n <- c(2, 5, 10, 20, 30, 50, 100, 1000, 10000) # tamaño muestral n
R <- 3000   # Número de muestras de tamaño n que se van a seleccionar
mu <- 1/lambda     # Media de la variable
varianza <- 1/(lambda^2)  # Varianza de la variable
sigma <- sqrt(varianza)  # Desviación de la variable

Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)

Muestreo %>% 
  ggplot(aes(z, fill = n)) +
  geom_density(aes(group = NA)) +
  
  gganimate::transition_states(n,
                               transition_length = 2,
                               state_length = 1) +
  
  stat_function(fun = dnorm, aes(color = 'Normal'),
                args = list(mean = 0, sd = 1),
                inherit.aes = FALSE,
                size=1.5) +
  
  gganimate::enter_fade() +
  gganimate::exit_shrink() +
  
  labs(subtitle = "Sample size  n= {closest_state}",
       title = "Distribution of Sample Mean: Exponential with parameter 1",
       caption = "Theoretical distribution is standard normal",
       y = "Sample mean from Exponential") +
  
  gganimate::view_follow() -> Densidad

# VIDEO OUTPUT

#https://gganimate.com/articles/gganimate.html
#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)

animate(Densidad +
        enter_fade() + 
        exit_fly(y_loc = 1), 
        # La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
        fps=5,  
        # La duración de la animación en segundos (sin configurar de forma predeterminada)
        #duration = 30 
        renderer = av_renderer()
       )

Distribución uniforme estándar:

#library(tidyverse)
FUN <- runif  #Standard Uniform (cuando a=0, b=1)
a<- 0
b<- 1
n <- c(2, 5, 10, 20, 30, 50, 100, 1000, 10000) # tamaño muestral n
R <- 3000     # Número de muestras de tamaño n que se van a seleccionar
mu <- (a+b)/2     # Media de la variable
varianza <- (b-a)^2/12   # Varianza de la variable
sigma <- sqrt(varianza)  # Desviación de la variable 

Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)

Muestreo %>% 
  ggplot(aes(z, fill = n)) +
  geom_density(aes(group = NA)) +
  transition_states(n,
                    transition_length = 2,
                    state_length = 1) +
  stat_function(fun = dnorm, aes(color = 'Normal'),
                         args = list(mean = 0, sd = 1),
                inherit.aes = FALSE, 
                size=1.5) +
  enter_fade() +
  exit_shrink() +
  labs(subtitle = "Sample size n= {closest_state}",
       title = "Distribution of Sample Mean: Standard Uniform (0,1)",
       caption = "Theoretical distribution is standard normal",
       y = "Sample mean from  Uniform") +
  view_follow() -> Densidad

# VIDEO OUTPUT

#https://gganimate.com/articles/gganimate.html
#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)

animate(Densidad +
        enter_fade() + 
        exit_fly(y_loc = 1), 
        # La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
        fps=5,  
        # La duración de la animación en segundos (sin configurar de forma predeterminada)
        #duration = 30 
        renderer = av_renderer()
       )

Theorem 2.7 (Teorema central del límite de Moivre-Laplace) Sea \(X_1, \ldots, X_n\) una muestra aleatoria de una población que tiene distribución \(\mathcal{B}(n,p)\). Si \(\overline{p}_{(n)}\) representa la proporción muestral de éxitos en la muestra, entonces,

\[\frac{\overline{p}_{(n)} - p}{\sqrt{p(1-p)/n}}\; \xrightarrow[n \to \infty] {d}\; \mathcal{N}(0,1)\]

En la práctica, el teorema será válido si \(n\geq 30\) o si \(np\geq 5\) y \(n(1-p)\geq 5\). Puede comparar con la tabla A.2 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

De manera gráfica, esta aproximación se puede visualizar así:

En el video de abajo, se ilustra un ejemplo relacionado con este teorema.

Simulando muestras:

# Entrega la media de una muestra de tamaño N: 

xbarra <- function(FUN, N) {         # N es el tamaño de la muestra
           Valores <- FUN(N, 1, 0.5) # Valores k de las variables
           mean(Valores)             # Media de los valores
}

# Seleccionar R muestras de tamaño N y, de cada una, obtener sus medias (vector de tamaño R). Entrega un data frame con las medias (llamada "muestra_N"): 

Media_Muestral <- function(FUN, N, R) {
                  name <- glue::glue("muestra_{N}")
                  rerun(R, xbarra(FUN, N)) %>% 
                  map(data.frame) %>% 
                  bind_rows() %>% 
                  rename(!!quo_name(name) := ".x..i..")
}

# Seleccionar R muestras de K diferentes tamaños n=(N1, N2,...NK) y, de cada una, obtener sus medias. Entrega un adta frame de RxK filas  y 3 columnas ("simulaciones", "n" y "value=Medias")

montecarlo <- function(FUN, n, R) {
              map_dfc(n, ~ Media_Muestral(FUN, .x, R)) %>% 
              cbind(simulaciones = 1:R) %>% 
              pivot_longer(-simulaciones, names_to = "n", values_to = "value") %>% 
              mutate(n = str_extract(n, "\\d+"), n = as.numeric(n))
}

# Al data frame anterior, se le agrega otra columna que contine los valores Z. Es decir, es un data frame de RxK filas y 4 columnas ("simulaciones", "n", "value=Medias" y "Z")

montecarlo_con_Z <- function(FUN, n, R, mu, sigma) {
                    montecarlo(FUN, n, R) %>%
                    rename(Media = value) %>% 
                    group_by(n) %>% 
                    mutate(z = (Media - mu)/ (sigma/sqrt(n))) %>% 
                    ungroup() %>% 
                    mutate(n = factor(n, ordered = TRUE))
}

Distribución binomial:

#library(tidyverse)

FUN <- rbinom  # Bernoulli con parámetros m=1 y p=0.5
m=1
p=0.5
n <- c(5, 10, 20, 30, 50, 100, 200, 400, 600) # Tamaño muestral n
R <- 3000                 # Número de muestras de tamaño n que se van a seleccionar
mu <- m*p                 # Media de la variable
varianza <- m*p*(1-p)     # Varianza de la variable
sigma <- sqrt(varianza)   # Desviación de la variable

Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)

Muestreo %>% 
  ggplot(aes(z, fill = n)) +
  geom_density(aes(group = NA)) +
  gganimate::transition_states(n,
                               transition_length = 2,
                               state_length = 1
                              ) +
  
  stat_function(fun = dnorm, aes(color = 'Normal'),
                args = list(mean = 0, sd = 1),
                inherit.aes = FALSE,
                size=1.5
               ) +
  
  gganimate::enter_fade() +
  gganimate::exit_shrink() +
  
  labs(subtitle = "Sample size n= {closest_state}",
       title = "Distribution of Sample Mean: binomial",
       caption = "Theoretical distribution is standard normal",
       y = "Sample mean from binomial") +
  
 gganimate::view_follow() -> Densidad

# VIDEO OUTPUT:

#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)

animate(Densidad +
        enter_fade() + 
        exit_fly(y_loc = 1), 
        # La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
        fps=5,  
        # La duración de la animación en segundos (sin configurar de forma predeterminada)
        #duration = 30 
        renderer = av_renderer()
       )

3 Estimador y estimación

Es importante resaltar que cualquier inferencia sobre la población tendrá que basarse necesariamente en estadísticos muestrales, es decir, en funciones de la información muestral. La elección apropiada de estos estadísticos dependerá de cuál sea el parámetro de interés de la población. Como el verdadero parámetro suele desconocerse en sí, un objetivo será estimar su valor.

Definition 3.1 (Estimación y estimador) La estimación estadística es el proceso mediante el cual intentamos determinar el valor de un parámetro de la población, sin hacer un censo y a partir de la información de una muestra. Una estimación, en concreto, es el valor numérico que asignamos a un parámetro, y el estimador es el estadístico de la muestra utilizado para hacer una estimación.

El siguiente ejemplo aclara la distinción entre los términos estimador y estimación.

Example 3.1 Supongamos que queremos estimar el ingreso medio de las familias de un barrio con base en una muestra de 20 familias y que resulta razonable basar nuestras conclusiones en el ingreso medio muestral. Entonces, diremos que el estimador de la media muestral es la media muestral \(\overline{X}\). Supongamos luego que, habiendo tomado la muestra, hallamos que el promedio \(\overline{x}\) de los ingresos es de $335.250. Entonces, también, la estimación de la media de la población es $335.250. Obsérvese que ya habíamos planteado esta distinción al utilizar diferente notación: hemos utilizado la variable aleatoria \(\overline{X}\) para designar al estimador y a \(\overline{x}\) para designar un valor particular de \(\overline{X}\). \(\blacktriangleleft\)

4 Algunos criterios para examinar estimadores

4.0.1 Insesgo

Si el valor esperado del estadístico muestral es igual al parámetro poblacional que se estima, se dice que ese estadístico es un estimador insesgado del parámetro poblacional.

Definition 4.1 (Estimador insesgado) Se dice que un estimador \(\widehat{\theta}\) es insesgado, si el valor esperado del estimador es igual al parámetro de la población que está estimando, es decir, \(E(\widehat{\theta})=\theta\). Evidentemente, si \(E(\widehat{\theta})\ne\theta\), se dice que el estimador es sesgado. Llamaremos sesgo a la diferencia entre la media del estimador \(\widehat{\theta}\) y el parámetro \(\theta\), es decir,

\[\text{Sesgo $(\widehat{\theta})$} = E(\widehat{\theta}) - \theta.\]

Remark.

Obsérvese que el sesgo de un estimador insesgado es 0.\(\blacktriangleleft\)

Algunos estadísticos que son estimadores insesgados de sus correspondientes parámetros poblacionales son la media, la varianza y la proporción muestrales.

Example 4.1 Supóngase que \(X\) es una variable aleatoria con media \(\mu\) y varianza \(\sigma^2\). Sea \((X_1, X_2, \ldots, X_n)\) una muestra aleatoria de tamaño \(n\) tomada de una población representada por \(X\), es decir, cada variable muestral \(X_i\) también tiene media \(\mu\) y varianza \(\sigma^2\). Entonces: (a) \(E(\overline{X})=\mu\) y (b) \(E(s^2)= \sigma^2\).\(\blacktriangleleft\)

Remark.

Este ejemplo muestra que la media y la varianza son estimadores insesgados de los correspondientes parámetros poblacionales. Por esta razón, al definir la varianza muestral, dividimos la suma de los cuadrados de las discrepancias por \(n-1\) en lugar de \(n\). En el primer caso, se obtiene un estimador insesgado, mientras que en el segundo, no, pues la media de la desviación típica muestral no es la desviación típica poblacional. Por tanto, la desviación típica muestral no es un estimador insesgado de la desviación típica poblacional.\(\blacktriangleleft\)

Sin embargo, hay estadísticos que no son estimadores insesgados del parámetro poblacional correspondiente, como se muestra en el siguiente ejemplo.

Example 4.2 Debido a que la media de la desviación típica muestral \(S\) no es la desviación típica poblacional \(\sigma\), es decir, debido a que \(E(S)\ne \sigma\), entonces, la desviación típica muestral no es un estimador insesgado de la desviación típica poblacional. \(\blacktriangleleft\)

4.0.2 Eficiencia

Definition 4.2 (Estimador eficiente) Sean \(\widehat{\theta}_1\) y \(\widehat{\theta}_2\) dos estimadores insesgados de \(\theta\), obtenidos en muestras del mismo tamaño. Entonces,

  1. Se dice que \(\widehat{\theta}_1\) es más eficiente que \(\widehat{\theta}_2\), si la varianza de la distribución muestral de \(\widehat{\theta}_1\) es menor que la de la distribución muestral de \(\widehat{\theta}_2\). Es decir, si \(V(\widehat{\theta}_1)<V(\widehat{\theta}_2)\).
  1. La eficiencia relativa de \(\widehat{\theta}_2\), con respecto a \(\widehat{\theta}_1\), es el cociente \(\frac{V(\widehat{\theta}_2)}{V(\widehat{\theta}_1)}\) de sus varianzas.

Example 4.3 Sea \(X_1, X_2, \ldots, X_n\) una muestra aleatoria de una distribución normal con media \(\mu\) y varianza \(\sigma^2\). La media muestral \(\overline{X}\) es un estimador insesgado de la media de la población con varianza:

\[V(\overline{X}) = \frac{\sigma^2}{n}.\]

Si utilizamos como un estimador alternativo la mediana de las observaciones, puede probarse que este estimador tiene distribución normal y también es insesgado para \(\mu\) y que su varianza es: \[V(\text{Mediana}) \;= \; \frac{\pi}{2}\cdot \frac{\sigma^2}{n} \;\approx \; 1.57\, V(\overline{X})\]

Por consiguiente, al tomar muestras de una población de una población normal, se evidencia que la media muestral es más eficiente que la mediana. De manera concreta, la eficiencia relativa de la media con respecto a la mediana es:

\[\text{Eficiencia relativa} \;= \; \frac{V(\text{Mediana})}{V(\overline{X})} \,= \; 1.57\]

Es decir, la varianza de la mediana muestral es un 57 % mayor que la de la media muestral. O, de otra manera, para obtener una mediana con la misma varianza que la media debe tomarse una muestra con un 57 % más de observaciones. Sabemos de antemano que que una ventaja de la mediana sobre la media es que da mucho menos peso a observaciones extremas. Ahora vemos, observando la eficiencia relativa, una desventaja potencial de utilizar la mediana muestral como medida de centralización. \(\blacktriangleleft\)

4.0.3 Varianza mínima

En algunos problemas de estimación, el estimador puntual con la menor varianza posible puede encontrarse dentro de un grupo de estimadores insesgados; pero, sólo en pocos casos, puede encontrarse el más eficiente de todos los estimadores insesgados de un parámetro.

Definition 4.3 Si \(\widehat{\theta}\) es un estimador insesgado de \(\theta\) y no hay ningún otro estimador insesgado que tenga menor varianza, entonces, se dice que \(\widehat{\theta}\) es el estimador insesgado más eficiente o de mínima varianza de \(\theta\).

Example 4.4 Algunos ejemplos de estimadores insesgados de mínima varianza son:

  1. La media muestral, cuando la muestra proviene de una distribución normal.

  2. La varianza muestral, también cuando la muestra proviene de una una distribución normal.

  3. La proporción muestral binomial.\(\blacktriangleleft\)

Las propiedades de los estimadores insesgados de mínima varianza los hace muy atractivos, pero, lamentablemente, no siempre es posible encontrar un estimador de este tipo. \(\blacktriangleleft\)

4.0.4 Consistencia

Otra propiedad asociada con los buenos estimadores puntuales es la consistencia, propiedad que se puede definir como se indica a continuación.

Definition 4.4 (Estimador consistente) Un estimador puntual \(\widehat{\theta}\) de \(\theta\) es consistente para \(\theta\) si sus valores tienden a acercarse al parámetro poblacional \(\theta\) conforme se incrementa el tamaño de la muestra. De otro modo, el estimador se llama inconsistente.

Es importante recalcar que no todos los estimadores insesgados son consistentes, como también que no todos los estimadores consistentes son insesgados.

Example 4.5 Al muestrear de una población normal, la desviación típica muestral es consistente para la desviación típica poblacional. Lo anterior también es cierto para el caso de la media y la varianza en relación con sus correspondientes parámetros poblacionales. Igualmente, la proporción muestral es consistente para la proporción poblacional. \(\blacktriangleleft\)

4.0.5 Suficiencia

Es natural pedir que la reducción de los datos” de \(x\) a \(T(X)\) sea suficientemente informativa para el parámetro \(\theta\). O sea, que no se pierda alguna información relevante para el problema. Por esta razón es importante la siguiente definición.

Definition 4.5 (Estimador suficiente) Un estadístico \(S(X)\) es suficiente para \(\theta\) si y sólo si, para todo valor \(s\) de \(S(X)\), la distribución condicional de \(X\) dado \(S(X)=s\) no depende de \(\theta\).

Remark.

Con \(g(s,\theta)\) notaremos la distribución de la estadística \(S(X)\) y con \(h(x/s)\) la distribución condicional de \(X\) dado \(S(X)=s\), la cual no depende de \(\theta\) cuando \(S(X)\) sea suficiente. \(\blacktriangleleft\)

Example 4.6 Sea \(X=(X_1, \ldots, X_n)^t\) una muestra aleatoria con variables muestrales \(X_i \sim \mathcal{B}(1,p)\). Entonces, \(S(X)=\sum\limits_{i=1}^n X_i\) es un estadístico que consiste en mirar sólo a \(s= S(x) = \sum\limits_{i=1}^n x_i\), en lugar de mirar todos los datos \(x=(x_1, \ldots, x_n)\), siendo \(x_i\in \{0,1\}\). Entonces, \(S(X)\) es un estadístico suficiente para \(p\).\(\blacktriangleleft\)

Remark.

Nótese que este resultado es una justificación para afirmar que, al tomar a \(\sum\limits_{i=1}^n X_i\) como una muestra de tamaño 1, en lugar de la muestra original \((X_1, \ldots, X_n)^t\) de tamaño \(n\), no se pierde información. \(\blacktriangleleft\)

Example 4.7 Sea \(X=(X_1, \ldots, X_n)^t\) una muestra aleatoria con variables muestrales \(X_i \sim \mathcal{N}(\mu,\sigma^2)\). Supongamos que \(\sigma^2\) es conocida, es decir, el parámetro es \(\theta=\mu\). Entonces, \(S(X)=\sum\limits_{i=1}^n X_i\) es un estadístico estadístico suficiente para \(\mu\).\(\blacktriangleleft\)

Remark.

Para el caso en que la varianza \(\sigma^2\) sea desconocida, es decir, con \(\theta=(\mu, \sigma^2)^t\) como parámetro, ¿Existe un estadístico estadístico suficiente \(S(X)=\big(S_1(X), S_2(X)\big)^t\) para \(\theta\)? ¿Cuál sería?

A veces, no es obvio cuáles estadísticos son suficientes. Aunque se puedan adivinar, los cálculos para \(h(x/s)\) pueden resultar muy dispendiosos. En muchos casos, no son necesarios como se muestra en el siguiente teorema.

Theorem 4.1 (Teorema de factorización de Fisher-Neyman) Un estadístico \(S(X)\) es suficiente para el parámetro \(\theta\) si y sólo si existen funciones (medibles) \(G\) y \(H\) tales que

\[f(x, \theta)\;=\; G\big(S(x),\theta\big) \cdot H(x)\]

para cada \(x\in \mathbb{R}^n\), \(\theta\in\Theta\).

Proof:

Ver la demostración en la literatura citada.\(\blacksquare\)

Example 4.8 En el ejemplo 4.6 se puede tomar \(G\big(S(x),p\big)= f(x,p)\) y \[H(x) = \left\{ \begin{array}{ll} 1, & \hbox{si cada $x_i\in \{0,1\}$;} \\ 0, & \hbox{de otro modo.} \end{array} \right.\]

Example 4.9 En el ejemplo 4.7 se puede tener en cuenta que \[\sum\limits_{i=1}^n (x_i-\mu)^2 \;= \; n\mu^2 - 2s\mu + \sum\limits_{i=1}^n y_i^2, \qquad S(y)=s\]

para obtener la factorización \[\begin{align*} &G\big(S(x),\mu\big) = \frac{1}{(\sqrt{2\pi \sigma^2})^n} \exp\left(-\frac{1}{2\sigma^2} (n\mu^2 - 2s\mu)\right),\\ &H(x) = \exp \left(-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n y_i^2\right) \tag*{$\blacktriangleleft$} \end{align*}\]

Para el caso en que la función de distribución depende de dosó mas parámetros se tiene la siguiente definición.

Definition 4.6 Sea \(X=(X_1,\ldots, X_n)^t\) una muestra aleatoria de una población con función de distribución \(f(x,\theta)\), donde \(\theta\in \Theta \subseteq \mathbb{R}^k\). Los estadí sticos \(S_1, \ldots, S_k\) con \(S_i:=S_i(X)\) para cada \(i=1, \ldots, k\), se denominan estadísticos conjuntamente suficientes para \(\theta\) si y sólo si la distribución de \(X\) dado \(S_1,\ldots, S_k\) no depende de \(\theta\).

El teorema de factorización 4.1 también puede ser extendido como se muestra a continuación.

Theorem 4.2 (Teorema de factorización de Fisher-Neyman) Sea \(X=(X_1,\ldots, X_n)^t\) una muestra aleatoria de una población con función de distribución \(f(x,\theta)\), donde \(\theta\in \Theta \subseteq \mathbb{R}^k\). El vector de estadísticos \(S=(S_1,\ldots, S_k)^t\) es conjuntamente suficiente para \(\theta\) si y sólo si se puede encontrar dos funciones no negativas \(G\) y \(H\) tales que

\[f(x,\theta)=G(S(x),\theta)\cdot H(x),\]

donde \(h(x)\) no depende de \(\theta\).

Proof:

Ver la demostración en la literatura citada.\(\blacksquare\)

Example 4.10 Sea \(X_1,\ldots, X_n\) una muestra aleatoria de una población normal de media \(\mu\) y varianza \(\sigma^2\). Sea \(\theta=(\mu,\sigma^2)^t\). Entonces,

\[\begin{eqnarray*} f(x_1,\ldots, x_n,\theta) &=& \prod\limits_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left\{-\frac{1}{2}\left(\frac{x_i-\mu}{\sigma}\right)^2\right\}\\ &=& \frac{1}{(\sqrt{2\pi\sigma^2})^n} \exp \left\{-\frac{1}{2\sigma^2}\left(\sum\limits_{i=1}^n x_i^2-2\mu\sum\limits_{i=1}^n x_i +n\mu^2 \right)\right\}\\ &=& \frac{1}{(\sqrt{2\pi\sigma^2})^n} \exp \left\{\frac{\mu}{\sigma^2}\sum\limits_{i=1}^n x_i - \frac{1}{2\sigma^2}\sum\limits_{i=1}^n x_i^2- \frac{n\mu^2}{2\sigma^2}\right\}\\ &=& G\left(\sum\limits_{i=1}^n x_i, \sum\limits_{i=1}^n x_i^2, \theta\right)\cdot H(x_1,\ldots, x_n) \end{eqnarray*}\]

con \(H(x_1,\ldots, x_n)=1\). Luego \(\sum\limits_{i=1}^n X_i\) y \(\sum\limits_{i=1}^n X_i^2\) son conjuntamente suficientes para \(\theta=(\mu,\sigma^2)^t\). \(\blacktriangleleft\)

5 Métodos clásicos de estimación

En general, la definición de insesgo no indica cómo se generan los estimadores insesgados. Por esta razón, en esta sección, se consideran dos métodos para la obtención de estimadores puntuales de parámetros de distribuciones. Existen otros métodos de estimación como, por ejemplo, el método por analogía, el método de estimación bayesiana, etc. Si se quiere detalles al respecto, véase la literatura recomendada.

  1. El primero, llamado método de momentos, es un método sencillo, que propuso originalmente K. Pearson en 1894.

  2. El segundo, denominado método de máxima verosimilitud, es más complejo. Lo usó, en principio, C. F. Gauss hace más de 170 años para resolver ciertos problemas, fue formalizado por R. A. Fisher a comienzos del siglo XX y se ha usado ampliamente desde entonces.

5.0.1 Método de momentos

Estudiemos primero la siguiente definición:

Definition 5.1 (Momentos) Sean \(X_1\), \(X_2\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\) y \(X\) cualquier variable aleatoria.

  1. El \(k\)-ésimo momento (poblacional) de \(X\) se define como la esperanza \(E(X^k)\) de \(X^k\).
  1. El \(k\)-ésimo momento muestral de \(X_1\), \(X_2\), \(\ldots\), \(X_n\), denotado por \(M_k\), se define como sigue: \[M_k := \frac{\sum\limits_{i=1}^n X_i^k}{n}\]

Por lo tanto, el primer momento (poblacional) de \(X\) es \(E(X)\) y el primer momento muestral \(M_1= \overline{X}\). El segundo momento (poblacional) de \(X\) es \(E(X^2)\) y el segundo momento muestral es \(M_2= \sum X_i^2/n\). Sobre lo anterior, es importante aclarar que los momentos poblacionales serán funciones de algunos parámetros desconocidos \(\theta_1, \theta_2, \ldots\)

Definition 5.2 (Método de momentos) Sea \(X_1\), \(X_2\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\). Supongamos que cada \(X_i\) tiene la misma distribución de probabilidad con parámetros desconocidos \(\theta_1, \theta_2, \ldots, \theta_m\). Entonces, los estimadores de momentos \(\widehat{\theta}_1, \widehat{\theta}_2, \ldots, \widehat{\theta}_m\) se obtienen al igualar los primeros \(m\) momentos muestrales con los correspondientes primeros \(m\) momentos poblacionales y despejar \(\theta_1, \theta_2, \ldots, \theta_m\). Este procedimiento se conoce como método de momentos.

Remark.

Es importante precisar que hay casos en que el estimador de momentos falla.

Example 5.1 Un silvicultor planta cinco hileras de 200 plantas de pino, pretendiendo que cada una de las cuales sirva como barrera contra el viento. Las condiciones de suelo y viento a que están sometidas las plantas son similares.

  1. Use el método de momentos para obtener un estimador de \(p\), relativo a la proporción de plantas por hilera que sobrevive al primer invierno.

  1. Si al realizar el experimento se obtienen \(x_1=18\), \(x_2=15\), \(x_3=20\), \(x_4=17\) y \(x_5=19\), siendo \(x_i\) el número de plantas en la \(i\)-ésima hilera que sobrevive al primer invierno, halle una estimación puntual de \(p\).

Solution:

  1. La variable que se estudia es \(X\), entendida como el número de plantas por hilera que sobrevive al primer invierno. Se trata, además, de una muestra aleatoria de tamaño \(m=5\) de una distribución binomial con parámetros \(n=20\) y \(p\) desconocida. Por consiguiente, \(E(X)=np = 20 p\). Ahora, se sustituye el primer momento de \(X\), \(E(X)\), con su estimador \(M_1 = \frac{\sum_{i=1}^m X_i}{5} = \overline{X}\), para obtener la ecuación \(\overline{X}=20\widehat{p}\). Esta ecuación se resuelve para \(\widehat{p}\) a fin de obtener el estimador: \(\widehat{p} = \frac{\overline{X}}{20}\).
  1. Para estos datos \(\overline{x}=17,8\). De modo que la estimación de \(p\), con el método de momento es: \[\begin{align*} \widehat{p}\;= \; \frac{\overline{x}}{20} \;= \; \frac{17,8}{20} \;= \; 0,89\tag*{$\blacktriangleleft$} \end{align*}\]

En ocasiones, se estiman dos parámetros, \(\theta_1\) y \(\theta_2\), a partir de una sola muestra, como se describe en el siguiente ejemplo:

Example 5.2 Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de una distribución gamma, con parámetros \(\alpha\) y \(\beta\) desconocidos. Sabemos que \(E(X)=\alpha \beta\) y \(V(X)=\alpha \beta^2\). Recuerde que \(V(X)=E(X^2)-[E(X)]^2\), por lo que los primeros dos momentos de \(X\) son funciones de \(\alpha\) y \(\beta\). Las ecuaciones que relacionan los momentos con estos parámetros desconocidos son:

\[E(X)=\alpha \beta, \qquad E(X^2)-[E(X)]^2 = \alpha \beta^2\]

A continuación, se sustituyen \(E(X)\) y \(E(X^2)\) por sus estimadores, \(M_1\) y \(M_2\), respectivamente, para obtener: \[M_1=\widehat{\alpha}\, \widehat{\beta}, \qquad M_2-M_1^2=\widehat{\alpha} \,\widehat{\beta}^2.\]

Y, al resolver simultáneamente este conjunto de ecuaciones, se puede ver que \(M_2-M_1^2=M_1\widehat{\beta}\). Ello implica que: \[\begin{align*} \widehat{\beta}= \frac{M_2-M_1^2}{M_1}, \qquad \widehat{\alpha} = \frac{M_1}{\widehat{\beta}} =\frac{M_1^2}{M_2-M_1^2}\tag*{$\blacktriangleleft$} \end{align*}\]

5.0.2 Método de máxima verosimilitud (ML-estimación)

Este método es uno de los mejores para obtener un estimador puntual de un parámetro. Tal como su nombre lo implica, el estimador será el valor del parámetro que maximiza la función de verosimilitud.

Definition 5.3 (Método de máxima verosimilitud) Sea \(X_1\), \(X_2\), \(\ldots\), \(X_n\) una muestra aleatoria con función de probabilidad (o de densidad) conjunta

\[f(x_1, x_2, \ldots, x_n; \theta_1, \theta_2, \ldots, \theta_n),\]

donde \(x_1\), \(x_2\), \(\ldots\), \(x_n\) son los valores muestrales observados y los parámetros \(\theta_1\), \(\theta_2\), \(\ldots\), \(\theta_n\) son desconocidos. La función de verosimilitud de la muestra se obtiene fijando los valores muestrales y escribiendo \(f\) como una función que depende sólo de los parámetros, es decir, es la función \(L\), definida por:

\[L(\theta_1, \theta_2, \ldots, \theta_n)= f(x_1, x_2, \ldots, x_n; \theta_1, \theta_2, \ldots, \theta_n).\]

Las estimaciones de máxima verosimilitud de \(\theta_1, \theta_2, \ldots, \theta_n\) son los valores de las \(\theta_i\) que maximizan a \(L\), de modo que

\[L(\theta_1, \theta_2, \ldots,\theta_n)\leq L(\widehat{\theta}_1, \widehat{\theta}_2, \ldots, \widehat{\theta}_n)\]

para toda \(\theta_1, \theta_2, \ldots, \theta_n\). Así, cuando las \(x_i\) son sustituidas por las \(X_i\), resultan los estimadores de máxima verosimilitud. Este procedimiento se conoce como método de máxima verosimilitud.

Remark.

Sea \(f_i\) la función de probabilidad (o de densidad) marginal con parámetro \(\theta_i\) de la variable muestral \(X_i\), para \(i=1,2,\ldots, n\). Entonces, debido que las \(X_i\) son independientes entre sí, tenemos que: \[L(\theta_1, \theta_2, \ldots,\theta_n) \;= \; f_1(x_1; \theta_1)\, f_2(x_2; \theta_2) \cdots f_n(x_n; \theta_n) \;= \; \prod\limits_{i=1}^n f_i(x_i; \theta_i)\]

para todo valor muestral \(x_i\) de \(X_i\). A continuación, ilustraremos con algunos ejemplos la aplicación del método de máxima verosimilitud para estimar parámetros.

Example 5.3 Para variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de probabilidad de Bernoulli con parámetro \(p\), aplique el estimador de máxima verosimilitud para hallar \(\widehat{p}\) y verifique si el estimador de máxima verosimilitud es insesgado.

Solution:

Para cada \(i=1, \ldots, n\), la función de probabilidad \(f_i\) de \(X_i\) está dada por: \[f_i(x_i; p) \;= \; \left\{% \begin{array}{ll} p^{x_i}(1-p)^{1-x_i}, & \hbox{$x_i=0,1$;} \\ 0, & \hbox{de otra forma.} \\ \end{array}% \right. \]

Por tanto, la función de verosimilitud \(L\) de una muestra de tamaño \(n\) depende únicamente de \(p\) y es: \[L(p) \,= \; \prod\limits_{i=1}^n f_i(x_i;p) \;= \; \prod\limits_{i=1}^n p^{x_i}(1-p)^{1-x_i} \;= \; p^{\sum_{i=1}^n x_i}(1-p)^{n\,-\, \sum_{i=1}^n x_i}.\]

Se observa que si \(\widehat{p}\) maximiza \(L(p)\), entonces, también maximiza \(\mathcal{L}(p):=\ln L(p)\). Por lo tanto, \[\mathcal{L}(p) \;= \; \left(\sum\limits_{i=1}^n x_i\right) \ln(p) \, + \, \left(n\,-\, \sum\limits_{i=1}^n x_i\right) \ln(1-p).\]

Ahora bien, como: \[\frac{d\,\mathcal{L}(p)}{dp} \;= \; \frac{\sum\limits_{i=1}^n x_i}{p} \, + \, \frac{n\,-\, \sum\limits_{i=1}^n x_i}{1-p},\]

al igualar a cero la expresión anterior y resolver para \(p\), se tiene que \(\widehat{p}=\overline{x}\). En consecuencia, el estimador de máxima verosimilitud de \(p\) es \(\widehat{p}=\overline{X}\). Se puede verificar que \(E(\widehat{p})=p\), lo cual demuestra que \(\widehat{p}\) es un estimador insesgado de \(p\). \(\blacktriangleleft\)

Example 5.4 Para variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de densidad exponencial con parámetro \(\lambda\), aplique el estimador de máxima verosimilitud para hallar \(\widehat{\lambda}\) y verifique si el estimador de máxima verosimilitud es insesgado.

Solution:

Para cada \(i=1, \ldots, n\), la función de densidad \(f_i\) de \(X_i\) está dada por: \[f_i(x_i; p) \;= \; \left\{% \begin{array}{ll} \lambda\, e^{-\lambda x_i}, & \hbox{$x_i\geq 0$;} \\ 0, & \hbox{de otra forma.} \\ \end{array}% \right. \]

Por tanto, la función de verosimilitud \(L\) de una muestra de tamaño \(n\) depende únicamente de \(\lambda\) y es: \[L(\lambda) \,= \; \prod\limits_{i=1}^n f_i(x_i;\lambda) \;= \; \prod\limits_{i=1}^n \lambda\, e^{-\lambda x_i} \;= \; \lambda^n\, e^{-\lambda \sum_{i=1}^n x_i}.\]

Como se explicó en el ejemplo anterior, si \(\widehat{\lambda}\) maximiza \(L(\lambda)\), entonces, también maximiza \(\mathcal{L}(\lambda):=\ln L(\lambda)\). Por lo tanto, \[\mathcal{L}(\lambda) \;= \; n\ln(\lambda) \,-\, \lambda \sum\limits_{i=1}^n x_i.\]

Ahora, \[\frac{d\,\mathcal{L}(\lambda)}{d\lambda} \;= \; \frac{n}{\lambda} \, - \, \sum\limits_{i=1}^n x_i.\]

De manera que, al igualar a cero la expresión anterior y resolver para \(\lambda\), se tiene que \[\widehat{\lambda}=1/\,\overline{x}\]

En consecuencia, el estimador de máxima verosimilitud de \(\lambda\) es \(\widehat{\lambda}=1/\overline{X}\). Pero, debido a que \(E(1/\overline{X})\ne 1/E(\overline{X})\), podemos afirmar que \(\widehat{\lambda}\) no es un estimador insesgado de \(\lambda\). \(\blacktriangleleft\)

5.0.3 Propiedades de los estimadores de máxima verosimilitud

En primer lugar, podemos decir que los estimadores de máxima verosimilitud tienen la propiedad de invarianza, la cual se describe en el siguiente teorema, el cual presentamos sin demostración.

Theorem 5.1 (Principio de invarianza) Si \(\widehat{\theta}_1\), \(\widehat{\theta}_2\), \(\ldots\), \(\widehat{\theta}_k\) son los estimadores de máxima verosimilitud de los parámetros \(\theta_1\), \(\theta_2\), \(\ldots\), \(\theta_k\), respectivamente, entonces, el estimador de cualquier función \(h(\theta_1, \theta_2, \ldots, \theta_k)\) de estos parámetros es la misma función \(h(\widehat{\theta}_1, \widehat{\theta}_2, \ldots, \widehat{\theta}_k)\) de los estimadores \(\widehat{\theta}_1\), \(\widehat{\theta}_2\), \(\ldots\), \(\widehat{\theta}_k\).

Proof:

Ver la demostración en la literatura citada.\(\blacksquare\)

Example 5.5 Encuéntrese el estimador de máxima verosimilitud de la desviación \(\sigma\) para el caso de la distribución normal con parámetros \(\mu\) y \(\sigma^2\).

Solution: Se puede demostrar que que los estimadores de máxima verosimilitud de \(\mu\) y \(\sigma^2\) son: \[ \widehat{\mu} = \overline{X}, \qquad {\widehat{\sigma}}^2 = \frac{1}{n} \sum\limits_{i=1}^n(X_i-\overline{X})^2,\]

respectivamente. Definamos una función \(h\) como \(h(\mu, \sigma^2) = \sqrt{\sigma^2}=\sigma\) y, para obtener el estimador de máxima verosimilitud de \(\sigma\), sustituimos los estimadores de máxima verosimilitud en la función \(h\) de la siguiente manera: \[\widehat{\sigma}\;= \; \sqrt{\widehat{\sigma}^2} \;= \; \sqrt{\frac{1}{n}\sum\limits_{i=1}^n (X_i-\overline{X})^2}\]

Observamos que el estimador máxima verosimilitud de \(\sigma\) no es la desviación estándar muestral \(S\), aunque estén muy cerca, a menos que \(n\) sea muy pequeña. \(\blacktriangleleft\)

En segundo lugar, podemos afirmar que, para muestras grandes, los estimadores de máxima verosimilitud tienen buenas propiedades asintóticas, como se muestra en el siguiente teorema.

Theorem 5.2 El estimador de máxima verosimilitud \(\widehat{\theta}\) de cualquier parámetro \(\theta\) es insesgado para \(n\) grande y tiene una varianza casi tan pequeña como la que puede obtenerse con otro estimador. Esto implica que el estimador de máxima verosimilitud \(\widehat{\theta}\) es, de manera aproximada, el estimador insesgado más eficiente (o de mínima varianza) de \(\theta\) para \(n\) grande.

Proof:

Ver la demostración en la literatura citada.\(\blacksquare\)

6 Estimación mediante algoritmos de aprendizaje

6.0.1 Justificación

Además de los métodos clásicos de estimación como el método de los momentos o la máxima verosimilitud, existen enfoques modernos que utilizan optimización numérica y algoritmos computacionales para estimar funciones o relaciones directamente a partir de datos.

Uno de estos enfoques es el uso de redes neuronales artificiales, las cuales buscan ajustar una función no lineal que aproxima la relación entre las variables de entrada y salida, minimizando un error (por ejemplo, el error cuadrático medio) mediante un procedimiento iterativo conocido como retropropagación o backpropagation.

En este enfoque:

  • La red tiene parámetros (pesos y sesgos) que actúan como estimadores.

  • Se parte de valores iniciales aleatorios y se actualizan mediante descenso de gradiente.

  • Se entrena la red para que aprenda una función, incluso si no conocemos su forma explícita.

Este método se puede considerar como un caso particular de estimación basada en datos, donde el objetivo no es estimar un parámetro específico, sino una función completa.

6.0.2 Ejemplo ilustrativo

El siguiente recurso presenta una red neuronal entrenada para aprender la función lógica XOR, que no puede ser representada por un modelo lineal. Ver explicación paso a paso en este documento.

Nota

Mientras que los métodos clásicos buscan estimar pocos parámetros bajo supuestos conocidos, los métodos modernos como las redes neuronales estiman miles de parámetros sin necesidad de conocer la distribución, usando solo datos. Ambos enfoques tienen su lugar en el análisis estadístico moderno.”

7 Ejercicios

Realizar los ejercicios que se indican abajo.

7.0.1 Ejercicios del 1 al 3

  1. Supóngase que \(X\) es una variable aleatoria con media \(\mu\) y varianza \(\sigma^2\). Sea \(X\) una muestra aleatoria de tamaño \(n\) tomada de una población representada por \(X\). Demostrar que: (a) \(E(\overline{X})=\mu\) y (b) \(E(s^2)= \sigma^2\).
  1. Para variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de densidad normal con parámetros \(\mu\) y \(\sigma^2\), aplique el estimador de máxima verosimilitud para hallar \(\widehat{\mu}\) y \(\widehat{\sigma^2}\). Verifique, también, si los estimadores correspondientes de máxima verosimilitud son insesgados o no.
  1. Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de tiempos de servicios de \(n\) clientes en cierta planta, donde se supone que la distribución fundamental es exponencial con parámetro \(\lambda\) desconocido. Utilice, a partir de estos datos, el método de momentos para demostrar que \(\widehat{\lambda}=1/\overline{X}\).

7.0.2 Ejercicio 4

Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de una distribución binomial negativa, con parámetros \(r\) y \(p\) desconocidos. Utilice el método de momentos para demostrar que:

\[\widehat{p}=\frac{\overline{X}}{(\sum X_i^2/n) - \overline{X}^2}, \qquad \widehat{r}= \frac{\overline{X}^2}{(\sum X_i^2/n) - \overline{X}^2 - \overline{X}}\]

Observe que, aún cuando \(r\) debe ser positiva por definición, el denominador de \(\widehat{r}\) podría ser negativo, indicando que la distribución binomial negativa no es apropiada (o que el estimador de momentos falla).

7.0.3 Ejercicio 5

Tomando en cuenta las variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de densidad \(f_i\) de Rayleigh, definida por: \[f_i(x_i) = \frac{x_i}{\theta^2} e^{- x_i^2/2\theta^2}, \quad x_i> 0,\]

siendo \(\theta>0\) el parámetro de la distribución, aplique el método de máxima verosimilitud para demostrar que \[{\widehat{\theta}}^2= \frac{1}{2n}\sum\limits_{i=1}^n x_i^2\]

7.0.4 Ejercicio 6

Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\), que proviene de una distribución con media \(\mu\) y varianza \(\sigma^2\).

  1. Halle \(E(\overline{X}^2)\) y, con esto, demuestre que \(\overline{X}^2\) es un estimador sesgado de \(\mu\)

  2. Determine la magnitud del sesgo del estimador.

  3. ¿Qué sucede con el sesgo a medida que aumenta el tamaño de \(n\)?

7.0.5 Ejercicio 7

Sea \(X_1\) y \(X_2\) una muestra aleatoria de dos observaciones de una población con media \(\mu\) y varianza \(\sigma^2\). Considere al respecto los siguientes tres estimadores puntuales de \(\mu\):

\[\begin{eqnarray*} \overline{X}= \frac{1}{2}X_1 + \frac{1}{2}X_2, \qquad \widehat{\mu}_1 = \frac{1}{4}X_1 + \frac{3}{4}X_2, \qquad \widehat{\mu}_2 = \frac{1}{3}X_1 + \frac{2}{3}X_2. \end{eqnarray*}\]

  1. Demuestre que los tres estimadores son insesgados.
  1. ¿Cuál de los tres estimadores es más eficiente?
  1. Halle la eficiencia relativa de \(\overline{X}\) con respecto a los otros dos estimadores.

7.0.6 Ejercicio 8

Sea \(\widehat{\theta}_1\) un estimador insesgado de \(\theta_1\) y \(\widehat{\theta}_2\) un estimador insesgado de \(\theta_2\).

  1. Pruebe que \(\widehat{\theta}_1+\widehat{\theta}_2\) es un estimador insesgado de \(\theta_1+\theta_2\).
  1. Pruebe, también, que \(\widehat{\theta}_1-\widehat{\theta}_2\) es un estimador insesgado de \(\theta_1-\theta_2\).

7.0.7 Ejercicio 9

Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\) que proviene de una distribución con media \(\mu\) y varianza \(\sigma^2\). También, sea: \({\widehat{\sigma}}^2=\frac{1}{n}\sum^n_{i=1} (X_i-\overline{X})^2\).

  1. Demuestre que \(E({\widehat{\sigma}}^2)=\left(\frac{n-1}{n}\right)\sigma^2\) y, de aquí, que \({\widehat{\sigma}}^2\) es un estimador sesgado para \(\sigma^2\).
  1. Determine el sesgo del estimador.
  1. ¿Qué sucede con el sesgo a medida que aumenta \(n\)?

7.0.8 Ejercicio 10

Para una muestra con \(X_i \sim B(m_i, p)\) y valores \(y_i\in \{0,1,\ldots, m_i\}\) para \(i=1,2 \ldots, n\) demuestre que la ML-estimación de \(p\) es

\[\widehat{p}=\frac{\sum\limits_{i=1}^n y_i}{\sum\limits_{i=1}^n m_i}\]

7.0.9 Ejercicio 11

Si \(X\) es una variable aleatoria binomial con parámetros \(n\) y \(p\), demuestre que: (a) \(\widehat{p}=X/n\) es un estimador insesgado de \(p\).

(b) \(p'=\frac{X+\sqrt{n/2}}{n+\sqrt{n}}\) es un estimador sesgado de \(p\).

(c) El estimador \(p'\) del inciso (b) se vuelve insesgado cuando \(n\overrightarrow{}\infty\).

7.0.10 Ejercicios del 12 al 13

  1. Cierta clase de maíz tiene una producción esperada por acre de \(\mu_1\), con varianza \(\sigma^2\); mientras que la producción esperada para una segunda clase de maíz es \(\mu_2\) con la misma varianza \(\sigma^2\). Represente con \(s^2_1\) y \(s^2_2\) las varianzas muestrales de producciones, basadas en tamaños muestrales \(n_1\) y \(n_2\), respectivamente, de las dos clases de maíz. Demuestre que el siguiente estimador (combinado) es insesgado para \(\sigma^2\):

\[ \widehat{\sigma}^2 = \frac{(n-1)s_1^2 + (n-1)s_2^2}{n_1+n_2-2}\]

  1. Considere una muestra aleatoria \(X_1\), \(\ldots\), \(X_n\), de la función de densidad \[f(x;\lambda) = 0,5 (1+\lambda x), \quad -1\leq x\leq 1,\]

siendo \(-1 \leq \lambda \leq 1\). Demuestre que \(\widehat{\lambda}=3\overline{X}\) es un estimador insesgado de \(\theta\). Sugerencia: primero determine \(\mu=E(X)=E(\overline{X})\).

7.0.11 Ejercicio 14

Sea \(X=(X_1,\ldots, X_n)^t\) una muestra con variables muestrales \(X_i\) (discretas) distribuidas uniformemente en el conjunto discreto \(\{1,2, \ldots, \theta\}\). Es decir,

\[X_i \; \sim\; f_i(y_i, \theta) \;= \; \left\{ \begin{array}{ll} 1/\theta, & \hbox{si $x_i\in \{1,2, \ldots, \theta\}$;} \\ 0, & \hbox{si no.} \end{array} \right. \]

Sea \(M_n:=\max\{X_1,\ldots, X_n\}\) el máximo muestral de estas variables.

  1. Aplique el teorema de factorización para demostrar que \(S(Y)=M_n\) es un estadístico suficiente para \(\theta\).
  1. Demuestre que \(\widehat{\theta}=M_n\) es la ML-estimación de \(\theta\).

7.0.12 Ejercicio 15

Sean \(X\) y \(M_n\) como en el ejercicio 2.14.

  1. Halle la función de distribución acumulada de \(M_n\).
  1. La función de probabilidad de \(M_n\).
  1. La función de probabilidad condicional de \(X\) sabiendo que \(M_n=t\).
  1. Demuestre directamente que \(S(Y)=M_n\) es un estadístico suficiente para \(\theta\).

7.0.13 Ejercicio 16

Sea \(X=(X_1,\ldots, X_n)^t\) una muestra con variables muestrales \(X_i\) (continuas) distribuidas uniformemente en el intervalo \([0,\theta]\).

  1. Utilice el método de máxima verosimilitud para demostrar que \(\widehat{\theta}\) es el máximo de las observaciones muestrales.
  1. Encuentre un estadístico suficiente para \(\theta\).

7.0.14 Ejercicio 17

Se tiene interés en el problema de medir la dependencia del desgaste de una llanta de carro para diferentes cargas a las que se somete dicha llanta. Supongamos que se parte de un modelo probabilístico de regresión lineal \(Y= \delta + \beta x + e\). Es decir, se supone que la carga es una variable determinística \(x\in \mathbb{R}\) y que el desgaste es una variable aleatoria \(Y\) que depende linealmente de \(x\). Además, que \(e\) es una variable aleatoria que representa el error de esta medición. Para este modelo de regresión lineal y normal, en donde \(\theta=(\delta, \beta, \sigma^2)^t\):

  1. Encuentre un estadístico \(S(X)=\big(S_1(X), S_2(X), S_3(X)\big)^t\) suficiente para \(\theta\).
  1. Demuestre que \(\left(\overline{Y}, \quad \sum\limits_{i=1}^n(X_i -\overline{X})(Y_i-\overline{Y}), \quad \sum\limits_{i=1}^n(Y_i-\overline{Y})^2\right)^t\) también es suficiente para \(\theta\).
  1. Encuentre la ML-estimación de \(\theta\).

7.0.15 Ejercicio 18

Para una variable multinomial \[N=(N_1, \ldots, N_k)^t \; \sim \; M(n, p_1, \ldots, p_k)\]

muestre que \((N_1, \ldots, N_{k-1})^t\) es suficiente para \((N_1, \ldots, N_{k-1})^t\).

7.0.16 Ejercicio 19

Para una muestra \(X=(X_1,\ldots, X_n)^t\) con variables muestrales \(X_i \sim \mathcal{B}(m_i,p)\), muestre que \(SX=\sum\limits_{i=1}^n X_i\) es suficiente para \(p\):

  1. Directamente.
  1. Usando el teorema de factorización.

7.0.17 Ejercicio 20

Para variables muestrales \(X_1, \ldots, X_n\) que tienen distribución de Poisson con parámetro \(\lambda\), encuentre la ML-estimación \(\widehat{\lambda}\).

7.0.18 Ejercicio 21

  1. Considere una población genética, de la cual interesa sólo una característica que tenga origen en un sólo gen con dos alelos \(\alpha\) y \(\beta\). Como individuos se consideran los tres genotipos \(\alpha\alpha\), \(\alpha\beta\) y \(\beta\beta\). Para las probabilidades corresondientes, se supone que se cumple la ley de Hardy-Weinberg, es decir,

\[p_1=P(\alpha\alpha)=\theta^2, \quad p_2=P(\alpha\beta)=2\theta(1-\theta), \quad p_3=P(\beta\beta)=(1-\theta)^2\]

donde el parámetro de interés es \(\theta\) y se refiere a la probabilidad de que exista uno de los alelos (por ejemplo, \(\alpha\)) en la población de interés. Suponga que se observan ahora \(n\) individuos.

  1. Formule un modelo estadístico multinomial y mestre que la ML-estimación de \(\theta\) es \(\theta=(2n_1+n_2)/2n\), siendo \(n_1\) el número de los individuos con genotipo \(\alpha\alpha\); \(n_2\) el número de los individuos con genotipo \(\alpha\beta\); \(n_3\) el número de los individuos con genotipo \(\beta\beta\) y \(n=n_1+n_2+n_3\) el tamaño de la muestra. Dé una interpretación del resultado.
  1. Para una muestra de 50 genotipos se observan 5, 30 y 15 de los tipos \(\alpha\alpha\), \(\alpha\beta\) y \(\beta\beta\), respectivamente. Calcule \(\widehat{\theta}\) y \(p_i(\widehat{\theta})\) para cada \(i=1,2,3\).

7.0.19 Ejercicio 22

Para cada \(j=1,2 \ldots, J\) se supone el modelo \[Y_{jk}=\mu_j +\epsilon_{jk}, \quad \epsilon_{jk}\sim \mathcal{N}(0,\sigma^2), \quad k=1,\ldots, K, \quad \mbox{independientes}\]

  1. Demuestre que las ML-estimaciones para la \(j\)-ésima muestra \((Y_{j1}, \ldots, Y_{jk})^t\) son \[\widehat{\mu}_j = \frac{\sum\limits_{k=1}^K y_{jk}}{K}=: \overline{y}_{j\bullet} , \qquad\widehat{\sigma}^2 = \sum\limits_{k=1}^K (y_{jk}-\overline{y}_{j\bullet})^2/K\]
  1. En el modelo (a) se supone adicionalmente que \(\sigma_j^2=\sigma^2\) para cada \(j\) y que la independencia no sólo vale entre \(k=1, \ldots, K\) sino también entre \(j=1, \ldots, J\). Entonces se tiene una muestra \((Y_{11}, \ldots, Y_{Jk})^t\) de tamaño \(n=JK\). Demuestre que las ML-estimaciones para toda la muestra son \[\widehat{\mu}_j = \overline{y}_{j\bullet} , \qquad\widehat{\sigma}^2 = \sum\limits_{j=1}^J\sum\limits_{k=1}^K (y_{jk}-\overline{y}_{j\bullet})^2/n\]

7.0.20 Ejercicio 23

Para variables muestrales \((Y_{1k}, Y_{2k})^t\) con \(k=1,2, \ldots, K\) bi-normales de la forma \((Y_{1k}, Y_{2k})^t \; \sim \;\mathcal{ N}(\mu, \Sigma)\), siendo \(\mu=(\mu_1, \mu_2)^t\) y \[\Sigma \;= \; \left( \begin{array}{ll} \sigma_1^2 & \sigma_1\sigma_2\rho \\ \sigma_1\sigma_2\rho & \sigma_2^2 \end{array} \right)\] y donde los \(K\) vectores son independientes entre sí, demuestre que las ML-estimaciones de los parámetros \(\mu_1\), \(\mu_2\), \(\sigma^2_1\), \(\sigma_2^2\) y \(\rho\) son, respectivamente:

  1. Para \(\mu_1\) en \(Y_{1k}\): \[\widehat{\mu}_1 = \overline{Y}_{1\bullet} , \qquad\widehat{\sigma}_1^2 = \sum\limits_{k=1}^K (Y_{1k}-\overline{Y}_{1\bullet})^2/K\]
  1. Para \(\mu_2\) en \(Y_{2k}\): \[\widehat{\mu}_1 = \overline{Y}_{2\bullet} , \qquad\widehat{\sigma}_2^2 = \sum\limits_{k=1}^K (Y_{2k}-\overline{Y}_{2\bullet})^2/K\]
  1. Para \(\rho\): \[\widehat{\rho}\;= \; \frac{\sum\limits_{i=1}^K (Y_{1k}-\overline{Y}_{1\bullet})(Y_{2k}-\overline{Y}_{2\bullet})}{\sqrt{\left[\sum\limits_{i=1}^K (Y_{1k}-\overline{Y}_{1\bullet})^2\right] \left[ \sum\limits_{i=1}^K (Y_{2k}-\overline{Y}_{2\bullet})^2\right]}}\]

7.0.21 Ejercicio 24

Considere los datos XOR utilizados en este documento. Repita el procedimiento para:

  1. La primera observación x=(0,0).

  2. La tercera observación x=(1,1).

  3. La cuarta observación x=(1,0).

7.0.22 Ejercicio 25

Mini-red neuronal manual con todos los casos XOR. ¿La red puede aprender la función XOR con una sola neurona? ¿Qué deberías hacer para que lo logre (sugerencia: capas ocultas)?

# Base XOR
X <- matrix(c(0,0,
              0,1,
              1,0,
              1,1), ncol = 2, byrow = TRUE)
Y <- c(0,1,1,0)

# Visualizar
df <- data.frame(x1 = X[,1], x2 = X[,2], y = Y)
df

# Activación sigmoide
sigmoid <- function(z) 1 / (1 + exp(-z))

# Inicialización manual de pesos
set.seed(1)
w <- matrix(runif(2, -1, 1), ncol = 1)
b <- 0

# Simple red lineal con activación
forward <- function(x, w, b) sigmoid(x %*% w + b)

# Ver salidas
pred <- forward(X, w, b)
round(pred, 2)

7.0.23 Ejercicio 26

Considere los datos de la compuerta lógica AND:

# Datos: compuerta AND
X1 <- c(0, 0, 1, 1)
X2 <- c(0, 1, 0, 1)
Y  <- c(0, 0, 0, 1)  # salida AND

datos <- data.frame(X1, X2, Y)
datos
##   X1 X2 Y
## 1  0  0 0
## 2  0  1 0
## 3  1  0 0
## 4  1  1 1

En dos época, estime los parámetros correspondientes, considerando solo:

  1. La primera observación x=(0,0).

  2. La segunda observación x=(0,1).

  3. La tercera observación x=(1,1).

  4. La cuarta observación x=(1,0).

Bibliografía

Consultar el documento RPubs :: Teoría de Probabilidad y Estadística Matemática (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.