29/07/25
Abstract
La teoría mencionada puede revisarse en la BIBLIOGRAFÍA recomendada. En Rpubs:: toc se pueden ver otros documentos de posible interés.
library(ggplot2)
library(dplyr)
library(tidyr)
library(tidyverse)
#Para generar videos interctivos:
library(transformr)
library(av)
library(gifski)
library(gganimate)
A continuación, se enumeran algunos resultados que se aplicarán en este capítulo.Sus correspondientes demostraciones se pueden revisar en los siguientes documentos: Teoría de probabilidad y Distribución muestral.
Theorem 2.1 (Chi-cuadrada) Supongamos que \(\chi^2 (n)\) representa la distribución chi-cuadrada con \(n\) grados de libertad.
\(\chi^2(n)=\gamma\left(\frac{n}{2}, \frac{1}{2}\right)\).
Si \(X\stackrel{\atop d}{=} \mathcal{N}(0,1)\), entonces, \(X^2\stackrel{\atop d}{=} \chi^2(1)\).
A continuación, vemos algunas distribuciones chi-cuadradas.
#library(ggplot2)
grosor = 1 # Grosor de las líneas de la gráfica
ggplot(data.frame(x = 0:1000 / 100), aes(x = x)) +
xlim(0 , 10) +
stat_function(fun = dgamma, args = list(rate = 1, shape = 2), aes(colour = "1"), size=grosor) +
stat_function(fun = dgamma, args = list(rate = 2, shape = 2), aes(colour = "2 "), size=grosor) +
stat_function(fun = dgamma, args = list(rate = 3, shape = 2), aes(colour = "3"), size=grosor) +
stat_function(fun = dgamma, args = list(rate = 4, shape = 2), aes(colour = "4"), size=grosor) +
scale_color_manual("Parameter \n (n)", values = c("black", "blue", "red", "green")) +
labs(x = "\n x", y = "f(x) \n",
title = "Chi-square distribution") +
theme(plot.title = element_text(hjust = 0.5),
axis.title.x = element_text(face="bold", colour="blue", size = 12),
axis.title.y = element_text(face="bold", colour="blue", size = 12),
legend.title = element_text(face="bold", size = 10),
legend.position = "right")
Theorem 2.2 (Convoluciones especiales) Sean \(X_1, \ldots, X_n\) variables aleatorias independientes.
Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu_i,\sigma^2_i)\) para cada \(i=1,\ldots, n\), entonces, \[X_1+\cdots+ X_n \stackrel{\atop d}{=} \mathcal{N}(\mu_1+\cdots + \mu_n,\sigma^2_1 + \cdots + \sigma^2_n)\]
Si \(X_i \stackrel{\atop d}{=} \gamma(\alpha_i,\beta)\) para cada \(i=1,\ldots, n\), entonces, \[X_1+\cdots+ X_n \stackrel{\atop d}{=} \gamma(\alpha_1+\cdots+ \alpha_n, \beta)\]
Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(0,1)\) para cada \(i=1,\ldots, n\), entonces, \[X_1^2+\cdots+ X_n^2 \stackrel{\atop d}{=} \chi^2(n)\]
Definition 2.1 (Media y varianza empírica) Sean \(X_1, \ldots, X_n\) variables aleatorias. Entonces, la variable aleatoria
\[\overline{X}_{(n)}:=\frac{1}{n}(X_1 + \cdots + X_n)\]
se llama la media aritmética o media empírica de \(X_1, \ldots, X_n\) y a
\[S^2_{(n)}:= \frac{1}{n-1} \sum\limits_{k=1}^n (X_k-\overline{X}_{(n)})^2\]
se le llama varianza empírica.
Theorem 2.3 (Varianza muestral y chi-cuadrada) Sean \(X_1, \ldots, X_n\) variables aleatorias independientes con \(E(X_k)=\mu\) y \(Var(X_k)=\sigma^2\), para cada \(k=1,\ldots, n\). Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) la varianza y media empírica de \(X_1, \ldots, X_n\), respectivamente.
Se cumple que \(E(S_{(n)}^2)=\sigma^2\).
Para \(k=2, \ldots, n\), \(Y_k\) y \(Y_k^2\) son independientes, siendo:
\[Y_k:= \big(X_k- \overline{X}_{(k-1)}\big) \sqrt{\frac{k-1}{k}}\]
\[\sum\limits_{k=2}^n Y_k^2 = \sum\limits_{k=1}^n \big(X_k- \overline{X}_{(k-1)}\big)^2 = (n-1)S_{(n)}^2\]
\[\frac{n-1}{\sigma^2} S_{(n)}^2 \stackrel{\atop d}{=} \chi^2(n-1)\]
Theorem 2.4 (Distribución t de Student) Sean \(X\), \(Y\), \(X_1, \ldots, X_n\) y \(Y_1, \ldots, Y_m\) variables aleatorias. Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) resp. \(S_{(m)}^2\) y \(\overline{Y}_{(m)}\) la varianza y media empírica de \(X_1, \ldots, X_n\) y de \(Y_1, \ldots, Y_m\), respectivamente. Supongamos que se tiene la independencia, por un lado, entre todas las \(X_i\); por otro lado, entre todas las \(Y_j\); y también entre \(X\) y \(Y\). Si \(\mathcal{T}(n)\) representa la distribución \(t\) de Student con \(n\) grados de libertad, entonces:
Si \(X \stackrel{\atop d}{=} \mathcal{N}(0,1)\) y \(Y\stackrel{\atop d}{=} \chi^2(n)\), entonces, \[t:= \frac{X}{\sqrt{Y/n}} \stackrel{\atop d}{=} \mathcal{T}(n)\]
Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu, \sigma^2)\) para cada \(i=1,\ldots, n\), entonces, se cumple que \[t:=\frac{\overline{X}_{(n)}- \mu}{S_{(n)} /\sqrt{n}} \stackrel{\atop d}{=} \mathcal{T}(n-1)\]
Sea \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu_1, \sigma^2)\) para cada \(i=1,\ldots, n\) y \(Y_j \stackrel{\atop d}{=} \mathcal{N}(\mu_2, \sigma^2)\) para cada \(j=1,\ldots, m\). Si \(S_{(n,m)}^2\) es la llamada varianza muestral combinada, entonces,
\[t:= \frac{\left(\overline{X}_{(n)} - \overline{Y}_{(m)}\right)\, - \, (\mu_1-\mu_2)}{\sqrt{\frac{S_{(n,m)}^2}{n} \,+\, \frac{S_{(n,m)}^2}{m}}} \stackrel{\atop d}{=} \mathcal{T}(m+n-2), \qquad \mbox{con}\qquad S_{(n,m)}^2:= \frac{(n-1)S_{(n)}^2 + (m-1)S_{(m)}^2}{m+n-2}\]
A continuación, vemos algunas distribuciones \(t\) de Student.
#library(ggplot2)
#library(dplyr)
a<- 100
mean_sim <- 0
varianza <- a/(a-2)
std_sim <- sqrt(varianza)
grosor = 1 # Grosor de las líneas de la gráfica
ggplot(data = data.frame(u = 0:1000 / 100), mapping = aes(x = u)) +
xlim(c(-20, 20))+
stat_function(mapping = aes(colour = "Distbn. 1"),
fun = dt,
args = list(df = (1/100)*std_sim), size=grosor) +
stat_function(mapping = aes(colour = "Distbn. 2"),
fun = dt,
args = list(df = (1/20)*std_sim), size=grosor) +
stat_function(mapping = aes(colour = "Distbn. 3"),
fun = dt,
args = list(df = (1/5)*std_sim), size=grosor) +
stat_function(mapping = aes(colour = "Distbn. 4"),
fun = dt,
args = list(df = (1/1)*std_sim), size=grosor)+
labs(x = "Valores x",
y = "Densidades f(x)",
fill="",
title = "Diferentes densidades t de Student con v grados de libertad")+
scale_colour_manual(values = c("red", "blue", "black", "green")) +
# Edit legend title and labels:
scale_color_discrete(name = expression(paste("t", " ", "con", ":")),
labels = c(expression(paste(nu==1)),
expression(paste(nu==5)),
expression(paste(nu==20)),
expression(paste(nu==100))
)
)
Theorem 2.5 (Distribución F de Fisher) Sean \(X\), \(Y\), \(X_1, \ldots, X_n\) y \(Y_1\), \(\ldots\), \(Y_m\) variables aleatorias. Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) resp. \(S_{(m)}^2\) y \(\overline{Y}_{(m)}\) la varianza y media empírica de \(X_1, \ldots, X_n\) resp. \(Y_1, \ldots, Y_m\). Supongamos que se tiene la independencia, por un lado, entre todas las \(X_i\); por otro lado, entre todas las \(Y_j\); y también entre \(X\) y \(Y\). Si \(\mathcal{F}(m,n)\) representa la la distribución \(F\) de Fisher con \(m\) y \(n\) grados de libertad, entonces:
\[F:= \frac{X/m}{Y/n} = \frac{nX}{mY} \stackrel{\atop d}{=} \mathcal{F}(m,n)\]
\[F:= \frac{S_{(n)}^2 / \sigma_1^2}{S_{(m)}^2/\sigma^2_2} \stackrel{\atop d}{=} \mathcal{F}(n-1,m-1)\]
A continuación, vemos algunas distribuciones \(F\) de Fisher.
#library(dplyr)
#library(ggplot2)
#library(tidyr)
grosor = 1 # Grosor de las líneas de la gráfica
data.frame(f = 0:1000 / 100) %>%
mutate(df_01_01 = df(x = f, df1 = 1, df2 = 1),
df_02_01 = df(x = f, df1 = 2, df2 = 1),
df_05_02 = df(x = f, df1 = 5, df2 = 2),
df_10_01 = df(x = f, df1 = 10, df2 = 1),
df_100_100 = df(x = f, df1 = 100, df2 = 100)
) %>%
gather(key = "df", value = "density", -f) %>%
ggplot() +
geom_line(aes(x = f, y = density, color = df),
size=grosor
) +
ylim(c(0, 2.2))+
xlim(c(0, 5))+
labs(x = "Valores x",
y = "Densidades f(x)",
fill="",
title = "Diferentes densidades F de Fisher"
)+
scale_colour_manual(values = c("red", "blue", "black", "green", "grey")) +
# Edit legend title and labels:
scale_color_discrete(name = expression(paste("F", " ", "con", " ", "parámetros", ":")),
labels = c(expression(paste(m==1, ", ", " ", n==1)),
expression(paste(m==2, ", ", " ", n==1)),
expression(paste(m==5, ", ", " ", n==2)),
expression(paste(m==10, ", ", " ", n==1)),
expression(paste(m==100, ", ", " ", n==100))
)
)
–>
Definition 2.2 (Distribución muestral) La distribución de un estadístico muestral recibe el nombre de distribución muestral o distribución en el muestreo.
En la imagen de abajo se ilustra gráficamente este concepto.
Theorem 2.6 (Media muestral) Sea \(X_1, \ldots, X_n\) una muestra aleatoria de una población que tiene distribución normal con media \(\mu\) y varianza \(\sigma^2\). Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) la varianza y media empírica de \(X_1, \ldots, X_n\), respectivamente. Si \(\mathcal{T}(n)\) representa la distribución \(t\) de Student con \(n\) grados de libertad, entonces:
\(\overline{X}_{(n)} \stackrel{\atop d}{=}\mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)\).
Si \(\sigma^2\) es desconocida, entonces \(\frac{\overline{X}_{(n)}-\mu}{S_{(n)} /\sqrt{n}} \stackrel{\atop d}{=} \mathcal{T}(n-1)\).
Para el caso en que la muestra aleatoria provenga de poblaciones no normales o desconocidas, se puede aplicar el teorema central del límite. Para la solución de problemas prácticos se puede tener en cuenta la tabla A.1 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).
En los videos de abajo, se ilustran dos ejemplos relacionados con este teorema.
Simulando muestras:
# Generar la media de una muestra de tamaño N:
xbarra <- function(FUN, N) { # N es el tamaño de la muestra
Valores <- FUN(N) # Valores k de las variables
mean(Valores) # Media de los valores
}
# Seleccionar R muestras de tamaño N y, de cada una, obtener sus medias (vector de tamaño R). Entrega un data frame con las medias (llamada "muestra_N"):
Media_Muestral <- function(FUN, N, R) {
name <- glue::glue("muestra_{N}")
rerun(R, xbarra(FUN, N)) %>%
map(data.frame) %>%
bind_rows() %>%
rename(!!quo_name(name) := ".x..i..")
}
# Seleccionar R muestras de K diferentes tamaños n=(N1, N2,...NK) y, de cada una, obtener sus medias. Entrega un data frame de RxK filas y 3 columnas ("simulaciones", "n" y "value=Medias")
montecarlo <- function(FUN, n, R) {
map_dfc(n, ~ Media_Muestral(FUN, .x, R)) %>%
cbind(simulaciones = 1:R) %>%
pivot_longer(-simulaciones, names_to = "n", values_to = "value") %>%
mutate(n = str_extract(n, "\\d+"), n = as.numeric(n))
}
# Al data frame anterior, se le agrega otra columna que contine los valores Z. Es decir, es un data frame de RxK filas y 4 columnas ("simulaciones", "n", "value=Medias" y "Z")
montecarlo_con_Z <- function(FUN, n, R, mu, sigma) {
montecarlo(FUN, n, R) %>%
rename(Media = value) %>%
group_by(n) %>%
mutate(z = (Media - mu)/ (sigma/sqrt(n))) %>%
ungroup() %>%
mutate(n = factor(n, ordered = TRUE))
}
Distribución exponencial:
#library(tidyverse)
FUN <- rexp # Exponencial con lambda = 1
lambda <- 1
n <- c(2, 5, 10, 20, 30, 50, 100, 1000, 10000) # tamaño muestral n
R <- 3000 # Número de muestras de tamaño n que se van a seleccionar
mu <- 1/lambda # Media de la variable
varianza <- 1/(lambda^2) # Varianza de la variable
sigma <- sqrt(varianza) # Desviación de la variable
Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)
Muestreo %>%
ggplot(aes(z, fill = n)) +
geom_density(aes(group = NA)) +
gganimate::transition_states(n,
transition_length = 2,
state_length = 1) +
stat_function(fun = dnorm, aes(color = 'Normal'),
args = list(mean = 0, sd = 1),
inherit.aes = FALSE,
size=1.5) +
gganimate::enter_fade() +
gganimate::exit_shrink() +
labs(subtitle = "Sample size n= {closest_state}",
title = "Distribution of Sample Mean: Exponential with parameter 1",
caption = "Theoretical distribution is standard normal",
y = "Sample mean from Exponential") +
gganimate::view_follow() -> Densidad
# VIDEO OUTPUT
#https://gganimate.com/articles/gganimate.html
#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)
animate(Densidad +
enter_fade() +
exit_fly(y_loc = 1),
# La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
fps=5,
# La duración de la animación en segundos (sin configurar de forma predeterminada)
#duration = 30
renderer = av_renderer()
)
Distribución uniforme estándar:
#library(tidyverse)
FUN <- runif #Standard Uniform (cuando a=0, b=1)
a<- 0
b<- 1
n <- c(2, 5, 10, 20, 30, 50, 100, 1000, 10000) # tamaño muestral n
R <- 3000 # Número de muestras de tamaño n que se van a seleccionar
mu <- (a+b)/2 # Media de la variable
varianza <- (b-a)^2/12 # Varianza de la variable
sigma <- sqrt(varianza) # Desviación de la variable
Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)
Muestreo %>%
ggplot(aes(z, fill = n)) +
geom_density(aes(group = NA)) +
transition_states(n,
transition_length = 2,
state_length = 1) +
stat_function(fun = dnorm, aes(color = 'Normal'),
args = list(mean = 0, sd = 1),
inherit.aes = FALSE,
size=1.5) +
enter_fade() +
exit_shrink() +
labs(subtitle = "Sample size n= {closest_state}",
title = "Distribution of Sample Mean: Standard Uniform (0,1)",
caption = "Theoretical distribution is standard normal",
y = "Sample mean from Uniform") +
view_follow() -> Densidad
# VIDEO OUTPUT
#https://gganimate.com/articles/gganimate.html
#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)
animate(Densidad +
enter_fade() +
exit_fly(y_loc = 1),
# La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
fps=5,
# La duración de la animación en segundos (sin configurar de forma predeterminada)
#duration = 30
renderer = av_renderer()
)
Theorem 2.7 (Teorema central del límite de Moivre-Laplace) Sea \(X_1, \ldots, X_n\) una muestra aleatoria de una población que tiene distribución \(\mathcal{B}(n,p)\). Si \(\overline{p}_{(n)}\) representa la proporción muestral de éxitos en la muestra, entonces,
\[\frac{\overline{p}_{(n)} - p}{\sqrt{p(1-p)/n}}\; \xrightarrow[n \to \infty] {d}\; \mathcal{N}(0,1)\]
En la práctica, el teorema será válido si \(n\geq 30\) o si \(np\geq 5\) y \(n(1-p)\geq 5\). Puede comparar con la tabla A.2 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).
De manera gráfica, esta aproximación se puede visualizar así:
En el video de abajo, se ilustra un ejemplo relacionado con este teorema.
Simulando muestras:
# Entrega la media de una muestra de tamaño N:
xbarra <- function(FUN, N) { # N es el tamaño de la muestra
Valores <- FUN(N, 1, 0.5) # Valores k de las variables
mean(Valores) # Media de los valores
}
# Seleccionar R muestras de tamaño N y, de cada una, obtener sus medias (vector de tamaño R). Entrega un data frame con las medias (llamada "muestra_N"):
Media_Muestral <- function(FUN, N, R) {
name <- glue::glue("muestra_{N}")
rerun(R, xbarra(FUN, N)) %>%
map(data.frame) %>%
bind_rows() %>%
rename(!!quo_name(name) := ".x..i..")
}
# Seleccionar R muestras de K diferentes tamaños n=(N1, N2,...NK) y, de cada una, obtener sus medias. Entrega un adta frame de RxK filas y 3 columnas ("simulaciones", "n" y "value=Medias")
montecarlo <- function(FUN, n, R) {
map_dfc(n, ~ Media_Muestral(FUN, .x, R)) %>%
cbind(simulaciones = 1:R) %>%
pivot_longer(-simulaciones, names_to = "n", values_to = "value") %>%
mutate(n = str_extract(n, "\\d+"), n = as.numeric(n))
}
# Al data frame anterior, se le agrega otra columna que contine los valores Z. Es decir, es un data frame de RxK filas y 4 columnas ("simulaciones", "n", "value=Medias" y "Z")
montecarlo_con_Z <- function(FUN, n, R, mu, sigma) {
montecarlo(FUN, n, R) %>%
rename(Media = value) %>%
group_by(n) %>%
mutate(z = (Media - mu)/ (sigma/sqrt(n))) %>%
ungroup() %>%
mutate(n = factor(n, ordered = TRUE))
}
Distribución binomial:
#library(tidyverse)
FUN <- rbinom # Bernoulli con parámetros m=1 y p=0.5
m=1
p=0.5
n <- c(5, 10, 20, 30, 50, 100, 200, 400, 600) # Tamaño muestral n
R <- 3000 # Número de muestras de tamaño n que se van a seleccionar
mu <- m*p # Media de la variable
varianza <- m*p*(1-p) # Varianza de la variable
sigma <- sqrt(varianza) # Desviación de la variable
Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)
Muestreo %>%
ggplot(aes(z, fill = n)) +
geom_density(aes(group = NA)) +
gganimate::transition_states(n,
transition_length = 2,
state_length = 1
) +
stat_function(fun = dnorm, aes(color = 'Normal'),
args = list(mean = 0, sd = 1),
inherit.aes = FALSE,
size=1.5
) +
gganimate::enter_fade() +
gganimate::exit_shrink() +
labs(subtitle = "Sample size n= {closest_state}",
title = "Distribution of Sample Mean: binomial",
caption = "Theoretical distribution is standard normal",
y = "Sample mean from binomial") +
gganimate::view_follow() -> Densidad
# VIDEO OUTPUT:
#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)
animate(Densidad +
enter_fade() +
exit_fly(y_loc = 1),
# La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
fps=5,
# La duración de la animación en segundos (sin configurar de forma predeterminada)
#duration = 30
renderer = av_renderer()
)
Es importante resaltar que cualquier inferencia sobre la población tendrá que basarse necesariamente en estadísticos muestrales, es decir, en funciones de la información muestral. La elección apropiada de estos estadísticos dependerá de cuál sea el parámetro de interés de la población. Como el verdadero parámetro suele desconocerse en sí, un objetivo será estimar su valor.
Definition 3.1 (Estimación y estimador) La estimación estadística es el proceso mediante el cual intentamos determinar el valor de un parámetro de la población, sin hacer un censo y a partir de la información de una muestra. Una estimación, en concreto, es el valor numérico que asignamos a un parámetro, y el estimador es el estadístico de la muestra utilizado para hacer una estimación.
El siguiente ejemplo aclara la distinción entre los términos estimador y estimación.
Example 3.1 Supongamos que queremos estimar el ingreso medio de las familias de un barrio con base en una muestra de 20 familias y que resulta razonable basar nuestras conclusiones en el ingreso medio muestral. Entonces, diremos que el estimador de la media muestral es la media muestral \(\overline{X}\). Supongamos luego que, habiendo tomado la muestra, hallamos que el promedio \(\overline{x}\) de los ingresos es de $335.250. Entonces, también, la estimación de la media de la población es $335.250. Obsérvese que ya habíamos planteado esta distinción al utilizar diferente notación: hemos utilizado la variable aleatoria \(\overline{X}\) para designar al estimador y a \(\overline{x}\) para designar un valor particular de \(\overline{X}\). \(\blacktriangleleft\)
Si el valor esperado del estadístico muestral es igual al parámetro poblacional que se estima, se dice que ese estadístico es un estimador insesgado del parámetro poblacional.
Definition 4.1 (Estimador insesgado) Se dice que un estimador \(\widehat{\theta}\) es insesgado, si el valor esperado del estimador es igual al parámetro de la población que está estimando, es decir, \(E(\widehat{\theta})=\theta\). Evidentemente, si \(E(\widehat{\theta})\ne\theta\), se dice que el estimador es sesgado. Llamaremos sesgo a la diferencia entre la media del estimador \(\widehat{\theta}\) y el parámetro \(\theta\), es decir,
\[\text{Sesgo $(\widehat{\theta})$} = E(\widehat{\theta}) - \theta.\]
Remark.
Obsérvese que el sesgo de un estimador insesgado es 0.\(\blacktriangleleft\)
Algunos estadísticos que son estimadores insesgados de sus correspondientes parámetros poblacionales son la media, la varianza y la proporción muestrales.
Example 4.1 Supóngase que \(X\) es una variable aleatoria con media \(\mu\) y varianza \(\sigma^2\). Sea \((X_1, X_2, \ldots, X_n)\) una muestra aleatoria de tamaño \(n\) tomada de una población representada por \(X\), es decir, cada variable muestral \(X_i\) también tiene media \(\mu\) y varianza \(\sigma^2\). Entonces: (a) \(E(\overline{X})=\mu\) y (b) \(E(s^2)= \sigma^2\).\(\blacktriangleleft\)
Remark.
Este ejemplo muestra que la media y la varianza son estimadores insesgados de los correspondientes parámetros poblacionales. Por esta razón, al definir la varianza muestral, dividimos la suma de los cuadrados de las discrepancias por \(n-1\) en lugar de \(n\). En el primer caso, se obtiene un estimador insesgado, mientras que en el segundo, no, pues la media de la desviación típica muestral no es la desviación típica poblacional. Por tanto, la desviación típica muestral no es un estimador insesgado de la desviación típica poblacional.\(\blacktriangleleft\)
Sin embargo, hay estadísticos que no son estimadores insesgados del parámetro poblacional correspondiente, como se muestra en el siguiente ejemplo.
Example 4.2 Debido a que la media de la desviación típica muestral \(S\) no es la desviación típica poblacional \(\sigma\), es decir, debido a que \(E(S)\ne \sigma\), entonces, la desviación típica muestral no es un estimador insesgado de la desviación típica poblacional. \(\blacktriangleleft\)
Definition 4.2 (Estimador eficiente) Sean \(\widehat{\theta}_1\) y \(\widehat{\theta}_2\) dos estimadores insesgados de \(\theta\), obtenidos en muestras del mismo tamaño. Entonces,
Example 4.3 Sea \(X_1, X_2, \ldots, X_n\) una muestra aleatoria de una distribución normal con media \(\mu\) y varianza \(\sigma^2\). La media muestral \(\overline{X}\) es un estimador insesgado de la media de la población con varianza:
\[V(\overline{X}) = \frac{\sigma^2}{n}.\]
Si utilizamos como un estimador alternativo la mediana de las observaciones, puede probarse que este estimador tiene distribución normal y también es insesgado para \(\mu\) y que su varianza es: \[V(\text{Mediana}) \;= \; \frac{\pi}{2}\cdot \frac{\sigma^2}{n} \;\approx \; 1.57\, V(\overline{X})\]
Por consiguiente, al tomar muestras de una población de una población normal, se evidencia que la media muestral es más eficiente que la mediana. De manera concreta, la eficiencia relativa de la media con respecto a la mediana es:
\[\text{Eficiencia relativa} \;= \; \frac{V(\text{Mediana})}{V(\overline{X})} \,= \; 1.57\]
Es decir, la varianza de la mediana muestral es un 57 % mayor que la de la media muestral. O, de otra manera, para obtener una mediana con la misma varianza que la media debe tomarse una muestra con un 57 % más de observaciones. Sabemos de antemano que que una ventaja de la mediana sobre la media es que da mucho menos peso a observaciones extremas. Ahora vemos, observando la eficiencia relativa, una desventaja potencial de utilizar la mediana muestral como medida de centralización. \(\blacktriangleleft\)
En algunos problemas de estimación, el estimador puntual con la menor varianza posible puede encontrarse dentro de un grupo de estimadores insesgados; pero, sólo en pocos casos, puede encontrarse el más eficiente de todos los estimadores insesgados de un parámetro.
Definition 4.3 Si \(\widehat{\theta}\) es un estimador insesgado de \(\theta\) y no hay ningún otro estimador insesgado que tenga menor varianza, entonces, se dice que \(\widehat{\theta}\) es el estimador insesgado más eficiente o de mínima varianza de \(\theta\).
Example 4.4 Algunos ejemplos de estimadores insesgados de mínima varianza son:
La media muestral, cuando la muestra proviene de una distribución normal.
La varianza muestral, también cuando la muestra proviene de una una distribución normal.
La proporción muestral binomial.\(\blacktriangleleft\)
Las propiedades de los estimadores insesgados de mínima varianza los hace muy atractivos, pero, lamentablemente, no siempre es posible encontrar un estimador de este tipo. \(\blacktriangleleft\)
Otra propiedad asociada con los buenos estimadores puntuales es la consistencia, propiedad que se puede definir como se indica a continuación.
Definition 4.4 (Estimador consistente) Un estimador puntual \(\widehat{\theta}\) de \(\theta\) es consistente para \(\theta\) si sus valores tienden a acercarse al parámetro poblacional \(\theta\) conforme se incrementa el tamaño de la muestra. De otro modo, el estimador se llama inconsistente.
Es importante recalcar que no todos los estimadores insesgados son consistentes, como también que no todos los estimadores consistentes son insesgados.
Example 4.5 Al muestrear de una población normal, la desviación típica muestral es consistente para la desviación típica poblacional. Lo anterior también es cierto para el caso de la media y la varianza en relación con sus correspondientes parámetros poblacionales. Igualmente, la proporción muestral es consistente para la proporción poblacional. \(\blacktriangleleft\)
Es natural pedir que la reducción de los datos” de \(x\) a \(T(X)\) sea suficientemente informativa para el parámetro \(\theta\). O sea, que no se pierda alguna información relevante para el problema. Por esta razón es importante la siguiente definición.
Definition 4.5 (Estimador suficiente) Un estadístico \(S(X)\) es suficiente para \(\theta\) si y sólo si, para todo valor \(s\) de \(S(X)\), la distribución condicional de \(X\) dado \(S(X)=s\) no depende de \(\theta\).
Remark.
Con \(g(s,\theta)\) notaremos la distribución de la estadística \(S(X)\) y con \(h(x/s)\) la distribución condicional de \(X\) dado \(S(X)=s\), la cual no depende de \(\theta\) cuando \(S(X)\) sea suficiente. \(\blacktriangleleft\)
Example 4.6 Sea \(X=(X_1, \ldots, X_n)^t\) una muestra aleatoria con variables muestrales \(X_i \sim \mathcal{B}(1,p)\). Entonces, \(S(X)=\sum\limits_{i=1}^n X_i\) es un estadístico que consiste en mirar sólo a \(s= S(x) = \sum\limits_{i=1}^n x_i\), en lugar de mirar todos los datos \(x=(x_1, \ldots, x_n)\), siendo \(x_i\in \{0,1\}\). Entonces, \(S(X)\) es un estadístico suficiente para \(p\).\(\blacktriangleleft\)
Remark.
Nótese que este resultado es una justificación para afirmar que, al tomar a \(\sum\limits_{i=1}^n X_i\) como una muestra de tamaño 1, en lugar de la muestra original \((X_1, \ldots, X_n)^t\) de tamaño \(n\), no se pierde información. \(\blacktriangleleft\)
Example 4.7 Sea \(X=(X_1, \ldots, X_n)^t\) una muestra aleatoria con variables muestrales \(X_i \sim \mathcal{N}(\mu,\sigma^2)\). Supongamos que \(\sigma^2\) es conocida, es decir, el parámetro es \(\theta=\mu\). Entonces, \(S(X)=\sum\limits_{i=1}^n X_i\) es un estadístico estadístico suficiente para \(\mu\).\(\blacktriangleleft\)
Remark.
Para el caso en que la varianza \(\sigma^2\) sea desconocida, es decir, con \(\theta=(\mu, \sigma^2)^t\) como parámetro, ¿Existe un estadístico estadístico suficiente \(S(X)=\big(S_1(X), S_2(X)\big)^t\) para \(\theta\)? ¿Cuál sería?
A veces, no es obvio cuáles estadísticos son suficientes. Aunque se puedan adivinar, los cálculos para \(h(x/s)\) pueden resultar muy dispendiosos. En muchos casos, no son necesarios como se muestra en el siguiente teorema.
Theorem 4.1 (Teorema de factorización de Fisher-Neyman) Un estadístico \(S(X)\) es suficiente para el parámetro \(\theta\) si y sólo si existen funciones (medibles) \(G\) y \(H\) tales que
\[f(x, \theta)\;=\; G\big(S(x),\theta\big) \cdot H(x)\]
para cada \(x\in \mathbb{R}^n\), \(\theta\in\Theta\).
Proof:
Ver la demostración en la literatura citada.\(\blacksquare\)
Example 4.8 En el ejemplo 4.6 se puede tomar \(G\big(S(x),p\big)= f(x,p)\) y \[H(x) = \left\{ \begin{array}{ll} 1, & \hbox{si cada $x_i\in \{0,1\}$;} \\ 0, & \hbox{de otro modo.} \end{array} \right.\]
Example 4.9 En el ejemplo 4.7 se puede tener en cuenta que \[\sum\limits_{i=1}^n (x_i-\mu)^2 \;= \; n\mu^2 - 2s\mu + \sum\limits_{i=1}^n y_i^2, \qquad S(y)=s\]
para obtener la factorización \[\begin{align*} &G\big(S(x),\mu\big) = \frac{1}{(\sqrt{2\pi \sigma^2})^n} \exp\left(-\frac{1}{2\sigma^2} (n\mu^2 - 2s\mu)\right),\\ &H(x) = \exp \left(-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n y_i^2\right) \tag*{$\blacktriangleleft$} \end{align*}\]
Para el caso en que la función de distribución depende de dosó mas parámetros se tiene la siguiente definición.
Definition 4.6 Sea \(X=(X_1,\ldots, X_n)^t\) una muestra aleatoria de una población con función de distribución \(f(x,\theta)\), donde \(\theta\in \Theta \subseteq \mathbb{R}^k\). Los estadí sticos \(S_1, \ldots, S_k\) con \(S_i:=S_i(X)\) para cada \(i=1, \ldots, k\), se denominan estadísticos conjuntamente suficientes para \(\theta\) si y sólo si la distribución de \(X\) dado \(S_1,\ldots, S_k\) no depende de \(\theta\).
El teorema de factorización 4.1 también puede ser extendido como se muestra a continuación.
Theorem 4.2 (Teorema de factorización de Fisher-Neyman) Sea \(X=(X_1,\ldots, X_n)^t\) una muestra aleatoria de una población con función de distribución \(f(x,\theta)\), donde \(\theta\in \Theta \subseteq \mathbb{R}^k\). El vector de estadísticos \(S=(S_1,\ldots, S_k)^t\) es conjuntamente suficiente para \(\theta\) si y sólo si se puede encontrar dos funciones no negativas \(G\) y \(H\) tales que
\[f(x,\theta)=G(S(x),\theta)\cdot H(x),\]
donde \(h(x)\) no depende de \(\theta\).
Proof:
Ver la demostración en la literatura citada.\(\blacksquare\)
Example 4.10 Sea \(X_1,\ldots, X_n\) una muestra aleatoria de una población normal de media \(\mu\) y varianza \(\sigma^2\). Sea \(\theta=(\mu,\sigma^2)^t\). Entonces,
\[\begin{eqnarray*} f(x_1,\ldots, x_n,\theta) &=& \prod\limits_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left\{-\frac{1}{2}\left(\frac{x_i-\mu}{\sigma}\right)^2\right\}\\ &=& \frac{1}{(\sqrt{2\pi\sigma^2})^n} \exp \left\{-\frac{1}{2\sigma^2}\left(\sum\limits_{i=1}^n x_i^2-2\mu\sum\limits_{i=1}^n x_i +n\mu^2 \right)\right\}\\ &=& \frac{1}{(\sqrt{2\pi\sigma^2})^n} \exp \left\{\frac{\mu}{\sigma^2}\sum\limits_{i=1}^n x_i - \frac{1}{2\sigma^2}\sum\limits_{i=1}^n x_i^2- \frac{n\mu^2}{2\sigma^2}\right\}\\ &=& G\left(\sum\limits_{i=1}^n x_i, \sum\limits_{i=1}^n x_i^2, \theta\right)\cdot H(x_1,\ldots, x_n) \end{eqnarray*}\]
con \(H(x_1,\ldots, x_n)=1\). Luego \(\sum\limits_{i=1}^n X_i\) y \(\sum\limits_{i=1}^n X_i^2\) son conjuntamente suficientes para \(\theta=(\mu,\sigma^2)^t\). \(\blacktriangleleft\)
En general, la definición de insesgo no indica cómo se generan los estimadores insesgados. Por esta razón, en esta sección, se consideran dos métodos para la obtención de estimadores puntuales de parámetros de distribuciones. Existen otros métodos de estimación como, por ejemplo, el método por analogía, el método de estimación bayesiana, etc. Si se quiere detalles al respecto, véase la literatura recomendada.
El primero, llamado método de momentos, es un método sencillo, que propuso originalmente K. Pearson en 1894.
El segundo, denominado método de máxima verosimilitud, es más complejo. Lo usó, en principio, C. F. Gauss hace más de 170 años para resolver ciertos problemas, fue formalizado por R. A. Fisher a comienzos del siglo XX y se ha usado ampliamente desde entonces.
Estudiemos primero la siguiente definición:
Definition 5.1 (Momentos) Sean \(X_1\), \(X_2\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\) y \(X\) cualquier variable aleatoria.
Por lo tanto, el primer momento (poblacional) de \(X\) es \(E(X)\) y el primer momento muestral \(M_1= \overline{X}\). El segundo momento (poblacional) de \(X\) es \(E(X^2)\) y el segundo momento muestral es \(M_2= \sum X_i^2/n\). Sobre lo anterior, es importante aclarar que los momentos poblacionales serán funciones de algunos parámetros desconocidos \(\theta_1, \theta_2, \ldots\)
Definition 5.2 (Método de momentos) Sea \(X_1\), \(X_2\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\). Supongamos que cada \(X_i\) tiene la misma distribución de probabilidad con parámetros desconocidos \(\theta_1, \theta_2, \ldots, \theta_m\). Entonces, los estimadores de momentos \(\widehat{\theta}_1, \widehat{\theta}_2, \ldots, \widehat{\theta}_m\) se obtienen al igualar los primeros \(m\) momentos muestrales con los correspondientes primeros \(m\) momentos poblacionales y despejar \(\theta_1, \theta_2, \ldots, \theta_m\). Este procedimiento se conoce como método de momentos.
Remark.
Es importante precisar que hay casos en que el estimador de momentos falla.
Example 5.1 Un silvicultor planta cinco hileras de 200 plantas de pino, pretendiendo que cada una de las cuales sirva como barrera contra el viento. Las condiciones de suelo y viento a que están sometidas las plantas son similares.
Solution:
En ocasiones, se estiman dos parámetros, \(\theta_1\) y \(\theta_2\), a partir de una sola muestra, como se describe en el siguiente ejemplo:
Example 5.2 Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de una distribución gamma, con parámetros \(\alpha\) y \(\beta\) desconocidos. Sabemos que \(E(X)=\alpha \beta\) y \(V(X)=\alpha \beta^2\). Recuerde que \(V(X)=E(X^2)-[E(X)]^2\), por lo que los primeros dos momentos de \(X\) son funciones de \(\alpha\) y \(\beta\). Las ecuaciones que relacionan los momentos con estos parámetros desconocidos son:
\[E(X)=\alpha \beta, \qquad E(X^2)-[E(X)]^2 = \alpha \beta^2\]
A continuación, se sustituyen \(E(X)\) y \(E(X^2)\) por sus estimadores, \(M_1\) y \(M_2\), respectivamente, para obtener: \[M_1=\widehat{\alpha}\, \widehat{\beta}, \qquad M_2-M_1^2=\widehat{\alpha} \,\widehat{\beta}^2.\]
Y, al resolver simultáneamente este conjunto de ecuaciones, se puede ver que \(M_2-M_1^2=M_1\widehat{\beta}\). Ello implica que: \[\begin{align*} \widehat{\beta}= \frac{M_2-M_1^2}{M_1}, \qquad \widehat{\alpha} = \frac{M_1}{\widehat{\beta}} =\frac{M_1^2}{M_2-M_1^2}\tag*{$\blacktriangleleft$} \end{align*}\]
Este método es uno de los mejores para obtener un estimador puntual de un parámetro. Tal como su nombre lo implica, el estimador será el valor del parámetro que maximiza la función de verosimilitud.
Definition 5.3 (Método de máxima verosimilitud) Sea \(X_1\), \(X_2\), \(\ldots\), \(X_n\) una muestra aleatoria con función de probabilidad (o de densidad) conjunta
\[f(x_1, x_2, \ldots, x_n; \theta_1, \theta_2, \ldots, \theta_n),\]
donde \(x_1\), \(x_2\), \(\ldots\), \(x_n\) son los valores muestrales observados y los parámetros \(\theta_1\), \(\theta_2\), \(\ldots\), \(\theta_n\) son desconocidos. La función de verosimilitud de la muestra se obtiene fijando los valores muestrales y escribiendo \(f\) como una función que depende sólo de los parámetros, es decir, es la función \(L\), definida por:
\[L(\theta_1, \theta_2, \ldots, \theta_n)= f(x_1, x_2, \ldots, x_n; \theta_1, \theta_2, \ldots, \theta_n).\]
Las estimaciones de máxima verosimilitud de \(\theta_1, \theta_2, \ldots, \theta_n\) son los valores de las \(\theta_i\) que maximizan a \(L\), de modo que
\[L(\theta_1, \theta_2, \ldots,\theta_n)\leq L(\widehat{\theta}_1, \widehat{\theta}_2, \ldots, \widehat{\theta}_n)\]
para toda \(\theta_1, \theta_2, \ldots, \theta_n\). Así, cuando las \(x_i\) son sustituidas por las \(X_i\), resultan los estimadores de máxima verosimilitud. Este procedimiento se conoce como método de máxima verosimilitud.
Remark.
Sea \(f_i\) la función de probabilidad (o de densidad) marginal con parámetro \(\theta_i\) de la variable muestral \(X_i\), para \(i=1,2,\ldots, n\). Entonces, debido que las \(X_i\) son independientes entre sí, tenemos que: \[L(\theta_1, \theta_2, \ldots,\theta_n) \;= \; f_1(x_1; \theta_1)\, f_2(x_2; \theta_2) \cdots f_n(x_n; \theta_n) \;= \; \prod\limits_{i=1}^n f_i(x_i; \theta_i)\]
para todo valor muestral \(x_i\) de \(X_i\). A continuación, ilustraremos con algunos ejemplos la aplicación del método de máxima verosimilitud para estimar parámetros.
Example 5.3 Para variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de probabilidad de Bernoulli con parámetro \(p\), aplique el estimador de máxima verosimilitud para hallar \(\widehat{p}\) y verifique si el estimador de máxima verosimilitud es insesgado.
Solution:
Para cada \(i=1, \ldots, n\), la función de probabilidad \(f_i\) de \(X_i\) está dada por: \[f_i(x_i; p) \;= \; \left\{% \begin{array}{ll} p^{x_i}(1-p)^{1-x_i}, & \hbox{$x_i=0,1$;} \\ 0, & \hbox{de otra forma.} \\ \end{array}% \right. \]
Por tanto, la función de verosimilitud \(L\) de una muestra de tamaño \(n\) depende únicamente de \(p\) y es: \[L(p) \,= \; \prod\limits_{i=1}^n f_i(x_i;p) \;= \; \prod\limits_{i=1}^n p^{x_i}(1-p)^{1-x_i} \;= \; p^{\sum_{i=1}^n x_i}(1-p)^{n\,-\, \sum_{i=1}^n x_i}.\]
Se observa que si \(\widehat{p}\) maximiza \(L(p)\), entonces, también maximiza \(\mathcal{L}(p):=\ln L(p)\). Por lo tanto, \[\mathcal{L}(p) \;= \; \left(\sum\limits_{i=1}^n x_i\right) \ln(p) \, + \, \left(n\,-\, \sum\limits_{i=1}^n x_i\right) \ln(1-p).\]
Ahora bien, como: \[\frac{d\,\mathcal{L}(p)}{dp} \;= \; \frac{\sum\limits_{i=1}^n x_i}{p} \, + \, \frac{n\,-\, \sum\limits_{i=1}^n x_i}{1-p},\]
al igualar a cero la expresión anterior y resolver para \(p\), se tiene que \(\widehat{p}=\overline{x}\). En consecuencia, el estimador de máxima verosimilitud de \(p\) es \(\widehat{p}=\overline{X}\). Se puede verificar que \(E(\widehat{p})=p\), lo cual demuestra que \(\widehat{p}\) es un estimador insesgado de \(p\). \(\blacktriangleleft\)
Example 5.4 Para variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de densidad exponencial con parámetro \(\lambda\), aplique el estimador de máxima verosimilitud para hallar \(\widehat{\lambda}\) y verifique si el estimador de máxima verosimilitud es insesgado.
Solution:
Para cada \(i=1, \ldots, n\), la función de densidad \(f_i\) de \(X_i\) está dada por: \[f_i(x_i; p) \;= \; \left\{% \begin{array}{ll} \lambda\, e^{-\lambda x_i}, & \hbox{$x_i\geq 0$;} \\ 0, & \hbox{de otra forma.} \\ \end{array}% \right. \]
Por tanto, la función de verosimilitud \(L\) de una muestra de tamaño \(n\) depende únicamente de \(\lambda\) y es: \[L(\lambda) \,= \; \prod\limits_{i=1}^n f_i(x_i;\lambda) \;= \; \prod\limits_{i=1}^n \lambda\, e^{-\lambda x_i} \;= \; \lambda^n\, e^{-\lambda \sum_{i=1}^n x_i}.\]
Como se explicó en el ejemplo anterior, si \(\widehat{\lambda}\) maximiza \(L(\lambda)\), entonces, también maximiza \(\mathcal{L}(\lambda):=\ln L(\lambda)\). Por lo tanto, \[\mathcal{L}(\lambda) \;= \; n\ln(\lambda) \,-\, \lambda \sum\limits_{i=1}^n x_i.\]
Ahora, \[\frac{d\,\mathcal{L}(\lambda)}{d\lambda} \;= \; \frac{n}{\lambda} \, - \, \sum\limits_{i=1}^n x_i.\]
De manera que, al igualar a cero la expresión anterior y resolver para \(\lambda\), se tiene que \[\widehat{\lambda}=1/\,\overline{x}\]
En consecuencia, el estimador de máxima verosimilitud de \(\lambda\) es \(\widehat{\lambda}=1/\overline{X}\). Pero, debido a que \(E(1/\overline{X})\ne 1/E(\overline{X})\), podemos afirmar que \(\widehat{\lambda}\) no es un estimador insesgado de \(\lambda\). \(\blacktriangleleft\)
En primer lugar, podemos decir que los estimadores de máxima verosimilitud tienen la propiedad de invarianza, la cual se describe en el siguiente teorema, el cual presentamos sin demostración.
Theorem 5.1 (Principio de invarianza) Si \(\widehat{\theta}_1\), \(\widehat{\theta}_2\), \(\ldots\), \(\widehat{\theta}_k\) son los estimadores de máxima verosimilitud de los parámetros \(\theta_1\), \(\theta_2\), \(\ldots\), \(\theta_k\), respectivamente, entonces, el estimador de cualquier función \(h(\theta_1, \theta_2, \ldots, \theta_k)\) de estos parámetros es la misma función \(h(\widehat{\theta}_1, \widehat{\theta}_2, \ldots, \widehat{\theta}_k)\) de los estimadores \(\widehat{\theta}_1\), \(\widehat{\theta}_2\), \(\ldots\), \(\widehat{\theta}_k\).
Proof:
Ver la demostración en la literatura citada.\(\blacksquare\)
Example 5.5 Encuéntrese el estimador de máxima verosimilitud de la desviación \(\sigma\) para el caso de la distribución normal con parámetros \(\mu\) y \(\sigma^2\).
Solution: Se puede demostrar que que los estimadores de máxima verosimilitud de \(\mu\) y \(\sigma^2\) son: \[ \widehat{\mu} = \overline{X}, \qquad {\widehat{\sigma}}^2 = \frac{1}{n} \sum\limits_{i=1}^n(X_i-\overline{X})^2,\]
respectivamente. Definamos una función \(h\) como \(h(\mu, \sigma^2) = \sqrt{\sigma^2}=\sigma\) y, para obtener el estimador de máxima verosimilitud de \(\sigma\), sustituimos los estimadores de máxima verosimilitud en la función \(h\) de la siguiente manera: \[\widehat{\sigma}\;= \; \sqrt{\widehat{\sigma}^2} \;= \; \sqrt{\frac{1}{n}\sum\limits_{i=1}^n (X_i-\overline{X})^2}\]
Observamos que el estimador máxima verosimilitud de \(\sigma\) no es la desviación estándar muestral \(S\), aunque estén muy cerca, a menos que \(n\) sea muy pequeña. \(\blacktriangleleft\)
En segundo lugar, podemos afirmar que, para muestras grandes, los estimadores de máxima verosimilitud tienen buenas propiedades asintóticas, como se muestra en el siguiente teorema.
Theorem 5.2 El estimador de máxima verosimilitud \(\widehat{\theta}\) de cualquier parámetro \(\theta\) es insesgado para \(n\) grande y tiene una varianza casi tan pequeña como la que puede obtenerse con otro estimador. Esto implica que el estimador de máxima verosimilitud \(\widehat{\theta}\) es, de manera aproximada, el estimador insesgado más eficiente (o de mínima varianza) de \(\theta\) para \(n\) grande.
Proof:
Ver la demostración en la literatura citada.\(\blacksquare\)
Además de los métodos clásicos de estimación como el método de los momentos o la máxima verosimilitud, existen enfoques modernos que utilizan optimización numérica y algoritmos computacionales para estimar funciones o relaciones directamente a partir de datos.
Uno de estos enfoques es el uso de redes neuronales artificiales, las cuales buscan ajustar una función no lineal que aproxima la relación entre las variables de entrada y salida, minimizando un error (por ejemplo, el error cuadrático medio) mediante un procedimiento iterativo conocido como retropropagación o backpropagation.
En este enfoque:
La red tiene parámetros (pesos y sesgos) que actúan como estimadores.
Se parte de valores iniciales aleatorios y se actualizan mediante descenso de gradiente.
Se entrena la red para que aprenda una función, incluso si no conocemos su forma explícita.
Este método se puede considerar como un caso particular de estimación basada en datos, donde el objetivo no es estimar un parámetro específico, sino una función completa.
El siguiente recurso presenta una red neuronal entrenada para aprender la función lógica XOR, que no puede ser representada por un modelo lineal. Ver explicación paso a paso en este documento.
Mientras que los métodos clásicos buscan estimar pocos parámetros bajo supuestos conocidos, los métodos modernos como las redes neuronales estiman miles de parámetros sin necesidad de conocer la distribución, usando solo datos. Ambos enfoques tienen su lugar en el análisis estadístico moderno.”
Realizar los ejercicios que se indican abajo.
Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de una distribución binomial negativa, con parámetros \(r\) y \(p\) desconocidos. Utilice el método de momentos para demostrar que:
\[\widehat{p}=\frac{\overline{X}}{(\sum X_i^2/n) - \overline{X}^2}, \qquad \widehat{r}= \frac{\overline{X}^2}{(\sum X_i^2/n) - \overline{X}^2 - \overline{X}}\]
Observe que, aún cuando \(r\) debe ser positiva por definición, el denominador de \(\widehat{r}\) podría ser negativo, indicando que la distribución binomial negativa no es apropiada (o que el estimador de momentos falla).
Tomando en cuenta las variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de densidad \(f_i\) de Rayleigh, definida por: \[f_i(x_i) = \frac{x_i}{\theta^2} e^{- x_i^2/2\theta^2}, \quad x_i> 0,\]
siendo \(\theta>0\) el parámetro de la distribución, aplique el método de máxima verosimilitud para demostrar que \[{\widehat{\theta}}^2= \frac{1}{2n}\sum\limits_{i=1}^n x_i^2\]
Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\), que proviene de una distribución con media \(\mu\) y varianza \(\sigma^2\).
Halle \(E(\overline{X}^2)\) y, con esto, demuestre que \(\overline{X}^2\) es un estimador sesgado de \(\mu\)
Determine la magnitud del sesgo del estimador.
¿Qué sucede con el sesgo a medida que aumenta el tamaño de \(n\)?
Sea \(X_1\) y \(X_2\) una muestra aleatoria de dos observaciones de una población con media \(\mu\) y varianza \(\sigma^2\). Considere al respecto los siguientes tres estimadores puntuales de \(\mu\):
\[\begin{eqnarray*} \overline{X}= \frac{1}{2}X_1 + \frac{1}{2}X_2, \qquad \widehat{\mu}_1 = \frac{1}{4}X_1 + \frac{3}{4}X_2, \qquad \widehat{\mu}_2 = \frac{1}{3}X_1 + \frac{2}{3}X_2. \end{eqnarray*}\]
Sea \(\widehat{\theta}_1\) un estimador insesgado de \(\theta_1\) y \(\widehat{\theta}_2\) un estimador insesgado de \(\theta_2\).
Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\) que proviene de una distribución con media \(\mu\) y varianza \(\sigma^2\). También, sea: \({\widehat{\sigma}}^2=\frac{1}{n}\sum^n_{i=1} (X_i-\overline{X})^2\).
Para una muestra con \(X_i \sim B(m_i, p)\) y valores \(y_i\in \{0,1,\ldots, m_i\}\) para \(i=1,2 \ldots, n\) demuestre que la ML-estimación de \(p\) es
\[\widehat{p}=\frac{\sum\limits_{i=1}^n y_i}{\sum\limits_{i=1}^n m_i}\]
Si \(X\) es una variable aleatoria binomial con parámetros \(n\) y \(p\), demuestre que: (a) \(\widehat{p}=X/n\) es un estimador insesgado de \(p\).
(b) \(p'=\frac{X+\sqrt{n/2}}{n+\sqrt{n}}\) es un estimador sesgado de \(p\).
(c) El estimador \(p'\) del inciso (b) se vuelve insesgado cuando \(n\overrightarrow{}\infty\).
\[ \widehat{\sigma}^2 = \frac{(n-1)s_1^2 + (n-1)s_2^2}{n_1+n_2-2}\]
siendo \(-1 \leq \lambda \leq 1\). Demuestre que \(\widehat{\lambda}=3\overline{X}\) es un estimador insesgado de \(\theta\). Sugerencia: primero determine \(\mu=E(X)=E(\overline{X})\).
Sea \(X=(X_1,\ldots, X_n)^t\) una muestra con variables muestrales \(X_i\) (discretas) distribuidas uniformemente en el conjunto discreto \(\{1,2, \ldots, \theta\}\). Es decir,
\[X_i \; \sim\; f_i(y_i, \theta) \;= \; \left\{ \begin{array}{ll} 1/\theta, & \hbox{si $x_i\in \{1,2, \ldots, \theta\}$;} \\ 0, & \hbox{si no.} \end{array} \right. \]
Sea \(M_n:=\max\{X_1,\ldots, X_n\}\) el máximo muestral de estas variables.
Sean \(X\) y \(M_n\) como en el ejercicio 2.14.
Sea \(X=(X_1,\ldots, X_n)^t\) una muestra con variables muestrales \(X_i\) (continuas) distribuidas uniformemente en el intervalo \([0,\theta]\).
Se tiene interés en el problema de medir la dependencia del desgaste de una llanta de carro para diferentes cargas a las que se somete dicha llanta. Supongamos que se parte de un modelo probabilístico de regresión lineal \(Y= \delta + \beta x + e\). Es decir, se supone que la carga es una variable determinística \(x\in \mathbb{R}\) y que el desgaste es una variable aleatoria \(Y\) que depende linealmente de \(x\). Además, que \(e\) es una variable aleatoria que representa el error de esta medición. Para este modelo de regresión lineal y normal, en donde \(\theta=(\delta, \beta, \sigma^2)^t\):
Para una variable multinomial \[N=(N_1, \ldots, N_k)^t \; \sim \; M(n, p_1, \ldots, p_k)\]
muestre que \((N_1, \ldots, N_{k-1})^t\) es suficiente para \((N_1, \ldots, N_{k-1})^t\).
Para una muestra \(X=(X_1,\ldots, X_n)^t\) con variables muestrales \(X_i \sim \mathcal{B}(m_i,p)\), muestre que \(SX=\sum\limits_{i=1}^n X_i\) es suficiente para \(p\):
Para variables muestrales \(X_1, \ldots, X_n\) que tienen distribución de Poisson con parámetro \(\lambda\), encuentre la ML-estimación \(\widehat{\lambda}\).
\[p_1=P(\alpha\alpha)=\theta^2, \quad p_2=P(\alpha\beta)=2\theta(1-\theta), \quad p_3=P(\beta\beta)=(1-\theta)^2\]
donde el parámetro de interés es \(\theta\) y se refiere a la probabilidad de que exista uno de los alelos (por ejemplo, \(\alpha\)) en la población de interés. Suponga que se observan ahora \(n\) individuos.
Para cada \(j=1,2 \ldots, J\) se supone el modelo \[Y_{jk}=\mu_j +\epsilon_{jk}, \quad \epsilon_{jk}\sim \mathcal{N}(0,\sigma^2), \quad k=1,\ldots, K, \quad \mbox{independientes}\]
Para variables muestrales \((Y_{1k}, Y_{2k})^t\) con \(k=1,2, \ldots, K\) bi-normales de la forma \((Y_{1k}, Y_{2k})^t \; \sim \;\mathcal{ N}(\mu, \Sigma)\), siendo \(\mu=(\mu_1, \mu_2)^t\) y \[\Sigma \;= \; \left( \begin{array}{ll} \sigma_1^2 & \sigma_1\sigma_2\rho \\ \sigma_1\sigma_2\rho & \sigma_2^2 \end{array} \right)\] y donde los \(K\) vectores son independientes entre sí, demuestre que las ML-estimaciones de los parámetros \(\mu_1\), \(\mu_2\), \(\sigma^2_1\), \(\sigma_2^2\) y \(\rho\) son, respectivamente:
Considere los datos XOR utilizados en este documento. Repita el procedimiento para:
La primera observación x=(0,0).
La tercera observación x=(1,1).
La cuarta observación x=(1,0).
Mini-red neuronal manual con todos los casos XOR. ¿La red puede aprender la función XOR con una sola neurona? ¿Qué deberías hacer para que lo logre (sugerencia: capas ocultas)?
# Base XOR
X <- matrix(c(0,0,
0,1,
1,0,
1,1), ncol = 2, byrow = TRUE)
Y <- c(0,1,1,0)
# Visualizar
df <- data.frame(x1 = X[,1], x2 = X[,2], y = Y)
df
# Activación sigmoide
sigmoid <- function(z) 1 / (1 + exp(-z))
# Inicialización manual de pesos
set.seed(1)
w <- matrix(runif(2, -1, 1), ncol = 1)
b <- 0
# Simple red lineal con activación
forward <- function(x, w, b) sigmoid(x %*% w + b)
# Ver salidas
pred <- forward(X, w, b)
round(pred, 2)
Considere los datos de la compuerta lógica AND:
# Datos: compuerta AND
X1 <- c(0, 0, 1, 1)
X2 <- c(0, 1, 0, 1)
Y <- c(0, 0, 0, 1) # salida AND
datos <- data.frame(X1, X2, Y)
datos
## X1 X2 Y
## 1 0 0 0
## 2 0 1 0
## 3 1 0 0
## 4 1 1 1
En dos época, estime los parámetros correspondientes, considerando solo:
La primera observación x=(0,0).
La segunda observación x=(0,1).
La tercera observación x=(1,1).
La cuarta observación x=(1,0).
Consultar el documento RPubs :: Teoría de Probabilidad y Estadística Matemática (bibliografía).
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.