En la mayoría de situaciones prácticas no es posible observar a todos los individuos de una población. Esto es, no es posible conocer completamente el proceso generativo de los datos.
La población corresponde una distribución probabilística (modelo probabilístico) con parámetros desconocidos.
La inferencia estadística (basada en el modelo) es un proceso inductivo que consiste en estimar (aprender) las cantidades desconocidas (parámetros) de una población (modelo probabilístico) a partir de una muestra aleatoria de la población.
Simulación de una muestra aleatoria de tamaño \(n = 100\) de una población Normal con media \(\mu = 10\) y desviación estándar \(\sigma = 1\).
# parametros de la poblacion (modelo)
mu <- 10
sigma <- 1
# muestra aleatoria
set.seed(2) # semilla
x <- rnorm(n = 100, mean = mu, sd = sigma)
# tipo de objeto
class(x)
## [1] "numeric"
# inspeccion
head(x)
## [1] 9.103085 10.184849 11.587845 8.869624 9.919748 10.132420
# tamaño de la muestra
length(x)
## [1] 100
# tendencia
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.548 9.144 9.860 9.969 10.814 12.091
# dispersion
sd(x)
## [1] 1.160189
# grafico
# muestra
hist(x, freq = F, xlim = c(6,14), ylim = c(0,0.4), xlab = "x", ylab = "Densidad", main = "", border = "red", col = "mistyrose")
# poblacion
curve(expr = dnorm(x, mean = 10, sd = 1), col = "blue", lty = 4, add = T)
# leyenda
legend("topleft", legend = c("Muestra","Población"), fill = c("red","blue"), bty = "n")
Matemáticamente resulta más conveniente trabajar con MACR.
En adelante se asume que el tamaño de la población \(N\) es grande respecto al tamaño de la muestra \(n\), por lo que es posible considerar a \(N\) como infinito para todos los propósitos prácticos.
Una muestra aleatoria se define como una secuencia de variables aleatorias \(X_1,\ldots,X_n\) independientes e idénticamente distribuidas (IID). Esto se escribe como \[ X_1,\ldots,X_n \stackrel{\text{IID}}{\sim} F_X(\theta) \] donde \(F_X(\theta)\) es una distribución probabilística indexada por el parámetro desconocido \(\theta\).
Un estimador es función conocida de una muestra aleatoria que no depende de ninguna cantidad desconocida.
Un estimador de la media poblacional \(\mu=\textsf{E}(X)\) es la media muestral \(\widehat\mu=\bar{X}\): \[ \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i \]
Un estimador de la varianza poblacional \(\sigma^2=\textsf{Var}(X)\) es la varianza muestral \(\widehat{\sigma^2}=S^2\): \[ S^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i-\bar{X})^2 \]
Con el objetivo de estimar la media poblacional de temperatura corporal entre personas sanas, se obtuvieron los siguientes valores:
# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32,
36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34,
36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32,
36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41,
36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
A partir de esta muestra de \(n = 50\) personas, se estima que la media y la varianza poblacional son respectivamente \[ \widehat\mu=\bar{x}= \frac{1}{n}\sum_{i=1}^{n} x_i=36.32 \text{ C} \] y \[ \widehat{\sigma^2} = \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2 = 0.01\text{ C}^2 \]
# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32,
36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34,
36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32,
36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41,
36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
# media
round(mean(x), 2)
## [1] 36.32
# varianza
round(var(x), 2)
## [1] 0.01
Los errores no muestrales lo componen todos aquellos errores que se pueden presentar durante el proceso de la investigación, distintos del error muestral.
Al momento del análisis de datos, conducirá a resultados e interpretaciones distorsionadas.
El estimador de la media poblacional \(\mu=\textsf{E}(X)\) es la media muestral \(\widehat\mu=\bar{X}\).
Si \(X_1,\ldots,X_n\) es una muestra aleatoria de tamaño \(n\) de una población \(F_X\), entonces: \[ \textsf{E}(\bar{X}) = \mu \qquad\text{y}\qquad \textsf{Var}(\bar{X}) = \frac{\sigma^2}{n} \] donde \(\mu=\textsf{E}(X)\) es el promedio poblacional y \(\sigma^2=\textsf{Var}(X)\) es la varianza poblacional.
Si el tamaño de la muestra aumenta, entonces la variabilidad del estimador disminuye.
Simulación de una muestra aleatoria de tamaño \(n = 100\) de una población Normal con media \(\mu = 10\) y desviación estándar \(\sigma = 1\).
# parametros de la poblacion (modelo)
mu <- 10
sigma <- 1
# numero de simulaciones
M <- 1000000
# objeto para almacenar los promedios
XB <- matrix(data = NA, nrow = M, ncol = 1)
# simulacion
set.seed(1)
for (i in 1:M) {
x <- rnorm(n = 100, mean = mu, sd = sigma)
XB[i] <- mean(x)
}
# tipo de objeto
class(XB)
## [1] "matrix" "array"
# inspeccion
head(XB)
## [,1]
## [1,] 10.108887
## [2,] 9.962192
## [3,] 10.029674
## [4,] 10.051602
## [5,] 9.960866
## [6,] 9.955481
# media teorica
mu
## [1] 10
# media empirica
mean(XB)
## [1] 10.00006
# varianza teorica
sigma^2/100
## [1] 0.01
# varianza empirica
var(XB)
## [,1]
## [1,] 0.009994
Simulación de una muestra aleatoria de tamaño \(n = 3\) de una población Normal con media \(\mu = 10\) y desviación estándar \(\sigma = 1\).
# parametros de la poblacion (modelo)
mu <- 10
sigma <- 1
# numero de simulaciones
M <- 1000000
# objeto para almacenar los promedios
XB <- matrix(data = NA, nrow = M, ncol = 1)
# simulacion
set.seed(1)
for (i in 1:M) {
x <- rnorm(n = 3, mean = mu, sd = sigma)
XB[i] <- mean(x)
}
# tipo de objeto
class(XB)
## [1] "matrix" "array"
# inspeccion
head(XB)
## [,1]
## [1,] 9.573854
## [2,] 10.368107
## [3,] 10.600512
## [4,] 10.532079
## [5,] 9.429663
## [6,] 10.294237
# media teorica
mu
## [1] 10
# media empirica
mean(XB)
## [1] 9.999893
# varianza teorica
sigma^2/3
## [1] 0.3333333
# varianza empirica
var(XB)
## [,1]
## [1,] 0.3337034
Un estimador \(T\) del parámetro \(\theta\) se llama estimador insesgado de \(\theta\) si \(\textsf{E}(T) = \theta\).
El estimador \(\bar{X}\) del promedio poblacional \(\mu\) es un estimador insesgado de \(\mu\) ya que \(\textsf{E}(\bar{X}) = \mu\).
El estimador \(S^2\) de la varianza poblacional \(\sigma^2\) es un estimador insesgado de \(\sigma^2\) ya que \(\textsf{E}(S^2) = \sigma^2\).
El error estándar de un estimador \(T\) del parámetro \(\theta\) se define como la desviación estándar (típica) del estimador, es decir, \(\sigma_T=\textsf{DE}(T)=\sqrt{\textsf{Var}(T)}\).
El error estándar cuantifica la variabilidad (dispersión) de un estimador respecto a su valor esperado.
El error estándar del promedio muestral \(\bar{X}\) es \[ \textsf{DE}(\bar{X}) = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} \] donde \(n\) es el tamaño de la muestra y \(\sigma^2=\textsf{Var}(X)\) es la varianza poblacional.
Calcular el error estándar de \(\bar{X}\) en la simulación anterior.
# error estandar teorico
sigma/sqrt(3)
## [1] 0.5773503
# error estandar empirico
sd(XB)
## [1] 0.5776706
Calcular el error estándar estimado de la estimación puntual del ejemplo de las temperaturas.
En este caso se tiene que \[ \widehat{\textsf{DE}}(\bar{X}) = \sqrt{\frac{0.01}{50}} = 0.00213 \]
¿Por qué este valor es un error estándar estimado?
# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32,
36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34,
36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32,
36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41,
36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
# tamaño de la muestra
n <- length(x)
# error estandar
round(sd(x)/n, 5)
## [1] 0.00213
Un estimador insesgado \(T\) de \(\theta\) es un estimador consistente de \(\theta\) si \(\lim\limits_{n\to\infty} \textsf{V}(T) = 0\).
\(\bar{X}\) es un estimador consistente de \(\mu\) porque \(\lim\limits_{n\to\infty} \textsf{V}(\bar{X}) = \lim\limits_{n\to\infty}\frac{\sigma^2}{n} = 0\).
Se llama distribución muestral a la distribución probabilística de un estimador.
Si \(X_1, X_2,\ldots\) es una sucesión infinita de variables aleatorias independientes que tienen el mismo valor esperado \(\mu\) y varianza \(\sigma^2\), entonces el promedio \(\bar{X}\) converge en probabilidad a \(\mu\). En otras palabras, para cualquier número positivo \(\epsilon\) se tiene que:
\[\lim\limits_{n\to\infty}P\left(|\bar{X}-\mu|<\epsilon\right) = 1\]
Sea \(X_1, \ldots,X_n\) un conjunto de variables aleatorias independientes e idénticamente distribuidas de una distribución con media \(\mu\) y varianza \(\sigma^2<\infty\), esto es, \(X_1,\ldots,X_n\stackrel{\text{IID}}{\sim}F_X\). Para \(n\) grande, se tiene que el promedio muestral \(\bar{X}\) aproximadamente (asintóticamente) sigue una distribución Normal. Esto es: \[ \bar{X}\sim \textsf{N}\left(\mu,\frac{\sigma^2}{n}\right) \]
El peso de los habitantes de una ciudad tiene media 80 kg y desviación típica 4 kg. ¿Cuál es la probabilidad de que la media del peso de una muestra aleatoria de 100 personas supere los 79.5 kg?
La población está constituida por el peso (en kg) \(X\) de todos los habitantes de una ciudad. En este caso, se sabe que la media y la varianza de la población son respectivamente, \(\mu = \textsf{E}(X) = 80\) y que \(\sigma^2=\textsf{Var}(X) = 16\). Se pide calcular \(\textsf{Pr}(\bar{X} > 79.5)\), donde \(\bar{X} = \frac{1}{n}\sum_i^{n} X_i\) con \(n = 100\). Así, por la propiedades del promedio muestral \(\bar{X}\), \[ \textsf{E}(\bar{X}) = \mu = 80 \] y \[ \textsf{Var}(\bar{X}) = \frac{\sigma^2}{n} = \frac{16}{100}\,. \] Por lo tanto, de acuerdo con lo estipulado en el TLC (pues no tenemos evidencia de que la población siga una distribución Normal), dado que el tamaño de la muestra es grande, se tiene que \[ \bar{X}\sim\textsf{N}\left(80,\frac{16}{100}\right) \] y en consecuencia, \[ \textsf{Pr}(\bar{X} >79.5) = \textsf{Pr}\left(Z > \frac{79.5-80}{4/10}\right) = 0.8943 \]
# calculo de la probabilidad
pnorm(q = 79.5, mean = 80, sd = 4/10, lower.tail = F)
## [1] 0.8943502
# otra manera (estandarizando)
pnorm(q = (79.5-80)/(4/10), lower.tail = F)
## [1] 0.8943502