Para tomar decisiones de salud pública, la universidad requiere saber la proporción de estudiantes activos que tienen diabetes.
Un estimador de la media poblacional \(\mu=\textsf{E}(X)\) es la media muestral \(\widehat\mu=\bar{X}\): \[ \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i \]
Un estimador de la varianza poblacional \(\sigma^2=\textsf{Var}(X)\) es la varianza muestral \(\widehat{\sigma^2}=S^2\): \[ S^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i-\bar{X})^2 \]
Con el objetivo de estimar la media poblacional de temperatura corporal entre personas sanas, se obtuvieron los siguientes valores:
# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32,
36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34,
36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32,
36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41,
36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
A partir de esta muestra de \(n = 50\) personas, se estima que la media y la varianza poblacional son respectivamente \[ \widehat\mu=\bar{x}= \frac{1}{n}\sum_{i=1}^{n} x_i=36.32 \text{ C} \] y \[ \widehat{\sigma^2} = \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2 = 0.01\text{ C}^2 \]
# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32,
36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34,
36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32,
36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41,
36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
# media
round(mean(x), 2)
## [1] 36.32
## [1] 0.01
Si \(X_1,X_2,\ldots,X_n\) es una muestra aleatoria de tamaño \(n\) de una población \(F\), entonces \[ \textsf{E}(\bar{X}) = \mu \quad\quad \textsf{Var}(\bar{X}) = \frac{\sigma^2}{n} \] donde \(\mu=\textsf{E}(X)\) es el promedio poblacional y \(\sigma^2=\textsf{Var}(X)\) es la varianza poblacional.
Un estimador \(T\) del parámetro \(\theta\) se llama estimador insesgado de \(\theta\) si \(\textsf{E}(T) = \theta\).
¿Cuál de los siguientes estimadores se puede considerar como insesgado?
El estimador \(\bar{X}\) del promedio poblacional \(\mu\) es un estimador insesgado de \(\mu\) ya que \(\textsf{E}(\bar{X}) = \mu\).
El estimador \(S^2\) de la varianza poblacional \(\sigma^2\) es un estimador insesgado de \(\sigma^2\) ya que \(\textsf{E}(S^2) = \sigma^2\).
El error estándar de un estimador \(T\) del parámetro \(\theta\) se define como la desviación estándar (típica) del estimador, es decir, \(\sigma_T=\textsf{DE}(T)=\sqrt{\textsf{Var}(T)}\).
El error estándar cuantifica la variabilidad (dispersión) de un estimador respecto a su valor esperado.
El error estándar del promedio muestral \(\bar{X}\) es \[ \textsf{DE}(\bar{X}) = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} \] donde \(n\) es el tamaño de la muestra y \(\sigma^2=\textsf{Var}(X)\) es la varianza poblacional.
Calcular el error estándar estimado de la estimación puntual del ejemplo de las temperaturas. En este caso se tiene que \[ \widehat{\textsf{DE}}(\bar{X}) = \sqrt{\frac{0.01}{50}} = 0.00213 \] ¿Por qué este valor es un error estándar estimado?
## [1] 0.00213
¿Cuál de los estimadores de la figura anterior tiene menor error estándar?
Se llama distribución muestral a la distribución probabilística de un estimador.
Sea \(X_1, X_2,\ldots,X_n\) un conjunto de variables aleatorias independientes e idénticamente distribuidas de una distribución con media \(\mu\) y varianza \(\sigma^2<\infty\), esto es, \(X_1, X_2,\ldots,X_n\stackrel{\text{IID}}{\sim}F\). Para \(n\) ``grande’’, se tiene que el promedio muestral \(\bar{X}\) aproximadamente (asintóticamente) sigue una distribución Normal. Esto es, \[ \bar{X}\sim \textsf{N}\left(\mu,\frac{\sigma^2}{n}\right) \]
El peso de los habitantes de una ciudad tiene distribución normal con media 80 kg y desviación típica 4 kg. ¿Cuál es la probabilidad de que la media del peso de una muestra aleatoria de 100 personas supere los 79.5 kg?
La población está constituida por el peso (en kg) \(X\) de todos los habitantes de una ciudad. En este caso, se sabe que la media y la varianza de la población son respectivamente, \(\mu = \text{X} = 67\) y que \(\sigma^2=\textsf{Var}(X) = 16\). Se pide calcular \(\textsf{P}(\bar{X} > 79.5)\), donde \(\bar{X} = \frac{1}{n}\sum_i^{n} X_i\) con \(n = 100\). Así, por las propiedades del promedio muestral \(\bar{X}\), \[ \textsf{E}(\bar{X}) = \mu = 80 \] y \[ \textsf{Var}(\bar{X}) = \frac{\sigma^2}{n} = \frac{16}{100}\,. \] Por lo tanto, de acuerdo con lo estipulado en el TLC (pues no tenemos evidencia de que la población siga una distribución Normal), dado que el tamaño de la muestra es grande, se tiene que \[ \bar{X}\sim\textsf{N}\left(80,\frac{16}{100}\right) \] y en consecuencia, \[ \textsf{P}(\bar{X} > 79.5) = \textsf{P}\left(Z > \frac{79.5-80}{4/10}\right) = 0.8943 \]
## [1] 0.8943502
## [1] 0.8943502