1 Introducción

1.1 Censo

  • En la mayoría situaciones prácticas no es posible observar a todos los individuos de una población porque sería muy costoso hacerlo en términos de tiempo y dinero, o porque no es posible hacerlo (poblaciones conceptuales).

1.2 Inferencia estadística

  • La inferencia estadística es un proceso inductivo que consiste en aprender (disminuir la incertidumbre) acerca de cantidades desconocidas (parámetros) asociadas con características de una población a partir de los datos de una muestra (de la población).

1.3 Inferencia estadística basada en el modelo

  • La población se puede representar por medio de una distribución probabilística (con parámetros desconocidos). Este modelo caracteriza completamente cómo surgen los datos.

1.3.1 Ejemplo

Para tomar decisiones de salud pública, la universidad requiere saber la proporción de estudiantes activos que tienen diabetes.

  • Variable de interés \(X\): tener diabetes (\(x=1\)) o no (\(x=0\)).
  • Modelo: \(X\sim\textsf{Bernoulli}\).
  • Parámetro de interés \(\theta\): \((\pi)\), probabilidad de éxito de \(X\) .
  • Población: estudiantes (activos) de pre y posgrado de la sede Bogotá de la Universidad.

1.3.2 Ejemplo

  • Variable de interés \(X\): peso (en kg) de una persona que se ha sometido a una terapía antiviral experimental.
  • Modelo: \(X\sim\textsf{Normal}\).
  • Parámetro de interés \(\theta\): \((\mu,\sigma^2)\), media y varianza de \(X\).
  • Población: personas similares a los voluntarios en todas las características fisiológicas relevantes para la terapia.

1.4 Observaciones

  • Los parámetros se asumen como cantidades fijas desconocidas (paradigma frecuentista).
  • La inferencia estadística no es comprobable directamente.
  • Se distinguen principalmente tres maneras de hacer inferencia estadística: estimación puntual, intervalos de confianza, pruebas de hipótesis.

2 Muestras

2.1 Características

  • La muestra debe representar (ser similar a) a la no-muestra, y por ende a toda la población, en todos aquellos aspectos que sean relevantes.
  • Es labor del profesional definir con precisión cuáles son estos aspectos y en qué sentidos son relevantes.
  • La inferencia se hace sobre aquellos elementos que satisfacen tales características de similaridad (e.g., estudios observacionales).

2.2 Ventajas

  • Se necesita menos tiempo y menos recursos para estudiar la muestra que la población.
  • La calidad de los datos suele ser mayor en el muestreo que en un censo.

2.3 Retos

  • Siempre contiene algún tipo de error.
  • ¿Qué tan grande debe ser la muestra?
  • ¿Cómo se debe seleccionar la muestra?

2.4 Tipos

  • Muestreo aleatorio con reemplazo (MACR).
  • Muestreo aleatorio sin reemplazo (MASR).
  • MASR provee más información que MACR, particularmente cuando el tamaño de la muestra \(n\) es ``grande’’ respecto al tamaño de la población \(N\).
  • Si \(n << N\), entonces MASR y MACR son equivalentes. ¿Por qué?

2.5 Inferencia estadística basada en el modelo

  • Matemáticamente resulta más conveniente trabajar con IID. Por lo tanto, en adelante asumimos que el tamaño de la población \(N\) es grande respecto al tamaño de la muestra \(n\), por lo que es posible considerar a \(N\) como infinito para todos los propósitos prácticos.

2.6 Muestra aleatoria

  • Una muestra aleatoria se define como una secuencia de variables aleatorias \(X_1,X_2,\ldots,X_n\) independientes e idénticamente distribuidas. Esto se escribe como \[ X_1,X_2,\ldots,X_n \stackrel{\text{IID}}{\sim} F(\theta) \] donde \(F(\theta)\) es una distribución probabilística determinada por el \(\theta\).

2.7 Observaciones

  • La variable aleatoria \(X_i\) representa el valor hipotético (aun no observado) de la variable \(X\) para el individuo de la muestra \(i\), \(i=1,\ldots,n\).
  • Independencia: el valor que pueda asumir una variable particular no aporta información sobre ninguna otra.
  • Idénticamente distribuidos: todos los individuos provienen de la misma población \(F(\theta)\).
  • Una vez se recolectan los datos, \(X_i\) se convierte en un valor observado y por lo tanto pierde su calidad alatoria, lo cual se representa con \(x_i\). Es decir que \(x_1,x_2,\ldots,x_n\) es una realización de la muestra aleatoria \(X_1,X_2,\ldots,X_n\).

3 Estimador

  • Un estimador es función conocida de una muestra aleatoria que no depende ninguna cantidad desconocida.

3.1 Observaciones

  • Antes de recolectar los datos, un estimador es una variable aleatoria cuyo valor depende de la muestra que sea seleccionada.
  • Una vez se observan los valores de la muestra, es posible obtener el valor que asumirá el estimador. Esta cantidad se denomina estimación (puntual).

3.2 Estimador puntual de \(\mu\)

Un estimador de la media poblacional \(\mu=\textsf{E}(X)\) es la media muestral \(\widehat\mu=\bar{X}\): \[ \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i \]

3.3 Estimador puntual de \(\sigma^2\)

Un estimador de la varianza poblacional \(\sigma^2=\textsf{Var}(X)\) es la varianza muestral \(\widehat{\sigma^2}=S^2\): \[ S^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i-\bar{X})^2 \]

3.4 Ejemplo

Con el objetivo de estimar la media poblacional de temperatura corporal entre personas sanas, se obtuvieron los siguientes valores:

# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32, 
       36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34, 
       36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32, 
       36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41, 
       36.28, 36.28, 36.06, 36.31, 36.33, 36.35)

A partir de esta muestra de \(n = 50\) personas, se estima que la media y la varianza poblacional son respectivamente \[ \widehat\mu=\bar{x}= \frac{1}{n}\sum_{i=1}^{n} x_i=36.32 \text{ C} \] y \[ \widehat{\sigma^2} = \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2 = 0.01\text{ C}^2 \]

# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32, 
       36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34, 
       36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32, 
       36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41, 
       36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
# media 
round(mean(x), 2)
## [1] 36.32
# varianza
round(var(x), 2)
## [1] 0.01

3.5 Errores muestrales

  • El error muestral es la diferencia entre el estimador \(T\) y el parámetro \(\theta\) de interés, esto es, \(|T - \theta|\).
  • Surge a causa de observar una muestra en lugar de la población completa.
  • No se puede cuantificar directamente, sin embargo, se puede controlar por medio de la variabilidad del estimador.
  • Disminuye a medida que se aumenta el tamaño de la muestra siempre que se utilicen los métodos adecuados.

3.6 Errores no muestrales

  • Los errores no muestrales lo componen todos aquellos errores que se pueden presentar durante el proceso de la investigación, distintos del error muestral.
  • Al momento del análisis de datos, conducirá a resultados e interpretaciones distorsionadas.

3.6.1 Ejemplos

  1. Error por muestra no representativa de la población.
  2. Error por preguntas/mediciones dirigidas.
  3. Error por fata de calibración de los instrumentos de medición.
  4. Error por preguntas/mediciones mal formuladas.

4 El promedio muestral \(\bar{X}\)

  • Ya se ha visto que un estimador de la media poblacional \(\mu=\textsf{E}(X)\) es la media muestral \(\widehat\mu=\bar{X}\).

4.1 Propiedades del promedio muestral \(\bar{X}\)

Si \(X_1,X_2,\ldots,X_n\) es una muestra aleatoria de tamaño \(n\) de una población \(F\), entonces \[ \textsf{E}(\bar{X}) = \mu \quad\quad \textsf{Var}(\bar{X}) = \frac{\sigma^2}{n} \] donde \(\mu=\textsf{E}(X)\) es el promedio poblacional y \(\sigma^2=\textsf{Var}(X)\) es la varianza poblacional.

4.2 Estimador insesgado

Un estimador \(T\) del parámetro \(\theta\) se llama estimador insesgado de \(\theta\) si \(\textsf{E}(T) = \theta\).

4.2.1 Ejemplo

¿Cuál de los siguientes estimadores se puede considerar como insesgado?

4.2.2 Ejemplo

El estimador \(\bar{X}\) del promedio poblacional \(\mu\) es un estimador insesgado de \(\mu\) ya que \(\textsf{E}(\bar{X}) = \mu\).

4.2.3 Ejemplo

El estimador \(S^2\) de la varianza poblacional \(\sigma^2\) es un estimador insesgado de \(\sigma^2\) ya que \(\textsf{E}(S^2) = \sigma^2\).

4.3 Error estándar

El error estándar de un estimador \(T\) del parámetro \(\theta\) se define como la desviación estándar (típica) del estimador, es decir, \(\sigma_T=\textsf{DE}(T)=\sqrt{\textsf{Var}(T)}\).

El error estándar cuantifica la variabilidad (dispersión) de un estimador respecto a su valor esperado.

4.3.1 Ejemplo

El error estándar del promedio muestral \(\bar{X}\) es \[ \textsf{DE}(\bar{X}) = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} \] donde \(n\) es el tamaño de la muestra y \(\sigma^2=\textsf{Var}(X)\) es la varianza poblacional.

4.3.2 Ejemplo

Calcular el error estándar estimado de la estimación puntual del ejemplo de las temperaturas. En este caso se tiene que \[ \widehat{\textsf{DE}}(\bar{X}) = \sqrt{\frac{0.01}{50}} = 0.00213 \] ¿Por qué este valor es un error estándar estimado?

# tamaño de la muestra
n <- length(x)
# error estandar
round(sd(x)/n, 5)
## [1] 0.00213

4.3.3 Ejemplo

¿Cuál de los estimadores de la figura anterior tiene menor error estándar?

4.4 Distribución muestral

Se llama distribución muestral a la distribución probabilística de un estimador.

4.4.1 Teorema del Límite Central (TLC)

Sea \(X_1, X_2,\ldots,X_n\) un conjunto de variables aleatorias independientes e idénticamente distribuidas de una distribución con media \(\mu\) y varianza \(\sigma^2<\infty\), esto es, \(X_1, X_2,\ldots,X_n\stackrel{\text{IID}}{\sim}F\). Para \(n\) ``grande’’, se tiene que el promedio muestral \(\bar{X}\) aproximadamente (asintóticamente) sigue una distribución Normal. Esto es, \[ \bar{X}\sim \textsf{N}\left(\mu,\frac{\sigma^2}{n}\right) \]

4.4.2 Observaciones

  • El TLC solo dice algo sobre la de \(\bar{X}\), no sobre la distribución de la población \(F\).
  • El TLC dice que la distribución muestral de \(\bar{X}\) es aproximadamente normal cuando \(n\) es grande. ¿Cuándo es \(n\) grande? No hay una respuesta universal, depende de la forma de la población: si ésta no es muy diferente de una distribución normal, no hace falta un tamaño de muestra muy grande para que la aproximación sea satisfactoria. En cambio, si es muy distinta de una distribución normal, es necesario un tamaño muestral bastante grande.

4.4.3 Ejemplo

El peso de los habitantes de una ciudad tiene distribución normal con media 80 kg y desviación típica 4 kg. ¿Cuál es la probabilidad de que la media del peso de una muestra aleatoria de 100 personas supere los 79.5 kg?

La población está constituida por el peso (en kg) \(X\) de todos los habitantes de una ciudad. En este caso, se sabe que la media y la varianza de la población son respectivamente, \(\mu = \text{X} = 67\) y que \(\sigma^2=\textsf{Var}(X) = 16\). Se pide calcular \(\textsf{P}(\bar{X} > 79.5)\), donde \(\bar{X} = \frac{1}{n}\sum_i^{n} X_i\) con \(n = 100\). Así, por las propiedades del promedio muestral \(\bar{X}\), \[ \textsf{E}(\bar{X}) = \mu = 80 \] y \[ \textsf{Var}(\bar{X}) = \frac{\sigma^2}{n} = \frac{16}{100}\,. \] Por lo tanto, de acuerdo con lo estipulado en el TLC (pues no tenemos evidencia de que la población siga una distribución Normal), dado que el tamaño de la muestra es grande, se tiene que \[ \bar{X}\sim\textsf{N}\left(80,\frac{16}{100}\right) \] y en consecuencia, \[ \textsf{P}(\bar{X} > 79.5) = \textsf{P}\left(Z > \frac{79.5-80}{4/10}\right) = 0.8943 \]

# calculo de la probabilidad
pnorm(q = 79.5, mean = 80, sd = 4/10, lower.tail = F)
## [1] 0.8943502
# otra manera (estandarizando)
pnorm(q = (79.5-80)/(4/10), lower.tail = F)
## [1] 0.8943502