Inferencia Estadística

Prediction, classification, clustering, and estimation are all special cases of statistical inference. Data analysis, machine learning and data mining are various names given to the practice of statistical inference, depending on the context (L. Wasserman, All of Statistics, 2004).

La inferencia estadística se ocupa de hacer afirmaciones sobre una población a partir de la información de una muestra representativa de esa población.

La probabilidad es un proceso deductivo (conclusión específica basándose en premisas generales), mientras que la inferencia es estadística es un proceso inductivo (conclusión general basándose en casos específicos).


Ejemplo

Sea \(X\) una variable aleatoria con distribución Gamma con parámetro de forma \(\alpha = 2\) y parámetro de razón \(\beta = 3\), i.e., \(X\sim\textsf{Gamma}(2,3)\). Calcular la probabilidad de que \(X\) asuma un valor mayor que 1.

# Visualización de la función de densidad de X
curve(expr = dgamma(x, shape = 2, rate = 3), from = 0, to = 3, 
      n = 1000, col = 4, lwd = 2, xlab = "x", ylab = "f(x)", main = "")

En este caso se tiene que \[ \textsf{P}(X > 1) = \int_1^\infty f_X(x)\,\text{d}x = 0.1991\,, \] donde \(f_X(x)\) es la función de densidad de probabilidad de \(X\).

# Probabilidad de X > 1
round(pgamma(q = 1, shape = 2, rate = 3, lower.tail = F), 4)
## [1] 0.1991
# Usando experimentación
set.seed(123)
x <- rgamma(n = 100000, shape = 2, rate = 3)
round(mean(x > 1), 4)
## [1] 0.2006

Tipos de inferencia

Existen dos grandes escuelas de inferencia estadística: \[ \text{Inferencia estadística basada en el diseño} \quad\text{vs.}\quad \text{Inferencia estadística basada en el modelo} \]

Sterba, S. K. (2009). Alternative model-based and design-based frameworks for inference from samples to populations: From polarization to integration. Multivariate behavioral research, 44(6), 711-740.


Inferencia basada en el diseño (descriptiva)

Se basa en un mecanismo de muestreo aleatorio bajo control del investigador.

Todos los individuos de la población tienen una probabilidad positiva de ser incluido en la muestra.

Aleatoriedad empírica a partir del muestreo aleatorio.

Población finita tangible.

Muestras probabilísticas.

El objetivo de la inferencia son los parámetros de la población finita.

Pro:

  • La inferencia es de la muestra a una población finita particular.

Con:

  • Hay que especificar un marco muestral (listado exhaustivo de todas las unidades primarias de muestreo).
  • El muestreo aleatorio empírico no siempre es factible.

Inferencia basada en el modelo (analítica)

Se basa en un modelo probabilístico propuesto por el investigador.

Aleatoriedad teórica a partir del modelo probabilístico.

Población infinita hipotética (todos los posibles valores que podría generar el modelo).

Muestras probabilísticas o no probabilísticas.

El objetivo de la inferencia son los parámetros del modelo probabilístico.

Pro:

  • Hay un proceso vinculante entre las unidades muestreadas y no muestreadas.
  • Se puede hacer inferencias a partir de muestras no aleatorias.

Con:

  • Hay que especificar un modelo probabilístico que se supone habría generado los datos.
  • Se deben verificar empíricamente los supuestos del modelo para que la inferencia goce validez.
  • No es posible hacer inferencia acerca de una población finita particular.


Inferencia estadística paramétrica frecuentista

La inferencia estadística basada en el modelo es un proceso inductivo que utiliza datos para aprender acerca de los parámetros de la distribución de probabilidad que se asume que generó esos datos.

Los procesos de inferencia (aprendizaje) se pueden enmarcar de tres maneras: estimación puntual, intervalos de confianza y prueba de hipótesis.

Se debe especificar un modelo probabilístico basado en un conjunto finito de parámetros (cantidades fijas desconocidas).

Se asume que los datos surgen aleatoriamente a partir de la estructura probabilística del modelo.

El modelo es una abstracción del fenómeno objeto de estudio.

En la mayoría de situaciones prácticas es imposible conocer con absoluta certeza el proceso generativo mediante el cual surgen los datos.


(Definición.) Un modelo paramétrico \(\mathcal{P}\) es un conjunto de distribuciones de probabilidad que se definen por medio de un conjunto finito de parámetros. Específicamente, un modelo paramétrico \(\mathcal{P} = \{f(x;\boldsymbol{\theta}):\boldsymbol{\theta}\in\Theta\}\), donde \(\boldsymbol{\theta}=(\theta_1,\ldots,\theta_k)\) es un parámetro desconocido que toma valores en el espacio de parámetros \(\Theta\).

La población corresponde a una distribución de probabilidad con parámetros fijos desconocidos definida en el espacio de resultados de todos los posibles variables que podría asumir la variable objeto de estudio.


Ejemplo

Considere la variable aleatoria (población) \(X =\) “peso (en kg) de una persona que se somete a una terapia antiviral”. Entonces:

  • Superpoblación: personas similares a los pacientes examinados en todas las características fisiológicas relevantes para la terapia.
  • Modelo: \(X\sim\textsf{Normal}(\mu,\sigma^2)\).
  • Parámetro de interés: \(\boldsymbol{\theta} = (\mu,\sigma^2)\), media y varianza de \(X\).

Muestras aleatorias

(Definición). Una muestra aleatoria es una colección finita de variables aleatorias independientes e idénticamente distribuidas (i.i.d.) \(X_1,\ldots,X_n\). El valor \(n\) recibe el nombre de tamaño de la muestra.

La realización de una muestra aleatoria hace referencia la colección finita de valores observados \(x_1,\ldots,x_n\) de la muestra aleatoria \(X_1,\ldots,X_n\).

La distribución conjunta de la muestra aleatoria \(X_1,\ldots,X_n\) está dada por \[ f_{\boldsymbol{X}}(x_1,\ldots,x_n) = \prod_{i=1}^{n} f_{X}(x_i)\,, \] donde \(\boldsymbol{X}=(X_1,\ldots,X_n)\) es un vector aleatorio \(n\)-dimensional y \(f_X(x)\) es la función de densidad (masa) de probabilidad común a todas las variables aleatorias de la muestra aleatoria.


Ejemplo

Sea \(X_1,\ldots, X_5\) una muestra aleatoria de tamaño \(n=5\) de una población \(X\) con distribución Gamma con parámetro de forma \(\alpha = 2\) y parámetro de razón \(\beta = 3\). Simular una realización de la muestra aleatoria.

En este caso se tiene que \(X_i\stackrel{\text{i.i.d.}}{\sim}\textsf{Gamma}(2,3)\), para \(i=1,\ldots,5\). Así, una realización de la muestra aleatoria es:

# Simulación
set.seed(123)
x <- rgamma(n = 5, shape = 2, rate = 3)
round(x, 4)
## [1] 0.2974 1.1039 0.0481 0.5542 1.4453

Ejemplo

Sea \(X_1,\ldots, X_5\) una muestra aleatoria de tamaño \(n=5\) de una población \(X\) con distribución Gamma con parámetro de forma \(\alpha = 2\) y parámetro de razón \(\beta = 3\). Simular \(N=100000\) de realizaciones de \(X_1,\ldots, X_5\) y visualizar tanto la distribución empírica como la distribución teórica de cada variable de la muestra.

# Tamaños
N <- 100000
n <- 5
# Simulación
set.seed(123)
A <- matrix(
     data = rgamma(n = n*N, shape = 2, rate = 3), 
     nrow = N, 
     ncol = n, 
     byrow = F
)
# Dimensión
dim(A)
## [1] 100000      5
# Encabezado
head(A, n = 3)
##            [,1]      [,2]      [,3]      [,4]      [,5]
## [1,] 0.29736452 0.5915338 1.2871126 0.8353851 1.2370677
## [2,] 1.10394914 0.6876365 1.3633349 0.9435850 1.1153859
## [3,] 0.04812498 0.4377386 0.1582513 0.8118852 0.2553884
# Visualization
par(mfrow = c(2, 3), mar = c(3, 3, 1.5, 1.5), mgp = c(1.75, 0.75, 0))

for (i in seq_len(n)) {
  hist(x = A[, i], freq = FALSE, breaks = 25, col = "gray85", border = "gray85", 
       xlim = c(0, 4), ylim = c(0, 1.1), xlab = "x", ylab = "f(x)", main = "")
  
  curve(dgamma(x, shape = 2, rate = 3), from = 0, to = 4, 
        n = 1000, col = 4, lwd = 2, add = TRUE)
  
  legend("topright", legend = paste0("i = ", i), bty = "n", cex = 1.5)
}


Estadísticos

(Definición). Un estadístico es una función \(T=T(X_1,\ldots,X_n)\) de la muestra aleatoria que no depende de ningún parámetro desconocido.

Los estadísticos son variables aleatorias. En efecto, si se seleccionan diferentes muestras de una población, entonces el valor de un estadístico cambia dependiendo de la muestra seleccionada.


Ejemplo

Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población \(X\). Los siguientes son ejemplos de estadísticos:

  • La media muestral: \[ T = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\,. \]
  • La varianza muestral: \[ T = S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\,. \]
  • El mínimo de la muestra: \[ T = \min\{X_1,\ldots,X_n\}\,. \]

(Definición.) Un estadístico cuyas realizaciones se utilizan para llevar a cabo estimaciones de los parámetros de un modelo se denomina estimador. Las realizaciones de un estimador se conocen como estimaciones.


(Definición.) La distribución de probabilidad de un estadístico se llama distribución muestral.


Ejercicio

Demostrar que si \(X_1,\ldots,X_n\) es una muestra aleatoria de tamaño \(n\) de una población con media \(\mu=\textsf{E}(X)\) y varianza \(\sigma^2 = \textsf{Var}(X)\), entonces \(\textsf{E}(\bar{X}) = \mu\) y \(\textsf{Var}(\bar{X}) = \sigma^2/n\).


La desviación estándar de la media muestral \(\bar{X}\) es \(\textsf{DE}(\bar{X}) = \sigma/\sqrt{n}\) y se conoce como error estándar de \(\bar{X}\).

La media muestral \(\bar{X}\) es cada vez “mejor” como estimador de la media poblacional \(\mu\) a medida que aumenta el tamaño de la muestra.


Ejercicio

Demostrar que si \(X_1,\ldots,X_n\) es una muestra aleatoria de tamaño \(n\) de una población con media \(\mu=\textsf{E}(X)\) y varianza \(\sigma^2 = \textsf{Var}(X)\), entonces \(\textsf{E}(S^2) = \sigma^2\).


Ejemplo

Sea \(X_1,\ldots, X_n\) una muestra aleatoria de tamaño \(n\) de una población \(X\) con distribución Gamma con parámetro de forma \(\alpha = 2\) y parámetro de razón \(\beta = 3\). Para cada \(n\in\{5,10,20\}\), simular \(N=100000\) de realizaciones de \(X_1,\ldots, X_n\) y en cada instancia calcular la realización correspondiente de \(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\). Visualizar la distribución empírica de cada \(\bar{X}\).

# Tamaños
N <- 100000
n <- c(5, 10, 20)
k <- length(n)
# Simulación
TT <- matrix(NA, nrow = N, ncol = k)
colnames(TT) <- paste0("n = ", n)

set.seed(123)
for (j in seq_len(k)) {
  A <- matrix(
       data = rgamma(n = n[j] * N, shape = 2, rate = 3), 
       nrow = N, 
       ncol = n[j],
       byrow = FALSE
  )
  TT[, j] <- rowMeans(A)
}
# Dimensión
dim(TT)
## [1] 100000      3
# Encabezado
head(TT, n = 3)
##          n = 5    n = 10    n = 20
## [1,] 0.8496928 0.5139289 0.6702602
## [2,] 1.0427783 0.6195994 0.5679539
## [3,] 0.3422777 1.0780257 0.7689376
# Visualización
par(mfrow = c(1, 3), mar = c(3, 3, 1.5, 1.5), mgp = c(1.75, 0.75, 0))

for (j in seq_len(k)) {
  hist(x = TT[, j], freq = FALSE, breaks = 25, col = "gray", border = "gray", 
       xlim = c(0, 2), ylim = c(0, 4), xlab = "t", ylab = "f(t)", main = "")
  
  abline(v = 2 / 3, col = 2, lwd = 2)  # Increased line width for visibility
  
  legend("topright", legend = paste0("n = ", n[j]), bty = "n", cex = 1.5)
}


Referencias


Ejercicios

  • Sea \(X\) una variable aleatoria con distribución Exponencial con parámetro de razón \(\lambda > 0\), esto es, \(X\sim\textsf{Exp}(\lambda)\):

    1. Demostrar que la función de distribución acumulada de \(X\) es \[ F_X(x) = \begin{cases} 1 - e^{-\lambda x}\,, & x > 0; \\ 0\,, & \text{ en otro caso.} \end{cases} \]
    2. Demostrar que el percentil \(p\) de \(X\) está dado por \(-\ln(1-p)/\lambda\), para \(0<p<1\).
    3. Demostrar que el valor esperado de \(X\) es \(\mu = \textsf{E}(X) = 1/\lambda\).
    4. Demostrar que la varianza de \(X\) es \(\sigma^2 = \textsf{Var}(X) = 1/\lambda^2\).
    5. Demostrar que la función generadora de momentos de \(X\) es \(m_X(t) = \lambda/(\lambda - t)\), para \(t < \lambda\).
  • Sea \(X\) una variable aleatoria con distribución Exponencial con parámetro de razón \(\lambda = 1/2\), esto es, \(X\sim\textsf{Exp}(1/2)\):

    1. Graficar la función de densidad de \(X\).
    2. Graficar la función de distribución acumulada de \(X\).
    3. Calcular los cuartiles de \(X\).
    4. Calcular la probabilidad de que \(X > 1\).
    5. Simular una muestra aleatoria de \(X\) de tamaño \(n=1000\). Hacer un histograma de la muestra y superponer la función de densidad de \(X\).
  • Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población \(X\) con distribución Bernoulli con parámetro \(\theta\), esto es, \(X\sim\textsf{Ber}(\theta)\):

    1. ¿Cuál es el espacio de parámetros?
    2. ¿Cuál es la función de masa/densidad de \(X\)?
    3. Hallar la función de densidad conjunta de \(\boldsymbol{X}=(X_1,\ldots,X_n)\).
  • Repetir el numeral anterior para las siguientes poblaciones:

    1. Poisson.
    2. Exponencial.
    3. Normal.
    4. Log-Normal.
    5. Beta.
    6. Gamma.
    7. Laplace.
    8. Weibull.
  • ¿Cuáles son las características de la inferencia basada en el diseño y de la inferencia basada en el modelo? ¿Cuáles son los principales pros y contras de cada uno de estos tipos de inferencia?

  • ¿Cuál es la principal diferencia entre la inferencia frecuentista y la inferencia Bayesiana? ¿Cuál es la principal diferencia entre la inferencia paramétrica y inferencia no paramétrica?

  • Sea \(X_1,\ldots,X_n\) una muestra aleatoria de tamaño \(n\) de una población con media \(\mu\) y varianza \(\sigma^2\).

    1. Demostrar que \(\textsf{E}(\bar{X}) = \mu\) y \(\textsf{Var}(\bar{X}) = \sigma^2/n\), donde \(\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i\) es la media muestral.
    2. Demostrar que \(\textsf{E}(S^2) = \sigma^2\), donde \(S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\) es la varianza muestral.
  • Sea Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población \(X\) con media \(\mu=\textsf{E}(X)\) y varianza \(\sigma^2=\textsf{Var}(X)\). Demostrar que: \[ \sum_{i=1}^n(X_i - \mu)^2 = (n-1)S^2 + n(\bar{X} - \mu)^2\,, \] donde \(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\) y \(S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2\) son la media y la varianza muestrales, respectivamente.

  • Sea \(X_1,\ldots, X_5\) una muestra aleatoria de tamaño \(n=5\) de una población \(X\) con distribución Exponencial con parámetro de razón \(\lambda = 1/2\), esto es, \(X\sim\textsf{Exp}(1/2)\). Simular \(N=1,000,000\) de realizaciones de \(X_1,\ldots, X_5\) y visualizar tanto la distribución empírica como la distribución teórica de cada variable de la muestra.

  • Sea \(X_1,\ldots, X_n\) una muestra aleatoria de tamaño \(n\) de una población \(X\) con distribución Exponencial con parámetro de razón \(\lambda = 1/2\). Para cada \(n\in\{5,10,20\}\), simular \(N=1,000,000\) de realizaciones de \(X_1,\ldots, X_n\) y en cada instancia calcular la realización correspondiente de \(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\). Visualizar la distribución empírica de cada \(\bar{X}\).