Muestreo, estimación e inferencia paramétrica

EP7120-Modelos Lineales Generalizados Aplicados

Enver Gerald Tarazona Vargas

etarazona@lamolina.edu.pe

Universidad Nacional Agraria La Molina (UNALM), Perú

Introducción

Enfoque de la presentación

En esta presentación se desarrollarán los conceptos fundamentales de muestreo, estimación e inferencia paramétrica.

A lo largo de la exposición, estos conceptos se ilustrarán de manera transversal con el modelo de regresión lineal clásico, que servirá como ejemplo conductor para mostrar cómo se formulan, estiman e interpretan modelos estadísticos.

La idea general será la siguiente:

\[ \text{muestra aleatoria} \;\longrightarrow\; \text{distribución muestral} \;\longrightarrow\; \text{estimación} \;\longrightarrow\; \text{inferencia}. \]

Muestreo y Distribuciones Muestrales

Muestra aleatoria

Sean \(X_1,X_2,\dots,X_n\) variables aleatorias.

Se dice que \(X_1,X_2,\dots,X_n\) constituyen una muestra aleatoria de tamaño \(n\) de una población con distribución \(F\) si son independientes y tienen la misma distribución.

En ese caso, se escribe

\[ X_1,X_2,\dots,X_n \stackrel{\text{i.i.d.}}{\sim} F. \]

Si además la población tiene media \(\mu\) y varianza \(\sigma^2\), entonces

\[ E(X_i)=\mu, \qquad \operatorname{Var}(X_i)=\sigma^2, \qquad i=1,\dots,n. \]

Parámetro, estadístico y distribución muestral

Un parámetro es una característica numérica de la población o del modelo probabilístico, por ejemplo,

\[ \mu,\qquad \sigma^2,\qquad p. \]

Un estadístico es una función de la muestra aleatoria que no depende de parámetros desconocidos, por ejemplo,

\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i, \qquad S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2, \qquad R=X_{(n)}-X_{(1)}. \]

Un estimador es un estadístico utilizado para aproximar un parámetro desconocido.

Así, todo estimador es un estadístico, pero no todo estadístico es un estimador.

Como un estadístico es también una variable aleatoria, posee una distribución de probabilidad, llamada distribución muestral.

El modelo de regresión lineal clásico como ejemplo

En el modelo de regresión lineal clásico se observan datos de la forma

\[ (Y_i,\mathbf{x}_i), \qquad i=1,\dots,n, \]

y se plantea que

\[ Y_i=\mathbf{x}_i^\top\boldsymbol{\beta}+\varepsilon_i, \]

donde

\[ \varepsilon_i \stackrel{\text{i.i.d.}}{\sim} N(0,\sigma^2). \]

En este contexto:

la muestra aleatoria está formada por las observaciones del estudio;
los parámetros del modelo son \(\boldsymbol{\beta}\) y \(\sigma^2\);
los estimadores de esos parámetros serán estadísticos construidos a partir de la muestra.

Teorema del límite central

Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria de una población con media \(\mu\) y varianza \(\sigma^2<\infty\).

Entonces, cuando \(n\) es grande,

\[ \frac{\bar X-\mu}{\sigma/\sqrt{n}} \overset{d}{\longrightarrow} N(0,1). \]

Equivalentemente,

\[ \bar X \overset{\cdot}{\sim} N\left(\mu,\frac{\sigma^2}{n}\right), \qquad \text{para } n \text{ grande}. \]

Este resultado explica por qué la media muestral desempeña un papel central en la inferencia estadística.

Distribución muestral de la media

Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria con

\[ E(X_i)=\mu, \qquad \operatorname{Var}(X_i)=\sigma^2, \qquad i=1,\dots,n. \]

La media muestral se define por

\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i. \]

Entonces,

\[ E(\bar X)=\mu \]

\[ \operatorname{Var}(\bar X)=\frac{\sigma^2}{n}. \]

Es decir, la media muestral es un estadístico centrado en el parámetro poblacional y con variabilidad decreciente a medida que aumenta el tamaño de muestra.

Caso particular: población normal

Si además la población de origen es normal, es decir,

\[ X_i \sim N(\mu,\sigma^2), \qquad i=1,\dots,n, \]

entonces la media muestral tiene distribución exacta

\[ \bar X \sim N\left(\mu,\frac{\sigma^2}{n}\right). \]

En consecuencia,

\[ Z=\frac{\bar X-\mu}{\sigma/\sqrt{n}} \sim N(0,1). \]

Este resultado no es aproximado: se cumple exactamente cuando la población es normal.

Aproximación normal por el Teorema del límite central

Si la población de origen no es normal, pero tiene media \(\mu\) y varianza \(\sigma^2<\infty\), entonces para tamaños de muestra grandes la distribución de la media muestral puede aproximarse por una normal:

\[ \bar X \overset{\cdot}{\sim} N\left(\mu,\frac{\sigma^2}{n}\right). \]

Equivalentemente,

\[ \frac{\bar X-\mu}{\sigma/\sqrt{n}} \overset{\cdot}{\sim} N(0,1), \qquad \text{para } n \text{ grande}. \]

Por tanto, la normalidad exacta de la población no es indispensable para trabajar con la media muestral cuando el tamaño de muestra es suficientemente grande.

Distribución muestral de la proporción

Suponga que \(X\) representa el número de éxitos en \(n\) ensayos de Bernoulli independientes con probabilidad de éxito \(p\). Entonces,

\[ X \sim \operatorname{Binomial}(n,p). \]

La proporción muestral se define por

\[ \hat p=\frac{X}{n}. \]

Como \(E(X)=np\) y \(\operatorname{Var}(X)=np(1-p)\), se tiene que

\[ E(\hat p)=p \]

\[ \operatorname{Var}(\hat p)=\frac{p(1-p)}{n}. \]

Por tanto, la proporción muestral es un estadístico centrado en la proporción poblacional y su variabilidad disminuye cuando el tamaño de muestra aumenta.

Aproximación normal de la proporción muestral

Si \(n\) es grande, la distribución de la proporción muestral puede aproximarse por una normal:

\[ \hat p \overset{\cdot}{\sim} N\left(p,\frac{p(1-p)}{n}\right). \]

Equivalentemente,

\[ \frac{\hat p-p}{\sqrt{p(1-p)/n}} \overset{\cdot}{\sim} N(0,1), \qquad \text{para } n \text{ grande}. \]

Esta aproximación resulta útil para la construcción de intervalos de confianza y contrastes de hipótesis sobre una proporción poblacional.

Distribución muestral de la varianza

Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria con media \(\mu\) y varianza \(\sigma^2\).

La varianza muestral se define por

\[ S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2. \]

Este estadístico se utiliza para estimar la variabilidad poblacional.

Además, se cumple que

\[ E(S^2)=\sigma^2, \]

por lo que \(S^2\) es un estimador insesgado de la varianza poblacional.

Cuando la población es normal, la varianza muestral tiene una distribución exacta que desempeña un papel central en la inferencia sobre \(\sigma^2\).

Caso particular: población normal

Si la población de origen es normal, es decir,

\[ X_i \sim N(\mu,\sigma^2), \qquad i=1,\dots,n, \]

entonces la varianza muestral permite construir una cantidad con distribución exacta, fundamental para la inferencia sobre \(\sigma^2\).

En particular, bajo normalidad, la inferencia sobre la varianza poblacional se apoya en una distribución muestral específica que se presentará a continuación.

De manera análoga, la inferencia sobre la media y la comparación de varianzas conducen naturalmente a otras distribuciones muestrales importantes.

Distribuciones muestrales asociadas al modelo normal

Distribución Chi-cuadrado

Sea \(X\) una variable aleatoria continua. Se dice que \(X\) sigue una distribución Chi-cuadrado con \(\nu\) grados de libertad, y se denota por

\[ X \sim \chi^2_\nu, \qquad \nu>0. \]

Su función de densidad está dada por

\[ f_X(x)= \begin{cases} \dfrac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2}, & x>0,\\[0.8em] 0, & \text{en otro caso.} \end{cases} \]

Aquí, \(\nu\) representa el número de grados de libertad.

Además,

\[ E(X)=\nu \qquad\text{y}\qquad \operatorname{Var}(X)=2\nu. \]

Interpretación del parámetro de la Chi-cuadrado

En la distribución Chi-cuadrado, el parámetro \(\nu\) representa los grados de libertad.

Este parámetro determina la localización y la dispersión de la distribución:

si \(\nu\) es pequeño, la distribución es más asimétrica a la derecha;
si \(\nu\) aumenta, la distribución se desplaza hacia valores mayores;
al aumentar \(\nu\), la distribución se vuelve menos asimétrica.

Además,

\[ E(X)=\nu \qquad\text{y}\qquad \operatorname{Var}(X)=2\nu. \]

Por tanto, los grados de libertad controlan tanto el centro como la variabilidad de la distribución.

Efecto del parámetro \(\nu\) en la distribución Chi-cuadrado

Con distintos valores de \(\nu\), cambia la forma de la distribución.

Caso 1: \(X \sim \chi^2_1\)

La distribución es fuertemente asimétrica.

Caso 2: \(X \sim \chi^2_5\)

La distribución sigue siendo asimétrica, pero menos concentrada cerca de 0.

Caso 3: \(X \sim \chi^2_{15}\)

La distribución es menos asimétrica y más extendida.

Conclusión: al aumentar \(\nu\), la distribución se desplaza hacia la derecha y tiende a perder asimetría.

Origen de la distribución Chi-cuadrado

La distribución Chi-cuadrado surge de manera natural a partir de variables normales estándar.

\[ Z_1,Z_2,\dots,Z_\nu \stackrel{\text{i.i.d.}}{\sim} N(0,1), \]

entonces

\[ X=\sum_{i=1}^{\nu} Z_i^2 \]

sigue una distribución Chi-cuadrado con \(\nu\) grados de libertad:

\[ X \sim \chi^2_\nu. \]

Este resultado explica por qué la distribución Chi-cuadrado aparece en muchos problemas de inferencia asociados al modelo normal.

Relación con la varianza muestral

Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria de una población normal,

\[ X_i \sim N(\mu,\sigma^2), \qquad i=1,\dots,n. \]

Entonces, la varianza muestral

\[ S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2 \]

satisface

\[ \frac{(n-1)S^2}{\sigma^2}\sim \chi^2_{n-1}. \]

Este resultado constituye la base de la inferencia exacta sobre la varianza poblacional bajo normalidad.

Aplicaciones en inferencia

La distribución Chi-cuadrado se utiliza principalmente en problemas como:

construcción de intervalos de confianza para \(\sigma^2\);
contrastes de hipótesis sobre la varianza poblacional;
pruebas de bondad de ajuste;
pruebas de independencia y homogeneidad en tablas de contingencia.

En el contexto del modelo normal, su uso más inmediato proviene de la relación

\[ \frac{(n-1)S^2}{\sigma^2}\sim \chi^2_{n-1}, \]

que permite trabajar con la variabilidad poblacional a partir de la muestra.

Cálculo de probabilidades para la distribución Chi-cuadrado en R

Para una variable aleatoria con distribución Chi-cuadrado, en R se utilizan las siguientes funciones:

dchisq(x, df = nu) : calcula la densidad en \(x\)
pchisq(q, df = nu) : calcula \(P(X\le q)\)
qchisq(a, df = nu) : devuelve el cuantil de orden \(a\)
rchisq(n, df = nu) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
nu representa los grados de libertad;
n representa el tamaño de la muestra aleatoria.

Importante: dchisq devuelve una densidad, no una probabilidad puntual.

Cálculo de probabilidades para la distribución Chi-cuadrado en Python

Para una variable aleatoria con distribución Chi-cuadrado, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import chi2

chi2.pdf(x, df=nu) : calcula la densidad en \(x\)
chi2.cdf(q, df=nu) : calcula \(P(X\le q)\)
chi2.ppf(a, df=nu) : devuelve el cuantil de orden \(a\)
chi2.rvs(df=nu, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
nu representa los grados de libertad;
n representa el tamaño de la muestra aleatoria.

Importante: chi2.pdf devuelve una densidad, no una probabilidad puntual.

Distribución t de Student

Sea \(X\) una variable aleatoria continua. Se dice que \(X\) sigue una distribución t de Student con \(\nu\) grados de libertad, y se denota por

\[ X \sim t_\nu, \qquad \nu>0. \]

Su función de densidad está dada por

\[ f_X(x)= \frac{\Gamma\left(\frac{\nu+1}{2}\right)} {\sqrt{\nu\pi}\,\Gamma\left(\frac{\nu}{2}\right)} \left(1+\frac{x^2}{\nu}\right)^{-(\nu+1)/2}, \qquad -\infty<x<\infty. \]

Aquí, \(\nu\) representa el número de grados de libertad.

Además,

\[ E(X)=0,\quad \text{si } \nu>1, \]

\[ \operatorname{Var}(X)=\frac{\nu}{\nu-2}, \quad \text{si } \nu>2. \]

Interpretación del parámetro de la t de Student

En la distribución t de Student, el parámetro \(\nu\) representa los grados de libertad.

Este parámetro controla principalmente el grosor de las colas de la distribución:

si \(\nu\) es pequeño, la distribución presenta colas más pesadas;
si \(\nu\) aumenta, la distribución se aproxima a la normal estándar;
al aumentar \(\nu\), disminuye la dispersión.

Además, la distribución t de Student es simétrica respecto de 0.

Por tanto, los grados de libertad determinan cuán alejada o cuán próxima se encuentra la distribución respecto de la normal estándar.

Efecto del parámetro \(\nu\) en la distribución t de Student

Con distintos valores de \(\nu\), cambia principalmente el grosor de las colas de la distribución.

Caso 1: \(X \sim t_1\)

Las colas son muy pesadas.

Caso 2: \(X \sim t_5\)

La distribución sigue siendo más pesada que la normal.

Caso 3: \(X \sim t_{30}\)

La distribución se aproxima mucho a la normal estándar.

Conclusión: al aumentar \(\nu\), la distribución t de Student se aproxima a \(N(0,1)\).

Origen de la distribución t de Student

La distribución t de Student surge del cociente entre una normal estándar y la raíz cuadrada de una Chi-cuadrado independiente dividida entre sus grados de libertad.

\[ Z \sim N(0,1), \qquad U \sim \chi^2_\nu, \]

con \(Z\) y \(U\) independientes, entonces

\[ T=\frac{Z}{\sqrt{U/\nu}} \]

sigue una distribución t de Student con \(\nu\) grados de libertad:

\[ T \sim t_\nu. \]

Este resultado explica por qué la distribución t aparece cuando se reemplaza una desviación estándar poblacional desconocida por su estimador muestral.

Relación con la media muestral

Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria de una población normal,

\[ X_i \sim N(\mu,\sigma^2), \qquad i=1,\dots,n. \]

Si \(\sigma^2\) es desconocida, entonces

\[ T=\frac{\bar X-\mu}{S/\sqrt{n}} \]

sigue una distribución t de Student con \(n-1\) grados de libertad:

\[ T \sim t_{n-1}. \]

Este resultado constituye la base de la inferencia exacta para la media poblacional cuando la población es normal y la varianza es desconocida.

Aplicaciones en inferencia

La distribución t de Student se utiliza principalmente en problemas como:

construcción de intervalos de confianza para la media poblacional;
contrastes de hipótesis sobre una media;
comparación de medias entre dos poblaciones;
inferencia sobre coeficientes en el modelo de regresión lineal clásico.

En particular, su uso más inmediato proviene de la relación

\[ T=\frac{\bar X-\mu}{S/\sqrt{n}}\sim t_{n-1}, \]

que permite incorporar la incertidumbre asociada al reemplazo de \(\sigma\) por \(S\).

Cálculo de probabilidades para la distribución t de Student en R

Para una variable aleatoria con distribución t de Student, en R se utilizan las siguientes funciones:

dt(x, df = nu) : calcula la densidad en \(x\)
pt(q, df = nu) : calcula \(P(X\le q)\)
qt(a, df = nu) : devuelve el cuantil de orden \(a\)
rt(n, df = nu) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
nu representa los grados de libertad;
n representa el tamaño de la muestra aleatoria.

Importante: dt devuelve una densidad, no una probabilidad puntual.

Cálculo de probabilidades para la distribución t de Student en Python

Para una variable aleatoria con distribución t de Student, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import t

t.pdf(x, df=nu) : calcula la densidad en \(x\)
t.cdf(q, df=nu) : calcula \(P(X\le q)\)
t.ppf(a, df=nu) : devuelve el cuantil de orden \(a\)
t.rvs(df=nu, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
nu representa los grados de libertad;
n representa el tamaño de la muestra aleatoria.

Importante: t.pdf devuelve una densidad, no una probabilidad puntual.

Distribución F

Sea \(X\) una variable aleatoria continua. Se dice que \(X\) sigue una distribución F con \(\nu_1\) y \(\nu_2\) grados de libertad, y se denota por

\[ X \sim F_{\nu_1,\nu_2}, \qquad \nu_1>0,\ \nu_2>0. \]

Su función de densidad está dada por

\[ f_X(x)= \begin{cases} \dfrac{\Gamma\left(\frac{\nu_1+\nu_2}{2}\right)} {\Gamma\left(\frac{\nu_1}{2}\right)\Gamma\left(\frac{\nu_2}{2}\right)} \left(\frac{\nu_1}{\nu_2}\right)^{\nu_1/2} x^{\nu_1/2-1} \left(1+\frac{\nu_1}{\nu_2}x\right)^{-(\nu_1+\nu_2)/2}, & x>0,\\[1em] 0, & \text{en otro caso.} \end{cases} \]

Aquí, \(\nu_1\) y \(\nu_2\) representan los grados de libertad del numerador y del denominador, respectivamente.

Además,

\[ E(X)=\frac{\nu_2}{\nu_2-2}, \qquad \text{si } \nu_2>2, \]

\[ \operatorname{Var}(X)= \frac{2\nu_2^2(\nu_1+\nu_2-2)} {\nu_1(\nu_2-2)^2(\nu_2-4)}, \qquad \text{si } \nu_2>4. \]

Interpretación de los parámetros de la distribución F

En la distribución F, los parámetros \(\nu_1\) y \(\nu_2\) representan los grados de libertad asociados al numerador y al denominador, respectivamente.

Estos parámetros influyen en la forma de la distribución:

la distribución F solo toma valores positivos;
si \(\nu_1\) y \(\nu_2\) son pequeños, la distribución es más asimétrica a la derecha;
al aumentar los grados de libertad, la distribución se vuelve menos asimétrica;
la media y la varianza dependen principalmente de \(\nu_2\).

Además,

\[ E(X)=\frac{\nu_2}{\nu_2-2}, \qquad \text{si } \nu_2>2, \]

\[ \operatorname{Var}(X)= \frac{2\nu_2^2(\nu_1+\nu_2-2)} {\nu_1(\nu_2-2)^2(\nu_2-4)}, \qquad \text{si } \nu_2>4. \]

Efecto de los parámetros en la distribución F

Con distintos valores de \(\nu_1\) y \(\nu_2\), cambia la forma de la distribución.

Caso 1: \(X \sim F_{1,5}\)

La distribución es muy asimétrica.

Caso 2: \(X \sim F_{5,10}\)

La asimetría disminuye.

Caso 3: \(X \sim F_{20,30}\)

La distribución es menos asimétrica y más concentrada.

Conclusión: al aumentar \(\nu_1\) y \(\nu_2\), la distribución F tiende a volverse menos asimétrica.

Origen de la distribución F

La distribución F surge del cociente entre dos variables Chi-cuadrado independientes, cada una dividida entre sus respectivos grados de libertad.

\[ U_1 \sim \chi^2_{\nu_1}, \qquad U_2 \sim \chi^2_{\nu_2}, \]

con \(U_1\) y \(U_2\) independientes, entonces

\[ F=\frac{U_1/\nu_1}{U_2/\nu_2} \]

sigue una distribución F con \(\nu_1\) y \(\nu_2\) grados de libertad:

\[ F \sim F_{\nu_1,\nu_2}. \]

Este resultado explica por qué la distribución F aparece en comparación de varianzas y en muchos problemas de inferencia del modelo lineal normal.

Relación con la comparación de varianzas

Sean

\[ X_1,\dots,X_n \sim N(\mu_X,\sigma_X^2) \qquad\text{y}\qquad Y_1,\dots,Y_m \sim N(\mu_Y,\sigma_Y^2), \]

dos muestras aleatorias independientes de poblaciones normales.

Si \(S_X^2\) y \(S_Y^2\) son las varianzas muestrales, entonces bajo la hipótesis

\[ H_0:\sigma_X^2=\sigma_Y^2, \]

se cumple que

\[ \frac{S_X^2}{S_Y^2}\sim F_{n-1,m-1}. \]

Este resultado constituye la base de la inferencia clásica para comparar varianzas poblacionales.

Relación con el modelo lineal clásico

En el modelo de regresión lineal clásico, la distribución F aparece de manera natural al comparar la variabilidad explicada por el modelo con la variabilidad residual.

En particular, si se contrasta la significancia conjunta de un conjunto de coeficientes, el estadístico de prueba suele tomar la forma

\[ F=\frac{\text{cuadrado medio del modelo}}{\text{cuadrado medio del error}}, \]

y, bajo la hipótesis nula correspondiente, sigue una distribución F.

Por ello, la distribución F ocupa un lugar central en:

ANOVA;
contrastes globales en regresión;
comparación de modelos anidados.

Aplicaciones en inferencia

La distribución F se utiliza principalmente en problemas como:

comparación de dos varianzas poblacionales;
análisis de varianza;
contrastes globales en regresión lineal;
comparación de modelos anidados.

En todos estos casos, la idea central es comparar dos fuentes de variabilidad mediante un cociente.

Cálculo de probabilidades para la distribución F en R

Para una variable aleatoria con distribución F, en R se utilizan las siguientes funciones:

df(x, df1 = nu1, df2 = nu2) : calcula la densidad en \(x\)
pf(q, df1 = nu1, df2 = nu2) : calcula \(P(X\le q)\)
qf(a, df1 = nu1, df2 = nu2) : devuelve el cuantil de orden \(a\)
rf(n, df1 = nu1, df2 = nu2) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
nu1 representa los grados de libertad del numerador;
nu2 representa los grados de libertad del denominador;
n representa el tamaño de la muestra aleatoria.

Importante: df devuelve una densidad, no una probabilidad puntual.

Cálculo de probabilidades para la distribución F en Python

Para una variable aleatoria con distribución F, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import f

f.pdf(x, dfn=nu1, dfd=nu2) : calcula la densidad en \(x\)
f.cdf(q, dfn=nu1, dfd=nu2) : calcula \(P(X\le q)\)
f.ppf(a, dfn=nu1, dfd=nu2) : devuelve el cuantil de orden \(a\)
f.rvs(dfn=nu1, dfd=nu2, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
nu1 representa los grados de libertad del numerador;
nu2 representa los grados de libertad del denominador;
n representa el tamaño de la muestra aleatoria.

Importante: f.pdf devuelve una densidad, no una probabilidad puntual.

Estimación Paramétrica

Estimación puntual

Un estimador puntual de un parámetro \(\theta\) es un estadístico

\[ \hat\theta = T(X_1,\dots,X_n) \]

utilizado para aproximar el valor desconocido de \(\theta\).

Por ejemplo:

\(\bar X\) puede utilizarse para estimar \(\mu\);
\(S^2\) puede utilizarse para estimar \(\sigma^2\);
\(\hat p\) puede utilizarse para estimar una proporción poblacional.

En modelos con un solo parámetro, la idea de estimación puntual suele ser directa.
En modelos con varios parámetros, como la regresión lineal, se requiere estimar simultáneamente todos los parámetros desconocidos del modelo.

El modelo lineal como contexto de estimación

Hasta ahora, la estimación puntual se ha presentado en situaciones con uno o pocos parámetros, como \(\mu\), \(\sigma^2\) o \(p\).

En muchos problemas aplicados, sin embargo, el interés recae en modelos con varios parámetros desconocidos.

El modelo de regresión lineal clásico constituye un ejemplo fundamental de esta situación, pues en él se busca estimar simultáneamente:

los coeficientes de regresión;
y la varianza del término de error.

Por ello, este modelo servirá como ejemplo conductor para introducir distintos métodos de estimación paramétrica.

Modelo de regresión lineal múltiple clásico

Considere una muestra de observaciones \((y_1,\mathbf{x}_1),\dots,(y_n,\mathbf{x}_n)\), donde

\[ \mathbf{x}_i=(x_{i1},x_{i2},\dots,x_{ip})^\top, \qquad i=1,\dots,n. \]

El modelo de regresión lineal múltiple se expresa como

\[ y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\varepsilon_i, \qquad i=1,\dots,n. \]

Usualmente, si el modelo incluye intercepto, se toma

\[ x_{i1}=1, \qquad i=1,\dots,n. \]

Forma condicional y parámetros del modelo

Bajo el modelo lineal normal, se asume que

\[ \varepsilon_i \stackrel{\text{i.i.d.}}{\sim} N(0,\sigma^2), \qquad i=1,\dots,n. \]

Entonces,

\[ Y_i\mid \mathbf{x}_i \sim N(\mu_i,\sigma^2), \qquad \mu_i=\mathbf{x}_i^\top\boldsymbol{\beta}, \qquad i=1,\dots,n. \]

En forma matricial, el modelo se escribe como

\[ \mathbf{y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}. \]

Por tanto, los parámetros de interés son

\[ \boldsymbol{\beta}=(\beta_1,\dots,\beta_p)^\top \qquad\text{y}\qquad \sigma^2. \]

Método de mínimos cuadrados ordinarios

Considere el modelo de regresión lineal múltiple

\[ y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\varepsilon_i, \qquad i=1,\dots,n. \]

Para cada posible valor del vector de parámetros \(\boldsymbol{\beta}\), se define la suma de cuadrados de los residuos:

\[ S(\boldsymbol{\beta})= \sum_{i=1}^n \left(y_i-\mathbf{x}_i^\top\boldsymbol{\beta}\right)^2. \]

El método de mínimos cuadrados ordinarios consiste en elegir el valor de \(\boldsymbol{\beta}\) que hace mínima esta función. Así, el estimador de mínimos cuadrados se define por

\[ \hat{\boldsymbol{\beta}}_{MC} = \arg\min_{\boldsymbol{\beta}} S(\boldsymbol{\beta}). \]

Solución de mínimos cuadrados

La función objetivo puede escribirse en forma matricial como

\[ S(\boldsymbol{\beta}) = (\mathbf{y}-X\boldsymbol{\beta})^\top(\mathbf{y}-X\boldsymbol{\beta}). \]

Derivando respecto de \(\boldsymbol{\beta}\) e igualando a cero, se obtiene la ecuación normal

\[ X^\top X\,\hat{\boldsymbol{\beta}}_{MC}=X^\top\mathbf{y}. \]

Si la matriz \(X^\top X\) es invertible, la solución de mínimos cuadrados ordinarios está dada por

\[ \hat{\boldsymbol{\beta}}_{MC}=(X^\top X)^{-1}X^\top\mathbf{y}. \]

Por tanto, el estimador de mínimos cuadrados puede obtenerse explícitamente a partir de los datos observados y de la matriz de diseño del modelo.

Residuos ordinarios y ajuste del modelo

Una vez obtenido el estimador de mínimos cuadrados,

\[ \hat{\boldsymbol{\beta}}_{MC}=(X^\top X)^{-1}X^\top\mathbf{y}, \]

los valores ajustados del modelo quedan dados por

\[ \hat{\mathbf{y}}=X\hat{\boldsymbol{\beta}}_{MC}. \]

Los residuos ordinarios se definen como las diferencias entre los valores observados y los valores ajustados:

\[ e_i=y_i-\hat y_i, \qquad i=1,\dots,n. \]

En forma vectorial,

\[ \mathbf{e}=\mathbf{y}-\hat{\mathbf{y}}. \]

Así, el método de mínimos cuadrados busca un ajuste lineal para el cual la suma de cuadrados de los residuos ordinarios sea mínima.

Limitación del criterio de mínimos cuadrados

El método de mínimos cuadrados ordinarios proporciona un criterio claro para estimar los coeficientes del modelo lineal:

\[ \hat{\boldsymbol{\beta}}_{MC} = \arg\min_{\boldsymbol{\beta}} (\mathbf{y}-X\boldsymbol{\beta})^\top(\mathbf{y}-X\boldsymbol{\beta}). \]

Sin embargo, este criterio se basa únicamente en minimizar una discrepancia cuadrática y no parte todavía de una distribución probabilística para la variable respuesta.

Cuando se desea incorporar supuestos probabilísticos al modelo y construir procedimientos generales de estimación, resulta natural introducir otro enfoque: el método de máxima verosimilitud.

Función de verosimilitud

Sea \(Y_1,Y_2,\dots,Y_n\) una muestra aleatoria con función de probabilidad o densidad

\[ f(y;\theta), \]

donde \(\theta\) representa un parámetro desconocido.

La función de verosimilitud se define como la función de \(\theta\) dada por

\[ L(\theta;\mathbf{y}) = \prod_{i=1}^n f(y_i;\theta), \]

donde \(\mathbf{y}=(y_1,\dots,y_n)\) representa la muestra observada.

La idea central es evaluar, para cada valor posible de \(\theta\), cuán compatible resulta ese valor con los datos observados.

Log-verosimilitud

En muchos problemas, resulta más conveniente trabajar con el logaritmo natural de la función de verosimilitud, porque transforma productos en sumas y simplifica los cálculos algebraicos y diferenciales.

La log-verosimilitud se define por

\[ \ell(\theta;\mathbf{y})=\ln L(\theta;\mathbf{y}). \]

Si las observaciones son independientes, entonces

\[ L(\theta;\mathbf{y}) = \prod_{i=1}^n f(y_i;\theta) \qquad\Longrightarrow\qquad \ell(\theta;\mathbf{y}) = \sum_{i=1}^n \ln f(y_i;\theta). \]

Además, como la función logaritmo natural es estrictamente creciente,

\[ \arg\max_\theta L(\theta;\mathbf{y}) = \arg\max_\theta \ell(\theta;\mathbf{y}). \]

Por tanto, maximizar la verosimilitud o la log-verosimilitud conduce al mismo estimador.

Propiedades de los estimadores de máxima verosimilitud

Los estimadores de máxima verosimilitud presentan varias propiedades importantes.

Entre las más destacadas se encuentran:

invarianza: si \(\hat\theta_{MV}\) es el estimador de máxima verosimilitud de \(\theta\), entonces para una función \(g\) se tiene que \[ g(\hat\theta_{MV}) \] es el estimador de máxima verosimilitud de \[ g(\theta); \]
eficiencia asintótica: bajo condiciones regulares, cuando el tamaño de muestra es grande, el estimador de máxima verosimilitud alcanza la menor varianza posible dentro de una amplia clase de estimadores.

Estas propiedades explican por qué el método de máxima verosimilitud ocupa un lugar central en inferencia paramétrica.

Propiedad de invarianza: ejemplo

Suponga que

\[ X_1,\dots,X_n \sim \operatorname{Exp}(\lambda), \]

y que el estimador de máxima verosimilitud de \(\lambda\) es

\[ \hat\lambda_{MV}=\frac{1}{\bar X}. \]

Si ahora interesa estimar la media de la distribución,

\[ \mu=\frac{1}{\lambda}, \]

entonces, por la propiedad de invarianza, el estimador de máxima verosimilitud de \(\mu\) es

\[ \hat\mu_{MV} = \frac{1}{\hat\lambda_{MV}} = \bar X. \]

Así, no es necesario rehacer todo el procedimiento de maximización para estimar una transformación del parámetro.

Eficiencia asintótica: idea y ejemplo

La eficiencia asintótica indica que, cuando el tamaño de muestra es grande, el estimador de máxima verosimilitud utiliza de manera muy efectiva la información contenida en la muestra.

Por ejemplo, si

\[ X_1,\dots,X_n \sim N(\mu,\sigma^2), \]

con \(\sigma^2\) conocida, entonces

\[ \hat\mu_{MV}=\bar X \qquad\text{y}\qquad \operatorname{Var}(\bar X)=\frac{\sigma^2}{n}. \]

Más generalmente, bajo condiciones regulares, el estimador de máxima verosimilitud tiene, asintóticamente, la menor varianza posible entre los estimadores regulares insesgados.

¿Qué significa “bajo condiciones regulares”?

La expresión condiciones regulares se usa para indicar que el modelo probabilístico cumple ciertos supuestos matemáticos que evitan situaciones problemáticas.

En términos intuitivos, estas condiciones buscan que:

parámetros distintos produzcan distribuciones distintas, de modo que el parámetro pueda identificarse a partir de los datos;
la función de verosimilitud cambie de manera suave cuando cambia el parámetro, sin saltos ni comportamientos irregulares;
puedan calcularse derivadas respecto del parámetro, porque esas derivadas se usan para estudiar el comportamiento del estimador;
la muestra aporte información suficiente para distinguir valores cercanos del parámetro.

En resumen, estas condiciones aseguran que el problema de estimación esté bien planteado y que el estimador de máxima verosimilitud tenga buenas propiedades cuando el tamaño de muestra es grande.

Del modelo lineal al modelo lineal normal

Hasta ahora, el modelo lineal se ha utilizado como una relación entre la respuesta y las variables explicativas:

\[ Y_i=\mathbf{x}_i^\top\boldsymbol{\beta}+\varepsilon_i, \qquad i=1,\dots,n. \]

Para aplicar máxima verosimilitud, es necesario especificar una distribución probabilística para la respuesta, o equivalentemente, para el término aleatorio del modelo.

Cuando se incorporan supuestos probabilísticos adecuados, se obtiene el modelo lineal normal, que servirá como base para definir la verosimilitud del modelo.

Supuestos del modelo lineal normal

Para trabajar con máxima verosimilitud en este contexto, conviene distinguir tres grupos de supuestos:

1. Supuestos sobre la forma del modelo

linealidad en los parámetros;
correcta especificación de la media.

2. Supuestos sobre el término aleatorio

media cero;
homocedasticidad;
no correlación o independencia;
normalidad.

3. Supuestos sobre la matriz de diseño

regresores tratados como fijos o condicionados;
ausencia de colinealidad perfecta;
rango completo;
tamaño muestral suficiente.

Supuesto 1: linealidad en los parámetros

El modelo se escribe como

\[ Y_i=\mathbf{x}_i^\top\boldsymbol{\beta}+\varepsilon_i, \qquad i=1,\dots,n, \]

donde

\[ \mathbf{x}_i= \begin{pmatrix} x_{i1}\\ x_{i2}\\ \vdots\\ x_{ip} \end{pmatrix}. \]

Equivalentemente,

\[ Y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\varepsilon_i, \qquad i=1,\dots,n. \]

Este supuesto significa que el modelo es lineal respecto de los parámetros

\[ \beta_1,\beta_2,\dots,\beta_p, \]

aunque las variables explicativas puedan provenir de transformaciones previas.

Supuesto 2: correcta especificación de la media

Se asume que la parte sistemática del modelo describe adecuadamente el valor esperado de la respuesta.

En particular,

\[ \mu_i=E(Y_i\mid \mathbf{x}_i)=\mathbf{x}_i^\top\boldsymbol{\beta}, \qquad i=1,\dots,n. \]

En forma vectorial,

\[ E(\mathbf{Y}\mid X)=X\boldsymbol{\beta}. \]

Este supuesto indica que la estructura lineal propuesta para la media es la correcta dentro del modelo considerado.

Supuesto 3: media cero del término aleatorio

El término aleatorio no debe introducir sesgo sistemático en la respuesta. Por ello se asume que

\[ E(\varepsilon_i\mid X)=0, \qquad i=1,\dots,n. \]

En forma vectorial,

\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}. \]

Bajo este supuesto,

\[ E(\mathbf{Y}\mid X)=X\boldsymbol{\beta}. \]

Es decir, la media condicional de la respuesta coincide con la parte sistemática del modelo.

Supuesto 4: homocedasticidad

Se asume que la variabilidad del término aleatorio es la misma para todas las observaciones:

\[ \operatorname{Var}(\varepsilon_i\mid X)=\sigma^2, \qquad i=1,\dots,n. \]

En consecuencia, la matriz de varianzas y covarianzas condicional de los errores adopta la forma

\[ \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n, \]

si además no hay correlación entre ellos.

Bajo este supuesto, todas las observaciones comparten la misma dispersión alrededor de la media.

Supuesto 5: no correlación entre errores

Se asume que los errores asociados a observaciones distintas no están correlacionados:

\[ \operatorname{Cov}(\varepsilon_i,\varepsilon_j\mid X)=0, \qquad i\neq j. \]

En forma matricial, esto implica que la matriz de varianzas y covarianzas de los errores no tiene términos fuera de la diagonal.

Si este supuesto se combina con homocedasticidad, entonces

\[ \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n. \]

En muchos contextos también se asume una condición más fuerte: independencia entre los errores.

Supuesto 6: normalidad

Además, en el modelo lineal normal clásico se asume que

\[ \boldsymbol{\varepsilon}\mid X \sim N_n(\mathbf{0},\sigma^2 I_n). \]

Equivalentemente, para cada observación,

\[ \varepsilon_i\mid X \sim N(0,\sigma^2), \qquad i=1,\dots,n. \]

Bajo este supuesto, se obtiene que

\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n), \]

y, en particular,

\[ Y_i\mid \mathbf{x}_i \sim N(\mathbf{x}_i^\top\boldsymbol{\beta},\sigma^2), \qquad i=1,\dots,n. \]

Supuesto 7: regresores tratados como fijos o condicionados

En el modelo lineal clásico, la inferencia suele formularse condicionalmente a la matriz de diseño

\[ X= \begin{pmatrix} \mathbf{x}_1^\top\\ \mathbf{x}_2^\top\\ \vdots\\ \mathbf{x}_n^\top \end{pmatrix}. \]

Es decir, los valores de las variables explicativas se consideran dados al momento de estudiar la distribución de

\[ \mathbf{Y}\mid X. \]

Por ello, los supuestos del modelo suelen expresarse de forma condicional a \(X\).

Supuesto 8: ausencia de colinealidad perfecta

Se requiere que ninguna columna de la matriz \(X\) pueda expresarse exactamente como combinación lineal de las demás.

Equivalentemente, las columnas de \(X\) deben ser linealmente independientes.

Este supuesto garantiza que cada parámetro de

\[ \boldsymbol{\beta}= \begin{pmatrix} \beta_1\\ \beta_2\\ \vdots\\ \beta_p \end{pmatrix} \]

esté bien identificado dentro del modelo.

Supuesto 9: rango completo de la matriz de diseño

La ausencia de colinealidad perfecta se expresa matricialmente mediante la condición

\[ \operatorname{rango}(X)=p. \]

Bajo este supuesto,

\[ X^\top X \]

es invertible, y por tanto la solución de mínimos cuadrados ordinarios

\[ \hat{\boldsymbol{\beta}}_{MC}=(X^\top X)^{-1}X^\top\mathbf{y} \]

está bien definida y es única.

Supuesto 10: tamaño muestral suficiente

Para estimar el modelo se requiere, en particular, que el número de observaciones sea mayor que el número de parámetros:

\[ n>p. \]

Esta condición permite disponer de grados de libertad residuales positivos, dados por

\[ n-p. \]

Así, el ajuste del modelo y los procedimientos de inferencia posteriores resultan factibles.

Resumen de los supuestos del modelo lineal normal clásico

Bajo todos los supuestos anteriores, el modelo queda resumido por

\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}, \]

con

\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}, \qquad \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n, \qquad \boldsymbol{\varepsilon}\mid X \sim N_n(\mathbf{0},\sigma^2 I_n), \]

y además

\[ \operatorname{rango}(X)=p, \qquad n>p. \]

En consecuencia,

\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n). \]

Esta formulación permitirá ahora construir la función de verosimilitud del modelo lineal normal.

Máxima verosimilitud en el modelo lineal normal

Bajo los supuestos anteriores, la respuesta condicional tiene distribución

\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n). \]

Por tanto, la máxima verosimilitud puede aplicarse para estimar simultáneamente los parámetros

\[ \boldsymbol{\beta} \qquad\text{y}\qquad \sigma^2. \]

Esto permitirá comparar el enfoque de máxima verosimilitud con el método de mínimos cuadrados ordinarios dentro del modelo lineal normal.

Función de verosimilitud del modelo lineal normal

Bajo el supuesto

\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n), \]

la función de densidad conjunta de la muestra, condicionada en \(X\), está dada por

\[ f(\mathbf{y}\mid X;\boldsymbol{\beta},\sigma^2) = \frac{1}{(2\pi\sigma^2)^{n/2}} \exp\left\{ -\frac{1}{2\sigma^2} (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}) \right\}. \]

Por tanto, la función de verosimilitud es

\[ L(\boldsymbol{\beta},\sigma^2;\mathbf{y}) = \frac{1}{(2\pi\sigma^2)^{n/2}} \exp\left\{ -\frac{1}{2\sigma^2} (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}) \right\}. \]

Log-verosimilitud del modelo lineal normal

Tomando logaritmo natural en la función de verosimilitud, se obtiene

\[ \ell(\boldsymbol{\beta},\sigma^2;\mathbf{y}) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln(\sigma^2) -\frac{1}{2\sigma^2} (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}). \]

Por tanto, maximizar la verosimilitud equivale a maximizar la log-verosimilitud.

Además, para \(\sigma^2\) fijo, la log-verosimilitud depende de \(\boldsymbol{\beta}\) a través del término

\[ (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}), \]

que corresponde a la suma de cuadrados residual.

Estimador de máxima verosimilitud de \(\boldsymbol{\beta}\)

Para estimar \(\boldsymbol{\beta}\), considérese la log-verosimilitud del modelo lineal normal:

\[ \ell(\boldsymbol{\beta},\sigma^2;\mathbf{y}) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln(\sigma^2) -\frac{1}{2\sigma^2} (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}). \]

Si \(\sigma^2\) se mantiene fija, los términos

\[ -\frac{n}{2}\ln(2\pi) \qquad\text{y}\qquad -\frac{n}{2}\ln(\sigma^2) \]

son constantes respecto de \(\boldsymbol{\beta}\).

Por tanto, maximizar

\[ \ell(\boldsymbol{\beta},\sigma^2;\mathbf{y}) \]

respecto de \(\boldsymbol{\beta}\) equivale a minimizar

\[ (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}), \]

ya que este término aparece multiplicado por la constante negativa

\[ -\frac{1}{2\sigma^2}. \]

Obtención del estimador de máxima verosimilitud de \(\boldsymbol{\beta}\)

Como el problema equivale a minimizar

\[ S(\boldsymbol{\beta}) = (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}), \]

se deriva esta función respecto de \(\boldsymbol{\beta}\) e iguala a cero:

\[ \frac{\partial S(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = -2X^\top(\mathbf{y}-X\boldsymbol{\beta}) = \mathbf{0}. \]

De aquí se obtiene la ecuación normal

\[ X^\top X\,\boldsymbol{\beta}=X^\top\mathbf{y}. \]

Si \(X^\top X\) es invertible, entonces

\[ \hat{\boldsymbol{\beta}}_{MV} = (X^\top X)^{-1}X^\top\mathbf{y}. \]

Así, en el modelo lineal normal, el estimador de máxima verosimilitud de \(\boldsymbol{\beta}\) coincide con el estimador de mínimos cuadrados ordinarios.

Estimador de máxima verosimilitud de \(\sigma^2\)

Una vez obtenido

\[ \hat{\boldsymbol{\beta}}_{MV} = (X^\top X)^{-1}X^\top\mathbf{y}, \]

se reemplaza este resultado en la log-verosimilitud y se maximiza respecto de \(\sigma^2\).

Así se obtiene

\[ \hat{\sigma}^2_{MV} = \frac{1}{n} (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MV})^\top (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MV}). \]

Equivalentemente,

\[ \hat{\sigma}^2_{MV} = \frac{1}{n} \sum_{i=1}^n (y_i-\hat y_i)^2. \]

Sin embargo, este estimador no es insesgado para \(\sigma^2\).

Por ello, en inferencia clásica suele utilizarse con mayor frecuencia

\[ \hat{\sigma}^2 = \frac{1}{n-p} (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MC})^\top (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MC}), \]

que sí es un estimador insesgado de \(\sigma^2\).

Relación entre máxima verosimilitud y mínimos cuadrados ordinarios

En el modelo lineal normal se obtiene que:

para los coeficientes de regresión, \[ \hat{\boldsymbol{\beta}}_{MV} = \hat{\boldsymbol{\beta}}_{MC}; \]
para la varianza, \[ \hat{\sigma}^2_{MV} = \frac{1}{n} (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MC})^\top (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MC}). \]

Por tanto, la coincidencia entre máxima verosimilitud y mínimos cuadrados ocurre directamente en la estimación de \(\boldsymbol{\beta}\), mientras que la estimación de \(\sigma^2\) surge del supuesto probabilístico normal incorporado al modelo.

Propiedades básicas de los estimadores

Para evaluar la calidad de un estimador no basta con conocer su expresión algebraica.
También es importante estudiar sus propiedades teóricas.

En esta sección se revisarán las siguientes propiedades:

insesgadez;
consistencia;
eficiencia;
suficiencia.

Además, se introducirá la noción de estimador MELI y se discutirán ejemplos que permitan comparar estas propiedades en casos concretos.

Insesgadez

Sea \(\hat\theta\) un estimador puntual del parámetro \(\theta\).

Se dice que \(\hat\theta\) es insesgado si

\[ E(\hat\theta)=\theta. \]

En caso contrario, el sesgo del estimador se define por

\[ \operatorname{Sesgo}(\hat\theta)=E(\hat\theta)-\theta. \]

Por tanto, un estimador insesgado es aquel cuyo valor esperado coincide con el parámetro que se desea estimar.

Ejemplo de insesgadez

Sea \(X_1,\dots,X_n\) una muestra aleatoria con media \(\mu\).

La media muestral

\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i \]

satisface

\[ E(\bar X)=\mu. \]

Por tanto, \(\bar X\) es un estimador insesgado de \(\mu\).

En cambio, para la varianza poblacional \(\sigma^2\), el estimador

\[ \tilde S^2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar X)^2 \]

no es insesgado, mientras que

\[ S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2 \]

sí lo es.

Consistencia

Sea \(\hat\theta_n\) un estimador del parámetro \(\theta\), donde se explicita la dependencia del tamaño de muestra.

Se dice que \(\hat\theta_n\) es consistente para \(\theta\) si

\[ \hat\theta_n \xrightarrow{P} \theta \qquad \text{cuando } n\to\infty. \]

Es decir, a medida que el tamaño de muestra aumenta, el estimador se aproxima en probabilidad al valor verdadero del parámetro.

La consistencia expresa una propiedad de largo plazo del estimador.

Eficiencia

Suponga que \(\hat\theta_1\) y \(\hat\theta_2\) son dos estimadores insesgados de un mismo parámetro \(\theta\).

Se dice que \(\hat\theta_1\) es más eficiente que \(\hat\theta_2\) si

\[ \operatorname{Var}(\hat\theta_1)<\operatorname{Var}(\hat\theta_2). \]

En general, entre dos estimadores insesgados de un mismo parámetro, se prefiere aquel con menor varianza, porque presenta menor dispersión alrededor del valor verdadero.

Así, la eficiencia compara la precisión relativa de estimadores que apuntan al mismo parámetro.

Suficiencia

Sea \(X_1,\dots,X_n\) una muestra aleatoria con función de probabilidad o densidad

\[ f(x_1,\dots,x_n;\theta). \]

Se dice que un estadístico \(T=T(X_1,\dots,X_n)\) es suficiente para \(\theta\) si contiene toda la información muestral relevante sobre el parámetro.

Intuitivamente, una vez conocido \(T\), el resto de la muestra no aporta información adicional sobre \(\theta\).

La suficiencia es importante porque permite resumir la muestra sin perder información esencial para la inferencia sobre el parámetro.

Criterio de factorización de Neyman–Fisher

Una forma práctica de verificar suficiencia es mediante el criterio de factorización.

El estadístico \(T=T(X_1,\dots,X_n)\) es suficiente para \(\theta\) si la función de probabilidad o densidad conjunta puede escribirse como

\[ f(x_1,\dots,x_n;\theta) = g(T(x_1,\dots,x_n),\theta)\,h(x_1,\dots,x_n), \]

donde:

\(g\) depende de la muestra solo a través de \(T\) y del parámetro \(\theta\);
\(h\) no depende de \(\theta\).

Este criterio permite identificar estadísticos suficientes de manera algebraica.

Ejemplo de suficiencia

Sea \(X_1,\dots,X_n\) una muestra aleatoria de una distribución Bernoulli\((p)\).

La función de probabilidad conjunta es

\[ f(x_1,\dots,x_n;p) = p^{\sum_{i=1}^n x_i}(1-p)^{n-\sum_{i=1}^n x_i}, \qquad x_i\in\{0,1\}. \]

Puede escribirse como

\[ f(x_1,\dots,x_n;p) = g\left(\sum_{i=1}^n x_i,p\right)\,h(x_1,\dots,x_n), \]

con

\[ g\left(\sum_{i=1}^n x_i,p\right) = p^{\sum x_i}(1-p)^{n-\sum x_i}, \qquad h(x_1,\dots,x_n)=1. \]

Por tanto,

\[ T=\sum_{i=1}^n X_i \]

es un estadístico suficiente para \(p\).

¿Qué es un estimador MELI?

La sigla MELI significa:

\[ \text{Mejor Estimador Lineal Insesgado}. \]

En inglés, corresponde a la idea de BLUE (Best Linear Unbiased Estimator).

Un estimador MELI es un estimador que cumple simultáneamente tres condiciones:

es lineal en las observaciones;
es insesgado;
tiene la menor varianza dentro de la clase de estimadores lineales e insesgados.

En el modelo lineal clásico, bajo los supuestos usuales, el estimador de mínimos cuadrados ordinarios de \(\boldsymbol{\beta}\) es MELI.

Interpretación de la idea MELI

La idea de un estimador MELI no significa que sea el mejor entre todos los estimadores posibles, sino entre aquellos que son:

lineales en las observaciones;
insesgados.

Por ello, la palabra “mejor” debe entenderse en un sentido preciso:

\[ \text{mejor} \equiv \text{menor varianza dentro de una clase dada}. \]

Esta precisión es importante porque la comparación siempre depende del conjunto de estimadores que se está considerando.

Ejemplo integrador: la media muestral

Sea \(X_1,\dots,X_n\) una muestra aleatoria con

\[ E(X_i)=\mu, \qquad \operatorname{Var}(X_i)=\sigma^2<\infty, \qquad i=1,\dots,n. \]

Considere el estimador

\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i. \]

Analizaremos sus propiedades como estimador de \(\mu\).

Insesgadez de la media muestral

Se tiene que

\[ E(\bar X) = E\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n}\sum_{i=1}^n E(X_i) = \frac{1}{n}\sum_{i=1}^n \mu = \mu. \]

Por tanto, \(\bar X\) es un estimador insesgado de \(\mu\).

Consistencia de la media muestral

Como \(X_1,\dots,X_n\) son independientes, se tiene

\[ \operatorname{Var}(\bar X) = \operatorname{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2}\sum_{i=1}^n \operatorname{Var}(X_i) = \frac{1}{n^2}\,n\sigma^2 = \frac{\sigma^2}{n}. \]

Luego,

\[ E(\bar X)=\mu \qquad\text{y}\qquad \operatorname{Var}(\bar X)=\frac{\sigma^2}{n}\to 0. \]

Por la desigualdad de Chebyshev, para todo \(\varepsilon>0\),

\[ P(|\bar X-\mu|>\varepsilon) \le \frac{\operatorname{Var}(\bar X)}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2} \to 0. \]

Por tanto,

\[ \bar X \xrightarrow{P} \mu, \]

es decir, \(\bar X\) es consistente para \(\mu\).

Eficiencia de la media muestral frente a \(X_1\)

Considere también el estimador

\[ \hat\mu_2=X_1. \]

Primero, ambos son insesgados para \(\mu\):

\[ E(\bar X)=\mu \qquad\text{y}\qquad E(X_1)=\mu. \]

Ahora comparemos sus varianzas:

\[ \operatorname{Var}(\bar X)=\frac{\sigma^2}{n}, \qquad \operatorname{Var}(X_1)=\sigma^2. \]

Si \(n>1\), entonces

\[ \frac{\sigma^2}{n}<\sigma^2. \]

Por consiguiente,

\[ \operatorname{Var}(\bar X)<\operatorname{Var}(X_1), \]

y por definición \(\bar X\) es más eficiente que \(X_1\) para estimar \(\mu\).

Suficiencia de la media muestral en el caso normal

Suponga ahora que

\[ X_1,\dots,X_n \sim N(\mu,\sigma^2), \qquad \sigma^2 \text{ conocida}. \]

La densidad conjunta puede escribirse como

\[ f(x_1,\dots,x_n;\mu) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n x_i^2 \right\} \exp\left\{ \frac{\mu}{\sigma^2}\sum_{i=1}^n x_i -\frac{n\mu^2}{2\sigma^2} \right\}. \]

Por el criterio de factorización de Neyman–Fisher,

\[ T=\sum_{i=1}^n X_i \]

es suficiente para \(\mu\).

Como

\[ \bar X=\frac{1}{n}T, \]

también \(\bar X\) es suficiente para \(\mu\).

Conclusión del ejemplo integrador

La media muestral

\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i \]

es:

insesgada para \(\mu\);
consistente para \(\mu\);
más eficiente que \(X_1\) entre esos dos estimadores;
y, en el caso normal con \(\sigma^2\) conocida, suficiente para \(\mu\).

Comentario final sobre las propiedades de los estimadores

Las propiedades revisadas cumplen funciones distintas:

la insesgadez evalúa si el estimador apunta correctamente al parámetro;
la consistencia estudia su comportamiento cuando la muestra crece;
la eficiencia compara su precisión con la de otros estimadores;
la suficiencia indica cuánta información relevante contiene sobre el parámetro.

En la práctica, no siempre es posible maximizar todas estas propiedades a la vez.
Por ello, la elección de un estimador depende del contexto del problema y del criterio de inferencia adoptado.

Aplicación al modelo de regresión lineal clásico

Considere el modelo lineal normal

\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}, \]

con

\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}, \qquad \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n. \]

En este contexto, el estimador de mínimos cuadrados ordinarios es

\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top \mathbf{Y}. \]

A continuación, revisamos algunas de sus propiedades básicas.

Insesgadez de \(\hat{\boldsymbol{\beta}}\)

Se tiene que

\[ E(\hat{\boldsymbol{\beta}}\mid X) = E\left[(X^\top X)^{-1}X^\top \mathbf{Y}\mid X\right]. \]

Como \((X^\top X)^{-1}X^\top\) depende solo de \(X\), resulta

\[ E(\hat{\boldsymbol{\beta}}\mid X) = (X^\top X)^{-1}X^\top E(\mathbf{Y}\mid X). \]

Pero

\[ E(\mathbf{Y}\mid X)=X\boldsymbol{\beta}, \]

de modo que

\[ E(\hat{\boldsymbol{\beta}}\mid X) = (X^\top X)^{-1}X^\top X\boldsymbol{\beta} = \boldsymbol{\beta}. \]

Por tanto, \(\hat{\boldsymbol{\beta}}\) es un estimador insesgado de \(\boldsymbol{\beta}\).

Varianza de \(\hat{\boldsymbol{\beta}}\)

Partiendo de

\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top \mathbf{Y}, \]

se obtiene

\[ \operatorname{Var}(\hat{\boldsymbol{\beta}}\mid X) = (X^\top X)^{-1}X^\top \operatorname{Var}(\mathbf{Y}\mid X)\,X(X^\top X)^{-1}. \]

Como

\[ \operatorname{Var}(\mathbf{Y}\mid X)=\sigma^2 I_n, \]

entonces

\[ \operatorname{Var}(\hat{\boldsymbol{\beta}}\mid X) = (X^\top X)^{-1}X^\top (\sigma^2 I_n) X(X^\top X)^{-1}. \]

Por tanto,

\[ \operatorname{Var}(\hat{\boldsymbol{\beta}}\mid X) = \sigma^2 (X^\top X)^{-1}. \]

Eficiencia y propiedad MELI

Bajo los supuestos del modelo lineal clásico,

\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}, \qquad \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n, \]

el teorema de Gauss–Markov establece que el estimador de mínimos cuadrados ordinarios es el MELI de \(\boldsymbol{\beta}\).

Esto significa que \(\hat{\boldsymbol{\beta}}\) es:

lineal en \(\mathbf{Y}\);
insesgado para \(\boldsymbol{\beta}\);
y de mínima varianza dentro de la clase de estimadores lineales e insesgados.

Por tanto, en el modelo lineal clásico, la eficiencia de \(\hat{\boldsymbol{\beta}}\) se entiende dentro de la clase de estimadores lineales insesgados.

Comentario sobre consistencia y suficiencia

Además, bajo supuestos regulares, el estimador

\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top \mathbf{Y} \]

es también consistente para \(\boldsymbol{\beta}\) cuando el tamaño de muestra aumenta.

Por otro lado, en el modelo lineal normal, la inferencia sobre los parámetros se basa en estadísticas que resumen de manera fundamental la información contenida en la muestra, como

\[ \hat{\boldsymbol{\beta}} \qquad\text{y}\qquad (\mathbf{Y}-X\hat{\boldsymbol{\beta}})^\top(\mathbf{Y}-X\hat{\boldsymbol{\beta}}). \]

Así, el modelo de regresión lineal clásico constituye una aplicación central de las propiedades de los estimadores estudiadas en esta sección.

Cierre de la sección de estimación paramétrica

En esta sección se han revisado:

la idea de estimación puntual;
el método de mínimos cuadrados ordinarios;
la función de verosimilitud y la máxima verosimilitud;
la relación entre máxima verosimilitud y mínimos cuadrados en el modelo lineal normal;
y las propiedades básicas de los estimadores.

Con estos elementos, ya es posible pasar a la siguiente etapa: la inferencia paramétrica, donde los estimadores se utilizarán para construir intervalos de confianza y contrastes de hipótesis.

Inferencia Paramétrica

Idea general de la inferencia paramétrica

La inferencia paramétrica busca utilizar la información contenida en una muestra para extraer conclusiones sobre parámetros desconocidos de una población o de un modelo probabilístico.

En particular, a partir de un estimador puntual se busca:

cuantificar la incertidumbre asociada a la estimación;
proponer valores plausibles para el parámetro;
y evaluar afirmaciones formuladas sobre dicho parámetro.

Para ello, se desarrollan dos herramientas principales:

intervalos de confianza;
contrastes de hipótesis.

Intervalo de confianza

Un intervalo de confianza para un parámetro \(\theta\) es un intervalo aleatorio de la forma

\[ IC(\theta)=\bigl[L(X_1,\dots,X_n),\,U(X_1,\dots,X_n)\bigr], \]

construido a partir de la muestra, tal que

\[ P\bigl(L(X_1,\dots,X_n)\le \theta \le U(X_1,\dots,X_n)\bigr)=1-\alpha. \]

El valor

\[ 1-\alpha \]

se denomina nivel de confianza.

Así, un intervalo de confianza proporciona un conjunto de valores plausibles para el parámetro desconocido.

Interpretación del nivel de confianza

El nivel de confianza

\[ 1-\alpha \]

no se refiere a la probabilidad de que, una vez calculado el intervalo, el parámetro esté dentro de él.

La interpretación correcta es la siguiente:

si se repitiera muchas veces el procedimiento de muestreo y, en cada repetición, se construyera un intervalo de confianza con la misma regla, entonces aproximadamente una proporción

\[ 1-\alpha \]

de esos intervalos contendría al verdadero valor del parámetro.

Por ello, el nivel de confianza describe la confiabilidad del procedimiento, no del intervalo particular una vez observado.

Estructura general de un intervalo de confianza

En muchos problemas, un intervalo de confianza puede expresarse como

\[ \text{estimador} \;\pm\; \text{margen de error}. \]

El margen de error depende de tres elementos principales:

el nivel de confianza;
la variabilidad del estimador;
el tamaño de muestra.

En términos generales:

a mayor nivel de confianza, el intervalo tiende a ser más ancho;
a mayor variabilidad, el intervalo tiende a ser más ancho;
a mayor tamaño de muestra, el intervalo tiende a ser más estrecho.

Métodos de construcción de intervalos de confianza paramétricos

En inferencia paramétrica, los intervalos de confianza pueden construirse mediante distintos enfoques. Entre los más usuales se encuentran:

Método de la variable pivotal

Se parte de una cantidad aleatoria cuya distribución es conocida y no depende del parámetro desconocido.
Método basado en la distribución muestral del estimador

Se utiliza la distribución exacta o aproximada del estimador para construir el intervalo.
Métodos asintóticos

Se apoyan en aproximaciones válidas para tamaños de muestra grandes, usualmente a partir de la normalidad asintótica del estimador.

Además, una vez elegido el método, debe decidirse cómo se distribuye la probabilidad de error \(\alpha\) en las colas de la distribución.

Intervalos centrales y no centrales

En un intervalo bilateral de nivel

\[ 1-\alpha, \]

una elección frecuente es repartir el error de forma simétrica:

\[ \frac{\alpha}{2} \qquad\text{y}\qquad \frac{\alpha}{2}. \]

Esto conduce a un intervalo central, que suele ser natural cuando la distribución de la variable pivotal es simétrica.

Sin embargo, también pueden construirse intervalos no centrales, en los que la probabilidad de error no se reparte por igual entre ambas colas, o intervalos unilaterales, en los que toda la probabilidad \(\alpha\) se concentra en una sola cola.

En términos generales:

los intervalos centrales son más simples de interpretar y muy naturales en distribuciones simétricas;
los intervalos unilaterales son útiles cuando el interés está en establecer solo una cota superior o inferior;
los intervalos no centrales pueden ser útiles en contextos asimétricos o cuando se desea adaptar mejor la construcción al problema.

Ejemplo: intervalo central usando una variable pivotal

Suponga que

\[ X_1,\dots,X_n \sim N(\mu,\sigma^2), \]

con \(\sigma^2\) conocida.

En este caso,

\[ Z=\frac{\bar X-\mu}{\sigma/\sqrt{n}} \]

es una variable pivotal y satisface

\[ Z\sim N(0,1). \]

Como la distribución es simétrica, construiremos un intervalo central de nivel

\[ 1-\alpha, \]

de modo que

\[ P\left(-z_{\alpha/2}\le Z \le z_{\alpha/2}\right)=1-\alpha. \]

Contraste de hipótesis estadísticas

Dada una hipótesis estadística \(H_0\), un contraste de hipótesis es un procedimiento estadístico que utiliza la información de una muestra aleatoria para evaluar una hipótesis estadística.

Una hipótesis estadística es una afirmación acerca de la distribución de una variable aleatoria, o acerca de uno o más aspectos de dicha distribución.

En particular, una hipótesis puede referirse a:

uno o más parámetros;
la forma de la distribución;
la igualdad de distribuciones;
la independencia entre variables;
la adecuación de un modelo probabilístico.

Formulación del problema de contraste

En un problema de contraste se plantean dos hipótesis estadísticas incompatibles:

\[ H_0:\text{hipótesis nula} \qquad\text{y}\qquad H_1:\text{hipótesis alternativa}. \]

La hipótesis nula representa la afirmación que se somete a examen.
La hipótesis alternativa representa una afirmación opuesta a \(H_0\) y recoge las situaciones en las que \(H_0\) no se cumple.

La idea del contraste es partir de \(H_0\) como referencia y analizar si la información muestral observada resulta suficientemente incompatible con ella.

Por ello, el problema del contraste consiste en determinar, a partir de la muestra, si la evidencia disponible justifica o no rechazar \(H_0\) en favor de \(H_1\).

Naturaleza de la hipótesis nula y de la hipótesis alternativa

En la práctica, la hipótesis nula suele formularse como una afirmación precisa, porque sobre ella se construye el procedimiento del contraste.

Con frecuencia, \(H_0\) representa:

una igualdad;
la ausencia de efecto;
la ausencia de diferencia;
o una situación de referencia.

Por su parte, \(H_1\) describe las situaciones en las que esa afirmación no se cumple.

Según la forma de \(H_1\), el contraste puede ser bilateral o unilateral.

Tipos de contraste según la hipótesis alternativa

Según la forma de la hipótesis alternativa, se distinguen tres tipos básicos de contraste.

Contraste bilateral

\[ H_0:\theta=\theta_0 \qquad\text{vs}\qquad H_1:\theta\neq\theta_0 \]

Contraste unilateral a la derecha

\[ H_0:\theta=\theta_0 \qquad\text{vs}\qquad H_1:\theta>\theta_0 \]

Contraste unilateral a la izquierda

\[ H_0:\theta=\theta_0 \qquad\text{vs}\qquad H_1:\theta<\theta_0 \]

Metodología general de un contraste

Una vez formuladas las hipótesis, la construcción de un contraste suele seguir los siguientes pasos:

fijar el nivel de significancia \[ \alpha; \]
elegir un estadístico de prueba;
determinar la distribución del estadístico bajo \(H_0\);
establecer la regla de decisión;
calcular el valor observado del estadístico;
decidir si se rechaza o no se rechaza \(H_0\).

Metodología general de un contraste

Una vez formuladas las hipótesis, la construcción de un contraste suele seguir los siguientes pasos:

fijar el nivel de significancia \[ \alpha; \]
elegir un estadístico de prueba;
determinar la distribución del estadístico bajo \(H_0\);
establecer la regla de decisión;
calcular el valor observado del estadístico;
decidir si se rechaza o no se rechaza \(H_0\).

Nivel de significancia

El nivel de significancia,

\[ \alpha, \]

es un valor fijado antes de observar la muestra y representa el riesgo máximo que se está dispuesto a aceptar al rechazar incorrectamente la hipótesis nula.

En particular, \(\alpha\) controla la probabilidad de cometer error de tipo I.

Valores usuales son

\[ 0.10,\qquad 0.05,\qquad 0.01. \]

Error de tipo I

El error de tipo I consiste en rechazar la hipótesis nula cuando en realidad es verdadera.

Su probabilidad se denota por

\[ \alpha=P(\text{rechazar }H_0\mid H_0\text{ verdadera}). \]

Por ello, el nivel de significancia fija una cota para la probabilidad de rechazar incorrectamente \(H_0\).

Error de tipo II y potencia

El error de tipo II consiste en no rechazar la hipótesis nula cuando en realidad es falsa.

Su probabilidad se denota por

\[ \beta=P(\text{no rechazar }H_0\mid H_0\text{ falsa}). \]

La cantidad

\[ 1-\beta \]

se denomina potencia del contraste.

La potencia mide la capacidad del procedimiento para detectar que la hipótesis nula no se cumple.

Estadística de prueba

La estadística de prueba es una estadística, es decir, una función de la muestra aleatoria, que se utiliza para tomar la decisión en un contraste de hipótesis.

Se construye de modo que su distribución sea conocida cuando \(H_0\) es verdadera.

Una vez observada la muestra, la estadística de prueba toma un valor particular, llamado valor observado de la estadística de prueba.

Región crítica

La región crítica es el conjunto de valores del estadístico de prueba para los cuales se rechaza \(H_0\).

Su construcción depende de:

la distribución del estadístico bajo \(H_0\);
el nivel de significancia \[ \alpha; \]
y la forma de la hipótesis alternativa.

Regla de decisión

Una vez obtenida la región crítica, la decisión del contraste es:

si el valor observado del estadístico pertenece a la región crítica, se rechaza \(H_0\);
si no pertenece a la región crítica, no se rechaza \(H_0\).

Así, la regla de decisión traduce el resultado muestral en una conclusión estadística.

Valor-p

El valor-p es la probabilidad, calculada bajo \(H_0\), de obtener un valor del estadístico de prueba tan extremo como el observado o más extremo aún.

En términos generales,

\[ \text{valor-p} = P(\text{resultado tan extremo o más extremo que el observado}\mid H_0). \]

La regla de decisión equivalente es:

\[ \text{rechazar }H_0 \qquad\text{si}\qquad \text{valor-p}<\alpha. \]

Interpretación correcta del valor-p

El valor-p no es:

la probabilidad de que \(H_0\) sea verdadera;
la probabilidad de que \(H_1\) sea falsa;
la probabilidad de haberse equivocado al rechazar \(H_0\).

El valor-p solo mide cuán incompatibles son los datos observados con \(H_0\).

Ejemplo: contraste bilateral para una media

Suponga que

\[ X_1,\dots,X_n \sim N(\mu,\sigma^2), \]

con \(\sigma^2\) conocida, y se desea contrastar

\[ H_0:\mu=\mu_0 \qquad\text{vs}\qquad H_1:\mu\neq\mu_0. \]

En este caso, un estadístico de prueba natural es

\[ Z=\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}. \]

Bajo \(H_0\),

\[ Z\sim N(0,1). \]

Región crítica en el ejemplo

Como la alternativa es bilateral, la región crítica de nivel \(\alpha\) es

\[ |Z|>z_{\alpha/2}. \]

Equivalentemente, se rechaza \(H_0\) si

\[ Z<-z_{\alpha/2} \qquad\text{o}\qquad Z>z_{\alpha/2}. \]

Decisión mediante valor-p en el ejemplo

Si el valor observado del estadístico es

\[ z_{obs}, \]

entonces el valor-p bilateral es

\[ \text{valor-p}=2P(Z\ge |z_{obs}|), \qquad Z\sim N(0,1). \]

Por tanto:

si \[ \text{valor-p}<\alpha, \] se rechaza \(H_0\);
si \[ \text{valor-p}\ge\alpha, \] no se rechaza \(H_0\).

Relación con el intervalo de confianza

En este ejemplo, el contraste bilateral de nivel \(\alpha\)

\[ H_0:\mu=\mu_0 \qquad\text{vs}\qquad H_1:\mu\neq\mu_0 \]

está estrechamente relacionado con el intervalo de confianza de nivel

\[ 1-\alpha. \]

En particular:

si \[ \mu_0 \] pertenece al intervalo de confianza, no se rechaza \(H_0\);
si \[ \mu_0 \] no pertenece al intervalo de confianza, se rechaza \(H_0\).

Aplicación al modelo de regresión lineal clásico

Considere el modelo lineal normal

\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}, \]

con

\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}, \qquad \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n, \qquad \boldsymbol{\varepsilon}\mid X\sim N_n(\mathbf{0},\sigma^2 I_n). \]

Bajo estos supuestos, la inferencia sobre los coeficientes de regresión requiere estudiar:

la distribución de \(\hat{\boldsymbol{\beta}}\);
la estimación de \(\sigma^2\);
la construcción de intervalos de confianza;
y la formulación de contrastes individuales y globales.

Distribución de \(\hat{\boldsymbol{\beta}}\)

El estimador de mínimos cuadrados ordinarios es

\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top \mathbf{Y}. \]

Como \(\hat{\boldsymbol{\beta}}\) es una transformación lineal de \(\mathbf{Y}\) y

\[ \mathbf{Y}\mid X\sim N_n(X\boldsymbol{\beta},\sigma^2 I_n), \]

se tiene que

\[ \hat{\boldsymbol{\beta}}\mid X \sim N_p\!\left(\boldsymbol{\beta},\sigma^2(X^\top X)^{-1}\right). \]

En particular, para cada componente,

\[ \hat\beta_j\mid X \sim N\!\left(\beta_j,\sigma^2 c_{jj}\right), \]

donde

\[ c_{jj} \]

es el elemento diagonal \(j\)-ésimo de la matriz

\[ (X^\top X)^{-1}. \]

Estandarización cuando \(\sigma^2\) es conocida

Si \(\sigma^2\) fuera conocida, entonces para cada coeficiente se tendría

\[ Z_j= \frac{\hat\beta_j-\beta_j}{\sigma\sqrt{c_{jj}}} \sim N(0,1). \]

Este resultado permitiría construir directamente intervalos de confianza y contrastes de hipótesis para \(\beta_j\).

Sin embargo, en la práctica, la varianza \(\sigma^2\) es desconocida y debe estimarse a partir de la muestra.

Estimación de la varianza del error

La suma de cuadrados residual se define por

\[ SCR=(\mathbf{Y}-X\hat{\boldsymbol{\beta}})^\top(\mathbf{Y}-X\hat{\boldsymbol{\beta}}). \]

Un estimador insesgado de \(\sigma^2\) es

\[ S^2=\frac{SCR}{n-p}. \]

Equivalentemente,

\[ S^2=\frac{1}{n-p}\sum_{i=1}^n (Y_i-\hat Y_i)^2. \]

Por tanto, el error estándar estimado de \(\hat\beta_j\) es

\[ EE(\hat\beta_j)=S\sqrt{c_{jj}}. \]

Distribución t de Student para cada coeficiente

Bajo los supuestos del modelo lineal normal, se cumple que

\[ T_j= \frac{\hat\beta_j-\beta_j}{S\sqrt{c_{jj}}} \sim t_{n-p}, \qquad j=1,\dots,p. \]

Este resultado reemplaza la estandarización normal anterior, ya que ahora la varianza poblacional es desconocida y ha sido sustituida por su estimador muestral.

Intervalo de confianza para \(\beta_j\)

Como

\[ \frac{\hat\beta_j-\beta_j}{S\sqrt{c_{jj}}} \sim t_{n-p}, \]

se tiene que

\[ P\left( -t_{\alpha/2,n-p} \le \frac{\hat\beta_j-\beta_j}{S\sqrt{c_{jj}}} \le t_{\alpha/2,n-p} \right)=1-\alpha. \]

Despejando \(\beta_j\), se obtiene el intervalo de confianza de nivel

\[ 1-\alpha \]

dado por

\[ \left[ \hat\beta_j-t_{\alpha/2,n-p}S\sqrt{c_{jj}}, \; \hat\beta_j+t_{\alpha/2,n-p}S\sqrt{c_{jj}} \right]. \]

Estadística de prueba para un coeficiente

Para contrastar una hipótesis sobre \(\beta_j\), la estadística de prueba es

\[ T_j= \frac{\hat\beta_j-\beta_{j,0}}{S\sqrt{c_{jj}}}, \]

donde

\[ \beta_{j,0} \]

es el valor especificado en la hipótesis nula.

Bajo

\[ H_0:\beta_j=\beta_{j,0}, \]

se cumple que

\[ T_j\sim t_{n-p}. \]

Procedimiento para evaluar una hipótesis sobre \(\beta_j\)

Para contrastar

\[ H_0:\beta_j=\beta_{j,0} \qquad\text{vs}\qquad H_1:\beta_j\neq \beta_{j,0}, \]

se procede así:

calcular \[ T_j= \frac{\hat\beta_j-\beta_{j,0}}{S\sqrt{c_{jj}}}; \]
bajo \(H_0\), considerar que \[ T_j\sim t_{n-p}; \]
fijar el nivel de significancia \[ \alpha; \]
rechazar \(H_0\) si \[ |T_j|>t_{\alpha/2,n-p}. \]

Equivalentemente, puede utilizarse el valor-p asociado a la distribución

\[ t_{n-p}. \]

Relación entre el contraste y el intervalo para \(\beta_j\)

En el contraste bilateral

\[ H_0:\beta_j=\beta_{j,0} \qquad\text{vs}\qquad H_1:\beta_j\neq \beta_{j,0}, \]

al nivel \(\alpha\), se tiene la siguiente equivalencia:

si \[ \beta_{j,0} \] pertenece al intervalo de confianza de nivel \[ 1-\alpha, \] no se rechaza \(H_0\);
si \[ \beta_{j,0} \] no pertenece al intervalo, se rechaza \(H_0\).

Prueba global del modelo

Además de los contrastes individuales, interesa evaluar la significancia global del modelo.

Una formulación usual es

\[ H_0:\beta_2=\beta_3=\cdots=\beta_p=0 \]

frente a

\[ H_1:\text{al menos uno de los coeficientes es distinto de 0}. \]

Esta hipótesis examina si, en conjunto, las variables explicativas aportan información lineal relevante para explicar la respuesta.

Estadística de prueba global

Para la prueba global se utiliza la estadística

\[ F= \frac{SCM/(p-1)}{SCR/(n-p)}, \]

donde

\(SCM\) es la suma de cuadrados del modelo;
\(SCR\) es la suma de cuadrados residual.

Bajo la hipótesis nula,

\[ F\sim F_{p-1,n-p}. \]

Por tanto, se rechaza \(H_0\) para valores suficientemente grandes de \(F\).

Interpretación de la prueba global

Si se rechaza

\[ H_0:\beta_2=\cdots=\beta_p=0, \]

se concluye que el modelo tiene significancia global, es decir, que al menos una de las variables explicativas contribuye linealmente a explicar la respuesta.

Si no se rechaza \(H_0\), no se dispone de evidencia suficiente para afirmar que el conjunto de variables explicativas mejora el ajuste respecto del modelo con solo intercepto.

Síntesis de la inferencia en regresión lineal

En el modelo lineal normal:

\(\hat{\boldsymbol{\beta}}\) tiene distribución normal multivariada;
al sustituir \(\sigma^2\) por \(S^2\), la inferencia individual sobre cada coeficiente se basa en la distribución \[ t_{n-p}; \]
la inferencia global sobre el conjunto de regresores se basa en la distribución \[ F_{p-1,n-p}. \]

Así, la construcción de intervalos de confianza y contrastes de hipótesis en regresión lineal se apoya directamente en las distribuciones muestrales estudiadas previamente.

Síntesis de la inferencia en regresión lineal

En el modelo lineal normal:

\(\hat{\boldsymbol{\beta}}\) tiene distribución normal multivariada;
al sustituir \(\sigma^2\) por \(S^2\), la inferencia individual sobre cada coeficiente se basa en la distribución \[ t_{n-p}; \]
la inferencia global sobre el conjunto de regresores se basa en la distribución \[ F_{p-1,n-p}. \]

Así, la construcción de intervalos de confianza y contrastes de hipótesis en regresión lineal se apoya directamente en las distribuciones muestrales estudiadas previamente.

Transición al siguiente capítulo

En el modelo lineal normal, la respuesta se supone normal y la media se expresa como combinación lineal de las variables explicativas.

Sin embargo, en muchos problemas reales la variable respuesta puede ser:

binaria;
de conteo;
positiva y asimétrica.

Esto motiva la necesidad de un marco más general, capaz de incorporar distintas distribuciones de la respuesta y diferentes relaciones entre la media y los regresores.

Ese será precisamente el punto de partida del siguiente capítulo.

Ejercicio integrador 1

Sea \(X_1,\dots,X_n\) una muestra aleatoria de una población normal con varianza conocida \(\sigma^2\).

Construya un intervalo de confianza de nivel \(1-\alpha\) para la media poblacional \(\mu\).
Plantee el contraste bilateral

\[ H_0:\mu=\mu_0 \qquad\text{vs}\qquad H_1:\mu\neq\mu_0 \]

e identifique la estadística de prueba y la región crítica.

Demuestre la relación entre el intervalo de confianza obtenido en (a) y el contraste planteado en (b).
Interprete, en términos inferenciales, qué significa rechazar y no rechazar \(H_0\).

Ejercicio integrador 2

Considere el modelo lineal normal

\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}, \]

con

\[ \boldsymbol{\varepsilon}\mid X \sim N_n(\mathbf{0},\sigma^2 I_n). \]

Muestre que

\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top\mathbf{Y} \]

tiene distribución normal multivariada.

Obtenga la distribución de

\[ \frac{\hat\beta_j-\beta_j}{S\sqrt{c_{jj}}}, \]

donde \(S^2=SCR/(n-p)\) y \(c_{jj}\) es el elemento diagonal \(j\)-ésimo de \((X^\top X)^{-1}\).

Construya un intervalo de confianza de nivel \(1-\alpha\) para \(\beta_j\).
Plantee el contraste bilateral

\[ H_0:\beta_j=0 \qquad\text{vs}\qquad H_1:\beta_j\neq 0 \]

e indique la regla de decisión.

Formule la prueba global del modelo e identifique la estadística de prueba correspondiente.

Ejercicio integrador 3

En un estudio sobre rendimiento académico, se propone el modelo de regresión lineal

\[ Y_i=\beta_1+\beta_2 x_{i2}+\beta_3 x_{i3}+\varepsilon_i, \qquad i=1,\dots,n, \]

donde \(Y_i\) representa el puntaje final del estudiante, \(x_{i2}\) el número de horas de estudio por semana y \(x_{i3}\) el porcentaje de asistencia a clase.

Suponga que se cumplen los supuestos del modelo lineal normal clásico.

Interprete los parámetros \(\beta_1\), \(\beta_2\) y \(\beta_3\) en el contexto del problema.
Explique cómo evaluaría la hipótesis

\[ H_0:\beta_2=0 \qquad\text{vs}\qquad H_1:\beta_2\neq 0. \]

Explique cómo interpretaría un intervalo de confianza para \(\beta_2\).
Formule la prueba global del modelo y explique qué concluye si la hipótesis nula global es rechazada.
Discuta por qué una conclusión estadísticamente significativa no implica necesariamente una conclusión sustantivamente importante.

Referencias

Agresti, A. (2015). Foundations of linear and generalized linear models. Wiley.

Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability (2nd ed.). Chapman; Hall/CRC.

Casella, G., & Berger, R. L. (2002). Statistical inference (2nd ed.). Duxbury.

DeGroot, M. H., & Schervish, M. J. (2012). Probability and statistics (4th ed.). Pearson.

Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Chapman; Hall/CRC.

Faraway, J. J. (2016). Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). Chapman; Hall/CRC.

Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson.

Larsen, R. J., & Marx, M. L. (2008). An introduction to mathematical statistics and its applications (4th ed.). Pearson.

McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (2nd ed.). Chapman; Hall.

Pawitan, Y. (2001). In all likelihood: Statistical modelling and inference using likelihood. Oxford University Press.

Pitman, J. (1993). Probability. Springer.

Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Duxbury Press.

Ross, S. (2014). A first course in probability (9th ed.). Pearson.

Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L. (2008). Mathematical statistics with applications (7th ed.). Thomson Brooks/Cole.

Weisberg, S. (2014). Applied linear regression (4th ed.). Wiley.