EP7120-Modelos Lineales Generalizados Aplicados
Universidad Nacional Agraria La Molina (UNALM), Perú
En esta presentación se desarrollarán los conceptos fundamentales de muestreo, estimación e inferencia paramétrica.
A lo largo de la exposición, estos conceptos se ilustrarán de manera transversal con el modelo de regresión lineal clásico, que servirá como ejemplo conductor para mostrar cómo se formulan, estiman e interpretan modelos estadísticos.
La idea general será la siguiente:
\[ \text{muestra aleatoria} \;\longrightarrow\; \text{distribución muestral} \;\longrightarrow\; \text{estimación} \;\longrightarrow\; \text{inferencia}. \]
Sean \(X_1,X_2,\dots,X_n\) variables aleatorias.
Se dice que \(X_1,X_2,\dots,X_n\) constituyen una muestra aleatoria de tamaño \(n\) de una población con distribución \(F\) si son independientes y tienen la misma distribución.
En ese caso, se escribe
\[ X_1,X_2,\dots,X_n \stackrel{\text{i.i.d.}}{\sim} F. \]
Si además la población tiene media \(\mu\) y varianza \(\sigma^2\), entonces
\[ E(X_i)=\mu, \qquad \operatorname{Var}(X_i)=\sigma^2, \qquad i=1,\dots,n. \]
Un parámetro es una característica numérica de la población o del modelo probabilístico, por ejemplo,
\[ \mu,\qquad \sigma^2,\qquad p. \]
Un estadístico es una función de la muestra aleatoria que no depende de parámetros desconocidos, por ejemplo,
\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i, \qquad S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2, \qquad R=X_{(n)}-X_{(1)}. \]
Un estimador es un estadístico utilizado para aproximar un parámetro desconocido.
Así, todo estimador es un estadístico, pero no todo estadístico es un estimador.
Como un estadístico es también una variable aleatoria, posee una distribución de probabilidad, llamada distribución muestral.
En el modelo de regresión lineal clásico se observan datos de la forma
\[ (Y_i,\mathbf{x}_i), \qquad i=1,\dots,n, \]
y se plantea que
\[ Y_i=\mathbf{x}_i^\top\boldsymbol{\beta}+\varepsilon_i, \]
donde
\[ \varepsilon_i \stackrel{\text{i.i.d.}}{\sim} N(0,\sigma^2). \]
En este contexto:
Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria de una población con media \(\mu\) y varianza \(\sigma^2<\infty\).
Entonces, cuando \(n\) es grande,
\[ \frac{\bar X-\mu}{\sigma/\sqrt{n}} \overset{d}{\longrightarrow} N(0,1). \]
Equivalentemente,
\[ \bar X \overset{\cdot}{\sim} N\left(\mu,\frac{\sigma^2}{n}\right), \qquad \text{para } n \text{ grande}. \]
Este resultado explica por qué la media muestral desempeña un papel central en la inferencia estadística.
Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria con
\[ E(X_i)=\mu, \qquad \operatorname{Var}(X_i)=\sigma^2, \qquad i=1,\dots,n. \]
La media muestral se define por
\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i. \]
Entonces,
\[ E(\bar X)=\mu \]
y
\[ \operatorname{Var}(\bar X)=\frac{\sigma^2}{n}. \]
Es decir, la media muestral es un estadístico centrado en el parámetro poblacional y con variabilidad decreciente a medida que aumenta el tamaño de muestra.
Si además la población de origen es normal, es decir,
\[ X_i \sim N(\mu,\sigma^2), \qquad i=1,\dots,n, \]
entonces la media muestral tiene distribución exacta
\[ \bar X \sim N\left(\mu,\frac{\sigma^2}{n}\right). \]
En consecuencia,
\[ Z=\frac{\bar X-\mu}{\sigma/\sqrt{n}} \sim N(0,1). \]
Este resultado no es aproximado: se cumple exactamente cuando la población es normal.
Si la población de origen no es normal, pero tiene media \(\mu\) y varianza \(\sigma^2<\infty\), entonces para tamaños de muestra grandes la distribución de la media muestral puede aproximarse por una normal:
\[ \bar X \overset{\cdot}{\sim} N\left(\mu,\frac{\sigma^2}{n}\right). \]
Equivalentemente,
\[ \frac{\bar X-\mu}{\sigma/\sqrt{n}} \overset{\cdot}{\sim} N(0,1), \qquad \text{para } n \text{ grande}. \]
Por tanto, la normalidad exacta de la población no es indispensable para trabajar con la media muestral cuando el tamaño de muestra es suficientemente grande.
Suponga que \(X\) representa el número de éxitos en \(n\) ensayos de Bernoulli independientes con probabilidad de éxito \(p\). Entonces,
\[ X \sim \operatorname{Binomial}(n,p). \]
La proporción muestral se define por
\[ \hat p=\frac{X}{n}. \]
Como \(E(X)=np\) y \(\operatorname{Var}(X)=np(1-p)\), se tiene que
\[ E(\hat p)=p \]
y
\[ \operatorname{Var}(\hat p)=\frac{p(1-p)}{n}. \]
Por tanto, la proporción muestral es un estadístico centrado en la proporción poblacional y su variabilidad disminuye cuando el tamaño de muestra aumenta.
Si \(n\) es grande, la distribución de la proporción muestral puede aproximarse por una normal:
\[ \hat p \overset{\cdot}{\sim} N\left(p,\frac{p(1-p)}{n}\right). \]
Equivalentemente,
\[ \frac{\hat p-p}{\sqrt{p(1-p)/n}} \overset{\cdot}{\sim} N(0,1), \qquad \text{para } n \text{ grande}. \]
Esta aproximación resulta útil para la construcción de intervalos de confianza y contrastes de hipótesis sobre una proporción poblacional.
Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria con media \(\mu\) y varianza \(\sigma^2\).
La varianza muestral se define por
\[ S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2. \]
Este estadístico se utiliza para estimar la variabilidad poblacional.
Además, se cumple que
\[ E(S^2)=\sigma^2, \]
por lo que \(S^2\) es un estimador insesgado de la varianza poblacional.
Cuando la población es normal, la varianza muestral tiene una distribución exacta que desempeña un papel central en la inferencia sobre \(\sigma^2\).
Si la población de origen es normal, es decir,
\[ X_i \sim N(\mu,\sigma^2), \qquad i=1,\dots,n, \]
entonces la varianza muestral permite construir una cantidad con distribución exacta, fundamental para la inferencia sobre \(\sigma^2\).
En particular, bajo normalidad, la inferencia sobre la varianza poblacional se apoya en una distribución muestral específica que se presentará a continuación.
De manera análoga, la inferencia sobre la media y la comparación de varianzas conducen naturalmente a otras distribuciones muestrales importantes.
Sea \(X\) una variable aleatoria continua. Se dice que \(X\) sigue una distribución Chi-cuadrado con \(\nu\) grados de libertad, y se denota por
\[ X \sim \chi^2_\nu, \qquad \nu>0. \]
Su función de densidad está dada por
\[ f_X(x)= \begin{cases} \dfrac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2}, & x>0,\\[0.8em] 0, & \text{en otro caso.} \end{cases} \]
Aquí, \(\nu\) representa el número de grados de libertad.
Además,
\[ E(X)=\nu \qquad\text{y}\qquad \operatorname{Var}(X)=2\nu. \]
En la distribución Chi-cuadrado, el parámetro \(\nu\) representa los grados de libertad.
Este parámetro determina la localización y la dispersión de la distribución:
Además,
\[ E(X)=\nu \qquad\text{y}\qquad \operatorname{Var}(X)=2\nu. \]
Por tanto, los grados de libertad controlan tanto el centro como la variabilidad de la distribución.
Con distintos valores de \(\nu\), cambia la forma de la distribución.
Caso 1: \(X \sim \chi^2_1\)
La distribución es fuertemente asimétrica.
Caso 2: \(X \sim \chi^2_5\)
La distribución sigue siendo asimétrica, pero menos concentrada cerca de 0.
Caso 3: \(X \sim \chi^2_{15}\)
La distribución es menos asimétrica y más extendida.
Conclusión: al aumentar \(\nu\), la distribución se desplaza hacia la derecha y tiende a perder asimetría.
La distribución Chi-cuadrado surge de manera natural a partir de variables normales estándar.
Si
\[ Z_1,Z_2,\dots,Z_\nu \stackrel{\text{i.i.d.}}{\sim} N(0,1), \]
entonces
\[ X=\sum_{i=1}^{\nu} Z_i^2 \]
sigue una distribución Chi-cuadrado con \(\nu\) grados de libertad:
\[ X \sim \chi^2_\nu. \]
Este resultado explica por qué la distribución Chi-cuadrado aparece en muchos problemas de inferencia asociados al modelo normal.
Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria de una población normal,
\[ X_i \sim N(\mu,\sigma^2), \qquad i=1,\dots,n. \]
Entonces, la varianza muestral
\[ S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2 \]
satisface
\[ \frac{(n-1)S^2}{\sigma^2}\sim \chi^2_{n-1}. \]
Este resultado constituye la base de la inferencia exacta sobre la varianza poblacional bajo normalidad.
La distribución Chi-cuadrado se utiliza principalmente en problemas como:
En el contexto del modelo normal, su uso más inmediato proviene de la relación
\[ \frac{(n-1)S^2}{\sigma^2}\sim \chi^2_{n-1}, \]
que permite trabajar con la variabilidad poblacional a partir de la muestra.
Para una variable aleatoria con distribución Chi-cuadrado, en R se utilizan las siguientes funciones:
dchisq(x, df = nu) : calcula la densidad en \(x\)pchisq(q, df = nu) : calcula \(P(X\le q)\)qchisq(a, df = nu) : devuelve el cuantil de orden \(a\)rchisq(n, df = nu) : genera una muestra aleatoria de tamaño \(n\)En esta implementación,
x y q representan valores de la variable aleatoria;a representa una probabilidad acumulada;nu representa los grados de libertad;n representa el tamaño de la muestra aleatoria.Importante: dchisq devuelve una densidad, no una probabilidad puntual.
Para una variable aleatoria con distribución Chi-cuadrado, en Python (mediante scipy.stats) se utilizan las siguientes funciones:
chi2.pdf(x, df=nu) : calcula la densidad en \(x\)chi2.cdf(q, df=nu) : calcula \(P(X\le q)\)chi2.ppf(a, df=nu) : devuelve el cuantil de orden \(a\)chi2.rvs(df=nu, size=n) : genera una muestra aleatoria de tamaño \(n\)En esta implementación,
x y q representan valores de la variable aleatoria;a representa una probabilidad acumulada;nu representa los grados de libertad;n representa el tamaño de la muestra aleatoria.Importante: chi2.pdf devuelve una densidad, no una probabilidad puntual.
Sea \(X\) una variable aleatoria continua. Se dice que \(X\) sigue una distribución t de Student con \(\nu\) grados de libertad, y se denota por
\[ X \sim t_\nu, \qquad \nu>0. \]
Su función de densidad está dada por
\[ f_X(x)= \frac{\Gamma\left(\frac{\nu+1}{2}\right)} {\sqrt{\nu\pi}\,\Gamma\left(\frac{\nu}{2}\right)} \left(1+\frac{x^2}{\nu}\right)^{-(\nu+1)/2}, \qquad -\infty<x<\infty. \]
Aquí, \(\nu\) representa el número de grados de libertad.
Además,
\[ E(X)=0,\quad \text{si } \nu>1, \]
y
\[ \operatorname{Var}(X)=\frac{\nu}{\nu-2}, \quad \text{si } \nu>2. \]
En la distribución t de Student, el parámetro \(\nu\) representa los grados de libertad.
Este parámetro controla principalmente el grosor de las colas de la distribución:
Además, la distribución t de Student es simétrica respecto de 0.
Por tanto, los grados de libertad determinan cuán alejada o cuán próxima se encuentra la distribución respecto de la normal estándar.
Con distintos valores de \(\nu\), cambia principalmente el grosor de las colas de la distribución.
Caso 1: \(X \sim t_1\)
Las colas son muy pesadas.
Caso 2: \(X \sim t_5\)
La distribución sigue siendo más pesada que la normal.
Caso 3: \(X \sim t_{30}\)
La distribución se aproxima mucho a la normal estándar.
Conclusión: al aumentar \(\nu\), la distribución t de Student se aproxima a \(N(0,1)\).
La distribución t de Student surge del cociente entre una normal estándar y la raíz cuadrada de una Chi-cuadrado independiente dividida entre sus grados de libertad.
Si
\[ Z \sim N(0,1), \qquad U \sim \chi^2_\nu, \]
con \(Z\) y \(U\) independientes, entonces
\[ T=\frac{Z}{\sqrt{U/\nu}} \]
sigue una distribución t de Student con \(\nu\) grados de libertad:
\[ T \sim t_\nu. \]
Este resultado explica por qué la distribución t aparece cuando se reemplaza una desviación estándar poblacional desconocida por su estimador muestral.
Sea \(X_1,X_2,\dots,X_n\) una muestra aleatoria de una población normal,
\[ X_i \sim N(\mu,\sigma^2), \qquad i=1,\dots,n. \]
Si \(\sigma^2\) es desconocida, entonces
\[ T=\frac{\bar X-\mu}{S/\sqrt{n}} \]
sigue una distribución t de Student con \(n-1\) grados de libertad:
\[ T \sim t_{n-1}. \]
Este resultado constituye la base de la inferencia exacta para la media poblacional cuando la población es normal y la varianza es desconocida.
La distribución t de Student se utiliza principalmente en problemas como:
En particular, su uso más inmediato proviene de la relación
\[ T=\frac{\bar X-\mu}{S/\sqrt{n}}\sim t_{n-1}, \]
que permite incorporar la incertidumbre asociada al reemplazo de \(\sigma\) por \(S\).
Para una variable aleatoria con distribución t de Student, en R se utilizan las siguientes funciones:
dt(x, df = nu) : calcula la densidad en \(x\)pt(q, df = nu) : calcula \(P(X\le q)\)qt(a, df = nu) : devuelve el cuantil de orden \(a\)rt(n, df = nu) : genera una muestra aleatoria de tamaño \(n\)En esta implementación,
x y q representan valores de la variable aleatoria;a representa una probabilidad acumulada;nu representa los grados de libertad;n representa el tamaño de la muestra aleatoria.Importante: dt devuelve una densidad, no una probabilidad puntual.
Para una variable aleatoria con distribución t de Student, en Python (mediante scipy.stats) se utilizan las siguientes funciones:
t.pdf(x, df=nu) : calcula la densidad en \(x\)t.cdf(q, df=nu) : calcula \(P(X\le q)\)t.ppf(a, df=nu) : devuelve el cuantil de orden \(a\)t.rvs(df=nu, size=n) : genera una muestra aleatoria de tamaño \(n\)En esta implementación,
x y q representan valores de la variable aleatoria;a representa una probabilidad acumulada;nu representa los grados de libertad;n representa el tamaño de la muestra aleatoria.Importante: t.pdf devuelve una densidad, no una probabilidad puntual.
Sea \(X\) una variable aleatoria continua. Se dice que \(X\) sigue una distribución F con \(\nu_1\) y \(\nu_2\) grados de libertad, y se denota por
\[ X \sim F_{\nu_1,\nu_2}, \qquad \nu_1>0,\ \nu_2>0. \]
Su función de densidad está dada por
\[ f_X(x)= \begin{cases} \dfrac{\Gamma\left(\frac{\nu_1+\nu_2}{2}\right)} {\Gamma\left(\frac{\nu_1}{2}\right)\Gamma\left(\frac{\nu_2}{2}\right)} \left(\frac{\nu_1}{\nu_2}\right)^{\nu_1/2} x^{\nu_1/2-1} \left(1+\frac{\nu_1}{\nu_2}x\right)^{-(\nu_1+\nu_2)/2}, & x>0,\\[1em] 0, & \text{en otro caso.} \end{cases} \]
Aquí, \(\nu_1\) y \(\nu_2\) representan los grados de libertad del numerador y del denominador, respectivamente.
Además,
\[ E(X)=\frac{\nu_2}{\nu_2-2}, \qquad \text{si } \nu_2>2, \]
y
\[ \operatorname{Var}(X)= \frac{2\nu_2^2(\nu_1+\nu_2-2)} {\nu_1(\nu_2-2)^2(\nu_2-4)}, \qquad \text{si } \nu_2>4. \]
En la distribución F, los parámetros \(\nu_1\) y \(\nu_2\) representan los grados de libertad asociados al numerador y al denominador, respectivamente.
Estos parámetros influyen en la forma de la distribución:
Además,
\[ E(X)=\frac{\nu_2}{\nu_2-2}, \qquad \text{si } \nu_2>2, \]
y
\[ \operatorname{Var}(X)= \frac{2\nu_2^2(\nu_1+\nu_2-2)} {\nu_1(\nu_2-2)^2(\nu_2-4)}, \qquad \text{si } \nu_2>4. \]
Con distintos valores de \(\nu_1\) y \(\nu_2\), cambia la forma de la distribución.
Caso 1: \(X \sim F_{1,5}\)
La distribución es muy asimétrica.
Caso 2: \(X \sim F_{5,10}\)
La asimetría disminuye.
Caso 3: \(X \sim F_{20,30}\)
La distribución es menos asimétrica y más concentrada.
Conclusión: al aumentar \(\nu_1\) y \(\nu_2\), la distribución F tiende a volverse menos asimétrica.
La distribución F surge del cociente entre dos variables Chi-cuadrado independientes, cada una dividida entre sus respectivos grados de libertad.
Si
\[ U_1 \sim \chi^2_{\nu_1}, \qquad U_2 \sim \chi^2_{\nu_2}, \]
con \(U_1\) y \(U_2\) independientes, entonces
\[ F=\frac{U_1/\nu_1}{U_2/\nu_2} \]
sigue una distribución F con \(\nu_1\) y \(\nu_2\) grados de libertad:
\[ F \sim F_{\nu_1,\nu_2}. \]
Este resultado explica por qué la distribución F aparece en comparación de varianzas y en muchos problemas de inferencia del modelo lineal normal.
Sean
\[ X_1,\dots,X_n \sim N(\mu_X,\sigma_X^2) \qquad\text{y}\qquad Y_1,\dots,Y_m \sim N(\mu_Y,\sigma_Y^2), \]
dos muestras aleatorias independientes de poblaciones normales.
Si \(S_X^2\) y \(S_Y^2\) son las varianzas muestrales, entonces bajo la hipótesis
\[ H_0:\sigma_X^2=\sigma_Y^2, \]
se cumple que
\[ \frac{S_X^2}{S_Y^2}\sim F_{n-1,m-1}. \]
Este resultado constituye la base de la inferencia clásica para comparar varianzas poblacionales.
En el modelo de regresión lineal clásico, la distribución F aparece de manera natural al comparar la variabilidad explicada por el modelo con la variabilidad residual.
En particular, si se contrasta la significancia conjunta de un conjunto de coeficientes, el estadístico de prueba suele tomar la forma
\[ F=\frac{\text{cuadrado medio del modelo}}{\text{cuadrado medio del error}}, \]
y, bajo la hipótesis nula correspondiente, sigue una distribución F.
Por ello, la distribución F ocupa un lugar central en:
La distribución F se utiliza principalmente en problemas como:
En todos estos casos, la idea central es comparar dos fuentes de variabilidad mediante un cociente.
Para una variable aleatoria con distribución F, en R se utilizan las siguientes funciones:
df(x, df1 = nu1, df2 = nu2) : calcula la densidad en \(x\)pf(q, df1 = nu1, df2 = nu2) : calcula \(P(X\le q)\)qf(a, df1 = nu1, df2 = nu2) : devuelve el cuantil de orden \(a\)rf(n, df1 = nu1, df2 = nu2) : genera una muestra aleatoria de tamaño \(n\)En esta implementación,
x y q representan valores de la variable aleatoria;a representa una probabilidad acumulada;nu1 representa los grados de libertad del numerador;nu2 representa los grados de libertad del denominador;n representa el tamaño de la muestra aleatoria.Importante: df devuelve una densidad, no una probabilidad puntual.
Para una variable aleatoria con distribución F, en Python (mediante scipy.stats) se utilizan las siguientes funciones:
f.pdf(x, dfn=nu1, dfd=nu2) : calcula la densidad en \(x\)f.cdf(q, dfn=nu1, dfd=nu2) : calcula \(P(X\le q)\)f.ppf(a, dfn=nu1, dfd=nu2) : devuelve el cuantil de orden \(a\)f.rvs(dfn=nu1, dfd=nu2, size=n) : genera una muestra aleatoria de tamaño \(n\)En esta implementación,
x y q representan valores de la variable aleatoria;a representa una probabilidad acumulada;nu1 representa los grados de libertad del numerador;nu2 representa los grados de libertad del denominador;n representa el tamaño de la muestra aleatoria.Importante: f.pdf devuelve una densidad, no una probabilidad puntual.
Un estimador puntual de un parámetro \(\theta\) es un estadístico
\[ \hat\theta = T(X_1,\dots,X_n) \]
utilizado para aproximar el valor desconocido de \(\theta\).
Por ejemplo:
En modelos con un solo parámetro, la idea de estimación puntual suele ser directa.
En modelos con varios parámetros, como la regresión lineal, se requiere estimar simultáneamente todos los parámetros desconocidos del modelo.
Hasta ahora, la estimación puntual se ha presentado en situaciones con uno o pocos parámetros, como \(\mu\), \(\sigma^2\) o \(p\).
En muchos problemas aplicados, sin embargo, el interés recae en modelos con varios parámetros desconocidos.
El modelo de regresión lineal clásico constituye un ejemplo fundamental de esta situación, pues en él se busca estimar simultáneamente:
Por ello, este modelo servirá como ejemplo conductor para introducir distintos métodos de estimación paramétrica.
Considere una muestra de observaciones \((y_1,\mathbf{x}_1),\dots,(y_n,\mathbf{x}_n)\), donde
\[ \mathbf{x}_i=(x_{i1},x_{i2},\dots,x_{ip})^\top, \qquad i=1,\dots,n. \]
El modelo de regresión lineal múltiple se expresa como
\[ y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\varepsilon_i, \qquad i=1,\dots,n. \]
Usualmente, si el modelo incluye intercepto, se toma
\[ x_{i1}=1, \qquad i=1,\dots,n. \]
Bajo el modelo lineal normal, se asume que
\[ \varepsilon_i \stackrel{\text{i.i.d.}}{\sim} N(0,\sigma^2), \qquad i=1,\dots,n. \]
Entonces,
\[ Y_i\mid \mathbf{x}_i \sim N(\mu_i,\sigma^2), \qquad \mu_i=\mathbf{x}_i^\top\boldsymbol{\beta}, \qquad i=1,\dots,n. \]
En forma matricial, el modelo se escribe como
\[ \mathbf{y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}. \]
Por tanto, los parámetros de interés son
\[ \boldsymbol{\beta}=(\beta_1,\dots,\beta_p)^\top \qquad\text{y}\qquad \sigma^2. \]
Considere el modelo de regresión lineal múltiple
\[ y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\varepsilon_i, \qquad i=1,\dots,n. \]
Para cada posible valor del vector de parámetros \(\boldsymbol{\beta}\), se define la suma de cuadrados de los residuos:
\[ S(\boldsymbol{\beta})= \sum_{i=1}^n \left(y_i-\mathbf{x}_i^\top\boldsymbol{\beta}\right)^2. \]
El método de mínimos cuadrados ordinarios consiste en elegir el valor de \(\boldsymbol{\beta}\) que hace mínima esta función. Así, el estimador de mínimos cuadrados se define por
\[ \hat{\boldsymbol{\beta}}_{MC} = \arg\min_{\boldsymbol{\beta}} S(\boldsymbol{\beta}). \]
La función objetivo puede escribirse en forma matricial como
\[ S(\boldsymbol{\beta}) = (\mathbf{y}-X\boldsymbol{\beta})^\top(\mathbf{y}-X\boldsymbol{\beta}). \]
Derivando respecto de \(\boldsymbol{\beta}\) e igualando a cero, se obtiene la ecuación normal
\[ X^\top X\,\hat{\boldsymbol{\beta}}_{MC}=X^\top\mathbf{y}. \]
Si la matriz \(X^\top X\) es invertible, la solución de mínimos cuadrados ordinarios está dada por
\[ \hat{\boldsymbol{\beta}}_{MC}=(X^\top X)^{-1}X^\top\mathbf{y}. \]
Por tanto, el estimador de mínimos cuadrados puede obtenerse explícitamente a partir de los datos observados y de la matriz de diseño del modelo.
Una vez obtenido el estimador de mínimos cuadrados,
\[ \hat{\boldsymbol{\beta}}_{MC}=(X^\top X)^{-1}X^\top\mathbf{y}, \]
los valores ajustados del modelo quedan dados por
\[ \hat{\mathbf{y}}=X\hat{\boldsymbol{\beta}}_{MC}. \]
Los residuos ordinarios se definen como las diferencias entre los valores observados y los valores ajustados:
\[ e_i=y_i-\hat y_i, \qquad i=1,\dots,n. \]
En forma vectorial,
\[ \mathbf{e}=\mathbf{y}-\hat{\mathbf{y}}. \]
Así, el método de mínimos cuadrados busca un ajuste lineal para el cual la suma de cuadrados de los residuos ordinarios sea mínima.
El método de mínimos cuadrados ordinarios proporciona un criterio claro para estimar los coeficientes del modelo lineal:
\[ \hat{\boldsymbol{\beta}}_{MC} = \arg\min_{\boldsymbol{\beta}} (\mathbf{y}-X\boldsymbol{\beta})^\top(\mathbf{y}-X\boldsymbol{\beta}). \]
Sin embargo, este criterio se basa únicamente en minimizar una discrepancia cuadrática y no parte todavía de una distribución probabilística para la variable respuesta.
Cuando se desea incorporar supuestos probabilísticos al modelo y construir procedimientos generales de estimación, resulta natural introducir otro enfoque: el método de máxima verosimilitud.
Sea \(Y_1,Y_2,\dots,Y_n\) una muestra aleatoria con función de probabilidad o densidad
\[ f(y;\theta), \]
donde \(\theta\) representa un parámetro desconocido.
La función de verosimilitud se define como la función de \(\theta\) dada por
\[ L(\theta;\mathbf{y}) = \prod_{i=1}^n f(y_i;\theta), \]
donde \(\mathbf{y}=(y_1,\dots,y_n)\) representa la muestra observada.
La idea central es evaluar, para cada valor posible de \(\theta\), cuán compatible resulta ese valor con los datos observados.
En muchos problemas, resulta más conveniente trabajar con el logaritmo natural de la función de verosimilitud, porque transforma productos en sumas y simplifica los cálculos algebraicos y diferenciales.
La log-verosimilitud se define por
\[ \ell(\theta;\mathbf{y})=\ln L(\theta;\mathbf{y}). \]
Si las observaciones son independientes, entonces
\[ L(\theta;\mathbf{y}) = \prod_{i=1}^n f(y_i;\theta) \qquad\Longrightarrow\qquad \ell(\theta;\mathbf{y}) = \sum_{i=1}^n \ln f(y_i;\theta). \]
Además, como la función logaritmo natural es estrictamente creciente,
\[ \arg\max_\theta L(\theta;\mathbf{y}) = \arg\max_\theta \ell(\theta;\mathbf{y}). \]
Por tanto, maximizar la verosimilitud o la log-verosimilitud conduce al mismo estimador.
Los estimadores de máxima verosimilitud presentan varias propiedades importantes.
Entre las más destacadas se encuentran:
invarianza: si \(\hat\theta_{MV}\) es el estimador de máxima verosimilitud de \(\theta\), entonces para una función \(g\) se tiene que \[ g(\hat\theta_{MV}) \] es el estimador de máxima verosimilitud de \[ g(\theta); \]
eficiencia asintótica: bajo condiciones regulares, cuando el tamaño de muestra es grande, el estimador de máxima verosimilitud alcanza la menor varianza posible dentro de una amplia clase de estimadores.
Estas propiedades explican por qué el método de máxima verosimilitud ocupa un lugar central en inferencia paramétrica.
Suponga que
\[ X_1,\dots,X_n \sim \operatorname{Exp}(\lambda), \]
y que el estimador de máxima verosimilitud de \(\lambda\) es
\[ \hat\lambda_{MV}=\frac{1}{\bar X}. \]
Si ahora interesa estimar la media de la distribución,
\[ \mu=\frac{1}{\lambda}, \]
entonces, por la propiedad de invarianza, el estimador de máxima verosimilitud de \(\mu\) es
\[ \hat\mu_{MV} = \frac{1}{\hat\lambda_{MV}} = \bar X. \]
Así, no es necesario rehacer todo el procedimiento de maximización para estimar una transformación del parámetro.
La eficiencia asintótica indica que, cuando el tamaño de muestra es grande, el estimador de máxima verosimilitud utiliza de manera muy efectiva la información contenida en la muestra.
Por ejemplo, si
\[ X_1,\dots,X_n \sim N(\mu,\sigma^2), \]
con \(\sigma^2\) conocida, entonces
\[ \hat\mu_{MV}=\bar X \qquad\text{y}\qquad \operatorname{Var}(\bar X)=\frac{\sigma^2}{n}. \]
Más generalmente, bajo condiciones regulares, el estimador de máxima verosimilitud tiene, asintóticamente, la menor varianza posible entre los estimadores regulares insesgados.
La expresión condiciones regulares se usa para indicar que el modelo probabilístico cumple ciertos supuestos matemáticos que evitan situaciones problemáticas.
En términos intuitivos, estas condiciones buscan que:
En resumen, estas condiciones aseguran que el problema de estimación esté bien planteado y que el estimador de máxima verosimilitud tenga buenas propiedades cuando el tamaño de muestra es grande.
Hasta ahora, el modelo lineal se ha utilizado como una relación entre la respuesta y las variables explicativas:
\[ Y_i=\mathbf{x}_i^\top\boldsymbol{\beta}+\varepsilon_i, \qquad i=1,\dots,n. \]
Para aplicar máxima verosimilitud, es necesario especificar una distribución probabilística para la respuesta, o equivalentemente, para el término aleatorio del modelo.
Cuando se incorporan supuestos probabilísticos adecuados, se obtiene el modelo lineal normal, que servirá como base para definir la verosimilitud del modelo.
Para trabajar con máxima verosimilitud en este contexto, conviene distinguir tres grupos de supuestos:
El modelo se escribe como
\[ Y_i=\mathbf{x}_i^\top\boldsymbol{\beta}+\varepsilon_i, \qquad i=1,\dots,n, \]
donde
\[ \mathbf{x}_i= \begin{pmatrix} x_{i1}\\ x_{i2}\\ \vdots\\ x_{ip} \end{pmatrix}. \]
Equivalentemente,
\[ Y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\varepsilon_i, \qquad i=1,\dots,n. \]
Este supuesto significa que el modelo es lineal respecto de los parámetros
\[ \beta_1,\beta_2,\dots,\beta_p, \]
aunque las variables explicativas puedan provenir de transformaciones previas.
Se asume que la parte sistemática del modelo describe adecuadamente el valor esperado de la respuesta.
En particular,
\[ \mu_i=E(Y_i\mid \mathbf{x}_i)=\mathbf{x}_i^\top\boldsymbol{\beta}, \qquad i=1,\dots,n. \]
En forma vectorial,
\[ E(\mathbf{Y}\mid X)=X\boldsymbol{\beta}. \]
Este supuesto indica que la estructura lineal propuesta para la media es la correcta dentro del modelo considerado.
El término aleatorio no debe introducir sesgo sistemático en la respuesta. Por ello se asume que
\[ E(\varepsilon_i\mid X)=0, \qquad i=1,\dots,n. \]
En forma vectorial,
\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}. \]
Bajo este supuesto,
\[ E(\mathbf{Y}\mid X)=X\boldsymbol{\beta}. \]
Es decir, la media condicional de la respuesta coincide con la parte sistemática del modelo.
Se asume que la variabilidad del término aleatorio es la misma para todas las observaciones:
\[ \operatorname{Var}(\varepsilon_i\mid X)=\sigma^2, \qquad i=1,\dots,n. \]
En consecuencia, la matriz de varianzas y covarianzas condicional de los errores adopta la forma
\[ \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n, \]
si además no hay correlación entre ellos.
Bajo este supuesto, todas las observaciones comparten la misma dispersión alrededor de la media.
Se asume que los errores asociados a observaciones distintas no están correlacionados:
\[ \operatorname{Cov}(\varepsilon_i,\varepsilon_j\mid X)=0, \qquad i\neq j. \]
En forma matricial, esto implica que la matriz de varianzas y covarianzas de los errores no tiene términos fuera de la diagonal.
Si este supuesto se combina con homocedasticidad, entonces
\[ \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n. \]
En muchos contextos también se asume una condición más fuerte: independencia entre los errores.
Además, en el modelo lineal normal clásico se asume que
\[ \boldsymbol{\varepsilon}\mid X \sim N_n(\mathbf{0},\sigma^2 I_n). \]
Equivalentemente, para cada observación,
\[ \varepsilon_i\mid X \sim N(0,\sigma^2), \qquad i=1,\dots,n. \]
Bajo este supuesto, se obtiene que
\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n), \]
y, en particular,
\[ Y_i\mid \mathbf{x}_i \sim N(\mathbf{x}_i^\top\boldsymbol{\beta},\sigma^2), \qquad i=1,\dots,n. \]
En el modelo lineal clásico, la inferencia suele formularse condicionalmente a la matriz de diseño
\[ X= \begin{pmatrix} \mathbf{x}_1^\top\\ \mathbf{x}_2^\top\\ \vdots\\ \mathbf{x}_n^\top \end{pmatrix}. \]
Es decir, los valores de las variables explicativas se consideran dados al momento de estudiar la distribución de
\[ \mathbf{Y}\mid X. \]
Por ello, los supuestos del modelo suelen expresarse de forma condicional a \(X\).
Se requiere que ninguna columna de la matriz \(X\) pueda expresarse exactamente como combinación lineal de las demás.
Equivalentemente, las columnas de \(X\) deben ser linealmente independientes.
Este supuesto garantiza que cada parámetro de
\[ \boldsymbol{\beta}= \begin{pmatrix} \beta_1\\ \beta_2\\ \vdots\\ \beta_p \end{pmatrix} \]
esté bien identificado dentro del modelo.
La ausencia de colinealidad perfecta se expresa matricialmente mediante la condición
\[ \operatorname{rango}(X)=p. \]
Bajo este supuesto,
\[ X^\top X \]
es invertible, y por tanto la solución de mínimos cuadrados ordinarios
\[ \hat{\boldsymbol{\beta}}_{MC}=(X^\top X)^{-1}X^\top\mathbf{y} \]
está bien definida y es única.
Para estimar el modelo se requiere, en particular, que el número de observaciones sea mayor que el número de parámetros:
\[ n>p. \]
Esta condición permite disponer de grados de libertad residuales positivos, dados por
\[ n-p. \]
Así, el ajuste del modelo y los procedimientos de inferencia posteriores resultan factibles.
Bajo todos los supuestos anteriores, el modelo queda resumido por
\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}, \]
con
\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}, \qquad \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n, \qquad \boldsymbol{\varepsilon}\mid X \sim N_n(\mathbf{0},\sigma^2 I_n), \]
y además
\[ \operatorname{rango}(X)=p, \qquad n>p. \]
En consecuencia,
\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n). \]
Esta formulación permitirá ahora construir la función de verosimilitud del modelo lineal normal.
Bajo los supuestos anteriores, la respuesta condicional tiene distribución
\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n). \]
Por tanto, la máxima verosimilitud puede aplicarse para estimar simultáneamente los parámetros
\[ \boldsymbol{\beta} \qquad\text{y}\qquad \sigma^2. \]
Esto permitirá comparar el enfoque de máxima verosimilitud con el método de mínimos cuadrados ordinarios dentro del modelo lineal normal.
Bajo el supuesto
\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n), \]
la función de densidad conjunta de la muestra, condicionada en \(X\), está dada por
\[ f(\mathbf{y}\mid X;\boldsymbol{\beta},\sigma^2) = \frac{1}{(2\pi\sigma^2)^{n/2}} \exp\left\{ -\frac{1}{2\sigma^2} (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}) \right\}. \]
Por tanto, la función de verosimilitud es
\[ L(\boldsymbol{\beta},\sigma^2;\mathbf{y}) = \frac{1}{(2\pi\sigma^2)^{n/2}} \exp\left\{ -\frac{1}{2\sigma^2} (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}) \right\}. \]
Tomando logaritmo natural en la función de verosimilitud, se obtiene
\[ \ell(\boldsymbol{\beta},\sigma^2;\mathbf{y}) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln(\sigma^2) -\frac{1}{2\sigma^2} (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}). \]
Por tanto, maximizar la verosimilitud equivale a maximizar la log-verosimilitud.
Además, para \(\sigma^2\) fijo, la log-verosimilitud depende de \(\boldsymbol{\beta}\) a través del término
\[ (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}), \]
que corresponde a la suma de cuadrados residual.
Para estimar \(\boldsymbol{\beta}\), considérese la log-verosimilitud del modelo lineal normal:
\[ \ell(\boldsymbol{\beta},\sigma^2;\mathbf{y}) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln(\sigma^2) -\frac{1}{2\sigma^2} (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}). \]
Si \(\sigma^2\) se mantiene fija, los términos
\[ -\frac{n}{2}\ln(2\pi) \qquad\text{y}\qquad -\frac{n}{2}\ln(\sigma^2) \]
son constantes respecto de \(\boldsymbol{\beta}\).
Por tanto, maximizar
\[ \ell(\boldsymbol{\beta},\sigma^2;\mathbf{y}) \]
respecto de \(\boldsymbol{\beta}\) equivale a minimizar
\[ (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}), \]
ya que este término aparece multiplicado por la constante negativa
\[ -\frac{1}{2\sigma^2}. \]
Como el problema equivale a minimizar
\[ S(\boldsymbol{\beta}) = (\mathbf{y}-X\boldsymbol{\beta})^\top (\mathbf{y}-X\boldsymbol{\beta}), \]
se deriva esta función respecto de \(\boldsymbol{\beta}\) e iguala a cero:
\[ \frac{\partial S(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = -2X^\top(\mathbf{y}-X\boldsymbol{\beta}) = \mathbf{0}. \]
De aquí se obtiene la ecuación normal
\[ X^\top X\,\boldsymbol{\beta}=X^\top\mathbf{y}. \]
Si \(X^\top X\) es invertible, entonces
\[ \hat{\boldsymbol{\beta}}_{MV} = (X^\top X)^{-1}X^\top\mathbf{y}. \]
Así, en el modelo lineal normal, el estimador de máxima verosimilitud de \(\boldsymbol{\beta}\) coincide con el estimador de mínimos cuadrados ordinarios.
Una vez obtenido
\[ \hat{\boldsymbol{\beta}}_{MV} = (X^\top X)^{-1}X^\top\mathbf{y}, \]
se reemplaza este resultado en la log-verosimilitud y se maximiza respecto de \(\sigma^2\).
Así se obtiene
\[ \hat{\sigma}^2_{MV} = \frac{1}{n} (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MV})^\top (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MV}). \]
Equivalentemente,
\[ \hat{\sigma}^2_{MV} = \frac{1}{n} \sum_{i=1}^n (y_i-\hat y_i)^2. \]
Sin embargo, este estimador no es insesgado para \(\sigma^2\).
Por ello, en inferencia clásica suele utilizarse con mayor frecuencia
\[ \hat{\sigma}^2 = \frac{1}{n-p} (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MC})^\top (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MC}), \]
que sí es un estimador insesgado de \(\sigma^2\).
En el modelo lineal normal se obtiene que:
para los coeficientes de regresión, \[ \hat{\boldsymbol{\beta}}_{MV} = \hat{\boldsymbol{\beta}}_{MC}; \]
para la varianza, \[ \hat{\sigma}^2_{MV} = \frac{1}{n} (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MC})^\top (\mathbf{y}-X\hat{\boldsymbol{\beta}}_{MC}). \]
Por tanto, la coincidencia entre máxima verosimilitud y mínimos cuadrados ocurre directamente en la estimación de \(\boldsymbol{\beta}\), mientras que la estimación de \(\sigma^2\) surge del supuesto probabilístico normal incorporado al modelo.
Para evaluar la calidad de un estimador no basta con conocer su expresión algebraica.
También es importante estudiar sus propiedades teóricas.
En esta sección se revisarán las siguientes propiedades:
Además, se introducirá la noción de estimador MELI y se discutirán ejemplos que permitan comparar estas propiedades en casos concretos.
Sea \(\hat\theta\) un estimador puntual del parámetro \(\theta\).
Se dice que \(\hat\theta\) es insesgado si
\[ E(\hat\theta)=\theta. \]
En caso contrario, el sesgo del estimador se define por
\[ \operatorname{Sesgo}(\hat\theta)=E(\hat\theta)-\theta. \]
Por tanto, un estimador insesgado es aquel cuyo valor esperado coincide con el parámetro que se desea estimar.
Sea \(X_1,\dots,X_n\) una muestra aleatoria con media \(\mu\).
La media muestral
\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i \]
satisface
\[ E(\bar X)=\mu. \]
Por tanto, \(\bar X\) es un estimador insesgado de \(\mu\).
En cambio, para la varianza poblacional \(\sigma^2\), el estimador
\[ \tilde S^2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar X)^2 \]
no es insesgado, mientras que
\[ S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2 \]
sí lo es.
Sea \(\hat\theta_n\) un estimador del parámetro \(\theta\), donde se explicita la dependencia del tamaño de muestra.
Se dice que \(\hat\theta_n\) es consistente para \(\theta\) si
\[ \hat\theta_n \xrightarrow{P} \theta \qquad \text{cuando } n\to\infty. \]
Es decir, a medida que el tamaño de muestra aumenta, el estimador se aproxima en probabilidad al valor verdadero del parámetro.
La consistencia expresa una propiedad de largo plazo del estimador.
Suponga que \(\hat\theta_1\) y \(\hat\theta_2\) son dos estimadores insesgados de un mismo parámetro \(\theta\).
Se dice que \(\hat\theta_1\) es más eficiente que \(\hat\theta_2\) si
\[ \operatorname{Var}(\hat\theta_1)<\operatorname{Var}(\hat\theta_2). \]
En general, entre dos estimadores insesgados de un mismo parámetro, se prefiere aquel con menor varianza, porque presenta menor dispersión alrededor del valor verdadero.
Así, la eficiencia compara la precisión relativa de estimadores que apuntan al mismo parámetro.
Sea \(X_1,\dots,X_n\) una muestra aleatoria con función de probabilidad o densidad
\[ f(x_1,\dots,x_n;\theta). \]
Se dice que un estadístico \(T=T(X_1,\dots,X_n)\) es suficiente para \(\theta\) si contiene toda la información muestral relevante sobre el parámetro.
Intuitivamente, una vez conocido \(T\), el resto de la muestra no aporta información adicional sobre \(\theta\).
La suficiencia es importante porque permite resumir la muestra sin perder información esencial para la inferencia sobre el parámetro.
Una forma práctica de verificar suficiencia es mediante el criterio de factorización.
El estadístico \(T=T(X_1,\dots,X_n)\) es suficiente para \(\theta\) si la función de probabilidad o densidad conjunta puede escribirse como
\[ f(x_1,\dots,x_n;\theta) = g(T(x_1,\dots,x_n),\theta)\,h(x_1,\dots,x_n), \]
donde:
Este criterio permite identificar estadísticos suficientes de manera algebraica.
Sea \(X_1,\dots,X_n\) una muestra aleatoria de una distribución Bernoulli\((p)\).
La función de probabilidad conjunta es
\[ f(x_1,\dots,x_n;p) = p^{\sum_{i=1}^n x_i}(1-p)^{n-\sum_{i=1}^n x_i}, \qquad x_i\in\{0,1\}. \]
Puede escribirse como
\[ f(x_1,\dots,x_n;p) = g\left(\sum_{i=1}^n x_i,p\right)\,h(x_1,\dots,x_n), \]
con
\[ g\left(\sum_{i=1}^n x_i,p\right) = p^{\sum x_i}(1-p)^{n-\sum x_i}, \qquad h(x_1,\dots,x_n)=1. \]
Por tanto,
\[ T=\sum_{i=1}^n X_i \]
es un estadístico suficiente para \(p\).
La sigla MELI significa:
\[ \text{Mejor Estimador Lineal Insesgado}. \]
En inglés, corresponde a la idea de BLUE (Best Linear Unbiased Estimator).
Un estimador MELI es un estimador que cumple simultáneamente tres condiciones:
En el modelo lineal clásico, bajo los supuestos usuales, el estimador de mínimos cuadrados ordinarios de \(\boldsymbol{\beta}\) es MELI.
La idea de un estimador MELI no significa que sea el mejor entre todos los estimadores posibles, sino entre aquellos que son:
Por ello, la palabra “mejor” debe entenderse en un sentido preciso:
\[ \text{mejor} \equiv \text{menor varianza dentro de una clase dada}. \]
Esta precisión es importante porque la comparación siempre depende del conjunto de estimadores que se está considerando.
Sea \(X_1,\dots,X_n\) una muestra aleatoria con
\[ E(X_i)=\mu, \qquad \operatorname{Var}(X_i)=\sigma^2<\infty, \qquad i=1,\dots,n. \]
Considere el estimador
\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i. \]
Analizaremos sus propiedades como estimador de \(\mu\).
Se tiene que
\[ E(\bar X) = E\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n}\sum_{i=1}^n E(X_i) = \frac{1}{n}\sum_{i=1}^n \mu = \mu. \]
Por tanto, \(\bar X\) es un estimador insesgado de \(\mu\).
Como \(X_1,\dots,X_n\) son independientes, se tiene
\[ \operatorname{Var}(\bar X) = \operatorname{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2}\sum_{i=1}^n \operatorname{Var}(X_i) = \frac{1}{n^2}\,n\sigma^2 = \frac{\sigma^2}{n}. \]
Luego,
\[ E(\bar X)=\mu \qquad\text{y}\qquad \operatorname{Var}(\bar X)=\frac{\sigma^2}{n}\to 0. \]
Por la desigualdad de Chebyshev, para todo \(\varepsilon>0\),
\[ P(|\bar X-\mu|>\varepsilon) \le \frac{\operatorname{Var}(\bar X)}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2} \to 0. \]
Por tanto,
\[ \bar X \xrightarrow{P} \mu, \]
es decir, \(\bar X\) es consistente para \(\mu\).
Considere también el estimador
\[ \hat\mu_2=X_1. \]
Primero, ambos son insesgados para \(\mu\):
\[ E(\bar X)=\mu \qquad\text{y}\qquad E(X_1)=\mu. \]
Ahora comparemos sus varianzas:
\[ \operatorname{Var}(\bar X)=\frac{\sigma^2}{n}, \qquad \operatorname{Var}(X_1)=\sigma^2. \]
Si \(n>1\), entonces
\[ \frac{\sigma^2}{n}<\sigma^2. \]
Por consiguiente,
\[ \operatorname{Var}(\bar X)<\operatorname{Var}(X_1), \]
y por definición \(\bar X\) es más eficiente que \(X_1\) para estimar \(\mu\).
Suponga ahora que
\[ X_1,\dots,X_n \sim N(\mu,\sigma^2), \qquad \sigma^2 \text{ conocida}. \]
La densidad conjunta puede escribirse como
\[ f(x_1,\dots,x_n;\mu) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n x_i^2 \right\} \exp\left\{ \frac{\mu}{\sigma^2}\sum_{i=1}^n x_i -\frac{n\mu^2}{2\sigma^2} \right\}. \]
Por el criterio de factorización de Neyman–Fisher,
\[ T=\sum_{i=1}^n X_i \]
es suficiente para \(\mu\).
Como
\[ \bar X=\frac{1}{n}T, \]
también \(\bar X\) es suficiente para \(\mu\).
La media muestral
\[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i \]
es:
Las propiedades revisadas cumplen funciones distintas:
En la práctica, no siempre es posible maximizar todas estas propiedades a la vez.
Por ello, la elección de un estimador depende del contexto del problema y del criterio de inferencia adoptado.
Considere el modelo lineal normal
\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}, \]
con
\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}, \qquad \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n. \]
En este contexto, el estimador de mínimos cuadrados ordinarios es
\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top \mathbf{Y}. \]
A continuación, revisamos algunas de sus propiedades básicas.
Se tiene que
\[ E(\hat{\boldsymbol{\beta}}\mid X) = E\left[(X^\top X)^{-1}X^\top \mathbf{Y}\mid X\right]. \]
Como \((X^\top X)^{-1}X^\top\) depende solo de \(X\), resulta
\[ E(\hat{\boldsymbol{\beta}}\mid X) = (X^\top X)^{-1}X^\top E(\mathbf{Y}\mid X). \]
Pero
\[ E(\mathbf{Y}\mid X)=X\boldsymbol{\beta}, \]
de modo que
\[ E(\hat{\boldsymbol{\beta}}\mid X) = (X^\top X)^{-1}X^\top X\boldsymbol{\beta} = \boldsymbol{\beta}. \]
Por tanto, \(\hat{\boldsymbol{\beta}}\) es un estimador insesgado de \(\boldsymbol{\beta}\).
Partiendo de
\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top \mathbf{Y}, \]
se obtiene
\[ \operatorname{Var}(\hat{\boldsymbol{\beta}}\mid X) = (X^\top X)^{-1}X^\top \operatorname{Var}(\mathbf{Y}\mid X)\,X(X^\top X)^{-1}. \]
Como
\[ \operatorname{Var}(\mathbf{Y}\mid X)=\sigma^2 I_n, \]
entonces
\[ \operatorname{Var}(\hat{\boldsymbol{\beta}}\mid X) = (X^\top X)^{-1}X^\top (\sigma^2 I_n) X(X^\top X)^{-1}. \]
Por tanto,
\[ \operatorname{Var}(\hat{\boldsymbol{\beta}}\mid X) = \sigma^2 (X^\top X)^{-1}. \]
Bajo los supuestos del modelo lineal clásico,
\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}, \qquad \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n, \]
el teorema de Gauss–Markov establece que el estimador de mínimos cuadrados ordinarios es el MELI de \(\boldsymbol{\beta}\).
Esto significa que \(\hat{\boldsymbol{\beta}}\) es:
Por tanto, en el modelo lineal clásico, la eficiencia de \(\hat{\boldsymbol{\beta}}\) se entiende dentro de la clase de estimadores lineales insesgados.
Además, bajo supuestos regulares, el estimador
\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top \mathbf{Y} \]
es también consistente para \(\boldsymbol{\beta}\) cuando el tamaño de muestra aumenta.
Por otro lado, en el modelo lineal normal, la inferencia sobre los parámetros se basa en estadísticas que resumen de manera fundamental la información contenida en la muestra, como
\[ \hat{\boldsymbol{\beta}} \qquad\text{y}\qquad (\mathbf{Y}-X\hat{\boldsymbol{\beta}})^\top(\mathbf{Y}-X\hat{\boldsymbol{\beta}}). \]
Así, el modelo de regresión lineal clásico constituye una aplicación central de las propiedades de los estimadores estudiadas en esta sección.
En esta sección se han revisado:
Con estos elementos, ya es posible pasar a la siguiente etapa: la inferencia paramétrica, donde los estimadores se utilizarán para construir intervalos de confianza y contrastes de hipótesis.
La inferencia paramétrica busca utilizar la información contenida en una muestra para extraer conclusiones sobre parámetros desconocidos de una población o de un modelo probabilístico.
En particular, a partir de un estimador puntual se busca:
Para ello, se desarrollan dos herramientas principales:
Un intervalo de confianza para un parámetro \(\theta\) es un intervalo aleatorio de la forma
\[ IC(\theta)=\bigl[L(X_1,\dots,X_n),\,U(X_1,\dots,X_n)\bigr], \]
construido a partir de la muestra, tal que
\[ P\bigl(L(X_1,\dots,X_n)\le \theta \le U(X_1,\dots,X_n)\bigr)=1-\alpha. \]
El valor
\[ 1-\alpha \]
se denomina nivel de confianza.
Así, un intervalo de confianza proporciona un conjunto de valores plausibles para el parámetro desconocido.
El nivel de confianza
\[ 1-\alpha \]
no se refiere a la probabilidad de que, una vez calculado el intervalo, el parámetro esté dentro de él.
La interpretación correcta es la siguiente:
si se repitiera muchas veces el procedimiento de muestreo y, en cada repetición, se construyera un intervalo de confianza con la misma regla, entonces aproximadamente una proporción
\[ 1-\alpha \]
de esos intervalos contendría al verdadero valor del parámetro.
Por ello, el nivel de confianza describe la confiabilidad del procedimiento, no del intervalo particular una vez observado.
En muchos problemas, un intervalo de confianza puede expresarse como
\[ \text{estimador} \;\pm\; \text{margen de error}. \]
El margen de error depende de tres elementos principales:
En términos generales:
En inferencia paramétrica, los intervalos de confianza pueden construirse mediante distintos enfoques. Entre los más usuales se encuentran:
Método de la variable pivotal
Se parte de una cantidad aleatoria cuya distribución es conocida y no depende del parámetro desconocido.
Método basado en la distribución muestral del estimador
Se utiliza la distribución exacta o aproximada del estimador para construir el intervalo.
Métodos asintóticos
Se apoyan en aproximaciones válidas para tamaños de muestra grandes, usualmente a partir de la normalidad asintótica del estimador.
Además, una vez elegido el método, debe decidirse cómo se distribuye la probabilidad de error \(\alpha\) en las colas de la distribución.
En un intervalo bilateral de nivel
\[ 1-\alpha, \]
una elección frecuente es repartir el error de forma simétrica:
\[ \frac{\alpha}{2} \qquad\text{y}\qquad \frac{\alpha}{2}. \]
Esto conduce a un intervalo central, que suele ser natural cuando la distribución de la variable pivotal es simétrica.
Sin embargo, también pueden construirse intervalos no centrales, en los que la probabilidad de error no se reparte por igual entre ambas colas, o intervalos unilaterales, en los que toda la probabilidad \(\alpha\) se concentra en una sola cola.
En términos generales:
Suponga que
\[ X_1,\dots,X_n \sim N(\mu,\sigma^2), \]
con \(\sigma^2\) conocida.
En este caso,
\[ Z=\frac{\bar X-\mu}{\sigma/\sqrt{n}} \]
es una variable pivotal y satisface
\[ Z\sim N(0,1). \]
Como la distribución es simétrica, construiremos un intervalo central de nivel
\[ 1-\alpha, \]
de modo que
\[ P\left(-z_{\alpha/2}\le Z \le z_{\alpha/2}\right)=1-\alpha. \]
Dada una hipótesis estadística \(H_0\), un contraste de hipótesis es un procedimiento estadístico que utiliza la información de una muestra aleatoria para evaluar una hipótesis estadística.
Una hipótesis estadística es una afirmación acerca de la distribución de una variable aleatoria, o acerca de uno o más aspectos de dicha distribución.
En particular, una hipótesis puede referirse a:
En un problema de contraste se plantean dos hipótesis estadísticas incompatibles:
\[ H_0:\text{hipótesis nula} \qquad\text{y}\qquad H_1:\text{hipótesis alternativa}. \]
La hipótesis nula representa la afirmación que se somete a examen.
La hipótesis alternativa representa una afirmación opuesta a \(H_0\) y recoge las situaciones en las que \(H_0\) no se cumple.
La idea del contraste es partir de \(H_0\) como referencia y analizar si la información muestral observada resulta suficientemente incompatible con ella.
Por ello, el problema del contraste consiste en determinar, a partir de la muestra, si la evidencia disponible justifica o no rechazar \(H_0\) en favor de \(H_1\).
En la práctica, la hipótesis nula suele formularse como una afirmación precisa, porque sobre ella se construye el procedimiento del contraste.
Con frecuencia, \(H_0\) representa:
Por su parte, \(H_1\) describe las situaciones en las que esa afirmación no se cumple.
Según la forma de \(H_1\), el contraste puede ser bilateral o unilateral.
Según la forma de la hipótesis alternativa, se distinguen tres tipos básicos de contraste.
\[ H_0:\theta=\theta_0 \qquad\text{vs}\qquad H_1:\theta\neq\theta_0 \]
\[ H_0:\theta=\theta_0 \qquad\text{vs}\qquad H_1:\theta>\theta_0 \]
\[ H_0:\theta=\theta_0 \qquad\text{vs}\qquad H_1:\theta<\theta_0 \]
Una vez formuladas las hipótesis, la construcción de un contraste suele seguir los siguientes pasos:
fijar el nivel de significancia \[ \alpha; \]
elegir un estadístico de prueba;
determinar la distribución del estadístico bajo \(H_0\);
establecer la regla de decisión;
calcular el valor observado del estadístico;
decidir si se rechaza o no se rechaza \(H_0\).
Una vez formuladas las hipótesis, la construcción de un contraste suele seguir los siguientes pasos:
fijar el nivel de significancia \[ \alpha; \]
elegir un estadístico de prueba;
determinar la distribución del estadístico bajo \(H_0\);
establecer la regla de decisión;
calcular el valor observado del estadístico;
decidir si se rechaza o no se rechaza \(H_0\).
El nivel de significancia,
\[ \alpha, \]
es un valor fijado antes de observar la muestra y representa el riesgo máximo que se está dispuesto a aceptar al rechazar incorrectamente la hipótesis nula.
En particular, \(\alpha\) controla la probabilidad de cometer error de tipo I.
Valores usuales son
\[ 0.10,\qquad 0.05,\qquad 0.01. \]
El error de tipo I consiste en rechazar la hipótesis nula cuando en realidad es verdadera.
Su probabilidad se denota por
\[ \alpha=P(\text{rechazar }H_0\mid H_0\text{ verdadera}). \]
Por ello, el nivel de significancia fija una cota para la probabilidad de rechazar incorrectamente \(H_0\).
El error de tipo II consiste en no rechazar la hipótesis nula cuando en realidad es falsa.
Su probabilidad se denota por
\[ \beta=P(\text{no rechazar }H_0\mid H_0\text{ falsa}). \]
La cantidad
\[ 1-\beta \]
se denomina potencia del contraste.
La potencia mide la capacidad del procedimiento para detectar que la hipótesis nula no se cumple.
La estadística de prueba es una estadística, es decir, una función de la muestra aleatoria, que se utiliza para tomar la decisión en un contraste de hipótesis.
Se construye de modo que su distribución sea conocida cuando \(H_0\) es verdadera.
Una vez observada la muestra, la estadística de prueba toma un valor particular, llamado valor observado de la estadística de prueba.
La región crítica es el conjunto de valores del estadístico de prueba para los cuales se rechaza \(H_0\).
Su construcción depende de:
Una vez obtenida la región crítica, la decisión del contraste es:
Así, la regla de decisión traduce el resultado muestral en una conclusión estadística.
El valor-p es la probabilidad, calculada bajo \(H_0\), de obtener un valor del estadístico de prueba tan extremo como el observado o más extremo aún.
En términos generales,
\[ \text{valor-p} = P(\text{resultado tan extremo o más extremo que el observado}\mid H_0). \]
La regla de decisión equivalente es:
\[ \text{rechazar }H_0 \qquad\text{si}\qquad \text{valor-p}<\alpha. \]
El valor-p no es:
El valor-p solo mide cuán incompatibles son los datos observados con \(H_0\).
Suponga que
\[ X_1,\dots,X_n \sim N(\mu,\sigma^2), \]
con \(\sigma^2\) conocida, y se desea contrastar
\[ H_0:\mu=\mu_0 \qquad\text{vs}\qquad H_1:\mu\neq\mu_0. \]
En este caso, un estadístico de prueba natural es
\[ Z=\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}. \]
Bajo \(H_0\),
\[ Z\sim N(0,1). \]
Como la alternativa es bilateral, la región crítica de nivel \(\alpha\) es
\[ |Z|>z_{\alpha/2}. \]
Equivalentemente, se rechaza \(H_0\) si
\[ Z<-z_{\alpha/2} \qquad\text{o}\qquad Z>z_{\alpha/2}. \]
Si el valor observado del estadístico es
\[ z_{obs}, \]
entonces el valor-p bilateral es
\[ \text{valor-p}=2P(Z\ge |z_{obs}|), \qquad Z\sim N(0,1). \]
Por tanto:
si \[ \text{valor-p}<\alpha, \] se rechaza \(H_0\);
si \[ \text{valor-p}\ge\alpha, \] no se rechaza \(H_0\).
En este ejemplo, el contraste bilateral de nivel \(\alpha\)
\[ H_0:\mu=\mu_0 \qquad\text{vs}\qquad H_1:\mu\neq\mu_0 \]
está estrechamente relacionado con el intervalo de confianza de nivel
\[ 1-\alpha. \]
En particular:
si \[ \mu_0 \] pertenece al intervalo de confianza, no se rechaza \(H_0\);
si \[ \mu_0 \] no pertenece al intervalo de confianza, se rechaza \(H_0\).
Considere el modelo lineal normal
\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}, \]
con
\[ E(\boldsymbol{\varepsilon}\mid X)=\mathbf{0}, \qquad \operatorname{Var}(\boldsymbol{\varepsilon}\mid X)=\sigma^2 I_n, \qquad \boldsymbol{\varepsilon}\mid X\sim N_n(\mathbf{0},\sigma^2 I_n). \]
Bajo estos supuestos, la inferencia sobre los coeficientes de regresión requiere estudiar:
El estimador de mínimos cuadrados ordinarios es
\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top \mathbf{Y}. \]
Como \(\hat{\boldsymbol{\beta}}\) es una transformación lineal de \(\mathbf{Y}\) y
\[ \mathbf{Y}\mid X\sim N_n(X\boldsymbol{\beta},\sigma^2 I_n), \]
se tiene que
\[ \hat{\boldsymbol{\beta}}\mid X \sim N_p\!\left(\boldsymbol{\beta},\sigma^2(X^\top X)^{-1}\right). \]
En particular, para cada componente,
\[ \hat\beta_j\mid X \sim N\!\left(\beta_j,\sigma^2 c_{jj}\right), \]
donde
\[ c_{jj} \]
es el elemento diagonal \(j\)-ésimo de la matriz
\[ (X^\top X)^{-1}. \]
Si \(\sigma^2\) fuera conocida, entonces para cada coeficiente se tendría
\[ Z_j= \frac{\hat\beta_j-\beta_j}{\sigma\sqrt{c_{jj}}} \sim N(0,1). \]
Este resultado permitiría construir directamente intervalos de confianza y contrastes de hipótesis para \(\beta_j\).
Sin embargo, en la práctica, la varianza \(\sigma^2\) es desconocida y debe estimarse a partir de la muestra.
La suma de cuadrados residual se define por
\[ SCR=(\mathbf{Y}-X\hat{\boldsymbol{\beta}})^\top(\mathbf{Y}-X\hat{\boldsymbol{\beta}}). \]
Un estimador insesgado de \(\sigma^2\) es
\[ S^2=\frac{SCR}{n-p}. \]
Equivalentemente,
\[ S^2=\frac{1}{n-p}\sum_{i=1}^n (Y_i-\hat Y_i)^2. \]
Por tanto, el error estándar estimado de \(\hat\beta_j\) es
\[ EE(\hat\beta_j)=S\sqrt{c_{jj}}. \]
Bajo los supuestos del modelo lineal normal, se cumple que
\[ T_j= \frac{\hat\beta_j-\beta_j}{S\sqrt{c_{jj}}} \sim t_{n-p}, \qquad j=1,\dots,p. \]
Este resultado reemplaza la estandarización normal anterior, ya que ahora la varianza poblacional es desconocida y ha sido sustituida por su estimador muestral.
Como
\[ \frac{\hat\beta_j-\beta_j}{S\sqrt{c_{jj}}} \sim t_{n-p}, \]
se tiene que
\[ P\left( -t_{\alpha/2,n-p} \le \frac{\hat\beta_j-\beta_j}{S\sqrt{c_{jj}}} \le t_{\alpha/2,n-p} \right)=1-\alpha. \]
Despejando \(\beta_j\), se obtiene el intervalo de confianza de nivel
\[ 1-\alpha \]
dado por
\[ \left[ \hat\beta_j-t_{\alpha/2,n-p}S\sqrt{c_{jj}}, \; \hat\beta_j+t_{\alpha/2,n-p}S\sqrt{c_{jj}} \right]. \]
Para contrastar una hipótesis sobre \(\beta_j\), la estadística de prueba es
\[ T_j= \frac{\hat\beta_j-\beta_{j,0}}{S\sqrt{c_{jj}}}, \]
donde
\[ \beta_{j,0} \]
es el valor especificado en la hipótesis nula.
Bajo
\[ H_0:\beta_j=\beta_{j,0}, \]
se cumple que
\[ T_j\sim t_{n-p}. \]
Para contrastar
\[ H_0:\beta_j=\beta_{j,0} \qquad\text{vs}\qquad H_1:\beta_j\neq \beta_{j,0}, \]
se procede así:
calcular \[ T_j= \frac{\hat\beta_j-\beta_{j,0}}{S\sqrt{c_{jj}}}; \]
bajo \(H_0\), considerar que \[ T_j\sim t_{n-p}; \]
fijar el nivel de significancia \[ \alpha; \]
rechazar \(H_0\) si \[ |T_j|>t_{\alpha/2,n-p}. \]
Equivalentemente, puede utilizarse el valor-p asociado a la distribución
\[ t_{n-p}. \]
En el contraste bilateral
\[ H_0:\beta_j=\beta_{j,0} \qquad\text{vs}\qquad H_1:\beta_j\neq \beta_{j,0}, \]
al nivel \(\alpha\), se tiene la siguiente equivalencia:
si \[ \beta_{j,0} \] pertenece al intervalo de confianza de nivel \[ 1-\alpha, \] no se rechaza \(H_0\);
si \[ \beta_{j,0} \] no pertenece al intervalo, se rechaza \(H_0\).
Además de los contrastes individuales, interesa evaluar la significancia global del modelo.
Una formulación usual es
\[ H_0:\beta_2=\beta_3=\cdots=\beta_p=0 \]
frente a
\[ H_1:\text{al menos uno de los coeficientes es distinto de 0}. \]
Esta hipótesis examina si, en conjunto, las variables explicativas aportan información lineal relevante para explicar la respuesta.
Para la prueba global se utiliza la estadística
\[ F= \frac{SCM/(p-1)}{SCR/(n-p)}, \]
donde
Bajo la hipótesis nula,
\[ F\sim F_{p-1,n-p}. \]
Por tanto, se rechaza \(H_0\) para valores suficientemente grandes de \(F\).
Si se rechaza
\[ H_0:\beta_2=\cdots=\beta_p=0, \]
se concluye que el modelo tiene significancia global, es decir, que al menos una de las variables explicativas contribuye linealmente a explicar la respuesta.
Si no se rechaza \(H_0\), no se dispone de evidencia suficiente para afirmar que el conjunto de variables explicativas mejora el ajuste respecto del modelo con solo intercepto.
En el modelo lineal normal:
Así, la construcción de intervalos de confianza y contrastes de hipótesis en regresión lineal se apoya directamente en las distribuciones muestrales estudiadas previamente.
En el modelo lineal normal:
Así, la construcción de intervalos de confianza y contrastes de hipótesis en regresión lineal se apoya directamente en las distribuciones muestrales estudiadas previamente.
En el modelo lineal normal, la respuesta se supone normal y la media se expresa como combinación lineal de las variables explicativas.
Sin embargo, en muchos problemas reales la variable respuesta puede ser:
Esto motiva la necesidad de un marco más general, capaz de incorporar distintas distribuciones de la respuesta y diferentes relaciones entre la media y los regresores.
Ese será precisamente el punto de partida del siguiente capítulo.
Sea \(X_1,\dots,X_n\) una muestra aleatoria de una población normal con varianza conocida \(\sigma^2\).
Construya un intervalo de confianza de nivel \(1-\alpha\) para la media poblacional \(\mu\).
Plantee el contraste bilateral
\[ H_0:\mu=\mu_0 \qquad\text{vs}\qquad H_1:\mu\neq\mu_0 \]
e identifique la estadística de prueba y la región crítica.
Demuestre la relación entre el intervalo de confianza obtenido en (a) y el contraste planteado en (b).
Interprete, en términos inferenciales, qué significa rechazar y no rechazar \(H_0\).
Considere el modelo lineal normal
\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}, \]
con
\[ \boldsymbol{\varepsilon}\mid X \sim N_n(\mathbf{0},\sigma^2 I_n). \]
\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top\mathbf{Y} \]
tiene distribución normal multivariada.
\[ \frac{\hat\beta_j-\beta_j}{S\sqrt{c_{jj}}}, \]
donde \(S^2=SCR/(n-p)\) y \(c_{jj}\) es el elemento diagonal \(j\)-ésimo de \((X^\top X)^{-1}\).
Construya un intervalo de confianza de nivel \(1-\alpha\) para \(\beta_j\).
Plantee el contraste bilateral
\[ H_0:\beta_j=0 \qquad\text{vs}\qquad H_1:\beta_j\neq 0 \]
e indique la regla de decisión.
En un estudio sobre rendimiento académico, se propone el modelo de regresión lineal
\[ Y_i=\beta_1+\beta_2 x_{i2}+\beta_3 x_{i3}+\varepsilon_i, \qquad i=1,\dots,n, \]
donde \(Y_i\) representa el puntaje final del estudiante, \(x_{i2}\) el número de horas de estudio por semana y \(x_{i3}\) el porcentaje de asistencia a clase.
Suponga que se cumplen los supuestos del modelo lineal normal clásico.
Interprete los parámetros \(\beta_1\), \(\beta_2\) y \(\beta_3\) en el contexto del problema.
Explique cómo evaluaría la hipótesis
\[ H_0:\beta_2=0 \qquad\text{vs}\qquad H_1:\beta_2\neq 0. \]
Explique cómo interpretaría un intervalo de confianza para \(\beta_2\).
Formule la prueba global del modelo y explique qué concluye si la hipótesis nula global es rechazada.
Discuta por qué una conclusión estadísticamente significativa no implica necesariamente una conclusión sustantivamente importante.