Una relación funcional describe una relación exacta entre dos variables cuantitativas. Si \(X\) es la variable independiente y \(Y\) la variable dependiente, una relación funcional se expresa como:
\[ Y = f(X) \]
Dado un valor de \(X\), el valor de \(Y\) queda completamente determinado.
Supongamos que un producto se vende a un precio fijo de 2 dólares por unidad. Si \(X\) representa el número de unidades vendidas y \(Y\) las ventas en dólares, la relación funcional es:
\[ Y = 2X \]
| Período | Unidades vendidas (X) | Ventas en dólares (Y) |
|---|---|---|
| 1 | 75 | 150 |
| 2 | 25 | 50 |
| 3 | 130 | 260 |
# Crear los datos
datos <- data.frame(
X = c(75, 25, 130),
Y = c(150, 50, 260)
)
# Gráfico de dispersión
plot(datos$X, datos$Y,
main = "Relación funcional: Ventas vs Unidades vendidas",
xlab = "Unidades vendidas (X)",
ylab = "Ventas en dólares (Y)",
pch = 19)
# Recta funcional Y = 2X
abline(a = 0, b = 2)
Una relación estadística, a diferencia de una relación funcional, no es perfecta. En general, las observaciones de una relación estadística no caen directamente sobre la curva de la relación.
Se obtuvieron evaluaciones de desempeño para 10 empleados a mitad de año y al final del año. Las evaluaciones de fin de año se consideran la variable dependiente o de respuesta \(Y\), y las evaluaciones de mitad de año la variable independiente, explicativa o predictora \(X\).
La representación gráfica se realiza mediante un diagrama de dispersión. Por ejemplo, las evaluaciones de mitad de año y de fin de año del primer empleado se grafican en \(X = 90\), \(Y = 94\).
# Evaluaciones de desempeño
midyear <- c(90, 85, 80, 75, 70, 95, 88, 80, 78, 92)
yearend <- c(94, 87, 82, 74, 72, 96, 90, 85, 76, 93)
datos <- data.frame(
X = midyear,
Y = yearend
)
# Diagrama de dispersión
plot(datos$X, datos$Y,
main = "Relación estadística: Evaluaciones de desempeño",
xlab = "Evaluación mitad de año (X)",
ylab = "Evaluación fin de año (Y)",
pch = 19)
## 2. Conceptos básicos
Un modelo de regresión es un medio formal para expresar los dos componentes esenciales de una relación estadística:
Estas características se incorporan en un modelo de regresión suponiendo que:
En el ejemplo de evaluación de desempeño (Figura 1.2), la evaluación de fin de año \(Y\) se trata como una variable aleatoria. Para cada nivel de evaluación de mitad de año, se postula una distribución de probabilidad de \(Y\).
# Evaluaciones de desempeño
midyear <- c(90, 85, 80, 75, 70, 95, 88, 80, 78, 92)
yearend <- c(94, 87, 82, 74, 72, 96, 90, 85, 76, 93)
datos <- data.frame(
X = midyear,
Y = yearend
)
# Diagrama de dispersión
plot(datos$X, datos$Y,
main = "Distribución de Y según X",
xlab = "Evaluación mitad de año (X)",
ylab = "Evaluación fin de año (Y)",
pch = 19)
## Punto: Función y curva de regresión
La relación sistemática entre las medias de las distribuciones de
probabilidad de \(Y\) y los niveles de
\(X\) se denomina función de
regresión de \(Y\) sobre \(X\).
La representación gráfica de esta función recibe el nombre de
curva de regresión.
En el caso de la regresión lineal simple, esta curva es una recta.
# Ajuste del modelo de regresión lineal
modelo <- lm(Y ~ X, data = datos)
# Diagrama de dispersión con la recta de regresión
plot(datos$X, datos$Y,
main = "Curva (recta) de regresión",
xlab = "Evaluación mitad de año (X)",
ylab = "Evaluación fin de año (Y)",
pch = 19)
abline(modelo)
Al formular un modelo de regresión, generalmente es necesario restringir su cobertura a algún intervalo o región de valores de la(s) variable(s) predictora(s). Este alcance está determinado ya sea por el diseño de la investigación o por el rango de los datos disponibles.
Por ejemplo, una empresa que estudia el efecto del precio sobre el volumen de ventas investigó seis niveles de precio, que iban desde $4,95 hasta $6,95. En este caso, el alcance del modelo se limita a niveles de precio cercanos a $5 y $7. La forma de la función de regresión fuera de este rango sería altamente dudosa, ya que la investigación no proporcionó evidencia sobre la naturaleza de la relación estadística por debajo de $4,95 o por encima de $6,95.
La existencia de una relación estadística entre la variable de respuesta \(Y\) y la variable explicativa o predictora \(X\) no implica que \(Y\) dependa causalmente de \(X\). Independientemente de cuán fuerte sea la relación estadística entre \(X\) y \(Y\), el modelo de regresión no implica necesariamente una relación de causa y efecto.
Por ejemplo, datos sobre el tamaño del vocabulario (\(X\)) y la velocidad de escritura (\(Y\)) en una muestra de niños de entre 5 y 10 años mostrarán una relación de regresión positiva. Sin embargo, esta relación no implica que un aumento del vocabulario cause una mayor velocidad de escritura. En este caso, otras variables explicativas, como la edad del niño y el nivel de educación, influyen tanto en el vocabulario como en la velocidad de escritura. Los niños mayores tienden a tener un vocabulario más amplio y una mayor velocidad de escritura.
Incluso cuando una relación estadística fuerte refleja condiciones causales, dichas condiciones pueden actuar en la dirección opuesta, de \(Y\) hacia \(X\). Consideremos, por ejemplo, la calibración de un termómetro. Se toman lecturas del termómetro a diferentes temperaturas conocidas y se estudia la relación de regresión para evaluar la precisión de las predicciones realizadas a partir de las lecturas del termómetro. Para este propósito, la lectura del termómetro es la variable predictora \(X\) y la temperatura real es la variable de respuesta \(Y\).
Sin embargo, el patrón causal no va de \(X\) a \(Y\), sino en la dirección opuesta: la temperatura real (\(Y\)) afecta la lectura del termómetro (\(X\)).
Estos ejemplos demuestran la necesidad de ser cuidadosos al extraer conclusiones causales a partir del análisis de regresión. El análisis de regresión por sí solo no proporciona información sobre patrones causales y debe complementarse con análisis adicionales para obtener conclusiones sobre causalidad.
En la Parte I consideramos un modelo de regresión básico en el que solo hay una variable predictora y la función de regresión es lineal. El modelo se puede expresar de la siguiente manera:
\[ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i \tag{1.1} \]
donde:
El modelo de regresión (1.1) se denomina “simple”, “lineal en los parámetros” y “lineal en la variable predictora”. Es “simple” porque solo hay una variable predictora, “lineal en los parámetros” porque ningún parámetro aparece como un exponente o se multiplica o divide por otro parámetro, y “lineal en la variable predictora” porque esta variable aparece solo en el primer grado. Un modelo que es lineal en los parámetros y en la variable predictora también se llama modelo de primer orden.
La respuesta \(Y_i\) en el \(i\)-ésimo ensayo es la suma de dos componentes: (1) el término constante \(\beta_0 + \beta_1 X_i\) y (2) el término aleatorio \(\epsilon_i\). Por lo tanto, \(Y_i\) es una variable aleatoria.
Dado que \(E(\epsilon_i)=0\), se sigue de (A.13c) en el Apéndice A que:
\[ E(Y_i)=E(\beta_0 + \beta_1 X_i + \epsilon_i) = \beta_0 + \beta_1 X_i + E(\epsilon_i) = \beta_0 + \beta_1 X_i \]
El valor de \(\beta_0 + \beta_1 X_i\) juega el papel de la constante \(a\) en (A.13c).
La respuesta \(Y_i\) en el \(i\)-ésimo ensayo excede o está por debajo del valor de la función de regresión por la cantidad del término de error \(\epsilon_i\).
Se supone que los términos de error \(\epsilon_i\) tienen una varianza constante \(\sigma^2\). Por lo tanto, se sigue que las respuestas \(Y_i\) tienen la misma varianza constante:
\[ \text{Var}(Y_i)=\sigma^2 \]
Dado que, usando (A.16a), tenemos:
\[ \text{Var}(\beta_0 + \beta_1 X_i + \epsilon_i) = \text{Var}(\epsilon_i) = \sigma^2 \]
Así, el modelo de regresión (1.1) supone que las distribuciones de probabilidad de \(Y\) tienen la misma varianza \(\sigma^2\), independientemente del nivel de la variable predictora \(X\).
Se supone que los términos de error no están correlacionados. Dado que los términos de error \(\epsilon_i\) y \(\epsilon_j\) no están correlacionados, lo mismo ocurre con las respuestas \(Y_i\) y \(Y_j\).
En resumen, el modelo de regresión (1.1) implica que las respuestas \(Y_i\) provienen de distribuciones de probabilidad cuyos valores medios son
\[ E(Y_i)=\beta_0 + \beta_1 X_i \]
y cuya varianza es \(\sigma^2\), la misma para todos los niveles de \(X\). Además, cualquier par de respuestas \(Y_i\) y \(Y_j\) son no correlacionadas.
Un consultor de una distribuidora eléctrica está estudiando la relación entre el número de ofertas solicitadas por contratistas de construcción para equipos básicos de iluminación durante una semana y el tiempo requerido para preparar dichas ofertas. Supongamos que el modelo de regresión (1.1) es aplicable y se expresa de la siguiente manera:
\[ Y_i = 9.5 + 2.1X_i + \epsilon_i \]
donde \(X\) es el número de ofertas preparadas en una semana y \(Y\) es el número de horas necesarias para preparar las ofertas. La Figura 1.6 contiene una presentación de la función de regresión:
\[ E(Y)=9.5 + 2.1X \]
Supongamos que en la \(i\)-ésima semana, \(X_i=45\) ofertas fueron preparadas y el número real de horas requeridas fue \(Y_i=108\). En este caso, el valor del término de error es \(\epsilon_i=4\), ya que tenemos:
\[ E(Y_i)=9.5 + 2.1(45)=104 \]
y
\[ Y_i=108=104+4 \]
La Figura 1.6 muestra la distribución de probabilidad de \(Y\) cuando \(X=45\) y de dónde provino la observación \(Y_i=108\) en esta distribución. Nuevamente, el término de error \(\epsilon_i\) es simplemente la desviación de \(Y_i\) respecto a su valor medio \(E(Y_i)\).
Los parámetros \(\beta_0\) y \(\beta_1\) en el modelo de regresión (1.1) son llamados coeficientes de regresión. \(\beta_1\) es la pendiente de la línea de regresión. Indica el cambio en la media de la distribución de probabilidad de \(Y\) por cada unidad de aumento en \(X\).
El parámetro \(\beta_0\) es el intercepto de la línea de regresión. Cuando el alcance del modelo incluye \(X=0\), \(\beta_0\) da el valor medio de la distribución de probabilidad de \(Y\) cuando \(X=0\). Cuando el alcance del modelo no cubre \(X=0\), \(\beta_0\) no tiene ningún significado particular como término separado en el modelo de regresión.
A veces es conveniente escribir el modelo de regresión lineal simple (1.1) en formas ligeramente diferentes, aunque equivalentes. Sea \(X_0\) una constante idénticamente igual a 1. Entonces, podemos escribir (1.1) de la siguiente manera:
\[ Y_i = \beta_0 X_0 + \beta_1 X_i + \epsilon_i \quad \text{donde } X_0=1 \tag{1.5} \]
Esta versión del modelo asocia una variable \(X\) con cada coeficiente de regresión.
Una modificación alternativa es usar para la variable predictora la desviación \(X_i - \bar{X}\) en lugar de \(X_i\). Para dejar el modelo (1.1) sin cambios, necesitamos escribir:
\[ Y_i = \beta_0 + \beta_1 (X_i - \bar{X}) + \beta_1 \bar{X} + \epsilon_i \]
Es decir, esta versión alternativa del modelo es:
\[ Y_i = \beta_0' + \beta_1 (X_i - \bar{X}) + \epsilon_i \]
donde:
\[ \beta_0' = \beta_0 + \beta_1 \bar{X} \]
Usamos los modelos (1.1), (1.5) y (1.6) de manera intercambiable según lo dicte la conveniencia.
Normalmente, no conocemos los valores de los parámetros de regresión \(\beta_0\) y \(\beta_1\) en el modelo de regresión (1.1), y necesitamos estimarlos a partir de datos relevantes. De hecho, como mencionamos anteriormente, frecuentemente no tenemos un conocimiento suficiente a priori sobre las variables predictoras adecuadas y la forma funcional de la relación de regresión (por ejemplo, lineal o curvilínea), por lo que necesitamos confiar en un análisis de los datos para desarrollar un modelo de regresión adecuado.
Los datos observacionales son aquellos obtenidos de estudios no experimentales. En estos estudios no se controlan las variables explicativas o predictoras de interés. Por ejemplo, los funcionarios de una empresa quisieron estudiar la relación entre la edad de los empleados (\(X\)) y el número de días de enfermedad el año pasado.
Los datos observacionales o experimentales que se utilizan para estimar los parámetros de la función de regresión consisten en observaciones de la variable explicativa o predictora \(X\) y las observaciones correspondientes de la variable de respuesta \(Y\). Para cada ensayo, existe una observación de \(X\) y una observación de \(Y\). Denotamos las observaciones \((X,Y)\) del primer ensayo como \((X_1,Y_1)\), las del segundo ensayo como \((X_2,Y_2)\), y en general, las del \(i\)-ésimo ensayo como \((X_i,Y_i)\), donde \(i=1,\ldots,n\).
En un estudio a pequeña escala sobre la persistencia, un experimentador asignó a tres sujetos una tarea muy difícil. Los datos sobre la edad del sujeto (\(X\)) y el número de intentos antes de rendirse (\(Y\)) son:
| Sujeto \(i\) | Edad \(X_i\) | Intentos \(Y_i\) |
|---|---|---|
| 1 | 20 | 5 |
| 2 | 55 | 12 |
| 3 | 30 | 10 |
Hubo \(n=3\) sujetos. Las observaciones del primer sujeto fueron \((X_1,Y_1)=(20,5)\), y de forma análoga para los demás.
Sea el modelo de regresión lineal simple
\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1,\ldots,n \]
Para cada observación \((X_i,Y_i)\), la desviación de \(Y_i\) respecto de su valor esperado es
\[ Y_i - (\beta_0 + \beta_1 X_i) \tag{1.7} \]
El método de mínimos cuadrados define el criterio
\[ Q(\beta_0,\beta_1) = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 \tag{1.8} \]
Los estimadores de mínimos cuadrados \(b_0\) y \(b_1\) son aquellos valores que minimizan la función \(Q(\beta_0,\beta_1)\).
El problema consiste en encontrar \((\beta_0,\beta_1)\in\mathbb{R}^2\) tales que
\[ Q(\beta_0,\beta_1) = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 \]
sea mínimo.
Dado que \(Q\) es una función cuadrática en \(\beta_0\) y \(\beta_1\), es continua, diferenciable y estrictamente convexa, por lo que cualquier punto crítico corresponde a un mínimo global.
Calculamos las derivadas parciales de \(Q\) respecto de \(\beta_0\) y \(\beta_1\):
\[ \frac{\partial Q}{\partial \beta_0} = -2 \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i) \]
\[ \frac{\partial Q}{\partial \beta_1} = -2 \sum_{i=1}^{n} X_i (Y_i - \beta_0 - \beta_1 X_i) \]
Para minimizar \(Q\), igualamos las derivadas parciales a cero:
\[ \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i) = 0 \]
\[ \sum_{i=1}^{n} X_i (Y_i - \beta_0 - \beta_1 X_i) = 0 \]
Desarrollando:
\[ \sum Y_i - n\beta_0 - \beta_1 \sum X_i = 0 \tag{1.9a} \]
\[ \sum X_i Y_i - \beta_0 \sum X_i - \beta_1 \sum X_i^2 = 0 \tag{1.9b} \]
Las ecuaciones (1.9a) y (1.9b) se denominan ecuaciones normales.
Dividiendo (1.9a) por \(n\):
\[ \bar{Y} = \beta_0 + \beta_1 \bar{X} \]
Despejando \(\beta_0\):
\[ \beta_0 = \bar{Y} - \beta_1 \bar{X} \]
Sustituyendo en (1.9b):
\[ \sum X_i Y_i = (\bar{Y} - \beta_1 \bar{X}) \sum X_i + \beta_1 \sum X_i^2 \]
Reordenando términos:
\[ \sum (X_i - \bar{X})(Y_i - \bar{Y}) = \beta_1 \sum (X_i - \bar{X})^2 \]
Por lo tanto, el estimador de mínimos cuadrados de la pendiente es
\[ b_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})} {\sum_{i=1}^{n} (X_i - \bar{X})^2} \tag{1.10a} \]
y el estimador del intercepto es
\[ b_0 = \bar{Y} - b_1 \bar{X} \tag{1.10b} \]
La matriz Hessiana de \(Q(\beta_0,\beta_1)\) es
\[ H = \begin{pmatrix} 2n & 2\sum X_i \\ 2\sum X_i & 2\sum X_i^2 \end{pmatrix} \]
Esta matriz es definida positiva siempre que \(\sum (X_i-\bar{X})^2 > 0\), lo que se cumple cuando no todos los \(X_i\) son iguales. Por lo tanto, el punto crítico corresponde a un mínimo global.
Los estimadores \(b_0\) y \(b_1\) obtenidos mediante el método de mínimos cuadrados minimizan la suma de los errores al cuadrado y definen la recta de regresión de mínimos cuadrados, que es el mejor ajuste lineal a los datos en el sentido de mínimos cuadrados.
Consideramos el modelo de regresión lineal simple
\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i = 1,\ldots,n \]
donde se asume que:
Teorema.
Bajo las condiciones del modelo de regresión lineal (1.1), los
estimadores de mínimos cuadrados \(b_0\) y \(b_1\) son insesgados y tienen varianza
mínima entre todos los estimadores lineales insesgados de \(\beta_0\) y \(\beta_1\).
Recordemos que los estimadores de mínimos cuadrados están dados por:
\[ b_1 = \frac{\sum (X_i-\bar X)Y_i}{\sum (X_i-\bar X)^2} \]
\[ b_0 = \bar Y - b_1 \bar X \]
Sustituyendo \(Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i\):
\[ b_1 = \frac{\sum (X_i-\bar X)(\beta_0 + \beta_1 X_i + \varepsilon_i)} {\sum (X_i-\bar X)^2} \]
Separando términos:
\[ b_1 = \frac{\beta_0 \sum (X_i-\bar X)}{\sum (X_i-\bar X)^2} + \frac{\beta_1 \sum (X_i-\bar X)X_i}{\sum (X_i-\bar X)^2} + \frac{\sum (X_i-\bar X)\varepsilon_i}{\sum (X_i-\bar X)^2} \]
Notamos que:
\[ \sum (X_i-\bar X) = 0 \]
y
\[ \sum (X_i-\bar X)X_i = \sum (X_i-\bar X)^2 \]
Por lo tanto,
\[ b_1 = \beta_1 + \frac{\sum (X_i-\bar X)\varepsilon_i}{\sum (X_i-\bar X)^2} \]
Tomando esperanza:
\[ E(b_1) = \beta_1 + \frac{\sum (X_i-\bar X)E(\varepsilon_i)}{\sum (X_i-\bar X)^2} = \beta_1 \]
Dado que \(b_0 = \bar Y - b_1 \bar X\), se tiene:
\[ E(b_0) = E(\bar Y) - \bar X E(b_1) \]
Además,
\[ E(\bar Y) = \beta_0 + \beta_1 \bar X \]
por lo tanto,
\[ E(b_0) = \beta_0 \]
Los estimadores \(b_0\) y \(b_1\) son insesgados:
\[ E(b_0) = \beta_0, \quad E(b_1) = \beta_1 \]
A partir de la expresión:
\[ b_1 = \beta_1 + \frac{\sum (X_i-\bar X)\varepsilon_i}{\sum (X_i-\bar X)^2} \]
se obtiene:
\[ \operatorname{Var}(b_1) = \frac{\sum (X_i-\bar X)^2 \sigma^2}{\left[\sum (X_i-\bar X)^2\right]^2} = \frac{\sigma^2}{\sum (X_i-\bar X)^2} \]
\[ \operatorname{Var}(b_0) = \sigma^2 \left[ \frac{1}{n} + \frac{\bar X^2}{\sum (X_i-\bar X)^2} \right] \]
Sea un estimador lineal cualquiera de \(\beta_1\):
\[ \tilde \beta_1 = \sum_{i=1}^n a_i Y_i \]
donde \(a_1,\ldots,a_n\) son constantes.
\[ E(\tilde \beta_1) = \beta_1 \quad \Rightarrow \quad \sum a_i = 0, \quad \sum a_i X_i = 1 \]
\[ \operatorname{Var}(\tilde \beta_1) = \sigma^2 \sum a_i^2 \]
Minimizar \(\sum a_i^2\) sujeto a:
\[ \sum a_i = 0, \quad \sum a_i X_i = 1 \]
Usando multiplicadores de Lagrange, se obtiene:
\[ a_i = \frac{X_i-\bar X}{\sum (X_j-\bar X)^2} \]
Sustituyendo:
\[ \operatorname{Var}(\tilde \beta_1) \ge \frac{\sigma^2}{\sum (X_i-\bar X)^2} = \operatorname{Var}(b_1) \]
Un argumento idéntico muestra que ningún otro estimador lineal insesgado de \(\beta_0\) tiene varianza menor que \(b_0\).
Los estimadores de mínimos cuadrados \(b_0\) y \(b_1\):
Por lo tanto, son los BLUE (Best Linear Unbiased Estimators).
Consideramos el modelo de regresión lineal simple:
\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1,\dots,n \]
y la recta de regresión estimada por mínimos cuadrados:
\[ \hat Y_i = b_0 + b_1 X_i \]
Definimos el residuo como:
\[ e_i = Y_i - \hat Y_i = Y_i - b_0 - b_1 X_i \]
Los estimadores \(b_0\) y \(b_1\) satisfacen las ecuaciones normales:
\[ \sum_{i=1}^n Y_i = n b_0 + b_1 \sum_{i=1}^n X_i \tag{N1} \]
\[ \sum_{i=1}^n X_i Y_i = b_0 \sum_{i=1}^n X_i + b_1 \sum_{i=1}^n X_i^2 \tag{N2} \]
\[ \sum_{i=1}^n e_i = 0 \]
Partimos de la definición de residuo:
\[ \sum_{i=1}^n e_i = \sum_{i=1}^n (Y_i - b_0 - b_1 X_i) \]
Separando términos:
\[ \sum_{i=1}^n e_i = \sum_{i=1}^n Y_i - n b_0 - b_1 \sum_{i=1}^n X_i \]
Usando la ecuación normal (N1):
\[ \sum_{i=1}^n Y_i = n b_0 + b_1 \sum_{i=1}^n X_i \]
Sustituyendo:
\[ \sum_{i=1}^n e_i = 0 \]
\(\blacksquare\)
\[ \sum_{i=1}^n X_i e_i = 0 \]
Multiplicamos cada residuo por \(X_i\) y sumamos:
\[ \sum_{i=1}^n X_i e_i = \sum_{i=1}^n X_i(Y_i - b_0 - b_1 X_i) \]
Expandiendo:
\[ \sum_{i=1}^n X_i e_i = \sum_{i=1}^n X_i Y_i - b_0 \sum_{i=1}^n X_i - b_1 \sum_{i=1}^n X_i^2 \]
Aplicando la ecuación normal (N2):
\[ \sum_{i=1}^n X_i Y_i = b_0 \sum_{i=1}^n X_i + b_1 \sum_{i=1}^n X_i^2 \]
Por lo tanto:
\[ \sum_{i=1}^n X_i e_i = 0 \]
\(\blacksquare\)
\[ \sum_{i=1}^n \hat Y_i e_i = 0 \]
Recordemos que:
\[ \hat Y_i = b_0 + b_1 X_i \]
Entonces:
\[ \sum_{i=1}^n \hat Y_i e_i = \sum_{i=1}^n (b_0 + b_1 X_i)e_i \]
Distribuyendo:
\[ \sum_{i=1}^n \hat Y_i e_i = b_0 \sum_{i=1}^n e_i + b_1 \sum_{i=1}^n X_i e_i \]
Por las Propiedades 1 y 2:
\[ \sum_{i=1}^n e_i = 0, \quad \sum_{i=1}^n X_i e_i = 0 \]
Luego:
\[ \sum_{i=1}^n \hat Y_i e_i = 0 \]
\(\blacksquare\)
\[ \sum_{i=1}^n Y_i = \sum_{i=1}^n \hat Y_i \]
Por definición:
\[ \sum_{i=1}^n \hat Y_i = \sum_{i=1}^n (b_0 + b_1 X_i) = n b_0 + b_1 \sum_{i=1}^n X_i \]
Por la ecuación normal (N1):
\[ n b_0 + b_1 \sum_{i=1}^n X_i = \sum_{i=1}^n Y_i \]
Luego:
\[ \sum_{i=1}^n \hat Y_i = \sum_{i=1}^n Y_i \]
\(\blacksquare\)
\[ \bar{\hat Y} = \bar Y \]
Dividiendo ambos lados de la Propiedad 4 por \(n\):
\[ \frac{1}{n}\sum_{i=1}^n \hat Y_i = \frac{1}{n}\sum_{i=1}^n Y_i \]
Por definición de promedio:
\[ \bar{\hat Y} = \bar Y \]
\(\blacksquare\)
\[ \hat Y(\bar X) = \bar Y \]
Evaluamos la recta estimada en \(X=\bar X\):
\[ \hat Y(\bar X) = b_0 + b_1 \bar X \]
Usando la expresión de \(b_0\):
\[ b_0 = \bar Y - b_1 \bar X \]
Sustituyendo:
\[ \hat Y(\bar X) = (\bar Y - b_1 \bar X) + b_1 \bar X = \bar Y \]
Por lo tanto, la recta pasa por el punto \((\bar X, \bar Y)\).
\(\blacksquare\)
\[ \sum_{i=1}^n e_i^2 = \min \]
Por definición, los estimadores \(b_0\) y \(b_1\) son la solución del problema de optimización:
\[ \min_{\beta_0,\beta_1} \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 X_i)^2 \]
Las condiciones de primer orden conducen a las ecuaciones normales, cuya solución única es \((b_0,b_1)\).
Además, el Hessiano de \(Q(\beta_0,\beta_1)\) es positivo definido, lo que garantiza que el punto crítico corresponde a un mínimo global.
\(\blacksquare\)
En el modelo de regresión lineal simple:
\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1, 2, \dots, n \]
El residual es la diferencia entre el valor observado de la variable dependiente \(Y_i\) y el valor ajustado (predicho) de la variable dependiente \(\hat{Y}_i\). Formalmente, el residual para el \(i\)-ésimo punto de datos se define como:
\[ e_i = Y_i - \hat{Y}_i = Y_i - (b_0 + b_1 X_i) \]
Donde:
El residual representa la diferencia entre el valor real observado y el valor ajustado por la recta de regresión. Este residual captura el error en el modelo para un punto de datos específico.
La respuesta media en un modelo de regresión lineal se refiere al valor promedio que se espera de la variable dependiente \(Y\) dado un valor específico de la variable independiente \(X\). Matemáticamente, esta respuesta se expresa como:
\[ E[Y|X] = \beta_0 + \beta_1 X \]
Donde \(E[Y|X]\) es la media condicional de \(Y\) dado \(X\).
Supongamos que tenemos los estimadores muestrales \(b_0\) y \(b_1\) de los parámetros \(\beta_0\) y \(\beta_1\) de la ecuación de regresión \(E[Y] = \beta_0 + \beta_1 X\). Usamos estos estimadores para obtener la función de regresión estimada:
\[ \hat{Y} = b_0 + b_1 X \]
La función estimada \(\hat{Y}\) es la estimación puntual de la respuesta media \(E[Y|X]\) para un valor específico de \(X\). Es decir, dado un valor de \(X\), \(\hat{Y}\) nos da el valor esperado de \(Y\) bajo el modelo estimado.
Por ejemplo, si los estimadores \(b_0 = 62.37\) y \(b_1 = 3.5702\) se encuentran de un conjunto de datos, la función estimada es:
\[ \hat{Y} = 62.37 + 3.5702 X \]
Supongamos que queremos estimar la respuesta media para un valor \(X = 65\). Entonces, la estimación puntual sería:
\[ \hat{Y}(X=65) = 62.37 + 3.5702(65) = 62.37 + 232.07 = 294.44 \]
Este resultado significa que, para una producción de 65 unidades, el tiempo de trabajo estimado es de 294.44 horas.
Según el teorema de Gauss-Markov (ya demostrado en secciones anteriores), sabemos que el estimador de mínimos cuadrados \(\hat{Y}\) es:
Esto implica que \(\hat{Y}\) es el mejor estimador lineal insesgado (BLUE, por sus siglas en inglés), lo que significa que minimiza la varianza entre todos los estimadores lineales insesgados de la respuesta media.
El teorema de Gauss–Markov establece que:
Bajo las condiciones del modelo de regresión, los estimadores de mínimos cuadrados \(\hat{b_0}\) y \(\hat{b_1}\) son insesgados y tienen varianza mínima entre todos los estimadores lineales insesgados.
Insesgamiento de los estimadores:
Sabemos que los estimadores \(\hat{b_0}\) y \(\hat{b_1}\) son insesgados, lo que significa que:
\[ E[\hat{b_0}] = \beta_0 \quad \text{y} \quad E[\hat{b_1}] = \beta_1 \]
Esto quiere decir que, en promedio, los estimadores no sobrestiman ni subestiman los valores verdaderos de los parámetros \(\beta_0\) y \(\beta_1\).
Varianza mínima:
El teorema de Gauss–Markov también establece que \(\hat{b_0}\) y \(\hat{b_1}\) tienen la menor varianza entre todos los estimadores lineales insesgados. Matemáticamente:
\[ \text{Var}(\hat{b_0}) \leq \text{Var}(\tilde{b_0}) \quad \text{y} \quad \text{Var}(\hat{b_1}) \leq \text{Var}(\tilde{b_1}) \]
Donde \(\tilde{b_0}\) y \(\tilde{b_1}\) son otros estimadores lineales insesgados de \(\beta_0\) y \(\beta_1\).
Para calcular los residuos en R, podemos usar la fórmula:
```r # Definir datos de ejemplo X <- c(80, 30, 50, 40, 80, 70) # Tamaño del lote Y <- c(399, 121, 221, 244, 342, 323) # Horas de trabajo
model <- lm(Y ~ X)
Consideremos el modelo de regresión lineal simple:
\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1,\dots,n \]
donde la respuesta media de la variable respuesta \(Y\) para un nivel dado del predictor \(X\) está dada por:
\[ E\{Y \mid X\} = \beta_0 + \beta_1 X \]
Como los parámetros \(\beta_0\) y
\(\beta_1\) son desconocidos, se
estiman mediante mínimos cuadrados, obteniendo los estimadores \(b_0\) y \(b_1\).
La función de regresión estimada queda entonces
definida como:
\[ \hat{Y} = V = b_0 + b_1 X \tag{1.12} \]
donde \(V\) (leído Y sombrero) es un estimador puntual de la respuesta media \(E\{Y \mid X\}\) para un valor dado de \(X\).
Por extensión del teorema de Gauss–Markov, se tiene que \(V\) es un estimador lineal insesgado de varianza mínima de la respuesta media.
En el estudio de la empresa Toluca, se obtuvieron los siguientes estimadores de mínimos cuadrados para los coeficientes de regresión:
\[ b_0 = 62.37, \qquad b_1 = 3.5702 \]
Por lo tanto, la función de regresión estimada es:
\[ \hat{Y} = 62.37 + 3.5702X \]
Esta función describe la relación estadística entre el tamaño del lote (\(X\)) y las horas de trabajo requeridas (\(Y\)).
Para estimar la respuesta media cuando el tamaño del lote es \(X = 65\), se sustituye este valor en la función estimada:
\[ \hat{Y}(65) = 62.37 + 3.5702(65) = 294.4 \]
Esto indica que, si se produjeran muchos lotes de 65 unidades bajo condiciones similares a las observadas, el promedio de horas de trabajo requeridas sería aproximadamente 294.4 horas.
Es importante destacar que el tiempo de trabajo de un lote individual puede ser mayor o menor que este valor debido a la variabilidad inherente del proceso productivo, representada por el término de error del modelo.
Para cada observación del conjunto de datos, se define el valor ajustado:
\[ V_i = b_0 + b_1 X_i, \quad i=1,\dots,n \tag{1.13} \]
El valor ajustado \(V_i\) representa la estimación de la respuesta media correspondiente al nivel \(X_i\) del predictor y debe distinguirse del valor observado \(Y_i\).
Por ejemplo, para el primer lote del estudio, con \(X_1 = 80\):
\[ V_1 = 62.37 + 3.5702(80) = 347.98 \]
El valor observado correspondiente es \(Y_1 = 399\).
El residual del modelo de regresión se define como la diferencia entre el valor observado y el valor ajustado:
\[ e_i = Y_i - V_i \tag{1.16} \]
Para el modelo de regresión lineal simple, esto equivale a:
\[ e_i = Y_i - (b_0 + b_1 X_i) \tag{1.16a} \]
En el ejemplo de Toluca, el residual del primer lote es:
\[ e_1 = 399 - 347.98 = 51.02 \]
El residual representa la desviación vertical del punto observado respecto de la recta de regresión estimada.
Es fundamental distinguir entre:
Error del modelo: \[ \varepsilon_i = Y_i - E\{Y_i\} \] que corresponde a la desviación respecto de la recta verdadera (desconocida).
Residual: \[ e_i = Y_i - \hat{Y}_i \] que corresponde a la desviación respecto de la recta estimada (conocida).
Los errores \(\varepsilon_i\) no son observables, mientras que los residuos \(e_i\) sí lo son y constituyen una herramienta clave para evaluar la adecuación del modelo.
Una forma alternativa del modelo de regresión es:
\[ Y_i = \beta_0^\* + \beta_1 (X_i - \bar{X}) + \varepsilon_i \tag{1.6} \]
donde:
\[ \beta_0^\* = \beta_0 + \beta_1 \bar{X} \]
En este caso, el estimador de mínimos cuadrados de \(\beta_0^\*\) es:
\[ b_0^\* = b_0 + b_1 \bar{X} = \bar{Y} \]
Por lo tanto, la función de regresión estimada se expresa como:
\[ \hat{Y} = \bar{Y} + b_1 (X - \bar{X}) \tag{1.15} \]
Para el estudio de Toluca se tiene:
\[ \bar{Y} = 312.28, \qquad \bar{X} = 70.0 \]
La función estimada en forma alternativa es:
\[ \hat{Y} = 312.28 + 3.5702 (X - 70.0) \]
Para \(X_1 = 80\):
\[ \hat{Y}_1 = 312.28 + 3.5702(80 - 70) = 347.98 \]
Este resultado coincide exactamente con el obtenido usando la forma original del modelo.
Los valores ajustados y los residuos permiten analizar la calidad del ajuste del modelo de regresión. En capítulos posteriores, el análisis gráfico y numérico de los residuos será fundamental para evaluar supuestos como linealidad, homocedasticidad e independencia.
En el modelo de regresión lineal simple
\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i = 1,\dots,n, \]
la varianza \(\sigma^2\) de los términos de error \(\varepsilon_i\) representa la variabilidad de las distribuciones de probabilidad de la variable respuesta \(Y\) alrededor de su media condicional \(E\{Y_i \mid X_i\}\).
La estimación de \(\sigma^2\) es fundamental no solo para describir dicha variabilidad, sino también porque muchas inferencias estadísticas —como intervalos de confianza, pruebas de hipótesis y predicción de nuevas observaciones— requieren un estimador de esta cantidad.
Para desarrollar un estimador de \(\sigma^2\) en el contexto del modelo de regresión, resulta instructivo comenzar con un problema más simple: el muestreo desde una sola población.
Sea \(Y_1,\dots,Y_n\) una muestra
aleatoria de una población con media \(\mu\) y varianza \(\sigma^2\).
La varianza poblacional \(\sigma^2\) se
estima mediante la varianza muestral:
\[ s^2 = \frac{\sum_{i=1}^n (Y_i - \bar{Y})^2}{n - 1}, \]
donde \(\bar{Y}\) es la media muestral.
La cantidad \[ \sum_{i=1}^n (Y_i - \bar{Y})^2 \] se denomina suma de cuadrados, y el divisor \(n-1\) corresponde a los grados de libertad, ya que un grado de libertad se pierde al estimar la media poblacional desconocida \(\mu\) mediante \(\bar{Y}\).
El estimador \(s^2\) es insesgado, es decir, \[ E(s^2) = \sigma^2. \]
En el modelo de regresión lineal, cada observación \(Y_i\) tiene varianza \(\sigma^2\), pero medias
distintas que dependen del nivel del predictor \(X_i\).
Por esta razón, las desviaciones no deben calcularse respecto de una
media común, sino respecto de su media estimada
individual:
\[ \hat{Y}_i = V_i = b_0 + b_1 X_i. \]
La desviación correspondiente es el residual:
\[ e_i = Y_i - V_i. \]
La suma de cuadrados apropiada en regresión es la suma de cuadrados de los residuos, denotada por SSE (error sum of squares o residual sum of squares):
\[ \text{SSE} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - V_i)^2. \tag{1.21} \]
Esta cantidad mide la variabilidad total de las observaciones alrededor de la recta de regresión estimada.
La suma de cuadrados SSE tiene asociados \(n-2\) grados de libertad, ya que se han estimado dos parámetros desconocidos del modelo: \(\beta_0\) y \(\beta_1\).
Por lo tanto, el estimador de \(\sigma^2\) es el cuadrado medio del error (MSE):
\[ s^2 = \text{MSE} = \frac{\text{SSE}}{n - 2} = \frac{\sum_{i=1}^n (Y_i - V_i)^2}{n - 2}. \tag{1.22} \]
Este estimador es insesgado para la varianza del error:
\[ E(\text{MSE}) = \sigma^2. \tag{1.23} \]
Un estimador de la desviación estándar \(\sigma\) es simplemente:
\[ s = \sqrt{\text{MSE}}. \]
En el ejemplo de la empresa Toluca se tienen \(n = 25\) observaciones.
A partir de los residuos calculados previamente, se obtiene la siguiente
suma de cuadrados:
\[ \text{SSE} = 54{,}825. \]
Dado que hay \(25 - 2 = 23\) grados de libertad, el cuadrado medio del error es:
\[ s^2 = \text{MSE} = \frac{54{,}825}{23} = 2{,}384. \]
Por consiguiente, el estimador de la desviación estándar del modelo es:
\[ s = \sqrt{2{,}384} = 48.8 \text{ horas}. \]
Consideremos nuevamente el caso en que el tamaño del lote es \(X = 65\) unidades.
La respuesta media estimada fue:
\[ \hat{Y}(65) = 294.4 \text{ horas}. \]
Ahora sabemos además que la desviación estándar estimada de la distribución de \(Y\) para este nivel de \(X\) es aproximadamente 48.8 horas.
Esto indica que la variabilidad de las horas de trabajo entre lotes de tamaño 65 es considerable en relación con su media, lo que refleja la variabilidad inherente del sistema productivo, capturada por el término de error del modelo de regresión.
residuos <- residuals(model) residuos