Relación funcional entre dos variables

Una relación funcional describe una relación exacta entre dos variables cuantitativas. Si \(X\) es la variable independiente y \(Y\) la variable dependiente, una relación funcional se expresa como:

\[ Y = f(X) \]

Dado un valor de \(X\), el valor de \(Y\) queda completamente determinado.

Ejemplo de relación funcional

Supongamos que un producto se vende a un precio fijo de 2 dólares por unidad. Si \(X\) representa el número de unidades vendidas y \(Y\) las ventas en dólares, la relación funcional es:

\[ Y = 2X \]

Datos observados

Período Unidades vendidas (X) Ventas en dólares (Y)
1 75 150
2 25 50
3 130 260

Representación gráfica

# Crear los datos
datos <- data.frame(
  X = c(75, 25, 130),
  Y = c(150, 50, 260)
)

# Gráfico de dispersión
plot(datos$X, datos$Y,
     main = "Relación funcional: Ventas vs Unidades vendidas",
     xlab = "Unidades vendidas (X)",
     ylab = "Ventas en dólares (Y)",
     pch = 19)

# Recta funcional Y = 2X
abline(a = 0, b = 2)

Relación estadística entre dos variables

Ejemplo 1

Una relación estadística, a diferencia de una relación funcional, no es perfecta. En general, las observaciones de una relación estadística no caen directamente sobre la curva de la relación.

Se obtuvieron evaluaciones de desempeño para 10 empleados a mitad de año y al final del año. Las evaluaciones de fin de año se consideran la variable dependiente o de respuesta \(Y\), y las evaluaciones de mitad de año la variable independiente, explicativa o predictora \(X\).

La representación gráfica se realiza mediante un diagrama de dispersión. Por ejemplo, las evaluaciones de mitad de año y de fin de año del primer empleado se grafican en \(X = 90\), \(Y = 94\).

# Evaluaciones de desempeño
midyear <- c(90, 85, 80, 75, 70, 95, 88, 80, 78, 92)
yearend <- c(94, 87, 82, 74, 72, 96, 90, 85, 76, 93)

datos <- data.frame(
  X = midyear,
  Y = yearend
)

# Diagrama de dispersión
plot(datos$X, datos$Y,
     main = "Relación estadística: Evaluaciones de desempeño",
     xlab = "Evaluación mitad de año (X)",
     ylab = "Evaluación fin de año (Y)",
     pch = 19)

## 2. Conceptos básicos

Un modelo de regresión es un medio formal para expresar los dos componentes esenciales de una relación estadística:

  1. Una tendencia de la variable de respuesta \(Y\) a variar con la variable predictora \(X\) de manera sistemática.
  2. Una dispersión de puntos alrededor de la curva de la relación estadística.

Estas características se incorporan en un modelo de regresión suponiendo que:

  • Existe una distribución de probabilidad de \(Y\) para cada nivel de \(X\).
  • Las medias de estas distribuciones varían de manera sistemática con \(X\).

3. Ejemplo: Evaluaciones de desempeño

En el ejemplo de evaluación de desempeño (Figura 1.2), la evaluación de fin de año \(Y\) se trata como una variable aleatoria. Para cada nivel de evaluación de mitad de año, se postula una distribución de probabilidad de \(Y\).

# Evaluaciones de desempeño
midyear <- c(90, 85, 80, 75, 70, 95, 88, 80, 78, 92)
yearend <- c(94, 87, 82, 74, 72, 96, 90, 85, 76, 93)

datos <- data.frame(
  X = midyear,
  Y = yearend
)

# Diagrama de dispersión
plot(datos$X, datos$Y,
     main = "Distribución de Y según X",
     xlab = "Evaluación mitad de año (X)",
     ylab = "Evaluación fin de año (Y)",
     pch = 19)

## Punto: Función y curva de regresión

La relación sistemática entre las medias de las distribuciones de probabilidad de \(Y\) y los niveles de \(X\) se denomina función de regresión de \(Y\) sobre \(X\).
La representación gráfica de esta función recibe el nombre de curva de regresión.

En el caso de la regresión lineal simple, esta curva es una recta.

# Ajuste del modelo de regresión lineal
modelo <- lm(Y ~ X, data = datos)

# Diagrama de dispersión con la recta de regresión
plot(datos$X, datos$Y,
     main = "Curva (recta) de regresión",
     xlab = "Evaluación mitad de año (X)",
     ylab = "Evaluación fin de año (Y)",
     pch = 19)

abline(modelo)

Alcance del modelo

Al formular un modelo de regresión, generalmente es necesario restringir su cobertura a algún intervalo o región de valores de la(s) variable(s) predictora(s). Este alcance está determinado ya sea por el diseño de la investigación o por el rango de los datos disponibles.

Por ejemplo, una empresa que estudia el efecto del precio sobre el volumen de ventas investigó seis niveles de precio, que iban desde $4,95 hasta $6,95. En este caso, el alcance del modelo se limita a niveles de precio cercanos a $5 y $7. La forma de la función de regresión fuera de este rango sería altamente dudosa, ya que la investigación no proporcionó evidencia sobre la naturaleza de la relación estadística por debajo de $4,95 o por encima de $6,95.


Regresión y causalidad

La existencia de una relación estadística entre la variable de respuesta \(Y\) y la variable explicativa o predictora \(X\) no implica que \(Y\) dependa causalmente de \(X\). Independientemente de cuán fuerte sea la relación estadística entre \(X\) y \(Y\), el modelo de regresión no implica necesariamente una relación de causa y efecto.

Ejemplo de causalidad falsa:

Por ejemplo, datos sobre el tamaño del vocabulario (\(X\)) y la velocidad de escritura (\(Y\)) en una muestra de niños de entre 5 y 10 años mostrarán una relación de regresión positiva. Sin embargo, esta relación no implica que un aumento del vocabulario cause una mayor velocidad de escritura. En este caso, otras variables explicativas, como la edad del niño y el nivel de educación, influyen tanto en el vocabulario como en la velocidad de escritura. Los niños mayores tienden a tener un vocabulario más amplio y una mayor velocidad de escritura.

Causalidad inversa:

Incluso cuando una relación estadística fuerte refleja condiciones causales, dichas condiciones pueden actuar en la dirección opuesta, de \(Y\) hacia \(X\). Consideremos, por ejemplo, la calibración de un termómetro. Se toman lecturas del termómetro a diferentes temperaturas conocidas y se estudia la relación de regresión para evaluar la precisión de las predicciones realizadas a partir de las lecturas del termómetro. Para este propósito, la lectura del termómetro es la variable predictora \(X\) y la temperatura real es la variable de respuesta \(Y\).

Sin embargo, el patrón causal no va de \(X\) a \(Y\), sino en la dirección opuesta: la temperatura real (\(Y\)) afecta la lectura del termómetro (\(X\)).

Estos ejemplos demuestran la necesidad de ser cuidadosos al extraer conclusiones causales a partir del análisis de regresión. El análisis de regresión por sí solo no proporciona información sobre patrones causales y debe complementarse con análisis adicionales para obtener conclusiones sobre causalidad.

Declaración Formal del Modelo

En la Parte I consideramos un modelo de regresión básico en el que solo hay una variable predictora y la función de regresión es lineal. El modelo se puede expresar de la siguiente manera:

\[ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i \tag{1.1} \]

donde:

El modelo de regresión (1.1) se denomina “simple”, “lineal en los parámetros” y “lineal en la variable predictora”. Es “simple” porque solo hay una variable predictora, “lineal en los parámetros” porque ningún parámetro aparece como un exponente o se multiplica o divide por otro parámetro, y “lineal en la variable predictora” porque esta variable aparece solo en el primer grado. Un modelo que es lineal en los parámetros y en la variable predictora también se llama modelo de primer orden.

Características Importantes del Modelo

La respuesta \(Y_i\) en el \(i\)-ésimo ensayo es la suma de dos componentes: (1) el término constante \(\beta_0 + \beta_1 X_i\) y (2) el término aleatorio \(\epsilon_i\). Por lo tanto, \(Y_i\) es una variable aleatoria.

Dado que \(E(\epsilon_i)=0\), se sigue de (A.13c) en el Apéndice A que:

\[ E(Y_i)=E(\beta_0 + \beta_1 X_i + \epsilon_i) = \beta_0 + \beta_1 X_i + E(\epsilon_i) = \beta_0 + \beta_1 X_i \]

El valor de \(\beta_0 + \beta_1 X_i\) juega el papel de la constante \(a\) en (A.13c).

La respuesta \(Y_i\) en el \(i\)-ésimo ensayo excede o está por debajo del valor de la función de regresión por la cantidad del término de error \(\epsilon_i\).

Se supone que los términos de error \(\epsilon_i\) tienen una varianza constante \(\sigma^2\). Por lo tanto, se sigue que las respuestas \(Y_i\) tienen la misma varianza constante:

\[ \text{Var}(Y_i)=\sigma^2 \]

Dado que, usando (A.16a), tenemos:

\[ \text{Var}(\beta_0 + \beta_1 X_i + \epsilon_i) = \text{Var}(\epsilon_i) = \sigma^2 \]

Así, el modelo de regresión (1.1) supone que las distribuciones de probabilidad de \(Y\) tienen la misma varianza \(\sigma^2\), independientemente del nivel de la variable predictora \(X\).

Se supone que los términos de error no están correlacionados. Dado que los términos de error \(\epsilon_i\) y \(\epsilon_j\) no están correlacionados, lo mismo ocurre con las respuestas \(Y_i\) y \(Y_j\).

En resumen, el modelo de regresión (1.1) implica que las respuestas \(Y_i\) provienen de distribuciones de probabilidad cuyos valores medios son

\[ E(Y_i)=\beta_0 + \beta_1 X_i \]

y cuya varianza es \(\sigma^2\), la misma para todos los niveles de \(X\). Además, cualquier par de respuestas \(Y_i\) y \(Y_j\) son no correlacionadas.

Ejemplo

Un consultor de una distribuidora eléctrica está estudiando la relación entre el número de ofertas solicitadas por contratistas de construcción para equipos básicos de iluminación durante una semana y el tiempo requerido para preparar dichas ofertas. Supongamos que el modelo de regresión (1.1) es aplicable y se expresa de la siguiente manera:

\[ Y_i = 9.5 + 2.1X_i + \epsilon_i \]

donde \(X\) es el número de ofertas preparadas en una semana y \(Y\) es el número de horas necesarias para preparar las ofertas. La Figura 1.6 contiene una presentación de la función de regresión:

\[ E(Y)=9.5 + 2.1X \]

Supongamos que en la \(i\)-ésima semana, \(X_i=45\) ofertas fueron preparadas y el número real de horas requeridas fue \(Y_i=108\). En este caso, el valor del término de error es \(\epsilon_i=4\), ya que tenemos:

\[ E(Y_i)=9.5 + 2.1(45)=104 \]

y

\[ Y_i=108=104+4 \]

La Figura 1.6 muestra la distribución de probabilidad de \(Y\) cuando \(X=45\) y de dónde provino la observación \(Y_i=108\) en esta distribución. Nuevamente, el término de error \(\epsilon_i\) es simplemente la desviación de \(Y_i\) respecto a su valor medio \(E(Y_i)\).

Significado de los Parámetros de la Regresión

Los parámetros \(\beta_0\) y \(\beta_1\) en el modelo de regresión (1.1) son llamados coeficientes de regresión. \(\beta_1\) es la pendiente de la línea de regresión. Indica el cambio en la media de la distribución de probabilidad de \(Y\) por cada unidad de aumento en \(X\).

El parámetro \(\beta_0\) es el intercepto de la línea de regresión. Cuando el alcance del modelo incluye \(X=0\), \(\beta_0\) da el valor medio de la distribución de probabilidad de \(Y\) cuando \(X=0\). Cuando el alcance del modelo no cubre \(X=0\), \(\beta_0\) no tiene ningún significado particular como término separado en el modelo de regresión.

Versiones Alternativas del Modelo de Regresión

A veces es conveniente escribir el modelo de regresión lineal simple (1.1) en formas ligeramente diferentes, aunque equivalentes. Sea \(X_0\) una constante idénticamente igual a 1. Entonces, podemos escribir (1.1) de la siguiente manera:

\[ Y_i = \beta_0 X_0 + \beta_1 X_i + \epsilon_i \quad \text{donde } X_0=1 \tag{1.5} \]

Esta versión del modelo asocia una variable \(X\) con cada coeficiente de regresión.

Una modificación alternativa es usar para la variable predictora la desviación \(X_i - \bar{X}\) en lugar de \(X_i\). Para dejar el modelo (1.1) sin cambios, necesitamos escribir:

\[ Y_i = \beta_0 + \beta_1 (X_i - \bar{X}) + \beta_1 \bar{X} + \epsilon_i \]

Es decir, esta versión alternativa del modelo es:

\[ Y_i = \beta_0' + \beta_1 (X_i - \bar{X}) + \epsilon_i \]

donde:

\[ \beta_0' = \beta_0 + \beta_1 \bar{X} \]

Usamos los modelos (1.1), (1.5) y (1.6) de manera intercambiable según lo dicte la conveniencia.

Datos para el Análisis de Regresión

Normalmente, no conocemos los valores de los parámetros de regresión \(\beta_0\) y \(\beta_1\) en el modelo de regresión (1.1), y necesitamos estimarlos a partir de datos relevantes. De hecho, como mencionamos anteriormente, frecuentemente no tenemos un conocimiento suficiente a priori sobre las variables predictoras adecuadas y la forma funcional de la relación de regresión (por ejemplo, lineal o curvilínea), por lo que necesitamos confiar en un análisis de los datos para desarrollar un modelo de regresión adecuado.

Datos Observacionales

Los datos observacionales son aquellos obtenidos de estudios no experimentales. En estos estudios no se controlan las variables explicativas o predictoras de interés. Por ejemplo, los funcionarios de una empresa quisieron estudiar la relación entre la edad de los empleados (\(X\)) y el número de días de enfermedad el año pasado.

1.6 Estimación de la función de regresión

Ejemplo

Los datos observacionales o experimentales que se utilizan para estimar los parámetros de la función de regresión consisten en observaciones de la variable explicativa o predictora \(X\) y las observaciones correspondientes de la variable de respuesta \(Y\). Para cada ensayo, existe una observación de \(X\) y una observación de \(Y\). Denotamos las observaciones \((X,Y)\) del primer ensayo como \((X_1,Y_1)\), las del segundo ensayo como \((X_2,Y_2)\), y en general, las del \(i\)-ésimo ensayo como \((X_i,Y_i)\), donde \(i=1,\ldots,n\).

En un estudio a pequeña escala sobre la persistencia, un experimentador asignó a tres sujetos una tarea muy difícil. Los datos sobre la edad del sujeto (\(X\)) y el número de intentos antes de rendirse (\(Y\)) son:

Sujeto \(i\) Edad \(X_i\) Intentos \(Y_i\)
1 20 5
2 55 12
3 30 10

Hubo \(n=3\) sujetos. Las observaciones del primer sujeto fueron \((X_1,Y_1)=(20,5)\), y de forma análoga para los demás.


Método de mínimos cuadrados

Sea el modelo de regresión lineal simple

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1,\ldots,n \]

Para cada observación \((X_i,Y_i)\), la desviación de \(Y_i\) respecto de su valor esperado es

\[ Y_i - (\beta_0 + \beta_1 X_i) \tag{1.7} \]

El método de mínimos cuadrados define el criterio

\[ Q(\beta_0,\beta_1) = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 \tag{1.8} \]

Los estimadores de mínimos cuadrados \(b_0\) y \(b_1\) son aquellos valores que minimizan la función \(Q(\beta_0,\beta_1)\).


Demostración formal del estimador de mínimos cuadrados

Paso 1: Formulación del problema de optimización

El problema consiste en encontrar \((\beta_0,\beta_1)\in\mathbb{R}^2\) tales que

\[ Q(\beta_0,\beta_1) = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 \]

sea mínimo.

Dado que \(Q\) es una función cuadrática en \(\beta_0\) y \(\beta_1\), es continua, diferenciable y estrictamente convexa, por lo que cualquier punto crítico corresponde a un mínimo global.


Paso 2: Derivadas parciales de \(Q\)

Calculamos las derivadas parciales de \(Q\) respecto de \(\beta_0\) y \(\beta_1\):

\[ \frac{\partial Q}{\partial \beta_0} = -2 \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i) \]

\[ \frac{\partial Q}{\partial \beta_1} = -2 \sum_{i=1}^{n} X_i (Y_i - \beta_0 - \beta_1 X_i) \]


Paso 3: Condiciones de primer orden (ecuaciones normales)

Para minimizar \(Q\), igualamos las derivadas parciales a cero:

\[ \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i) = 0 \]

\[ \sum_{i=1}^{n} X_i (Y_i - \beta_0 - \beta_1 X_i) = 0 \]

Desarrollando:

\[ \sum Y_i - n\beta_0 - \beta_1 \sum X_i = 0 \tag{1.9a} \]

\[ \sum X_i Y_i - \beta_0 \sum X_i - \beta_1 \sum X_i^2 = 0 \tag{1.9b} \]

Las ecuaciones (1.9a) y (1.9b) se denominan ecuaciones normales.


Paso 4: Resolución de las ecuaciones normales

Dividiendo (1.9a) por \(n\):

\[ \bar{Y} = \beta_0 + \beta_1 \bar{X} \]

Despejando \(\beta_0\):

\[ \beta_0 = \bar{Y} - \beta_1 \bar{X} \]

Sustituyendo en (1.9b):

\[ \sum X_i Y_i = (\bar{Y} - \beta_1 \bar{X}) \sum X_i + \beta_1 \sum X_i^2 \]

Reordenando términos:

\[ \sum (X_i - \bar{X})(Y_i - \bar{Y}) = \beta_1 \sum (X_i - \bar{X})^2 \]

Por lo tanto, el estimador de mínimos cuadrados de la pendiente es

\[ b_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})} {\sum_{i=1}^{n} (X_i - \bar{X})^2} \tag{1.10a} \]

y el estimador del intercepto es

\[ b_0 = \bar{Y} - b_1 \bar{X} \tag{1.10b} \]


Paso 5: Verificación de mínimo

La matriz Hessiana de \(Q(\beta_0,\beta_1)\) es

\[ H = \begin{pmatrix} 2n & 2\sum X_i \\ 2\sum X_i & 2\sum X_i^2 \end{pmatrix} \]

Esta matriz es definida positiva siempre que \(\sum (X_i-\bar{X})^2 > 0\), lo que se cumple cuando no todos los \(X_i\) son iguales. Por lo tanto, el punto crítico corresponde a un mínimo global.


Conclusión

Los estimadores \(b_0\) y \(b_1\) obtenidos mediante el método de mínimos cuadrados minimizan la suma de los errores al cuadrado y definen la recta de regresión de mínimos cuadrados, que es el mejor ajuste lineal a los datos en el sentido de mínimos cuadrados.

Propiedades de los estimadores de mínimos cuadrados

Modelo de regresión lineal simple

Consideramos el modelo de regresión lineal simple

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i = 1,\ldots,n \]

donde se asume que:

  1. \(E(\varepsilon_i) = 0\)
  2. \(\operatorname{Var}(\varepsilon_i) = \sigma^2\)
  3. \(\operatorname{Cov}(\varepsilon_i,\varepsilon_j)=0\) para \(i \neq j\)
  4. Los valores \(X_1,\ldots,X_n\) son constantes conocidas

Teorema de Gauss–Markov

Teorema.
Bajo las condiciones del modelo de regresión lineal (1.1), los estimadores de mínimos cuadrados \(b_0\) y \(b_1\) son insesgados y tienen varianza mínima entre todos los estimadores lineales insesgados de \(\beta_0\) y \(\beta_1\).


Parte I: Insesgadez de los estimadores de mínimos cuadrados

Forma explícita de los estimadores

Recordemos que los estimadores de mínimos cuadrados están dados por:

\[ b_1 = \frac{\sum (X_i-\bar X)Y_i}{\sum (X_i-\bar X)^2} \]

\[ b_0 = \bar Y - b_1 \bar X \]


Esperanza de \(b_1\)

Sustituyendo \(Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i\):

\[ b_1 = \frac{\sum (X_i-\bar X)(\beta_0 + \beta_1 X_i + \varepsilon_i)} {\sum (X_i-\bar X)^2} \]

Separando términos:

\[ b_1 = \frac{\beta_0 \sum (X_i-\bar X)}{\sum (X_i-\bar X)^2} + \frac{\beta_1 \sum (X_i-\bar X)X_i}{\sum (X_i-\bar X)^2} + \frac{\sum (X_i-\bar X)\varepsilon_i}{\sum (X_i-\bar X)^2} \]

Notamos que:

\[ \sum (X_i-\bar X) = 0 \]

y

\[ \sum (X_i-\bar X)X_i = \sum (X_i-\bar X)^2 \]

Por lo tanto,

\[ b_1 = \beta_1 + \frac{\sum (X_i-\bar X)\varepsilon_i}{\sum (X_i-\bar X)^2} \]

Tomando esperanza:

\[ E(b_1) = \beta_1 + \frac{\sum (X_i-\bar X)E(\varepsilon_i)}{\sum (X_i-\bar X)^2} = \beta_1 \]


Esperanza de \(b_0\)

Dado que \(b_0 = \bar Y - b_1 \bar X\), se tiene:

\[ E(b_0) = E(\bar Y) - \bar X E(b_1) \]

Además,

\[ E(\bar Y) = \beta_0 + \beta_1 \bar X \]

por lo tanto,

\[ E(b_0) = \beta_0 \]


Conclusión de la Parte I

Los estimadores \(b_0\) y \(b_1\) son insesgados:

\[ E(b_0) = \beta_0, \quad E(b_1) = \beta_1 \]


Parte II: Varianza de los estimadores de mínimos cuadrados

Varianza de \(b_1\)

A partir de la expresión:

\[ b_1 = \beta_1 + \frac{\sum (X_i-\bar X)\varepsilon_i}{\sum (X_i-\bar X)^2} \]

se obtiene:

\[ \operatorname{Var}(b_1) = \frac{\sum (X_i-\bar X)^2 \sigma^2}{\left[\sum (X_i-\bar X)^2\right]^2} = \frac{\sigma^2}{\sum (X_i-\bar X)^2} \]


Varianza de \(b_0\)

\[ \operatorname{Var}(b_0) = \sigma^2 \left[ \frac{1}{n} + \frac{\bar X^2}{\sum (X_i-\bar X)^2} \right] \]


Parte III: Optimalidad (mínima varianza)

Clase de estimadores lineales insesgados

Sea un estimador lineal cualquiera de \(\beta_1\):

\[ \tilde \beta_1 = \sum_{i=1}^n a_i Y_i \]

donde \(a_1,\ldots,a_n\) son constantes.


Condición de insesgadez

\[ E(\tilde \beta_1) = \beta_1 \quad \Rightarrow \quad \sum a_i = 0, \quad \sum a_i X_i = 1 \]


Varianza del estimador lineal

\[ \operatorname{Var}(\tilde \beta_1) = \sigma^2 \sum a_i^2 \]


Problema de minimización

Minimizar \(\sum a_i^2\) sujeto a:

\[ \sum a_i = 0, \quad \sum a_i X_i = 1 \]

Usando multiplicadores de Lagrange, se obtiene:

\[ a_i = \frac{X_i-\bar X}{\sum (X_j-\bar X)^2} \]


Varianza mínima

Sustituyendo:

\[ \operatorname{Var}(\tilde \beta_1) \ge \frac{\sigma^2}{\sum (X_i-\bar X)^2} = \operatorname{Var}(b_1) \]


Resultado análogo para \(b_0\)

Un argumento idéntico muestra que ningún otro estimador lineal insesgado de \(\beta_0\) tiene varianza menor que \(b_0\).


Conclusión (Teorema de Gauss–Markov)

Los estimadores de mínimos cuadrados \(b_0\) y \(b_1\):

Por lo tanto, son los BLUE (Best Linear Unbiased Estimators).

Propiedades de la recta de regresión estimada

Consideramos el modelo de regresión lineal simple:

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1,\dots,n \]

y la recta de regresión estimada por mínimos cuadrados:

\[ \hat Y_i = b_0 + b_1 X_i \]

Definimos el residuo como:

\[ e_i = Y_i - \hat Y_i = Y_i - b_0 - b_1 X_i \]

Los estimadores \(b_0\) y \(b_1\) satisfacen las ecuaciones normales:

\[ \sum_{i=1}^n Y_i = n b_0 + b_1 \sum_{i=1}^n X_i \tag{N1} \]

\[ \sum_{i=1}^n X_i Y_i = b_0 \sum_{i=1}^n X_i + b_1 \sum_{i=1}^n X_i^2 \tag{N2} \]


Propiedad 1: La suma de los residuos es cero

Enunciado

\[ \sum_{i=1}^n e_i = 0 \]

Demostración

Partimos de la definición de residuo:

\[ \sum_{i=1}^n e_i = \sum_{i=1}^n (Y_i - b_0 - b_1 X_i) \]

Separando términos:

\[ \sum_{i=1}^n e_i = \sum_{i=1}^n Y_i - n b_0 - b_1 \sum_{i=1}^n X_i \]

Usando la ecuación normal (N1):

\[ \sum_{i=1}^n Y_i = n b_0 + b_1 \sum_{i=1}^n X_i \]

Sustituyendo:

\[ \sum_{i=1}^n e_i = 0 \]

\(\blacksquare\)


Propiedad 2: La suma de los residuos ponderados por \(X_i\) es cero

Enunciado

\[ \sum_{i=1}^n X_i e_i = 0 \]

Demostración

Multiplicamos cada residuo por \(X_i\) y sumamos:

\[ \sum_{i=1}^n X_i e_i = \sum_{i=1}^n X_i(Y_i - b_0 - b_1 X_i) \]

Expandiendo:

\[ \sum_{i=1}^n X_i e_i = \sum_{i=1}^n X_i Y_i - b_0 \sum_{i=1}^n X_i - b_1 \sum_{i=1}^n X_i^2 \]

Aplicando la ecuación normal (N2):

\[ \sum_{i=1}^n X_i Y_i = b_0 \sum_{i=1}^n X_i + b_1 \sum_{i=1}^n X_i^2 \]

Por lo tanto:

\[ \sum_{i=1}^n X_i e_i = 0 \]

\(\blacksquare\)


Propiedad 3: La suma de los residuos ponderados por los valores ajustados es cero

Enunciado

\[ \sum_{i=1}^n \hat Y_i e_i = 0 \]

Demostración

Recordemos que:

\[ \hat Y_i = b_0 + b_1 X_i \]

Entonces:

\[ \sum_{i=1}^n \hat Y_i e_i = \sum_{i=1}^n (b_0 + b_1 X_i)e_i \]

Distribuyendo:

\[ \sum_{i=1}^n \hat Y_i e_i = b_0 \sum_{i=1}^n e_i + b_1 \sum_{i=1}^n X_i e_i \]

Por las Propiedades 1 y 2:

\[ \sum_{i=1}^n e_i = 0, \quad \sum_{i=1}^n X_i e_i = 0 \]

Luego:

\[ \sum_{i=1}^n \hat Y_i e_i = 0 \]

\(\blacksquare\)


Propiedad 4: La suma de los valores observados es igual a la suma de los valores ajustados

Enunciado

\[ \sum_{i=1}^n Y_i = \sum_{i=1}^n \hat Y_i \]

Demostración

Por definición:

\[ \sum_{i=1}^n \hat Y_i = \sum_{i=1}^n (b_0 + b_1 X_i) = n b_0 + b_1 \sum_{i=1}^n X_i \]

Por la ecuación normal (N1):

\[ n b_0 + b_1 \sum_{i=1}^n X_i = \sum_{i=1}^n Y_i \]

Luego:

\[ \sum_{i=1}^n \hat Y_i = \sum_{i=1}^n Y_i \]

\(\blacksquare\)


Propiedad 5: El promedio de los valores ajustados es igual al promedio de los valores observados

Enunciado

\[ \bar{\hat Y} = \bar Y \]

Demostración

Dividiendo ambos lados de la Propiedad 4 por \(n\):

\[ \frac{1}{n}\sum_{i=1}^n \hat Y_i = \frac{1}{n}\sum_{i=1}^n Y_i \]

Por definición de promedio:

\[ \bar{\hat Y} = \bar Y \]

\(\blacksquare\)


Propiedad 6: La recta de regresión pasa por el punto \((\bar X, \bar Y)\)

Enunciado

\[ \hat Y(\bar X) = \bar Y \]

Demostración

Evaluamos la recta estimada en \(X=\bar X\):

\[ \hat Y(\bar X) = b_0 + b_1 \bar X \]

Usando la expresión de \(b_0\):

\[ b_0 = \bar Y - b_1 \bar X \]

Sustituyendo:

\[ \hat Y(\bar X) = (\bar Y - b_1 \bar X) + b_1 \bar X = \bar Y \]

Por lo tanto, la recta pasa por el punto \((\bar X, \bar Y)\).

\(\blacksquare\)


Propiedad 7: La suma de los residuos al cuadrado es mínima

Enunciado

\[ \sum_{i=1}^n e_i^2 = \min \]

Demostración

Por definición, los estimadores \(b_0\) y \(b_1\) son la solución del problema de optimización:

\[ \min_{\beta_0,\beta_1} \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 X_i)^2 \]

Las condiciones de primer orden conducen a las ecuaciones normales, cuya solución única es \((b_0,b_1)\).

Además, el Hessiano de \(Q(\beta_0,\beta_1)\) es positivo definido, lo que garantiza que el punto crítico corresponde a un mínimo global.

\(\blacksquare\)

Definición del Residual

En el modelo de regresión lineal simple:

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1, 2, \dots, n \]

El residual es la diferencia entre el valor observado de la variable dependiente \(Y_i\) y el valor ajustado (predicho) de la variable dependiente \(\hat{Y}_i\). Formalmente, el residual para el \(i\)-ésimo punto de datos se define como:

\[ e_i = Y_i - \hat{Y}_i = Y_i - (b_0 + b_1 X_i) \]

Donde:

El residual representa la diferencia entre el valor real observado y el valor ajustado por la recta de regresión. Este residual captura el error en el modelo para un punto de datos específico.

Estimación Puntual de la Respuesta Media

La respuesta media en un modelo de regresión lineal se refiere al valor promedio que se espera de la variable dependiente \(Y\) dado un valor específico de la variable independiente \(X\). Matemáticamente, esta respuesta se expresa como:

\[ E[Y|X] = \beta_0 + \beta_1 X \]

Donde \(E[Y|X]\) es la media condicional de \(Y\) dado \(X\).

Ejemplo:

Supongamos que tenemos los estimadores muestrales \(b_0\) y \(b_1\) de los parámetros \(\beta_0\) y \(\beta_1\) de la ecuación de regresión \(E[Y] = \beta_0 + \beta_1 X\). Usamos estos estimadores para obtener la función de regresión estimada:

\[ \hat{Y} = b_0 + b_1 X \]

La función estimada \(\hat{Y}\) es la estimación puntual de la respuesta media \(E[Y|X]\) para un valor específico de \(X\). Es decir, dado un valor de \(X\), \(\hat{Y}\) nos da el valor esperado de \(Y\) bajo el modelo estimado.

Por ejemplo, si los estimadores \(b_0 = 62.37\) y \(b_1 = 3.5702\) se encuentran de un conjunto de datos, la función estimada es:

\[ \hat{Y} = 62.37 + 3.5702 X \]

Estimación de la respuesta media

Supongamos que queremos estimar la respuesta media para un valor \(X = 65\). Entonces, la estimación puntual sería:

\[ \hat{Y}(X=65) = 62.37 + 3.5702(65) = 62.37 + 232.07 = 294.44 \]

Este resultado significa que, para una producción de 65 unidades, el tiempo de trabajo estimado es de 294.44 horas.

Propiedades del Estimador Puntual de la Respuesta Media

Según el teorema de Gauss-Markov (ya demostrado en secciones anteriores), sabemos que el estimador de mínimos cuadrados \(\hat{Y}\) es:

  • Insesgado, es decir, \(E[\hat{Y}] = E[Y]\).
  • Tiene varianza mínima en la clase de estimadores lineales insesgados.

Esto implica que \(\hat{Y}\) es el mejor estimador lineal insesgado (BLUE, por sus siglas en inglés), lo que significa que minimiza la varianza entre todos los estimadores lineales insesgados de la respuesta media.

Propiedades de los Estimadores de Mínimos Cuadrados

El teorema de Gauss–Markov establece que:

Bajo las condiciones del modelo de regresión, los estimadores de mínimos cuadrados \(\hat{b_0}\) y \(\hat{b_1}\) son insesgados y tienen varianza mínima entre todos los estimadores lineales insesgados.

Demostración formal y detallada:

  1. Insesgamiento de los estimadores:

    Sabemos que los estimadores \(\hat{b_0}\) y \(\hat{b_1}\) son insesgados, lo que significa que:

    \[ E[\hat{b_0}] = \beta_0 \quad \text{y} \quad E[\hat{b_1}] = \beta_1 \]

    Esto quiere decir que, en promedio, los estimadores no sobrestiman ni subestiman los valores verdaderos de los parámetros \(\beta_0\) y \(\beta_1\).

  2. Varianza mínima:

    El teorema de Gauss–Markov también establece que \(\hat{b_0}\) y \(\hat{b_1}\) tienen la menor varianza entre todos los estimadores lineales insesgados. Matemáticamente:

    \[ \text{Var}(\hat{b_0}) \leq \text{Var}(\tilde{b_0}) \quad \text{y} \quad \text{Var}(\hat{b_1}) \leq \text{Var}(\tilde{b_1}) \]

    Donde \(\tilde{b_0}\) y \(\tilde{b_1}\) son otros estimadores lineales insesgados de \(\beta_0\) y \(\beta_1\).

Conclusión

Cálculo de los residuos en R

Para calcular los residuos en R, podemos usar la fórmula:

```r # Definir datos de ejemplo X <- c(80, 30, 50, 40, 80, 70) # Tamaño del lote Y <- c(399, 121, 221, 244, 342, 323) # Horas de trabajo

Ajustar el modelo de regresión lineal

model <- lm(Y ~ X)

Estimación puntual de la respuesta media

Consideremos el modelo de regresión lineal simple:

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1,\dots,n \]

donde la respuesta media de la variable respuesta \(Y\) para un nivel dado del predictor \(X\) está dada por:

\[ E\{Y \mid X\} = \beta_0 + \beta_1 X \]

Como los parámetros \(\beta_0\) y \(\beta_1\) son desconocidos, se estiman mediante mínimos cuadrados, obteniendo los estimadores \(b_0\) y \(b_1\).
La función de regresión estimada queda entonces definida como:

\[ \hat{Y} = V = b_0 + b_1 X \tag{1.12} \]

donde \(V\) (leído Y sombrero) es un estimador puntual de la respuesta media \(E\{Y \mid X\}\) para un valor dado de \(X\).

Por extensión del teorema de Gauss–Markov, se tiene que \(V\) es un estimador lineal insesgado de varianza mínima de la respuesta media.


Ejemplo: Empresa Toluca

En el estudio de la empresa Toluca, se obtuvieron los siguientes estimadores de mínimos cuadrados para los coeficientes de regresión:

\[ b_0 = 62.37, \qquad b_1 = 3.5702 \]

Por lo tanto, la función de regresión estimada es:

\[ \hat{Y} = 62.37 + 3.5702X \]

Esta función describe la relación estadística entre el tamaño del lote (\(X\)) y las horas de trabajo requeridas (\(Y\)).

Estimación de la respuesta media para \(X = 65\)

Para estimar la respuesta media cuando el tamaño del lote es \(X = 65\), se sustituye este valor en la función estimada:

\[ \hat{Y}(65) = 62.37 + 3.5702(65) = 294.4 \]

Esto indica que, si se produjeran muchos lotes de 65 unidades bajo condiciones similares a las observadas, el promedio de horas de trabajo requeridas sería aproximadamente 294.4 horas.

Es importante destacar que el tiempo de trabajo de un lote individual puede ser mayor o menor que este valor debido a la variabilidad inherente del proceso productivo, representada por el término de error del modelo.


Valores ajustados (fitted values)

Para cada observación del conjunto de datos, se define el valor ajustado:

\[ V_i = b_0 + b_1 X_i, \quad i=1,\dots,n \tag{1.13} \]

El valor ajustado \(V_i\) representa la estimación de la respuesta media correspondiente al nivel \(X_i\) del predictor y debe distinguirse del valor observado \(Y_i\).

Por ejemplo, para el primer lote del estudio, con \(X_1 = 80\):

\[ V_1 = 62.37 + 3.5702(80) = 347.98 \]

El valor observado correspondiente es \(Y_1 = 399\).


Definición del residual

El residual del modelo de regresión se define como la diferencia entre el valor observado y el valor ajustado:

\[ e_i = Y_i - V_i \tag{1.16} \]

Para el modelo de regresión lineal simple, esto equivale a:

\[ e_i = Y_i - (b_0 + b_1 X_i) \tag{1.16a} \]

En el ejemplo de Toluca, el residual del primer lote es:

\[ e_1 = 399 - 347.98 = 51.02 \]

El residual representa la desviación vertical del punto observado respecto de la recta de regresión estimada.


Error del modelo vs residual

Es fundamental distinguir entre:

  • Error del modelo: \[ \varepsilon_i = Y_i - E\{Y_i\} \] que corresponde a la desviación respecto de la recta verdadera (desconocida).

  • Residual: \[ e_i = Y_i - \hat{Y}_i \] que corresponde a la desviación respecto de la recta estimada (conocida).

Los errores \(\varepsilon_i\) no son observables, mientras que los residuos \(e_i\) sí lo son y constituyen una herramienta clave para evaluar la adecuación del modelo.


Modelo alternativo centrado

Una forma alternativa del modelo de regresión es:

\[ Y_i = \beta_0^\* + \beta_1 (X_i - \bar{X}) + \varepsilon_i \tag{1.6} \]

donde:

\[ \beta_0^\* = \beta_0 + \beta_1 \bar{X} \]

En este caso, el estimador de mínimos cuadrados de \(\beta_0^\*\) es:

\[ b_0^\* = b_0 + b_1 \bar{X} = \bar{Y} \]

Por lo tanto, la función de regresión estimada se expresa como:

\[ \hat{Y} = \bar{Y} + b_1 (X - \bar{X}) \tag{1.15} \]

Aplicación al ejemplo Toluca

Para el estudio de Toluca se tiene:

\[ \bar{Y} = 312.28, \qquad \bar{X} = 70.0 \]

La función estimada en forma alternativa es:

\[ \hat{Y} = 312.28 + 3.5702 (X - 70.0) \]

Para \(X_1 = 80\):

\[ \hat{Y}_1 = 312.28 + 3.5702(80 - 70) = 347.98 \]

Este resultado coincide exactamente con el obtenido usando la forma original del modelo.


Comentario final

Los valores ajustados y los residuos permiten analizar la calidad del ajuste del modelo de regresión. En capítulos posteriores, el análisis gráfico y numérico de los residuos será fundamental para evaluar supuestos como linealidad, homocedasticidad e independencia.

1.7 Estimación de la varianza de los términos de error \(\sigma^2\)

En el modelo de regresión lineal simple

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i = 1,\dots,n, \]

la varianza \(\sigma^2\) de los términos de error \(\varepsilon_i\) representa la variabilidad de las distribuciones de probabilidad de la variable respuesta \(Y\) alrededor de su media condicional \(E\{Y_i \mid X_i\}\).

La estimación de \(\sigma^2\) es fundamental no solo para describir dicha variabilidad, sino también porque muchas inferencias estadísticas —como intervalos de confianza, pruebas de hipótesis y predicción de nuevas observaciones— requieren un estimador de esta cantidad.


Estimador puntual de \(\sigma^2\)

Para desarrollar un estimador de \(\sigma^2\) en el contexto del modelo de regresión, resulta instructivo comenzar con un problema más simple: el muestreo desde una sola población.


Caso de una sola población

Sea \(Y_1,\dots,Y_n\) una muestra aleatoria de una población con media \(\mu\) y varianza \(\sigma^2\).
La varianza poblacional \(\sigma^2\) se estima mediante la varianza muestral:

\[ s^2 = \frac{\sum_{i=1}^n (Y_i - \bar{Y})^2}{n - 1}, \]

donde \(\bar{Y}\) es la media muestral.

La cantidad \[ \sum_{i=1}^n (Y_i - \bar{Y})^2 \] se denomina suma de cuadrados, y el divisor \(n-1\) corresponde a los grados de libertad, ya que un grado de libertad se pierde al estimar la media poblacional desconocida \(\mu\) mediante \(\bar{Y}\).

El estimador \(s^2\) es insesgado, es decir, \[ E(s^2) = \sigma^2. \]


Modelo de regresión

En el modelo de regresión lineal, cada observación \(Y_i\) tiene varianza \(\sigma^2\), pero medias distintas que dependen del nivel del predictor \(X_i\).
Por esta razón, las desviaciones no deben calcularse respecto de una media común, sino respecto de su media estimada individual:

\[ \hat{Y}_i = V_i = b_0 + b_1 X_i. \]

La desviación correspondiente es el residual:

\[ e_i = Y_i - V_i. \]


Suma de cuadrados del error (SSE)

La suma de cuadrados apropiada en regresión es la suma de cuadrados de los residuos, denotada por SSE (error sum of squares o residual sum of squares):

\[ \text{SSE} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - V_i)^2. \tag{1.21} \]

Esta cantidad mide la variabilidad total de las observaciones alrededor de la recta de regresión estimada.


Grados de libertad y cuadrado medio del error (MSE)

La suma de cuadrados SSE tiene asociados \(n-2\) grados de libertad, ya que se han estimado dos parámetros desconocidos del modelo: \(\beta_0\) y \(\beta_1\).

Por lo tanto, el estimador de \(\sigma^2\) es el cuadrado medio del error (MSE):

\[ s^2 = \text{MSE} = \frac{\text{SSE}}{n - 2} = \frac{\sum_{i=1}^n (Y_i - V_i)^2}{n - 2}. \tag{1.22} \]

Este estimador es insesgado para la varianza del error:

\[ E(\text{MSE}) = \sigma^2. \tag{1.23} \]

Un estimador de la desviación estándar \(\sigma\) es simplemente:

\[ s = \sqrt{\text{MSE}}. \]


Aplicación: Ejemplo Empresa Toluca

En el ejemplo de la empresa Toluca se tienen \(n = 25\) observaciones.
A partir de los residuos calculados previamente, se obtiene la siguiente suma de cuadrados:

\[ \text{SSE} = 54{,}825. \]

Dado que hay \(25 - 2 = 23\) grados de libertad, el cuadrado medio del error es:

\[ s^2 = \text{MSE} = \frac{54{,}825}{23} = 2{,}384. \]

Por consiguiente, el estimador de la desviación estándar del modelo es:

\[ s = \sqrt{2{,}384} = 48.8 \text{ horas}. \]


Interpretación

Consideremos nuevamente el caso en que el tamaño del lote es \(X = 65\) unidades.
La respuesta media estimada fue:

\[ \hat{Y}(65) = 294.4 \text{ horas}. \]

Ahora sabemos además que la desviación estándar estimada de la distribución de \(Y\) para este nivel de \(X\) es aproximadamente 48.8 horas.

Esto indica que la variabilidad de las horas de trabajo entre lotes de tamaño 65 es considerable en relación con su media, lo que refleja la variabilidad inherente del sistema productivo, capturada por el término de error del modelo de regresión.


Calcular residuos

residuos <- residuals(model) residuos