Una relación funcional describe una relación exacta entre dos variables cuantitativas. Si \(X\) es la variable independiente y \(Y\) la variable dependiente, una relación funcional se expresa como:
\[ Y = f(X) \]
Dado un valor de \(X\), el valor de \(Y\) queda completamente determinado.
Supongamos que un producto se vende a un precio fijo de 2 dólares por unidad. Si \(X\) representa el número de unidades vendidas y \(Y\) las ventas en dólares, la relación funcional es:
\[ Y = 2X \]
| Período | Unidades vendidas (X) | Ventas en dólares (Y) |
|---|---|---|
| 1 | 75 | 150 |
| 2 | 25 | 50 |
| 3 | 130 | 260 |
# Crear los datos
datos <- data.frame(
X = c(75, 25, 130),
Y = c(150, 50, 260)
)
# Gráfico de dispersión
plot(datos$X, datos$Y,
main = "Relación funcional: Ventas vs Unidades vendidas",
xlab = "Unidades vendidas (X)",
ylab = "Ventas en dólares (Y)",
pch = 19)
# Recta funcional Y = 2X
abline(a = 0, b = 2)
Una relación estadística, a diferencia de una relación funcional, no es perfecta. En general, las observaciones de una relación estadística no caen directamente sobre la curva de la relación.
Se obtuvieron evaluaciones de desempeño para 10 empleados a mitad de año y al final del año. Las evaluaciones de fin de año se consideran la variable dependiente o de respuesta \(Y\), y las evaluaciones de mitad de año la variable independiente, explicativa o predictora \(X\).
La representación gráfica se realiza mediante un diagrama de dispersión. Por ejemplo, las evaluaciones de mitad de año y de fin de año del primer empleado se grafican en \(X = 90\), \(Y = 94\).
# Evaluaciones de desempeño
midyear <- c(90, 85, 80, 75, 70, 95, 88, 80, 78, 92)
yearend <- c(94, 87, 82, 74, 72, 96, 90, 85, 76, 93)
datos <- data.frame(
X = midyear,
Y = yearend
)
# Diagrama de dispersión
plot(datos$X, datos$Y,
main = "Relación estadística: Evaluaciones de desempeño",
xlab = "Evaluación mitad de año (X)",
ylab = "Evaluación fin de año (Y)",
pch = 19)
## 2. Conceptos básicos
Un modelo de regresión es un medio formal para expresar los dos componentes esenciales de una relación estadística:
Estas características se incorporan en un modelo de regresión suponiendo que:
En el ejemplo de evaluación de desempeño (Figura 1.2), la evaluación de fin de año \(Y\) se trata como una variable aleatoria. Para cada nivel de evaluación de mitad de año, se postula una distribución de probabilidad de \(Y\).
# Evaluaciones de desempeño
midyear <- c(90, 85, 80, 75, 70, 95, 88, 80, 78, 92)
yearend <- c(94, 87, 82, 74, 72, 96, 90, 85, 76, 93)
datos <- data.frame(
X = midyear,
Y = yearend
)
# Diagrama de dispersión
plot(datos$X, datos$Y,
main = "Distribución de Y según X",
xlab = "Evaluación mitad de año (X)",
ylab = "Evaluación fin de año (Y)",
pch = 19)
## Punto: Función y curva de regresión
La relación sistemática entre las medias de las distribuciones de
probabilidad de \(Y\) y los niveles de
\(X\) se denomina función de
regresión de \(Y\) sobre \(X\).
La representación gráfica de esta función recibe el nombre de
curva de regresión.
En el caso de la regresión lineal simple, esta curva es una recta.
# Ajuste del modelo de regresión lineal
modelo <- lm(Y ~ X, data = datos)
# Diagrama de dispersión con la recta de regresión
plot(datos$X, datos$Y,
main = "Curva (recta) de regresión",
xlab = "Evaluación mitad de año (X)",
ylab = "Evaluación fin de año (Y)",
pch = 19)
abline(modelo)
Al formular un modelo de regresión, generalmente es necesario restringir su cobertura a algún intervalo o región de valores de la(s) variable(s) predictora(s). Este alcance está determinado ya sea por el diseño de la investigación o por el rango de los datos disponibles.
Por ejemplo, una empresa que estudia el efecto del precio sobre el volumen de ventas investigó seis niveles de precio, que iban desde $4,95 hasta $6,95. En este caso, el alcance del modelo se limita a niveles de precio cercanos a $5 y $7. La forma de la función de regresión fuera de este rango sería altamente dudosa, ya que la investigación no proporcionó evidencia sobre la naturaleza de la relación estadística por debajo de $4,95 o por encima de $6,95.
La existencia de una relación estadística entre la variable de respuesta \(Y\) y la variable explicativa o predictora \(X\) no implica que \(Y\) dependa causalmente de \(X\). Independientemente de cuán fuerte sea la relación estadística entre \(X\) y \(Y\), el modelo de regresión no implica necesariamente una relación de causa y efecto.
Por ejemplo, datos sobre el tamaño del vocabulario (\(X\)) y la velocidad de escritura (\(Y\)) en una muestra de niños de entre 5 y 10 años mostrarán una relación de regresión positiva. Sin embargo, esta relación no implica que un aumento del vocabulario cause una mayor velocidad de escritura. En este caso, otras variables explicativas, como la edad del niño y el nivel de educación, influyen tanto en el vocabulario como en la velocidad de escritura. Los niños mayores tienden a tener un vocabulario más amplio y una mayor velocidad de escritura.
Incluso cuando una relación estadística fuerte refleja condiciones causales, dichas condiciones pueden actuar en la dirección opuesta, de \(Y\) hacia \(X\). Consideremos, por ejemplo, la calibración de un termómetro. Se toman lecturas del termómetro a diferentes temperaturas conocidas y se estudia la relación de regresión para evaluar la precisión de las predicciones realizadas a partir de las lecturas del termómetro. Para este propósito, la lectura del termómetro es la variable predictora \(X\) y la temperatura real es la variable de respuesta \(Y\).
Sin embargo, el patrón causal no va de \(X\) a \(Y\), sino en la dirección opuesta: la temperatura real (\(Y\)) afecta la lectura del termómetro (\(X\)).
Estos ejemplos demuestran la necesidad de ser cuidadosos al extraer conclusiones causales a partir del análisis de regresión. El análisis de regresión por sí solo no proporciona información sobre patrones causales y debe complementarse con análisis adicionales para obtener conclusiones sobre causalidad.
En la Parte I consideramos un modelo de regresión básico en el que solo hay una variable predictora y la función de regresión es lineal. El modelo se puede expresar de la siguiente manera:
\[ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i \tag{1.1} \]
donde:
El modelo de regresión (1.1) se denomina “simple”, “lineal en los parámetros” y “lineal en la variable predictora”. Es “simple” porque solo hay una variable predictora, “lineal en los parámetros” porque ningún parámetro aparece como un exponente o se multiplica o divide por otro parámetro, y “lineal en la variable predictora” porque esta variable aparece solo en el primer grado. Un modelo que es lineal en los parámetros y en la variable predictora también se llama modelo de primer orden.
La respuesta \(Y_i\) en el \(i\)-ésimo ensayo es la suma de dos componentes: (1) el término constante \(\beta_0 + \beta_1 X_i\) y (2) el término aleatorio \(\epsilon_i\). Por lo tanto, \(Y_i\) es una variable aleatoria.
Dado que \(E(\epsilon_i)=0\), se sigue de (A.13c) en el Apéndice A que:
\[ E(Y_i)=E(\beta_0 + \beta_1 X_i + \epsilon_i) = \beta_0 + \beta_1 X_i + E(\epsilon_i) = \beta_0 + \beta_1 X_i \]
El valor de \(\beta_0 + \beta_1 X_i\) juega el papel de la constante \(a\) en (A.13c).
La respuesta \(Y_i\) en el \(i\)-ésimo ensayo excede o está por debajo del valor de la función de regresión por la cantidad del término de error \(\epsilon_i\).
Se supone que los términos de error \(\epsilon_i\) tienen una varianza constante \(\sigma^2\). Por lo tanto, se sigue que las respuestas \(Y_i\) tienen la misma varianza constante:
\[ \text{Var}(Y_i)=\sigma^2 \]
Dado que, usando (A.16a), tenemos:
\[ \text{Var}(\beta_0 + \beta_1 X_i + \epsilon_i) = \text{Var}(\epsilon_i) = \sigma^2 \]
Así, el modelo de regresión (1.1) supone que las distribuciones de probabilidad de \(Y\) tienen la misma varianza \(\sigma^2\), independientemente del nivel de la variable predictora \(X\).
Se supone que los términos de error no están correlacionados. Dado que los términos de error \(\epsilon_i\) y \(\epsilon_j\) no están correlacionados, lo mismo ocurre con las respuestas \(Y_i\) y \(Y_j\).
En resumen, el modelo de regresión (1.1) implica que las respuestas \(Y_i\) provienen de distribuciones de probabilidad cuyos valores medios son
\[ E(Y_i)=\beta_0 + \beta_1 X_i \]
y cuya varianza es \(\sigma^2\), la misma para todos los niveles de \(X\). Además, cualquier par de respuestas \(Y_i\) y \(Y_j\) son no correlacionadas.
Un consultor de una distribuidora eléctrica está estudiando la relación entre el número de ofertas solicitadas por contratistas de construcción para equipos básicos de iluminación durante una semana y el tiempo requerido para preparar dichas ofertas. Supongamos que el modelo de regresión (1.1) es aplicable y se expresa de la siguiente manera:
\[ Y_i = 9.5 + 2.1X_i + \epsilon_i \]
donde \(X\) es el número de ofertas preparadas en una semana y \(Y\) es el número de horas necesarias para preparar las ofertas. La Figura 1.6 contiene una presentación de la función de regresión:
\[ E(Y)=9.5 + 2.1X \]
Supongamos que en la \(i\)-ésima semana, \(X_i=45\) ofertas fueron preparadas y el número real de horas requeridas fue \(Y_i=108\). En este caso, el valor del término de error es \(\epsilon_i=4\), ya que tenemos:
\[ E(Y_i)=9.5 + 2.1(45)=104 \]
y
\[ Y_i=108=104+4 \]
La Figura 1.6 muestra la distribución de probabilidad de \(Y\) cuando \(X=45\) y de dónde provino la observación \(Y_i=108\) en esta distribución. Nuevamente, el término de error \(\epsilon_i\) es simplemente la desviación de \(Y_i\) respecto a su valor medio \(E(Y_i)\).
Los parámetros \(\beta_0\) y \(\beta_1\) en el modelo de regresión (1.1) son llamados coeficientes de regresión. \(\beta_1\) es la pendiente de la línea de regresión. Indica el cambio en la media de la distribución de probabilidad de \(Y\) por cada unidad de aumento en \(X\).
El parámetro \(\beta_0\) es el intercepto de la línea de regresión. Cuando el alcance del modelo incluye \(X=0\), \(\beta_0\) da el valor medio de la distribución de probabilidad de \(Y\) cuando \(X=0\). Cuando el alcance del modelo no cubre \(X=0\), \(\beta_0\) no tiene ningún significado particular como término separado en el modelo de regresión.
A veces es conveniente escribir el modelo de regresión lineal simple (1.1) en formas ligeramente diferentes, aunque equivalentes. Sea \(X_0\) una constante idénticamente igual a 1. Entonces, podemos escribir (1.1) de la siguiente manera:
\[ Y_i = \beta_0 X_0 + \beta_1 X_i + \epsilon_i \quad \text{donde } X_0=1 \tag{1.5} \]
Esta versión del modelo asocia una variable \(X\) con cada coeficiente de regresión.
Una modificación alternativa es usar para la variable predictora la desviación \(X_i - \bar{X}\) en lugar de \(X_i\). Para dejar el modelo (1.1) sin cambios, necesitamos escribir:
\[ Y_i = \beta_0 + \beta_1 (X_i - \bar{X}) + \beta_1 \bar{X} + \epsilon_i \]
Es decir, esta versión alternativa del modelo es:
\[ Y_i = \beta_0' + \beta_1 (X_i - \bar{X}) + \epsilon_i \]
donde:
\[ \beta_0' = \beta_0 + \beta_1 \bar{X} \]
Usamos los modelos (1.1), (1.5) y (1.6) de manera intercambiable según lo dicte la conveniencia.
Normalmente, no conocemos los valores de los parámetros de regresión \(\beta_0\) y \(\beta_1\) en el modelo de regresión (1.1), y necesitamos estimarlos a partir de datos relevantes. De hecho, como mencionamos anteriormente, frecuentemente no tenemos un conocimiento suficiente a priori sobre las variables predictoras adecuadas y la forma funcional de la relación de regresión (por ejemplo, lineal o curvilínea), por lo que necesitamos confiar en un análisis de los datos para desarrollar un modelo de regresión adecuado.
Los datos observacionales son aquellos obtenidos de estudios no experimentales. En estos estudios no se controlan las variables explicativas o predictoras de interés. Por ejemplo, los funcionarios de una empresa quisieron estudiar la relación entre la edad de los empleados (\(X\)) y el número de días de enfermedad el año pasado.
Los datos observacionales o experimentales que se utilizan para estimar los parámetros de la función de regresión consisten en observaciones de la variable explicativa o predictora \(X\) y las observaciones correspondientes de la variable de respuesta \(Y\). Para cada ensayo, existe una observación de \(X\) y una observación de \(Y\). Denotamos las observaciones \((X,Y)\) del primer ensayo como \((X_1,Y_1)\), las del segundo ensayo como \((X_2,Y_2)\), y en general, las del \(i\)-ésimo ensayo como \((X_i,Y_i)\), donde \(i=1,\ldots,n\).
En un estudio a pequeña escala sobre la persistencia, un experimentador asignó a tres sujetos una tarea muy difícil. Los datos sobre la edad del sujeto (\(X\)) y el número de intentos antes de rendirse (\(Y\)) son:
| Sujeto \(i\) | Edad \(X_i\) | Intentos \(Y_i\) |
|---|---|---|
| 1 | 20 | 5 |
| 2 | 55 | 12 |
| 3 | 30 | 10 |
Hubo \(n=3\) sujetos. Las observaciones del primer sujeto fueron \((X_1,Y_1)=(20,5)\), y de forma análoga para los demás.
Sea el modelo de regresión lineal simple
\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i=1,\ldots,n \]
Para cada observación \((X_i,Y_i)\), la desviación de \(Y_i\) respecto de su valor esperado es
\[ Y_i - (\beta_0 + \beta_1 X_i) \tag{1.7} \]
El método de mínimos cuadrados define el criterio
\[ Q(\beta_0,\beta_1) = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 \tag{1.8} \]
Los estimadores de mínimos cuadrados \(b_0\) y \(b_1\) son aquellos valores que minimizan la función \(Q(\beta_0,\beta_1)\).
El problema consiste en encontrar \((\beta_0,\beta_1)\in\mathbb{R}^2\) tales que
\[ Q(\beta_0,\beta_1) = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 \]
sea mínimo.
Dado que \(Q\) es una función cuadrática en \(\beta_0\) y \(\beta_1\), es continua, diferenciable y estrictamente convexa, por lo que cualquier punto crítico corresponde a un mínimo global.
Calculamos las derivadas parciales de \(Q\) respecto de \(\beta_0\) y \(\beta_1\):
\[ \frac{\partial Q}{\partial \beta_0} = -2 \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i) \]
\[ \frac{\partial Q}{\partial \beta_1} = -2 \sum_{i=1}^{n} X_i (Y_i - \beta_0 - \beta_1 X_i) \]
Para minimizar \(Q\), igualamos las derivadas parciales a cero:
\[ \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i) = 0 \]
\[ \sum_{i=1}^{n} X_i (Y_i - \beta_0 - \beta_1 X_i) = 0 \]
Desarrollando:
\[ \sum Y_i - n\beta_0 - \beta_1 \sum X_i = 0 \tag{1.9a} \]
\[ \sum X_i Y_i - \beta_0 \sum X_i - \beta_1 \sum X_i^2 = 0 \tag{1.9b} \]
Las ecuaciones (1.9a) y (1.9b) se denominan ecuaciones normales.
Dividiendo (1.9a) por \(n\):
\[ \bar{Y} = \beta_0 + \beta_1 \bar{X} \]
Despejando \(\beta_0\):
\[ \beta_0 = \bar{Y} - \beta_1 \bar{X} \]
Sustituyendo en (1.9b):
\[ \sum X_i Y_i = (\bar{Y} - \beta_1 \bar{X}) \sum X_i + \beta_1 \sum X_i^2 \]
Reordenando términos:
\[ \sum (X_i - \bar{X})(Y_i - \bar{Y}) = \beta_1 \sum (X_i - \bar{X})^2 \]
Por lo tanto, el estimador de mínimos cuadrados de la pendiente es
\[ b_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})} {\sum_{i=1}^{n} (X_i - \bar{X})^2} \tag{1.10a} \]
y el estimador del intercepto es
\[ b_0 = \bar{Y} - b_1 \bar{X} \tag{1.10b} \]
La matriz Hessiana de \(Q(\beta_0,\beta_1)\) es
\[ H = \begin{pmatrix} 2n & 2\sum X_i \\ 2\sum X_i & 2\sum X_i^2 \end{pmatrix} \]
Esta matriz es definida positiva siempre que \(\sum (X_i-\bar{X})^2 > 0\), lo que se cumple cuando no todos los \(X_i\) son iguales. Por lo tanto, el punto crítico corresponde a un mínimo global.
Los estimadores \(b_0\) y \(b_1\) obtenidos mediante el método de mínimos cuadrados minimizan la suma de los errores al cuadrado y definen la recta de regresión de mínimos cuadrados, que es el mejor ajuste lineal a los datos en el sentido de mínimos cuadrados.