Una introducción a los modelos de regresión lineal

Regresión y construcción de modelos

El análisis de regresión es una técnica estadística para investigar y modelar la relación entre variables, inicialmente cuantitativas. Sus aplicaciones son numerosas y aparecen en todos los campos de la ciencia. De hecho, el análisis de regresión podría ser, la técnica estadística más utilizada.

Un ejemplo de un problema en el que el análisis de regresión podría ser útil es el siguiente:

Un ingeniero industrial trabaja en una embotelladora de refrescos. El ingeniero está analizando las operaciones de entrega y servicio de productos para máquinas expendedoras. Sospecha que el tiempo que necesita un repartidor de ruta para cargar y dar servicio a una máquina está relacionado con el número de cajas de producto a entregar. El ingeniero visita 25 puntos de venta elegidos al azar que tienen máquinas expendedoras y observa el tiempo de entrega en el punto de venta (en minutos) y el volumen de producto entregado (en cajas) en cada uno de ellos.

El ingeniero, recordando las habilidades desarrolladas en sus cursos de estadística, grafica las observaciones, las cuales se observan en la Figura 1

Figura 1: Volumen de producto en cajas (x) vs Tiempo de entrega en minutos (y)

La Figura 1 sugiere una relación entre el tiempo de entrega y el volumen de entrega. De hecho, da la impresión que los puntos se ajustan en general, no exactamente, a lo largo de una línea recta.

La línea recta mencionada se muestra en la Figura 2

Figura 2: Ajuste lineal

Si \(y\) representa el tiempo de entrega en minutos y \(x\) el volumen de entrega en cantidad de cajas, la ecuación de la recta que relaciona estas dos variables se muestra en la Ecuación 1:

\[\begin{equation} y= \beta_0 + \beta_1x \\ \end{equation} \tag{1}\]

\(\beta_0\) representa el intercepto de la recta con el eje de las ordenadas y \(\beta_1\) corresponde a la pendiente. Los puntos no ajustan exactamente a la línea recta, por lo que la Ecuación 1 podría ser modificada. La diferencia entre el valor observado de \(y\) y la línea recta \(\beta_0 + \beta_1x\) será un error \(\epsilon\). Es importante convenir que \(\epsilon\) es un error estadístico, esto es, una variable aleatoria, que explica la “falla” del modelo a la hora de ajustar de manera exacta los datos. El error puede estar compuesto por el efecto de otras variables en el tiempo de entrega, por errores de medición, o por cualquier otro elemento que afecte a \(y\). Por lo tanto, un modelo más plausible para representar los datos del tiempo de entrega se muestra en la Ecuación 2:

\[\begin{align} y= \beta_0 + \beta_1x + \epsilon \end{align} \tag{2}\]

La Ecuación 2 es llamada modelo de regresión lineal. Comúnmente \(x\) es llamada variable independiente, y \(y\) es conocida como variable dependiente, aunque esta denominación puede causar confusión con el concepto de independencia estadística, por lo que \(x\) también es conocida como variable predictora o variable regresora y \(y\) como variable respuesta. Como la Ecuación 2 posee solo una variable regresora, la Ecuación 2 es llamada modelo de regresión lineal simple

Para comprender de mejor manera el modelo de regresión lineal, se supone que se fija un valor de la variable regresora \(x\) y se observa el valor correspondiente a la variable respuesta \(y\). Ahora, si \(x\) es fijada, el componente aleatorio \(\epsilon\) de la Ecuación 2 determina las propiedades de \(y\). Suponiendo que la media de \(\epsilon\) es \(0\) y la varianza es \(\sigma^2\), entonces la respuesta media de la variable respuesta \(y\) dado cualquier valor de la variable regresora es:

\[\begin{align} E(y|x)&= E(\beta_0 + \beta_1x + \epsilon) \\ \\ E(y|x)&= \beta_0 + \beta_1x \end{align} \tag{3}\]

Observe que se trata de la misma relación que se anotó inicialmente en la Ecuación 1. Por otro lado, la varianza de \(y\) dado cualquier valor de \(x\) es:

\[\begin{align} Var(y|x)&= Var(\beta_0 + \beta_1x + \epsilon) = \sigma^2 \\ \end{align} \tag{4}\]

Basándose en Ecuación 3 y Ecuación 4, el verdadero modelo de regresión \(E(y|x) = \beta_0 + \beta_1x\) es una recta de valores medios, es decir, la altura de la recta de regresión en cualquier valor de \(x\) corresponde al valor esperado de \(y\) para ese \(x\). La pendiente \(\beta_1\) puede interpretarse como el cambio en la media de \(y\) dado un cambio unitario en \(x\), además, la variabilidad de \(y\) dado un valor en particular de \(x\) está determinada por la varianza del componente del error del modelo, \(\sigma^2\). Esto implica que existe una distribución de valores para \(y\) dado cada \(x\) y la varianza de esta distribución es la misma para cada \(x\).

En la Figura 3 se ilustra la situación de una relación fenomenológica, relativamente compleja, entre variables \(y\) y \(x\). La situación pudo ser ajustada de manera empírica usando herramientas de regresión, algo más avanzadas.

Figura 3: Regresión por tramos para relaciones fenomenológicas complejas

En general, las ecuaciones de regresión sólo son válidas en la región de las variables regresoras contenidas en los datos observados. Si se desea predecir valores de la variable respuesta \(y\) por fuera del rango de los datos observados se corre el riesgo de no tener buenas predicciones.

En general, la variable respuesta \(y\) podría ser analizada por \(k\) variables regresoras, como se muestra Ecuación 5:

\[\begin{align} y= \beta_0 + \beta_1x_1 + \beta_2x_2+ ... + \beta_kx_k + \epsilon \\ \end{align} \tag{5}\]

La Ecuación 5 se conoce como Modelo de Regresión Lineal Múltiple porque interviene más de un regresor.

Un objetivo importante dentro del análisis de regresión es estimar parámetros desconocidos en el modelo de regresión. Este proceso es llamado ajuste del modelo a los datos. Existen varias técnicas de estimación de parámetros, en este curso se estudiará la estimación de parámetros mediante mínimos cuadrados. Por ejemplo, si se estiman los parámetros mediante mínimos cuadrados del problema de tiempo de entrega de las máquinas expendedoras, se obtiene la Ecuación 6:

\[\begin{align} \hat{y}= 3.321 + 2.176x \end{align} \tag{6}\]

\(\hat{y}\) representa el valor ajustado o valor estimado del tiempo de entrega correspondiente a un volumen de entregas de \(x\) cantidad. La ecuación ajustada se muestra en la Figura 2.

La siguiente fase del análisis de regresión es llamado Verificación de la Adecuación del Modelo, en la que estudia la idoneidad del modelo y se comprueba la calidad del ajuste. Mediante estos análisis se puede determinar la utilidad del modelo de regresión. El resultado de la comprobación de la adecuación puede indicar que el modelo es razonable o que debe modificarse el ajuste original. Así pues, el análisis de regresión es un procedimiento iterativo, en el que los datos conducen a un modelo y se produce un ajuste del modelo a los datos, a continuación, se investiga la calidad del ajuste, lo que puede llevar a modificar el modelo o a adoptarlo.

Un modelo de regresión no implica una relación de causa-efecto entre las variables. Aunque pueda existir una fuerte relación empírica entre dos o más variables, esto no puede considerarse una prueba de que las variables regresoras y la respuesta estén relacionadas de forma causa-efecto. Para establecer la causalidad, la relación entre los regresores y la respuesta debe tener una base fuera de los datos de la muestra; por ejemplo, la relación puede sugerirse por consideraciones teóricas.

El análisis de regresión puede ayudar a confiar en una relación causa-efecto, pero no puede ser la única base de tal afirmación. Por último, es importante recordar que el análisis de regresión forma parte de un enfoque analítico de datos más amplio para la resolución de problemas. Es decir, la ecuación de regresión en sí puede no ser el objetivo principal del estudio. Suele ser más importante comprender mejor el sistema que genera los datos.

Recolección de datos.

Un aspecto esencial dentro del análisis de regresión corresponde a la recopilación de datos. Un análisis de regresión es tan bueno como sus datos. Los tres métodos básicos de recolección de datos son los siguientes:

  • Un estudio retrospectivo basado en datos históricos
  • Un estudio observacional
  • Un diseño experimental

Usos del análisis de regresión

Los modelos de regresión son usados para varios propósitos, incluyendo los siguientes:

  1. Descripción de datos.
  2. Estimación de parámetros.
  3. Predicción y estimación
  4. Control

Proceso de análisis de regresión

  1. Datos y teoría.

  2. Especificación del modelo.

  3. Estimación de parámetros

  4. Verificación de la Adecuación del Modelo.

  5. Validación del modelo.

  6. Uso del modelo