Análisis de regresión

Es una técnica que permite estudiar cómo una variable respuestacontinua varía en función de una o más variables predictoras

\({Y}\) = variable respuesta o dependiente; aleatoria

\({X}\) = variable explicatoria, predictorao independiente; no aleatoria

Si se incluye una única X, regresión simple

Si se incluye más de una X, regresión múltiple

Objetivos del análisis de regresión

  1. Describir la relación funcional entre X eY (recta, polinomial, cuadrática…)
  2. Determinar cuánta de la variación en Y puede ser explicada por la variación de X y cuánto permanece sin explicar
  3. Estimar los parámetros del modelo
  4. Poner a prueba hipótesis sobre los parámetros del modelo
  5. Predecir nuevos valores de Y para valores específicos de X en el dominio estudiado

Modelo de regresión lineal simple

\({y_i} = \beta_0 + \beta_1{x_i} + \epsilon_i\)

\({y_i}\) es la i-ésima observación de la variable dependiente Y

\({x_i}\) es el i-ésimo valor de la variable predictora X

\(\beta_0\) y \(\beta_1\) son los parámetrosl origen y pendiente

\(\beta_1\) indica el cambio esperado en Y por cada aumento unitario de X

\(\epsilon_i\) es el error aleatorio, variación de Y no explicada por X

Estimación de los parámetros del modelo

La función anterior no es observable directamente, sino que debe ser estimada a través de una los datos experimentales:

\(\hat{y_i} = b_0 + b_1{x_i} + \epsilon_i\) Donde \(b_0\) y \(b_1\) son los estimadores puntuales de \(\beta_0\) y \(\beta_1\) respectivamente

¿Cómo hallar la ecuación estimada de la recta?

Se denomina residuo a la diferencia entre el valor observado y el pronosticado por el modelo (distancia vertical)

\(e_i = {y_i} - \hat{y_i}\)

\(\Sigma{e_i} = 0\) La suma de los residuos es cero

Método de Cuadrados mínimos

\(\Sigma({y_i} - \hat{y_i})^2= \Sigma{e_i}^2 = \Sigma({y_i} - (b_0 + b_1{x_i}))^2\)

Se buscan los valores de \(b_0\) y \(b_1\) que minimicen \(e_i\) igualando queda asi

\(b_1 = \Sigma({x_i} - \bar{x})({y_i} - \bar{y})/ \Sigma({x_i} - \bar{x})^2\)

\(b_0 = \bar{y} - b_1\bar{x})\)

La pregunta de rigor: ¿La variación explicada por el modelo es significativamente mayor que la no explicada? Particularmente, ¿variaciones de X explican variaciones de Y?

Inferencia sobre la pendiente

\(H_0 = \beta_1 = 0\) la variación de Y no se explica linealmente por la variación de X

\(H_1 = \beta_1 no 0\) la variación de Y sí se explica linealmente por la variación de X

Coeficiente de determinación R2

Mide la proporción de variabilidad de la variable respuesta explicada por variaciones en X, es decir por el modelo de regresión

\(R^2 = \Sigma({y_i} - \hat{y})^2/ \Sigma({y_i} - \bar{y})^2\)

\(R^2\) es adimensional y puede tomar valores entre 0 y 1 Es una medida de la capacidad predictiva del modelo: cuanto más cercano a 1, mejor el ajuste del modelo

Modelo de regresión lineal múltiple

\({y_i} = \beta_0 + \beta_1{x_1i} + \beta_2{x_2i} + \epsilon_i\)

\(\hat{y_i} = b_0 + b_1{x_1i} + b_2{x_2i} + \epsilon_i\)

Hipótesis

\(H_0 = \beta_1 = \beta_2 = 0\) ninguna de las v. explicatorias consideradas en el modelo explica la variación en la respuesta.

\(H_1 = \beta_i no 0\) al menos una de las X explica la variación en la respuesta.

Colinealidad

Se refiere a la existencia de asociaciones lineales entre variables explicatorias, el modelo tiene información redundante

puede causar:

  1. Los coeficientes de regresión tendrán varianzas muy altas, es decir que estarán estimados con poca precisión
  2. Eso puede provocarque las PH individuales sean no significativas aunque el modelo global sea significativo o el R2 sea alto
  3. Los coeficientes de regresión pueden presentar signos contrarios a los esperados

se puede analizar mediante coeficientes de correlacion y con el FIV (factor de inflación de la varianza) que mide para cada X el aumento de la varianza del coeficiente de regresión debido a la correlación entre VI

\(FIV = 1/1 - {R^2_j}\)

Toma valores entre 1 e infinito. Valores superiores a 5 son considerados indicativos de colinealidad

Selección de modelos

  1. Criterio experto
  2. Métodos secuenciales: Existenmétodos “automáticos” para la selección de variables: Método de incorporación progresiva (forward), Método de eliminación progresiva (backward), Método de selección paso a paso (stepwise)

Criterios para seleccionar el mejor modelo

  1. Máximo R2 ajustado
  2. Mínima varianza residual (CM error)
  3. Mínimo Error cuadrático medio de predicción ECMP
  4. Mínimo Criterio de información de Akaike (AIC)
  5. Mínimo Criterio de información bayesiano de Schwartz (BIC)

Regresión polinomial

\({y_i} = \beta_0 + \beta_1{x_1i} + \beta_2{x_i}^2 + ... + \beta_2{x_i}^p + \epsilon_i\)

El modelo incluye términos de potencias sucesivas de la v. independiente X Es un caso particular de regresión múltiple: las distintas potencias de X actúan como distintas v. explicatorias p es el gradodel polinomio (máxima potencia)

Evaluación del modelo polinomial

Se utilizan las mismas técnicas que para regresión lineal

Análisis de residuos: normalidad, homocedasticidad, correcta especificación del modelo, outliers Gráfico de los valores observados y de los predichos según el modelo propuesto vs x

Elección del grado del polinomio

  1. En teoría, se puede probar la significación de modelos con potencias de hasta n-2
  2. Método de SC secuencial: partir del modelo lineal, se van incorporando sucesivamente términos, determinando la significación de la p. El proceso se detiene cuando no se detecta significación.
  3. Pero cuanto más complejo el modelo, más difícil es su interpretación. El significado biológico de los términos de mayor orden es (si es que lo posee) generalmente desconocido
  4. En general no se recomiendan polinomios de grado superior a 3: difícil interpretación y problemas de multicolinealidad

Multicolinealidad: Por definición, los términos polinomiales están correlacionados. Por lo tanto las estimaciones de los coeficientes son inestables y los errores estándar pueden ser grandes. Esto empeora al aumentar el orden del polinomio

Atención con las extrapolaciones! En regresión polinomial es muy probable que arrojen resultados absurdos

Modelos lineales vs no lineales

Modelos lineales: son aquellos que son lineales en los parámetros. Además pueden ser:

  1. \({y_i} = \beta_0 + \beta_1{x_i} + \epsilon_i\) Lineales en las variables
  2. \({y_i} = \beta_0 + \beta_1{x_i} + \beta_2{x_i}^2 + \beta_3{x_i}^3 + \epsilon_i\) No lineales en las variables como la regresión polinomial

Modelos no lineales: en los parámetros

Lineales intrínsecamente: se pueden linealizarmediante una transformación \({y_i} = \beta_0{x}^\alpha\)

No lineales propiamente dichos: 1. Son más difíciles de especificar y estimar que los modelos lineales 2. A diferencia de la regresión lineal, donde sólo se listan las v. explicatorias, en RNL debe decidirse una ecuación, indicando la relación funcional de Y con X 3. Esta puede surgir a partir de teoría (lo más recomendable) o empíricamente

Estimación de los parámetros en regresión no lineal

  1. La minimización de la suma de los residuos al cuadrado es efectuada mediante procesos iterativos de optimización
  2. La estimación puede iniciarse a partir de valores iniciales de los parámetros, que faciliten la convergencia del algoritmo de estimación

Algunos modelos no convergen si se parte de valores iniciales lejanos de aquellos que logran la minimización de la suma de cuadrados Si se parte de valores iniciales alejados de aquellos que logran la minimización de la suma de cuadrados