6 de enero de 2018

Origen de los Modelos de Regresión

Los modelos lineales fueron utilizados por Laplace y Gauss en sus trabajos de astronomía y física desarrollados durante el siglo XVIII, pero el nombre de modelos de regresión tiene su origen en los trabajos de Galton en biología de finales del siglo XIX. La expresión de Galton: regression towards mediocrity dio nombre a la regresión.

Regresión Lineal Simple

En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes \(X_{i}\) y un término aleatorio ε. Este modelo puede ser expresado como: https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal

\[{\displaystyle Y_{t}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon }\]

donde:

  • \({\displaystyle Y_{t}}\): variable dependiente, explicada o regresando.
  • \({\displaystyle X_{1},X_{2},\cdots ,X_{p}}\): variables explicativas, independientes o regresores.
  • \({\displaystyle \beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p}}\): parámetros, miden la influencia que las variables explicativas tienen sobre el regrediendo.

Diagramas de dispersión y curvas de regresión

A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra de individuos, el primer paso en un análisis de regresión es representar estos datos sobre unos ejes coordenados x-y. Esta representación es el llamado diagrama de dis- persión. Nos puede ayudar mucho en la búsqueda de un modelo que describa la relación entre las dos variables.

Ejemplo

Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura y 56 kg de peso, etc., tal como se ve en la tabla siguiente:

Individuo 1 2 3 4 5 6 7 8 9 10
X altura (cm) 161 152 167 153 161 168 167 153 159 173
Y peso (kg) 63 56 77 49 72 62 68 48 57 67

#Insertamos los datos
x <- c(161,152,167,153,161,168,167,153,159,173)
y <- c(63,56,77,49,72,62,68,48,57,67)
datos <- data.frame(x, y)
print(datos)
     x  y
1  161 63
2  152 56
3  167 77
4  153 49
5  161 72
6  168 62
7  167 68
8  153 48
9  159 57
10 173 67

#Trazamos el gráfico de dispesión
library(ggplot2)
ggplot(datos, aes(x, y)) + geom_point() + 
  xlab("Alturas (cm)") + 
  ylab("Peso (kg)")

El diagrama de dispersión también nos puede ayudar a encontrar algún valor atípico entre los datos de la muestra que pueda tener su origen en una mala observación o en el hecho de ser una observación correspondiente a un indi- viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, de- bemos controlar las influencias que pueda tener en el análisis.

Rectas de regresión

Una vez que hemos hecho el diagrama de dispersión y después de obser- var una posible relación lineal entre las dos variables, nos proponemos encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos. Esta recta se denomina recta de regresión.

Estimación de los parámetros: método de los mínimos cuadrados

Una recta queda bien determinada si el valor de su pendiente (b) y de su or- denada en el origen (a) son conocidos. De esta manera la ecuación de la recta viene dada por:

\[y = a + bx\]

Método de los Mínimos Cuadrados

Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados —variable independiente, variable dependiente— y una familia de funciones, se intenta encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático https://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados donde:

  • \(\hat{y} = \hat{\beta_{0}} + \hat{\beta_{1}x}\) recta de regresión
  • \(\hat{\beta_{0}} = \bar{y} - \hat{\beta_{1}\bar{x}}\) intersección o término "constante"
  • \(\hat{\beta_{1}} = \frac{s_{xy}}{s^2_{x}}\) pendiente de regresión

#Medias muestrales, varianzas muestrales, covarianza muestral y estimación
#de parámetros
media.x <- mean(x); media.x
## [1] 161.4
varianza.x <- var(x); varianza.x
## [1] 52.93333
media.y <- mean(y); media.y
## [1] 61.9
cov.xy <- cov(x, y); cov.xy
## [1] 51.82222

beta1 <- cov.xy / varianza.x; beta1
## [1] 0.9790092
beta0 <- media.y - beta1*media.x; beta0
## [1] -96.11209

mod1 <- lm(y~x)
mod1$coefficients
## (Intercept)           x 
## -96.1120907   0.9790092

Tenemos la recta de regresión siguiente

\[\hat{y} = -96.11209 + 0.979009\]

En este caso la ordenada en el origen no tiene ninguna interpretación con sentido, ya que correspondería a la ganancia de velocidad por cero semanas de clases. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta sí que nos da una información útil: por cada semana de clase se tiene una ganancia de velocidad de aproximadamente 25 p.p.m.

Calidad del ajuste

Ahora nos preguntamos si este ajuste es lo bastante bueno, si miramos el diagrama de dispersión y observamos que los puntos experimentales estan muy cerca de la recta de regresión, podemos tienes una idea si la recta se ajusta o no a los datos, pero nos hace falta un valor que nos ayude a precisarlo.

El coeficiente de determinación \(R^2\)

Esta medida es el Coeficiente de Determinación, que es el cuadrado del coeficiente de correlación de Pearson, y da la proporción de variación de la variable Y que es explicada por la variable X (variable predictora o explicativa). Si la proporción es igual a 0, significa que la variable predictora no tiene NULA capacidad predictiva de la variable a predecir (Y). Cuanto mayor sea la proporción, mejor será la predicción. Si llegara a ser igual a 1 la variable predictora explicaría TODA la variación de Y, y las predicciones NO tendrían error. https://www.uv.es/webgid/Descriptiva/6_coeficiente_de_determinacin.html

\[\frac{Varianza~por~la~recta~de~regresión}{Varianza~total~de~los~datos}\]

Fórmula
\(\sum_{i=1}^{n}{(y_{i}-\bar{y})^2} = SCT\) Suma de cuadrados totales
\(\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y})^2} = SCR\) Suma de cuadrados de la regresión
\(\sum_{i=1}^{n}{\epsilon_{i}^2} = SCE\) Suma de cuadrados de los errores

\[SCT = SCR + SCE\]

\[R^2 = \frac{SCR}{SCT} = \frac{\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y}})^2}{\sum_{i=1}^{n}{(y_{i}-\bar{y})^2}}\]

SCR = sum((mod1$fitted.values - media.y)^2); SCR
## [1] 456.6099
SCT = sum((y - media.y)^2); SCT
## [1] 812.9
R2 = SCR / SCT; R2
## [1] 0.5617049

Hemos obtenido un coeficiente de determinación \(R^2\) = 0.5617 que nos informa de que el modelo de regresión lineal sólo explica el 56.17% de la varianza de las observaciones.

Diagnóstico de la regresión: análisis de los residuos

El análisis de los residuos consiste en ver la distribución de los residuos. Esto lo haremos gráficamente representando un diagrama de dispesión de los puntos \((\hat{y_{i}}, \epsilon_{i})\), es decir, sobre el eje de las abscisas representamos el valor estimado \(\hat{y_{i}}\) y sobre el eje de ordenadas, el valor correspondiente al residuo.

ggplot(datos, aes(x=mod1$fitted.values, y=mod1$residuals)) + 
  geom_point() + xlab("Valores Estimados") + ylab("Residuos") + 
  geom_hline(yintercept = 0, color = "red")

No podemos observar ningún tipo de estructura en la representación; por tanto, podemos concluir que el modelo de regresión obtenido es un buen modelo para explicar la relación entre las dos variables.