Regresión Lineal

Septiembre 1 y 4, 2015

Clasificador Bayesiano

Pros:

Puede usarse con poccos datos, (~300).
Es muy sencillo de construir.
Es relativamente intuitivo entender las variables.
No requiere gran poder de cómputo.

Contras: + Tiene un desempeño limitado. + Supone que no hay correlación en las variables. Si quieren leer más: Wikipedia: Naive Bayes classifier

Regresion lineal

Un modelo de regresión lineal asume que el valor de espectación de \(Y\), dado \(X\), \(E(Y |X)\); es lineal en las variables de entrada \(X_1, \ldots , X_p\).
Los modelos lineales fueron ampliamente desarrollados previo a la estadística computacional, sin embargo, en estos días donde los métodos estadísticos computacionales dominan el área, aún existen buenas razones para seguirlos usando.
Son simples y usualmente proveen una descripción con interpretación sencilla de cómo las variables de entrada afectan a las variables de salida.
En algunas ocasiones, tienen mejor desempeño que los métodos no lineales más sofisticados, especialmete en situaciónes con pocos datos de entrenamiento, o con un cociente de señal a ruido pequeño, o con datos con poca separación.

¿Qué es una regresión lineal?

Es un modelo de predición que depende linealmente de las variables de entrada, o independientes, se escribe en la forma: \[ \hat{Y} = \hat{\beta_0} + \hat{\beta_1}X_1 + \hat{\beta_2}X_2 + \ldots, \qquad (1)\] donde \(X_i\) son las variables que caracterizan a cada uno de nuestros sujetos de crédito. Por ejmeplo:

edad,
salario,
labora actualmete,
tiene otros créditos, etc.

\(\hat{Y}\) podría ser la fracción esperada de impagos (o de pagos). Los coeficientes \(\hat{\beta}\) son los estimadores que debemos ajustar.

¿Cómo ajustamos los coeficientes?

El método más sencillo para estimar los coeficientes de un modelo lineal es él método de mínimos cuadrados. El cual, estima los parámetros que minimizan la suma en cuadraturas de los segmentos rojos.

Encontrando las fórmulas.

Cada fragmento rojo de la imagen anterior está dado por \(e_i = \hat{y} - y_i\), llamado error o residuo. Queremos minimizar la suma en cuadraturas de los errores, \[SCE =\sum_{i = 1}^n e_i^2 = \sum_{i = 1}^n (\hat{y} - y_i)^2.\] O bien, en términos explícitos de los parámetros que queremos estimar: \[SCE(\beta_0,\beta_1) = \sum_{i = 1}^n \left((\beta_0 + \beta_1 x_i) - y_i\right)^2.\qquad (2)\]

Para minimizar tal función, debemos derivar con respecto a \(\beta_0\) y \(\beta_1\), \[ \begin{eqnarray} \left.\frac{\partial (SCE)}{\partial\beta_0}\right|_{\beta_0 =\hat{\beta}_0}=&2\sum_{i = 1}^n \left((\hat{\beta}_0 + \hat{\beta}_1 x_i) - y_i \right) &=& 0,\\ \left.\frac{\partial (SCE)}{\partial\beta_1}\right|_{\beta_1 =\hat{\beta}_1}=&2\sum_{i = 1}^n x_i \left((\hat{\beta}_0 + \hat{\beta}_1 x_i) - y_i \right) &=& 0. \end{eqnarray} \qquad (3)\] Que se pueden reescribir de la forma: \[ \sum_{i = 1}^n\left(\begin{array}. 1 & x_i \\ x_i & x_i^2 \end{array}\right) \left(\begin{array}. \hat{\beta}_0 \\ \hat{\beta}_1\end{array}\right) = \sum_{i = 1}^n\left(\begin{array}. y_i \\ x_iy_i\end{array}\right), \qquad (4)\] Si usamos las identidades \(\sum_{i = 1}^n 1=n\), \(\sum_{i = 1}^n x_i= n\bar{x}\) y \(\sum_{i = 1}^n y_i= n\bar{y}\), podemos reescribir la ecuación (5).

Reescribiendo, \[ \left(\begin{array}. n & n\bar{x} \\ n\bar{x} & \sum_{i = 1}^nx_i^2 \end{array}\right) \left(\begin{array}. \hat{\beta}_0 \\ \hat{\beta}_1\end{array}\right) = \left(\begin{array}. n\bar{y} \\ \sum_{i = 1}^n x_iy_i\end{array}\right), \qquad (5)\] cuya solución es: \[ \begin{array}. \hat{\beta}_0 &=& \frac{\bar{y}\sum_{i = 1}^nx_i^2 -\bar{x}\sum_{i = 1}^n x_iy_i}{\sum_{i = 1}^nx_i^2 - n\bar{x}^2},\\ \hat{\beta}_1 &=& \frac{\sum_{i = 1}^n x_iy_i - n\bar{x}\bar{y}}{\sum_{i = 1}^nx_i^2 - n\bar{x}^2}. \end{array} \qquad (5)\]

El caso general, con \(M\) variables, puede seguirse en: Wikipedia:Linear_least_squares#Derivation_normal_equations, con resultado: \[ \sum_{J=0}^M \sum_{i=1}^{n}x_{iJ}x_{iK}\hat{\beta}_J = \sum_{i=1}^n x_{iK}y_{i},\ \textrm{ con }K = 0,1,2,\ldots,M \qquad (6)\] Identificando \(\sum_{i=1}^{n}x_{iJ}x_{iK} = ({\bf X}^T{\bf X})_{JK}\), y \(\sum_{i=1}^n x_{iK}y_{i} = ({\bf X}^T {\bf Y})_{K}\), se puede reescribir la ecuación (6): \[ \hat{\beta}_J = \sum_{K=0}^M ({\bf X}^T{\bf X})_{JK}^{-1} ({\bf X}^T {\bf Y})_{K} \]

Tarea

Con R, hacer una regresión lineal para una variable, con los datos de german.data, usando las ecuaciones (5).
Las \(y_i\) serán las entradas de "V25", pero cambiando 2 - > 0, es decir, los malos pagadores se representan con 0.
Pueden tomar cualquiera de las tres variables que usamos primero. "V2","V4","V10".

Para el Martes 15 de Septiembre.

El viernes haremos un ejemplo con 2 variables. La tarea para el Viernes 18 será usar 3 variables.