15 de junio 2015

Introducción

  • Un modelo de regresión lineal asume que el valor de espectación de \(Y\), dado \(X\), \(E(Y |X)\); es lineal en las variables de entrada \(X_1, \ldots , X_p\).
  • Los modelos lineales fueron ampliamente desarrollados previo a la estadĆ­stica computacional, sin embargo, en estos dĆ­as donde los mĆ©todos estadĆ­sticos computacionales dominan el Ć”rea, aĆŗn existen buenas razones para seguirlos usando.
  • Son simples y usualmente proveen una descripción con interpretación sencilla de cómo las variables de entrada afectan a las variables de salida.
  • En algunas ocasiones, tienen mejor desempeƱo que los mĆ©todos no lineales mĆ”s sofisticados, especialmete en situaciónes con pocos datos de entrenamiento, o con un cociente de seƱal a ruido pequeƱo, o con datos con poca separación.

¿Qué es una regresión lineal?

Es un modelo de predición que depende linealmente de las variables de entrada, o independientes, se escribe en la forma: \[ \hat{Y} = \hat{\beta_0} + \hat{\beta_1}X_1 + \hat{\beta_2}X_2 + \ldots, \] donde \(X_i\) son las variables que caracterizan a cada uno de nuestros sujetos de crédito. Por ejmeplo:

  • edad,
  • salario,
  • labora actualmete,
  • tiene otros crĆ©ditos, etc.

Ejemplo de juguete

Tenemos una muestra de 500 personas que tuvieron acceso a un crédito, a un plazo de 10 años. Al finalizar los 10 años del plazo, así se vió la incidencia de impago:

¿Cómo se usa la regresión lineal en este caso?

Datos

##    income default
## 1 111.168   FALSE
## 2  56.400   FALSE
## 3  36.744    TRUE
## 4  55.992   FALSE
## 5  62.040   FALSE
## 6  43.752   FALSE
## 7  79.008   FALSE
## 8  45.408   FALSE
##      income        default       
##  Min.   : 23.93   Mode :logical  
##  1st Qu.: 47.99   FALSE:374      
##  Median : 58.62   TRUE :126      
##  Mean   : 66.30   NA's :0        
##  3rd Qu.: 73.50                  
##  Max.   :254.95

Creando el modelo

## 
## Call:
## lm(formula = !default ~ income)
## 
## Coefficients:
## (Intercept)       income  
##     0.64229      0.00159

Es decir, nuestro modelo queda cómo \[ Y = 0.6422875 + 0.0015945 X \] \(Y:\) Probabilidad de pago completo, \(X:\) ingreso anual/(1000 pesos)

¿Cómo se ve nuestro modelo comparado con los datos?

Poniendo a prueba el modelo

ĀæQue tan bueno para predecir es nuetro modelo?

¿Cómo depende nuestra tasa de impago respecto al rechazo?

Conclusiones

  • El metodo de regresión lineal sigue siendo buena opción en muchos casos.
  • Es un mĆ©todo sencillo de aplicar.
  • Es fĆ”cil interpretar los resultados.

Referencias y código