Septiembre 22 y , 2015

Regresión Logística

\[ p(y_{i}=1) = \frac{1}{1 + \exp{(-f({\bf x}_{i}))}}, \] con \(f({\bf x_i}) = \sum_{k = 0}^{M} \beta_{k}x_{ik}\)

Método de Maximim Likelihood

  • El método de regresión logística usa un ajuste, y cómo en todo ajuste hay errores (o residuos).

Distribución de errores (residuos)

Distribución binomial

¿Qué es la función de Likelihood?

Para una regresión logística, la distribución de residuos sigue una probabilidad binomial. La probabilidad de que dicha distribución de residuos se cumpla, dado que tenemos nuestro modelo \(p = 1/(1 + \exp{(-f({\bf X}))})\)
\[ F(abs(y-p)|\beta) = \prod_{i=1}^{N}\frac{n_{i}!}{s_{i}(n_{i}-s_{i})!} p_i^{s_i} (1-p_i)^{n_i-s_i} \]

con \(s_i<=n_i\) el número de intentos exitosos (\(s_i\) buenos pagadores, con \(n_i\) solicitantes).

La función de Likelihood se contruye tomando \(L(\beta|p) = F((1-p)|\beta)\), y se interpreta como la probabilidad de que los parámetros \(\beta\) sean los correctos, dado que se tiene una distribución de errores \((1-p)\).

Encontrando los parámetros correctos.

  • El conjuto de parámetros \(\hat{\beta}\) "correcto", es el que hace máxima la funciónde Likelihood.
  • Para encontrar el máximo se pueden seguir diversas estrategias.
  • Se puede "barrer" el espacio de parámetros, y encontrar el máximo valor de \(L\)
  • Se puede usar el método de Newton-Raphson para maximizar la función.
  • Puedel leer más detalles en: http://czep.net/stat/mlelr.pdf

Resumen

  • Es el método más general para realizar un ajuste
  • Tiene la desventaja que se necesita conocer la distribución de errores
  • Es computacionalmente más costoso que mínimos cuadrados
  • Coincide con mínimos cuadrados cuando los errores siguen una distribución gaussiana.