Planteamiento del problema

En algunos casos, podemos pensar que calibrar modelos o hacer predicciones a partir de datos a “ojo” puede ser una manera rápida y aceptablemente efectiva de sacar conclusiones. Es posible que en algunos casos, cuando tenemos conjuntos de datos y escenarios muy simples, esta metodología de buenos resultados, en cambio, veremos que a medida que aumentamos la complejidad del escenario y el número de datos a tratar, se vuelve un procedimiento lioso y que no lleva a ningún resultado claro.

Metodología

Dividimos el presente taller en dos puntos. En primer lugar, haremos una optimización a ojo de un modelo lineal. Dicho de otra manera, buscaremos a ojo el valor que consideremos óptimo del intercepto y de la pendiente de la recta que mejor aproxime los puntos indicados en el conjunto de datos. En segundo lugar, haremos una optimización nuevamente a ojo pero en este caso de un modelo de regresión logística. En este caso buscamos repetir el procedimiento del punto 1 para un nuevo conjunto de datos más grande que dividiremos en intervalos.
Finalmente, incluimos nuestra respuesta a las tres preguntas planteadas en el ejercicio y también un breve glosario de términos útiles y relacionados con el tema.

library(mvtnorm)
library(MBESS)
library(Matrix)
library(readr)

Optimizando un modelo lineal a ojo

df.regresion <- read.csv('datos_regresion.csv', sep = " ")

par(mfrow = c(1,2))
puntos <- 10
plot(2, type="n", xlab="intercepto", ylab="pendiente", xlim=c(0, 2), ylim=c(1, 2),
     main = "Espacio de parámetros")
grid()
location<-locator(puntos,type="p", par(pch=16,col="blue"))

for(i in 1:puntos){
  png(paste0('imagen', i, '.png'))
  plot(df.regresion$x, df.regresion$y, xlim = c(-0.5, 1.5), las = 1,
       ylim = c(0, 3.5), xlab = 'x', ylab = 'y',
       main = paste('Linea de tendencia para pendiente: ',round(location$y[i],2),
                    'e intercepto: ', round(location$x[i], 2)))
  abline(a = location$x[i], b = location$y[i], col = "red")
  dev.off()
  
}

Optimizando un modelo de regresión logística a ojo

df.clasificacion <- read.csv('datos_clasificacion.csv', sep = " ")

x.sorted <- sort(df.clasificacion$x)
orden <- sort(df.clasificacion$x, index.return = TRUE)$ix
x.sorted.mat <- matrix(x.sorted, ncol=10, byrow=TRUE)

media.x.sort <- apply(x.sorted.mat, 1, mean)

y.interval <- as.numeric(df.clasificacion$y[orden])

y.interval.mat <- matrix(y.interval, ncol=10, byrow = TRUE)

media.y.interval <- apply(y.interval.mat, 1, mean)

puntos <- 10
plot(1, type="n", xlab="B0", ylab="B1", xlim=c(-8, -1), ylim=c(5, 15), las = 1,
     main = "Espacio de parámetros")
grid()
location.log<-locator(puntos,type="p", par(pch=16,col="blue"))

for(i in 1:puntos){
  B0 <- location.log$x[i]
  B1 <- location.log$y[i]
  x.plot = seq(0, 1, length = 100)
  y.plot = 1/(1+exp(-(B0+B1*x.plot)))
  
  png(paste0('grafica', i, '.png'))
  plot(media.x.sort, media.y.interval, xlim = c(0, 1), las = 1, type = "h",
       ylim = c(0, 1), xlab = 'x', ylab = 'P(Y=1|X=x)',
       main = paste('Curva logística para B1: ',round(B1,2),
                    'y B0: ', round(B0, 2)))
  lines(x.plot,y.plot, col = "red", lwd = 3)
  grid()
  dev.off()
  
}

Preguntas adicionales

¿Es posible calibrar modelos de aprendizaje de máquina a ojo?
No sería una técnica óptima ya que cuando deseamos mejorar la precisión de un modelo de pronóstico, optamos por enriquecer los datos del conjunto de características y por lo tanto a “Ojo” y con mayores volúmenes de datos no se lograría el objetivo de la calibración del modelo que es obtener el valor estimado de probabilidad que deriva en la certeza de que se tiene la correcta clasificación predicha.
¿Qué pasa con esta metodología cuando el número de parámetros aumenta?
Si ya de por si la metodología de calibrar modelos a ojo en contextos sencillos, es decir, con no muchos parámetros, puede llevar a resultados con algunos errores, al aumentar el número de parámetros haremos que el número de fallos que se puedan cometer crezca mucho y que se dificulte mucho la interpretación de los datos. En cambio, en estos casos en los que hay muchos parámetros, usando métodos que no sean a ojo obtendremos mejores resultados ya que cuanto más enriquecidos estén los datos mejor se llega al modelo deseado.
¿Cómo podría disponibilizar este método de ajuste gráfico de modelos dentro de una compañía?
El método complementaría las aplicaciones de la regresión logística, el ajuste de curvas permite encontrar la curva que contiene la serie de datos que cumplen unas condiciones definidas y deseadas.
La aplicación de la regresión logística en la empresa es amplia, el sector financiero lo viene aplicando en sus análisis de crédito para reducir los riesgos asociados a sus procesos de crédito, como por ejemplo definir entre los solicitantes la probabilidad de incumplir con sus obligaciones o proyectar sus ingresos por ventas, entre otros.
En el sector salud aporta elementos valiosos en los análisis de investigaciones clínicas y epidemiológicas que hoy aportan elementos importantes para las estrategias de cuidado en el marco de la pandemia.

Glosario

Regresión logística: es un procedimiento cuantitativo usado ampliamente para problemas donde la variable dependiente toma valores en un conjunto finito. Su uso se impone de manera creciente desde la década de los 80 debido a las facilidades computacionales con que se cuenta desde entonces.
Regresión lineal: es un procedimiento de regresión especialmente usado en aquéllos casos donde se busca modelar la probabilidad de un evento que ocurre en función de otros factores, al igual que en la regresión logística. La diferencia principal entre regresión logística y regresión lineal es que la primera es un procedimiento de clasificación que busca predecir entre dos opciones mientras que la segunda lo es de regresión y busca predecir un valor numérico.

Tarea Optimizar es divertido