El partido muestra preocupación por que no se aprovechen a votantes indecisos que potencialmente podrían votar al partido, y con ello se pierda la parte proporcional de las subvenciones que se podrían obtener por sus votos
Para ello, la presidencia del partido nos solicita el desarrollo de un algoritmo predictivo para que a partir de datos sociodemográficos de ciudadanos, se obtenga su posible intención de voto al partido, y con ello el poder realizar una campaña electoral basada en una carta personalizada a dichos potenciales votantes
Seleccionar a partir de un conjunto de ciudadanos con su su perfil sociodemográfico, potenciales votantes al partido y su probabilidad de voto
Calcular el beneficio neto esperado al enviarles una carta personalizada. Los Datos económicos: según los datos que nos ha facilitado el presidente del partido son:
DE LOS 18.679 CIUDADANOS ANALIZADOS, EL ALGORITMO INDICA QUE DEBERIAMOS SELECCIONAR PARA EL ENVIO DE CARTA UN TOTAL DE 2.408 CIUDADANOS, YA QUE SON LOS QUE SE ESTIMA QUE SE SITUEN ENTRE 45% Y UN 75% DE PROBABILIDAD DE INTENCION DE VOTO AL PARTIDO
AL ENVIARLES LA CARTA A CADA UNO DE ELLOS ES ESPERADO UN COSTE ESTIMADO TOTAL DE 602 €, Y UNOS INGRESOS TOTALES DE 1.082,8 €, SIENDO POR TANTO EL BENEFICIO ESPERADO DE 480,8 €
Podemos visualizar los ingresos y costes agregados, asi como el margen neto esperado
Además, la siguiente información ha sido generada para todos los ciudadanos seleccionados
| CIUDADANO | PROBABILIDAD | MARGEN_NETO |
|---|---|---|
| 20764 | 0.7453586 | 0.3835548 |
| 40872 | 0.7453586 | 0.3835548 |
| 5820 | 0.7450614 | 0.3833022 |
| 29197 | 0.7435090 | 0.3819827 |
| 3340 | 0.7433692 | 0.3818638 |
| 10955 | 0.7433692 | 0.3818638 |
Rangos de probabilidad: En base a las probabilidades de voto de ciudadanos conseguidas por el algoritmo predictivo estableceremos los sigientes criterios
A los ciudadanos con intencion de voto superior al 75% consideraremos que no es necesario carta ya que votarán igualmente al partido
A los ciudadanos con intencion de voto inferior al 45% consideraremos que no es necesario carta ya que dificilmente serán convencidos por la carta
A los ciudadanos entre el 45% y el 75% de intención de voto, consideraremos que pueden estar dudosos y con la carta podremos convencerles para el voto
Fuente de datos para el entrenamiento del algoritmo:
Cada mes el CIS genera unos paquetes de
información de encuestas a los ciudadanos que les llama
barómetros.
(https://www.cis.es/catalogo-estudios/resultados-definidos/buscador-estudios)
Se trata de encuestas a unos 4.000 ciudadanos diferentes cada mes, y para tener un números de observaciones representativo se han cogido 12 meses y se han unido las observaciones en un solo paquete, para tener un total de 48.679 observaciones. Cada una de estas observaciones se compone tanto de datos sociodemográficos como de respuestas de los ciudadanos.
Posteriormete, el paquete inicial de datos de 48.679 ciudadanos se ha dividido en dos grupos:
Variables independientes: Se han seleccionado tan solo datos sociodemográficos, ya que se trata precisamente de hallar un modelo predictivo en base a esos datos relativamente fáciles de conseguir, y sin tener que preguntar nada para poder aplicar el modelo
Variable objetivo: se ha construido en base a la respuesta INTENCIONGR, que informa de la respuesta del ciudadano encuestado a la pregunta de que partido votaría ahora mismo, es decir su intención de voto. La intención de votar al partido es INTENCIONGR==2, por lo que la target la construimos así: PP=if (INTENCIONGR==2,1,0)
Datos N.S/N.C y voto nulo: Se ha creído conveniente considerar en el set de datos a los ciudadanos con intención de voto de los tipos: N.S, N.C y voto nulo, ya que al entrenar al modelo incluyendo esos tipos, afinamos mejor que la intención de voto sea realmente por votar al partido, y con ello no desperdiciemos cartas.
Fuente de datos: Se ha trabajado sobre un histórico de estudios del CIS compuesto de 12 barómetros mensuales
Se han revisado los 12 barómetros y se han hecho los ajustes previos de homogeneidad para poder hacer su unión en un solo informe:
Algoritmo:
Se han entrenado 3 modelos con los datos y se ha elegido regresión lineal por ser el mejor, siendo aun así de calidad media.
Métricas de los 3 algoritmos:
## Regresion Logistica Arbol Decision Random Forest
## umbral 0.25000 0.25000 0.20000
## acierto 67.97349 67.82745 63.48012
## precision 41.26768 40.57011 37.11034
## cobertura 68.67361 63.78452 67.90403
## F1 51.55480 49.59521 47.99232
## AUC 74.00000 70.00000 70.00000
Caso de uso testeado: