ID Petición

Número 1: Optimización campaña captación de votos con machine learning

Contexto

El partido muestra preocupación por que no se aprovechen a votantes indecisos que potencialmente podrían votar al partido, y con ello se pierda la parte proporcional de las subvenciones que se podrían obtener por sus votos
Para ello, la presidencia del partido nos solicita el desarrollo de un algoritmo predictivo para que a partir de datos sociodemográficos de ciudadanos, se obtenga su posible intención de voto al partido, y con ello el poder realizar una campaña electoral basada en una carta personalizada a dichos potenciales votantes

Requirimientos del proyecto

Seleccionar a partir de un conjunto de ciudadanos con su su perfil sociodemográfico, potenciales votantes al partido y su probabilidad de voto
Calcular el beneficio neto esperado al enviarles una carta personalizada. Los Datos económicos: según los datos que nos ha facilitado el presidente del partido son:
- Cada voto conseguido al partido proporcionará al partido un ingreso proporcional en subvenciones de 0.85 euros
- El coste medio de acción electoral de una carta personalizada a un ciudadano es de 0.25 euros

Resultados:

DE LOS 18.679 CIUDADANOS ANALIZADOS, EL ALGORITMO INDICA QUE DEBERIAMOS SELECCIONAR PARA EL ENVIO DE CARTA UN TOTAL DE 2.408 CIUDADANOS, YA QUE SON LOS QUE SE ESTIMA QUE SE SITUEN ENTRE 45% Y UN 75% DE PROBABILIDAD DE INTENCION DE VOTO AL PARTIDO

AL ENVIARLES LA CARTA A CADA UNO DE ELLOS ES ESPERADO UN COSTE ESTIMADO TOTAL DE 602 €, Y UNOS INGRESOS TOTALES DE 1.082,8 €, SIENDO POR TANTO EL BENEFICIO ESPERADO DE 480,8 €

Podemos visualizar los ingresos y costes agregados, asi como el margen neto esperado

Además, la siguiente información ha sido generada para todos los ciudadanos seleccionados

CIUDADANO	PROBABILIDAD	MARGEN_NETO
20764	0.7453586	0.3835548
40872	0.7453586	0.3835548
5820	0.7450614	0.3833022
29197	0.7435090	0.3819827
3340	0.7433692	0.3818638
10955	0.7433692	0.3818638

Hipótesis utilizadas

Rangos de probabilidad: En base a las probabilidades de voto de ciudadanos conseguidas por el algoritmo predictivo estableceremos los sigientes criterios

A los ciudadanos con intencion de voto superior al 75% consideraremos que no es necesario carta ya que votarán igualmente al partido
A los ciudadanos con intencion de voto inferior al 45% consideraremos que no es necesario carta ya que dificilmente serán convencidos por la carta
A los ciudadanos entre el 45% y el 75% de intención de voto, consideraremos que pueden estar dudosos y con la carta podremos convencerles para el voto

Fuente de datos para el entrenamiento del algoritmo:

Cada mes el CIS genera unos paquetes de información de encuestas a los ciudadanos que les llama barómetros.
(https://www.cis.es/catalogo-estudios/resultados-definidos/buscador-estudios)
Se trata de encuestas a unos 4.000 ciudadanos diferentes cada mes, y para tener un números de observaciones representativo se han cogido 12 meses y se han unido las observaciones en un solo paquete, para tener un total de 48.679 observaciones. Cada una de estas observaciones se compone tanto de datos sociodemográficos como de respuestas de los ciudadanos.
Posteriormete, el paquete inicial de datos de 48.679 ciudadanos se ha dividido en dos grupos:

df_modelaje (30.000 ciudadanos): usado para el modelaje (train + test) ,
df_aplicacion (18.679 ciudadanos): usado para obtener la predicción de intención de voto al partido de los ciudadanos cuyos datos sociodemográficos el modelo aun no habría visto y que ha servido para el caso de uso, en el cual también hemos podido obtener la desviación del modelo respecto a la intencion de voto de los ciudadanos en este grupo.

Variables independientes: Se han seleccionado tan solo datos sociodemográficos, ya que se trata precisamente de hallar un modelo predictivo en base a esos datos relativamente fáciles de conseguir, y sin tener que preguntar nada para poder aplicar el modelo

Variable objetivo: se ha construido en base a la respuesta INTENCIONGR, que informa de la respuesta del ciudadano encuestado a la pregunta de que partido votaría ahora mismo, es decir su intención de voto. La intención de votar al partido es INTENCIONGR==2, por lo que la target la construimos así: PP=if (INTENCIONGR==2,1,0)

- Nota: No se ha seleccionado la respuesta de lo que votó en las últimas elecciones ya que desde entonces ha podido cambiar. Si lo hacemos con la respuesta intención de voto, aunque las intenciones de ciudadanos encuestados los primeros meses también haya podido variar hasta el mes actual, vamos a suponer que aun así reflejarán mejor la probabilidad de voto.

Datos N.S/N.C y voto nulo: Se ha creído conveniente considerar en el set de datos a los ciudadanos con intención de voto de los tipos: N.S, N.C y voto nulo, ya que al entrenar al modelo incluyendo esos tipos, afinamos mejor que la intención de voto sea realmente por votar al partido, y con ello no desperdiciemos cartas.

Detalle del trabajo realizado

Fuente de datos: Se ha trabajado sobre un histórico de estudios del CIS compuesto de 12 barómetros mensuales

Se han revisado los 12 barómetros y se han hecho los ajustes previos de homogeneidad para poder hacer su unión en un solo informe:

Se han elegido variables comunes
Se han elegido las variables sociodemográficas más representativas
Se han hecho ajuste en nombres de variables que se llamaban diferente pero eran lo mismo
Se han revisado las categorías de las codificaciones y sus descripciones, y se han hecho los ajustes para que sean homogéneas

Algoritmo:

Se han entrenado 3 modelos con los datos y se ha elegido regresión lineal por ser el mejor, siendo aun así de calidad media.

Métricas de los 3 algoritmos:

##           Regresion Logistica Arbol Decision Random Forest
## umbral                0.25000        0.25000       0.20000
## acierto              67.97349       67.82745      63.48012
## precision            41.26768       40.57011      37.11034
## cobertura            68.67361       63.78452      67.90403
## F1                   51.55480       49.59521      47.99232
## AUC                  74.00000       70.00000      70.00000

Caso de uso testeado:

Extraido el conjunto de datos con con una probabilidad de entre el 45% y el 75% de voto al partido, y calculada la rentabilidad estimada del grupo al enviar la carta
Hallado el desvio del modelo respecto a la realidad: -1.05 %

Optimización campaña captación de votos

Data Science Team