Barrio
## # A tibble: 48 x 3
## pe_subseccion count prop
## <chr> <int> <dbl>
## 1 PALERMO 5830 7.32
## 2 CABALLITO 5471 6.87
## 3 ALMAGRO 4266 5.36
## 4 BALVANERA 3969 4.99
## 5 FLORES 3853 4.84
## 6 RECOLETA 3725 4.68
## 7 BELGRANO 3090 3.88
## 8 VILLA CRESPO 3000 3.77
## 9 VILLA LUGANO 2701 3.39
## 10 VILLA URQUIZA 2538 3.19
## # ... with 38 more rows
Ahora vamos a ver que otros intereses tienen asociados
## [1] "Numero total de interesados en musica: 79604"
## # A tibble: 10 x 3
## tag count porcentaje
## <chr> <int> <dbl>
## 1 ICulUda 23796 29.9
## 2 DDatCas 22703 28.5
## 3 ICulMus 21955 27.6
## 4 IGas 21410 26.9
## 5 ISal 21201 26.6
## 6 PExpIns 19797 24.9
## 7 ICulTea 19051 23.9
## 8 IRelCju 18718 23.5
## 9 PBajIns 18642 23.4
## 10 CMib 17570 22.1
Aplicamos un modelo de Random Forest para ver la importancia de cada variable a la hora de decidir. Para ello vamos a armar una variable 0 y 1 para las personas que ademas de estar interesadas en musica y sorteos de musica tambien lo estan en Usina del Arte, el cual es el primero en la lista de intereses asociados.
## 0 1 MeanDecreaseAccuracy MeanDecreaseGini
## casa 0.000000e+00 0.000000e+00 0.000000e+00 0.6285537
## hijos 5.931351e-05 5.850469e-06 4.328519e-05 4.4087664
## NSE 2.926510e-04 -3.156886e-04 1.104609e-04 60.9817154
## auto -3.078795e-05 1.488542e-04 2.258810e-05 66.3869421
## pe_seccion 1.314563e-03 4.267782e-03 2.198201e-03 282.5828129
## Sexo 2.668612e-03 7.619636e-03 4.148561e-03 348.5591773
## Edad 2.197885e-03 4.481172e-03 2.880619e-03 351.7587026
En base al modelo Random Forest podemos decir que las variables mas importantes son Comuna, Edad y Genero,y en menor medida NSE y si la persona posee o no auto.
Vamos a llevar a cabo un arbol de decision para poder desarrollar algunos insights para ver a que parte de la poblacion apuntar.
Se llevo a cabo un arbol de decision con el cual se obtiene un 68% de precision a la hora de decidir si a una persona interesada en musica o en sorteos se puede decir que tambien le interesaria alguna comunicacion sobre Usina del Arte.
Los insights a tener en cuenta son:
- Personas del sexo femenino, que no poseen auto, mayores a 29 anos de la comuna 4.
- Personas del genero femenino que tienen auto, de las comunas 1 y 4, con un NSE B1, B2 Y C1.
- Individuos del genero femenino, que poseen vehiculo, de las comunas 2, 3, 5, 6, 13, 14 y 15, con hijos.
- Personas del sexo masculino mayores a 34 anos de las comunas 1, 2, 3, 4, 5, 6, 13, 14 y 15.
## Start: AIC=64514.28
## compteat_si ~ Edad + NSE + pe_seccion + Sexo + auto + hijos
##
## Df Deviance AIC
## <none> 64464 64514
## - hijos 1 64516 64564
## - auto 1 64608 64656
## - NSE 6 64694 64732
## - Edad 1 64925 64973
## - Sexo 1 65302 65350
## - pe_seccion 14 65477 65499
##
## Call:
## glm(formula = compteat_si ~ Edad + NSE + pe_seccion + Sexo +
## auto + hijos, family = binomial, data = datos.entreno)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.5940 -0.8665 -0.6971 1.2403 2.4070
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.3017394 0.0551031 -23.624 < 2e-16 ***
## Edad 0.0146934 0.0006856 21.431 < 2e-16 ***
## NSEB1 -0.1158875 0.0373192 -3.105 0.001901 **
## NSEB2 -0.0281265 0.0389735 -0.722 0.470490
## NSEB3 -0.1469127 0.0445334 -3.299 0.000971 ***
## NSEC1 -0.1674943 0.0476918 -3.512 0.000445 ***
## NSEC2 -0.5087283 0.0609349 -8.349 < 2e-16 ***
## NSEC3 -0.9413549 0.0769475 -12.234 < 2e-16 ***
## pe_seccion2 -0.4208295 0.0601429 -6.997 2.61e-12 ***
## pe_seccion3 -0.4624032 0.0498146 -9.282 < 2e-16 ***
## pe_seccion4 0.1613856 0.0483244 3.340 0.000839 ***
## pe_seccion5 -0.3264496 0.0484871 -6.733 1.67e-11 ***
## pe_seccion6 -0.3077428 0.0493597 -6.235 4.53e-10 ***
## pe_seccion7 -0.5880234 0.0516732 -11.380 < 2e-16 ***
## pe_seccion8 -0.9202326 0.0759483 -12.117 < 2e-16 ***
## pe_seccion9 -0.9712424 0.0621267 -15.633 < 2e-16 ***
## pe_seccion10 -0.8823146 0.0575714 -15.326 < 2e-16 ***
## pe_seccion11 -0.7852287 0.0527852 -14.876 < 2e-16 ***
## pe_seccion12 -0.7230247 0.0507328 -14.252 < 2e-16 ***
## pe_seccion13 -0.4952432 0.0494876 -10.007 < 2e-16 ***
## pe_seccion14 -0.3051901 0.0510853 -5.974 2.31e-09 ***
## pe_seccion15 -0.5029277 0.0489855 -10.267 < 2e-16 ***
## Sexo1 0.6048539 0.0207924 29.090 < 2e-16 ***
## auto1 0.2555968 0.0213908 11.949 < 2e-16 ***
## hijos1 0.1517136 0.0211416 7.176 7.17e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 67993 on 55726 degrees of freedom
## Residual deviance: 64464 on 55702 degrees of freedom
## AIC: 64514
##
## Number of Fisher Scoring iterations: 4
Para entender aun mas que variables es mas importante tener en cuenta se llevo a cabo un modelo de regresion logistica para poder visualizar de que manera actua cada variable con respecto a la respuesta. Un valor negativo ayudaria a predecir un valor 0 de la respuesta, mientras que un valor positivo nos diria que esta mas cerca a interesarle la Usina del Arte.
Con respecto a lo analizado podemos decir:
- Dentro de las comunas, los individuos de la comuna 4 son los unicos que aportan significativamente a la respuesta “interes en la Usina del Arte”. Mientras que dentro de las demas comunas hay que tener en cuenta aquellas que resten menos, como por ejemplo las comunas 14, 5 y 6.
- Si hablamos de genero, el sexo masculino es el que suma a la hora decidir si una persona le interesa o no la Usina del Arte (en proporcion el 40% de los masculinos le interesa “Usina del Arte”, mientras que para el total de individuos femeninos interesados en musica, solo el 25% esta interesado en dicho topico)
- En relacion a “Tiene auto” o “Tiene hijos”, si ambos son positivos, es decir si tienen auto o tienen hijos, aporta significativamente a la respuesta interes en Usina del Arte.
- Como se vio en los graficos la clase social media-media (B2) es la que mas aporta, por ello es la que tiene un coeficiente mayor (si bien todos son negativos, el NSE B2 es el mayor)
- El coeficiente de edad es muy pequeno, a mas edad mayor es el aporte para la respuesta interes en Usina del Arte.