Hacemos un analisis descriptivo de las personas interesadas en musica.

Edad

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   20.00   31.00   41.00   43.25   54.00   96.00

Sexo

NSE

Barrio

## # A tibble: 48 x 3
##    pe_subseccion count  prop
##    <chr>         <int> <dbl>
##  1 PALERMO        5830  7.32
##  2 CABALLITO      5471  6.87
##  3 ALMAGRO        4266  5.36
##  4 BALVANERA      3969  4.99
##  5 FLORES         3853  4.84
##  6 RECOLETA       3725  4.68
##  7 BELGRANO       3090  3.88
##  8 VILLA CRESPO   3000  3.77
##  9 VILLA LUGANO   2701  3.39
## 10 VILLA URQUIZA  2538  3.19
## # ... with 38 more rows

Comuna

Ahora vamos a ver que otros intereses tienen asociados

## [1] "Numero total de interesados en musica: 79604"
## # A tibble: 10 x 3
##    tag     count porcentaje
##    <chr>   <int>      <dbl>
##  1 ICulUda 23796       29.9
##  2 DDatCas 22703       28.5
##  3 ICulMus 21955       27.6
##  4 IGas    21410       26.9
##  5 ISal    21201       26.6
##  6 PExpIns 19797       24.9
##  7 ICulTea 19051       23.9
##  8 IRelCju 18718       23.5
##  9 PBajIns 18642       23.4
## 10 CMib    17570       22.1

Aplicamos un modelo de Random Forest para ver la importancia de cada variable a la hora de decidir. Para ello vamos a armar una variable 0 y 1 para las personas que ademas de estar interesadas en musica y sorteos de musica tambien lo estan en Usina del Arte, el cual es el primero en la lista de intereses asociados.

##                        0             1 MeanDecreaseAccuracy MeanDecreaseGini
## casa        0.000000e+00  0.000000e+00         0.000000e+00        0.6285537
## hijos       5.931351e-05  5.850469e-06         4.328519e-05        4.4087664
## NSE         2.926510e-04 -3.156886e-04         1.104609e-04       60.9817154
## auto       -3.078795e-05  1.488542e-04         2.258810e-05       66.3869421
## pe_seccion  1.314563e-03  4.267782e-03         2.198201e-03      282.5828129
## Sexo        2.668612e-03  7.619636e-03         4.148561e-03      348.5591773
## Edad        2.197885e-03  4.481172e-03         2.880619e-03      351.7587026

En base al modelo Random Forest podemos decir que las variables mas importantes son Comuna, Edad y Genero,y en menor medida NSE y si la persona posee o no auto.

Vamos a llevar a cabo un arbol de decision para poder desarrollar algunos insights para ver a que parte de la poblacion apuntar.

Se llevo a cabo un arbol de decision con el cual se obtiene un 68% de precision a la hora de decidir si a una persona interesada en musica o en sorteos se puede decir que tambien le interesaria alguna comunicacion sobre Usina del Arte.

Los insights a tener en cuenta son:

  • Personas del sexo femenino, que no poseen auto, mayores a 29 anos de la comuna 4.
  • Personas del genero femenino que tienen auto, de las comunas 1 y 4, con un NSE B1, B2 Y C1.
  • Individuos del genero femenino, que poseen vehiculo, de las comunas 2, 3, 5, 6, 13, 14 y 15, con hijos.
  • Personas del sexo masculino mayores a 34 anos de las comunas 1, 2, 3, 4, 5, 6, 13, 14 y 15.
## Start:  AIC=64514.28
## compteat_si ~ Edad + NSE + pe_seccion + Sexo + auto + hijos
## 
##              Df Deviance   AIC
## <none>             64464 64514
## - hijos       1    64516 64564
## - auto        1    64608 64656
## - NSE         6    64694 64732
## - Edad        1    64925 64973
## - Sexo        1    65302 65350
## - pe_seccion 14    65477 65499
## 
## Call:
## glm(formula = compteat_si ~ Edad + NSE + pe_seccion + Sexo + 
##     auto + hijos, family = binomial, data = datos.entreno)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.5940  -0.8665  -0.6971   1.2403   2.4070  
## 
## Coefficients:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -1.3017394  0.0551031 -23.624  < 2e-16 ***
## Edad          0.0146934  0.0006856  21.431  < 2e-16 ***
## NSEB1        -0.1158875  0.0373192  -3.105 0.001901 ** 
## NSEB2        -0.0281265  0.0389735  -0.722 0.470490    
## NSEB3        -0.1469127  0.0445334  -3.299 0.000971 ***
## NSEC1        -0.1674943  0.0476918  -3.512 0.000445 ***
## NSEC2        -0.5087283  0.0609349  -8.349  < 2e-16 ***
## NSEC3        -0.9413549  0.0769475 -12.234  < 2e-16 ***
## pe_seccion2  -0.4208295  0.0601429  -6.997 2.61e-12 ***
## pe_seccion3  -0.4624032  0.0498146  -9.282  < 2e-16 ***
## pe_seccion4   0.1613856  0.0483244   3.340 0.000839 ***
## pe_seccion5  -0.3264496  0.0484871  -6.733 1.67e-11 ***
## pe_seccion6  -0.3077428  0.0493597  -6.235 4.53e-10 ***
## pe_seccion7  -0.5880234  0.0516732 -11.380  < 2e-16 ***
## pe_seccion8  -0.9202326  0.0759483 -12.117  < 2e-16 ***
## pe_seccion9  -0.9712424  0.0621267 -15.633  < 2e-16 ***
## pe_seccion10 -0.8823146  0.0575714 -15.326  < 2e-16 ***
## pe_seccion11 -0.7852287  0.0527852 -14.876  < 2e-16 ***
## pe_seccion12 -0.7230247  0.0507328 -14.252  < 2e-16 ***
## pe_seccion13 -0.4952432  0.0494876 -10.007  < 2e-16 ***
## pe_seccion14 -0.3051901  0.0510853  -5.974 2.31e-09 ***
## pe_seccion15 -0.5029277  0.0489855 -10.267  < 2e-16 ***
## Sexo1         0.6048539  0.0207924  29.090  < 2e-16 ***
## auto1         0.2555968  0.0213908  11.949  < 2e-16 ***
## hijos1        0.1517136  0.0211416   7.176 7.17e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 67993  on 55726  degrees of freedom
## Residual deviance: 64464  on 55702  degrees of freedom
## AIC: 64514
## 
## Number of Fisher Scoring iterations: 4

Para entender aun mas que variables es mas importante tener en cuenta se llevo a cabo un modelo de regresion logistica para poder visualizar de que manera actua cada variable con respecto a la respuesta. Un valor negativo ayudaria a predecir un valor 0 de la respuesta, mientras que un valor positivo nos diria que esta mas cerca a interesarle la Usina del Arte.

Con respecto a lo analizado podemos decir:

  • Dentro de las comunas, los individuos de la comuna 4 son los unicos que aportan significativamente a la respuesta “interes en la Usina del Arte”. Mientras que dentro de las demas comunas hay que tener en cuenta aquellas que resten menos, como por ejemplo las comunas 14, 5 y 6.
  • Si hablamos de genero, el sexo masculino es el que suma a la hora decidir si una persona le interesa o no la Usina del Arte (en proporcion el 40% de los masculinos le interesa “Usina del Arte”, mientras que para el total de individuos femeninos interesados en musica, solo el 25% esta interesado en dicho topico)
  • En relacion a “Tiene auto” o “Tiene hijos”, si ambos son positivos, es decir si tienen auto o tienen hijos, aporta significativamente a la respuesta interes en Usina del Arte.
  • Como se vio en los graficos la clase social media-media (B2) es la que mas aporta, por ello es la que tiene un coeficiente mayor (si bien todos son negativos, el NSE B2 es el mayor)
  • El coeficiente de edad es muy pequeno, a mas edad mayor es el aporte para la respuesta interes en Usina del Arte.