Queremos empezar a encontrar relaciones interesantes en los datos. Empezamos por descargar los datos y declarar librerías
## <environment: R_GlobalEnv>
Vamos a identificar las variables que tengan fecha, las convertiremos de caracteres a formato fecha y de ahi crearemos las columnas dia de la semana y mes. De aquí podriamos calcular, la edad de las personas, configurar rangos de edades, el mes de la factura,la hora de la factura,
Queremos analizar los clientes que usan hicieron más de una compra en el centro comercial de los que no. La idea que tengo es que identificar cuantos facturas existen por cada cliente. Los clientes que tengan más de una factura que clasificarían como si recompraron, mientras que los que tengan una sola factura los clasificaremos como No en la variable categórica recompra
Hay 7382 contratos de clientes que al menos una vez hicieron una compra, pero de ellos 6959 volvieron a efectuar más de una compra. Entonces es obvio que si hay clientes que hacen compras frecuentemente. El porcentaje de Churn es del 5.73 %.
En caso de que se incluya el valor facturado al modelo se recomienda hacer transformación a los datos.
Finalmente empezaremos por unir los datos de tiendas y usuarios con las tablas de: usuarios-tiendas-seleccionadas y usuarios-tiendas-categorias para analizar a los usuarios por tiendas visitadas y categorías.
##
## To cite qcc in publications use:
##
## Scrucca, L. (2004). qcc: an R package for quality control
## charting and statistical process control. R News 4/1, 11-17.
##
## A BibTeX entry for LaTeX users is
##
## @Article{,
## title = {qcc: an R package for quality control charting and statistical process control},
## author = {Luca Scrucca},
## journal = {R News},
## year = {2004},
## pages = {11--17},
## volume = {4/1},
## url = {http://CRAN.R-project.org/doc/Rnews/},
## }
##
## Pareto chart analysis for y[1:10]
## Frequency Cum.Freq. Percentage Cum.Percent.
## Exito 236211745 236211745 44.8037433 44.80374
## Falabella 177305599 413517344 33.6306501 78.43439
## Zara 51906490 465423834 9.8454251 88.27982
## Pepe Ganga 14629435 480053269 2.7748555 91.05467
## Naf Naf 10265871 490319140 1.9471913 93.00187
## Bella Piel 9043002 499362142 1.7152421 94.71711
## Bosi 8407600 507769742 1.5947215 96.31183
## MNG 7449399 515219141 1.4129736 97.72480
## La Riviera 7448626 522667767 1.4128270 99.13763
## Drogueria Cafam 4546541 527214308 0.8623706 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## Técnico/Tecnólogo 288650.72 288650.7 28.63843 28.63843
## Posgrado 283136.15 571786.9 28.09130 56.72974
## No determinado 247311.82 819098.7 24.53700 81.26674
## Profesional 121866.38 940965.1 12.09095 93.35769
## Secundaria 66948.76 1007913.8 6.64231 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## No determinado 569311809 569311809 39.912676 39.91268
## Posgrado 433198303 1002510112 30.370182 70.28286
## Profesional 375835913 1378346025 26.348684 96.63154
## Secundaria 26110018 1404456043 1.830492 98.46203
## Técnico/Tecnólogo 21937455 1426393498 1.537967 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## 12 468637508 468637508 32.854714 32.85471
## 2 171536987 640174495 12.025923 44.88064
## 11 160945438 801119933 11.283383 56.16402
## 4 159767301 960887234 11.200787 67.36481
## 3 148288211 1109175445 10.396024 77.76083
## 1 122759360 1231934805 8.606276 86.36711
## 10 121147491 1353082296 8.493273 94.86038
## 9 73311202 1426393498 5.139620 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## sábado 336150296 336150296 23.566449 23.56645
## jueves 233279187 569429483 16.354476 39.92093
## viernes 214345772 783775255 15.027114 54.94804
## miércoles 198005892 981781147 13.881576 68.82961
## martes 154359584 1136140731 10.821669 79.65128
## lunes 150668099 1286808830 10.562871 90.21415
## domingo 139584668 1426393498 9.785846 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## No determinado 569311809 569311809 39.912676 39.91268
## Casado 496353240 1065665049 34.797778 74.71045
## Soltero 346159999 1411825048 24.268198 98.97865
## Viudo 14568450 1426393498 1.021349 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## Soltero 250658.9 250658.9 31.29414 31.29414
## No determinado 247311.8 497970.8 30.87626 62.17040
## Viudo 165550.6 663521.3 20.66857 82.83898
## Casado 137455.9 800977.2 17.16102 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## No determinado 654805955 654805955 45.90640352 45.90640
## Usaquén 384153624 1038959579 26.93181261 72.83822
## Chicó 153320563 1192280142 10.74882655 83.58704
## Puente Aranda 124850748 1317130890 8.75289660 92.33994
## Engativa 50707292 1367838182 3.55493011 95.89487
## Suba 46906534 1414744716 3.28847082 99.18334
## Ciudad Kennedy 4614317 1419359033 0.32349538 99.50684
## Tunjuelito 4345184 1423704217 0.30462730 99.81146
## Fontibón 1063050 1424767267 0.07452712 99.88599
## Chapinero 818799 1425586066 0.05740344 99.94339
## Barrios Unidos 807432 1426393498 0.05660654 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## (45,65] 752092267 752092267 52.726843 52.72684
## (35,45] 250829244 1002921511 17.584856 70.31170
## (65,Inf] 209556712 1212478223 14.691368 85.00307
## (25,35] 94040078 1306518301 6.592857 91.59592
## (18,25] 72787141 1379305442 5.102879 96.69880
## (-1,18] 47088056 1426393498 3.301197 100.00000
##
## Pareto chart analysis for y
## Frequency Cum.Freq. Percentage Cum.Percent.
## (18,25] 463612.4 463612.4 29.973242 29.97324
## (-1,18] 370772.1 834384.5 23.970978 53.94422
## (45,65] 214944.9 1049329.4 13.896515 67.84073
## (25,35] 185483.4 1234812.8 11.991782 79.83252
## (65,Inf] 183178.9 1417991.7 11.842796 91.67531
## (35,45] 128762.4 1546754.2 8.324687 100.00000
Es muy posible que los resultados del análisis de árboles se vea distorcionado por la poca cantidad de datos asi como el hecho de que hay usuarios que no han querido especificar su genero, estado civil, edad y nivel educativo.
Es muy posible que los resultados del análisis de cajas también se vea distorcionado por la poca cantidad de datos asi como el hecho de que hay usuarios que no han querido especificar su genero, estado civil, edad y nivel educativo.
Del primer análisis de cajas se evidencia la existencia de datos atípicos y que las mujeres tienen mayor variabilidad de precios en los valores facturados.
## Warning: cex and tweak both specified, applying both
Seleccionaremos las siguientes variables para determinar si hay correlación entre las siguientes variables:Tienda,valor,documento, genero,ciudad,sector,nivel_educativo,estado.civil,hijos,week.day,rango.edad y recompra.
Del análisis de individuos se puede apreciar como hay mayor cantidad de personas que recompran que las que no. Se necesitaría más datos para predecir mejor los que no harían recompras.
Del Análisis multifactorial podemos evidenciár la correlación negativa que hay entre recompra y rango de edades.También hay correlación negativa entre recompra y valor facturado, pero el tamaño del vector es tan pequeño que no se puede afirmar. Parececiera haber una correlación positiva con No de hijos del usuario.
También viendo la gráfica veo que es mejor convertir las variables factor a dummies e intentar mejorar el modelo con esa transformación a las variables categóricas.