Objetivo del Análisis

Queremos empezar a encontrar relaciones interesantes en los datos. Empezamos por descargar los datos y declarar librerías

## <environment: R_GlobalEnv>

Limpieza de datos de Fecha

Vamos a identificar las variables que tengan fecha, las convertiremos de caracteres a formato fecha y de ahi crearemos las columnas dia de la semana y mes. De aquí podriamos calcular, la edad de las personas, configurar rangos de edades, el mes de la factura,la hora de la factura,

Exploración de Datos

Análisis de Compras y recompras

Queremos analizar los clientes que usan hicieron más de una compra en el centro comercial de los que no. La idea que tengo es que identificar cuantos facturas existen por cada cliente. Los clientes que tengan más de una factura que clasificarían como si recompraron, mientras que los que tengan una sola factura los clasificaremos como No en la variable categórica recompra

Hay 7382 contratos de clientes que al menos una vez hicieron una compra, pero de ellos 6959 volvieron a efectuar más de una compra. Entonces es obvio que si hay clientes que hacen compras frecuentemente. El porcentaje de Churn es del 5.73 %.

Análisis de histogramas

En caso de que se incluya el valor facturado al modelo se recomienda hacer transformación a los datos.

Finalmente empezaremos por unir los datos de tiendas y usuarios con las tablas de: usuarios-tiendas-seleccionadas y usuarios-tiendas-categorias para analizar a los usuarios por tiendas visitadas y categorías.

Análisis de Paretos

## 
## To cite qcc in publications use:
## 
##   Scrucca, L. (2004). qcc: an R package for quality control
##   charting and statistical process control. R News 4/1, 11-17.
## 
## A BibTeX entry for LaTeX users is
## 
##   @Article{,
##     title = {qcc: an R package for quality control charting and statistical process control},
##     author = {Luca Scrucca},
##     journal = {R News},
##     year = {2004},
##     pages = {11--17},
##     volume = {4/1},
##     url = {http://CRAN.R-project.org/doc/Rnews/},
##   }

##                  
## Pareto chart analysis for y[1:10]
##                   Frequency Cum.Freq. Percentage Cum.Percent.
##   Exito           236211745 236211745 44.8037433     44.80374
##   Falabella       177305599 413517344 33.6306501     78.43439
##   Zara             51906490 465423834  9.8454251     88.27982
##   Pepe Ganga       14629435 480053269  2.7748555     91.05467
##   Naf Naf          10265871 490319140  1.9471913     93.00187
##   Bella Piel        9043002 499362142  1.7152421     94.71711
##   Bosi              8407600 507769742  1.5947215     96.31183
##   MNG               7449399 515219141  1.4129736     97.72480
##   La Riviera        7448626 522667767  1.4128270     99.13763
##   Drogueria Cafam   4546541 527214308  0.8623706    100.00000

##                    
## Pareto chart analysis for y
##                     Frequency Cum.Freq. Percentage Cum.Percent.
##   Técnico/Tecnólogo 288650.72  288650.7   28.63843     28.63843
##   Posgrado          283136.15  571786.9   28.09130     56.72974
##   No determinado    247311.82  819098.7   24.53700     81.26674
##   Profesional       121866.38  940965.1   12.09095     93.35769
##   Secundaria         66948.76 1007913.8    6.64231    100.00000

##                    
## Pareto chart analysis for y
##                     Frequency  Cum.Freq. Percentage Cum.Percent.
##   No determinado    569311809  569311809  39.912676     39.91268
##   Posgrado          433198303 1002510112  30.370182     70.28286
##   Profesional       375835913 1378346025  26.348684     96.63154
##   Secundaria         26110018 1404456043   1.830492     98.46203
##   Técnico/Tecnólogo  21937455 1426393498   1.537967    100.00000

##     
## Pareto chart analysis for y
##      Frequency  Cum.Freq. Percentage Cum.Percent.
##   12 468637508  468637508  32.854714     32.85471
##   2  171536987  640174495  12.025923     44.88064
##   11 160945438  801119933  11.283383     56.16402
##   4  159767301  960887234  11.200787     67.36481
##   3  148288211 1109175445  10.396024     77.76083
##   1  122759360 1231934805   8.606276     86.36711
##   10 121147491 1353082296   8.493273     94.86038
##   9   73311202 1426393498   5.139620    100.00000

##            
## Pareto chart analysis for y
##             Frequency  Cum.Freq. Percentage Cum.Percent.
##   sábado    336150296  336150296  23.566449     23.56645
##   jueves    233279187  569429483  16.354476     39.92093
##   viernes   214345772  783775255  15.027114     54.94804
##   miércoles 198005892  981781147  13.881576     68.82961
##   martes    154359584 1136140731  10.821669     79.65128
##   lunes     150668099 1286808830  10.562871     90.21415
##   domingo   139584668 1426393498   9.785846    100.00000

##                 
## Pareto chart analysis for y
##                  Frequency  Cum.Freq. Percentage Cum.Percent.
##   No determinado 569311809  569311809  39.912676     39.91268
##   Casado         496353240 1065665049  34.797778     74.71045
##   Soltero        346159999 1411825048  24.268198     98.97865
##   Viudo           14568450 1426393498   1.021349    100.00000

##                 
## Pareto chart analysis for y
##                  Frequency Cum.Freq. Percentage Cum.Percent.
##   Soltero         250658.9  250658.9   31.29414     31.29414
##   No determinado  247311.8  497970.8   30.87626     62.17040
##   Viudo           165550.6  663521.3   20.66857     82.83898
##   Casado          137455.9  800977.2   17.16102    100.00000

##                 
## Pareto chart analysis for y
##                  Frequency  Cum.Freq.  Percentage Cum.Percent.
##   No determinado 654805955  654805955 45.90640352     45.90640
##   Usaquén        384153624 1038959579 26.93181261     72.83822
##   Chicó          153320563 1192280142 10.74882655     83.58704
##   Puente  Aranda 124850748 1317130890  8.75289660     92.33994
##   Engativa        50707292 1367838182  3.55493011     95.89487
##   Suba            46906534 1414744716  3.28847082     99.18334
##   Ciudad Kennedy   4614317 1419359033  0.32349538     99.50684
##   Tunjuelito       4345184 1423704217  0.30462730     99.81146
##   Fontibón         1063050 1424767267  0.07452712     99.88599
##   Chapinero         818799 1425586066  0.05740344     99.94339
##   Barrios Unidos    807432 1426393498  0.05660654    100.00000

##           
## Pareto chart analysis for y
##            Frequency  Cum.Freq. Percentage Cum.Percent.
##   (45,65]  752092267  752092267  52.726843     52.72684
##   (35,45]  250829244 1002921511  17.584856     70.31170
##   (65,Inf] 209556712 1212478223  14.691368     85.00307
##   (25,35]   94040078 1306518301   6.592857     91.59592
##   (18,25]   72787141 1379305442   5.102879     96.69880
##   (-1,18]   47088056 1426393498   3.301197    100.00000

##           
## Pareto chart analysis for y
##            Frequency Cum.Freq. Percentage Cum.Percent.
##   (18,25]   463612.4  463612.4  29.973242     29.97324
##   (-1,18]   370772.1  834384.5  23.970978     53.94422
##   (45,65]   214944.9 1049329.4  13.896515     67.84073
##   (25,35]   185483.4 1234812.8  11.991782     79.83252
##   (65,Inf]  183178.9 1417991.7  11.842796     91.67531
##   (35,45]   128762.4 1546754.2   8.324687    100.00000

Análisis de Arboles: Caso general

Es muy posible que los resultados del análisis de árboles se vea distorcionado por la poca cantidad de datos asi como el hecho de que hay usuarios que no han querido especificar su genero, estado civil, edad y nivel educativo.

Análisis de Cajas para comportamiento del valor promedio facturado

Es muy posible que los resultados del análisis de cajas también se vea distorcionado por la poca cantidad de datos asi como el hecho de que hay usuarios que no han querido especificar su genero, estado civil, edad y nivel educativo.

Del primer análisis de cajas se evidencia la existencia de datos atípicos y que las mujeres tienen mayor variabilidad de precios en los valores facturados.

Análisis de árboles para analizar las recompras en el centro comercial

## Warning: cex and tweak both specified, applying both

Análisis Multifactorial

Seleccionaremos las siguientes variables para determinar si hay correlación entre las siguientes variables:Tienda,valor,documento, genero,ciudad,sector,nivel_educativo,estado.civil,hijos,week.day,rango.edad y recompra.

Del análisis de individuos se puede apreciar como hay mayor cantidad de personas que recompran que las que no. Se necesitaría más datos para predecir mejor los que no harían recompras.

Del Análisis multifactorial podemos evidenciár la correlación negativa que hay entre recompra y rango de edades.También hay correlación negativa entre recompra y valor facturado, pero el tamaño del vector es tan pequeño que no se puede afirmar. Parececiera haber una correlación positiva con No de hijos del usuario.

También viendo la gráfica veo que es mejor convertir las variables factor a dummies e intentar mejorar el modelo con esa transformación a las variables categóricas.