Por medio de estos datos analizaremos el patrón de consumo de unos
clientes de una tienda especializada que funciona por medio de
membresías. Por medio de gráficas intentaremos estimar la correlación
entre las variables presentadas, y el patrón de consumo, presentado como
un “Spending Score”, asignado por la tienda.
La muestra utilizada consta de 1638 clientes encuestados y se divide en
7 variables sin contar el Customer ID o el numero de cliente en la
muestra.
Para lograr este análisis se tomaron las siguientes variables:
Género
Edad
Salario anual en dólares (USD).
Profesión
“Spending Score” -> Puntaje de Gasto (0-100)
Experiencia laboral
Tamaño de la familia
Las variables se clasifican de la siguiente forma:
1. Género (variable cualitativa nominal): Esta variable, considerará la existencia solo de dos géneros: hombre y mujer.
2. Edad (variable cuantitativa discreta):Esta variable, como se dijo al inicio, solo tendrá en cuenta a los mayores de edad (>=18), ya que solo estos pueden dar su información para acceder a la membresía de la tienda. Es discreta ya que naturalmente la edad solo cuenta en años.
3. Salario anual en dólares (variable cuantitativa discreta):Esta variable hace referencia a los ingresos generados por cada trabajador al año según la profesión que ejerzan, se expresa en dólares sin decimales.
4. Profesión (variable cualitativa nominal):Esta variable describe los diferentes tipos de trabajo que ejercen las personas que compran en esta tienda, la muestra arrojó que los consumidores trabajan en las siguientes profesiones:
● Am@ de casa ● Entretenimiento ● Artista ● Ejecutivo ● Doctor ● Abogado ● Salud ● Ingenier@ ● Marketing
5. Puntaje de gasto (variable cualitativa ordinal):Esta variable es la asignada por la tienda según sus patrones de consumo, mide el consumo marginal de los consumidores, desde 0 siendo el que menos está dispuesto a consumir hasta 100, que se gasta la gran mayoría de su ingreso consumiendo en la tienda.
6. Experiencia laboral (variable cuantitativa discreta):Variable que mide la experiencia laboral en años, la experiencia laboral no solo tiene en cuenta la actual profesión del consumidor, sino también todos sus años trabajados. 0 se tomará en cuenta como que nunca ha trabajado.
7. Tamaño de la familia (variable cuantitativa discreta):El tamaño de la familia mide el número de miembros familiares que tiene el consumidor, esto podrá ser utilizado para buscar patrones de consumo. Por ejemplo, en fechas especiales la gente con más familiares tiende a gastar más, para regalarles cosas.
La base de datos utilizada para el proyecto presentaba ciertas inconsistencias y datos ilógicos, dado el contexto trabajado que son clientes de una tienda, y por esto, se cambiaron ciertos aspectos y se organizó de manera lógica para que fuera fácil de trabajar y analizar. Lo primero que se intentó, fue realizar diagramas de dispersión entre variables para conocer los datos atípicos y poder eliminarlos; sin embargo, nos dimos cuenta de que entre las variables a estudiar no había correlación y, que mediante esas graficas no íbamos a conocer los datos que debíamos eliminar. Entre las variables que usamos para mostrar lo anunciado anteriormente, se encuentra la edad comparada con el ingreso y con la experiencia laboral; ya que, en la base de datos, ni el ingreso ni la experiencia laboral dependen de la edad y la edad no depende de ninguna de ellas. Es por esto por lo que, tomamos la decisión de hacer la limpieza manualmente, de manera que pudiéramos borrar la mayor cantidad de datos ilógicos o atípicos de cada variable. Para lograr esto, realizamos los siguientes pasos:
1.
Cambiamos el nombre de las variables ya que estaban en inglés y tenían signos que R no leía tan fácil.
2.
Eliminamos las filas que estaban vacías ya que eran clientes aparentemente pero no había ningún dato y no nos servían para estudiar el comportamiento de la base.
3.
Borramos todos los clientes que tuvieran una edad menor a 18 años, ya que las variables a estudiar eran enfocadas a personas mayores de edad y no tenía mucho sentido que personas tan jóvenes fueran clientes de la tienda y encuestados para dicha base de datos.
4.
También se eliminaron datos donde la experiencia laboral fuera ilógica, por ejemplo una persona que tuviera una experiencia mayor a la edad que tiene o que fuera muy cercana, ya que no tiene sentido que una persona empiece a trabajar tan joven.
5.
Una vez realizados estos cambios, reorganizamos el customer ID para que estuviera en orden y pudiéramos ver cuántos datos terminaron al final en la muestra.
La variable ingreso, visto desde un histograma, arroja un par de conclusiones interesantes: es asimétrico hacia la izquierda (sesgo negativo) como se puede observar, ya que la mayoría de datos se agrupan hacia la derecha. La media es menor a la mediana porque CA < 0. Además, es claro que la mayoría de compradores de la tienda tienen ingresos medios-superiores anuales, por lo que es de inferir que los precios no son accesibles en la tienda.
El histograma de la variable puntaje de gasto, arroja también conclusiones interesantes. La primera es que en la gráfica no es claramente observable la asimetría, por lo que es necesario hacer un análisis matemático para arrojar conclusiones. Siendo la mediana 50, el promedio 50.45 y la desviación estándar 27.8, el coeficiente de asimetría es 0.04856, prácticamente simétrico, lo que comprobamos viendo la moda que es 49.
El histograma para la variable tamaño de la familia, presentada también con la frecuencia relativa arroja unos datos muy dispersos, como es de esperar. La única tendencia encontrable desde el gráfico es que la mayoría de la gente tiene menos de 5 miembros familiares, lo que podría indicar el posible número de regalos que se den en fechas especiales. Este análisis se confirma viendo la mediana (4), promedio (3.747) y la moda (2).
El histograma de la variable edad toma en cuenta la limpieza de los datos, siendo que el dato mínimo es 18. Además, presenta poca variación en los datos, teniendo frecuencias muy similares en todos los rangos de edad, por lo que se espera que sean simétricos o con cierta asimetría con sesgo positivo. Este análisis se confirma viendo el promedio (58.17), mediana (58) y moda (31), con lo que terminamos por concluir que cuenta con cierta asimetría con sesgo positivo (los datos tienden a acumularse a la izquierda). Un último análisis es que la tienda vende productos llamativos para todos los rangos de edades, aunque enfocandose en el segmento de mercado menor a 50 años.
En este último histograma, donde se analiza la experiencia laboral se puede analizar que primero, los datos son muy dispersos, incluso se podría contar la experiencia laboral de 17 años como un dato atípico. Además de esto, se podría decir que claramente tiene una asimetría positiva, teniendo una alta acumulación de datos hacia la izquierda, lo que puede deberse a que muchos de los encuestados son doctores y abogados, carreras que demandan estudiar por muchos años, y por lo tanto tienen poca experiencia laboral.
En esta gráfica de barras se observa el número de hombres y mujeres en cada profesión, resaltando que en la mayoría de las profesiones predominan los artistas. Además, se nota que en la mayoría de las profesiones hay más mujeres que hombres.
Al igual que el histograma para la variable ingreso, su diagrama de caja nos arroja conclusiones similares, empezando porque la mayoría de clientes de la tienda tienen entre $72594 (Q1) y $148236 (Q3) dólares anuales de ingreso, lo que respalda el análisis de que los clientes tienden a ser de clase media-alta. Además, la mediana de los datos es $106314, lo que arroja que el 50% de los compradores posee un ingreso anual mayor a $106314 dólares.
Lo primero a analizar del diagrama de caja de la variable puntaje de gasto es que cuenta con un RIC (rango intercuartílico) superior al de la variable ingreso anual, lo que representa mayor dispersión de los datos. La mediana resulta claramente ser 50 gracias a que el puntaje de gasto va de 0-100, siendo 50 su dato medio.
El gráfico de diagrama de cajas para la variable familia acompaña a las conclusiones propuestas por el histograma de la misma variable, podemos observar una alta concentración de datos menor a 5 miembros familiares, lo que podría servir como estrategia de mercadeo al saber el posible número de regalos que se entreguen en fechas especiales. Además de presentar un RIC (rango intercuartlício) similar a las de otras variables pero no el mayor, por lo que concluimos que los datos no son tan dispersos, y que tienden a concentrarse en pocos miembros familiares.
El diagrama de cajas para la variable edad cuenta con el rango intercuartlico (RIC) más amplio observable en los 5 diagramas de caja, lo que representa la variable mas dispersa. Además, conlleva a un nuevo análisis ya que el 75% de los encuestados tiene menos de 79 años (Q3), lo que podría indicar que es una tienda no solo visitada en su mayoría por menores de 50, si no también personas de la tercera edad que probablemente busquen regalos para dar, pero no para su consumo propio.
El diagrama de cajas de la varaible experiencia laboral confirma los análisis descritos previamente. Lo primero que se observa es el dato atípico, el que ya fue mencionado de 17 años de experiencia laboral. Además, se observa que el 75% de los datos (Q3), se concentran por debajo de 7 años de experiencia, lo que representa pocos años y confirma la conclusión previa.
CustomerID genero edad ingreso
Min. : 2.0 Length:1561 Min. :18.00 Min. : 0
1st Qu.: 453.0 Class :character 1st Qu.:38.00 1st Qu.: 72594
Median : 843.0 Mode :character Median :58.00 Median :106314
Mean : 844.2 Mean :58.17 Mean :108841
3rd Qu.:1239.0 3rd Qu.:79.00 3rd Qu.:148236
Max. :1638.0 Max. :99.00 Max. :189974
gasto profesion experiencia_la familia
Min. : 0.00 Length:1561 Min. : 0.000 Min. :1.000
1st Qu.: 27.00 Class :character 1st Qu.: 1.000 1st Qu.:2.000
Median : 50.00 Mode :character Median : 3.000 Median :4.000
Mean : 50.45 Mean : 3.875 Mean :3.747
3rd Qu.: 74.00 3rd Qu.: 7.000 3rd Qu.:5.000
Max. :100.00 Max. :17.000 Max. :9.000
experiencia_la edad ingreso
experiencia_la 1.00000000 0.1019523 0.08781407
edad 0.10195225 1.0000000 0.11439408
ingreso 0.08781407 0.1143941 1.00000000
Se seleccionaron las variables de experiencia laboral y edad, ya que cuentan con la mayor correlación de Pearson. Después de ver la matriz de correlación, con un dato arrojado de 0.1019, lo que podría dirigir el enfoque de la empresa sobre qué clientes podrían ser los más propensos a gastar. Un análisis básico sobre esta correlación entre edad y experiencia laboral es que es una correlación positiva muy débil, lo que hace mucho sentido ya que la experiencia laboral va ligado con la edad.
Call:
lm(formula = experiencia_la ~ edad, data = Base_de_datos_proyecto)
Residuals:
Min 1Q Median 3Q Max
-4.555 -3.289 -1.273 3.178 13.011
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.906610 0.257602 11.283 < 2e-16 ***
edad 0.016649 0.004114 4.047 5.45e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.765 on 1559 degrees of freedom
Multiple R-squared: 0.01039, Adjusted R-squared: 0.009759
F-statistic: 16.37 on 1 and 1559 DF, p-value: 5.452e-05
El diagrama de dispersión entre el puntaje de gasto y el ingreso de los compradores de la tienda no arroja conclusiones importantes, ya que muestra que a pesar de tener una correlación lineal positiva muy débil, no se pueden tomar decisiones estratégicas al respecto en la tienda.
Podemos confirmar con este análisis de dispersión entre ingreso y edad que la mayoría de los datos se acumulan después de los 50000 dólares anuales de ingreso, lo que confirma nuestra teoría de que los precios de la tienda son altos ya que las personas con pocos ingresos no podrían acceder a esto. Sin embargo existe el margen de error con las personas que acuden a la tienda y tienen muy poco ingreso, lo que probablemente también indica que acudieron en época de descuentos.
El diagrama de dispersión entre edad y gasto muestra prácticamente una correlación nula entre estas dos variables, incluso parecería ser negativa muy débil, por lo que no se podrían tipificar los patrones de gasto según la edad, ya que no presentan ningún tipo de correlación o forma de concluir al respecto.
Además de confirmarnos la conclusión de que tienen una correlación positiva muy débil, podemos analizar que muchas de las personas que acuden a la tienda son inactivos en el sistema laboral y no requieren de un trabajo, lo que microeconómicamente nos arroja que sus ingresos no laborales deben ser muy altos para acudir a una tienda con precios tan altos.
El diagrama de dispersión entre edad y familia nos muestra una correlación positiva muy débil, esto se debe a que el “número de miembros familiares” no se mide en base a los hijos que tengan los consumidores, si no a su núcleo familiar, el cuál no cambia mucho al pasar de los años, pero tiende a aumentar cuando los consumidores son más viejos, por lo que se podría evaluar una estrategia de promociones de regalos en conjunto para aquellos consumidores más viejos.
El diagrama entre ingreso y experiencia laboral arroja que claramente mayor experiencia laboral indica mayor ingreso, por lo que la variable experiencia laboral podría ayudar a concluir que tipo de consumidores tienen más renta disponible para gastar en la tienda, por lo que se les podría buscar con campañas de mercadeo.
En las dos graficas se evidencia que entre las variables hay poca relacion y no hay dependecia la una de la otra, por lo que tener mas numero de integrantes en la familia o tener mayor puntaje de gasto, no va a afectar el ingreso del cliente. Ademas, no se evidencia una tendencia clara entre las variables.
Este diagrama de cajas entre profesión e ingreso nos indica las profesiones que mayor ganan y por lo tanto a las que se debería hacer el mayor seguimiento, debido a que tienen mayor renta disponible para gastar en nuestra tienda. A los doctores, ingenieros y ejecutivos se les debe enfocar una estrategia de marketing más fuerte que a las demás profesiones, ya que hay una correlación positiva entre ingreso disponible y+su puntaje de gasto.
Se observa que la variable edad no presenta grandes diferecias con respecto al género, por lo que no es una variable que afecte significativamente.
Este diagrama de cajas desestima la teoría de que el ingreso y el gasto están relacionados, puesto que los doctores, con tendencia a un alto salario gastan menos que otras profesiones. Por lo tanto, se debe enfocar la estrategia hacia las profesiones dependiendo de su puntaje de gasto, y no en base a su ingreso.
Nuevamente se evidencia en el diagrama la poca influencia que produce la variable género a la edad de los clientes. Se analiza entonces que el género no es una variables estratégica para el negocio.
La edad y la profesión nos muestran que los ingenieros tienden a ser mas viejos que otras profesiones, mientras que los ejecutivos mas jovenes. Lo anterior nos puede dar paso a una estrategia de acercamiento, ya que entre edad y tamaño familiar hay una correlación positiva, por lo que en fechas especiales donde se den regalos entre familia, el gasto en marketing se concentraría principalmente en estas dos profesiones. Además, se confirma que el género no es una variable influyente con respecto a la experiencia laboral y el tamaño de la familia.