Análisis base de datos

Análisis base de datos

Por medio de estos datos analizaremos el patrón de consumo de unos clientes de una tienda especializada que funciona por medio de membresías. Por medio de gráficas intentaremos estimar la correlación entre las variables presentadas, y el patrón de consumo, presentado como un “Spending Score”, asignado por la tienda.
La muestra utilizada consta de 1638 clientes encuestados y se divide en 7 variables sin contar el Customer ID o el numero de cliente en la muestra.

Para lograr este análisis se tomaron las siguientes variables:

  • Género

  • Edad

  • Salario anual en dólares (USD).

  • Profesión

  • “Spending Score” -> Puntaje de Gasto (0-100)

  • Experiencia laboral

  • Tamaño de la familia

Las variables se clasifican de la siguiente forma:

1. Género (variable cualitativa nominal): Esta variable, considerará la existencia solo de dos géneros: hombre y mujer.

2. Edad (variable cuantitativa discreta):

Esta variable, como se dijo al inicio, solo tendrá en cuenta a los mayores de edad (>=18), ya que solo estos pueden dar su información para acceder a la membresía de la tienda. Es discreta ya que naturalmente la edad solo cuenta en años.

3. Salario anual en dólares (variable cuantitativa discreta):

Esta variable hace referencia a los ingresos generados por cada trabajador al año según la profesión que ejerzan, se expresa en dólares sin decimales.

4. Profesión (variable cualitativa nominal):

Esta variable describe los diferentes tipos de trabajo que ejercen las personas que compran en esta tienda, la muestra arrojó que los consumidores trabajan en las siguientes profesiones:

● Am@ de casa ● Entretenimiento ● Artista ● Ejecutivo ● Doctor ● Abogado ● Salud ● Ingenier@ ● Marketing

5. Puntaje de gasto (variable cualitativa ordinal):

Esta variable es la asignada por la tienda según sus patrones de consumo, mide el consumo marginal de los consumidores, desde 0 siendo el que menos está dispuesto a consumir hasta 100, que se gasta la gran mayoría de su ingreso consumiendo en la tienda.

6. Experiencia laboral (variable cuantitativa discreta):

Variable que mide la experiencia laboral en años, la experiencia laboral no solo tiene en cuenta la actual profesión del consumidor, sino también todos sus años trabajados. 0 se tomará en cuenta como que nunca ha trabajado.

7. Tamaño de la familia (variable cuantitativa discreta):

El tamaño de la familia mide el número de miembros familiares que tiene el consumidor, esto podrá ser utilizado para buscar patrones de consumo. Por ejemplo, en fechas especiales la gente con más familiares tiende a gastar más, para regalarles cosas.

Análisis de la limpieza y preprocesamiento de la base de datos

Column 1

Gráfica de tendecia entre la edad del cliente y su ingreso anual

Gráfica de tendecia entre la edad del cliente y la experiencia laboral del cliente

Column 2

Descripción

La base de datos utilizada para el proyecto presentaba ciertas inconsistencias y datos ilógicos, dado el contexto trabajado que son clientes de una tienda, y por esto, se cambiaron ciertos aspectos y se organizó de manera lógica para que fuera fácil de trabajar y analizar. Lo primero que se intentó, fue realizar diagramas de dispersión entre variables para conocer los datos atípicos y poder eliminarlos; sin embargo, nos dimos cuenta de que entre las variables a estudiar no había correlación y, que mediante esas graficas no íbamos a conocer los datos que debíamos eliminar. Entre las variables que usamos para mostrar lo anunciado anteriormente, se encuentra la edad comparada con el ingreso y con la experiencia laboral; ya que, en la base de datos, ni el ingreso ni la experiencia laboral dependen de la edad y la edad no depende de ninguna de ellas. Es por esto por lo que, tomamos la decisión de hacer la limpieza manualmente, de manera que pudiéramos borrar la mayor cantidad de datos ilógicos o atípicos de cada variable. Para lograr esto, realizamos los siguientes pasos:

1.

Cambiamos el nombre de las variables ya que estaban en inglés y tenían signos que R no leía tan fácil.

2.

Eliminamos las filas que estaban vacías ya que eran clientes aparentemente pero no había ningún dato y no nos servían para estudiar el comportamiento de la base.

3.

Borramos todos los clientes que tuvieran una edad menor a 18 años, ya que las variables a estudiar eran enfocadas a personas mayores de edad y no tenía mucho sentido que personas tan jóvenes fueran clientes de la tienda y encuestados para dicha base de datos.

4.

También se eliminaron datos donde la experiencia laboral fuera ilógica, por ejemplo una persona que tuviera una experiencia mayor a la edad que tiene o que fuera muy cercana, ya que no tiene sentido que una persona empiece a trabajar tan joven.

5.

Una vez realizados estos cambios, reorganizamos el customer ID para que estuviera en orden y pudiéramos ver cuántos datos terminaron al final en la muestra.

Estadísticas descriptivas de forma univariada

Imagén

Descripción de las gráficas(Histogramas)

Column 1

Histograma de la variable ingreso (en frecuencia absoluta)

Histograma de la variable puntaje de gasto (en frecuencia absoluta)

Column 2

Análisis del histograma de la variable ingreso

La variable ingreso, visto desde un histograma, arroja un par de conclusiones interesantes: es asimétrico hacia la izquierda (sesgo negativo) como se puede observar, ya que la mayoría de datos se agrupan hacia la derecha. La media es menor a la mediana porque CA < 0. Además, es claro que la mayoría de compradores de la tienda tienen ingresos medios-superiores anuales, por lo que es de inferir que los precios no son accesibles en la tienda.

Análisis del histograma de la variable puntaje de gasto

El histograma de la variable puntaje de gasto, arroja también conclusiones interesantes. La primera es que en la gráfica no es claramente observable la asimetría, por lo que es necesario hacer un análisis matemático para arrojar conclusiones. Siendo la mediana 50, el promedio 50.45 y la desviación estándar 27.8, el coeficiente de asimetría es 0.04856, prácticamente simétrico, lo que comprobamos viendo la moda que es 49.

Descripción de las gráficas(Histogramas) 2

Column 1

Histograma de la variable tamaño de la familia (en frecuencia absoluta)

Histograma de la variable edad (en frecuencia absoluta)

Column 2

Análisis del histograma de la variable tamaño de la familia

El histograma para la variable tamaño de la familia, presentada también con la frecuencia relativa arroja unos datos muy dispersos, como es de esperar. La única tendencia encontrable desde el gráfico es que la mayoría de la gente tiene menos de 5 miembros familiares, lo que podría indicar el posible número de regalos que se den en fechas especiales. Este análisis se confirma viendo la mediana (4), promedio (3.747) y la moda (2).

Análisis del histograma de la variable edad

El histograma de la variable edad toma en cuenta la limpieza de los datos, siendo que el dato mínimo es 18. Además, presenta poca variación en los datos, teniendo frecuencias muy similares en todos los rangos de edad, por lo que se espera que sean simétricos o con cierta asimetría con sesgo positivo. Este análisis se confirma viendo el promedio (58.17), mediana (58) y moda (31), con lo que terminamos por concluir que cuenta con cierta asimetría con sesgo positivo (los datos tienden a acumularse a la izquierda). Un último análisis es que la tienda vende productos llamativos para todos los rangos de edades, aunque enfocandose en el segmento de mercado menor a 50 años.

Descripción de las gráficas(Histogramas) 3

Column 1

Histograma de la variable experiencia laboral (en frecuencia absoluta)

Column 2

Análisis del histograma de la variable experiencia laboral

En este último histograma, donde se analiza la experiencia laboral se puede analizar que primero, los datos son muy dispersos, incluso se podría contar la experiencia laboral de 17 años como un dato atípico. Además de esto, se podría decir que claramente tiene una asimetría positiva, teniendo una alta acumulación de datos hacia la izquierda, lo que puede deberse a que muchos de los encuestados son doctores y abogados, carreras que demandan estudiar por muchos años, y por lo tanto tienen poca experiencia laboral.

Descripción del Gráfico de barras

Column 1

Gráfica de barras con relación a genero y profesión

Column 2

Análisis de la gráfica de barras con relación a genero y profesión

En esta gráfica de barras se observa el número de hombres y mujeres en cada profesión, resaltando que en la mayoría de las profesiones predominan los artistas. Además, se nota que en la mayoría de las profesiones hay más mujeres que hombres.

Digramas de cajas

Column 1

Diagrama de caja de la variable ingreso

Diagrama de caja de la variable puntaje de gasto

Column 2

Análisis del diagrama de caja de la variable ingreso

Al igual que el histograma para la variable ingreso, su diagrama de caja nos arroja conclusiones similares, empezando porque la mayoría de clientes de la tienda tienen entre $72594 (Q1) y $148236 (Q3) dólares anuales de ingreso, lo que respalda el análisis de que los clientes tienden a ser de clase media-alta. Además, la mediana de los datos es $106314, lo que arroja que el 50% de los compradores posee un ingreso anual mayor a $106314 dólares.

Análisis del diagrama de caja de la variable puntaje de gasto

Lo primero a analizar del diagrama de caja de la variable puntaje de gasto es que cuenta con un RIC (rango intercuartílico) superior al de la variable ingreso anual, lo que representa mayor dispersión de los datos. La mediana resulta claramente ser 50 gracias a que el puntaje de gasto va de 0-100, siendo 50 su dato medio.

Digramas de cajas 2

Column 1

Diagrama de caja de la variable tamaño de la familia

Diagrama de caja de la variable edad

Column 2

Análisis del diagrama de caja de la variable tamaño de la familia

El gráfico de diagrama de cajas para la variable familia acompaña a las conclusiones propuestas por el histograma de la misma variable, podemos observar una alta concentración de datos menor a 5 miembros familiares, lo que podría servir como estrategia de mercadeo al saber el posible número de regalos que se entreguen en fechas especiales. Además de presentar un RIC (rango intercuartlício) similar a las de otras variables pero no el mayor, por lo que concluimos que los datos no son tan dispersos, y que tienden a concentrarse en pocos miembros familiares.

Análisis del diagrama de caja de la variable edad

El diagrama de cajas para la variable edad cuenta con el rango intercuartlico (RIC) más amplio observable en los 5 diagramas de caja, lo que representa la variable mas dispersa. Además, conlleva a un nuevo análisis ya que el 75% de los encuestados tiene menos de 79 años (Q3), lo que podría indicar que es una tienda no solo visitada en su mayoría por menores de 50, si no también personas de la tercera edad que probablemente busquen regalos para dar, pero no para su consumo propio.

Digramas de cajas 3

Column 1

Diagrama de caja de la variable experiencia laboral

Column 2

Análisis del diagrama de caja de la variable experiencia laboral

El diagrama de cajas de la varaible experiencia laboral confirma los análisis descritos previamente. Lo primero que se observa es el dato atípico, el que ya fue mencionado de 17 años de experiencia laboral. Además, se observa que el 75% de los datos (Q3), se concentran por debajo de 7 años de experiencia, lo que representa pocos años y confirma la conclusión previa.

Descripción

Descripción de la data “proyecto”

   CustomerID        genero               edad          ingreso      
 Min.   :   2.0   Length:1561        Min.   :18.00   Min.   :     0  
 1st Qu.: 453.0   Class :character   1st Qu.:38.00   1st Qu.: 72594  
 Median : 843.0   Mode  :character   Median :58.00   Median :106314  
 Mean   : 844.2                      Mean   :58.17   Mean   :108841  
 3rd Qu.:1239.0                      3rd Qu.:79.00   3rd Qu.:148236  
 Max.   :1638.0                      Max.   :99.00   Max.   :189974  
     gasto         profesion         experiencia_la      familia     
 Min.   :  0.00   Length:1561        Min.   : 0.000   Min.   :1.000  
 1st Qu.: 27.00   Class :character   1st Qu.: 1.000   1st Qu.:2.000  
 Median : 50.00   Mode  :character   Median : 3.000   Median :4.000  
 Mean   : 50.45                      Mean   : 3.875   Mean   :3.747  
 3rd Qu.: 74.00                      3rd Qu.: 7.000   3rd Qu.:5.000  
 Max.   :100.00                      Max.   :17.000   Max.   :9.000  

Correlación y regresión lineal

Column 1

Matriz de correlación

               experiencia_la      edad    ingreso
experiencia_la     1.00000000 0.1019523 0.08781407
edad               0.10195225 1.0000000 0.11439408
ingreso            0.08781407 0.1143941 1.00000000

Análisis

Se seleccionaron las variables de experiencia laboral y edad, ya que cuentan con la mayor correlación de Pearson. Después de ver la matriz de correlación, con un dato arrojado de 0.1019, lo que podría dirigir el enfoque de la empresa sobre qué clientes podrían ser los más propensos a gastar. Un análisis básico sobre esta correlación entre edad y experiencia laboral es que es una correlación positiva muy débil, lo que hace mucho sentido ya que la experiencia laboral va ligado con la edad.

Column 2

Regresión lineal


Call:
lm(formula = experiencia_la ~ edad, data = Base_de_datos_proyecto)

Residuals:
   Min     1Q Median     3Q    Max 
-4.555 -3.289 -1.273  3.178 13.011 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 2.906610   0.257602  11.283  < 2e-16 ***
edad        0.016649   0.004114   4.047 5.45e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.765 on 1559 degrees of freedom
Multiple R-squared:  0.01039,   Adjusted R-squared:  0.009759 
F-statistic: 16.37 on 1 and 1559 DF,  p-value: 5.452e-05

Gráficos de dispersión

Column 1

Dispersión entre ingreso y gasto

Dispersión entre edad e ingreso

Column 2

Análisis 1

El diagrama de dispersión entre el puntaje de gasto y el ingreso de los compradores de la tienda no arroja conclusiones importantes, ya que muestra que a pesar de tener una correlación lineal positiva muy débil, no se pueden tomar decisiones estratégicas al respecto en la tienda.

Análisis 2

Podemos confirmar con este análisis de dispersión entre ingreso y edad que la mayoría de los datos se acumulan después de los 50000 dólares anuales de ingreso, lo que confirma nuestra teoría de que los precios de la tienda son altos ya que las personas con pocos ingresos no podrían acceder a esto. Sin embargo existe el margen de error con las personas que acuden a la tienda y tienen muy poco ingreso, lo que probablemente también indica que acudieron en época de descuentos.

Gráficos de dispersión 2

Column 1

Dispersión entre edad y gasto

Dispersión entre edad y experiencia laboral

Column 2

Análisis 1

El diagrama de dispersión entre edad y gasto muestra prácticamente una correlación nula entre estas dos variables, incluso parecería ser negativa muy débil, por lo que no se podrían tipificar los patrones de gasto según la edad, ya que no presentan ningún tipo de correlación o forma de concluir al respecto.

Análisis 2

Además de confirmarnos la conclusión de que tienen una correlación positiva muy débil, podemos analizar que muchas de las personas que acuden a la tienda son inactivos en el sistema laboral y no requieren de un trabajo, lo que microeconómicamente nos arroja que sus ingresos no laborales deben ser muy altos para acudir a una tienda con precios tan altos.

Gráficos de dispersión 3

Column 1

Dispersión entre edad y familia

Dispersión entre ingreso y experiencia laboral

Column 2

Análisis 1

El diagrama de dispersión entre edad y familia nos muestra una correlación positiva muy débil, esto se debe a que el “número de miembros familiares” no se mide en base a los hijos que tengan los consumidores, si no a su núcleo familiar, el cuál no cambia mucho al pasar de los años, pero tiende a aumentar cuando los consumidores son más viejos, por lo que se podría evaluar una estrategia de promociones de regalos en conjunto para aquellos consumidores más viejos.

Análisis 2

El diagrama entre ingreso y experiencia laboral arroja que claramente mayor experiencia laboral indica mayor ingreso, por lo que la variable experiencia laboral podría ayudar a concluir que tipo de consumidores tienen más renta disponible para gastar en la tienda, por lo que se les podría buscar con campañas de mercadeo.

Regresión lineal

Column 1

Gráfica de regresión lineal entre ingreso y gasto

Gráfica de regresión lineal entre ingreso y familia

Column 2

Análisis

En las dos graficas se evidencia que entre las variables hay poca relacion y no hay dependecia la una de la otra, por lo que tener mas numero de integrantes en la familia o tener mayor puntaje de gasto, no va a afectar el ingreso del cliente. Ademas, no se evidencia una tendencia clara entre las variables.

Diagrama de Cajas

Column 1

Diagrama cajas entre profesión e ingreso

Diagrama cajas entre género e ingreso

Column 2

Análisis 1

Este diagrama de cajas entre profesión e ingreso nos indica las profesiones que mayor ganan y por lo tanto a las que se debería hacer el mayor seguimiento, debido a que tienen mayor renta disponible para gastar en nuestra tienda. A los doctores, ingenieros y ejecutivos se les debe enfocar una estrategia de marketing más fuerte que a las demás profesiones, ya que hay una correlación positiva entre ingreso disponible y+su puntaje de gasto.

Análisis 2

Se observa que la variable edad no presenta grandes diferecias con respecto al género, por lo que no es una variable que afecte significativamente.

Diagrama de Cajas 2

Column 1

Diagrama cajas entre profesión y gasto

Diagrama cajas entre género y edad

Column 2

Análisis 1

Este diagrama de cajas desestima la teoría de que el ingreso y el gasto están relacionados, puesto que los doctores, con tendencia a un alto salario gastan menos que otras profesiones. Por lo tanto, se debe enfocar la estrategia hacia las profesiones dependiendo de su puntaje de gasto, y no en base a su ingreso.

Análisis 2

Nuevamente se evidencia en el diagrama la poca influencia que produce la variable género a la edad de los clientes. Se analiza entonces que el género no es una variables estratégica para el negocio.

Diagrama de Cajas 3

Column 1

Diagrama cajas entre profesión y edad

Diagrama cajas entre género y familia

Column 2

Diagrama cajas entre género y experiencia laboral

Análisis

La edad y la profesión nos muestran que los ingenieros tienden a ser mas viejos que otras profesiones, mientras que los ejecutivos mas jovenes. Lo anterior nos puede dar paso a una estrategia de acercamiento, ya que entre edad y tamaño familiar hay una correlación positiva, por lo que en fechas especiales donde se den regalos entre familia, el gasto en marketing se concentraría principalmente en estas dos profesiones. Además, se confirma que el género no es una variable influyente con respecto a la experiencia laboral y el tamaño de la familia.