Actividad 1

Descripción de la base de datos

Una empresa minorista llamada “ABC Private Limited” quiere comprender el comportamiento de compra de sus clientes en relación a varios productos de diferentes categorías. Han compartido un resumen de las compras de varios clientes en productos seleccionados de alto volumen del mes pasado. El conjunto de datos incluye información demográfica del cliente (edad, sexo, estado civil, tipo de ciudad, ciudad actual), detalles del producto (ID del producto) y el monto total de la compra del mes pasado.

En esta actividad, analizaremos los datos y obtendremos conclusiones sobre las distintas variables que afectan las ventas. En primer lugar, examinaremos las distintas variables y su relación con las ventas.

1.Genero:

Tabla de Frecuencia Genero

## Frequencies  
## prueba_base_de_datos$Gender  
## Type: Character  
## 
##               Freq   % Valid   % Total
## ----------- ------ --------- ---------
##           F    289     27.84     27.84
##           M    749     72.16     72.16
##        <NA>      0                0.00
##       Total   1038    100.00    100.00

Con la tabla de frecuencia presentada, podemos conocer la cantidad de compras realizadas por cada género. De un total de 1038 datos, se observa que 289 compras fueron realizadas por mujeres, lo cual equivale al 27.84% del total de compras, mientras que 749 compras fueron realizadas por hombres, lo cual equivale al 72.16% de las compras. A partir de estos datos, se puede inferir que los productos vendidos tienen mayor aceptación entre los hombres.

Tabla de indicadores de tendencia central

## 
##  Descriptive statistics by group 
## group: F
##    vars   n   mean      sd median trimmed     mad  min   max range skew
## X1    1 289 9110.6 4030.13   8404 8907.24 4599.03 1762 19642 17880 0.43
##    kurtosis     se
## X1     -0.6 237.07
## ------------------------------------------------------------ 
## group: M
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 749 9764.99 4476.02  10573 9661.85 5295.85 1727 19684 17957 0.21
##    kurtosis     se
## X1    -0.76 163.55

Con la tabla anterior, podemos determinar cuántas compras se realizaron en total por hombres y mujeres. Si multiplicamos el promedio de compras por el número de datos, obtenemos que 2,632,963.4 compras fueron realizadas por mujeres y 7,313,977.51 compras fueron realizadas por hombres, lo que nos da un total de 9,946,939.72 compras.

Utilizando estos datos, podemos calcular el porcentaje de compras realizadas por hombres y mujeres. En este caso, el 26.47% de las ventas fueron realizadas por mujeres, mientras que el 73.53% de las compras las realizaron hombres.

A partir de esta tabla, se puede concluir que la mayoría de las compras son realizadas por hombres, y que el enfoque de los productos parece estar dirigido principalmente a ellos. Sin embargo, aunque las mujeres representan un porcentaje menor de las compras, todavía son responsables de una cantidad significativa de ventas. Además, el promedio de compras de las mujeres no está muy alejado del de los hombres, lo que sugiere que el mercado femenino también tiene un potencial importante. En consecuencia, se podría explorar la posibilidad de atraer más a las mujeres como clientes, sin descuidar al público masculino.

BoxPlot

Con el diagrama de caja podemos examinar el comportamiento de los cuartiles en relación al género y las ventas, así como también la dispersión de los datos y los sesgos.

Podemos observar que las compras de los hombres presentan una mayor dispersión en comparación con las de las mujeres, en particular en el segundo cuartil. Por otro lado, los datos de las mujeres tienden a ser más homogéneos, lo que indica una menor variabilidad en sus compras. Además, la mediana de compras de los hombres es superior a la de las mujeres, lo que indica que los hombres tienden a realizar compras de mayor valor.

En cuanto al sesgo, se puede ver una diferencia significativa entre hombres y mujeres. El sesgo positivo en las mujeres indica que hay algunos valores extremadamente altos que influyen en la media, mientras que en los hombres el sesgo es negativo, lo que indica que hay algunos valores extremadamente bajos que influyen en la media.

En general, se puede concluir que hay diferencias entre hombres y mujeres en cuanto a sus compras, tanto en la variabilidad como en los valores de las mismas. Además, el análisis de sesgo muestra que hay diferentes factores que influyen en las compras de cada género, lo que puede ser importante para la toma de decisiones en el ámbito del marketing.

Conclucion del analisis de la variable

A partir de los datos, se concluye que la mayoría de las compras son realizadas por hombres y que los productos parecen estar dirigidos principalmente a este mercado.

Sin embargo, también se señala que aunque las mujeres representan un porcentaje menor de las compras, todavía son responsables de una cantidad significativa de ventas, lo que sugiere un potencial importante del mercado femenino. Se sugiere explorar la posibilidad de atraer más a las mujeres como clientes sin descuidar al público masculino.

Además, se analiza el comportamiento de los cuartiles en relación al género y las ventas, la dispersión de los datos y los sesgos. Se observa que las compras de los hombres presentan una mayor dispersión en comparación con las de las mujeres, lo que indica una mayor variabilidad en sus compras. También se encuentra que la mediana de compras de los hombres es superior a la de las mujeres, lo que sugiere que los hombres tienden a realizar compras de mayor valor.

En cuanto al sesgo, se observa una diferencia significativa entre hombres y mujeres. El sesgo positivo en las mujeres indica que hay algunos valores extremadamente altos que influyen en la media, mientras que en los hombres el sesgo es negativo, lo que indica que hay algunos valores extremadamente bajos que influyen en la media.

En general, el análisis sugiere que hay diferencias importantes entre hombres y mujeres en cuanto a sus patrones de compra y que estos factores son relevantes para la toma de decisiones en el ámbito del marketing.

despues del estudio de las variables damos las siguientes recomendaciones a la empresa:

Diseñar productos específicos para mujeres: aunque el mercado masculino es el principal comprador, el mercado femenino todavía representa un porcentaje significativo de las ventas. Por lo tanto, la empresa podría considerar la posibilidad de diseñar productos específicos para mujeres que satisfagan sus necesidades y deseos.

Ampliar la variedad de productos: otra forma de atraer a más clientes, tanto hombres como mujeres, es ampliando la variedad de productos que se ofrecen. Esto podría incluir productos que sean atractivos para ambos géneros, así como productos específicos para cada género.

Segmentar el mercado: la empresa podría segmentar el mercado en función de los diferentes perfiles de compradores, lo que les permitiría diseñar campañas publicitarias y estrategias de marketing específicas para cada segmento. Por ejemplo, se podrían diseñar campañas publicitarias que apelen a las necesidades y deseos de las mujeres, y otras que se centren en los intereses de los hombres.

Identificar y abordar las razones detrás de las diferencias de género: el análisis de la tabla de frecuencia y el diagrama de caja sugiere que hay diferencias significativas entre hombres y mujeres en cuanto a sus compras. La empresa podría investigar las razones detrás de estas diferencias y desarrollar estrategias específicas para abordarlas.

Realizar encuestas de satisfacción de clientes: una forma efectiva de conocer las necesidades y deseos de los clientes es a través de encuestas de satisfacción de clientes. La empresa podría realizar encuestas de satisfacción de clientes tanto para hombres como para mujeres para conocer sus opiniones sobre los productos y servicios ofrecidos y utilizar esta información para mejorar su oferta.

Desarrollar programas de fidelización: para retener a los clientes existentes y atraer nuevos clientes, la empresa podría desarrollar programas de fidelización que ofrezcan incentivos atractivos tanto para hombres como para mujeres. Por ejemplo, se podrían ofrecer descuentos especiales en productos específicos para mujeres y para hombres.

En resumen, la empresa podría mejorar sus ventas diseñando productos específicos para mujeres, ampliando la variedad de productos, segmentando el mercado, identificando y abordando las razones detrás de las diferencias de género, realizando encuestas de satisfacción de clientes y desarrollando programas de fidelización. Al hacerlo, la empresa podría atraer a más clientes, tanto hombres como mujeres, y mejorar su participación en el mercado.

2. Edad

Tabla de Frecuencia Edad

## Frequencies  
## prueba_base_de_datos$Age  
## Type: Character  
## 
##               Freq   % Valid   % Total
## ----------- ------ --------- ---------
##        0-17     28      2.70      2.70
##       18-25    222     21.39     21.39
##       26-35    502     48.36     48.36
##       36-45    177     17.05     17.05
##       46-50     37      3.56      3.56
##       51-55     47      4.53      4.53
##         55+     25      2.41      2.41
##        <NA>      0                0.00
##       Total   1038    100.00    100.00

En la tabla de frecuencia anterior podemos observar cuántas compras fueron realizadas por personas en diferentes rangos de edad, desde 0 años hasta 55+. Estos grupos se dividen en los siguientes rangos de edad: 0-17, 18-25, 26-35, 36-45, 46-50, 51-55 y 55+.

De la tabla anterior podemos ver que la mayor cantidad de datos se obtuvieron de personas en el grupo de edad de 18 a 45 años, ya que representan el 86.8% de los datos recopilados. Dentro de este grupo, el rango de edad con más datos fue el rango de 26 a 35 años, que representa el 48.36% de todos los datos recopilados. Por otro lado, el grupo de edad menos representativo fue el grupo de 55+ años, ya que solo representan el 2.41% de los datos recopilados.

Tabla de indicadores de tendencia central

## 
##  Descriptive statistics by group 
## group: 0-17
##    vars  n    mean      sd median trimmed     mad  min   max range skew
## X1    1 28 9996.96 4624.74   9759 9739.42 6083.85 3695 19463 15768 0.42
##    kurtosis     se
## X1    -0.96 873.99
## ------------------------------------------------------------ 
## group: 18-25
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 222 9461.55 4208.27 9863.5 9400.61 5059.37 1762 19527 17765 0.13
##    kurtosis     se
## X1    -0.78 282.44
## ------------------------------------------------------------ 
## group: 26-35
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 502 9632.38 4644.42 8884.5 9428.15 5307.71 1727 19684 17957 0.35
##    kurtosis     se
## X1    -0.76 207.29
## ------------------------------------------------------------ 
## group: 36-45
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 177 9425.21 3932.91   8788 9356.36 5008.22 1840 19590 17750 0.16
##    kurtosis     se
## X1    -0.96 295.62
## ------------------------------------------------------------ 
## group: 46-50
##    vars  n    mean      sd median trimmed     mad  min   max range  skew
## X1    1 37 9825.16 3773.17  10637 9851.58 4132.01 1916 16214 14298 -0.11
##    kurtosis     se
## X1    -1.05 620.31
## ------------------------------------------------------------ 
## group: 51-55
##    vars  n    mean      sd median trimmed     mad  min   max range skew
## X1    1 47 9910.87 3742.22  10620  9783.9 4146.83 2754 19600 16846 0.31
##    kurtosis     se
## X1    -0.56 545.86
## ------------------------------------------------------------ 
## group: 55+
##    vars  n    mean      sd median trimmed     mad  min   max range skew
## X1    1 25 9340.08 4801.65   8680 9263.76 5074.94 1828 19520 17692 0.13
##    kurtosis     se
## X1    -1.02 960.33

Con base a esta tabla, al igual que en el punto anterior, podemos descifrar cuántas compras se hicieron por grupo de edad y el número de compras por grupo de edad son los siguientes:
1. 0-17: 279,914.88
2. 18-25: 2,100,464.1
3. 26-35: 4,835,454.76
4. 36-45: 1,668,262.17
5. 46-50: 363,530.92
6. 51-55: 465,810.89
7. 55+: 233,502
8. Total: 9,946,939.72 El porcentaje de compras en relación a la edad es similar al de la dispersión, ya que la mayoría de las compras se encuentran en los rangos de edad de 18 a 45 años, lo que representa el 85.5% de las compras. El rango de edad con más compras es el de 26 a 35 años, con un 48.61%. Por otro lado, el rango de edad con menos compras es el de 55+, con solo el 2.35%, y además tiene la media de compra más baja.

A partir de esta tabla, podemos obtener conclusiones interesantes. A pesar de que la mayoría de las compras se realizan por clientes de entre 18 y 45 años, los rangos de edad que tienen la media de compra más alta son los de 0 a 17 años, con una media de 9996.96 compras, y el rango de edad de 51 a 55 años, con una media de 9910.87 compras. Por lo tanto, recomendaría a la empresa que intente atraer más a este público, ya que generan más compras en promedio, y que se centre menos en el público de 55+, ya que su contribución a las compras es muy baja.

BoxPlot

Del anterior grafico podemos recopilar los siguites datos mas interesantes, Se destaca que los datos de los rangos de edad de 26 a 35 años y de 36 a 45 años tienen una distribución similar, lo que se refleja en que los boxplot correspondientes son iguales. A pesar de que el rango de edad de 36 a 45 años tiene un mayor número de compras, los datos sugieren que el comportamiento de compra de ambos rangos es similar. El análisis también menciona que los rangos de edad de 26 a 35 años y de 36 a 45 años presentan una mayor simetría en sus datos, aunque con un sesgo ligeramente positivo. Esto sugiere que las compras realizadas por personas en estos grupos de edad tienen una distribución más uniforme. Además, se observa que el rango de edad de 45 a 50 años tiene el menor límite máximo en su último cuartil, lo que indica que las compras realizadas por personas en este grupo de edad tienden a ser menores en cantidad. Por otro lado, el grupo de edad de 0 a 17 años tiene el mayor límite inferior en su primer cuartil, lo que sugiere que las compras realizadas por personas en este grupo de edad tienden a ser más altas en comparación con los otros grupos de edad.

Conclucion del analisis de la variable

El análisis de estos datos estadísticos sugiere que la empresa debería centrarse en atraer a clientes de entre 0 y 17 años y de 51 a 55 años, ya que estos grupos de edad tienden a realizar más compras en promedio. También se puede observar que la mayoría de las compras se realizan por clientes de entre 18 y 45 años, lo que sugiere que este grupo de edad es importante para la empresa.

Además, el análisis sugiere que los rangos de edad de 26 a 45 años presentan una distribución de compras más uniforme, lo que podría indicar que la empresa debería centrar sus esfuerzos en mantener a estos clientes leales y satisfechos. Por otro lado, el grupo de edad de 55+ años tiene una contribución muy baja a las compras de la empresa, por lo que es posible que la empresa deba enfocarse menos en este grupo de edad.

En resumen, este análisis de mercadeo de los datos estadísticos proporcionados sugiere que la empresa debería centrarse en atraer a clientes de entre 0 y 17 años y de 51 a 55 años, y mantener a los clientes leales de entre 26 y 45 años satisfechos. También sugiere que la empresa debería centrarse menos en el grupo de edad de 55+ años.

Basándonos en el análisis presentado, se pueden proponer algunas sugerencias de mejora para la empresa:

Dirigirse más al público de 0 a 17 años y de 51 a 55 años: Como se menciona en el análisis, estos dos grupos de edad tienen la media de compra más alta, lo que sugiere que pueden ser un segmento de mercado interesante para la empresa. Se podrían desarrollar estrategias de marketing específicas para atraer a estos grupos, como ofertas especiales o promociones.

Diversificar los productos ofrecidos: Dado que la mayoría de las compras se realizan por clientes de entre 18 y 45 años, la empresa podría intentar atraer a más clientes en este rango de edad ofreciendo una mayor variedad de productos que les resulten atractivos. Esto podría incluir productos exclusivos para esta edad, descuentos para estudiantes, etc.

Analizar el comportamiento de compra de los grupos de edad con simetría en sus datos: Los grupos de edad de 26 a 35 años y de 36 a 45 años presentan una distribución más uniforme en sus datos. Esto podría indicar que tienen un comportamiento de compra más predecible. La empresa podría analizar en detalle las compras realizadas por estos grupos para entender mejor sus necesidades y preferencias, y desarrollar estrategias de marketing que los atraigan aún más.

Investigar las razones detrás de la baja contribución a las compras del grupo de edad de 55+: Dado que este grupo de edad tiene la menor contribución a las compras, la empresa podría investigar las razones detrás de esto. Es posible que se deba a factores como una menor disponibilidad de recursos, una menor necesidad de los productos ofrecidos por la empresa, o una menor familiaridad con los canales de venta de la empresa. Identificar las razones detrás de esta baja contribución podría ayudar a la empresa a desarrollar estrategias para atraer a este segmento de mercado.

3. Ocupacion

Tabla de Frecuencia Ocupacion

## Frequencies  
## prueba_base_de_datos$Occupation  
## Type: Numeric  
## 
##               Freq   % Valid   % Total
## ----------- ------ --------- ---------
##           0    141     13.58     13.58
##           1     81      7.80      7.80
##           2     47      4.53      4.53
##           3     33      3.18      3.18
##           4    182     17.53     17.53
##           5     25      2.41      2.41
##           6     37      3.56      3.56
##           7    124     11.95     11.95
##           8      2      0.19      0.19
##           9      7      0.67      0.67
##          10     28      2.70      2.70
##          11     13      1.25      1.25
##          12     47      4.53      4.53
##          13      3      0.29      0.29
##          14     67      6.45      6.45
##          15     17      1.64      1.64
##          16     46      4.43      4.43
##          17     53      5.11      5.11
##          18      6      0.58      0.58
##          19     15      1.45      1.45
##          20     64      6.17      6.17
##        <NA>      0                0.00
##       Total   1038    100.00    100.00

Podemos observar que en cuanto a los datos obtenidos respecto a la ocupación, el mayor porcentaje de los mismos proviene de las ocupaciones 0, 4 y 7, que representan el 43.06% del total de datos obtenidos. En este caso, la ocupación 4 presenta la mayor frecuencia. Las ocupaciones con menor cantidad de datos recolectados son la 8, 9, 13 y 18, que en conjunto suman un 1.73%. La ocupación con la mayor cantidad de datos recolectados es la 4, mientras que la de menor cantidad es la 8, con un 0.19%.

Tabla de indicadores de tendencia central

## 
##  Descriptive statistics by group 
## group: 0
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 141 9946.91 4453.45  10591 9806.32 5264.71 1875 19684 17809 0.26
##    kurtosis     se
## X1    -0.87 375.05
## ------------------------------------------------------------ 
## group: 1
##    vars  n    mean     sd median trimmed     mad  min   max range skew kurtosis
## X1    1 81 8515.85 3911.9   7159  8402.4 4403.32 1738 19487 17749 0.36     -0.7
##        se
## X1 434.66
## ------------------------------------------------------------ 
## group: 2
##    vars  n    mean      sd median trimmed     mad  min   max range skew
## X1    1 47 9796.06 4662.76  10641 9453.18 5497.48 3506 19553 16047 0.46
##    kurtosis     se
## X1     -0.8 680.13
## ------------------------------------------------------------ 
## group: 3
##    vars  n    mean     sd median trimmed     mad  min   max range skew kurtosis
## X1    1 33 8855.12 4408.1   7974 8656.26 3986.71 1814 19356 17542 0.46    -0.71
##        se
## X1 767.35
## ------------------------------------------------------------ 
## group: 4
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 182 9371.59 4195.15   9720 9300.54 4785.09 1745 19642 17897 0.16
##    kurtosis     se
## X1    -0.72 310.96
## ------------------------------------------------------------ 
## group: 5
##    vars  n   mean      sd median trimmed     mad  min   max range  skew
## X1    1 25 9310.8 3543.47  10642 9363.33 3930.37 2045 15353 13308 -0.21
##    kurtosis     se
## X1    -0.91 708.69
## ------------------------------------------------------------ 
## group: 6
##    vars  n    mean      sd median trimmed     mad  min   max range skew
## X1    1 37 9301.97 5737.39   7091 9029.03 6430.04 1834 19590 17756 0.41
##    kurtosis     se
## X1    -1.12 943.22
## ------------------------------------------------------------ 
## group: 7
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 124 9842.47 4513.55 9998.5 9665.17 4999.33 1743 19600 17857 0.35
##    kurtosis     se
## X1    -0.84 405.33
## ------------------------------------------------------------ 
## group: 8
##    vars n  mean     sd median trimmed    mad   min   max range skew kurtosis se
## X1    1 2 15682 108.89  15682   15682 114.16 15605 15759   154    0    -2.75 77
## ------------------------------------------------------------ 
## group: 9
##    vars n    mean      sd median trimmed     mad  min   max range skew kurtosis
## X1    1 7 8948.86 2548.11   8771 8948.86 2622.72 5360 13353  7993 0.31    -1.09
##       se
## X1 963.1
## ------------------------------------------------------------ 
## group: 10
##    vars  n mean     sd median trimmed     mad  min   max range skew kurtosis
## X1    1 28 9711 4587.4   9273 9413.75 5693.93 3555 19463 15908 0.49    -0.75
##        se
## X1 866.94
## ------------------------------------------------------------ 
## group: 11
##    vars  n     mean      sd median  trimmed     mad  min   max range  skew
## X1    1 13 11798.54 4194.37  12903 11708.73 3432.22 5151 19434 14283 -0.16
##    kurtosis      se
## X1    -0.95 1163.31
## ------------------------------------------------------------ 
## group: 12
##    vars  n     mean      sd median trimmed     mad  min   max range skew
## X1    1 47 10030.32 4347.42  10753 9954.33 5306.23 1953 19624 17671 0.17
##    kurtosis     se
## X1    -0.89 634.14
## ------------------------------------------------------------ 
## group: 13
##    vars n    mean      sd median trimmed   mad  min  max range  skew kurtosis
## X1    1 3 7518.33 1958.62   8618 7518.33 91.92 5257 8680  3423 -0.38    -2.33
##         se
## X1 1130.81
## ------------------------------------------------------------ 
## group: 14
##    vars  n    mean      sd median trimmed     mad  min   max range skew
## X1    1 67 9802.37 4596.09   9957 9534.53 5036.39 1828 19620 17792 0.42
##    kurtosis    se
## X1    -0.75 561.5
## ------------------------------------------------------------ 
## group: 15
##    vars  n     mean      sd median  trimmed     mad  min   max range  skew
## X1    1 17 11605.18 4232.44  12003 11640.53 4682.05 3555 19125 15570 -0.32
##    kurtosis      se
## X1    -0.84 1026.52
## ------------------------------------------------------------ 
## group: 16
##    vars  n     mean      sd median  trimmed     mad  min   max range skew
## X1    1 46 10297.57 3996.13  10640 10388.55 4256.54 1957 19046 17089 -0.1
##    kurtosis    se
## X1    -0.89 589.2
## ------------------------------------------------------------ 
## group: 17
##    vars  n     mean      sd median trimmed     mad  min   max range skew
## X1    1 53 10102.47 4071.31  10721 9989.84 4363.29 1941 19520 17579 0.22
##    kurtosis     se
## X1    -0.68 559.24
## ------------------------------------------------------------ 
## group: 18
##    vars n   mean      sd median trimmed    mad  min   max range skew kurtosis
## X1    1 6 7925.5 3993.69 6820.5  7925.5 3740.6 3285 13310 10025 0.24    -1.91
##         se
## X1 1630.42
## ------------------------------------------------------------ 
## group: 19
##    vars  n    mean      sd median trimmed     mad  min   max range skew
## X1    1 15 9376.67 4492.84   8803 9439.54 4398.87 2026 15910 13884 0.01
##    kurtosis      se
## X1    -1.33 1160.05
## ------------------------------------------------------------ 
## group: 20
##    vars  n    mean      sd median trimmed     mad  min   max range skew
## X1    1 64 8348.88 4165.08   8271  8284.4 5103.85 1727 15900 14173  0.1
##    kurtosis     se
## X1    -1.17 520.64

En este apartado también llegamos a conclusiones interesantes. Por ejemplo, a pesar de que la ocupación 8 tiene muy pocos datos, el promedio de compras que tiene es el más alto, el cual es de 15682. A mi parecer, esto la convierte en un segmento bastante prometedor como un mercado potencial, junto con las ocupaciones 11 y 15, que tienen una media superior a 11600 compras de media. Por otro lado, las ocupaciones 9, 13, 18 y 20 son de las menos representativas tanto en compras como en media de compras, ya que ninguna de estas alcanza ni siquiera las 9000 compras de media. Por lo tanto, recomendaría a la empresa desligarse de estos sectores y enfocarse en los más prometedores, como 2, 8, 11, 12, 15, 16 y 17, los cuales tienen altos promedios de compra y de mantener las ocupaciones que actualmente están generando la mayoría de compras.

La lista de las compras por ocupación es la siguiente:
- 0: 1,402,514.31
- 1: 689,783
- 2: 460,414.82
- 3: 292,218.96
- 4: 1,705,629.38
- 5: 232,770
- 6: 344,172.89
- 7: 1,220,466.28 - 8: 31,364
- 9: 62,642.02
- 10: 271,908
- 11: 153,381.02
- 12: 471,425.04
- 13: 22,554.99
- 14: 656,758.79
- 15: 197,288.06 - 16: 473,688.22
- 17: 535,430.91
- 18: 47.553
- 19: 140,650.05
- 20: 534,328.32
- Total: 9,946,939.72
Como podemos ver, las ventas por cada una de las ocupaciones son similares a los porcentajes obtenidos en la tabla anterior, por lo que las conclusiones respecto al número de ventas son muy similares a las anteriores.

Conclucion del analisis de la variable

En base a los datos proporcionados, se pueden identificar algunas ocupaciones con un mayor potencial de compra en comparación con otras. En primer lugar, la ocupación 4 es la que ha generado el mayor número de ventas, lo que indica que es un segmento importante del mercado para la empresa. Además, las ocupaciones 0 y 7 también tienen un alto porcentaje de ventas, lo que sugiere que también son segmentos prometedores.

En cuanto a las ocupaciones con menor cantidad de ventas, se encuentran la 8, 9, 13 y 18, que juntas representan un porcentaje muy bajo del total de ventas. A pesar de esto, es interesante notar que la ocupación 8 tiene el promedio de compras más alto, lo que indica que es un segmento con un gran potencial de compra. Las ocupaciones 11 y 15 también tienen un promedio de compras superior a 11600, lo que las convierte en segmentos prometedores.

En general, se recomienda que la empresa se enfoque en los segmentos más prometedores en términos de ventas y potencial de compra, como las ocupaciones 4, 0, 7, 8, 11, 12, 15, 16 y 17. Esto permitiría a la empresa maximizar su rentabilidad y aprovechar las oportunidades de crecimiento en el mercado.

aquí hay algunas propuestas de mejora adicionales que podrían ayudar a la empresa a aumentar sus ventas y mejorar su desempeño:

Diversificación de productos: Si bien no se proporcionan detalles sobre los productos que ofrece la empresa, es posible que pueda aumentar su base de clientes ofreciendo una variedad de productos y servicios que satisfagan las necesidades de diferentes ocupaciones y segmentos de mercado.

Campañas de marketing enfocadas: Con los datos disponibles, la empresa podría enfocar sus campañas de marketing en las ocupaciones que tienen el mayor potencial de generar ventas, como la ocupación 4, 7, 8, 11, 12, 15, 16 y 17. Además, podría utilizar los datos para adaptar su mensaje de marketing a cada ocupación y segmento de mercado en particular.

Programas de fidelización: La empresa podría ofrecer programas de fidelización para incentivar a los clientes a realizar compras repetidas y aumentar su lealtad. Estos programas podrían incluir descuentos, recompensas o puntos que los clientes puedan canjear por productos o servicios en el futuro.

Mejora de la experiencia del cliente: La empresa podría enfocarse en mejorar la experiencia del cliente en cada uno de los puntos de contacto, como la atención al cliente, el proceso de compra, la entrega y el servicio postventa. Una experiencia positiva para el cliente puede aumentar la probabilidad de que realicen compras repetidas y recomienden la empresa a otros.

Expansión a nuevos mercados: Si la empresa ya ha explotado todo el potencial de su mercado actual, podría considerar la expansión a nuevos mercados, ya sea geográficamente o enfocándose en nuevas ocupaciones o segmentos de mercado. Esto podría ayudar a diversificar su base de clientes y aumentar sus ventas en general.

4. Categoria de ciudad

Tabla de Frecuencia Categoria de ciudad

## Frequencies  
## prueba_base_de_datos$City_Category  
## Type: Character  
## 
##               Freq   % Valid   % Total
## ----------- ------ --------- ---------
##           A   1038    100.00    100.00
##        <NA>      0                0.00
##       Total   1038    100.00    100.00

Tabla de indicadores de tendencia central

## 
##  Descriptive statistics by group 
## group: A
##    vars    n   mean      sd median trimmed     mad  min   max range skew
## X1    1 1038 9582.8 4364.42 9568.5 9449.17 5548.63 1727 19684 17957 0.27
##    kurtosis     se
## X1    -0.72 135.47

La categoría de la ciudad no es una variable relevante para el estudio, ya que no aporta información útil, ya que todas las ciudades son categoría A. Por lo tanto, no se pueden obtener conclusiones significativas basadas en esta variable. Sin embargo, podemos obtener un dato general interesante, que es el promedio de compras de todos los registros sin tener en cuenta ninguna variable específica, lo que nos da una media de 9582.8 compras.

5. Tiempo en la ciudad

Tabla de Frecuencia tiempo en la ciudad

## Frequencies  
## prueba_base_de_datos$Stay_In_Current_City_Years  
## Type: Character  
## 
##               Freq   % Valid   % Total
## ----------- ------ --------- ---------
##           0    171     16.47     16.47
##           1    363     34.97     34.97
##           2    204     19.65     19.65
##           3    171     16.47     16.47
##          4+    129     12.43     12.43
##        <NA>      0                0.00
##       Total   1038    100.00    100.00

En este caso, podemos observar que no hay una gran dispersión entre los datos, sino que se encuentran más agrupados. Sin embargo, podemos destacar que el tiempo en la ciudad que más se repite es el de 1 año, con un 34.97%, mientras que el que menos se repite es el de 4 años o más, con un 12.43%. Los demás tiempos oscilan en un rango muy corto, entre el 16.47% y el 19.65%.

Tabla de indicadores de tendencia central

## 
##  Descriptive statistics by group 
## group: 0
##    vars   n     mean     sd median trimmed     mad  min   max range skew
## X1    1 171 10025.47 4758.2  10641  9914.9 5479.69 1828 19679 17851 0.13
##    kurtosis     se
## X1    -0.91 363.87
## ------------------------------------------------------------ 
## group: 1
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 363 9610.58 4344.04   8826 9420.16 5008.22 1738 19624 17886 0.38
##    kurtosis  se
## X1    -0.63 228
## ------------------------------------------------------------ 
## group: 2
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 204 9828.35 4372.99  10607 9721.04 5272.87 1727 19642 17915 0.25
##    kurtosis     se
## X1    -0.66 306.17
## ------------------------------------------------------------ 
## group: 3
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 171 9079.95 4111.77   8788 9010.88 5109.04 1785 19498 17713 0.14
##    kurtosis     se
## X1    -1.08 314.43
## ------------------------------------------------------------ 
## group: 4+
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 129 9196.06 4153.47   8618 9076.82 4808.07 1745 19684 17939 0.27
##    kurtosis     se
## X1    -0.72 365.69

Ventas por tiempo:
- 0: 1,714,355.37
- 1: 3,488,640.54
- 2: 2,004,983.4
- 3: 1,552,671.45
- 4+: 1,186,291.74

En este caso, el tiempo que una persona lleve en la ciudad no parece ser un factor determinante para las compras, ya que no hay una clara tendencia que permita establecer relaciones significativas con el comportamiento de compra. Sin embargo, dentro de las distintas categorías de tiempo en la ciudad, se puede observar que las compras realizadas por personas con un año de estadía son las más representativas, seguidas por las de dos años y las de menos de seis meses. En cambio, las personas que llevan cuatro o más años en la ciudad realizan menos compras. Aunque este factor no parece ser crucial para analizar el comportamiento de compra, puede ser interesante profundizar en el análisis para buscar posibles explicaciones o patrones que permitan mejorar la estrategia de ventas.

Boxplot

Se observa que los diagramas de bigote para personas que han vivido en la ciudad durante 1, 3 y 4 años son similares en forma y posición, lo que sugiere que no hay diferencias significativas en las ventas entre estos grupos. Además, se observa un sesgo positivo en estos diagramas, lo que indica que la mayoría de las ventas se concentran en valores más altos.

Por otro lado, los diagramas de bigote para personas que han vivido en la ciudad durante 0 y 2 años tienen una forma y posición similar, pero presentan un sesgo diferente. El diagrama para personas que han vivido en la ciudad durante 0 años tiene un sesgo negativo, lo que sugiere que la mayoría de las ventas se concentran en valores más bajos. En cambio, el diagrama para personas que han vivido en la ciudad durante 2 años presenta un sesgo positivo, lo que sugiere que la mayoría de las ventas se concentran en valores más altos.

En cuanto a los límites tanto inferiores como superiores, no parecen ser un factor concluyente para analizar en este tipo de gráfico ya que se observa que son bastante iguales para todos los grupos de tiempo.

Conclucion del analisis de la variable

Aunque no hay una clara tendencia que permita establecer relaciones significativas con el comportamiento de compra en general, sí se observa que las compras realizadas por personas que han vivido en la ciudad durante un año son las más representativas, seguidas por las de dos años y las de menos de seis meses. Además, las personas que han vivido en la ciudad durante cuatro o más años realizan menos compras.

A partir de los diagramas de bigote, se puede observar que no hay diferencias significativas en las ventas entre los grupos de tiempo de 1, 3 y 4 años, mientras que los grupos de tiempo de 0 y 2 años tienen un comportamiento ligeramente diferente en términos de concentración de ventas. Además, los límites tanto inferiores como superiores no parecen ser un factor concluyente para analizar en este tipo de gráfico.

En términos de marketing, estos resultados pueden ser útiles para ajustar la estrategia de ventas en función del tiempo que las personas han vivido en la ciudad. Por ejemplo, puede ser interesante enfocar las campañas publicitarias en las personas que han vivido en la ciudad durante un año, ya que son las que realizan la mayoría de las compras. También puede ser útil identificar posibles patrones o explicaciones para el hecho de que las personas que han vivido en la ciudad durante más tiempo realizan menos compras y buscar maneras de atraerlas de nuevo al mercado. En resumen, estos resultados pueden ayudar a mejorar la estrategia de ventas y a aumentar las ventas en general.

Basándome en los datos presentados, a continuación presento algunas sugerencias de mejora para la empresa:

Profundizar en el análisis de las compras realizadas por personas que llevan 4 o más años en la ciudad: Aunque este factor no parece ser crucial para analizar el comportamiento de compra, el hecho de que las personas que llevan más tiempo en la ciudad realizan menos compras podría ser una oportunidad de mejora para la empresa. Sería interesante investigar las posibles razones detrás de esta tendencia y buscar formas de fomentar la compra de este grupo de consumidores.

Implementar estrategias de marketing específicas para los diferentes grupos de tiempo en la ciudad: Aunque el tiempo que una persona lleva en la ciudad no parece ser un factor determinante para las compras, se puede observar que las compras realizadas por personas con un año de estadía son las más representativas, seguidas por las de dos años y las de menos de seis meses. Implementar estrategias de marketing específicas para cada uno de estos grupos podría aumentar las ventas de la empresa.

Realizar un análisis más detallado de los valores bajos de ventas para personas que han vivido en la ciudad durante 0 años: Se observa que el diagrama de bigote para personas que han vivido en la ciudad durante 0 años tiene un sesgo negativo, lo que sugiere que la mayoría de las ventas se concentran en valores más bajos. Sería interesante analizar las posibles razones detrás de esta tendencia y buscar formas de aumentar las ventas de este grupo de consumidores.

Investigar la posibilidad de ofrecer promociones o descuentos para personas que llevan más tiempo en la ciudad: Dado que las personas que llevan más tiempo en la ciudad realizan menos compras, sería interesante investigar la posibilidad de ofrecer promociones o descuentos específicos para este grupo de consumidores. Esto podría fomentar la compra y aumentar las ventas de la empresa.

En resumen, aunque los datos presentados no muestran una gran dispersión entre los datos, se pueden observar patrones interesantes en función del tiempo que una persona lleva en la ciudad. La empresa podría utilizar esta información para implementar estrategias de marketing específicas para cada grupo de consumidores y fomentar la compra de los grupos que realizan menos compras. También sería interesante profundizar en el análisis de los valores bajos de ventas y buscar formas de aumentar las ventas de este grupo de consumidores.

6. Estado Civil

Tabla de Frecuencia Estado Civil

## Frequencies  
## prueba_base_de_datos$Marital_Status  
## Type: Numeric  
## 
##               Freq   % Valid   % Total
## ----------- ------ --------- ---------
##           0    691     66.57     66.57
##           1    347     33.43     33.43
##        <NA>      0                0.00
##       Total   1038    100.00    100.00

Para esta variable, podemos observar que hay más datos con el estado civil en 0, siendo el doble de los que tienen estado civil 1. Por lo tanto, será mucho más representativo para los datos el estado civil 0 y veremos cómo esto se verá reflejado en las ventas en la siguiente tabla.

Tabla de indicadores de tendencia central

## 
##  Descriptive statistics by group 
## group: 0
##    vars   n    mean      sd median trimmed     mad  min   max range skew
## X1    1 691 9575.74 4422.66   9672 9436.26 5463.38 1727 19684 17957 0.28
##    kurtosis     se
## X1    -0.72 168.25
## ------------------------------------------------------------ 
## group: 1
##    vars   n    mean      sd median trimmed    mad  min   max range skew
## X1    1 347 9596.85 4252.33   8891 9474.49 5129.8 1745 19679 17934 0.26
##    kurtosis     se
## X1    -0.72 228.28

Las ventas por estado civil son las siguientes:
- 0: 6,616,836.34
- 1: 3,488,640.54

Podemos observar que el estado civil es un factor importante en las compras, ya que las personas con estado civil 0 realizan 1.9 veces más compras que las personas con estado civil 1. Sin embargo, las personas con estado civil 1 todavía son relevantes para las ventas de la empresa, ya que representan una buena cantidad de las compras. Por lo tanto, aunque el estado civil es un factor determinante, no es el más importante para determinar si un cliente es más propenso a comprar.

Boxplot

El boxplot muestra la distribución de las compras realizadas por personas de diferentes estados civiles. Podemos observar que el diagrama de bigote de las personas que tienen un estado civil 0 es bastante simétrico, con una mediana cercana a los 10000 y sin un sesgo evidente. En comparación, el diagrama de bigote de las personas con estado civil 1 muestra un sesgo positivo, con una mediana ligeramente menor que la del estado civil 0.

También podemos observar que el rango intercuartil (IQR) de los datos de estado civil 1 es más amplio que el del estado civil 0, lo que indica que hay una mayor variabilidad en las compras realizadas por personas con estado civil 1. Además, hay algunos puntos atípicos en ambos grupos, lo que indica que algunas personas están haciendo compras más grandes de lo habitual.

En general, podemos concluir que el estado civil puede tener una cierta influencia en las compras realizadas por las personas. Aquellos con un estado civil de 1 parecen gastar más en general, aunque hay una mayor variabilidad en sus compras en comparación con aquellos con un estado civil de 0.

Conclucion del analisis de la variable

Basándonos en los resultados estadísticos proporcionados, podemos concluir que el estado civil de los clientes puede ser un factor importante a considerar en la estrategia de marketing de la empresa. Las personas con estado civil 0 representan una mayor proporción de compras en comparación con las personas con estado civil 1. Sin embargo, esto no significa que las personas con estado civil 1 no sean relevantes para las ventas de la empresa, ya que siguen siendo una buena cantidad de compras.

El análisis del boxplot sugiere que las personas con estado civil 1 gastan más en general, pero con una mayor variabilidad en sus compras en comparación con las personas con estado civil 0. Además, hay algunos puntos atípicos en ambos grupos, lo que indica que algunas personas están haciendo compras más grandes de lo habitual.

Teniendo en cuenta estos resultados, se podrían desarrollar estrategias de marketing específicas para cada grupo de estado civil. Por ejemplo, se podría enfocar la publicidad en productos y servicios para parejas casadas y hacer promociones especiales para las personas con estado civil 1 para incentivar sus compras. Por otro lado, para las personas con estado civil 0 se podrían crear campañas publicitarias enfocadas en productos más económicos o promociones para incentivar la compra de productos que generen fidelidad en la marca.

En resumen, el estado civil es un factor importante a considerar en la estrategia de marketing de la empresa, aunque no es el único. Es necesario realizar un análisis más completo de los datos y considerar otros factores como la edad, género, ingresos, entre otros, para poder desarrollar una estrategia de marketing efectiva y personalizada para cada cliente.

7. Id Producto

Tabla de Frecuencia Id Producto

## Frequencies  
## prueba_base_de_datos$Product_ID  
## Type: Character  
## 
##                   Freq   % Valid   % Total
## --------------- ------ --------- ---------
##       P00000142    255     24.57     24.57
##       P00000242     83      8.00      8.00
##       P00000342     64      6.17      6.17
##       P00000442     36      3.47      3.47
##       P00000542     44      4.24      4.24
##       P00000642    134     12.91     12.91
##       P00000742     68      6.55      6.55
##       P00000842      9      0.87      0.87
##       P00000942     18      1.73      1.73
##       P00001042    135     13.01     13.01
##       P00001142    145     13.97     13.97
##       P00001242     32      3.08      3.08
##       P00001342     15      1.45      1.45
##            <NA>      0                0.00
##           Total   1038    100.00    100.00

En este caso podemos observar que hay bastantes variaciones en la frecuencia de los productos en función de su ID. Entre los que tienen más datos se encuentran los de ID: P00000142, P00000642, P00001042 y P00001142. El más representativo en este caso es el P00001142, con un porcentaje de frecuencia del 24.57%, lo cual es 1.74 veces mayor que el segundo con mayor frecuencia, que es el P00000642. Por otro lado, los productos con menor frecuencia en las compras son: P00000842, P00001342 y P00000942, los cuales no superan el 1.73% de los datos.

## 
##  Descriptive statistics by group 
## group: P00000142
##    vars   n     mean      sd median  trimmed    mad  min   max range  skew
## X1    1 255 11077.56 2283.55  10905 11335.64 3544.9 2725 13715 10990 -0.94
##    kurtosis  se
## X1     0.83 143
## ------------------------------------------------------------ 
## group: P00000242
##    vars  n    mean      sd median  trimmed     mad  min   max range  skew
## X1    1 83 9945.84 3681.58   9972 10096.57 4642.02 3214 16503 13289 -0.28
##    kurtosis     se
## X1    -0.96 404.11
## ------------------------------------------------------------ 
## group: P00000342
##    vars  n    mean      sd median trimmed     mad  min  max range  skew
## X1    1 64 5205.02 1816.54 5282.5 5250.65 2424.79 1727 8878  7151 -0.07
##    kurtosis     se
## X1    -0.61 227.07
## ------------------------------------------------------------ 
## group: P00000442
##    vars  n    mean      sd median trimmed     mad  min  max range skew kurtosis
## X1    1 36 4696.58 1608.71   5169 4667.17 2361.04 1953 8891  6938 0.42    -0.28
##        se
## X1 268.12
## ------------------------------------------------------------ 
## group: P00000542
##    vars  n    mean      sd median trimmed     mad  min  max range  skew
## X1    1 44 4620.16 1590.37   5215  4613.5 2188.32 1765 8817  7052 -0.01
##    kurtosis     se
## X1    -0.17 239.76
## ------------------------------------------------------------ 
## group: P00000642
##    vars   n     mean      sd median  trimmed     mad  min   max range  skew
## X1    1 134 14636.86 3584.61  15485 14920.82 5242.47 3950 19684 15734 -0.64
##    kurtosis     se
## X1     0.22 309.66
## ------------------------------------------------------------ 
## group: P00000742
##    vars  n    mean      sd median trimmed    mad  min  max range skew kurtosis
## X1    1 68 5585.03 1472.95   5339 5576.62 227.58 1738 8902  7164 0.02     0.96
##        se
## X1 178.62
## ------------------------------------------------------------ 
## group: P00000842
##    vars n    mean      sd median trimmed  mad  min   max range  skew kurtosis
## X1    1 9 8694.56 3264.79   9672 8694.56 4814 3347 13064  9717 -0.07    -1.45
##         se
## X1 1088.26
## ------------------------------------------------------------ 
## group: P00000942
##    vars  n   mean      sd median trimmed     mad  min   max range skew kurtosis
## X1    1 18 9312.5 3866.27   8288 9243.69 5183.91 4062 15664 11602 0.24    -1.17
##        se
## X1 911.29
## ------------------------------------------------------------ 
## group: P00001042
##    vars   n     mean      sd median  trimmed     mad  min   max range  skew
## X1    1 135 13308.84 3428.06  12088 13337.68 4830.31 3972 19642 15670 -0.23
##    kurtosis     se
## X1    -0.05 295.04
## ------------------------------------------------------------ 
## group: P00001142
##    vars   n    mean      sd median trimmed     mad  min  max range  skew
## X1    1 145 6541.62 1570.76   6953 6649.17 2315.82 1814 8888  7074 -0.59
##    kurtosis     se
## X1     0.24 130.44
## ------------------------------------------------------------ 
## group: P00001242
##    vars  n    mean      sd median trimmed     mad  min  max range skew kurtosis
## X1    1 32 3836.81 1857.24   3655 3702.15 2495.22 1762 7126  5364 0.31    -1.39
##        se
## X1 328.32
## ------------------------------------------------------------ 
## group: P00001342
##    vars  n mean      sd median trimmed mad  min   max range  skew kurtosis
## X1    1 15 9078 3105.95  10642 9215.46 639 2852 13517 10665 -0.84    -0.53
##        se
## X1 801.95

Con la tabla anterior, al igual que en todos los demás puntos presentados, podemos establecer que los productos que presentan una mayor frecuencia en cuanto al número de datos también tienen un mayor peso en las compras que se realizan. De la misma forma, los que tienen una menor frecuencia tienen un peso ínfimo en las compras. En el caso de las empresas que buscan maximizar las ganancias, propondría que se centren en vender únicamente los productos: 00000142, P00000642, P00001042 y P00001142, ya que son los que representan un mayor número de ventas, lo que significa más ganancias y no tener que desperdiciar espacio de bodegaje, entre otros aspectos, en productos de poca venta como P00000842, P00001342 y P00000942. Los demás productos que no son los antes mencionados también los quitaría, ya que aunque su importancia en las ventas es mayor, no llega a ser tan representativa como los mencionados inicialmente.

Conclucion del analisis de la variable

Podemos concluir que los productos con mayor frecuencia de compra son P00000142, P00000642, P00001042 y P00001142, y que representan una gran parte de las ventas de la empresa. Por lo tanto, una estrategia de mercadeo efectiva sería centrarse en promocionar estos productos para maximizar las ganancias. Además, dado que los productos con menor frecuencia de compra (P00000842, P00001342 y P00000942) tienen un peso ínfimo en las ventas, se podría considerar discontinuar la venta de estos productos para optimizar el espacio de almacenamiento y reducir costos.

Otra recomendación podría ser el desarrollo de paquetes o promociones que incluyan los productos más populares, lo que podría aumentar aún más las ventas. También sería beneficioso explorar oportunidades de expansión de mercado a través de estrategias de publicidad dirigidas a aquellos clientes que compran con menos frecuencia, con el fin de atraer nuevos clientes y aumentar las ventas de los productos menos populares.

En general, la empresa debería seguir monitoreando y analizando sus datos de ventas para identificar tendencias y patrones en el comportamiento del consumidor, y así ajustar su estrategia de mercadeo para maximizar sus ganancias y mantener una ventaja competitiva en el mercado.