INTRODUCCIÓN

Para el desarrollo del análisis y la aplicación de los modelos de Machine Learning, se utilizó la base de facturación de la Sociedad Biblica COlombiana, la cual comprende los registros de ventas realizados entre el año 2022 y 2024. Dicha base de datos dispone de cierta variables como: fecha de facturación, los clientes, el producto comprado, el precio, las cantidades, el valor total

1. Análisis y limpieza de los datos

1.1. Datos faltantes

En primer lugar, analizamos la cantidad de faltantes, con el objetivo de garantizar la precisión de datos, para evitar errores que puedan afectar el modelo predictivo. Tal como se puede observar, para este caso no tenemos ninguno.

Tal como se puede evidenciar en la gráfica solo se observa un valor faltante en la columna utilidad bruta, por lo que se procede a eliminar la fila debido a la baja representatividad en el modelo

##             No     FECHA_FACT            Año            Mes      TIPO_FACT 
##              0              0              0              0              0 
##        PREFIJO   TIPO FACTURA    COD CLIENTE       CLIENTES            NIT 
##              0              0              0              0              0 
##      DIRECCION           TIPO           PAIS         CIUDAD   DEPARTAMENTO 
##              0              0              0              0              0 
##       VENDEDOR           ISBN       NOM ISBN          Grupo      NOM CLASE 
##              0              0              0              0              0 
##         Clase2         Tamaño       Tamaño 2           Tipo           COND 
##              0              0              0              0              0 
##      CATEGORIA    VALOR BRUTO          DESC1     VALOR NETO           CANT 
##              0              0              0              0              0 
##    VALOR TOTAL      CST_TOTAL UTILIDAD BRUTA           MES1           ZONA 
##              0              0              1              0              0 
##      AUDIENCIA 
##              0
##             No     FECHA_FACT            Año            Mes      TIPO_FACT 
##              0              0              0              0              0 
##        PREFIJO   TIPO FACTURA    COD CLIENTE       CLIENTES            NIT 
##              0              0              0              0              0 
##      DIRECCION           TIPO           PAIS         CIUDAD   DEPARTAMENTO 
##              0              0              0              0              0 
##       VENDEDOR           ISBN       NOM ISBN          Grupo      NOM CLASE 
##              0              0              0              0              0 
##         Clase2         Tamaño       Tamaño 2           Tipo           COND 
##              0              0              0              0              0 
##      CATEGORIA    VALOR BRUTO          DESC1     VALOR NETO           CANT 
##              0              0              0              0              0 
##    VALOR TOTAL      CST_TOTAL UTILIDAD BRUTA           MES1           ZONA 
##              0              0              0              0              0 
##      AUDIENCIA 
##              0

1.2. Eliminación de columnas que no aportan información relevante

Procedemos a eliminar las columnas “PREFIJO”, “COD CLIENTE”, “NIT”, “DIRECCION”, “ISBN”, dado que para efectos del analisis no son relevantes y podrian causar “ruido” durante la generación de los modelos.

La columna “PREFIJO” se asocia con “TIPO FACTURA”, mientras que la columna “COD CLIENTE”, al ser única, se vincula con la columna “CLIENTE”. Por otro lado, la columna “NIT” no proporciona información relevante. Además, la columna “DIRECCIÓN” y el “ISBN” se relacionan con la columna “NOM ISBN”.

2. Análisis exploratorio de los datos

2.1 Análisis univariable

2.1.1. Distribución de las ventas según el mercado al que atienden nacional/extranjero

Como se puede apreciar en el gráfico anterior, la mayor parte de la facturación de la SBC durante los años 2022 a 2024 se realizó en el mercado nacional, representando un 98% del total. En contraste, el mercado extranjero contribuyó con un porcentaje significativamente menor, alcanzando únicamente el 2%.

2.1.2. Distribución de las ventas por mercado nacional (cantidad de literatura vendida)

A partir del análisis de la gráfica, se puede concluir que las tres principales ciudades del país son las que más aportan a la facturación de la Sociedad Bíblica Colombiana (64,7% entre las 3), siendo Bogotá la mas representativa con mas de la mitad. Este hallazgo destaca la concentración de ventas en áreas urbanas más grandes, donde la demanda de literatura religiosa es notablemente alta.

Además, el gráfico pone de manifiesto que ciudades de menor tamaño, como Cúcuta, Pereira, Montería, Soledad y Valledupar representan aproximadamente el 8,5% del total de las ventas. Este dato sugiere que, a pesar de su menor población, estas ciudades exhiben una notable devoción religiosa en relación con su número de habitantes, lo que podría indicar un mercado potencial significativo para la Sociedad Bíblica Colombiana en estas regiones, teniendo en cuenta la cobertura poblacional.

En contraste, Cartagena, que ocupa el quinto lugar en términos de tamaño poblacional en Colombia, apenas contribuye con un 1% de las ventas. Este fenómeno puede ser indicativo de factores culturales o socioeconómicos que afectan la demanda de productos religiosos en esta ciudad costera.

Asimismo, es relevante señalar que en el top 15 de ciudades que generan ventas para la Sociedad Bíblica Colombiana no se encuentran ciudades importantes como Santa Marta e Ibagué. Esto podría sugerir que hay áreas en el país donde la presencia y el interés por la literatura religiosa son limitados, lo que abre la puerta a futuras investigaciones sobre las dinámicas de consumo religioso en diferentes contextos urbanos y rurales.

2.1.3. Distribución de las ventas por mercado nacional (utilidad en pesos)

La gráfica muestra que Bogotá es la ciudad con la mayor utilidad bruta ($7.676 M), superando significativamente a las demás ciudades en la lista. Medellín ocupa el segundo lugar, pero su utilidad bruta es considerablemente menor, seguida por Cali, Barranquilla y Bucaramanga, que también presentan cifras bajas en comparación con Bogotá. Las otras ciudades, como Cúcuta, Montería y Pereira, tienen utilidades brutas tan reducidas que apenas son visibles en la gráfica.

Este análisis revela una gran disparidad económica entre Bogotá y las demás ciudades, sugiriendo que Bogotá es un centro económico clave en el país. Además, se observa que las ciudades más grandes y conocidas tienden a tener mayores utilidades brutas, lo que podría estar relacionado con su tamaño, población y actividad económica.

A partir de la gráfica, se pueden identificar las 15 ciudades que contribuyen en menor medida a la utilidad bruta de la empresa. Estas ciudades, en su mayoría, tienen una población reducida. Sin embargo, es notable que Dosquebradas, a pesar de contar con solo la mitad de la población de Pereira (que aporta 255,5 millones en utilidad bruta), no alcanza ni siquiera los 150.000. Este dato sugiere que, en términos proporcionales, la situación de Dosquebradas es algo inusual, considerando que ambas ciudades pertenecen al mismo departamento y que la población de Dosquebradas es significativamente menor. Esto plantea la necesidad de investigar más a fondo las circunstancias que podrían estar detrás de este fenómeno.

2.1.4. Margen bruto por ciudad

## Warning: package 'kableExtra' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows
Ciudad Ventas Netas Costo de Venta Utilidad Bruta Margen Bruto (%)
21 BOGOTÁ $15,395,309,104.47 $7,718,584,552.18 $7,676,724,552.55 49.86405
101 MEDELLÍN $ 2,401,471,796.13 $1,188,288,997.04 $1,213,182,799.10 50.51830
31 CALI $ 1,108,897,509.80 $ 526,500,092.50 $ 582,397,417.31 52.52040
18 BARRANQUILLA $ 1,031,903,986.98 $ 522,855,010.10 $ 509,048,976.91 49.33104
22 BUCARAMANGA $ 809,285,022.81 $ 380,586,826.82 $ 428,698,196.00 52.97246
52 CÚCUTA $ 617,183,557.56 $ 273,889,264.77 $ 343,294,292.80 55.62272
105 MONTERÍA $ 493,486,773.98 $ 213,286,392.57 $ 280,200,381.42 56.77971
122 PEREIRA $ 482,966,985.02 $ 227,483,740.70 $ 255,483,244.30 52.89870
186 VALLEDUPAR $ 431,881,129.15 $ 196,419,602.41 $ 235,461,526.74 54.51998
168 SOLEDAD $ 449,502,951.60 $ 228,715,905.34 $ 220,787,046.25 49.11804
195 YOPAL $ 374,774,722.35 $ 165,488,533.93 $ 209,286,188.42 55.84320
165 SOACHA $ 382,315,269.25 $ 183,020,559.10 $ 199,294,710.16 52.12837
33 CARTAGENA $ 295,436,260.36 $ 125,880,001.29 $ 169,556,259.07 57.39182
117 PALMIRA $ 214,054,841.95 $ 98,692,165.60 $ 115,362,676.35 53.89398
125 POPAYAN $ 216,678,639.62 $ 101,318,378.08 $ 115,360,261.54 53.24026

Podemos observar que hay ciudades que presentan un buen margen bruto a pesar de tener menores ventas netas. Este margen bruto refleja la eficiencia de una empresa en la gestión de costos directos y es un indicador clave de la rentabilidad de un negocio antes de considerar otros gastos. Para el análisis, hemos seleccionado las 15 ciudades con mayor utilidad bruta, siguiendo el mismo enfoque que hemos utilizado anteriormente.

Un ejemplo notable es Cartagena, que muestra una alta eficiencia operativa en la generación de sus ventas, con un margen bruto del 57%. Esto indica que para alcanzar sus niveles de ventas, se requiere una menor inversión en costos directos. Aunque el margen bruto en Bogotá también es positivo (49%), al comparar las proporciones, se evidencia que Cartagena es relativamente más rentable.

Este análisis sugiere que, aunque Bogotá tiene mayores ventas netas, la eficiencia en la gestión de costos en Cartagena le permite obtener un mejor rendimiento en términos de rentabilidad. Esto resalta la importancia de no solo enfocarse en las cifras de ventas, sino también en la gestión eficiente de los costos para maximizar la rentabilidad.

2.1.5. Distribución de las ventas por mercado exterior (cantidad de literatura vendida)

Se observa que México lidera con un 27% de las ventas, seguido de Perú con un 9.7% y Cuba con un 9.2%. Estos tres países son los mercados más significativos, lo que indica que representan oportunidades clave para el crecimiento de las ventas en el exterior.

Por otro lado, Costa Rica y Bolivia tienen los porcentajes más bajos, con 2.6% y 1,8% respectivamente, lo que sugiere que las ventas en estos países son menos relevantes en comparación con los líderes. Esta diferencia en los porcentajes puede señalar oportunidades de expansión en los mercados menos significativos, si se implementan estrategias adecuadas para aumentar la presencia y las ventas en esos países.

2.1.6. Análisis de categorias de literaturas cristiana

Con el objetivo de analizar el comportamiento de compra de los consumidores, llevaremos a cabo un análisis de categorías. Este enfoque nos permitirá observar, de manera general, cómo se encuentra segmentada la población, respecto a las categorias en las que se engloban cada una de las referencias de literatura cristiana analizadas.

Categoría Precio Medio (COP)
Fina 116.225,14
Semifina 60.146,57
Semieconomica 40.045,39
Linea 28.001,71
Economica 10.128,94
## 
## Adjuntando el paquete: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

Línea y Semifina son las categorias más frecuentes, con una frecuencia de aproximadamente 45,000 y 44,000 respectivamente. Esto sugiere que la literatura cristiana en esta categoría es la más popular o la más ampliamente distribuida. La alta frecuencia podría indicar que esta categoría abarca una amplia gama de temas o formatos que atraen a un gran número de lectores.

Fina, con una frecuencia de alrededor de 2,000, esta categoría es la menos frecuente entre las cinco. Esto podría indicar que la literatura cristiana de alta calidad o más exclusiva es menos común, posiblemente debido a su costo más elevado o a un público objetivo más específico.

De este modo, podemos observar que la población analizada se divide entre aquellos que muestran una fuerte preferencia por la literatura cristiana considerada estándar o accesible, lo que sugiere que buscan contenido relevante y fácil de adquirir, sin menospreciar a otros grupos de consumidores. Por otro lado, la alta frecuencia en la categoría Semifina indica una gran demanda por literatura cristiana en este segmento. Esto refleja que los consumidores valoran la calidad y están dispuestos a invertir en libros que ofrecen un equilibrio adecuado entre precio y contenido.

Más adelante, utilizaremos algoritmos de clustering, que nos permitiran comprobar la veracidad de lo anteriormente mencionado.

2.1.7. Clases mas representativas

Resumen de Ventas por Categoría (Ordenado por Utilidad)
CLASE VENTAS COSTO UTILIDAD PORCENTAJE_UTILIDAD
1 BIBLIAS $49.349.631.576 $28.908.151.501 $20.441.480.076 96.52%
7 PORCIONES PEQ $748.589.937 $451.240.916 $297.349.022 1.40%
6 PORCIONES GRANDES $572.068.460 $391.214.364 $180.854.096 0.85%
5 NT $585.479.763 $408.371.549 $177.108.214 0.84%
2 LITERATURA $205.814.187 $133.023.969 $72.790.218 0.34%
4 N/A $22.316.144 $14.166.954 $8.149.189 0.04%
3 MISCELANEOS $2.832.687 $1.894.104 $938.583 0.00%

Las Biblias se destacan como la categoría más rentable, generando una utilidad de $20.441 millones, lo que las posiciona como la “categoría estrella” en términos de rentabilidad, ya que representan casi el 97% de las utilidades totales de la compañía. En contraste, las Porciones Pequeñas, aunque presentan una utilidad significativa en términos absolutos, muestran un porcentaje de utilidad considerablemente menor, del 1.40%. Por su parte, las Porciones Grandes y el Nuevo Testamento (NT) exhiben utilidades similares, pero sus porcentajes de utilidad se sitúan por debajo del 1%, lo que indica un rendimiento menos favorable en comparación con las Biblias.

En otro extremo, las categorías de Literatura, N/A y Misceláneos reflejan las utilidades más bajas, tanto en términos absolutos como porcentuales, con porcentajes de utilidad que no superan el 0.5%. Esta información es fundamental para identificar los productos más rentables y aquellos que podrían necesitar ajustes en costos, precios de venta o promoción comercial, para mejorar su desempeño financiero.

2.1.8. Facturación por referencias

En la gráfica podemos observar el top 10 de las referencias que tuvieron la mayor facturación entre 2022 y 2024:

2.1.9. Utilidad bruta por referencias

En la gráfica podemos observar el top 10 de las referencias que tuvieron la mayor utilidad bruta entre 2022 y 2024:

2.1.10. Análisis de los clientes - Venta Nacional

Clientes con mayor frecuencia en la compra de productos entre 2022 y 2024

## Warning: package 'treemapify' was built under R version 4.4.3

Como se puede observar en la gráfica del TOP 10, el cliente con la mayor frecuencia de compra es el CENTROS DE LITERATURA CRISTIANA, un distribuidor de literatura, seguido por Luis Fernando Palencia, un cliente individual, y la Inter-American Division Publishing (distribuidor), seguido de otros clientes particulares. Es importante destacar que, aunque los clientes individuales pueden tener una contribución menor en términos absolutos a la facturación de la compañía, es fundamental diseñar estrategias comerciales adaptadas a sus necesidades para aumentar su valor a largo plazo. Para este tipo de clientes, se recomienda implementar programas de lealtad que incentiven un mayor gasto en cada compra, ofreciendo descuentos atractivos o productos gratuitos como parte de la estrategia.

Clientes con mayor facturación entre 2022 y 2024

A partir del gráfico, podemos identificar a los principales clientes nacionales que contribuyen significativamente a la facturación. Los cinco clientes con mayor facturación, en orden descendente, son:

  1. Centro de Literatura Cristiana: $2.962 millones
  2. Corporación Gremial de Ministros de la Iglesia Pentecostal: $2.580 millones
  3. Librería y Papelería Futuro LTDA: $1.935 millones
  4. Sociedad Salesiana Inspectoria de Bogotá: $1.892 millones
  5. Librería Panamericana: $1.104 millones

Este análisis revela que una porción significativa de la facturación proviene de un número reducido de clientes, lo que es característico del principio de Pareto, donde el 80% de los resultados provienen del 20% de las causas. La identificación de estos clientes clave es fundamental para la estrategia comercial, ya que permite enfocar esfuerzos en mantener y potenciar las relaciones con ellos, así como explorar oportunidades de crecimiento en otros segmentos.

Teniendo en cuenta que el Centro de Literatura Cristiana es el cliente con la mayor frecuencia de compra y el mayor volumen absoluto en ventas, se recomienda implementar una serie de estrategias personalizadas para maximizar esta relación comercial; programas de fidelización exclusivo que ofrezca beneficios adicionales, como descuentos por volumen, acceso anticipado a nuevos productos y promociones especiales. Esto no solo incentivará un mayor gasto, sino que también fortalecerá la lealtad del cliente.

2.2 Analisis bivariado descuentos años 2023 y 2024

2.2.1. Relación entre los descuentos otorgados con base en la frecuencia de compra

Para llevar a cabo un análisis bivariado entre la frecuencia de compra de los clientes y los descuentos otorgados, creamos un data frame que se presenta a continuación (primeras 6 filas). Este data frame contiene dos columnas: una que representa la frecuencia de compra de cada cliente y otra que muestra la mediana de los descuentos otorgados a cada uno. De esta manera, podemos analizar la correlación existente entre ambas variables.

##                                              CLIENTES FRECUENCIA DESC1
## 128            CENTROS DE LITERATURA CRISTIANA C.L.C.       3238    50
## 388 INTER-AMERICAN DIVISION PUBLISHIG ASSOCIATION INC       1841    40
## 462                  LUIS FERNANDO PALENCIA RODRIGUEZ       1341    30
## 959                       VIVEROS INAGAN LINA MARIETH       1102    42
## 498                   MARTINEZ BETANCOURTH JHON JAIME       1097    42
## 529                MISION BIBLIA PARA EVANGELIZAR SAS       1037    45

## [1] "El coeficiente de correlación es: 0.273503535839571"

Una correlación de 0.27 sugiere que la relación entre las dos variables es débil. Esto implica que existen otros factores que pueden estar influyendo en los descuentos, lo que indica que la frecuencia de compra no es un predictor sólido de los descuentos otorgados.

Además, el análisis del gráfico de dispersión revela que hay clientes que reciben descuentos elevados a pesar de tener una frecuencia de compra relativamente baja. Este patrón podría indicar que los descuentos se determinan más en función del monto de la compra que de la frecuencia de las transacciones. Tambien podria ser un indicativo, de descuentos altos para clientes que realizan primeras compras.

2.2.2. Relación entre los descuentos otorgados con base en los montos de las compras consolidados

Ahora realizamos el mismo análisis, pero para este caso considerando la relación entre la mediana de los descuentos frente al valor consolidado de las compras por clientes.

##                                              CLIENTES VALOR BRUTO DESC1
## 128            CENTROS DE LITERATURA CRISTIANA C.L.C.   191198410    50
## 388 INTER-AMERICAN DIVISION PUBLISHIG ASSOCIATION INC   107999001    40
## 529                MISION BIBLIA PARA EVANGELIZAR SAS    90643870    45
## 498                   MARTINEZ BETANCOURTH JHON JAIME    87514170    42
## 462                  LUIS FERNANDO PALENCIA RODRIGUEZ    85617760    30
## 254         FUNDACION EDUCACION CRISTIANA PENTECOSTAL    79346951    42

## [1] "El coeficiente de correlación es: 0.316561299191878"

El coeficiente de correlación de aproximadamente 0.317 entre las ventas brutas y los descuentos sugiere una correlación positiva moderada. Aunque hay una correlación positiva, el hecho de que no sea muy fuerte sugiere que otros factores también pueden estar influyendo en las ventas brutas. Por ejemplo, la calidad del producto, la publicidad, la estacionalidad, y otros factores pueden jugar un papel importante.

3. Agrupación de clientes para identificar patrones similares

Para efectos del analisis utilizaremos unicamente el año 2023 y 2024 y las ventas a nivel nacional para la clase unicamente de Biblias y Audiencia Librerias.

Teniendo en cuenta que se tienen en mayor proporción variables categoricas, el One-Hot Encoding puede aumentar significativamente el número de columnas en el conjunto de datos, lo que puede afectar el rendimiento de los modelos de machine learning.Por esta razón, optamos por filtrar por estas variables para tener una proporción mas reducida de variables categoricas.

Identificamos los valores atípicos a partir de la utilidad bruta por medio de la identificación de valores superiores/inferiores al Rango Intercuartilico, dado que engloba la operación aritmética entre el precio, las cantidades y el costo total. Esto sugiere que si alguna de estas variables presenta un comportamiento atípico, podría afectar significativamente la utilidad bruta. Lo anterior se realiza, dado que las técnicas de agrupamiento son sensibles a los valores atipicos

## # A tibble: 6 × 31
##      No FECHA_FACT            Año Mes   TIPO_FACT  `TIPO FACTURA` CLIENTES TIPO 
##   <dbl> <dttm>              <dbl> <chr> <chr>      <chr>          <chr>    <chr>
## 1 38155 2023-01-11 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… COMERCI… NACI…
## 2 38166 2023-01-11 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… LIBRERI… NACI…
## 3 38200 2023-01-11 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… COMERCI… NACI…
## 4 38201 2023-01-11 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… COMERCI… NACI…
## 5 38218 2023-01-12 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… PAEZ GU… NACI…
## 6 38219 2023-01-12 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… PAEZ GU… NACI…
## # ℹ 23 more variables: PAIS <chr>, CIUDAD <chr>, DEPARTAMENTO <chr>,
## #   VENDEDOR <chr>, `NOM ISBN` <chr>, Grupo <chr>, `NOM CLASE` <chr>,
## #   Clase2 <chr>, Tamaño <chr>, `Tamaño 2` <chr>, Tipo <chr>, COND <chr>,
## #   CATEGORIA <chr>, `VALOR BRUTO` <dbl>, DESC1 <dbl>, `VALOR NETO` <dbl>,
## #   CANT <dbl>, `VALOR TOTAL` <dbl>, CST_TOTAL <dbl>, `UTILIDAD BRUTA` <dbl>,
## #   MES1 <dbl>, ZONA <chr>, AUDIENCIA <chr>
## [1] "Base de datos sin valores atípicos:"
## # A tibble: 6 × 31
##      No FECHA_FACT            Año Mes   TIPO_FACT  `TIPO FACTURA` CLIENTES TIPO 
##   <dbl> <dttm>              <dbl> <chr> <chr>      <chr>          <chr>    <chr>
## 1 38104 2023-01-04 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… CARREÑO… NACI…
## 2 38105 2023-01-04 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… CARREÑO… NACI…
## 3 38106 2023-01-04 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… CARREÑO… NACI…
## 4 38107 2023-01-04 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… CARREÑO… NACI…
## 5 38108 2023-01-04 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… CARREÑO… NACI…
## 6 38119 2023-01-05 00:00:00  2023 ENERO FACTURACI… FACTURA NACIO… CARREÑO… NACI…
## # ℹ 23 more variables: PAIS <chr>, CIUDAD <chr>, DEPARTAMENTO <chr>,
## #   VENDEDOR <chr>, `NOM ISBN` <chr>, Grupo <chr>, `NOM CLASE` <chr>,
## #   Clase2 <chr>, Tamaño <chr>, `Tamaño 2` <chr>, Tipo <chr>, COND <chr>,
## #   CATEGORIA <chr>, `VALOR BRUTO` <dbl>, DESC1 <dbl>, `VALOR NETO` <dbl>,
## #   CANT <dbl>, `VALOR TOTAL` <dbl>, CST_TOTAL <dbl>, `UTILIDAD BRUTA` <dbl>,
## #   MES1 <dbl>, ZONA <chr>, AUDIENCIA <chr>

Seleccionamos unicamente las columnas que utilizaremos para el análisis, las cuales consideramos mas relevantes para categorizar los clientes y validamos que sean númericas, ya que K-means utiliza promedios de variables y no funciona con variables categoricas. Las variables consideradas son: Tamaño, Descuentos, Precio, Cantidades y Utilidad Bruta

## tibble [36,285 × 5] (S3: tbl_df/tbl/data.frame)
##  $ Tamaño 2      : num [1:36285] 60 60 60 80 60 20 60 80 20 80 ...
##  $ DESC1         : num [1:36285] 42 42 42 42 42 42 42 42 42 40 ...
##  $ VALOR NETO    : num [1:36285] 66642 66642 66642 95642 66642 ...
##  $ CANT          : num [1:36285] 1 2 1 1 2 3 2 2 2 1 ...
##  $ UTILIDAD BRUTA: num [1:36285] 43254 86791 43648 57059 59891 ...

Normalizamos los datos aplicando scale:

##        Tamaño 2     DESC1     PRECIO       CANT UTILIDAD BRUTA
## [1,]  0.4201712 0.1100199  0.3662806 -0.4342565    -0.46917871
## [2,]  0.4201712 0.1100199  0.3662806 -0.2058247     0.67154595
## [3,]  0.4201712 0.1100199  0.3662806 -0.4342565    -0.45886585
## [4,]  1.3726241 0.1100199  1.4832032 -0.4342565    -0.10746329
## [5,]  0.4201712 0.1100199  0.3662806 -0.2058247    -0.03327143
## [6,] -1.4847345 0.1100199 -0.8176572  0.0226071    -0.21028716

3.1. Aplicación del algoritmo K-means

3.1.1. Método del Codo

Al observar la gráfica, se puede identificar que la tasa de disminución de la WSS se estabiliza alrededor de 4 clústeres, lo que sugiere que este es el número óptimo para dividir los datos sin sobreajustar el modelo.

3.1.2. Cálculo K-Means

3.1.3. Clusters formados utilizando datos originales

A continuación observamos la media de cada variable para cada cluster utilizando los datos originales.

##   cluster Tamaño 2     DESC1   PRECIO      CANT UTILIDAD BRUTA
## 1       1 67.51350 44.016720 77512.35  1.945330       75030.61
## 2       2 59.57306 21.168880 10071.00 24.502846      115704.11
## 3       3 35.85922 43.313409 44505.59  2.265418       47714.38
## 4       4 57.92271  7.365867 41575.42  4.234958       48385.64

–>Cluster 1: Este grupo tiene el precio más alto, pero la cantidad comprada es relativamente baja. Esto sugiere que estos clientes compran biblias de alto valor o en grandes volúmenes en pocas transacciones. Podrían ser clientes premium o que compran productos de lujo. De igual forma el tamaño de bibilia es el más grande, por lo que esto tambien podria influir en los precios.

–>Cluster 2: Este grupo tiene el precio más bajo, pero la cantidad comprada es la más alta. Estos clientes compran frecuentemente, pero las biblias son de menor valor.

–>Cluster 3: Este grupo tiene un precio y cantidad comprada moderados. Estos clientes podrían estar comprando productos de valor medio en cantidades moderadas. Podrían ser clientes regulares que hacen compras ocasionales de productos de valor medio.

–>Cluster 4: Este grupo tiene un precio similar al Cluster 3, pero con una cantidad comprada mayor. Estos clientes podrían estar comprando productos de valor medio en cantidades ligeramente mayores. Podrían ser clientes que buscan ofertas o compran en volúmenes ligeramente mayores para obtener mejores precios.

3.1.4. Gráfico de K-Means

A partir de la gráfica se pueden extraer las siguientes conclusiones:

Separación de Clústeres: Los clústeres 1 (rojo) y 2 (verde) están bien separados, lo que indica que los datos en estos grupos son bastante distintos entre sí en las dimensiones consideradas.

Solapamiento de Clústeres: Hay un solapamiento significativo entre los clústeres 1 (rojo), 3 (azul) y 4 (morado), lo que sugiere que los datos en estos grupos tienen características similares y no están claramente diferenciados en las dimensiones utilizadas.

Distribución de Datos: El clúster 2 (verde) parece tener una forma más alargada, lo que podría indicar una mayor variabilidad interna en comparación con los otros clústeres.

Proporción de Variabilidad: Las dimensiones utilizadas explican una parte significativa de la variabilidad total (64% en conjunto), pero no toda, lo que sugiere que podría haber otras dimensiones relevantes no incluidas en esta visualización.

` 3.2. Análisis de Componentes Principales

## [1] 1.3151122 1.2130397 0.9412469 0.8301251 0.4732454
## [1] 5

A partir del gráfico de sedimentación, se puede concluir que los dos primeros componentes principales son los más significativos, ya que el primero explica el 34.6% de la varianza total y el segundo el 29.4%. Esto indica que estos componentes capturan la mayor parte de la información en los datos. Además, se observa un punto de inflexión después del segundo componente, donde la cantidad de varianza adicional explicada por cada componente disminuye considerablemente, sugiriendo que los componentes adicionales aportan menos información nueva. Por lo tanto, sería razonable retener solo los dos primeros componentes, ya que juntos explican un 64% de la varianza total, mientras que los componentes posteriores contribuyen de manera menos significativa a la comprensión de la estructura subyacente de los datos.

##                       PC1        PC2        PC3        PC4        PC5
## Tamaño 2       -0.3536955 -0.5356797 -0.1329916 -0.6846095  0.3187003
## DESC1          -0.3470246  0.2259621  0.8766387 -0.2189662 -0.1098790
## PRECIO         -0.5684798 -0.4209155 -0.1003588  0.3645040 -0.5972653
## CANT            0.6101826 -0.3301493  0.1599817 -0.3667531 -0.5988128
## UTILIDAD BRUTA  0.2428608 -0.6130416  0.4220802  0.4647501  0.4135870

3.2.1. Gráfico de contribución de variables al componente:

Según lo que se observa en el gráfico, se puede concluir que, por encima de la línea roja discontinua, que representa el 20% del umbral de contribución, las variables más relevantes en relación con la contribución de la dimensión 1 son la Cantidad y el Precio. Para la Dimensión 2 la Utilidad Bruta y el Tamaño y finalmente en la dimensión 3; los descuentos.

3.2.2. Círculo de de correlación (nube de variables):

En relación con la interacción entre las variables, se observa que DESC1 y CANT están orientadas en direcciones opuestas, lo que sugiere una posible relación inversa; es decir, un aumento en una podría estar asociado con una disminución en la otra. Sin embargo, esta conclusión no parece congruente, ya que, en teoría, un mayor número de compras debería correlacionarse con un mayor descuento. Por lo tanto, es necesario investigar más a fondo las razones detrás de esta relación. Es posible que se estén aplicando descuentos estándar para ciertos productos, lo que podría estar afectando la lógica del análisis. Si este es el caso, se recomienda que los descuentos sean variables y se ajusten de acuerdo con la cantidad de compra, para reflejar de manera más precisa la relación esperada entre las compras y los descuentos.

Por otro lado, PRECIO y Tamaño 2 están más cercanas entre sí, lo que sugiere una posible correlación positiva. Asimismo, UTILIDAD BRUTA también se encuentra cerca de Tamaño 2, aunque en menor medida, lo que indica que la correlación es más moderada. Esta relación resulta razonable, ya que se espera que una biblia de mayor tamaño tenga un precio más elevado. Además, si la estructura de costos es óptima, debería haber una correlación congruente que refleje una mayor utilidad bruta.

No se evidencia ninguna correlación entre las cantidad vs precio y cantidad vs tamaño

La escala de colores en el gráfico indica la contribución de cada variable a las dimensiones principales. Las variables con colores más oscuros, como Cantidad y Precio, tienen una mayor contribución a la variabilidad explicada, mientras que las variables con colores más claros tienen una menor contribución.

A partir de la grafica podemos evidenciar que en primer lugar, la distribución de los datos muestra que la mayoría de los puntos se concentran en una forma triangular o piramidal. Esta concentración indica una mayor densidad cerca del centro, con una dispersión que disminuye hacia los extremos. Esto sugiere que los datos tienen una estructura subyacente que se puede capturar en gran medida con las dos primeras componentes principales.

En segundo lugar, es importante destacar que las dos primeras componentes principales juntas explican el 64% de la varianza total (34.6% + 29.4%). Esto significa que una parte significativa de la información original de los datos se puede representar en este espacio bidimensional, lo que es un indicativo de la efectividad del análisis realizado.

Además, se pueden identificar algunos puntos que se encuentran alejados del centro de la distribución, especialmente hacia la derecha y abajo en el gráfico. Estos puntos podrían ser considerados como outliers o individuos que se comportan de manera diferente al resto, lo que podría ser relevante para un análisis más profundo. De este modo, se debe evaluar si deben de ser eliminados, de tal forma que no se vean afectados los modelos de machine learning por el ruido generado a causa de estos outliers.