Autores:

Fecha: 2024-05-23

Docente: Ing. Cristian Benalcazar de la Cruz

Desarrollo de análisis y modelo estadístico

Paso 1: Descripción del dataset

Nombre del Dataset: Ventas 2018.xlsx

Descripción:

El dataset Ventas 2018 recopila datos de ventas de una empresa durante un período de cinco años, desde 2018 hasta 2022. Este conjunto de datos ofrece información detallada sobre las transacciones comerciales realizadas por la empresa en ese lapso de tiempo. A continuación, se presenta una descripción general del dataset:

  • Filas: Cada fila del dataset representa una transacción de venta individual, lo que incluye información sobre el cliente, el producto o servicio vendido, la fecha y hora de la venta, el monto de la transacción, etc.

  • Columnas: Las columnas del dataset incluyen una variedad de atributos que describen cada transacción. Algunas de las columnas comunes podrían incluir:

    • ID de transacción
    • Fecha y hora de la transacción
    • ID del cliente
    • Nombre del cliente
    • ID del producto
    • Descripción del producto
    • Cantidad vendida
    • Precio unitario
    • Total de ventas

Los campos que comprende el dataset son los siguientes:

Campo Tipo de Datos Descripción
PAÍS character El país en el que se realizó la venta.
FORMA DE VENTA character El método o canal de venta utilizado para realizar la transacción.
FORMA DE PAGO character El método de pago utilizado para completar la transacción.
PRODUCTO character El nombre del producto vendido.
VENDEDOR character El nombre del vendedor que realizó la venta.
FECHA Date La fecha en la que se realizó la venta.
VENTAS numeric El monto total de la venta en la moneda local.
CANTIDAD integer La cantidad de productos vendidos en la transacción.
COMISIÓN numeric La comisión generada por la venta para el vendedor o el intermediario.

Paso 2: Objetivo del análisis.

COLOCAR OBJETIVOS AL FINAL

Paso 3: Exploración de datos.

# Instalar y cargar el paquete readxl
#install.packages("readxl")
library(readxl)

# Especifica la URL RAW del archivo Excel en GitHub
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"

# Descargar el archivo temporalmente
temp_file <- tempfile(fileext = ".xlsx")
download.file(url, destfile = temp_file, mode = "wb")

# Leer el archivo Excel
datos <- read_excel(temp_file)

limpieza de datos duplicados

A continuación se procede a realizar la limpieza de datos del dataset con el objetivo de garantizar la calidad y confiabilidad de los datos antes de realizar cualquier análisis o interpretación.

# Limpieza de datos

# Eliminar valores NA
datos_limpio <- na.omit(datos)

# Eliminar valores duplicados
datos_limpio <- unique(datos_limpio)

# Manejar valores atípicos (depende del contexto y los criterios específicos)

# Por ejemplo, para identificar valores atípicos en la columna 'VENTAS':
outliers <- boxplot(datos_limpio$VENTAS, plot = FALSE)$out

# Eliminar valores atípicos (por ejemplo, valores de ventas que están muy por encima o por debajo de la media)
datos_limpio <- datos_limpio[!datos_limpio$VENTAS %in% outliers, ]

# Verificar si hay valores faltantes después de la limpieza
any(is.na(datos_limpio))
## [1] FALSE

Interpretación

Como se puede observar el código anterior nos permitió realizar una limpieza básica de datos al eliminar filas con valores faltantes y duplicados, así como valores atípicos en la columna de ‘VENTAS’.

Mostrar Datos

Una vez realizada la limpieza respectiva de los datos, se procede a realizar la respectiva exploración de los datos. Para esto primero mostramos las primeras filas del dataframe para asi obtener una idea rápida de cómo se estructuran los datos y qué tipo de información contiene.

# Mostrar las primeras filas del dataframe
head(datos)
## # A tibble: 6 × 9
##   PAÍS    `FORMA DE VENTA` `FORMA DE PAGO` PRODUCTO VENDEDOR FECHA              
##   <chr>   <chr>            <chr>           <chr>    <chr>    <dttm>             
## 1 Nicara… Redes Sociales   Cheque          Casco d… Viviana… 2018-09-22 00:00:00
## 2 Panama  Teléfono         Cheque          Casco d… Hernand… 2018-06-21 00:00:00
## 3 Guatem… Redes Sociales   Cheque          Guantes… Hernand… 2018-09-20 00:00:00
## 4 Nicara… Redes Sociales   Cheque          Guantes… Patrici… 2018-04-02 00:00:00
## 5 Colomb… Redes Sociales   Cheque          Kit de … Viviana… 2018-04-05 00:00:00
## 6 Colomb… Redes Sociales   Cheque          Kit de … Patrici… 2018-04-05 00:00:00
## # ℹ 3 more variables: VENTAS <dbl>, CANTIDAD <dbl>, COMISION <dbl>

Resumen de los Datos

Este resumen es útil para tener una visión general de los datos y entender la distribución y características principales de cada variable en el conjunto de datos. Nos proporciona una idea rápida de la centralidad, dispersión y forma de la distribución de los datos numéricos, así como una visión general de la distribución de las variables categóricas.

# Mostrar un resumen de los datos
summary(datos)
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:37010       Length:37010       Length:37010       Length:37010      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS       
##  Length:37010       Min.   :2018-01-02 00:00:00.00   Min.   :  10500  
##  Class :character   1st Qu.:2019-07-06 00:00:00.00   1st Qu.:  26350  
##  Mode  :character   Median :2020-12-20 00:00:00.00   Median :  55000  
##                     Mean   :2020-08-30 14:03:22.71   Mean   :  60373  
##                     3rd Qu.:2021-12-02 00:00:00.00   3rd Qu.:  71000  
##                     Max.   :2022-12-29 00:00:00.00   Max.   :1219500  
##     CANTIDAD         COMISION    
##  Min.   : 1.000   Min.   :  525  
##  1st Qu.: 6.000   1st Qu.: 1318  
##  Median : 8.000   Median : 2750  
##  Mean   : 8.135   Mean   : 3017  
##  3rd Qu.:10.000   3rd Qu.: 3550  
##  Max.   :23.000   Max.   :26053

Mostrar estructura del Dataframe

Este punto nos proporciona información detallada sobre la estructura de los datos, incluyendo el tipo de dato de cada columna, la cantidad de observaciones (filas) y variables (columnas), y muestra los primeros valores de cada variable.

# Ver la estructura del dataframe
str(datos)
## tibble [37,010 × 9] (S3: tbl_df/tbl/data.frame)
##  $ PAÍS          : chr [1:37010] "Nicaragua" "Panama" "Guatemala" "Nicaragua" ...
##  $ FORMA DE VENTA: chr [1:37010] "Redes Sociales" "Teléfono" "Redes Sociales" "Redes Sociales" ...
##  $ FORMA DE PAGO : chr [1:37010] "Cheque" "Cheque" "Cheque" "Cheque" ...
##  $ PRODUCTO      : chr [1:37010] "Casco de escalada de granito" "Casco de escalada de granito" "Guantes de Arquero Nike" "Guantes de Arquero Nike" ...
##  $ VENDEDOR      : chr [1:37010] "Viviana Cano" "Hernando Portilla" "Hernando Portilla" "Patricia Angarita" ...
##  $ FECHA         : POSIXct[1:37010], format: "2018-09-22" "2018-06-21" ...
##  $ VENTAS        : num [1:37010] 22000 21950 21950 21950 1219500 ...
##  $ CANTIDAD      : num [1:37010] 10 10 10 10 10 8 8 10 10 8 ...
##  $ COMISION      : num [1:37010] 1100 1098 1098 1098 1098 ...

Segmentación de datos por bloques

La segmentación de datos por bloques es una técnica poderosa que permite una exploración más detallada y un análisis más específico de conjuntos de datos grandes y complejos, facilitando la extracción de información significativa y la toma de decisiones fundamentadas.

# Segmentación de datos por bloques

# Dividir los datos en bloques basados en cierta característica o criterio

# Por ejemplo, segmentar los datos por año
años <- split(datos_limpio, format(datos_limpio$FECHA, "%Y"))

# Mostrar un resumen de los datos para cada año
lapply(años, summary)
## $`2018`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:5842        Length:5842        Length:5842        Length:5842       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS      
##  Length:5842        Min.   :2018-01-02 00:00:00.00   Min.   : 10550  
##  Class :character   1st Qu.:2018-03-05 00:00:00.00   1st Qu.: 21200  
##  Mode  :character   Median :2018-04-26 00:00:00.00   Median : 38700  
##                     Mean   :2018-04-25 19:04:42.23   Mean   : 41893  
##                     3rd Qu.:2018-06-09 18:00:00.00   3rd Qu.: 55000  
##                     Max.   :2018-09-28 00:00:00.00   Max.   :134200  
##     CANTIDAD         COMISION     
##  Min.   : 2.000   Min.   : 527.5  
##  1st Qu.: 6.000   1st Qu.:1060.0  
##  Median : 8.000   Median :1935.0  
##  Mean   : 8.254   Mean   :2094.7  
##  3rd Qu.:10.000   3rd Qu.:2750.0  
##  Max.   :23.000   Max.   :6710.0  
## 
## $`2019`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:4729        Length:4729        Length:4729        Length:4729       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS      
##  Length:4729        Min.   :2019-01-01 00:00:00.00   Min.   : 10500  
##  Class :character   1st Qu.:2019-03-31 00:00:00.00   1st Qu.: 31750  
##  Mode  :character   Median :2019-08-08 00:00:00.00   Median : 55000  
##                     Mean   :2019-07-23 14:14:26.30   Mean   : 56189  
##                     3rd Qu.:2019-11-11 00:00:00.00   3rd Qu.: 75600  
##                     Max.   :2019-12-07 00:00:00.00   Max.   :134100  
##     CANTIDAD         COMISION   
##  Min.   : 1.000   Min.   : 525  
##  1st Qu.: 6.000   1st Qu.:1588  
##  Median : 8.000   Median :2750  
##  Mean   : 7.842   Mean   :2809  
##  3rd Qu.:10.000   3rd Qu.:3780  
##  Max.   :23.000   Max.   :6705  
## 
## $`2020`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:4450        Length:4450        Length:4450        Length:4450       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS      
##  Length:4450        Min.   :2020-01-06 00:00:00.00   Min.   : 48850  
##  Class :character   1st Qu.:2020-06-04 00:00:00.00   1st Qu.: 60200  
##  Mode  :character   Median :2020-07-09 00:00:00.00   Median : 75000  
##                     Mean   :2020-07-21 07:33:40.84   Mean   : 78463  
##                     3rd Qu.:2020-10-10 00:00:00.00   3rd Qu.: 90388  
##                     Max.   :2020-12-20 00:00:00.00   Max.   :134200  
##     CANTIDAD         COMISION   
##  Min.   : 2.000   Min.   :2442  
##  1st Qu.: 6.000   1st Qu.:3010  
##  Median : 8.000   Median :3750  
##  Mean   : 8.224   Mean   :3923  
##  3rd Qu.:10.000   3rd Qu.:4519  
##  Max.   :23.000   Max.   :6710  
## 
## $`2021`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:9545        Length:9545        Length:9545        Length:9545       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS      
##  Length:9545        Min.   :2021-01-02 00:00:00.00   Min.   : 10550  
##  Class :character   1st Qu.:2021-03-06 00:00:00.00   1st Qu.: 21900  
##  Mode  :character   Median :2021-05-06 00:00:00.00   Median : 43850  
##                     Mean   :2021-06-02 06:50:02.95   Mean   : 42317  
##                     3rd Qu.:2021-10-08 00:00:00.00   3rd Qu.: 55000  
##                     Max.   :2021-12-29 00:00:00.00   Max.   :134200  
##     CANTIDAD         COMISION     
##  Min.   : 2.000   Min.   : 527.5  
##  1st Qu.: 6.000   1st Qu.:1095.0  
##  Median : 8.000   Median :2192.5  
##  Mean   : 7.686   Mean   :2115.8  
##  3rd Qu.:10.000   3rd Qu.:2750.0  
##  Max.   :23.000   Max.   :6710.0  
## 
## $`2022`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:8447        Length:8447        Length:8447        Length:8447       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS     
##  Length:8447        Min.   :2022-01-02 00:00:00.00   Min.   :10500  
##  Class :character   1st Qu.:2022-03-14 00:00:00.00   1st Qu.:19350  
##  Mode  :character   Median :2022-05-28 00:00:00.00   Median :33500  
##                     Mean   :2022-06-08 17:47:30.75   Mean   :34839  
##                     3rd Qu.:2022-08-29 00:00:00.00   3rd Qu.:53600  
##                     Max.   :2022-12-29 00:00:00.00   Max.   :75000  
##     CANTIDAD         COMISION     
##  Min.   : 2.000   Min.   : 525.0  
##  1st Qu.: 6.000   1st Qu.: 967.5  
##  Median : 8.000   Median :1675.0  
##  Mean   : 7.956   Mean   :1741.9  
##  3rd Qu.:10.000   3rd Qu.:2680.0  
##  Max.   :23.000   Max.   :3750.0

Interpretación

En este caso nuestro conjunto de datos es de ventas y abarca varios años, por lo cual segmentarlo por año nos permite analizar las ventas, tendencias y patrones específicos de cada año individualmente.

Paso 4: Estadística descriptiva.

Instalación de paquetes

# Instalamos las librerías necesarias
install.packages("summarytools")
install.packages("compareGroups")

Cargamos las librerías necesarias y leemos el dataset “Ventas 2018” desde GitHub.

# Cargamos las librerías y datos 
library(summarytools)
library(readxl)
# Leer el archivo Excel desde GitHub
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"
destfile <- tempfile(fileext = ".xlsx")
download.file(url, destfile, mode = "wb")
ventas2018 <- read_excel(destfile)

# Eliminar duplicados
ventas2018 <- ventas2018[!duplicated(ventas2018), ]

Variables categóricas

Las variables categóricas nos proporciona información sobre la distribución de las categorías en cada variable. Por ejemplo, para la variable “PAÍS”, podemos ver cuántas ventas se realizaron en cada país. Esto nos ayuda a entender la distribución geográfica de nuestras ventas y nos permite identificar los países con mayor y menor número de ventas. Podemos obtener un resumen para las variables categóricas con la función freq().

freq(ventas2018[, c("PAÍS", "FORMA DE VENTA", "FORMA DE PAGO", "PRODUCTO", "VENDEDOR")], report.nas = FALSE, headings = FALSE)
## PAÍS  
## 
##                    Freq        %   % Cum.
## --------------- ------- -------- --------
##        Colombia    3509     9.86     9.86
##         Ecuador    7235    20.32    30.17
##       Guatemala    3704    10.40    40.58
##        Honduras    3458     9.71    50.29
##          Mexico    3156     8.86    59.15
##       Nicaragua    3857    10.83    69.99
##          Panama    5779    16.23    86.22
##            Peru    4908    13.78   100.00
##           Total   35606   100.00   100.00
## 
## FORMA DE VENTA  
## 
##                         Freq        %   % Cum.
## -------------------- ------- -------- --------
##               E-mail    1217     3.42     3.42
##               E-Mail    1491     4.19     7.61
##       punto de venta     170     0.48     8.08
##       Punto de venta      36     0.10     8.18
##       Punto de Venta    5968    16.76    24.95
##       Redes Sociales   23839    66.95    91.90
##             Teléfono    2885     8.10   100.00
##                Total   35606   100.00   100.00
## 
## FORMA DE PAGO  
## 
##                                    Freq        %   % Cum.
## ------------------------------- ------- -------- --------
##                          Cheque    7374    20.71    20.71
##                        Efectivo    7219    20.27    40.98
##              Tarjeta de Credito    6799    19.10    60.08
##       Transferencia Electronica   14214    39.92   100.00
##                           Total   35606   100.00   100.00
## 
## PRODUCTO  
## 
##                                                Freq          %     % Cum.
## ------------------------------------------- ------- ---------- ----------
##             Alivio de mordedura de insectos    1240     3.4826     3.4826
##                         Arnés Extremo Husky    1327     3.7269     7.2095
##                      Balon de Futbol Adidas     211     0.5926     7.8021
##                  Balon de Microfutbol Golty    1019     2.8619    10.6639
##                  Batería recargable Firefly     411     1.1543    11.8182
##                            Bloqueador solar     493     1.3846    13.2028
##                    Bolsa de golf Course Pro     578     1.6233    14.8262
##                       BugShield Lotion Lite       4     0.0112    14.8374
##                             BugShield Spray       3     0.0084    14.8458
##                          Camiseta Deportiva    1074     3.0163    17.8622
##                        Canyon Mule Carryall       1     0.0028    17.8650
##                Casco de escalada de granito     711     1.9969    19.8618
##                             Gorra Deportiva     550     1.5447    21.4065
##                                 GPS glaciar    1477     4.1482    25.5547
##                     Guantes de Arquero Nike    3703    10.3999    35.9546
##                            Guayos Nike Cr-7     406     1.1403    37.0949
##                         Hibernator Camp Cot       1     0.0028    37.0977
##                            Husky Cuerda 200     263     0.7386    37.8363
##                 Juego TrailChef Deluxe Cook    3091     8.6811    46.5174
##                      Kit de alivio compacto     474     1.3312    47.8487
##                     Kit de cocina TrailChef    3201     8.9901    56.8387
##                 Lámpara de escalada Firefly     202     0.5673    57.4061
##                            Lámpara EverGlow    1908     5.3586    62.7647
##                            Loción BugShield     906     2.5445    65.3092
##                              Maletin Adidas     232     0.6516    65.9608
##                         Martillo de granito     305     0.8566    66.8174
##                                Mirador Star       1     0.0028    66.8202
##               Mochila Canyon Mula Weekender    1962     5.5103    72.3305
##                 Mochila Canyon Mule Journey       1     0.0028    72.3333
##                        Mountain Man Extreme    2563     7.1982    79.5315
##                             Palo Course Pro     788     2.2131    81.7446
##                                 Pantaloneta     736     2.0671    83.8117
##       Set de Madera Lady Hailstorm Titanium    1894     5.3193    89.1310
##                             Silvato Arbitro     102     0.2865    89.4175
##                                Star Gazer 3       1     0.0028    89.4203
##                               Sudadera Puma     932     2.6175    92.0379
##                          Termo de Bicicleta    2834     7.9593    99.9972
##                      TrailChef Double Flame       1     0.0028   100.0000
##                                       Total   35606   100.0000   100.0000
## 
## VENDEDOR  
## 
##                              Freq        %   % Cum.
## ------------------------- ------- -------- --------
##             Armando Casas    1635     4.59     4.59
##        Bernardo Cifuentes    3386     9.51    14.10
##       Guillermo Benavides    3119     8.76    22.86
##         Hernando Portilla    5220    14.66    37.52
##               Lidia Bueno    9444    26.52    64.05
##         Patricia Angarita    5425    15.24    79.28
##              Viviana Cano    7377    20.72   100.00
##                     Total   35606   100.00   100.00

Interpretación:

  1. País: El análisis muestra la distribución de las ventas por país. Ecuador y Panamá parecen ser los mercados más grandes, mientras que Colombia y Honduras muestran menor participación.

  2. Forma de Venta: La mayoría de las ventas se realizan a través de redes sociales, seguidas por teléfono y correo electrónico. La venta en punto de venta físico tiene una proporción mucho menor.

  3. Forma de Pago: La transferencia electrónica es el método de pago más común, seguido por el efectivo, las tarjetas de crédito y los cheques.

  4. Producto: Hay una amplia variedad de productos vendidos. Algunos productos tienen una frecuencia de ventas significativamente mayor que otros. Por ejemplo, “Guantes de Arquero Nike” y “Kit de cocina TrailChef” parecen ser populares, mientras que otros productos tienen menos ventas.

  5. Vendedor: Se observa una distribución desigual de ventas entre los vendedores. “Lidia Bueno” y “Viviana Cano” representan la mayor parte de las ventas.

Tabla de contingencia

La tabla de contingencia nos muestra cómo se distribuyen las ventas según el país y la forma de venta. Esto nos permite identificar si hay alguna relación entre estos dos factores. Por ejemplo, si observamos que ciertas formas de venta son más comunes en ciertos países, podríamos ajustar nuestras estrategias de venta en función de estas observaciones.

Para crear una tabla de contingencia y ver cómo se distribuyen las ventas según el país y la forma de venta:

ctable(ventas2018$PAÍS, ventas2018$`FORMA DE VENTA`, useNA="no", prop="r")
## Cross-Tabulation, Row Proportions  
## PAÍS * `FORMA DE VENTA`  
## Data Frame: ventas2018  
## 
## ----------- ---------------- -------------- ------------- ---------------- ---------------- ---------------- ---------------- -------------- ----------------
##               FORMA DE VENTA         E-mail        E-Mail   punto de venta   Punto de venta   Punto de Venta   Redes Sociales       Teléfono            Total
##        PAÍS                                                                                                                                                  
##    Colombia                       0 ( 0.0%)    118 (3.4%)        11 (0.3%)        4 (0.11%)      283 ( 8.1%)     3093 (88.1%)      0 ( 0.0%)    3509 (100.0%)
##     Ecuador                      37 ( 0.5%)    564 (7.8%)        35 (0.5%)        3 (0.04%)     2200 (30.4%)     3307 (45.7%)   1089 (15.1%)    7235 (100.0%)
##   Guatemala                       0 ( 0.0%)     81 (2.2%)        19 (0.5%)        7 (0.19%)      511 (13.8%)     3086 (83.3%)      0 ( 0.0%)    3704 (100.0%)
##    Honduras                       0 ( 0.0%)    239 (6.9%)        15 (0.4%)        5 (0.14%)      509 (14.7%)     2481 (71.7%)    209 ( 6.0%)    3458 (100.0%)
##      Mexico                      12 ( 0.4%)      0 (0.0%)        14 (0.4%)        0 (0.00%)      389 (12.3%)     1841 (58.3%)    900 (28.5%)    3156 (100.0%)
##   Nicaragua                       9 ( 0.2%)    210 (5.4%)        15 (0.4%)        3 (0.08%)      332 ( 8.6%)     3273 (84.9%)     15 ( 0.4%)    3857 (100.0%)
##      Panama                    1086 (18.8%)    162 (2.8%)        37 (0.6%)       10 (0.17%)      840 (14.5%)     3295 (57.0%)    349 ( 6.0%)    5779 (100.0%)
##        Peru                      73 ( 1.5%)    117 (2.4%)        24 (0.5%)        4 (0.08%)      904 (18.4%)     3463 (70.6%)    323 ( 6.6%)    4908 (100.0%)
##       Total                    1217 ( 3.4%)   1491 (4.2%)       170 (0.5%)       36 (0.10%)     5968 (16.8%)    23839 (67.0%)   2885 ( 8.1%)   35606 (100.0%)
## ----------- ---------------- -------------- ------------- ---------------- ---------------- ---------------- ---------------- -------------- ----------------

Interpretación: Se muestra cómo se distribuyen las ventas según el país y la forma de venta. Proporciona una perspectiva de cómo las formas de venta varían entre diferentes países.

Variables continuas

Para las variables continuas, como el monto total de ventas (VENTAS), la cantidad de productos vendidos (CANTIDAD) y la comisión generada por la venta (COMISIÓN), obtenemos estadísticas descriptivas como la media, la mediana, la desviación estándar, el mínimo y el máximo.

Para las variables continuas podemos usar la función descr(). Por ejemplo, para ver los principales estadísticos de la variable VENTAS:

descr(ventas2018$VENTAS)
## Descriptive Statistics  
## ventas2018$VENTAS  
## N: 35606  
## 
##                         VENTAS
## ----------------- ------------
##              Mean     60074.36
##           Std.Dev     57429.71
##               Min     10500.00
##                Q1     25450.00
##            Median     55000.00
##                Q3     68950.00
##               Max   1219500.00
##               MAD     32320.68
##               IQR     43500.00
##                CV         0.96
##          Skewness         3.46
##       SE.Skewness         0.01
##          Kurtosis        18.94
##           N.Valid     35606.00
##         Pct.Valid       100.00

Aplicar la función descr() a todo el dataset para buscar todas las variables continuas y resumirlas:

descr(ventas2018)
## Non-numerical variable(s) ignored: PAÍS, FORMA DE VENTA, FORMA DE PAGO, PRODUCTO, VENDEDOR, FECHA
## Descriptive Statistics  
## ventas2018  
## N: 35606  
## 
##                     CANTIDAD   COMISION       VENTAS
## ----------------- ---------- ---------- ------------
##              Mean       8.20    3002.04     60074.36
##           Std.Dev       3.52    2855.02     57429.71
##               Min       1.00     525.00     10500.00
##                Q1       6.00    1272.50     25450.00
##            Median       8.00    2750.00     55000.00
##                Q3      10.00    3447.50     68950.00
##               Max      23.00   26052.50   1219500.00
##               MAD       2.97    1616.03     32320.68
##               IQR       4.00    2174.38     43500.00
##                CV       0.43       0.95         0.96
##          Skewness       1.00       3.29         3.46
##       SE.Skewness       0.01       0.01         0.01
##          Kurtosis       3.79      14.68        18.94
##           N.Valid   35606.00   35606.00     35606.00
##         Pct.Valid     100.00     100.00       100.00

Interpretación: Se proporcionan estadísticas descriptivas para la variable continua “Ventas” y al resto de dataset. Esto incluye medidas de tendencia central (media, mediana), dispersión (rango, desviación estándar) y forma de la distribución (sesgo, curtosis).Estos estadísticos nos ayudan a comprender la distribución y la dispersión de nuestros datos. Por ejemplo, si la media de las ventas es alta, podemos inferir que en promedio se realizan ventas significativas.

Descriptiva según una variable categórica

Al realizar una descriptiva de las variables continuas según una variable categórica, como “PAÍS”, podemos comparar cómo varían las ventas, la cantidad de productos vendidos y la comisión generada entre diferentes países. Por ejemplo, si observamos diferencias significativas en la media de las ventas entre países, esto podría indicar que ciertos países tienen un mayor poder adquisitivo o una mayor demanda de nuestros productos.

Podemos tener una descriptiva de las variables continuas según una variable categórica, como PAÍS:

stby(ventas2018[, c("VENTAS", "CANTIDAD", "COMISION")], INDICES = ventas2018$PAÍS,
     FUN = descr, stats = "common", transpose = TRUE)
## Descriptive Statistics  
## ventas2018  
## Group: PAÍS = Colombia  
## N: 3509  
## 
##                      Mean    Std.Dev        Min     Median          Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ------------ --------- -----------
##       CANTIDAD       7.42       3.02       2.00       8.00        23.00   3509.00      100.00
##       COMISION    2291.71    1480.76     527.50    2270.00     15525.00   3509.00      100.00
##         VENTAS   46175.42   35629.35   10550.00   45400.00   1219500.00   3509.00      100.00
## 
## Group: PAÍS = Ecuador  
## N: 7235  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       9.52       4.29       2.00      10.00       23.00   7235.00      100.00
##       COMISION    4384.92    4469.93     525.00    2750.00    26052.50   7235.00      100.00
##         VENTAS   87698.32   89398.58   10500.00   55000.00   521050.00   7235.00      100.00
## 
## Group: PAÍS = Guatemala  
## N: 3704  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       7.97       3.08       2.00       8.00       23.00   3704.00      100.00
##       COMISION    2623.04    2290.21     527.50    2388.75    23202.50   3704.00      100.00
##         VENTAS   52460.75   45804.22   10550.00   47775.00   464050.00   3704.00      100.00
## 
## Group: PAÍS = Honduras  
## N: 3458  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       8.12       3.17       2.00       8.00       23.00   3458.00      100.00
##       COMISION    2749.55    2105.63     527.50    2750.00    24115.00   3458.00      100.00
##         VENTAS   54991.09   42112.59   10550.00   55000.00   482300.00   3458.00      100.00
## 
## Group: PAÍS = Mexico  
## N: 3156  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       7.81       3.11       2.00       8.00       23.00   3156.00      100.00
##       COMISION    2559.04    1808.37     527.50    2613.75    17637.50   3156.00      100.00
##         VENTAS   51180.89   36167.48   10550.00   52275.00   352750.00   3156.00      100.00
## 
## Group: PAÍS = Nicaragua  
## N: 3857  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       7.16       3.09       2.00       6.00       23.00   3857.00      100.00
##       COMISION    2298.77    1393.22     527.50    2272.50    13385.00   3857.00      100.00
##         VENTAS   45975.40   27864.46   10550.00   45450.00   267700.00   3857.00      100.00
## 
## Group: PAÍS = Panama  
## N: 5779  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       8.17       3.24       1.00       8.00       23.00   5779.00      100.00
##       COMISION    2823.30    2440.52     525.00    2587.50    25397.50   5779.00      100.00
##         VENTAS   56465.98   48810.42   10500.00   51750.00   507950.00   5779.00      100.00
## 
## Group: PAÍS = Peru  
## N: 4908  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       8.17       3.44       2.00       8.00       23.00   4908.00      100.00
##       COMISION    2983.25    2551.83     527.50    2750.00    24067.50   4908.00      100.00
##         VENTAS   59665.06   51036.53   10550.00   55000.00   481350.00   4908.00      100.00

Interpretación: Se desglosan las estadísticas continuas (cantidad, comisión, ventas) por país. Esto ayuda a comprender cómo difieren las ventas y las comisiones entre los países.

Resumen completo del dataset

El resumen completo del dataset nos proporciona una visión general de todas las variables, tanto categóricas como continuas. Esto nos permite identificar rápidamente cualquier problema de datos, como valores atípicos o valores faltantes, y nos da una idea de la distribución y la dispersión de nuestras variables en general.

Podemos resumir toda nuestra base de datos (tanto variables continuas como categóricas) con la función dfSummary():

dfSummary(ventas2018)
## Data Frame Summary  
## ventas2018  
## Dimensions: 35606 x 9  
## Duplicates: 0  
## 
## --------------------------------------------------------------------------------------------------------------------------
## No   Variable            Stats / Values                  Freqs (% of Valid)     Graph                 Valid      Missing  
## ---- ------------------- ------------------------------- ---------------------- --------------------- ---------- ---------
## 1    PAÍS                1. Colombia                     3509 ( 9.9%)           I                     35606      0        
##      [character]         2. Ecuador                      7235 (20.3%)           IIII                  (100.0%)   (0.0%)   
##                          3. Guatemala                    3704 (10.4%)           II                                        
##                          4. Honduras                     3458 ( 9.7%)           I                                         
##                          5. Mexico                       3156 ( 8.9%)           I                                         
##                          6. Nicaragua                    3857 (10.8%)           II                                        
##                          7. Panama                       5779 (16.2%)           III                                       
##                          8. Peru                         4908 (13.8%)           II                                        
## 
## 2    FORMA DE VENTA      1. E-mail                        1217 ( 3.4%)                                35606      0        
##      [character]         2. E-Mail                        1491 ( 4.2%)                                (100.0%)   (0.0%)   
##                          3. punto de venta                 170 ( 0.5%)                                                    
##                          4. Punto de venta                  36 ( 0.1%)                                                    
##                          5. Punto de Venta                5968 (16.8%)          III                                       
##                          6. Redes Sociales               23839 (67.0%)          IIIIIIIIIIIII                             
##                          7. Teléfono                      2885 ( 8.1%)          I                                         
## 
## 3    FORMA DE PAGO       1. Cheque                        7374 (20.7%)          IIII                  35606      0        
##      [character]         2. Efectivo                      7219 (20.3%)          IIII                  (100.0%)   (0.0%)   
##                          3. Tarjeta de Credito            6799 (19.1%)          III                                       
##                          4. Transferencia Electronica    14214 (39.9%)          IIIIIII                                   
## 
## 4    PRODUCTO            1. Guantes de Arquero Nike       3703 (10.4%)          II                    35606      0        
##      [character]         2. Kit de cocina TrailChef       3201 ( 9.0%)          I                     (100.0%)   (0.0%)   
##                          3. Juego TrailChef Deluxe Co     3091 ( 8.7%)          I                                         
##                          4. Termo de Bicicleta            2834 ( 8.0%)          I                                         
##                          5. Mountain Man Extreme          2563 ( 7.2%)          I                                         
##                          6. Mochila Canyon Mula Weeke     1962 ( 5.5%)          I                                         
##                          7. Lámpara EverGlow              1908 ( 5.4%)          I                                         
##                          8. Set de Madera Lady Hailst     1894 ( 5.3%)          I                                         
##                          9. GPS glaciar                   1477 ( 4.1%)                                                    
##                          10. Arnés Extremo Husky          1327 ( 3.7%)                                                    
##                          [ 28 others ]                   11646 (32.7%)          IIIIII                                    
## 
## 5    VENDEDOR            1. Armando Casas                1635 ( 4.6%)                                 35606      0        
##      [character]         2. Bernardo Cifuentes           3386 ( 9.5%)           I                     (100.0%)   (0.0%)   
##                          3. Guillermo Benavides          3119 ( 8.8%)           I                                         
##                          4. Hernando Portilla            5220 (14.7%)           II                                        
##                          5. Lidia Bueno                  9444 (26.5%)           IIIII                                     
##                          6. Patricia Angarita            5425 (15.2%)           III                                       
##                          7. Viviana Cano                 7377 (20.7%)           IIII                                      
## 
## 6    FECHA               min : 2018-01-02                918 distinct values                :         35606      0        
##      [POSIXct, POSIXt]   med : 2021-01-10 12:00:00                              :           :   .     (100.0%)   (0.0%)   
##                          max : 2022-12-29                                       :     .     :   : .                       
##                          range : 4y 11m 27d                                     :   . : : : : : : :                       
##                                                                                 : . : : : : : : : :                       
## 
## 7    VENTAS              Mean (sd) : 60074.4 (57429.7)   4174 distinct values   :                     35606      0        
##      [numeric]           min < med < max:                                       :                     (100.0%)   (0.0%)   
##                          10500 < 55000 < 1219500                                :                                         
##                          IQR (CV) : 43500 (1)                                   :                                         
##                                                                                 : .                                       
## 
## 8    CANTIDAD            Mean (sd) : 8.2 (3.5)           1 :     1 ( 0.0%)                            35606      0        
##      [numeric]           min < med < max:                2 :  3436 ( 9.7%)      I                     (100.0%)   (0.0%)   
##                          1 < 8 < 23                      6 : 10476 (29.4%)      IIIII                                     
##                          IQR (CV) : 4 (0.4)              8 :  7173 (20.1%)      IIII                                      
##                                                          10 :  9972 (28.0%)     IIIII                                     
##                                                          13 :  3931 (11.0%)     II                                        
##                                                          23 :   617 ( 1.7%)                                               
## 
## 9    COMISION            Mean (sd) : 3002 (2855)         4173 distinct values   :                     35606      0        
##      [numeric]           min < med < max:                                       :                     (100.0%)   (0.0%)   
##                          525 < 2750 < 26052.5                                   :                                         
##                          IQR (CV) : 2174.4 (1)                                  : .                                       
##                                                                                 : : .                                     
## --------------------------------------------------------------------------------------------------------------------------
print(dfSummary(ventas2018, graph.magnif = 0.75), method = 'render')

Data Frame Summary

ventas2018

Dimensions: 35606 x 9
Duplicates: 0
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 PAÍS [character]
1. Colombia
2. Ecuador
3. Guatemala
4. Honduras
5. Mexico
6. Nicaragua
7. Panama
8. Peru
3509(9.9%)
7235(20.3%)
3704(10.4%)
3458(9.7%)
3156(8.9%)
3857(10.8%)
5779(16.2%)
4908(13.8%)
35606 (100.0%) 0 (0.0%)
2 FORMA DE VENTA [character]
1. E-mail
2. E-Mail
3. punto de venta
4. Punto de venta
5. Punto de Venta
6. Redes Sociales
7. Teléfono
1217(3.4%)
1491(4.2%)
170(0.5%)
36(0.1%)
5968(16.8%)
23839(67.0%)
2885(8.1%)
35606 (100.0%) 0 (0.0%)
3 FORMA DE PAGO [character]
1. Cheque
2. Efectivo
3. Tarjeta de Credito
4. Transferencia Electronica
7374(20.7%)
7219(20.3%)
6799(19.1%)
14214(39.9%)
35606 (100.0%) 0 (0.0%)
4 PRODUCTO [character]
1. Guantes de Arquero Nike
2. Kit de cocina TrailChef
3. Juego TrailChef Deluxe Co
4. Termo de Bicicleta
5. Mountain Man Extreme
6. Mochila Canyon Mula Weeke
7. Lámpara EverGlow
8. Set de Madera Lady Hailst
9. GPS glaciar
10. Arnés Extremo Husky
[ 28 others ]
3703(10.4%)
3201(9.0%)
3091(8.7%)
2834(8.0%)
2563(7.2%)
1962(5.5%)
1908(5.4%)
1894(5.3%)
1477(4.1%)
1327(3.7%)
11646(32.7%)
35606 (100.0%) 0 (0.0%)
5 VENDEDOR [character]
1. Armando Casas
2. Bernardo Cifuentes
3. Guillermo Benavides
4. Hernando Portilla
5. Lidia Bueno
6. Patricia Angarita
7. Viviana Cano
1635(4.6%)
3386(9.5%)
3119(8.8%)
5220(14.7%)
9444(26.5%)
5425(15.2%)
7377(20.7%)
35606 (100.0%) 0 (0.0%)
6 FECHA [POSIXct, POSIXt]
min : 2018-01-02
med : 2021-01-10 12:00:00
max : 2022-12-29
range : 4y 11m 27d
918 distinct values 35606 (100.0%) 0 (0.0%)
7 VENTAS [numeric]
Mean (sd) : 60074.4 (57429.7)
min ≤ med ≤ max:
10500 ≤ 55000 ≤ 1219500
IQR (CV) : 43500 (1)
4174 distinct values 35606 (100.0%) 0 (0.0%)
8 CANTIDAD [numeric]
Mean (sd) : 8.2 (3.5)
min ≤ med ≤ max:
1 ≤ 8 ≤ 23
IQR (CV) : 4 (0.4)
1:1(0.0%)
2:3436(9.7%)
6:10476(29.4%)
8:7173(20.1%)
10:9972(28.0%)
13:3931(11.0%)
23:617(1.7%)
35606 (100.0%) 0 (0.0%)
9 COMISION [numeric]
Mean (sd) : 3002 (2855)
min ≤ med ≤ max:
525 ≤ 2750 ≤ 26052.5
IQR (CV) : 2174.4 (1)
4173 distinct values 35606 (100.0%) 0 (0.0%)

Generated by summarytools 1.0.1 (R version 4.4.0)
2024-05-21

Interpretación: Se nos proporciona un resumen completo del dataset, incluyendo estadísticas y distribuciones para todas las variables, tanto categóricas como continuas. Esto ofrece una visión general amplia y detallada de los datos.

Paso 5: Modelo estadístico ligado al objetivo planteado

Modelo 1

Modelo 2

Conclusiones

Exploración de Datos: La exploración inicial nos proporciona una comprensión general de la estructura y características de los datos, mientras que la limpieza asegura la calidad y la integridad de los mismos, eliminando errores y valores atípicos. Por otro lado, la segmentación nos permite dividir el conjunto de datos en subgrupos más manejables, lo que facilita análisis más detallados y específicos en cada segmento. Estas etapas trabajan en conjunto para garantizar que los datos estén listos para análisis posteriores.

Estadística descriptiva: mediante el análisis descriptivo de nuestro dataset de ventas de 2018, podemos obtener información valiosa sobre la distribución de nuestras ventas, las características de nuestros clientes y la efectividad de nuestras estrategias de venta en diferentes países. Esto nos permite identificar áreas de mejora y tomar decisiones informadas para impulsar el éxito de nuestro negocio.

Interpretaciones Generales

Exploración de Datos: Se observa una variación en el volumen de ventas por año, siendo 2021 el año con la mayor cantidad de registros y 2020 con la menor. Además, se destacan diferencias en la distribución de las ventas entre años, con una mediana de ventas más alta en 2020 en comparación con 2018. Las comisiones generadas también varían entre años, lo que puede reflejar diferencias en las políticas de comisiones o en el desempeño de los vendedores.

Estadística descriptiva: el análisis descriptivo de las ventas de 2018 revela que Ecuador y Panamá son los mercados más grandes, con las redes sociales siendo el principal canal de venta y la transferencia electrónica el método de pago más común. Productos como “Guantes de Arquero Nike” y “Kit de cocina TrailChef” son especialmente populares, mientras que “Lidia Bueno” y “Viviana Cano” destacan entre los vendedores. Las estadísticas muestran variabilidad en las ventas y diferencias significativas entre países, ofreciendo una visión detallada para optimizar estrategias de mercado y ventas.