Autores:
Fecha: 2024-05-23
Docente: Ing. Cristian Benalcazar de la Cruz
El dataset Ventas 2018 recopila datos de ventas de una empresa durante un período de cinco años, desde 2018 hasta 2022. Este conjunto de datos ofrece información detallada sobre las transacciones comerciales realizadas por la empresa en ese lapso de tiempo. A continuación, se presenta una descripción general del dataset:
Filas: Cada fila del dataset representa una transacción de venta individual, lo que incluye información sobre el cliente, el producto o servicio vendido, la fecha y hora de la venta, el monto de la transacción, etc.
Columnas: Las columnas del dataset incluyen una variedad de atributos que describen cada transacción. Algunas de las columnas comunes podrían incluir:
Los campos que comprende el dataset son los siguientes:
| Campo | Tipo de Datos | Descripción |
|---|---|---|
| PAÍS | character | El país en el que se realizó la venta. |
| FORMA DE VENTA | character | El método o canal de venta utilizado para realizar la transacción. |
| FORMA DE PAGO | character | El método de pago utilizado para completar la transacción. |
| PRODUCTO | character | El nombre del producto vendido. |
| VENDEDOR | character | El nombre del vendedor que realizó la venta. |
| FECHA | Date | La fecha en la que se realizó la venta. |
| VENTAS | numeric | El monto total de la venta en la moneda local. |
| CANTIDAD | integer | La cantidad de productos vendidos en la transacción. |
| COMISIÓN | numeric | La comisión generada por la venta para el vendedor o el intermediario. |
COLOCAR OBJETIVOS AL FINAL
# Instalar y cargar el paquete readxl
#install.packages("readxl")
library(readxl)
# Especifica la URL RAW del archivo Excel en GitHub
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"
# Descargar el archivo temporalmente
temp_file <- tempfile(fileext = ".xlsx")
download.file(url, destfile = temp_file, mode = "wb")
# Leer el archivo Excel
datos <- read_excel(temp_file)
limpieza de datos duplicados
A continuación se procede a realizar la limpieza de datos del dataset con el objetivo de garantizar la calidad y confiabilidad de los datos antes de realizar cualquier análisis o interpretación.
# Limpieza de datos
# Eliminar valores NA
datos_limpio <- na.omit(datos)
# Eliminar valores duplicados
datos_limpio <- unique(datos_limpio)
# Manejar valores atípicos (depende del contexto y los criterios específicos)
# Por ejemplo, para identificar valores atípicos en la columna 'VENTAS':
outliers <- boxplot(datos_limpio$VENTAS, plot = FALSE)$out
# Eliminar valores atípicos (por ejemplo, valores de ventas que están muy por encima o por debajo de la media)
datos_limpio <- datos_limpio[!datos_limpio$VENTAS %in% outliers, ]
# Verificar si hay valores faltantes después de la limpieza
any(is.na(datos_limpio))
## [1] FALSE
Interpretación
Como se puede observar el código anterior nos permitió realizar una limpieza básica de datos al eliminar filas con valores faltantes y duplicados, así como valores atípicos en la columna de ‘VENTAS’.
Mostrar Datos
Una vez realizada la limpieza respectiva de los datos, se procede a realizar la respectiva exploración de los datos. Para esto primero mostramos las primeras filas del dataframe para asi obtener una idea rápida de cómo se estructuran los datos y qué tipo de información contiene.
# Mostrar las primeras filas del dataframe
head(datos)
## # A tibble: 6 × 9
## PAÍS `FORMA DE VENTA` `FORMA DE PAGO` PRODUCTO VENDEDOR FECHA
## <chr> <chr> <chr> <chr> <chr> <dttm>
## 1 Nicara… Redes Sociales Cheque Casco d… Viviana… 2018-09-22 00:00:00
## 2 Panama Teléfono Cheque Casco d… Hernand… 2018-06-21 00:00:00
## 3 Guatem… Redes Sociales Cheque Guantes… Hernand… 2018-09-20 00:00:00
## 4 Nicara… Redes Sociales Cheque Guantes… Patrici… 2018-04-02 00:00:00
## 5 Colomb… Redes Sociales Cheque Kit de … Viviana… 2018-04-05 00:00:00
## 6 Colomb… Redes Sociales Cheque Kit de … Patrici… 2018-04-05 00:00:00
## # ℹ 3 more variables: VENTAS <dbl>, CANTIDAD <dbl>, COMISION <dbl>
Resumen de los Datos
Este resumen es útil para tener una visión general de los datos y entender la distribución y características principales de cada variable en el conjunto de datos. Nos proporciona una idea rápida de la centralidad, dispersión y forma de la distribución de los datos numéricos, así como una visión general de la distribución de las variables categóricas.
# Mostrar un resumen de los datos
summary(datos)
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:37010 Length:37010 Length:37010 Length:37010
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:37010 Min. :2018-01-02 00:00:00.00 Min. : 10500
## Class :character 1st Qu.:2019-07-06 00:00:00.00 1st Qu.: 26350
## Mode :character Median :2020-12-20 00:00:00.00 Median : 55000
## Mean :2020-08-30 14:03:22.71 Mean : 60373
## 3rd Qu.:2021-12-02 00:00:00.00 3rd Qu.: 71000
## Max. :2022-12-29 00:00:00.00 Max. :1219500
## CANTIDAD COMISION
## Min. : 1.000 Min. : 525
## 1st Qu.: 6.000 1st Qu.: 1318
## Median : 8.000 Median : 2750
## Mean : 8.135 Mean : 3017
## 3rd Qu.:10.000 3rd Qu.: 3550
## Max. :23.000 Max. :26053
Mostrar estructura del Dataframe
Este punto nos proporciona información detallada sobre la estructura de los datos, incluyendo el tipo de dato de cada columna, la cantidad de observaciones (filas) y variables (columnas), y muestra los primeros valores de cada variable.
# Ver la estructura del dataframe
str(datos)
## tibble [37,010 × 9] (S3: tbl_df/tbl/data.frame)
## $ PAÍS : chr [1:37010] "Nicaragua" "Panama" "Guatemala" "Nicaragua" ...
## $ FORMA DE VENTA: chr [1:37010] "Redes Sociales" "Teléfono" "Redes Sociales" "Redes Sociales" ...
## $ FORMA DE PAGO : chr [1:37010] "Cheque" "Cheque" "Cheque" "Cheque" ...
## $ PRODUCTO : chr [1:37010] "Casco de escalada de granito" "Casco de escalada de granito" "Guantes de Arquero Nike" "Guantes de Arquero Nike" ...
## $ VENDEDOR : chr [1:37010] "Viviana Cano" "Hernando Portilla" "Hernando Portilla" "Patricia Angarita" ...
## $ FECHA : POSIXct[1:37010], format: "2018-09-22" "2018-06-21" ...
## $ VENTAS : num [1:37010] 22000 21950 21950 21950 1219500 ...
## $ CANTIDAD : num [1:37010] 10 10 10 10 10 8 8 10 10 8 ...
## $ COMISION : num [1:37010] 1100 1098 1098 1098 1098 ...
Segmentación de datos por bloques
La segmentación de datos por bloques es una técnica poderosa que permite una exploración más detallada y un análisis más específico de conjuntos de datos grandes y complejos, facilitando la extracción de información significativa y la toma de decisiones fundamentadas.
# Segmentación de datos por bloques
# Dividir los datos en bloques basados en cierta característica o criterio
# Por ejemplo, segmentar los datos por año
años <- split(datos_limpio, format(datos_limpio$FECHA, "%Y"))
# Mostrar un resumen de los datos para cada año
lapply(años, summary)
## $`2018`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:5842 Length:5842 Length:5842 Length:5842
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:5842 Min. :2018-01-02 00:00:00.00 Min. : 10550
## Class :character 1st Qu.:2018-03-05 00:00:00.00 1st Qu.: 21200
## Mode :character Median :2018-04-26 00:00:00.00 Median : 38700
## Mean :2018-04-25 19:04:42.23 Mean : 41893
## 3rd Qu.:2018-06-09 18:00:00.00 3rd Qu.: 55000
## Max. :2018-09-28 00:00:00.00 Max. :134200
## CANTIDAD COMISION
## Min. : 2.000 Min. : 527.5
## 1st Qu.: 6.000 1st Qu.:1060.0
## Median : 8.000 Median :1935.0
## Mean : 8.254 Mean :2094.7
## 3rd Qu.:10.000 3rd Qu.:2750.0
## Max. :23.000 Max. :6710.0
##
## $`2019`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:4729 Length:4729 Length:4729 Length:4729
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:4729 Min. :2019-01-01 00:00:00.00 Min. : 10500
## Class :character 1st Qu.:2019-03-31 00:00:00.00 1st Qu.: 31750
## Mode :character Median :2019-08-08 00:00:00.00 Median : 55000
## Mean :2019-07-23 14:14:26.30 Mean : 56189
## 3rd Qu.:2019-11-11 00:00:00.00 3rd Qu.: 75600
## Max. :2019-12-07 00:00:00.00 Max. :134100
## CANTIDAD COMISION
## Min. : 1.000 Min. : 525
## 1st Qu.: 6.000 1st Qu.:1588
## Median : 8.000 Median :2750
## Mean : 7.842 Mean :2809
## 3rd Qu.:10.000 3rd Qu.:3780
## Max. :23.000 Max. :6705
##
## $`2020`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:4450 Length:4450 Length:4450 Length:4450
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:4450 Min. :2020-01-06 00:00:00.00 Min. : 48850
## Class :character 1st Qu.:2020-06-04 00:00:00.00 1st Qu.: 60200
## Mode :character Median :2020-07-09 00:00:00.00 Median : 75000
## Mean :2020-07-21 07:33:40.84 Mean : 78463
## 3rd Qu.:2020-10-10 00:00:00.00 3rd Qu.: 90388
## Max. :2020-12-20 00:00:00.00 Max. :134200
## CANTIDAD COMISION
## Min. : 2.000 Min. :2442
## 1st Qu.: 6.000 1st Qu.:3010
## Median : 8.000 Median :3750
## Mean : 8.224 Mean :3923
## 3rd Qu.:10.000 3rd Qu.:4519
## Max. :23.000 Max. :6710
##
## $`2021`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:9545 Length:9545 Length:9545 Length:9545
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:9545 Min. :2021-01-02 00:00:00.00 Min. : 10550
## Class :character 1st Qu.:2021-03-06 00:00:00.00 1st Qu.: 21900
## Mode :character Median :2021-05-06 00:00:00.00 Median : 43850
## Mean :2021-06-02 06:50:02.95 Mean : 42317
## 3rd Qu.:2021-10-08 00:00:00.00 3rd Qu.: 55000
## Max. :2021-12-29 00:00:00.00 Max. :134200
## CANTIDAD COMISION
## Min. : 2.000 Min. : 527.5
## 1st Qu.: 6.000 1st Qu.:1095.0
## Median : 8.000 Median :2192.5
## Mean : 7.686 Mean :2115.8
## 3rd Qu.:10.000 3rd Qu.:2750.0
## Max. :23.000 Max. :6710.0
##
## $`2022`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:8447 Length:8447 Length:8447 Length:8447
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:8447 Min. :2022-01-02 00:00:00.00 Min. :10500
## Class :character 1st Qu.:2022-03-14 00:00:00.00 1st Qu.:19350
## Mode :character Median :2022-05-28 00:00:00.00 Median :33500
## Mean :2022-06-08 17:47:30.75 Mean :34839
## 3rd Qu.:2022-08-29 00:00:00.00 3rd Qu.:53600
## Max. :2022-12-29 00:00:00.00 Max. :75000
## CANTIDAD COMISION
## Min. : 2.000 Min. : 525.0
## 1st Qu.: 6.000 1st Qu.: 967.5
## Median : 8.000 Median :1675.0
## Mean : 7.956 Mean :1741.9
## 3rd Qu.:10.000 3rd Qu.:2680.0
## Max. :23.000 Max. :3750.0
Interpretación
En este caso nuestro conjunto de datos es de ventas y abarca varios años, por lo cual segmentarlo por año nos permite analizar las ventas, tendencias y patrones específicos de cada año individualmente.
# Instalamos las librerías necesarias
install.packages("summarytools")
install.packages("compareGroups")
Cargamos las librerías necesarias y leemos el dataset “Ventas 2018” desde GitHub.
# Cargamos las librerías y datos
library(summarytools)
library(readxl)
# Leer el archivo Excel desde GitHub
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"
destfile <- tempfile(fileext = ".xlsx")
download.file(url, destfile, mode = "wb")
ventas2018 <- read_excel(destfile)
# Eliminar duplicados
ventas2018 <- ventas2018[!duplicated(ventas2018), ]
Las variables categóricas nos proporciona información sobre la distribución de las categorías en cada variable. Por ejemplo, para la variable “PAÍS”, podemos ver cuántas ventas se realizaron en cada país. Esto nos ayuda a entender la distribución geográfica de nuestras ventas y nos permite identificar los países con mayor y menor número de ventas. Podemos obtener un resumen para las variables categóricas con la función freq().
freq(ventas2018[, c("PAÍS", "FORMA DE VENTA", "FORMA DE PAGO", "PRODUCTO", "VENDEDOR")], report.nas = FALSE, headings = FALSE)
## PAÍS
##
## Freq % % Cum.
## --------------- ------- -------- --------
## Colombia 3509 9.86 9.86
## Ecuador 7235 20.32 30.17
## Guatemala 3704 10.40 40.58
## Honduras 3458 9.71 50.29
## Mexico 3156 8.86 59.15
## Nicaragua 3857 10.83 69.99
## Panama 5779 16.23 86.22
## Peru 4908 13.78 100.00
## Total 35606 100.00 100.00
##
## FORMA DE VENTA
##
## Freq % % Cum.
## -------------------- ------- -------- --------
## E-mail 1217 3.42 3.42
## E-Mail 1491 4.19 7.61
## punto de venta 170 0.48 8.08
## Punto de venta 36 0.10 8.18
## Punto de Venta 5968 16.76 24.95
## Redes Sociales 23839 66.95 91.90
## Teléfono 2885 8.10 100.00
## Total 35606 100.00 100.00
##
## FORMA DE PAGO
##
## Freq % % Cum.
## ------------------------------- ------- -------- --------
## Cheque 7374 20.71 20.71
## Efectivo 7219 20.27 40.98
## Tarjeta de Credito 6799 19.10 60.08
## Transferencia Electronica 14214 39.92 100.00
## Total 35606 100.00 100.00
##
## PRODUCTO
##
## Freq % % Cum.
## ------------------------------------------- ------- ---------- ----------
## Alivio de mordedura de insectos 1240 3.4826 3.4826
## Arnés Extremo Husky 1327 3.7269 7.2095
## Balon de Futbol Adidas 211 0.5926 7.8021
## Balon de Microfutbol Golty 1019 2.8619 10.6639
## Batería recargable Firefly 411 1.1543 11.8182
## Bloqueador solar 493 1.3846 13.2028
## Bolsa de golf Course Pro 578 1.6233 14.8262
## BugShield Lotion Lite 4 0.0112 14.8374
## BugShield Spray 3 0.0084 14.8458
## Camiseta Deportiva 1074 3.0163 17.8622
## Canyon Mule Carryall 1 0.0028 17.8650
## Casco de escalada de granito 711 1.9969 19.8618
## Gorra Deportiva 550 1.5447 21.4065
## GPS glaciar 1477 4.1482 25.5547
## Guantes de Arquero Nike 3703 10.3999 35.9546
## Guayos Nike Cr-7 406 1.1403 37.0949
## Hibernator Camp Cot 1 0.0028 37.0977
## Husky Cuerda 200 263 0.7386 37.8363
## Juego TrailChef Deluxe Cook 3091 8.6811 46.5174
## Kit de alivio compacto 474 1.3312 47.8487
## Kit de cocina TrailChef 3201 8.9901 56.8387
## Lámpara de escalada Firefly 202 0.5673 57.4061
## Lámpara EverGlow 1908 5.3586 62.7647
## Loción BugShield 906 2.5445 65.3092
## Maletin Adidas 232 0.6516 65.9608
## Martillo de granito 305 0.8566 66.8174
## Mirador Star 1 0.0028 66.8202
## Mochila Canyon Mula Weekender 1962 5.5103 72.3305
## Mochila Canyon Mule Journey 1 0.0028 72.3333
## Mountain Man Extreme 2563 7.1982 79.5315
## Palo Course Pro 788 2.2131 81.7446
## Pantaloneta 736 2.0671 83.8117
## Set de Madera Lady Hailstorm Titanium 1894 5.3193 89.1310
## Silvato Arbitro 102 0.2865 89.4175
## Star Gazer 3 1 0.0028 89.4203
## Sudadera Puma 932 2.6175 92.0379
## Termo de Bicicleta 2834 7.9593 99.9972
## TrailChef Double Flame 1 0.0028 100.0000
## Total 35606 100.0000 100.0000
##
## VENDEDOR
##
## Freq % % Cum.
## ------------------------- ------- -------- --------
## Armando Casas 1635 4.59 4.59
## Bernardo Cifuentes 3386 9.51 14.10
## Guillermo Benavides 3119 8.76 22.86
## Hernando Portilla 5220 14.66 37.52
## Lidia Bueno 9444 26.52 64.05
## Patricia Angarita 5425 15.24 79.28
## Viviana Cano 7377 20.72 100.00
## Total 35606 100.00 100.00
Interpretación:
País: El análisis muestra la distribución de las ventas por país. Ecuador y Panamá parecen ser los mercados más grandes, mientras que Colombia y Honduras muestran menor participación.
Forma de Venta: La mayoría de las ventas se realizan a través de redes sociales, seguidas por teléfono y correo electrónico. La venta en punto de venta físico tiene una proporción mucho menor.
Forma de Pago: La transferencia electrónica es el método de pago más común, seguido por el efectivo, las tarjetas de crédito y los cheques.
Producto: Hay una amplia variedad de productos vendidos. Algunos productos tienen una frecuencia de ventas significativamente mayor que otros. Por ejemplo, “Guantes de Arquero Nike” y “Kit de cocina TrailChef” parecen ser populares, mientras que otros productos tienen menos ventas.
Vendedor: Se observa una distribución desigual de ventas entre los vendedores. “Lidia Bueno” y “Viviana Cano” representan la mayor parte de las ventas.
La tabla de contingencia nos muestra cómo se distribuyen las ventas según el país y la forma de venta. Esto nos permite identificar si hay alguna relación entre estos dos factores. Por ejemplo, si observamos que ciertas formas de venta son más comunes en ciertos países, podríamos ajustar nuestras estrategias de venta en función de estas observaciones.
Para crear una tabla de contingencia y ver cómo se distribuyen las ventas según el país y la forma de venta:
ctable(ventas2018$PAÍS, ventas2018$`FORMA DE VENTA`, useNA="no", prop="r")
## Cross-Tabulation, Row Proportions
## PAÍS * `FORMA DE VENTA`
## Data Frame: ventas2018
##
## ----------- ---------------- -------------- ------------- ---------------- ---------------- ---------------- ---------------- -------------- ----------------
## FORMA DE VENTA E-mail E-Mail punto de venta Punto de venta Punto de Venta Redes Sociales Teléfono Total
## PAÍS
## Colombia 0 ( 0.0%) 118 (3.4%) 11 (0.3%) 4 (0.11%) 283 ( 8.1%) 3093 (88.1%) 0 ( 0.0%) 3509 (100.0%)
## Ecuador 37 ( 0.5%) 564 (7.8%) 35 (0.5%) 3 (0.04%) 2200 (30.4%) 3307 (45.7%) 1089 (15.1%) 7235 (100.0%)
## Guatemala 0 ( 0.0%) 81 (2.2%) 19 (0.5%) 7 (0.19%) 511 (13.8%) 3086 (83.3%) 0 ( 0.0%) 3704 (100.0%)
## Honduras 0 ( 0.0%) 239 (6.9%) 15 (0.4%) 5 (0.14%) 509 (14.7%) 2481 (71.7%) 209 ( 6.0%) 3458 (100.0%)
## Mexico 12 ( 0.4%) 0 (0.0%) 14 (0.4%) 0 (0.00%) 389 (12.3%) 1841 (58.3%) 900 (28.5%) 3156 (100.0%)
## Nicaragua 9 ( 0.2%) 210 (5.4%) 15 (0.4%) 3 (0.08%) 332 ( 8.6%) 3273 (84.9%) 15 ( 0.4%) 3857 (100.0%)
## Panama 1086 (18.8%) 162 (2.8%) 37 (0.6%) 10 (0.17%) 840 (14.5%) 3295 (57.0%) 349 ( 6.0%) 5779 (100.0%)
## Peru 73 ( 1.5%) 117 (2.4%) 24 (0.5%) 4 (0.08%) 904 (18.4%) 3463 (70.6%) 323 ( 6.6%) 4908 (100.0%)
## Total 1217 ( 3.4%) 1491 (4.2%) 170 (0.5%) 36 (0.10%) 5968 (16.8%) 23839 (67.0%) 2885 ( 8.1%) 35606 (100.0%)
## ----------- ---------------- -------------- ------------- ---------------- ---------------- ---------------- ---------------- -------------- ----------------
Interpretación: Se muestra cómo se distribuyen las ventas según el país y la forma de venta. Proporciona una perspectiva de cómo las formas de venta varían entre diferentes países.
Para las variables continuas, como el monto total de ventas (VENTAS), la cantidad de productos vendidos (CANTIDAD) y la comisión generada por la venta (COMISIÓN), obtenemos estadísticas descriptivas como la media, la mediana, la desviación estándar, el mínimo y el máximo.
Para las variables continuas podemos usar la función descr(). Por ejemplo, para ver los principales estadísticos de la variable VENTAS:
descr(ventas2018$VENTAS)
## Descriptive Statistics
## ventas2018$VENTAS
## N: 35606
##
## VENTAS
## ----------------- ------------
## Mean 60074.36
## Std.Dev 57429.71
## Min 10500.00
## Q1 25450.00
## Median 55000.00
## Q3 68950.00
## Max 1219500.00
## MAD 32320.68
## IQR 43500.00
## CV 0.96
## Skewness 3.46
## SE.Skewness 0.01
## Kurtosis 18.94
## N.Valid 35606.00
## Pct.Valid 100.00
Aplicar la función descr() a todo el dataset para buscar todas las variables continuas y resumirlas:
descr(ventas2018)
## Non-numerical variable(s) ignored: PAÍS, FORMA DE VENTA, FORMA DE PAGO, PRODUCTO, VENDEDOR, FECHA
## Descriptive Statistics
## ventas2018
## N: 35606
##
## CANTIDAD COMISION VENTAS
## ----------------- ---------- ---------- ------------
## Mean 8.20 3002.04 60074.36
## Std.Dev 3.52 2855.02 57429.71
## Min 1.00 525.00 10500.00
## Q1 6.00 1272.50 25450.00
## Median 8.00 2750.00 55000.00
## Q3 10.00 3447.50 68950.00
## Max 23.00 26052.50 1219500.00
## MAD 2.97 1616.03 32320.68
## IQR 4.00 2174.38 43500.00
## CV 0.43 0.95 0.96
## Skewness 1.00 3.29 3.46
## SE.Skewness 0.01 0.01 0.01
## Kurtosis 3.79 14.68 18.94
## N.Valid 35606.00 35606.00 35606.00
## Pct.Valid 100.00 100.00 100.00
Interpretación: Se proporcionan estadísticas descriptivas para la variable continua “Ventas” y al resto de dataset. Esto incluye medidas de tendencia central (media, mediana), dispersión (rango, desviación estándar) y forma de la distribución (sesgo, curtosis).Estos estadísticos nos ayudan a comprender la distribución y la dispersión de nuestros datos. Por ejemplo, si la media de las ventas es alta, podemos inferir que en promedio se realizan ventas significativas.
Al realizar una descriptiva de las variables continuas según una variable categórica, como “PAÍS”, podemos comparar cómo varían las ventas, la cantidad de productos vendidos y la comisión generada entre diferentes países. Por ejemplo, si observamos diferencias significativas en la media de las ventas entre países, esto podría indicar que ciertos países tienen un mayor poder adquisitivo o una mayor demanda de nuestros productos.
Podemos tener una descriptiva de las variables continuas según una variable categórica, como PAÍS:
stby(ventas2018[, c("VENTAS", "CANTIDAD", "COMISION")], INDICES = ventas2018$PAÍS,
FUN = descr, stats = "common", transpose = TRUE)
## Descriptive Statistics
## ventas2018
## Group: PAÍS = Colombia
## N: 3509
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ------------ --------- -----------
## CANTIDAD 7.42 3.02 2.00 8.00 23.00 3509.00 100.00
## COMISION 2291.71 1480.76 527.50 2270.00 15525.00 3509.00 100.00
## VENTAS 46175.42 35629.35 10550.00 45400.00 1219500.00 3509.00 100.00
##
## Group: PAÍS = Ecuador
## N: 7235
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 9.52 4.29 2.00 10.00 23.00 7235.00 100.00
## COMISION 4384.92 4469.93 525.00 2750.00 26052.50 7235.00 100.00
## VENTAS 87698.32 89398.58 10500.00 55000.00 521050.00 7235.00 100.00
##
## Group: PAÍS = Guatemala
## N: 3704
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 7.97 3.08 2.00 8.00 23.00 3704.00 100.00
## COMISION 2623.04 2290.21 527.50 2388.75 23202.50 3704.00 100.00
## VENTAS 52460.75 45804.22 10550.00 47775.00 464050.00 3704.00 100.00
##
## Group: PAÍS = Honduras
## N: 3458
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 8.12 3.17 2.00 8.00 23.00 3458.00 100.00
## COMISION 2749.55 2105.63 527.50 2750.00 24115.00 3458.00 100.00
## VENTAS 54991.09 42112.59 10550.00 55000.00 482300.00 3458.00 100.00
##
## Group: PAÍS = Mexico
## N: 3156
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 7.81 3.11 2.00 8.00 23.00 3156.00 100.00
## COMISION 2559.04 1808.37 527.50 2613.75 17637.50 3156.00 100.00
## VENTAS 51180.89 36167.48 10550.00 52275.00 352750.00 3156.00 100.00
##
## Group: PAÍS = Nicaragua
## N: 3857
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 7.16 3.09 2.00 6.00 23.00 3857.00 100.00
## COMISION 2298.77 1393.22 527.50 2272.50 13385.00 3857.00 100.00
## VENTAS 45975.40 27864.46 10550.00 45450.00 267700.00 3857.00 100.00
##
## Group: PAÍS = Panama
## N: 5779
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 8.17 3.24 1.00 8.00 23.00 5779.00 100.00
## COMISION 2823.30 2440.52 525.00 2587.50 25397.50 5779.00 100.00
## VENTAS 56465.98 48810.42 10500.00 51750.00 507950.00 5779.00 100.00
##
## Group: PAÍS = Peru
## N: 4908
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 8.17 3.44 2.00 8.00 23.00 4908.00 100.00
## COMISION 2983.25 2551.83 527.50 2750.00 24067.50 4908.00 100.00
## VENTAS 59665.06 51036.53 10550.00 55000.00 481350.00 4908.00 100.00
Interpretación: Se desglosan las estadísticas continuas (cantidad, comisión, ventas) por país. Esto ayuda a comprender cómo difieren las ventas y las comisiones entre los países.
El resumen completo del dataset nos proporciona una visión general de todas las variables, tanto categóricas como continuas. Esto nos permite identificar rápidamente cualquier problema de datos, como valores atípicos o valores faltantes, y nos da una idea de la distribución y la dispersión de nuestras variables en general.
Podemos resumir toda nuestra base de datos (tanto variables continuas como categóricas) con la función dfSummary():
dfSummary(ventas2018)
## Data Frame Summary
## ventas2018
## Dimensions: 35606 x 9
## Duplicates: 0
##
## --------------------------------------------------------------------------------------------------------------------------
## No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
## ---- ------------------- ------------------------------- ---------------------- --------------------- ---------- ---------
## 1 PAÍS 1. Colombia 3509 ( 9.9%) I 35606 0
## [character] 2. Ecuador 7235 (20.3%) IIII (100.0%) (0.0%)
## 3. Guatemala 3704 (10.4%) II
## 4. Honduras 3458 ( 9.7%) I
## 5. Mexico 3156 ( 8.9%) I
## 6. Nicaragua 3857 (10.8%) II
## 7. Panama 5779 (16.2%) III
## 8. Peru 4908 (13.8%) II
##
## 2 FORMA DE VENTA 1. E-mail 1217 ( 3.4%) 35606 0
## [character] 2. E-Mail 1491 ( 4.2%) (100.0%) (0.0%)
## 3. punto de venta 170 ( 0.5%)
## 4. Punto de venta 36 ( 0.1%)
## 5. Punto de Venta 5968 (16.8%) III
## 6. Redes Sociales 23839 (67.0%) IIIIIIIIIIIII
## 7. Teléfono 2885 ( 8.1%) I
##
## 3 FORMA DE PAGO 1. Cheque 7374 (20.7%) IIII 35606 0
## [character] 2. Efectivo 7219 (20.3%) IIII (100.0%) (0.0%)
## 3. Tarjeta de Credito 6799 (19.1%) III
## 4. Transferencia Electronica 14214 (39.9%) IIIIIII
##
## 4 PRODUCTO 1. Guantes de Arquero Nike 3703 (10.4%) II 35606 0
## [character] 2. Kit de cocina TrailChef 3201 ( 9.0%) I (100.0%) (0.0%)
## 3. Juego TrailChef Deluxe Co 3091 ( 8.7%) I
## 4. Termo de Bicicleta 2834 ( 8.0%) I
## 5. Mountain Man Extreme 2563 ( 7.2%) I
## 6. Mochila Canyon Mula Weeke 1962 ( 5.5%) I
## 7. Lámpara EverGlow 1908 ( 5.4%) I
## 8. Set de Madera Lady Hailst 1894 ( 5.3%) I
## 9. GPS glaciar 1477 ( 4.1%)
## 10. Arnés Extremo Husky 1327 ( 3.7%)
## [ 28 others ] 11646 (32.7%) IIIIII
##
## 5 VENDEDOR 1. Armando Casas 1635 ( 4.6%) 35606 0
## [character] 2. Bernardo Cifuentes 3386 ( 9.5%) I (100.0%) (0.0%)
## 3. Guillermo Benavides 3119 ( 8.8%) I
## 4. Hernando Portilla 5220 (14.7%) II
## 5. Lidia Bueno 9444 (26.5%) IIIII
## 6. Patricia Angarita 5425 (15.2%) III
## 7. Viviana Cano 7377 (20.7%) IIII
##
## 6 FECHA min : 2018-01-02 918 distinct values : 35606 0
## [POSIXct, POSIXt] med : 2021-01-10 12:00:00 : : . (100.0%) (0.0%)
## max : 2022-12-29 : . : : .
## range : 4y 11m 27d : . : : : : : : :
## : . : : : : : : : :
##
## 7 VENTAS Mean (sd) : 60074.4 (57429.7) 4174 distinct values : 35606 0
## [numeric] min < med < max: : (100.0%) (0.0%)
## 10500 < 55000 < 1219500 :
## IQR (CV) : 43500 (1) :
## : .
##
## 8 CANTIDAD Mean (sd) : 8.2 (3.5) 1 : 1 ( 0.0%) 35606 0
## [numeric] min < med < max: 2 : 3436 ( 9.7%) I (100.0%) (0.0%)
## 1 < 8 < 23 6 : 10476 (29.4%) IIIII
## IQR (CV) : 4 (0.4) 8 : 7173 (20.1%) IIII
## 10 : 9972 (28.0%) IIIII
## 13 : 3931 (11.0%) II
## 23 : 617 ( 1.7%)
##
## 9 COMISION Mean (sd) : 3002 (2855) 4173 distinct values : 35606 0
## [numeric] min < med < max: : (100.0%) (0.0%)
## 525 < 2750 < 26052.5 :
## IQR (CV) : 2174.4 (1) : .
## : : .
## --------------------------------------------------------------------------------------------------------------------------
print(dfSummary(ventas2018, graph.magnif = 0.75), method = 'render')
| No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Valid | Missing | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | PAÍS [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2 | FORMA DE VENTA [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 3 | FORMA DE PAGO [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 4 | PRODUCTO [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 5 | VENDEDOR [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 6 | FECHA [POSIXct, POSIXt] |
|
918 distinct values | 35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 7 | VENTAS [numeric] |
|
4174 distinct values | 35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 8 | CANTIDAD [numeric] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 9 | COMISION [numeric] |
|
4173 distinct values | 35606 (100.0%) | 0 (0.0%) |
Generated by summarytools 1.0.1 (R version 4.4.0)
2024-05-21
Interpretación: Se nos proporciona un resumen completo del dataset, incluyendo estadísticas y distribuciones para todas las variables, tanto categóricas como continuas. Esto ofrece una visión general amplia y detallada de los datos.
Exploración de Datos: La exploración inicial nos proporciona una comprensión general de la estructura y características de los datos, mientras que la limpieza asegura la calidad y la integridad de los mismos, eliminando errores y valores atípicos. Por otro lado, la segmentación nos permite dividir el conjunto de datos en subgrupos más manejables, lo que facilita análisis más detallados y específicos en cada segmento. Estas etapas trabajan en conjunto para garantizar que los datos estén listos para análisis posteriores.
Estadística descriptiva: mediante el análisis descriptivo de nuestro dataset de ventas de 2018, podemos obtener información valiosa sobre la distribución de nuestras ventas, las características de nuestros clientes y la efectividad de nuestras estrategias de venta en diferentes países. Esto nos permite identificar áreas de mejora y tomar decisiones informadas para impulsar el éxito de nuestro negocio.
Exploración de Datos: Se observa una variación en el volumen de ventas por año, siendo 2021 el año con la mayor cantidad de registros y 2020 con la menor. Además, se destacan diferencias en la distribución de las ventas entre años, con una mediana de ventas más alta en 2020 en comparación con 2018. Las comisiones generadas también varían entre años, lo que puede reflejar diferencias en las políticas de comisiones o en el desempeño de los vendedores.
Estadística descriptiva: el análisis descriptivo de las ventas de 2018 revela que Ecuador y Panamá son los mercados más grandes, con las redes sociales siendo el principal canal de venta y la transferencia electrónica el método de pago más común. Productos como “Guantes de Arquero Nike” y “Kit de cocina TrailChef” son especialmente populares, mientras que “Lidia Bueno” y “Viviana Cano” destacan entre los vendedores. Las estadísticas muestran variabilidad en las ventas y diferencias significativas entre países, ofreciendo una visión detallada para optimizar estrategias de mercado y ventas.