Autores:
Fecha de entrega: 2024-05-23
Docente: Ing. Cristian Benalcazar de la Cruz
El dataset Ventas 2018 recopila datos de ventas de una empresa durante un período de cinco años, desde 2018 hasta 2022. Este conjunto de datos ofrece información detallada sobre las transacciones comerciales realizadas por la empresa en ese lapso de tiempo. A continuación, se presenta una descripción general del dataset:
Filas: Cada fila del dataset representa una transacción de venta individual, lo que incluye información sobre el cliente, el producto o servicio vendido, la fecha y hora de la venta, el monto de la transacción, etc.
Columnas: Las columnas del dataset incluyen una variedad de atributos que describen cada transacción. Algunas de las columnas comunes podrían incluir:
Los campos que comprende el dataset son los siguientes:
| Campo | Tipo de Datos | Descripción |
|---|---|---|
| PAÍS | character | El país en el que se realizó la venta. |
| FORMA DE VENTA | character | El método o canal de venta utilizado para realizar la transacción. |
| FORMA DE PAGO | character | El método de pago utilizado para completar la transacción. |
| PRODUCTO | character | El nombre del producto vendido. |
| VENDEDOR | character | El nombre del vendedor que realizó la venta. |
| FECHA | Date | La fecha en la que se realizó la venta. |
| VENTAS | numeric | El monto total de la venta en la moneda local. |
| CANTIDAD | integer | La cantidad de productos vendidos en la transacción. |
| COMISIÓN | numeric | La comisión generada por la venta para el vendedor o el intermediario. |
El objetivo del análisis realizado sobre el dataset de ventas de 2018 es proporcionar una comprensión profunda y cuantitativa del rendimiento de ventas de la empresa, identificar patrones y tendencias clave en los datos, y desarrollar un modelo predictivo para las comisiones basadas en las ventas. El análisis se centra en varias áreas clave:
Explorar y Limpiar Datos: Explorar inicialmente los datos para comprender su estructura y características. Posteriormente, limpiar el conjunto para garantizar la calidad y la integridad de los datos, eliminando errores y valores atípicos.
Segmentar Datos: Segmentar los datos para dividir el conjunto en subgrupos más manejables, facilitando análisis más detallados y específicos en cada segmento.
Realizar Estadística Descriptiva: Realizar un análisis descriptivo para obtener información valiosa sobre la distribución de las ventas, las características de los clientes y la efectividad de las estrategias de venta en diferentes países. Esto permite identificar áreas de mejora y tomar decisiones informadas para impulsar el éxito del negocio.
Analizar Correlación y Construir Modelo de Regresión Lineal: Investigar la relación entre las ventas y las comisiones mediante el análisis de correlación y construir un modelo de regresión lineal ajustado.
Construir un modelo de regresión con una variable categórica: Construir un modelo estadístico a partir del análisis descriptivo para tomar decisiones informadas y dirigidas a generar mayores beneficios.
# Instalar y cargar el paquete readxl
#install.packages("readxl")
library(readxl)
# Especifica la URL RAW del archivo Excel en GitHub
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"
# Descargar el archivo temporalmente
temp_file <- tempfile(fileext = ".xlsx")
download.file(url, destfile = temp_file, mode = "wb")
# Leer el archivo Excel
datos <- read_excel(temp_file)
A continuación se procede a realizar la limpieza de datos del dataset con el objetivo de garantizar la calidad y confiabilidad de los datos antes de realizar cualquier análisis o interpretación.
# Limpieza de datos
# Eliminar valores NA
datos_limpio <- na.omit(datos)
# Eliminar valores duplicados
datos_limpio <- unique(datos_limpio)
# Manejar valores atípicos (depende del contexto y los criterios específicos)
# Por ejemplo, para identificar valores atípicos en la columna 'VENTAS':
outliers <- boxplot(datos_limpio$VENTAS, plot = FALSE)$out
# Eliminar valores atípicos (por ejemplo, valores de ventas que están muy por encima o por debajo de la media)
datos_limpio <- datos_limpio[!datos_limpio$VENTAS %in% outliers, ]
# Verificar si hay valores faltantes después de la limpieza
any(is.na(datos_limpio))
## [1] FALSE
Interpretación
Como se puede observar el código anterior nos permitió realizar una limpieza básica de datos al eliminar filas con valores faltantes y duplicados, así como valores atípicos en la columna de ‘VENTAS’.
Una vez realizada la limpieza respectiva de los datos, se procede a realizar la respectiva exploración de los datos. Para esto primero mostramos las primeras filas del dataframe para asi obtener una idea rápida de cómo se estructuran los datos y qué tipo de información contiene.
# Mostrar las primeras filas del dataframe
head(datos)
## # A tibble: 6 × 9
## PAÍS `FORMA DE VENTA` `FORMA DE PAGO` PRODUCTO VENDEDOR FECHA
## <chr> <chr> <chr> <chr> <chr> <dttm>
## 1 Nicara… Redes Sociales Cheque Casco d… Viviana… 2018-09-22 00:00:00
## 2 Panama Teléfono Cheque Casco d… Hernand… 2018-06-21 00:00:00
## 3 Guatem… Redes Sociales Cheque Guantes… Hernand… 2018-09-20 00:00:00
## 4 Nicara… Redes Sociales Cheque Guantes… Patrici… 2018-04-02 00:00:00
## 5 Colomb… Redes Sociales Cheque Kit de … Viviana… 2018-04-05 00:00:00
## 6 Colomb… Redes Sociales Cheque Kit de … Patrici… 2018-04-05 00:00:00
## # ℹ 3 more variables: VENTAS <dbl>, CANTIDAD <dbl>, COMISION <dbl>
Este resumen es útil para tener una visión general de los datos y entender la distribución y características principales de cada variable en el conjunto de datos. Nos proporciona una idea rápida de la centralidad, dispersión y forma de la distribución de los datos numéricos, así como una visión general de la distribución de las variables categóricas.
# Mostrar un resumen de los datos
summary(datos)
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:37010 Length:37010 Length:37010 Length:37010
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:37010 Min. :2018-01-02 00:00:00.00 Min. : 10500
## Class :character 1st Qu.:2019-07-06 00:00:00.00 1st Qu.: 26350
## Mode :character Median :2020-12-20 00:00:00.00 Median : 55000
## Mean :2020-08-30 14:03:22.71 Mean : 60373
## 3rd Qu.:2021-12-02 00:00:00.00 3rd Qu.: 71000
## Max. :2022-12-29 00:00:00.00 Max. :1219500
## CANTIDAD COMISION
## Min. : 1.000 Min. : 525
## 1st Qu.: 6.000 1st Qu.: 1318
## Median : 8.000 Median : 2750
## Mean : 8.135 Mean : 3017
## 3rd Qu.:10.000 3rd Qu.: 3550
## Max. :23.000 Max. :26053
Este punto nos proporciona información detallada sobre la estructura de los datos, incluyendo el tipo de dato de cada columna, la cantidad de observaciones (filas) y variables (columnas), y muestra los primeros valores de cada variable.
# Ver la estructura del dataframe
str(datos)
## tibble [37,010 × 9] (S3: tbl_df/tbl/data.frame)
## $ PAÍS : chr [1:37010] "Nicaragua" "Panama" "Guatemala" "Nicaragua" ...
## $ FORMA DE VENTA: chr [1:37010] "Redes Sociales" "Teléfono" "Redes Sociales" "Redes Sociales" ...
## $ FORMA DE PAGO : chr [1:37010] "Cheque" "Cheque" "Cheque" "Cheque" ...
## $ PRODUCTO : chr [1:37010] "Casco de escalada de granito" "Casco de escalada de granito" "Guantes de Arquero Nike" "Guantes de Arquero Nike" ...
## $ VENDEDOR : chr [1:37010] "Viviana Cano" "Hernando Portilla" "Hernando Portilla" "Patricia Angarita" ...
## $ FECHA : POSIXct[1:37010], format: "2018-09-22" "2018-06-21" ...
## $ VENTAS : num [1:37010] 22000 21950 21950 21950 1219500 ...
## $ CANTIDAD : num [1:37010] 10 10 10 10 10 8 8 10 10 8 ...
## $ COMISION : num [1:37010] 1100 1098 1098 1098 1098 ...
La segmentación de datos por bloques es una técnica poderosa que permite una exploración más detallada y un análisis más específico de conjuntos de datos grandes y complejos, facilitando la extracción de información significativa y la toma de decisiones fundamentadas.
# Segmentación de datos por bloques
# Dividir los datos en bloques basados en cierta característica o criterio
# Por ejemplo, segmentar los datos por año
años <- split(datos_limpio, format(datos_limpio$FECHA, "%Y"))
# Mostrar un resumen de los datos para cada año
lapply(años, summary)
## $`2018`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:5842 Length:5842 Length:5842 Length:5842
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:5842 Min. :2018-01-02 00:00:00.00 Min. : 10550
## Class :character 1st Qu.:2018-03-05 00:00:00.00 1st Qu.: 21200
## Mode :character Median :2018-04-26 00:00:00.00 Median : 38700
## Mean :2018-04-25 19:04:42.23 Mean : 41893
## 3rd Qu.:2018-06-09 18:00:00.00 3rd Qu.: 55000
## Max. :2018-09-28 00:00:00.00 Max. :134200
## CANTIDAD COMISION
## Min. : 2.000 Min. : 527.5
## 1st Qu.: 6.000 1st Qu.:1060.0
## Median : 8.000 Median :1935.0
## Mean : 8.254 Mean :2094.7
## 3rd Qu.:10.000 3rd Qu.:2750.0
## Max. :23.000 Max. :6710.0
##
## $`2019`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:4729 Length:4729 Length:4729 Length:4729
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:4729 Min. :2019-01-01 00:00:00.00 Min. : 10500
## Class :character 1st Qu.:2019-03-31 00:00:00.00 1st Qu.: 31750
## Mode :character Median :2019-08-08 00:00:00.00 Median : 55000
## Mean :2019-07-23 14:14:26.30 Mean : 56189
## 3rd Qu.:2019-11-11 00:00:00.00 3rd Qu.: 75600
## Max. :2019-12-07 00:00:00.00 Max. :134100
## CANTIDAD COMISION
## Min. : 1.000 Min. : 525
## 1st Qu.: 6.000 1st Qu.:1588
## Median : 8.000 Median :2750
## Mean : 7.842 Mean :2809
## 3rd Qu.:10.000 3rd Qu.:3780
## Max. :23.000 Max. :6705
##
## $`2020`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:4450 Length:4450 Length:4450 Length:4450
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:4450 Min. :2020-01-06 00:00:00.00 Min. : 48850
## Class :character 1st Qu.:2020-06-04 00:00:00.00 1st Qu.: 60200
## Mode :character Median :2020-07-09 00:00:00.00 Median : 75000
## Mean :2020-07-21 07:33:40.84 Mean : 78463
## 3rd Qu.:2020-10-10 00:00:00.00 3rd Qu.: 90388
## Max. :2020-12-20 00:00:00.00 Max. :134200
## CANTIDAD COMISION
## Min. : 2.000 Min. :2442
## 1st Qu.: 6.000 1st Qu.:3010
## Median : 8.000 Median :3750
## Mean : 8.224 Mean :3923
## 3rd Qu.:10.000 3rd Qu.:4519
## Max. :23.000 Max. :6710
##
## $`2021`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:9545 Length:9545 Length:9545 Length:9545
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:9545 Min. :2021-01-02 00:00:00.00 Min. : 10550
## Class :character 1st Qu.:2021-03-06 00:00:00.00 1st Qu.: 21900
## Mode :character Median :2021-05-06 00:00:00.00 Median : 43850
## Mean :2021-06-02 06:50:02.95 Mean : 42317
## 3rd Qu.:2021-10-08 00:00:00.00 3rd Qu.: 55000
## Max. :2021-12-29 00:00:00.00 Max. :134200
## CANTIDAD COMISION
## Min. : 2.000 Min. : 527.5
## 1st Qu.: 6.000 1st Qu.:1095.0
## Median : 8.000 Median :2192.5
## Mean : 7.686 Mean :2115.8
## 3rd Qu.:10.000 3rd Qu.:2750.0
## Max. :23.000 Max. :6710.0
##
## $`2022`
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:8447 Length:8447 Length:8447 Length:8447
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:8447 Min. :2022-01-02 00:00:00.00 Min. :10500
## Class :character 1st Qu.:2022-03-14 00:00:00.00 1st Qu.:19350
## Mode :character Median :2022-05-28 00:00:00.00 Median :33500
## Mean :2022-06-08 17:47:30.75 Mean :34839
## 3rd Qu.:2022-08-29 00:00:00.00 3rd Qu.:53600
## Max. :2022-12-29 00:00:00.00 Max. :75000
## CANTIDAD COMISION
## Min. : 2.000 Min. : 525.0
## 1st Qu.: 6.000 1st Qu.: 967.5
## Median : 8.000 Median :1675.0
## Mean : 7.956 Mean :1741.9
## 3rd Qu.:10.000 3rd Qu.:2680.0
## Max. :23.000 Max. :3750.0
Interpretación
En este caso nuestro conjunto de datos es de ventas y abarca varios años, por lo cual segmentarlo por año nos permite analizar las ventas, tendencias y patrones específicos de cada año individualmente.
# Instalamos las librerías necesarias
install.packages("summarytools")
install.packages("compareGroups")
Cargamos las librerías necesarias y leemos el dataset “Ventas 2018” desde GitHub.
# Cargamos las librerías y datos
library(summarytools)
library(readxl)
# Leer el archivo Excel desde GitHub
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"
destfile <- tempfile(fileext = ".xlsx")
download.file(url, destfile, mode = "wb")
ventas2018 <- read_excel(destfile)
# Eliminar duplicados
ventas2018 <- ventas2018[!duplicated(ventas2018), ]
Las variables categóricas nos proporciona información sobre la distribución de las categorías en cada variable. Por ejemplo, para la variable “PAÍS”, podemos ver cuántas ventas se realizaron en cada país. Esto nos ayuda a entender la distribución geográfica de nuestras ventas y nos permite identificar los países con mayor y menor número de ventas. Podemos obtener un resumen para las variables categóricas con la función freq().
freq(ventas2018[, c("PAÍS", "FORMA DE VENTA", "FORMA DE PAGO", "PRODUCTO", "VENDEDOR")], report.nas = FALSE, headings = FALSE)
## PAÍS
##
## Freq % % Cum.
## --------------- ------- -------- --------
## Colombia 3509 9.86 9.86
## Ecuador 7235 20.32 30.17
## Guatemala 3704 10.40 40.58
## Honduras 3458 9.71 50.29
## Mexico 3156 8.86 59.15
## Nicaragua 3857 10.83 69.99
## Panama 5779 16.23 86.22
## Peru 4908 13.78 100.00
## Total 35606 100.00 100.00
##
## FORMA DE VENTA
##
## Freq % % Cum.
## -------------------- ------- -------- --------
## E-mail 1217 3.42 3.42
## E-Mail 1491 4.19 7.61
## punto de venta 170 0.48 8.08
## Punto de venta 36 0.10 8.18
## Punto de Venta 5968 16.76 24.95
## Redes Sociales 23839 66.95 91.90
## Teléfono 2885 8.10 100.00
## Total 35606 100.00 100.00
##
## FORMA DE PAGO
##
## Freq % % Cum.
## ------------------------------- ------- -------- --------
## Cheque 7374 20.71 20.71
## Efectivo 7219 20.27 40.98
## Tarjeta de Credito 6799 19.10 60.08
## Transferencia Electronica 14214 39.92 100.00
## Total 35606 100.00 100.00
##
## PRODUCTO
##
## Freq % % Cum.
## ------------------------------------------- ------- ---------- ----------
## Alivio de mordedura de insectos 1240 3.4826 3.4826
## Arnés Extremo Husky 1327 3.7269 7.2095
## Balon de Futbol Adidas 211 0.5926 7.8021
## Balon de Microfutbol Golty 1019 2.8619 10.6639
## Batería recargable Firefly 411 1.1543 11.8182
## Bloqueador solar 493 1.3846 13.2028
## Bolsa de golf Course Pro 578 1.6233 14.8262
## BugShield Lotion Lite 4 0.0112 14.8374
## BugShield Spray 3 0.0084 14.8458
## Camiseta Deportiva 1074 3.0163 17.8622
## Canyon Mule Carryall 1 0.0028 17.8650
## Casco de escalada de granito 711 1.9969 19.8618
## Gorra Deportiva 550 1.5447 21.4065
## GPS glaciar 1477 4.1482 25.5547
## Guantes de Arquero Nike 3703 10.3999 35.9546
## Guayos Nike Cr-7 406 1.1403 37.0949
## Hibernator Camp Cot 1 0.0028 37.0977
## Husky Cuerda 200 263 0.7386 37.8363
## Juego TrailChef Deluxe Cook 3091 8.6811 46.5174
## Kit de alivio compacto 474 1.3312 47.8487
## Kit de cocina TrailChef 3201 8.9901 56.8387
## Lámpara de escalada Firefly 202 0.5673 57.4061
## Lámpara EverGlow 1908 5.3586 62.7647
## Loción BugShield 906 2.5445 65.3092
## Maletin Adidas 232 0.6516 65.9608
## Martillo de granito 305 0.8566 66.8174
## Mirador Star 1 0.0028 66.8202
## Mochila Canyon Mula Weekender 1962 5.5103 72.3305
## Mochila Canyon Mule Journey 1 0.0028 72.3333
## Mountain Man Extreme 2563 7.1982 79.5315
## Palo Course Pro 788 2.2131 81.7446
## Pantaloneta 736 2.0671 83.8117
## Set de Madera Lady Hailstorm Titanium 1894 5.3193 89.1310
## Silvato Arbitro 102 0.2865 89.4175
## Star Gazer 3 1 0.0028 89.4203
## Sudadera Puma 932 2.6175 92.0379
## Termo de Bicicleta 2834 7.9593 99.9972
## TrailChef Double Flame 1 0.0028 100.0000
## Total 35606 100.0000 100.0000
##
## VENDEDOR
##
## Freq % % Cum.
## ------------------------- ------- -------- --------
## Armando Casas 1635 4.59 4.59
## Bernardo Cifuentes 3386 9.51 14.10
## Guillermo Benavides 3119 8.76 22.86
## Hernando Portilla 5220 14.66 37.52
## Lidia Bueno 9444 26.52 64.05
## Patricia Angarita 5425 15.24 79.28
## Viviana Cano 7377 20.72 100.00
## Total 35606 100.00 100.00
Interpretación:
País: El análisis muestra la distribución de las ventas por país. Ecuador y Panamá parecen ser los mercados más grandes, mientras que Colombia y Honduras muestran menor participación.
Forma de Venta: La mayoría de las ventas se realizan a través de redes sociales, seguidas por teléfono y correo electrónico. La venta en punto de venta físico tiene una proporción mucho menor.
Forma de Pago: La transferencia electrónica es el método de pago más común, seguido por el efectivo, las tarjetas de crédito y los cheques.
Producto: Hay una amplia variedad de productos vendidos. Algunos productos tienen una frecuencia de ventas significativamente mayor que otros. Por ejemplo, “Guantes de Arquero Nike” y “Kit de cocina TrailChef” parecen ser populares, mientras que otros productos tienen menos ventas.
Vendedor: Se observa una distribución desigual de ventas entre los vendedores. “Lidia Bueno” y “Viviana Cano” representan la mayor parte de las ventas.
La tabla de contingencia nos muestra cómo se distribuyen las ventas según el país y la forma de venta. Esto nos permite identificar si hay alguna relación entre estos dos factores. Por ejemplo, si observamos que ciertas formas de venta son más comunes en ciertos países, podríamos ajustar nuestras estrategias de venta en función de estas observaciones.
Para crear una tabla de contingencia y ver cómo se distribuyen las ventas según el país y la forma de venta:
ctable(ventas2018$PAÍS, ventas2018$`FORMA DE VENTA`, useNA="no", prop="r")
## Cross-Tabulation, Row Proportions
## PAÍS * `FORMA DE VENTA`
## Data Frame: ventas2018
##
## ----------- ---------------- -------------- ------------- ---------------- ---------------- ---------------- ---------------- -------------- ----------------
## FORMA DE VENTA E-mail E-Mail punto de venta Punto de venta Punto de Venta Redes Sociales Teléfono Total
## PAÍS
## Colombia 0 ( 0.0%) 118 (3.4%) 11 (0.3%) 4 (0.11%) 283 ( 8.1%) 3093 (88.1%) 0 ( 0.0%) 3509 (100.0%)
## Ecuador 37 ( 0.5%) 564 (7.8%) 35 (0.5%) 3 (0.04%) 2200 (30.4%) 3307 (45.7%) 1089 (15.1%) 7235 (100.0%)
## Guatemala 0 ( 0.0%) 81 (2.2%) 19 (0.5%) 7 (0.19%) 511 (13.8%) 3086 (83.3%) 0 ( 0.0%) 3704 (100.0%)
## Honduras 0 ( 0.0%) 239 (6.9%) 15 (0.4%) 5 (0.14%) 509 (14.7%) 2481 (71.7%) 209 ( 6.0%) 3458 (100.0%)
## Mexico 12 ( 0.4%) 0 (0.0%) 14 (0.4%) 0 (0.00%) 389 (12.3%) 1841 (58.3%) 900 (28.5%) 3156 (100.0%)
## Nicaragua 9 ( 0.2%) 210 (5.4%) 15 (0.4%) 3 (0.08%) 332 ( 8.6%) 3273 (84.9%) 15 ( 0.4%) 3857 (100.0%)
## Panama 1086 (18.8%) 162 (2.8%) 37 (0.6%) 10 (0.17%) 840 (14.5%) 3295 (57.0%) 349 ( 6.0%) 5779 (100.0%)
## Peru 73 ( 1.5%) 117 (2.4%) 24 (0.5%) 4 (0.08%) 904 (18.4%) 3463 (70.6%) 323 ( 6.6%) 4908 (100.0%)
## Total 1217 ( 3.4%) 1491 (4.2%) 170 (0.5%) 36 (0.10%) 5968 (16.8%) 23839 (67.0%) 2885 ( 8.1%) 35606 (100.0%)
## ----------- ---------------- -------------- ------------- ---------------- ---------------- ---------------- ---------------- -------------- ----------------
Interpretación: Se muestra cómo se distribuyen las ventas según el país y la forma de venta. Proporciona una perspectiva de cómo las formas de venta varían entre diferentes países.
Para las variables continuas, como el monto total de ventas (VENTAS), la cantidad de productos vendidos (CANTIDAD) y la comisión generada por la venta (COMISIÓN), obtenemos estadísticas descriptivas como la media, la mediana, la desviación estándar, el mínimo y el máximo.
Para las variables continuas podemos usar la función descr(). Por ejemplo, para ver los principales estadísticos de la variable VENTAS:
descr(ventas2018$VENTAS)
## Descriptive Statistics
## ventas2018$VENTAS
## N: 35606
##
## VENTAS
## ----------------- ------------
## Mean 60074.36
## Std.Dev 57429.71
## Min 10500.00
## Q1 25450.00
## Median 55000.00
## Q3 68950.00
## Max 1219500.00
## MAD 32320.68
## IQR 43500.00
## CV 0.96
## Skewness 3.46
## SE.Skewness 0.01
## Kurtosis 18.94
## N.Valid 35606.00
## Pct.Valid 100.00
Aplicar la función descr() a todo el dataset para buscar todas las variables continuas y resumirlas:
descr(ventas2018)
## Non-numerical variable(s) ignored: PAÍS, FORMA DE VENTA, FORMA DE PAGO, PRODUCTO, VENDEDOR, FECHA
## Descriptive Statistics
## ventas2018
## N: 35606
##
## CANTIDAD COMISION VENTAS
## ----------------- ---------- ---------- ------------
## Mean 8.20 3002.04 60074.36
## Std.Dev 3.52 2855.02 57429.71
## Min 1.00 525.00 10500.00
## Q1 6.00 1272.50 25450.00
## Median 8.00 2750.00 55000.00
## Q3 10.00 3447.50 68950.00
## Max 23.00 26052.50 1219500.00
## MAD 2.97 1616.03 32320.68
## IQR 4.00 2174.38 43500.00
## CV 0.43 0.95 0.96
## Skewness 1.00 3.29 3.46
## SE.Skewness 0.01 0.01 0.01
## Kurtosis 3.79 14.68 18.94
## N.Valid 35606.00 35606.00 35606.00
## Pct.Valid 100.00 100.00 100.00
Interpretación: Se proporcionan estadísticas descriptivas para la variable continua “Ventas” y al resto de dataset. Esto incluye medidas de tendencia central (media, mediana), dispersión (rango, desviación estándar) y forma de la distribución (sesgo, curtosis).Estos estadísticos nos ayudan a comprender la distribución y la dispersión de nuestros datos. Por ejemplo, si la media de las ventas es alta, podemos inferir que en promedio se realizan ventas significativas.
Al realizar una descriptiva de las variables continuas según una variable categórica, como “PAÍS”, podemos comparar cómo varían las ventas, la cantidad de productos vendidos y la comisión generada entre diferentes países. Por ejemplo, si observamos diferencias significativas en la media de las ventas entre países, esto podría indicar que ciertos países tienen un mayor poder adquisitivo o una mayor demanda de nuestros productos.
Podemos tener una descriptiva de las variables continuas según una variable categórica, como PAÍS:
stby(ventas2018[, c("VENTAS", "CANTIDAD", "COMISION")], INDICES = ventas2018$PAÍS,
FUN = descr, stats = "common", transpose = TRUE)
## Descriptive Statistics
## ventas2018
## Group: PAÍS = Colombia
## N: 3509
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ------------ --------- -----------
## CANTIDAD 7.42 3.02 2.00 8.00 23.00 3509.00 100.00
## COMISION 2291.71 1480.76 527.50 2270.00 15525.00 3509.00 100.00
## VENTAS 46175.42 35629.35 10550.00 45400.00 1219500.00 3509.00 100.00
##
## Group: PAÍS = Ecuador
## N: 7235
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 9.52 4.29 2.00 10.00 23.00 7235.00 100.00
## COMISION 4384.92 4469.93 525.00 2750.00 26052.50 7235.00 100.00
## VENTAS 87698.32 89398.58 10500.00 55000.00 521050.00 7235.00 100.00
##
## Group: PAÍS = Guatemala
## N: 3704
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 7.97 3.08 2.00 8.00 23.00 3704.00 100.00
## COMISION 2623.04 2290.21 527.50 2388.75 23202.50 3704.00 100.00
## VENTAS 52460.75 45804.22 10550.00 47775.00 464050.00 3704.00 100.00
##
## Group: PAÍS = Honduras
## N: 3458
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 8.12 3.17 2.00 8.00 23.00 3458.00 100.00
## COMISION 2749.55 2105.63 527.50 2750.00 24115.00 3458.00 100.00
## VENTAS 54991.09 42112.59 10550.00 55000.00 482300.00 3458.00 100.00
##
## Group: PAÍS = Mexico
## N: 3156
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 7.81 3.11 2.00 8.00 23.00 3156.00 100.00
## COMISION 2559.04 1808.37 527.50 2613.75 17637.50 3156.00 100.00
## VENTAS 51180.89 36167.48 10550.00 52275.00 352750.00 3156.00 100.00
##
## Group: PAÍS = Nicaragua
## N: 3857
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 7.16 3.09 2.00 6.00 23.00 3857.00 100.00
## COMISION 2298.77 1393.22 527.50 2272.50 13385.00 3857.00 100.00
## VENTAS 45975.40 27864.46 10550.00 45450.00 267700.00 3857.00 100.00
##
## Group: PAÍS = Panama
## N: 5779
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 8.17 3.24 1.00 8.00 23.00 5779.00 100.00
## COMISION 2823.30 2440.52 525.00 2587.50 25397.50 5779.00 100.00
## VENTAS 56465.98 48810.42 10500.00 51750.00 507950.00 5779.00 100.00
##
## Group: PAÍS = Peru
## N: 4908
##
## Mean Std.Dev Min Median Max N.Valid Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
## CANTIDAD 8.17 3.44 2.00 8.00 23.00 4908.00 100.00
## COMISION 2983.25 2551.83 527.50 2750.00 24067.50 4908.00 100.00
## VENTAS 59665.06 51036.53 10550.00 55000.00 481350.00 4908.00 100.00
Interpretación: Se desglosan las estadísticas continuas (cantidad, comisión, ventas) por país. Esto ayuda a comprender cómo difieren las ventas y las comisiones entre los países.
El resumen completo del dataset nos proporciona una visión general de todas las variables, tanto categóricas como continuas. Esto nos permite identificar rápidamente cualquier problema de datos, como valores atípicos o valores faltantes, y nos da una idea de la distribución y la dispersión de nuestras variables en general.
Podemos resumir toda nuestra base de datos (tanto variables continuas como categóricas) con la función dfSummary():
print(dfSummary(ventas2018, graph.magnif = 0.75), method = 'render')
| No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Valid | Missing | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | PAÍS [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2 | FORMA DE VENTA [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 3 | FORMA DE PAGO [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 4 | PRODUCTO [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 5 | VENDEDOR [character] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 6 | FECHA [POSIXct, POSIXt] |
|
918 distinct values | 35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 7 | VENTAS [numeric] |
|
4174 distinct values | 35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 8 | CANTIDAD [numeric] |
|
|
35606 (100.0%) | 0 (0.0%) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 9 | COMISION [numeric] |
|
4173 distinct values | 35606 (100.0%) | 0 (0.0%) |
Generated by summarytools 1.0.1 (R version 4.3.1)
2024-05-23
Interpretación: Se nos proporciona un resumen completo del dataset, incluyendo estadísticas y distribuciones para todas las variables, tanto categóricas como continuas. Esto ofrece una visión general amplia y detallada de los datos.
Para la apliación del modelo de correlación se debe llevar a cabo una limpieza de datos para luego hacer su exploración y finalmente la creaciòn del modelo
#Instalacion y carga de líbrerias necesarias
install.packages("tidyverse")
install.packages("ggplot2")
#Cargamos los datos en R.
library(tidyverse)
library(ggplot2)
library(readxl)
# Reemplaza "data.csv" con la ruta de tu archivo CSV
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"
# Descargar el archivo temporalmente
temp_file <- tempfile(fileext = ".xlsx")
download.file(url, destfile = temp_file, mode = "wb")
# Leer el archivo Excel
data <- read_excel(temp_file)
#Revisamos la estructura y un resumen de los datos.
str(data)
## tibble [37,010 × 9] (S3: tbl_df/tbl/data.frame)
## $ PAÍS : chr [1:37010] "Nicaragua" "Panama" "Guatemala" "Nicaragua" ...
## $ FORMA DE VENTA: chr [1:37010] "Redes Sociales" "Teléfono" "Redes Sociales" "Redes Sociales" ...
## $ FORMA DE PAGO : chr [1:37010] "Cheque" "Cheque" "Cheque" "Cheque" ...
## $ PRODUCTO : chr [1:37010] "Casco de escalada de granito" "Casco de escalada de granito" "Guantes de Arquero Nike" "Guantes de Arquero Nike" ...
## $ VENDEDOR : chr [1:37010] "Viviana Cano" "Hernando Portilla" "Hernando Portilla" "Patricia Angarita" ...
## $ FECHA : POSIXct[1:37010], format: "2018-09-22" "2018-06-21" ...
## $ VENTAS : num [1:37010] 22000 21950 21950 21950 1219500 ...
## $ CANTIDAD : num [1:37010] 10 10 10 10 10 8 8 10 10 8 ...
## $ COMISION : num [1:37010] 1100 1098 1098 1098 1098 ...
summary(data)
## PAÍS FORMA DE VENTA FORMA DE PAGO PRODUCTO
## Length:37010 Length:37010 Length:37010 Length:37010
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## VENDEDOR FECHA VENTAS
## Length:37010 Min. :2018-01-02 00:00:00.00 Min. : 10500
## Class :character 1st Qu.:2019-07-06 00:00:00.00 1st Qu.: 26350
## Mode :character Median :2020-12-20 00:00:00.00 Median : 55000
## Mean :2020-08-30 14:03:22.71 Mean : 60373
## 3rd Qu.:2021-12-02 00:00:00.00 3rd Qu.: 71000
## Max. :2022-12-29 00:00:00.00 Max. :1219500
## CANTIDAD COMISION
## Min. : 1.000 Min. : 525
## 1st Qu.: 6.000 1st Qu.: 1318
## Median : 8.000 Median : 2750
## Mean : 8.135 Mean : 3017
## 3rd Qu.:10.000 3rd Qu.: 3550
## Max. :23.000 Max. :26053
Verificamos si hay valores nulos y decidimos cómo manejarlos. También nos aseguramos de que los tipos de datos sean correctos.
# Revisa si hay valores nulos
sum(is.na(data))
## [1] 0
# Convierte la columna 'FECHA' a formato Date
data$FECHA <- as.Date(data$FECHA, format="%Y-%m-%d")
# Verifica la conversión
str(data)
## tibble [37,010 × 9] (S3: tbl_df/tbl/data.frame)
## $ PAÍS : chr [1:37010] "Nicaragua" "Panama" "Guatemala" "Nicaragua" ...
## $ FORMA DE VENTA: chr [1:37010] "Redes Sociales" "Teléfono" "Redes Sociales" "Redes Sociales" ...
## $ FORMA DE PAGO : chr [1:37010] "Cheque" "Cheque" "Cheque" "Cheque" ...
## $ PRODUCTO : chr [1:37010] "Casco de escalada de granito" "Casco de escalada de granito" "Guantes de Arquero Nike" "Guantes de Arquero Nike" ...
## $ VENDEDOR : chr [1:37010] "Viviana Cano" "Hernando Portilla" "Hernando Portilla" "Patricia Angarita" ...
## $ FECHA : Date[1:37010], format: "2018-09-22" "2018-06-21" ...
## $ VENTAS : num [1:37010] 22000 21950 21950 21950 1219500 ...
## $ CANTIDAD : num [1:37010] 10 10 10 10 10 8 8 10 10 8 ...
## $ COMISION : num [1:37010] 1100 1098 1098 1098 1098 ...
Para un modelo de correlación lineal, seleccionamos las variables numéricas que nos llaman la atención. Por ejemplo, para este caso vamos a analizar la relación entre VENTAS y COMISION.
# Selección de variables relevantes
datos_relevantes <- data %>% select(VENTAS, COMISION)
Calculamos la correlación entre las variables seleccionadas.
correlacion <- cor(datos_relevantes$VENTAS, datos_relevantes$COMISION)
print(correlacion)
## [1] 0.9939491
Interpretación: La correlación obtenida es de 0.9939491, lo que indica una relación muy fuerte y positiva entre las ventas y la comisión.
Creamos un gráfico de dispersión para visualizar la relación entre VENTAS y COMISION.
ggplot(datos_relevantes, aes(x=VENTAS, y=COMISION)) +
geom_point() +
geom_smooth(method="lm", col="red") +
labs(title="Correlación entre Ventas y Comisión",
x="Ventas",
y="Comisión")
Interpretación: El gráfico muestra cómo las comisiones se relacionan con las ventas, incluyendo una línea de regresión lineal en rojo que resume esta relación.
Ajustamos un modelo de regresión lineal para cuantificar la relación entre VENTAS y COMISION.
modelo <- lm(COMISION ~ VENTAS, data=datos_relevantes)
summary(modelo)
##
## Call:
## lm(formula = COMISION ~ VENTAS, data = datos_relevantes)
##
## Residuals:
## Min 1Q Median 3Q Max
## -59199 -18 -2 8 271
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.364e+01 2.351e+00 14.31 <2e-16 ***
## VENTAS 4.942e-02 2.839e-05 1740.78 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 309.5 on 37008 degrees of freedom
## Multiple R-squared: 0.9879, Adjusted R-squared: 0.9879
## F-statistic: 3.03e+06 on 1 and 37008 DF, p-value: < 2.2e-16
Revisamos el resumen del modelo para interpretar los coeficientes y el R-cuadrado.
summary(modelo)
##
## Call:
## lm(formula = COMISION ~ VENTAS, data = datos_relevantes)
##
## Residuals:
## Min 1Q Median 3Q Max
## -59199 -18 -2 8 271
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.364e+01 2.351e+00 14.31 <2e-16 ***
## VENTAS 4.942e-02 2.839e-05 1740.78 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 309.5 on 37008 degrees of freedom
## Multiple R-squared: 0.9879, Adjusted R-squared: 0.9879
## F-statistic: 3.03e+06 on 1 and 37008 DF, p-value: < 2.2e-16
Interpretación:
Intercepto: 33.64 (con un valor p < 2e-16) indica que cuando las ventas son cero, la comisión promedio es aproximadamente 33.64 unidades.
Coeficiente de VENTAS: 0.04942 (con un valor p < 2e-16) sugiere que por cada unidad adicional de venta, la comisión aumenta en promedio 0.04942 unidades.
R-cuadrado: 0.9879, lo que significa que el 98.79% de la variabilidad en COMISION puede explicarse por VENTAS.
Para este ejemplo podemos agregar una predicción con los resultados obtenidos
# Datos de ejemplo para predicción
nuevos_datos <- data.frame(VENTAS = c(50000, 100000, 150000))
# Predicción
predicciones <- predict(modelo, nuevos_datos)
print(predicciones)
## 1 2 3
## 2504.439 4975.243 7446.046
Interpretación: Las predicciones para ventas de 50000, 100000 y 150000 son 2504.439, 4975.243 y 7446.046 unidades de comisión, respectivamente.
# Ajustar el modelo de regresión lineal
modelo <- lm(COMISION ~ VENTAS, data=datos_relevantes)
# Hacer predicciones usando el modelo
datos_relevantes$PREDICCION <- predict(modelo, datos_relevantes)
# Creación de la gráfica de comparación
ggplot(datos_relevantes, aes(x=VENTAS)) +
geom_point(aes(y=COMISION), color="blue", alpha=3) + # Valores observados
geom_line(aes(y=PREDICCION), color="red", size=1) + # Valores predichos
labs(title="Comparación de Ventas vs Comisión: Observado vs Predicción",
x="Ventas",
y="Comisión") +
theme_minimal()
Interpretación: La gráfica muestra las comisiones observadas en azul y las comisiones predichas en rojo. La cercanía de las líneas rojas a los puntos azules indica que el modelo de regresión lineal ajusta bien los datos.
La construcción del modelo de regresión con una variable categórica nos permitirá entender cómo influyen diferentes categorías en una variable de interés, como las cantidades vendidas. Esto es crucial para identificar qué estrategias o como distintas formas de venta, tienen mayor impacto en los resultados comerciales. Utilizando esta metodología, podemos tomar decisiones informadas y dirigir recursos hacia las categorías que generan mayores ganancias.
Iniciaremos por instalar las librerias necesarias
##INSTALACIÓN Y CArGA DE LIBRERIAS
install.packages("dplyr")
install.packages("ggplot2")
install.packages("corrplot")
library(dplyr)
library(ggplot2)
library(corrplot)
Este caso, el modelo a construir será para dar respuesta de qué FORMA DE VENTA es la más concurrida en Colombia, uno de los países con menor registro de VENTAS, según lo observado en el apartado de estadística descriptiva, el objetivo es conocer qué medio de venta será la opción más rentable para invertir en marketing y que este país tengo porcentajes de venta tan grandes como Ecuador.
##Se realiza el filtro de datos de interés, en este caso, las ventas de Colombia
datos_ec <- datos_limpio %>%
filter(PAÍS == "Colombia")
# Convertir la columna FECHA a formato Date
datos_ec$FECHA <- as.Date(datos_ec$FECHA)
# Agregar una columna de año para agregar el conteo por período
datos_ec <- datos_ec %>%
mutate(Anio = format(FECHA, "%Y"))
#Se convierte el tipo de dato Date del campo Anio a Int para trabajar con el año en entero
datos_ec$Anio <- as.integer(datos_ec$Anio)
datos_ec
## # A tibble: 3,459 × 10
## PAÍS `FORMA DE VENTA` `FORMA DE PAGO` PRODUCTO VENDEDOR FECHA VENTAS
## <chr> <chr> <chr> <chr> <chr> <date> <dbl>
## 1 Colombia Redes Sociales Cheque Kit de … Patrici… 2018-04-05 21950
## 2 Colombia Redes Sociales Cheque Casco d… Guiller… 2018-09-20 21900
## 3 Colombia Redes Sociales Cheque Guantes… Bernard… 2018-04-29 21900
## 4 Colombia Redes Sociales Cheque Guantes… Lidia B… 2018-05-25 21700
## 5 Colombia Redes Sociales Cheque Kit de … Bernard… 2018-06-03 21700
## 6 Colombia Redes Sociales Cheque Guantes… Lidia B… 2018-09-16 21600
## 7 Colombia E-Mail Cheque Casco d… Lidia B… 2018-05-07 21400
## 8 Colombia Redes Sociales Cheque Guantes… Viviana… 2018-04-12 21350
## 9 Colombia Redes Sociales Cheque Kit de … Hernand… 2018-03-14 21350
## 10 Colombia Redes Sociales Cheque Guantes… Viviana… 2018-05-02 21200
## # ℹ 3,449 more rows
## # ℹ 3 more variables: CANTIDAD <dbl>, COMISION <dbl>, Anio <int>
##Convertir los registros del campo 'FORMA DE VENTA' en caracteres en minúsculas para unificar datos
datos_ec <- datos_ec %>%
mutate(`FORMA DE VENTA` = tolower(`FORMA DE VENTA`))
##Se realiza el filtro de datos de interés, en este caso, las ventas de Colombia del año 2022
datos_2022 <- datos_ec %>% filter(datos_ec$Anio == 2022)
Ya con los datos filtrados y en el formato necesario, procedemos a buscar respuestas para nuestra pregunta ¿Cuál ha sido el método con mayor TENDENCIA para VENDER en COLOMBIA en el año 2022? considerando que sabemos que existe una categria de FORMA DE VENTA en nuestro dataframe
#
ggplot(data = datos_2022) +
geom_point(aes(x = `FORMA DE VENTA` , y = CANTIDAD, color = `FORMA DE VENTA`)) +
labs(title = "Métodos de Venta en Colombia en el año 2022",
y = "Cantidad de productos vendidos por pedido")
Interpretación: En la gráfica podemos observar que en Colombia las formas de hacer efectiva una venta son por medio de E-Mail, Puntos de Venta físico y Redes Sociales, siendo esta última el método con mayor tendencia en el año 2022. En la gráfica de dispersión se visualiza como variable dependiente las cantidades totales que se han vendido por cada uno de los medios mencionados;estos han sido agrupados por la variable categorica “FORMA DE VENTAS”, siendo las REDES SOCIALES la categoria con mayor agrupamiento por producto y Año.
Antes de construir el modelo, se relizará la conversión del campo “Forma de ventas” a tipo FACTOR
#convertir en FACTOR los campos
datos_2022$`FORMA DE VENTA` <- as.factor(datos_2022$`FORMA DE VENTA`)
Lo siguiente será construir el modelo de regresión con una variable categórica para PREDECIR la cantidad de venta que se puede aumentar por cada una de las FORMAS DE VENTA de mayor uso en COLOMBIA de acuerdo con los datos historicos en el año 2022.
#Creación de modelo, 'CANTIDAD' es la variable dependiente y 'FORMA DE VENTA' la variable independiente
modelo_exp_FVenta <- lm(CANTIDAD ~ `FORMA DE VENTA`, data = datos_2022)
modelo_exp_FVenta
##
## Call:
## lm(formula = CANTIDAD ~ `FORMA DE VENTA`, data = datos_2022)
##
## Coefficients:
## (Intercept) `FORMA DE VENTA`punto de venta
## 7.35616 -0.02283
## `FORMA DE VENTA`redes sociales
## 0.05321
Interpretación: Como podemos observar, el coefiiente en la FORMA DE VENTA que se toma como referencia es el uso de E-Mail, el modelo muestra un intercepto de 7.35616, lo que significa que se espera que la cantidad sea 7.35616 cuando todas las demás variables se mantienen constantes.Por otro lado, cuando la forma sea “Punto de Venta” se estima exista una disminución de venta al contrario de la forma “Redes Sociales” que muestra un valor positivo asegurando que en comparación de E-mail y Punto de Venta, este método tendría una mayor cantidad de productos vendidos.
De acuerdo con el párrafo anterior, podemos concluir que se ha encontrado respuesta para la pregunta Cuál FORMA DE VENTA resulta ser conveniente para la inversión de marketing que permita aumentar las ventas en Colombia.
Una vez terminado el presente Trabajo autónomo sobre el Desarrollo de análisis y modelo estadístico ’con nuestra dataset Ventas 2018.xlsx, concluimos que:
Exploración de Datos: La exploración inicial nos proporciona una comprensión general de la estructura y características de los datos, mientras que la limpieza asegura la calidad y la integridad de los mismos, eliminando errores y valores atípicos. Por otro lado, la segmentación nos permite dividir el conjunto de datos en subgrupos más manejables, lo que facilita análisis más detallados y específicos en cada segmento. Estas etapas trabajan en conjunto para garantizar que los datos estén listos para análisis posteriores.
Estadística descriptiva: mediante el análisis descriptivo de nuestro dataset de ventas de 2018, podemos obtener información valiosa sobre la distribución de nuestras ventas, las características de nuestros clientes y la efectividad de nuestras estrategias de venta en diferentes países. Esto nos permite identificar áreas de mejora y tomar decisiones informadas para impulsar el éxito de nuestro negocio.
El análisis de correlación y el modelo de regresión lineal ajustado entre VENTAS y COMISION proporcionan una visión clara y cuantitativa de la relación entre estas dos variables. Los resultados muestran una correlación extremadamente fuerte y positiva, lo que sugiere que a medida que aumentan las ventas, las comisiones también lo hacen de manera casi proporcional. El modelo de regresión lineal construido es altamente predictivo, con un R-cuadrado ajustado de 0.9879, lo que indica que casi el 99% de la variabilidad en las comisiones puede explicarse por las ventas.
Regresión con una variable categórica: Al usar regresión con una variable categórica como la forma de venta, podemos identificar el impacto específico de cada categoría en las ventas. En este caso, la forma de venta a través de redes sociales parece ser la que más influye en las ventas, lo que sugiere que invertir en estrategias de marketing en redes sociales podría aumentar significativamente las ventas.
Exploración de Datos: Se observa una variación en el volumen de ventas por año, siendo 2021 el año con la mayor cantidad de registros y 2020 con la menor. Además, se destacan diferencias en la distribución de las ventas entre años, con una mediana de ventas más alta en 2020 en comparación con 2018. Las comisiones generadas también varían entre años, lo que puede reflejar diferencias en las políticas de comisiones o en el desempeño de los vendedores.
Estadística descriptiva: el análisis descriptivo de las ventas de 2018 revela que Ecuador y Panamá son los mercados más grandes, con las redes sociales siendo el principal canal de venta y la transferencia electrónica el método de pago más común. Productos como “Guantes de Arquero Nike” y “Kit de cocina TrailChef” son especialmente populares, mientras que “Lidia Bueno” y “Viviana Cano” destacan entre los vendedores. Las estadísticas muestran variabilidad en las ventas y diferencias significativas entre países, ofreciendo una visión detallada para optimizar estrategias de mercado y ventas.
El análisis de correlación: muestra una correlación casi perfecta (0.9939491) entre ventas y comisiones, indicando una relación directa y fuerte. El modelo de regresión lineal sugiere que cada unidad de ventas adicional incrementa la comisión en 0.04942 unidades, con una comisión base de 33.64 unidades. Con un R-cuadrado ajustado de 0.9879, el modelo es altamente predictivo. Las gráficas confirman la precisión del modelo y las predicciones para diferentes niveles de ventas son coherentes. En resumen, el modelo es eficaz para predecir comisiones, apoyando la planificación financiera y decisiones estratégicas en la empresa.
Regresión con una variable categórica: Los coeficientes estimados en la regresión nos permiten cuantificar el cambio esperado en las ventas para cada forma de venta en comparación con un punto de referencia (por ejemplo, ventas en una tienda física). En este caso, un coeficiente positivo para la forma de venta en redes sociales indica que esta estrategia está asociada con un aumento en las ventas en comparación con otras formas de venta, mientras que los coeficientes no significativos para otras formas de venta sugieren que su impacto en las ventas puede ser limitado.