Autores:

Fecha de entrega: 2024-05-23

Docente: Ing. Cristian Benalcazar de la Cruz

Desarrollo de análisis y modelo estadístico

Paso 1: Descripción del dataset

Nombre del Dataset: Ventas 2018.xlsx

Descripción:

El dataset Ventas 2018 recopila datos de ventas de una empresa durante un período de cinco años, desde 2018 hasta 2022. Este conjunto de datos ofrece información detallada sobre las transacciones comerciales realizadas por la empresa en ese lapso de tiempo. A continuación, se presenta una descripción general del dataset:

  • Filas: Cada fila del dataset representa una transacción de venta individual, lo que incluye información sobre el cliente, el producto o servicio vendido, la fecha y hora de la venta, el monto de la transacción, etc.

  • Columnas: Las columnas del dataset incluyen una variedad de atributos que describen cada transacción. Algunas de las columnas comunes podrían incluir:

    • ID de transacción
    • Fecha y hora de la transacción
    • ID del cliente
    • Nombre del cliente
    • ID del producto
    • Descripción del producto
    • Cantidad vendida
    • Precio unitario
    • Total de ventas

Los campos que comprende el dataset son los siguientes:

Campo Tipo de Datos Descripción
PAÍS character El país en el que se realizó la venta.
FORMA DE VENTA character El método o canal de venta utilizado para realizar la transacción.
FORMA DE PAGO character El método de pago utilizado para completar la transacción.
PRODUCTO character El nombre del producto vendido.
VENDEDOR character El nombre del vendedor que realizó la venta.
FECHA Date La fecha en la que se realizó la venta.
VENTAS numeric El monto total de la venta en la moneda local.
CANTIDAD integer La cantidad de productos vendidos en la transacción.
COMISIÓN numeric La comisión generada por la venta para el vendedor o el intermediario.

Paso 2: Objetivo del análisis.

El objetivo del análisis realizado sobre el dataset de ventas de 2018 es proporcionar una comprensión profunda y cuantitativa del rendimiento de ventas de la empresa, identificar patrones y tendencias clave en los datos, y desarrollar un modelo predictivo para las comisiones basadas en las ventas. El análisis se centra en varias áreas clave:

  • Explorar y Limpiar Datos: Explorar inicialmente los datos para comprender su estructura y características. Posteriormente, limpiar el conjunto para garantizar la calidad y la integridad de los datos, eliminando errores y valores atípicos.

  • Segmentar Datos: Segmentar los datos para dividir el conjunto en subgrupos más manejables, facilitando análisis más detallados y específicos en cada segmento.

  • Realizar Estadística Descriptiva: Realizar un análisis descriptivo para obtener información valiosa sobre la distribución de las ventas, las características de los clientes y la efectividad de las estrategias de venta en diferentes países. Esto permite identificar áreas de mejora y tomar decisiones informadas para impulsar el éxito del negocio.

  • Analizar Correlación y Construir Modelo de Regresión Lineal: Investigar la relación entre las ventas y las comisiones mediante el análisis de correlación y construir un modelo de regresión lineal ajustado.

  • Construir un modelo de regresión con una variable categórica: Construir un modelo estadístico a partir del análisis descriptivo para tomar decisiones informadas y dirigidas a generar mayores beneficios.

Paso 3: Exploración de datos.

# Instalar y cargar el paquete readxl
#install.packages("readxl")
library(readxl)

# Especifica la URL RAW del archivo Excel en GitHub
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"

# Descargar el archivo temporalmente
temp_file <- tempfile(fileext = ".xlsx")
download.file(url, destfile = temp_file, mode = "wb")

# Leer el archivo Excel
datos <- read_excel(temp_file)

Limpieza de datos duplicados

A continuación se procede a realizar la limpieza de datos del dataset con el objetivo de garantizar la calidad y confiabilidad de los datos antes de realizar cualquier análisis o interpretación.

# Limpieza de datos

# Eliminar valores NA
datos_limpio <- na.omit(datos)

# Eliminar valores duplicados
datos_limpio <- unique(datos_limpio)

# Manejar valores atípicos (depende del contexto y los criterios específicos)

# Por ejemplo, para identificar valores atípicos en la columna 'VENTAS':
outliers <- boxplot(datos_limpio$VENTAS, plot = FALSE)$out

# Eliminar valores atípicos (por ejemplo, valores de ventas que están muy por encima o por debajo de la media)
datos_limpio <- datos_limpio[!datos_limpio$VENTAS %in% outliers, ]

# Verificar si hay valores faltantes después de la limpieza
any(is.na(datos_limpio))
## [1] FALSE

Interpretación

Como se puede observar el código anterior nos permitió realizar una limpieza básica de datos al eliminar filas con valores faltantes y duplicados, así como valores atípicos en la columna de ‘VENTAS’.

Mostrar Datos

Una vez realizada la limpieza respectiva de los datos, se procede a realizar la respectiva exploración de los datos. Para esto primero mostramos las primeras filas del dataframe para asi obtener una idea rápida de cómo se estructuran los datos y qué tipo de información contiene.

# Mostrar las primeras filas del dataframe
head(datos)
## # A tibble: 6 × 9
##   PAÍS    `FORMA DE VENTA` `FORMA DE PAGO` PRODUCTO VENDEDOR FECHA              
##   <chr>   <chr>            <chr>           <chr>    <chr>    <dttm>             
## 1 Nicara… Redes Sociales   Cheque          Casco d… Viviana… 2018-09-22 00:00:00
## 2 Panama  Teléfono         Cheque          Casco d… Hernand… 2018-06-21 00:00:00
## 3 Guatem… Redes Sociales   Cheque          Guantes… Hernand… 2018-09-20 00:00:00
## 4 Nicara… Redes Sociales   Cheque          Guantes… Patrici… 2018-04-02 00:00:00
## 5 Colomb… Redes Sociales   Cheque          Kit de … Viviana… 2018-04-05 00:00:00
## 6 Colomb… Redes Sociales   Cheque          Kit de … Patrici… 2018-04-05 00:00:00
## # ℹ 3 more variables: VENTAS <dbl>, CANTIDAD <dbl>, COMISION <dbl>

Resumen de los Datos

Este resumen es útil para tener una visión general de los datos y entender la distribución y características principales de cada variable en el conjunto de datos. Nos proporciona una idea rápida de la centralidad, dispersión y forma de la distribución de los datos numéricos, así como una visión general de la distribución de las variables categóricas.

# Mostrar un resumen de los datos
summary(datos)
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:37010       Length:37010       Length:37010       Length:37010      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS       
##  Length:37010       Min.   :2018-01-02 00:00:00.00   Min.   :  10500  
##  Class :character   1st Qu.:2019-07-06 00:00:00.00   1st Qu.:  26350  
##  Mode  :character   Median :2020-12-20 00:00:00.00   Median :  55000  
##                     Mean   :2020-08-30 14:03:22.71   Mean   :  60373  
##                     3rd Qu.:2021-12-02 00:00:00.00   3rd Qu.:  71000  
##                     Max.   :2022-12-29 00:00:00.00   Max.   :1219500  
##     CANTIDAD         COMISION    
##  Min.   : 1.000   Min.   :  525  
##  1st Qu.: 6.000   1st Qu.: 1318  
##  Median : 8.000   Median : 2750  
##  Mean   : 8.135   Mean   : 3017  
##  3rd Qu.:10.000   3rd Qu.: 3550  
##  Max.   :23.000   Max.   :26053

Mostrar estructura del Dataframe

Este punto nos proporciona información detallada sobre la estructura de los datos, incluyendo el tipo de dato de cada columna, la cantidad de observaciones (filas) y variables (columnas), y muestra los primeros valores de cada variable.

# Ver la estructura del dataframe
str(datos)
## tibble [37,010 × 9] (S3: tbl_df/tbl/data.frame)
##  $ PAÍS          : chr [1:37010] "Nicaragua" "Panama" "Guatemala" "Nicaragua" ...
##  $ FORMA DE VENTA: chr [1:37010] "Redes Sociales" "Teléfono" "Redes Sociales" "Redes Sociales" ...
##  $ FORMA DE PAGO : chr [1:37010] "Cheque" "Cheque" "Cheque" "Cheque" ...
##  $ PRODUCTO      : chr [1:37010] "Casco de escalada de granito" "Casco de escalada de granito" "Guantes de Arquero Nike" "Guantes de Arquero Nike" ...
##  $ VENDEDOR      : chr [1:37010] "Viviana Cano" "Hernando Portilla" "Hernando Portilla" "Patricia Angarita" ...
##  $ FECHA         : POSIXct[1:37010], format: "2018-09-22" "2018-06-21" ...
##  $ VENTAS        : num [1:37010] 22000 21950 21950 21950 1219500 ...
##  $ CANTIDAD      : num [1:37010] 10 10 10 10 10 8 8 10 10 8 ...
##  $ COMISION      : num [1:37010] 1100 1098 1098 1098 1098 ...

Segmentación de datos por bloques

La segmentación de datos por bloques es una técnica poderosa que permite una exploración más detallada y un análisis más específico de conjuntos de datos grandes y complejos, facilitando la extracción de información significativa y la toma de decisiones fundamentadas.

# Segmentación de datos por bloques

# Dividir los datos en bloques basados en cierta característica o criterio

# Por ejemplo, segmentar los datos por año
años <- split(datos_limpio, format(datos_limpio$FECHA, "%Y"))

# Mostrar un resumen de los datos para cada año
lapply(años, summary)
## $`2018`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:5842        Length:5842        Length:5842        Length:5842       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS      
##  Length:5842        Min.   :2018-01-02 00:00:00.00   Min.   : 10550  
##  Class :character   1st Qu.:2018-03-05 00:00:00.00   1st Qu.: 21200  
##  Mode  :character   Median :2018-04-26 00:00:00.00   Median : 38700  
##                     Mean   :2018-04-25 19:04:42.23   Mean   : 41893  
##                     3rd Qu.:2018-06-09 18:00:00.00   3rd Qu.: 55000  
##                     Max.   :2018-09-28 00:00:00.00   Max.   :134200  
##     CANTIDAD         COMISION     
##  Min.   : 2.000   Min.   : 527.5  
##  1st Qu.: 6.000   1st Qu.:1060.0  
##  Median : 8.000   Median :1935.0  
##  Mean   : 8.254   Mean   :2094.7  
##  3rd Qu.:10.000   3rd Qu.:2750.0  
##  Max.   :23.000   Max.   :6710.0  
## 
## $`2019`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:4729        Length:4729        Length:4729        Length:4729       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS      
##  Length:4729        Min.   :2019-01-01 00:00:00.00   Min.   : 10500  
##  Class :character   1st Qu.:2019-03-31 00:00:00.00   1st Qu.: 31750  
##  Mode  :character   Median :2019-08-08 00:00:00.00   Median : 55000  
##                     Mean   :2019-07-23 14:14:26.30   Mean   : 56189  
##                     3rd Qu.:2019-11-11 00:00:00.00   3rd Qu.: 75600  
##                     Max.   :2019-12-07 00:00:00.00   Max.   :134100  
##     CANTIDAD         COMISION   
##  Min.   : 1.000   Min.   : 525  
##  1st Qu.: 6.000   1st Qu.:1588  
##  Median : 8.000   Median :2750  
##  Mean   : 7.842   Mean   :2809  
##  3rd Qu.:10.000   3rd Qu.:3780  
##  Max.   :23.000   Max.   :6705  
## 
## $`2020`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:4450        Length:4450        Length:4450        Length:4450       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS      
##  Length:4450        Min.   :2020-01-06 00:00:00.00   Min.   : 48850  
##  Class :character   1st Qu.:2020-06-04 00:00:00.00   1st Qu.: 60200  
##  Mode  :character   Median :2020-07-09 00:00:00.00   Median : 75000  
##                     Mean   :2020-07-21 07:33:40.84   Mean   : 78463  
##                     3rd Qu.:2020-10-10 00:00:00.00   3rd Qu.: 90388  
##                     Max.   :2020-12-20 00:00:00.00   Max.   :134200  
##     CANTIDAD         COMISION   
##  Min.   : 2.000   Min.   :2442  
##  1st Qu.: 6.000   1st Qu.:3010  
##  Median : 8.000   Median :3750  
##  Mean   : 8.224   Mean   :3923  
##  3rd Qu.:10.000   3rd Qu.:4519  
##  Max.   :23.000   Max.   :6710  
## 
## $`2021`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:9545        Length:9545        Length:9545        Length:9545       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS      
##  Length:9545        Min.   :2021-01-02 00:00:00.00   Min.   : 10550  
##  Class :character   1st Qu.:2021-03-06 00:00:00.00   1st Qu.: 21900  
##  Mode  :character   Median :2021-05-06 00:00:00.00   Median : 43850  
##                     Mean   :2021-06-02 06:50:02.95   Mean   : 42317  
##                     3rd Qu.:2021-10-08 00:00:00.00   3rd Qu.: 55000  
##                     Max.   :2021-12-29 00:00:00.00   Max.   :134200  
##     CANTIDAD         COMISION     
##  Min.   : 2.000   Min.   : 527.5  
##  1st Qu.: 6.000   1st Qu.:1095.0  
##  Median : 8.000   Median :2192.5  
##  Mean   : 7.686   Mean   :2115.8  
##  3rd Qu.:10.000   3rd Qu.:2750.0  
##  Max.   :23.000   Max.   :6710.0  
## 
## $`2022`
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:8447        Length:8447        Length:8447        Length:8447       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS     
##  Length:8447        Min.   :2022-01-02 00:00:00.00   Min.   :10500  
##  Class :character   1st Qu.:2022-03-14 00:00:00.00   1st Qu.:19350  
##  Mode  :character   Median :2022-05-28 00:00:00.00   Median :33500  
##                     Mean   :2022-06-08 17:47:30.75   Mean   :34839  
##                     3rd Qu.:2022-08-29 00:00:00.00   3rd Qu.:53600  
##                     Max.   :2022-12-29 00:00:00.00   Max.   :75000  
##     CANTIDAD         COMISION     
##  Min.   : 2.000   Min.   : 525.0  
##  1st Qu.: 6.000   1st Qu.: 967.5  
##  Median : 8.000   Median :1675.0  
##  Mean   : 7.956   Mean   :1741.9  
##  3rd Qu.:10.000   3rd Qu.:2680.0  
##  Max.   :23.000   Max.   :3750.0

Interpretación

En este caso nuestro conjunto de datos es de ventas y abarca varios años, por lo cual segmentarlo por año nos permite analizar las ventas, tendencias y patrones específicos de cada año individualmente.

Paso 4: Estadística descriptiva.

Instalación de paquetes

# Instalamos las librerías necesarias
install.packages("summarytools")
install.packages("compareGroups")

Cargamos las librerías necesarias y leemos el dataset “Ventas 2018” desde GitHub.

# Cargamos las librerías y datos 
library(summarytools)
library(readxl)
# Leer el archivo Excel desde GitHub
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"
destfile <- tempfile(fileext = ".xlsx")
download.file(url, destfile, mode = "wb")
ventas2018 <- read_excel(destfile)

# Eliminar duplicados
ventas2018 <- ventas2018[!duplicated(ventas2018), ]

Variables categóricas

Las variables categóricas nos proporciona información sobre la distribución de las categorías en cada variable. Por ejemplo, para la variable “PAÍS”, podemos ver cuántas ventas se realizaron en cada país. Esto nos ayuda a entender la distribución geográfica de nuestras ventas y nos permite identificar los países con mayor y menor número de ventas. Podemos obtener un resumen para las variables categóricas con la función freq().

freq(ventas2018[, c("PAÍS", "FORMA DE VENTA", "FORMA DE PAGO", "PRODUCTO", "VENDEDOR")], report.nas = FALSE, headings = FALSE)
## PAÍS  
## 
##                    Freq        %   % Cum.
## --------------- ------- -------- --------
##        Colombia    3509     9.86     9.86
##         Ecuador    7235    20.32    30.17
##       Guatemala    3704    10.40    40.58
##        Honduras    3458     9.71    50.29
##          Mexico    3156     8.86    59.15
##       Nicaragua    3857    10.83    69.99
##          Panama    5779    16.23    86.22
##            Peru    4908    13.78   100.00
##           Total   35606   100.00   100.00
## 
## FORMA DE VENTA  
## 
##                         Freq        %   % Cum.
## -------------------- ------- -------- --------
##               E-mail    1217     3.42     3.42
##               E-Mail    1491     4.19     7.61
##       punto de venta     170     0.48     8.08
##       Punto de venta      36     0.10     8.18
##       Punto de Venta    5968    16.76    24.95
##       Redes Sociales   23839    66.95    91.90
##             Teléfono    2885     8.10   100.00
##                Total   35606   100.00   100.00
## 
## FORMA DE PAGO  
## 
##                                    Freq        %   % Cum.
## ------------------------------- ------- -------- --------
##                          Cheque    7374    20.71    20.71
##                        Efectivo    7219    20.27    40.98
##              Tarjeta de Credito    6799    19.10    60.08
##       Transferencia Electronica   14214    39.92   100.00
##                           Total   35606   100.00   100.00
## 
## PRODUCTO  
## 
##                                                Freq          %     % Cum.
## ------------------------------------------- ------- ---------- ----------
##             Alivio de mordedura de insectos    1240     3.4826     3.4826
##                         Arnés Extremo Husky    1327     3.7269     7.2095
##                      Balon de Futbol Adidas     211     0.5926     7.8021
##                  Balon de Microfutbol Golty    1019     2.8619    10.6639
##                  Batería recargable Firefly     411     1.1543    11.8182
##                            Bloqueador solar     493     1.3846    13.2028
##                    Bolsa de golf Course Pro     578     1.6233    14.8262
##                       BugShield Lotion Lite       4     0.0112    14.8374
##                             BugShield Spray       3     0.0084    14.8458
##                          Camiseta Deportiva    1074     3.0163    17.8622
##                        Canyon Mule Carryall       1     0.0028    17.8650
##                Casco de escalada de granito     711     1.9969    19.8618
##                             Gorra Deportiva     550     1.5447    21.4065
##                                 GPS glaciar    1477     4.1482    25.5547
##                     Guantes de Arquero Nike    3703    10.3999    35.9546
##                            Guayos Nike Cr-7     406     1.1403    37.0949
##                         Hibernator Camp Cot       1     0.0028    37.0977
##                            Husky Cuerda 200     263     0.7386    37.8363
##                 Juego TrailChef Deluxe Cook    3091     8.6811    46.5174
##                      Kit de alivio compacto     474     1.3312    47.8487
##                     Kit de cocina TrailChef    3201     8.9901    56.8387
##                 Lámpara de escalada Firefly     202     0.5673    57.4061
##                            Lámpara EverGlow    1908     5.3586    62.7647
##                            Loción BugShield     906     2.5445    65.3092
##                              Maletin Adidas     232     0.6516    65.9608
##                         Martillo de granito     305     0.8566    66.8174
##                                Mirador Star       1     0.0028    66.8202
##               Mochila Canyon Mula Weekender    1962     5.5103    72.3305
##                 Mochila Canyon Mule Journey       1     0.0028    72.3333
##                        Mountain Man Extreme    2563     7.1982    79.5315
##                             Palo Course Pro     788     2.2131    81.7446
##                                 Pantaloneta     736     2.0671    83.8117
##       Set de Madera Lady Hailstorm Titanium    1894     5.3193    89.1310
##                             Silvato Arbitro     102     0.2865    89.4175
##                                Star Gazer 3       1     0.0028    89.4203
##                               Sudadera Puma     932     2.6175    92.0379
##                          Termo de Bicicleta    2834     7.9593    99.9972
##                      TrailChef Double Flame       1     0.0028   100.0000
##                                       Total   35606   100.0000   100.0000
## 
## VENDEDOR  
## 
##                              Freq        %   % Cum.
## ------------------------- ------- -------- --------
##             Armando Casas    1635     4.59     4.59
##        Bernardo Cifuentes    3386     9.51    14.10
##       Guillermo Benavides    3119     8.76    22.86
##         Hernando Portilla    5220    14.66    37.52
##               Lidia Bueno    9444    26.52    64.05
##         Patricia Angarita    5425    15.24    79.28
##              Viviana Cano    7377    20.72   100.00
##                     Total   35606   100.00   100.00

Interpretación:

  1. País: El análisis muestra la distribución de las ventas por país. Ecuador y Panamá parecen ser los mercados más grandes, mientras que Colombia y Honduras muestran menor participación.

  2. Forma de Venta: La mayoría de las ventas se realizan a través de redes sociales, seguidas por teléfono y correo electrónico. La venta en punto de venta físico tiene una proporción mucho menor.

  3. Forma de Pago: La transferencia electrónica es el método de pago más común, seguido por el efectivo, las tarjetas de crédito y los cheques.

  4. Producto: Hay una amplia variedad de productos vendidos. Algunos productos tienen una frecuencia de ventas significativamente mayor que otros. Por ejemplo, “Guantes de Arquero Nike” y “Kit de cocina TrailChef” parecen ser populares, mientras que otros productos tienen menos ventas.

  5. Vendedor: Se observa una distribución desigual de ventas entre los vendedores. “Lidia Bueno” y “Viviana Cano” representan la mayor parte de las ventas.

Tabla de contingencia

La tabla de contingencia nos muestra cómo se distribuyen las ventas según el país y la forma de venta. Esto nos permite identificar si hay alguna relación entre estos dos factores. Por ejemplo, si observamos que ciertas formas de venta son más comunes en ciertos países, podríamos ajustar nuestras estrategias de venta en función de estas observaciones.

Para crear una tabla de contingencia y ver cómo se distribuyen las ventas según el país y la forma de venta:

ctable(ventas2018$PAÍS, ventas2018$`FORMA DE VENTA`, useNA="no", prop="r")
## Cross-Tabulation, Row Proportions  
## PAÍS * `FORMA DE VENTA`  
## Data Frame: ventas2018  
## 
## ----------- ---------------- -------------- ------------- ---------------- ---------------- ---------------- ---------------- -------------- ----------------
##               FORMA DE VENTA         E-mail        E-Mail   punto de venta   Punto de venta   Punto de Venta   Redes Sociales       Teléfono            Total
##        PAÍS                                                                                                                                                  
##    Colombia                       0 ( 0.0%)    118 (3.4%)        11 (0.3%)        4 (0.11%)      283 ( 8.1%)     3093 (88.1%)      0 ( 0.0%)    3509 (100.0%)
##     Ecuador                      37 ( 0.5%)    564 (7.8%)        35 (0.5%)        3 (0.04%)     2200 (30.4%)     3307 (45.7%)   1089 (15.1%)    7235 (100.0%)
##   Guatemala                       0 ( 0.0%)     81 (2.2%)        19 (0.5%)        7 (0.19%)      511 (13.8%)     3086 (83.3%)      0 ( 0.0%)    3704 (100.0%)
##    Honduras                       0 ( 0.0%)    239 (6.9%)        15 (0.4%)        5 (0.14%)      509 (14.7%)     2481 (71.7%)    209 ( 6.0%)    3458 (100.0%)
##      Mexico                      12 ( 0.4%)      0 (0.0%)        14 (0.4%)        0 (0.00%)      389 (12.3%)     1841 (58.3%)    900 (28.5%)    3156 (100.0%)
##   Nicaragua                       9 ( 0.2%)    210 (5.4%)        15 (0.4%)        3 (0.08%)      332 ( 8.6%)     3273 (84.9%)     15 ( 0.4%)    3857 (100.0%)
##      Panama                    1086 (18.8%)    162 (2.8%)        37 (0.6%)       10 (0.17%)      840 (14.5%)     3295 (57.0%)    349 ( 6.0%)    5779 (100.0%)
##        Peru                      73 ( 1.5%)    117 (2.4%)        24 (0.5%)        4 (0.08%)      904 (18.4%)     3463 (70.6%)    323 ( 6.6%)    4908 (100.0%)
##       Total                    1217 ( 3.4%)   1491 (4.2%)       170 (0.5%)       36 (0.10%)     5968 (16.8%)    23839 (67.0%)   2885 ( 8.1%)   35606 (100.0%)
## ----------- ---------------- -------------- ------------- ---------------- ---------------- ---------------- ---------------- -------------- ----------------

Interpretación: Se muestra cómo se distribuyen las ventas según el país y la forma de venta. Proporciona una perspectiva de cómo las formas de venta varían entre diferentes países.

Variables continuas

Para las variables continuas, como el monto total de ventas (VENTAS), la cantidad de productos vendidos (CANTIDAD) y la comisión generada por la venta (COMISIÓN), obtenemos estadísticas descriptivas como la media, la mediana, la desviación estándar, el mínimo y el máximo.

Para las variables continuas podemos usar la función descr(). Por ejemplo, para ver los principales estadísticos de la variable VENTAS:

descr(ventas2018$VENTAS)
## Descriptive Statistics  
## ventas2018$VENTAS  
## N: 35606  
## 
##                         VENTAS
## ----------------- ------------
##              Mean     60074.36
##           Std.Dev     57429.71
##               Min     10500.00
##                Q1     25450.00
##            Median     55000.00
##                Q3     68950.00
##               Max   1219500.00
##               MAD     32320.68
##               IQR     43500.00
##                CV         0.96
##          Skewness         3.46
##       SE.Skewness         0.01
##          Kurtosis        18.94
##           N.Valid     35606.00
##         Pct.Valid       100.00

Aplicar la función descr() a todo el dataset para buscar todas las variables continuas y resumirlas:

descr(ventas2018)
## Non-numerical variable(s) ignored: PAÍS, FORMA DE VENTA, FORMA DE PAGO, PRODUCTO, VENDEDOR, FECHA
## Descriptive Statistics  
## ventas2018  
## N: 35606  
## 
##                     CANTIDAD   COMISION       VENTAS
## ----------------- ---------- ---------- ------------
##              Mean       8.20    3002.04     60074.36
##           Std.Dev       3.52    2855.02     57429.71
##               Min       1.00     525.00     10500.00
##                Q1       6.00    1272.50     25450.00
##            Median       8.00    2750.00     55000.00
##                Q3      10.00    3447.50     68950.00
##               Max      23.00   26052.50   1219500.00
##               MAD       2.97    1616.03     32320.68
##               IQR       4.00    2174.38     43500.00
##                CV       0.43       0.95         0.96
##          Skewness       1.00       3.29         3.46
##       SE.Skewness       0.01       0.01         0.01
##          Kurtosis       3.79      14.68        18.94
##           N.Valid   35606.00   35606.00     35606.00
##         Pct.Valid     100.00     100.00       100.00

Interpretación: Se proporcionan estadísticas descriptivas para la variable continua “Ventas” y al resto de dataset. Esto incluye medidas de tendencia central (media, mediana), dispersión (rango, desviación estándar) y forma de la distribución (sesgo, curtosis).Estos estadísticos nos ayudan a comprender la distribución y la dispersión de nuestros datos. Por ejemplo, si la media de las ventas es alta, podemos inferir que en promedio se realizan ventas significativas.

Descriptiva según una variable categórica

Al realizar una descriptiva de las variables continuas según una variable categórica, como “PAÍS”, podemos comparar cómo varían las ventas, la cantidad de productos vendidos y la comisión generada entre diferentes países. Por ejemplo, si observamos diferencias significativas en la media de las ventas entre países, esto podría indicar que ciertos países tienen un mayor poder adquisitivo o una mayor demanda de nuestros productos.

Podemos tener una descriptiva de las variables continuas según una variable categórica, como PAÍS:

stby(ventas2018[, c("VENTAS", "CANTIDAD", "COMISION")], INDICES = ventas2018$PAÍS,
     FUN = descr, stats = "common", transpose = TRUE)
## Descriptive Statistics  
## ventas2018  
## Group: PAÍS = Colombia  
## N: 3509  
## 
##                      Mean    Std.Dev        Min     Median          Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ------------ --------- -----------
##       CANTIDAD       7.42       3.02       2.00       8.00        23.00   3509.00      100.00
##       COMISION    2291.71    1480.76     527.50    2270.00     15525.00   3509.00      100.00
##         VENTAS   46175.42   35629.35   10550.00   45400.00   1219500.00   3509.00      100.00
## 
## Group: PAÍS = Ecuador  
## N: 7235  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       9.52       4.29       2.00      10.00       23.00   7235.00      100.00
##       COMISION    4384.92    4469.93     525.00    2750.00    26052.50   7235.00      100.00
##         VENTAS   87698.32   89398.58   10500.00   55000.00   521050.00   7235.00      100.00
## 
## Group: PAÍS = Guatemala  
## N: 3704  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       7.97       3.08       2.00       8.00       23.00   3704.00      100.00
##       COMISION    2623.04    2290.21     527.50    2388.75    23202.50   3704.00      100.00
##         VENTAS   52460.75   45804.22   10550.00   47775.00   464050.00   3704.00      100.00
## 
## Group: PAÍS = Honduras  
## N: 3458  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       8.12       3.17       2.00       8.00       23.00   3458.00      100.00
##       COMISION    2749.55    2105.63     527.50    2750.00    24115.00   3458.00      100.00
##         VENTAS   54991.09   42112.59   10550.00   55000.00   482300.00   3458.00      100.00
## 
## Group: PAÍS = Mexico  
## N: 3156  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       7.81       3.11       2.00       8.00       23.00   3156.00      100.00
##       COMISION    2559.04    1808.37     527.50    2613.75    17637.50   3156.00      100.00
##         VENTAS   51180.89   36167.48   10550.00   52275.00   352750.00   3156.00      100.00
## 
## Group: PAÍS = Nicaragua  
## N: 3857  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       7.16       3.09       2.00       6.00       23.00   3857.00      100.00
##       COMISION    2298.77    1393.22     527.50    2272.50    13385.00   3857.00      100.00
##         VENTAS   45975.40   27864.46   10550.00   45450.00   267700.00   3857.00      100.00
## 
## Group: PAÍS = Panama  
## N: 5779  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       8.17       3.24       1.00       8.00       23.00   5779.00      100.00
##       COMISION    2823.30    2440.52     525.00    2587.50    25397.50   5779.00      100.00
##         VENTAS   56465.98   48810.42   10500.00   51750.00   507950.00   5779.00      100.00
## 
## Group: PAÍS = Peru  
## N: 4908  
## 
##                      Mean    Std.Dev        Min     Median         Max   N.Valid   Pct.Valid
## -------------- ---------- ---------- ---------- ---------- ----------- --------- -----------
##       CANTIDAD       8.17       3.44       2.00       8.00       23.00   4908.00      100.00
##       COMISION    2983.25    2551.83     527.50    2750.00    24067.50   4908.00      100.00
##         VENTAS   59665.06   51036.53   10550.00   55000.00   481350.00   4908.00      100.00

Interpretación: Se desglosan las estadísticas continuas (cantidad, comisión, ventas) por país. Esto ayuda a comprender cómo difieren las ventas y las comisiones entre los países.

Resumen completo del dataset

El resumen completo del dataset nos proporciona una visión general de todas las variables, tanto categóricas como continuas. Esto nos permite identificar rápidamente cualquier problema de datos, como valores atípicos o valores faltantes, y nos da una idea de la distribución y la dispersión de nuestras variables en general.

Podemos resumir toda nuestra base de datos (tanto variables continuas como categóricas) con la función dfSummary():

print(dfSummary(ventas2018, graph.magnif = 0.75), method = 'render')

Data Frame Summary

ventas2018

Dimensions: 35606 x 9
Duplicates: 0
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 PAÍS [character]
1. Colombia
2. Ecuador
3. Guatemala
4. Honduras
5. Mexico
6. Nicaragua
7. Panama
8. Peru
3509(9.9%)
7235(20.3%)
3704(10.4%)
3458(9.7%)
3156(8.9%)
3857(10.8%)
5779(16.2%)
4908(13.8%)
35606 (100.0%) 0 (0.0%)
2 FORMA DE VENTA [character]
1. E-mail
2. E-Mail
3. punto de venta
4. Punto de venta
5. Punto de Venta
6. Redes Sociales
7. Teléfono
1217(3.4%)
1491(4.2%)
170(0.5%)
36(0.1%)
5968(16.8%)
23839(67.0%)
2885(8.1%)
35606 (100.0%) 0 (0.0%)
3 FORMA DE PAGO [character]
1. Cheque
2. Efectivo
3. Tarjeta de Credito
4. Transferencia Electronica
7374(20.7%)
7219(20.3%)
6799(19.1%)
14214(39.9%)
35606 (100.0%) 0 (0.0%)
4 PRODUCTO [character]
1. Guantes de Arquero Nike
2. Kit de cocina TrailChef
3. Juego TrailChef Deluxe Co
4. Termo de Bicicleta
5. Mountain Man Extreme
6. Mochila Canyon Mula Weeke
7. Lámpara EverGlow
8. Set de Madera Lady Hailst
9. GPS glaciar
10. Arnés Extremo Husky
[ 28 others ]
3703(10.4%)
3201(9.0%)
3091(8.7%)
2834(8.0%)
2563(7.2%)
1962(5.5%)
1908(5.4%)
1894(5.3%)
1477(4.1%)
1327(3.7%)
11646(32.7%)
35606 (100.0%) 0 (0.0%)
5 VENDEDOR [character]
1. Armando Casas
2. Bernardo Cifuentes
3. Guillermo Benavides
4. Hernando Portilla
5. Lidia Bueno
6. Patricia Angarita
7. Viviana Cano
1635(4.6%)
3386(9.5%)
3119(8.8%)
5220(14.7%)
9444(26.5%)
5425(15.2%)
7377(20.7%)
35606 (100.0%) 0 (0.0%)
6 FECHA [POSIXct, POSIXt]
min : 2018-01-02
med : 2021-01-10 12:00:00
max : 2022-12-29
range : 4y 11m 27d
918 distinct values 35606 (100.0%) 0 (0.0%)
7 VENTAS [numeric]
Mean (sd) : 60074.4 (57429.7)
min ≤ med ≤ max:
10500 ≤ 55000 ≤ 1219500
IQR (CV) : 43500 (1)
4174 distinct values 35606 (100.0%) 0 (0.0%)
8 CANTIDAD [numeric]
Mean (sd) : 8.2 (3.5)
min ≤ med ≤ max:
1 ≤ 8 ≤ 23
IQR (CV) : 4 (0.4)
1:1(0.0%)
2:3436(9.7%)
6:10476(29.4%)
8:7173(20.1%)
10:9972(28.0%)
13:3931(11.0%)
23:617(1.7%)
35606 (100.0%) 0 (0.0%)
9 COMISION [numeric]
Mean (sd) : 3002 (2855)
min ≤ med ≤ max:
525 ≤ 2750 ≤ 26052.5
IQR (CV) : 2174.4 (1)
4173 distinct values 35606 (100.0%) 0 (0.0%)

Generated by summarytools 1.0.1 (R version 4.3.1)
2024-05-23

Interpretación: Se nos proporciona un resumen completo del dataset, incluyendo estadísticas y distribuciones para todas las variables, tanto categóricas como continuas. Esto ofrece una visión general amplia y detallada de los datos.

Paso 5: Modelo estadístico ligado al objetivo planteado

MODELO CORRELACIÓN

Para la apliación del modelo de correlación se debe llevar a cabo una limpieza de datos para luego hacer su exploración y finalmente la creaciòn del modelo

#Instalacion y carga de líbrerias necesarias
install.packages("tidyverse")
install.packages("ggplot2")

Carga de los datos

#Cargamos los datos en R.
library(tidyverse)
library(ggplot2)
library(readxl)
# Reemplaza "data.csv" con la ruta de tu archivo CSV
url <- "https://github.com/WinterMeza/TAREA_CIENCIASDATOS/raw/main/Ventas%202018.xlsx"

# Descargar el archivo temporalmente
temp_file <- tempfile(fileext = ".xlsx")
download.file(url, destfile = temp_file, mode = "wb")

# Leer el archivo Excel
data <- read_excel(temp_file)

Exploración inicial de los datos

#Revisamos la estructura y un resumen de los datos.
str(data)
## tibble [37,010 × 9] (S3: tbl_df/tbl/data.frame)
##  $ PAÍS          : chr [1:37010] "Nicaragua" "Panama" "Guatemala" "Nicaragua" ...
##  $ FORMA DE VENTA: chr [1:37010] "Redes Sociales" "Teléfono" "Redes Sociales" "Redes Sociales" ...
##  $ FORMA DE PAGO : chr [1:37010] "Cheque" "Cheque" "Cheque" "Cheque" ...
##  $ PRODUCTO      : chr [1:37010] "Casco de escalada de granito" "Casco de escalada de granito" "Guantes de Arquero Nike" "Guantes de Arquero Nike" ...
##  $ VENDEDOR      : chr [1:37010] "Viviana Cano" "Hernando Portilla" "Hernando Portilla" "Patricia Angarita" ...
##  $ FECHA         : POSIXct[1:37010], format: "2018-09-22" "2018-06-21" ...
##  $ VENTAS        : num [1:37010] 22000 21950 21950 21950 1219500 ...
##  $ CANTIDAD      : num [1:37010] 10 10 10 10 10 8 8 10 10 8 ...
##  $ COMISION      : num [1:37010] 1100 1098 1098 1098 1098 ...
summary(data)
##      PAÍS           FORMA DE VENTA     FORMA DE PAGO        PRODUCTO        
##  Length:37010       Length:37010       Length:37010       Length:37010      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    VENDEDOR             FECHA                            VENTAS       
##  Length:37010       Min.   :2018-01-02 00:00:00.00   Min.   :  10500  
##  Class :character   1st Qu.:2019-07-06 00:00:00.00   1st Qu.:  26350  
##  Mode  :character   Median :2020-12-20 00:00:00.00   Median :  55000  
##                     Mean   :2020-08-30 14:03:22.71   Mean   :  60373  
##                     3rd Qu.:2021-12-02 00:00:00.00   3rd Qu.:  71000  
##                     Max.   :2022-12-29 00:00:00.00   Max.   :1219500  
##     CANTIDAD         COMISION    
##  Min.   : 1.000   Min.   :  525  
##  1st Qu.: 6.000   1st Qu.: 1318  
##  Median : 8.000   Median : 2750  
##  Mean   : 8.135   Mean   : 3017  
##  3rd Qu.:10.000   3rd Qu.: 3550  
##  Max.   :23.000   Max.   :26053

Limpieza de los datos

Verificamos si hay valores nulos y decidimos cómo manejarlos. También nos aseguramos de que los tipos de datos sean correctos.

# Revisa si hay valores nulos
sum(is.na(data))
## [1] 0
# Convierte la columna 'FECHA' a formato Date
data$FECHA <- as.Date(data$FECHA, format="%Y-%m-%d")

# Verifica la conversión
str(data)
## tibble [37,010 × 9] (S3: tbl_df/tbl/data.frame)
##  $ PAÍS          : chr [1:37010] "Nicaragua" "Panama" "Guatemala" "Nicaragua" ...
##  $ FORMA DE VENTA: chr [1:37010] "Redes Sociales" "Teléfono" "Redes Sociales" "Redes Sociales" ...
##  $ FORMA DE PAGO : chr [1:37010] "Cheque" "Cheque" "Cheque" "Cheque" ...
##  $ PRODUCTO      : chr [1:37010] "Casco de escalada de granito" "Casco de escalada de granito" "Guantes de Arquero Nike" "Guantes de Arquero Nike" ...
##  $ VENDEDOR      : chr [1:37010] "Viviana Cano" "Hernando Portilla" "Hernando Portilla" "Patricia Angarita" ...
##  $ FECHA         : Date[1:37010], format: "2018-09-22" "2018-06-21" ...
##  $ VENTAS        : num [1:37010] 22000 21950 21950 21950 1219500 ...
##  $ CANTIDAD      : num [1:37010] 10 10 10 10 10 8 8 10 10 8 ...
##  $ COMISION      : num [1:37010] 1100 1098 1098 1098 1098 ...

Selección de variables relevantes

Para un modelo de correlación lineal, seleccionamos las variables numéricas que nos llaman la atención. Por ejemplo, para este caso vamos a analizar la relación entre VENTAS y COMISION.

# Selección de variables relevantes
datos_relevantes <- data %>% select(VENTAS, COMISION)

Análisis de correlación

Calculamos la correlación entre las variables seleccionadas.

correlacion <- cor(datos_relevantes$VENTAS, datos_relevantes$COMISION)
print(correlacion)
## [1] 0.9939491

Interpretación: La correlación obtenida es de 0.9939491, lo que indica una relación muy fuerte y positiva entre las ventas y la comisión.

Visualización de los datos

Creamos un gráfico de dispersión para visualizar la relación entre VENTAS y COMISION.

ggplot(datos_relevantes, aes(x=VENTAS, y=COMISION)) +
  geom_point() +
  geom_smooth(method="lm", col="red") +
  labs(title="Correlación entre Ventas y Comisión",
       x="Ventas",
       y="Comisión")

Interpretación: El gráfico muestra cómo las comisiones se relacionan con las ventas, incluyendo una línea de regresión lineal en rojo que resume esta relación.

Creación del modelo de regresión lineal

Ajustamos un modelo de regresión lineal para cuantificar la relación entre VENTAS y COMISION.

modelo <- lm(COMISION ~ VENTAS, data=datos_relevantes)
summary(modelo)
## 
## Call:
## lm(formula = COMISION ~ VENTAS, data = datos_relevantes)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59199    -18     -2      8    271 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.364e+01  2.351e+00   14.31   <2e-16 ***
## VENTAS      4.942e-02  2.839e-05 1740.78   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 309.5 on 37008 degrees of freedom
## Multiple R-squared:  0.9879, Adjusted R-squared:  0.9879 
## F-statistic: 3.03e+06 on 1 and 37008 DF,  p-value: < 2.2e-16

Interpretación del modelo

Revisamos el resumen del modelo para interpretar los coeficientes y el R-cuadrado.

summary(modelo)
## 
## Call:
## lm(formula = COMISION ~ VENTAS, data = datos_relevantes)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59199    -18     -2      8    271 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.364e+01  2.351e+00   14.31   <2e-16 ***
## VENTAS      4.942e-02  2.839e-05 1740.78   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 309.5 on 37008 degrees of freedom
## Multiple R-squared:  0.9879, Adjusted R-squared:  0.9879 
## F-statistic: 3.03e+06 on 1 and 37008 DF,  p-value: < 2.2e-16

Interpretación:

  • Intercepto: 33.64 (con un valor p < 2e-16) indica que cuando las ventas son cero, la comisión promedio es aproximadamente 33.64 unidades.

  • Coeficiente de VENTAS: 0.04942 (con un valor p < 2e-16) sugiere que por cada unidad adicional de venta, la comisión aumenta en promedio 0.04942 unidades.

  • R-cuadrado: 0.9879, lo que significa que el 98.79% de la variabilidad en COMISION puede explicarse por VENTAS.

Predicción

Para este ejemplo podemos agregar una predicción con los resultados obtenidos

# Datos de ejemplo para predicción
nuevos_datos <- data.frame(VENTAS = c(50000, 100000, 150000))

# Predicción
predicciones <- predict(modelo, nuevos_datos)
print(predicciones)
##        1        2        3 
## 2504.439 4975.243 7446.046

Interpretación: Las predicciones para ventas de 50000, 100000 y 150000 son 2504.439, 4975.243 y 7446.046 unidades de comisión, respectivamente.

# Ajustar el modelo de regresión lineal
modelo <- lm(COMISION ~ VENTAS, data=datos_relevantes)

# Hacer predicciones usando el modelo
datos_relevantes$PREDICCION <- predict(modelo, datos_relevantes)

# Creación de  la gráfica de comparación
ggplot(datos_relevantes, aes(x=VENTAS)) +
  geom_point(aes(y=COMISION), color="blue", alpha=3) + # Valores observados
  geom_line(aes(y=PREDICCION), color="red", size=1) + # Valores predichos
  labs(title="Comparación de Ventas vs Comisión: Observado vs Predicción",
       x="Ventas",
       y="Comisión") +
  theme_minimal()

Interpretación: La gráfica muestra las comisiones observadas en azul y las comisiones predichas en rojo. La cercanía de las líneas rojas a los puntos azules indica que el modelo de regresión lineal ajusta bien los datos.

Modelo de Regresión con una Variable Categórica

La construcción del modelo de regresión con una variable categórica nos permitirá entender cómo influyen diferentes categorías en una variable de interés, como las cantidades vendidas. Esto es crucial para identificar qué estrategias o como distintas formas de venta, tienen mayor impacto en los resultados comerciales. Utilizando esta metodología, podemos tomar decisiones informadas y dirigir recursos hacia las categorías que generan mayores ganancias.

Iniciaremos por instalar las librerias necesarias

##INSTALACIÓN Y CArGA DE LIBRERIAS
install.packages("dplyr")
install.packages("ggplot2")
install.packages("corrplot")
library(dplyr)
library(ggplot2)
library(corrplot)

Este caso, el modelo a construir será para dar respuesta de qué FORMA DE VENTA es la más concurrida en Colombia, uno de los países con menor registro de VENTAS, según lo observado en el apartado de estadística descriptiva, el objetivo es conocer qué medio de venta será la opción más rentable para invertir en marketing y que este país tengo porcentajes de venta tan grandes como Ecuador.

##Se realiza el filtro de datos de interés, en este caso, las ventas de Colombia
datos_ec <- datos_limpio %>% 
        filter(PAÍS == "Colombia")

# Convertir la columna FECHA a formato Date
datos_ec$FECHA <- as.Date(datos_ec$FECHA)

# Agregar una columna de año para agregar el conteo por período
datos_ec <- datos_ec %>%
  mutate(Anio = format(FECHA, "%Y"))

#Se convierte el tipo de dato Date del campo Anio a Int para trabajar con el año en entero 
datos_ec$Anio <- as.integer(datos_ec$Anio)
datos_ec
## # A tibble: 3,459 × 10
##    PAÍS     `FORMA DE VENTA` `FORMA DE PAGO` PRODUCTO VENDEDOR FECHA      VENTAS
##    <chr>    <chr>            <chr>           <chr>    <chr>    <date>      <dbl>
##  1 Colombia Redes Sociales   Cheque          Kit de … Patrici… 2018-04-05  21950
##  2 Colombia Redes Sociales   Cheque          Casco d… Guiller… 2018-09-20  21900
##  3 Colombia Redes Sociales   Cheque          Guantes… Bernard… 2018-04-29  21900
##  4 Colombia Redes Sociales   Cheque          Guantes… Lidia B… 2018-05-25  21700
##  5 Colombia Redes Sociales   Cheque          Kit de … Bernard… 2018-06-03  21700
##  6 Colombia Redes Sociales   Cheque          Guantes… Lidia B… 2018-09-16  21600
##  7 Colombia E-Mail           Cheque          Casco d… Lidia B… 2018-05-07  21400
##  8 Colombia Redes Sociales   Cheque          Guantes… Viviana… 2018-04-12  21350
##  9 Colombia Redes Sociales   Cheque          Kit de … Hernand… 2018-03-14  21350
## 10 Colombia Redes Sociales   Cheque          Guantes… Viviana… 2018-05-02  21200
## # ℹ 3,449 more rows
## # ℹ 3 more variables: CANTIDAD <dbl>, COMISION <dbl>, Anio <int>
##Convertir los registros del campo 'FORMA DE VENTA' en caracteres en minúsculas para unificar datos
datos_ec <- datos_ec %>%
  mutate(`FORMA DE VENTA` = tolower(`FORMA DE VENTA`))

##Se realiza el filtro de datos de interés, en este caso, las ventas de Colombia del año 2022
datos_2022 <- datos_ec %>% filter(datos_ec$Anio == 2022)

Ya con los datos filtrados y en el formato necesario, procedemos a buscar respuestas para nuestra pregunta ¿Cuál ha sido el método con mayor TENDENCIA para VENDER en COLOMBIA en el año 2022? considerando que sabemos que existe una categria de FORMA DE VENTA en nuestro dataframe

#
ggplot(data = datos_2022) +
        geom_point(aes(x = `FORMA DE VENTA` , y = CANTIDAD, color = `FORMA DE VENTA`)) +
        labs(title = "Métodos de Venta en Colombia en el año 2022",
             y = "Cantidad de productos vendidos por pedido")

Interpretación: En la gráfica podemos observar que en Colombia las formas de hacer efectiva una venta son por medio de E-Mail, Puntos de Venta físico y Redes Sociales, siendo esta última el método con mayor tendencia en el año 2022. En la gráfica de dispersión se visualiza como variable dependiente las cantidades totales que se han vendido por cada uno de los medios mencionados;estos han sido agrupados por la variable categorica “FORMA DE VENTAS”, siendo las REDES SOCIALES la categoria con mayor agrupamiento por producto y Año.

Antes de construir el modelo, se relizará la conversión del campo “Forma de ventas” a tipo FACTOR

#convertir en FACTOR los campos
datos_2022$`FORMA DE VENTA` <- as.factor(datos_2022$`FORMA DE VENTA`)

Lo siguiente será construir el modelo de regresión con una variable categórica para PREDECIR la cantidad de venta que se puede aumentar por cada una de las FORMAS DE VENTA de mayor uso en COLOMBIA de acuerdo con los datos historicos en el año 2022.

#Creación de modelo, 'CANTIDAD' es la variable dependiente y 'FORMA DE VENTA' la variable independiente
modelo_exp_FVenta <- lm(CANTIDAD ~ `FORMA DE VENTA`, data = datos_2022)
modelo_exp_FVenta
## 
## Call:
## lm(formula = CANTIDAD ~ `FORMA DE VENTA`, data = datos_2022)
## 
## Coefficients:
##                    (Intercept)  `FORMA DE VENTA`punto de venta  
##                        7.35616                        -0.02283  
## `FORMA DE VENTA`redes sociales  
##                        0.05321

Interpretación: Como podemos observar, el coefiiente en la FORMA DE VENTA que se toma como referencia es el uso de E-Mail, el modelo muestra un intercepto de 7.35616, lo que significa que se espera que la cantidad sea 7.35616 cuando todas las demás variables se mantienen constantes.Por otro lado, cuando la forma sea “Punto de Venta” se estima exista una disminución de venta al contrario de la forma “Redes Sociales” que muestra un valor positivo asegurando que en comparación de E-mail y Punto de Venta, este método tendría una mayor cantidad de productos vendidos.

De acuerdo con el párrafo anterior, podemos concluir que se ha encontrado respuesta para la pregunta Cuál FORMA DE VENTA resulta ser conveniente para la inversión de marketing que permita aumentar las ventas en Colombia.

Conclusiones

Una vez terminado el presente Trabajo autónomo sobre el Desarrollo de análisis y modelo estadístico ’con nuestra dataset Ventas 2018.xlsx, concluimos que:

  • Exploración de Datos: La exploración inicial nos proporciona una comprensión general de la estructura y características de los datos, mientras que la limpieza asegura la calidad y la integridad de los mismos, eliminando errores y valores atípicos. Por otro lado, la segmentación nos permite dividir el conjunto de datos en subgrupos más manejables, lo que facilita análisis más detallados y específicos en cada segmento. Estas etapas trabajan en conjunto para garantizar que los datos estén listos para análisis posteriores.

  • Estadística descriptiva: mediante el análisis descriptivo de nuestro dataset de ventas de 2018, podemos obtener información valiosa sobre la distribución de nuestras ventas, las características de nuestros clientes y la efectividad de nuestras estrategias de venta en diferentes países. Esto nos permite identificar áreas de mejora y tomar decisiones informadas para impulsar el éxito de nuestro negocio.

  • El análisis de correlación y el modelo de regresión lineal ajustado entre VENTAS y COMISION proporcionan una visión clara y cuantitativa de la relación entre estas dos variables. Los resultados muestran una correlación extremadamente fuerte y positiva, lo que sugiere que a medida que aumentan las ventas, las comisiones también lo hacen de manera casi proporcional. El modelo de regresión lineal construido es altamente predictivo, con un R-cuadrado ajustado de 0.9879, lo que indica que casi el 99% de la variabilidad en las comisiones puede explicarse por las ventas.

  • Regresión con una variable categórica: Al usar regresión con una variable categórica como la forma de venta, podemos identificar el impacto específico de cada categoría en las ventas. En este caso, la forma de venta a través de redes sociales parece ser la que más influye en las ventas, lo que sugiere que invertir en estrategias de marketing en redes sociales podría aumentar significativamente las ventas.

Interpretación

  • Exploración de Datos: Se observa una variación en el volumen de ventas por año, siendo 2021 el año con la mayor cantidad de registros y 2020 con la menor. Además, se destacan diferencias en la distribución de las ventas entre años, con una mediana de ventas más alta en 2020 en comparación con 2018. Las comisiones generadas también varían entre años, lo que puede reflejar diferencias en las políticas de comisiones o en el desempeño de los vendedores.

  • Estadística descriptiva: el análisis descriptivo de las ventas de 2018 revela que Ecuador y Panamá son los mercados más grandes, con las redes sociales siendo el principal canal de venta y la transferencia electrónica el método de pago más común. Productos como “Guantes de Arquero Nike” y “Kit de cocina TrailChef” son especialmente populares, mientras que “Lidia Bueno” y “Viviana Cano” destacan entre los vendedores. Las estadísticas muestran variabilidad en las ventas y diferencias significativas entre países, ofreciendo una visión detallada para optimizar estrategias de mercado y ventas.

  • El análisis de correlación: muestra una correlación casi perfecta (0.9939491) entre ventas y comisiones, indicando una relación directa y fuerte. El modelo de regresión lineal sugiere que cada unidad de ventas adicional incrementa la comisión en 0.04942 unidades, con una comisión base de 33.64 unidades. Con un R-cuadrado ajustado de 0.9879, el modelo es altamente predictivo. Las gráficas confirman la precisión del modelo y las predicciones para diferentes niveles de ventas son coherentes. En resumen, el modelo es eficaz para predecir comisiones, apoyando la planificación financiera y decisiones estratégicas en la empresa.

  • Regresión con una variable categórica: Los coeficientes estimados en la regresión nos permiten cuantificar el cambio esperado en las ventas para cada forma de venta en comparación con un punto de referencia (por ejemplo, ventas en una tienda física). En este caso, un coeficiente positivo para la forma de venta en redes sociales indica que esta estrategia está asociada con un aumento en las ventas en comparación con otras formas de venta, mientras que los coeficientes no significativos para otras formas de venta sugieren que su impacto en las ventas puede ser limitado.