Ejercicio 6

Author

Victoria Medina

# Librerías
library(tidyverse)

── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.2.1     ✔ readr     2.2.0
✔ forcats   1.0.1     ✔ stringr   1.6.0
✔ ggplot2   4.0.3     ✔ tibble    3.3.1
✔ lubridate 1.9.5     ✔ tidyr     1.3.2
✔ purrr     1.2.2     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(janitor)


Attaching package: 'janitor'

The following objects are masked from 'package:stats':

    chisq.test, fisher.test

library(stringr)
library(tidyr)

# Dataset
ventas_crudas <- tibble(
  id_venta    = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 3),
  vendedor    = c("ana", "PEDRO", "María ", NA, "carmen", "ana", "PEDRO", "luis", "carmen", "luis", "María "),
  region      = c("norte", "SUR", "Norte", "sur", "NORTE", "norte", "sur", "Norte", "sur", "norte", "Norte"),
  monto       = c(15000, 22000, 18500, NA, 31000, 16000, 19500, 9500000, 21000, 17500, 18500),
  mes         = c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 1),
  completada  = c("SI", "SI", "NO", "SI", NA, "SI", "NO", "SI", "SI", "NO", "NO")
)

glimpse(ventas_crudas)

Rows: 11
Columns: 6
$ id_venta   <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 3
$ vendedor   <chr> "ana", "PEDRO", "María ", NA, "carmen", "ana", "PEDRO", "lu…
$ region     <chr> "norte", "SUR", "Norte", "sur", "NORTE", "norte", "sur", "N…
$ monto      <dbl> 15000, 22000, 18500, NA, 31000, 16000, 19500, 9500000, 2100…
$ mes        <dbl> 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 1
$ completada <chr> "SI", "SI", "NO", "SI", NA, "SI", "NO", "SI", "SI", "NO", "…

summary(ventas_crudas)

    id_venta           vendedor        region       monto              mes   
 Min.   : 1.000   Length   :11   Length   :11   Min.   :  15000   Min.   :1  
 1st Qu.: 3.000   N.unique : 5   N.unique : 5   1st Qu.:  17750   1st Qu.:1  
 Median : 5.000   N.blank  : 0   N.blank  : 0   Median :  19000   Median :2  
 Mean   : 5.273   Min.nchar: 3   Min.nchar: 3   Mean   : 967900   Mean   :2  
 3rd Qu.: 7.500   Max.nchar: 6   Max.nchar: 5   3rd Qu.:  21750   3rd Qu.:3  
 Max.   :10.000   NAs      : 1                  Max.   :9500000   Max.   :3  
                                                NAs    :1                    
     completada
 Length   :11  
 N.unique : 2  
 N.blank  : 0  
 Min.nchar: 2  
 Max.nchar: 2  
 NAs      : 1

colSums(is.na(ventas_crudas))

  id_venta   vendedor     region      monto        mes completada 
         0          1          0          1          0          1

Duplicados: Se detecta 1 duplicado en la variable id_venta (el valor 3 aparece dos veces)

Valores faltantes (NAs por columna): vendedor: 1 NA monto: 1 NA completada: 1 NA

Outliers: Se identifica 1 outlier extremo en la variable monto (9,500,000) Este valor es muy superior al resto de observaciones y distorsiona la media.

Limpieza

ventas_limpias <- ventas_crudas %>%
  distinct(id_venta, .keep_all = TRUE)

ventas_limpias <- ventas_limpias %>%
  mutate(
    vendedor = str_trim(vendedor),
    vendedor = str_to_title(vendedor),

    region = str_trim(region),
    region = str_to_lower(region)
  )

ventas_limpias <- ventas_limpias %>%
  mutate(
    vendedor = replace_na(vendedor, "Desconocido")
  )

ventas_limpias <- ventas_limpias %>%
  group_by(mes) %>%
  mutate(
    monto = if_else(
      is.na(monto),
      median(monto, na.rm = TRUE),
      monto
    )
  ) %>%
  ungroup()

ventas_limpias <- ventas_limpias %>%
  mutate(
    completada = replace_na(completada, "NO"),
    completada = factor(completada)
  )

Q1 <- quantile(ventas_limpias$monto, 0.25)
Q3 <- quantile(ventas_limpias$monto, 0.75)

IQR_val <- IQR(ventas_limpias$monto)

lim_inf <- Q1 - 1.5 * IQR_val
lim_sup <- Q3 + 1.5 * IQR_val

ventas_limpias <- ventas_limpias %>%
  mutate(
    es_outlier = monto < lim_inf | monto > lim_sup
  )

ventas_limpias %>%
  filter(es_outlier)

# A tibble: 1 × 7
  id_venta vendedor region   monto   mes completada es_outlier
     <dbl> <chr>    <chr>    <dbl> <dbl> <fct>      <lgl>     
1        8 Luis     norte  9500000     3 SI         TRUE

Transformación

Comisión

ventas_limpias <- ventas_limpias %>%
  mutate(
    comision = if_else(
      completada == "SI",
      monto * 0.05,
      0
    )
  )

Categoría de venta

ventas_limpias <- ventas_limpias %>%
  mutate(
    categoria_venta = case_when(
      monto < 15000 ~ "Baja",
      monto <= 25000 ~ "Media",
      TRUE ~ "Alta"
    )
  )

Ranking por región

ventas_limpias <- ventas_limpias %>%
  group_by(region) %>%
  mutate(
    ranking_region = rank(desc(monto))
  ) %>%
  ungroup()

ventas_limpias

# A tibble: 10 × 10
   id_venta vendedor    region   monto   mes completada es_outlier comision
      <dbl> <chr>       <chr>    <dbl> <dbl> <fct>      <lgl>         <dbl>
 1        1 Ana         norte    15000     1 SI         FALSE           750
 2        2 Pedro       sur      22000     1 SI         FALSE          1100
 3        3 María       norte    18500     1 NO         FALSE             0
 4        4 Desconocido sur      23500     2 SI         FALSE          1175
 5        5 Carmen      norte    31000     2 NO         FALSE             0
 6        6 Ana         norte    16000     2 SI         FALSE           800
 7        7 Pedro       sur      19500     3 NO         FALSE             0
 8        8 Luis        norte  9500000     3 SI         TRUE         475000
 9        9 Carmen      sur      21000     3 SI         FALSE          1050
10       10 Luis        norte    17500     3 NO         FALSE             0
# ℹ 2 more variables: categoria_venta <chr>, ranking_region <dbl>

resumen_vendedor <- ventas_limpias %>%
  group_by(vendedor) %>%
  summarise(
    ventas_completadas = sum(completada == "SI"),
    monto_total = sum(monto),
    monto_promedio = mean(monto),
    comision_total = sum(comision)
  ) %>%
  arrange(desc(monto_total))

El análisis muestra diferencias claras en el desempeño de los vendedores en términos de ventas, montos y comisiones.

Luis lidera ampliamente en monto total y promedio, pero este resultado está distorsionado por un valor atípico muy alto (9.5 millones), lo que afecta su posición real.

Pedro y Carmen presentan un desempeño más estable y consistente, con buenos niveles de ventas y comisiones.

Ana y María muestran montos y comisiones más bajos, pero con comportamiento más homogéneo.

En general, las ventas completadas están distribuidas de forma relativamente equilibrada, aunque la eficiencia varía entre vendedores.

Conclusión: el outlier influye significativamente en los resultados, por lo que se recomienda analizar el rendimiento sin valores extremos para una evaluación más justa.

# versión alternativa sin outlier (opcional análisis)
ventas_limpias %>% filter(!es_outlier)

# A tibble: 9 × 10
  id_venta vendedor    region monto   mes completada es_outlier comision
     <dbl> <chr>       <chr>  <dbl> <dbl> <fct>      <lgl>         <dbl>
1        1 Ana         norte  15000     1 SI         FALSE           750
2        2 Pedro       sur    22000     1 SI         FALSE          1100
3        3 María       norte  18500     1 NO         FALSE             0
4        4 Desconocido sur    23500     2 SI         FALSE          1175
5        5 Carmen      norte  31000     2 NO         FALSE             0
6        6 Ana         norte  16000     2 SI         FALSE           800
7        7 Pedro       sur    19500     3 NO         FALSE             0
8        9 Carmen      sur    21000     3 SI         FALSE          1050
9       10 Luis        norte  17500     3 NO         FALSE             0
# ℹ 2 more variables: categoria_venta <chr>, ranking_region <dbl>