Code
library(tidyverse) #Para cargar el tibble 🎯 Objetivo: Limpiar completamente un dataset con problemas reales y construir un resumen analítico usando dplyr.
library(tidyverse) #Para cargar el tibble ventas_crudas <- tibble(
id_venta = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 3),
vendedor = c("ana", "PEDRO", "María ", NA, "carmen", "ana", "PEDRO", "luis", "carmen", "luis", "María "),
region = c("norte", "SUR", "Norte", "sur", "NORTE", "norte", "sur", "Norte", "sur", "norte", "Norte"),
monto = c(15000, 22000, 18500, NA, 31000, 16000, 19500, 9500000, 21000, 17500, 18500),
mes = c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 1),
completada = c("SI", "SI", "NO", "SI", NA, "SI", "NO", "SI", "SI", "NO", "NO")
)glimpse(ventas_crudas)Rows: 11
Columns: 6
$ id_venta <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 3
$ vendedor <chr> "ana", "PEDRO", "María ", NA, "carmen", "ana", "PEDRO", "lu…
$ region <chr> "norte", "SUR", "Norte", "sur", "NORTE", "norte", "sur", "N…
$ monto <dbl> 15000, 22000, 18500, NA, 31000, 16000, 19500, 9500000, 2100…
$ mes <dbl> 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 1
$ completada <chr> "SI", "SI", "NO", "SI", NA, "SI", "NO", "SI", "SI", "NO", "…
summary(ventas_crudas) id_venta vendedor region monto mes
Min. : 1.000 Length :11 Length :11 Min. : 15000 Min. :1
1st Qu.: 3.000 N.unique : 5 N.unique : 5 1st Qu.: 17750 1st Qu.:1
Median : 5.000 N.blank : 0 N.blank : 0 Median : 19000 Median :2
Mean : 5.273 Min.nchar: 3 Min.nchar: 3 Mean : 967900 Mean :2
3rd Qu.: 7.500 Max.nchar: 6 Max.nchar: 5 3rd Qu.: 21750 3rd Qu.:3
Max. :10.000 NAs : 1 Max. :9500000 Max. :3
NAs :1
completada
Length :11
N.unique : 2
N.blank : 0
Min.nchar: 2
Max.nchar: 2
NAs : 1
colSums(is.na(ventas_crudas)) id_venta vendedor region monto mes completada
0 1 0 1 0 1
# Para saber donde hay NA¿Cuántos duplicados hay? - Hay un duplicado en id_venta, el 3 esta 2 veces. Ademas, se repite a lo largo de las columnas.
¿Cuántos NAs por columna? - Las columnas “vendedor”, “monto” y “completada” tienen 1 NA.
¿Hay outliers? Si, en la columna “monto” el valor “9500000” esta fuera del rango de los demas valores.