Datos créditos agropecuarios 2020

library(tidyverse)
creditos <- read_csv(file = "Colocaciones_de_cr_dito_Sector_Agropecuario_2020.csv")
head(creditos)

Depuración de datos

    1. Editar (limpiar) los nombres de las variables
    1. Seleccionar las variables de interés
    1. Editar los nombres. Esta edición de nombres la vamos a realizar en el mismo paso 2 a través de la función select(). Similar a la función rename() select() permite editar los nombres, a la izquierda del igual (=) estará el nuevo nombre y a la derecha el nombre a editar.
    1. Conversión en variables de tipo character de mayúsculas a minúsculas con la primera letra en mayúscula.
    1. Conversión de variable “mes” a factor. Editamos las etiquetas para que queden con los nombres de los meses en lugar de números.
    1. Conversión de la variable “postconflicto” a factor, editando las etiquetas (labels) del “N” y “S” por “No” y “Si”, respectivamente.
    1. Conversión de la variable “departamento” a factor. Añadiendo tilde a las etiquetas.
    1. Conversión de la variable “línea de producción” a factor. Unificamos las etiquetas.
    1. Conversión de la variable “género” a factor. Unificamos las etiquetas.
    1. Filtrar colocaciones de crédito con montos entre 600000 y 10 mil millones de pesos. Se eliminan de la base de datos inicial 3980 créditos.

Colocación de crédito

  • ¿Cuál es el rango en el rubro de colocación de créditos?
range(creditos$Colocacion)
## [1] 9e+00 2e+11
  • ¿Cómo son los cuartiles del rubro de colocación de créditos?
quantile(creditos$Colocacion)
##           0%          25%          50%          75%         100% 
##            9      3000000      6764947     12970000 200000000000
  • ¿Cómo son los deciles del rubro de colocación de créditos?
quantile(creditos$Colocacion, probs = seq(0, 1, 0.1))
##           0%          10%          20%          30%          40%          50% 
##            9      1745112      2700000      3569776      5000000      6764947 
##          60%          70%          80%          90%         100% 
##      9000000     11000000     15000000     27000000 200000000000
  • ¿Cómo son los percentiles del rubro de colocación de créditos?
quantile(creditos$Colocacion, probs = seq(0, 1, 0.01))
##           0%           1%           2%           3%           4%           5% 
## 9.000000e+00 6.000000e+05 7.996057e+05 1.000000e+06 1.054000e+06 1.106062e+06 
##           6%           7%           8%           9%          10%          11% 
## 1.237195e+06 1.400000e+06 1.500000e+06 1.600000e+06 1.745112e+06 1.900000e+06 
##          12%          13%          14%          15%          16%          17% 
## 2.000000e+06 2.000000e+06 2.094911e+06 2.187500e+06 2.252055e+06 2.400000e+06 
##          18%          19%          20%          21%          22%          23% 
## 2.500000e+06 2.550000e+06 2.700000e+06 2.800000e+06 2.980237e+06 3.000000e+06 
##          24%          25%          26%          27%          28%          29% 
## 3.000000e+06 3.000000e+06 3.130106e+06 3.200000e+06 3.340000e+06 3.500000e+06 
##          30%          31%          32%          33%          34%          35% 
## 3.569776e+06 3.750000e+06 4.000000e+06 4.000000e+06 4.000000e+06 4.206569e+06 
##          36%          37%          38%          39%          40%          41% 
## 4.500000e+06 4.747195e+06 5.000000e+06 5.000000e+06 5.000000e+06 5.000000e+06 
##          42%          43%          44%          45%          46%          47% 
## 5.191273e+06 5.500000e+06 5.750000e+06 6.000000e+06 6.000000e+06 6.000000e+06 
##          48%          49%          50%          51%          52%          53% 
## 6.000000e+06 6.407854e+06 6.764947e+06 7.000000e+06 7.000000e+06 7.291073e+06 
##          54%          55%          56%          57%          58%          59% 
## 7.688012e+06 8.000000e+06 8.000000e+06 8.000000e+06 8.294869e+06 8.700000e+06 
##          60%          61%          62%          63%          64%          65% 
## 9.000000e+06 9.570063e+06 1.000000e+07 1.000000e+07 1.000000e+07 1.000000e+07 
##          66%          67%          68%          69%          70%          71% 
## 1.000000e+07 1.000000e+07 1.000000e+07 1.050000e+07 1.100000e+07 1.199904e+07 
##          72%          73%          74%          75%          76%          77% 
## 1.200000e+07 1.200000e+07 1.200000e+07 1.297000e+07 1.374771e+07 1.423947e+07 
##          78%          79%          80%          81%          82%          83% 
## 1.500000e+07 1.500000e+07 1.500000e+07 1.500000e+07 1.600000e+07 1.700000e+07 
##          84%          85%          86%          87%          88%          89% 
## 1.800000e+07 2.000000e+07 2.000000e+07 2.000000e+07 2.142000e+07 2.500000e+07 
##          90%          91%          92%          93%          94%          95% 
## 2.700000e+07 3.000000e+07 3.500000e+07 4.000000e+07 5.000000e+07 6.500000e+07 
##          96%          97%          98%          99%         100% 
## 9.278933e+07 1.266968e+08 2.042265e+08 5.000000e+08 2.000000e+11
  • ¿Cuáles y cuántos son los créditos que superan los 500 millones de pesos (99% de la información)?
creditos %>% 
  filter(Colocacion > 500000000)
  • ¿Cuáles y cuántos son los créditos que superan los 5 mil millones de pesos?
creditos %>% 
  filter(Colocacion > 5000000000)
  • ¿Cuáles y cuántos son los créditos que superan los 100 mil millones de pesos?
creditos %>% 
  filter(Colocacion > 100000000000)
  • ¿Cuáles y cuántos son los créditos que superan los 10 mil millones de pesos?
creditos %>% 
  filter(Colocacion > 10000000000)

Data final

library(janitor)
library(Hmisc)
creditos2 <- creditos %>% 
  clean_names() %>% 
  select(mes,
         fuente = fuente_colocacion,
         productor = tipo_productor,
         colocacion,
         postconf = municipio_de_post_conflico,
         depto = departamento_de_colocacion_de_credito,
         municipio = municipio_colocacion_de_credito, 
         plazo,
         linea_credito = linea_de_credito,
         linea_prod = linea_de_produccion,
         destino = destino_de_credito,
         genero) %>% 
  mutate(fuente = capitalize(tolower(fuente)),
         productor = capitalize(tolower(productor)),
         depto = capitalize(tolower(depto)),
         municipio = capitalize(tolower(municipio)),
         linea_prod = capitalize(tolower(linea_prod)),
         destino = capitalize(tolower(destino)),
         genero = capitalize(tolower(genero)),
         mes = factor(mes,
                      labels = c("Enero", "Febrero", "Marzo", "Abril",
                                 "Mayo", "Junio", "Julio", "Agosto",
                                 "Septiembre")),
         postconf = factor(postconf,
                           labels = c("No", "Si")),
         depto = factor(depto,
                        labels = c("Amazonas", "Antioquia", "Arauca", "Atlántico",
                                   "Bogotá D.C.", "Bolívar", "Boyacá", "Caldas",
                                   "Caquetá", "Casanare", "Cauca", "Cesar",
                                   "Chocó", "Córdoba", "Cundinamarca", "Guainía",
                                   "La Guajira", "Guaviare", "Huila", "Magdalena",
                                   "Meta", "Nariño", "Norte de Santander",
                                   "Putumayo", "Quindío", "Risaralda",
                                   "San Andrés y Providencia", "Santander",
                                   "Sucre", "Tolima", "Valle del Cauca",
                                   "Vaupés", "Vichada")),
         linea_prod = factor(linea_prod,
                             labels = c("Actividades rurales", "Actividades rurales",
                                        "Comercialización", "Comercialización",
                                        "Compra de animales", "Consolidación de pasivos",
                                        "Infraestructura y tierras", "Maquinaria y equipo",
                                        "Microcrédito", "Otras actividades", "Producción",
                                        "Servicios de apoyo", "Servicios de apoyo",
                                        "Servicios de apoyo", "Siembras", "Sostenimiento")),
         genero = factor(genero,
                         labels = c("Hombre", "Hombre", "Mujer", "Mujer", "No aplica",
                                    "No informado", "P. Jurídica", "Sociedad")),
         fuente = as.factor(fuente),
         productor = factor(productor,
                            levels = c("Pequeño", "Mediano", "Grande")),
         municipio = as.factor(municipio),
         linea_credito = as.factor(linea_credito),
         destino = as.factor(destino)) %>% 
  filter(colocacion > 600000) %>% 
  filter(colocacion < 10000000000)

Exportando datos finales

  • Las bases de datos puedes ser exportadas en diferentes formatos, por ejemplo csv o xlsx. R tiene su propio para las bases de datos, denominado .Rdata
  • Exportar las bases de datos en formato .Rdata es posible a través de la función save().
  • Cargar o importar las bases de datos en formato .Rdata es posible a través de la función load().
save(creditos2, file = "creditosFinal.Rdata")

Cuartiles, Deciles y Percentiles