Introducción

Durante octubre de 2020 realizamos con el Club de R para RRHH un relevamiento de sueldos de RH para Argentina y otros países de Latinoamérica. Si bien parte de ese análisis está publicado no hicimos ningún análisis de los sueldos por provincias. Con lo cual el objetivo de este trabajo será:

Analizar los sueldos de los y las profesionales que trabajan en Recursos Humanos por provincia y región de la Argentina.

Para lograr este objetivo utilizaré algunas técnicas aprendidas en los Módulos I y II de la Diplomatura de Ciencias Sociales Computacionales y Humanidades Digitales de la UNSAM.

Preparación de los Datos

Para este trabajo utilizaré dos datasets, un archivo shape de Argentina obtenida de la página datos.gob.ar para poder visualizar los resultados de las distintas provincias del país, y una muestra de la Encuesta KIWI (Key Investigation of Wages and Incomes) de Sueldos de RH con las respuestas obtenidas de profesionales de Argentina.

En el análisis utilizaré los paquetes tidyverse() para la transformación y visualización de datos, el paquete funModeling() para hacer una limpieza de los sueldos extremos. El paquete sf() para poder leer los datos espaciales, y hacer las visualizaciones en un mapa. También utilizaré el paquete extrafont() para poder cambiar las fuentes de las visualizaciones.

En primer lugar cargamos las librerías necesarias, y luego cargamos los datos.

# Librerías ------------
library(tidyverse)
library(funModeling)
library(sf)
library(extrafont)
library(scales)

# Datos ---------------

# Datos de sueldos de RH
rh <- read_delim("Fuentes/rh.csv",
                 delim = ";")

# Mapa de Argentina
arg <- st_read("ign_provincia/Provincia/ign_provincia.shp")
## Reading layer `ign_provincia' from data source 
##   `C:\Users\chech\OneDrive\Documents\R\unsam_dcschd\ign_provincia\Provincia\ign_provincia.shp' 
##   using driver `ESRI Shapefile'
## Simple feature collection with 24 features and 11 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XYZ
## Bounding box:  xmin: -74 ymin: -90 xmax: -25 ymax: -21.78086
## z_range:       zmin: 0 zmax: 0
## Geodetic CRS:  WGS 84 + WGS_1984_Geoid

Elementos accesorios

Con el objetivo de generar visualizaciones más atractivas y personalizadas vamos a crear una serie de objetos personalizados para reutilizar en los gráficos.

options(scipen = 999)   # Elimina notación científica de los gráficos.

loadfonts(quiet = TRUE) # Permite cargar en R otros tipos de fuentes.

# Estilo limpio sin líneas de fondo
estilo <- theme(panel.grid = element_blank(),
                plot.background = element_rect(fill = "#FBFCFC"),
                panel.background = element_blank(),
                text = element_text(family = "Ubuntu"),
                plot.title.position = "plot")

# Estilo limpio con líneas de referencia verticales en gris claro
estilov <- theme(panel.grid = element_blank(),
                 plot.background = element_rect(fill = "#FBFCFC"),
                 panel.background = element_blank(),
                 panel.grid.major.x = element_line(color = "#AEB6BF"),
                 text = element_text(family = "Ubuntu"),
                 plot.title.position = "plot")

# Estilo limpio con líneas de referencia horizontales en gris claro
estiloh <- theme(panel.grid = element_blank(),
                 plot.background = element_rect(fill = "#FBFCFC"),
                 panel.background = element_blank(),
                 panel.grid.major.y = element_line(color = "#AEB6BF"),
                 text = element_text(family = "Ubuntu"),
                 plot.title.position = "plot")

# Paleta de colores para género
colores <-  c("#1FC3AA", "#8624F5")

# Creo objetos para formatear las etiquetas numéricas de los ejes x e y
eje_x_n <- scale_x_continuous(labels = comma_format(big.mark = ".", decimal.mark = ","))

eje_y_n <- scale_y_continuous(labels = comma_format(big.mark = ".", decimal.mark = ","))

Exploración de los datos

En primer lugar, exploremos algunas características de los data frames que acabamos de cargar.

# Tipo de objeto
class(arg)
## [1] "sf"         "data.frame"
# Tamaño del data frame
dim(arg)
## [1] 24 12
# Nombres y muestras de datos
glimpse(arg)
## Rows: 24
## Columns: 12
## $ OBJECTID   <dbl> 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 437, 438,~
## $ Entidad    <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,~
## $ Objeto     <chr> "Provincia", "Provincia", "Provincia", "Provincia", "Provin~
## $ FNA        <chr> "Ciudad Autónoma de Buenos Aires", "Provincia del Neuquén",~
## $ GNA        <chr> "Ciudad Autónoma", "Provincia", "Provincia", "Provincia", "~
## $ NAM        <chr> "Ciudad Autónoma de Buenos Aires", "Neuquén", "La Pampa", "~
## $ SAG        <chr> "IGN", "IGN", "IGN", "IGN", "IGN", "IGN", "IGN", "IGN", "IG~
## $ FDC        <chr> "Geografía", "Geografía", "Geografía", "Geografía", "Geogra~
## $ IN1        <chr> "02", "58", "42", "50", "74", "14", "82", "30", "70", "46",~
## $ SHAPE_STAr <dbl> 0.02024179, 9.77181088, 14.55301930, 14.65838794, 7.3337705~
## $ SHAPE_STLe <dbl> 0.7438065, 21.5159846, 19.6656145, 23.2599862, 14.4901958, ~
## $ geometry   <MULTIPOLYGON [°]> MULTIPOLYGON Z (((-58.34189..., MULTIPOLYGON Z~

Podemos apreciar que el objeto arg es un data frame de tipo sf, es decir que contiene las coordenadas geográficas para graficar un mapa, que contiene 24 filas y 12 columnas. La variable que contiene los nombres de las provincias para hacer un join con el dataset rh es la columna NAM.

Ahora, realicemos un análisis inicial similar del data frame de sueldos de RH.

# Tipo de objeto
class(rh)
## [1] "spec_tbl_df" "tbl_df"      "tbl"         "data.frame"
# Tamaño del data frame
dim(rh)
## [1] 661  43

Este data frame es un tabla de tipo tibble que contiene 661 filas y 43 columnas. Al ser tanta, en vez de utilizar la función glimpse() usaremos la función names() para ver los nombres de las columnas.

names(rh)
##  [1] "Marca.temporal"             "genero"                    
##  [3] "genero_diverso"             "edad"                      
##  [5] "discapacidad"               "nivel_formacion"           
##  [7] "carrera_grado"              "tipo_universidad"          
##  [9] "pais"                       "provincia"                 
## [11] "trabajo"                    "rubro"                     
## [13] "dotacion"                   "origen_capital"            
## [15] "dotacion_rh"                "puesto"                    
## [17] "tipo_contratacion"          "funcion_rh"                
## [19] "personas_a_cargo"           "anios_en_empresa"          
## [21] "anios_en_puesto"            "anios_experiencia"         
## [23] "sueldo_bruto"               "beneficios"                
## [25] "bono"                       "ajuste"                    
## [27] "ajuste_porcentaje"          "ajuste_mes"                
## [29] "otros_proyectos"            "erp"                       
## [31] "nombre_area"                "mate"                      
## [33] "idioma_exigencia"           "idioma_porcentaje"         
## [35] "contactos_linkedin"         "satisfaccion"              
## [37] "busqueda"                   "beneficios_expectativa"    
## [39] "rh_una_palabra"             "pregunta_bizarra"          
## [41] "teletrabajo"                "elementos"                 
## [43] "valoracion_gestion_empresa"

El relevamiento de la Encuesta KIWI abarcó temas muy diversos como salario y género, y otros totalmente ridículos como si se podía tomar mate en la oficina (prepandemia) o el nombre del área. Para los propósitos de este trabajo limitaremos la cantidad de columnas para analizar.

Nos quedaremos únicamente con las variables provincia, genero, puesto, y sueldo_bruto. Hay mucha tela para cortar en el análisis pero por el alcance del trabajo nos limitaremos en el desarrollo.

rh <- rh %>% # Sobrescribimos el objeto rh 
  filter(pais == "Argentina",                        # Seleccionamos las respuestas de Argentina
         genero %in% c("Masculino", "Femenino")) %>% # Seleccionamos géneros para analizar   
  select(provincia, genero, puesto, sueldo_bruto) %>%  # Variables seleccionadas
  mutate_if(is.character, as_factor) # Pasamos las varibles character como factor

Realicemos un primer análisis exploratorio del data frame rh.

summary(rh)
##                            provincia         genero               puesto   
##  Ciudad Autónoma de Buenos Aires:275   Masculino:186   Analista      :221  
##  Buenos Aires                   :119   Femenino :409   Responsable   :134  
##  Córdoba                        : 44                   Jefe          : 69  
##  San Juan                       : 42                   HRBP          : 57  
##  Santa Fe                       : 29                   Gerente       : 48  
##  Chaco                          : 14                   Administrativo: 47  
##  (Other)                        : 72                   (Other)       : 19  
##   sueldo_bruto    
##  Min.   :      0  
##  1st Qu.:  52000  
##  Median :  72000  
##  Mean   :  90758  
##  3rd Qu.: 102000  
##  Max.   :2140000  
## 

Una primera limpieza que vamos a realizar es la de reducir la cantidad de posiciones. Dada la cantidad de respuestas recibidas, vamos a eliminar las posiciones de Director y de Pasante. Y luego vamos a definir el orden correspondiente a la jerarquía de las posiciones.

rh <- rh %>% 
  filter(!puesto %in% c("Pasante", "Director")) %>% 
  mutate(puesto = factor(puesto, 
                         levels = c("Administrativo", "Analista", "HRBP",
                                    "Responsable", "Jefe", "Gerente"))) 

Y otra variable que hace falta limpiar es la de sueldo_bruto. Tenemos registrado un sueldo mínimo de AR$ 2 y el sueldo máximo es de AR$ 2140000. Para lograr sueldos más representativos, vamos a eliminar los valores que estén por debajo del percentil 5 y los valores que están por encima del percentil 95.

Nos apoyaremos en el paquete funModeling para detectar los valores en ambos percentiles y usarlo posteriormente en el análisis.

# Sacamos los valores descriptivos de la variable numérica
valores <- profiling_num(rh)

# Extraemos los percentiles 5 y 95
p05 <- valores[1,6]
p95 <- valores[1,10]

# Filtramos en la variable sueldo_bruto los valores extremos 
rh1 <- rh %>% 
  filter(between(   # Función auxiliar para filtrar valores
    sueldo_bruto,   # Variable a filtrar
    p05,            # Filtro inferior
    p95             # Filtro superior
  ))

# Eliminamos objetos que no reutilizaremos para liberar memoria
rm(valores, p05, p95)

# Análisis descriptivo de la variable sueldo_bruto
summary(rh1$sueldo_bruto)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   30000   54100   72000   79375   95500  190000

Comparemos cómo queda la variable sueldo_bruto antes y después de la limpieza:

# Boxplot variable original
ggplot(rh, aes(x = sueldo_bruto)) +
  geom_histogram() +
  ggtitle("Distribución variable original") +
  estiloh +
  eje_x_n

# Boxplot variable original
ggplot(rh1, aes(x = sueldo_bruto)) +
  geom_histogram() +
  ggtitle("Distribución variable limpia") +
  estiloh +
  eje_x_n

En estos dos histogramas podemos apreciar la influencia de los outliers, que nos impiden en el data frame original la distribución de los sueldos por debajo de los AR$ 500.000. En el segundo gráfico, luego de la limpieza de la variable sueldo_bruto podemos apreciar los picos en los AR$ 50.000 y en los AR$ 75.000.

Analizar la distribución de las variables es muy importante, porque muchas veces, las métricas de resumen estadístico pueden estar “tapando” algunos problemas. Por ejemplo, miremos la mediana salarial de los sueldos por género y por puesto.

rh1 %>% 
  group_by(puesto, genero) %>% 
  summarise(mediana_salarial = median(sueldo_bruto)) %>% 
  ggplot(aes(x = puesto, y = mediana_salarial, fill = genero)) +
  geom_col(position = "dodge") +
  scale_fill_manual(values = colores) +
  estiloh +
  eje_y_n +
    labs(title = "Mediana salarial por puesto y género",
         subtitle = "En AR$",
         fill = "Género",
         x = "", y = "")

En el gráfico de barras, podemos apreciar que si bien en varios puestos, como el de Responsable, o el de Analista los sueldos de los varones son más altos que en el caso de las mujeres, podemos apreciar una paridad en las posiciones de HRBP y Jefe. Pero analicemos la misma variable con un boxplot que nos permite apreciar la distribución de los gráficos.

ggplot(rh1, aes(x = puesto, y = sueldo_bruto, fill = genero)) +
  geom_boxplot() +
  scale_fill_manual(values = colores) +
  estiloh +
  eje_y_n +
  labs(title = "Distribución de sueldos brutos por puesto y género",
       subtitle = "En AR$",
       x = "", y = "",
       fill = "Género")

En los boxplots podemos apreciar la mediana salarial con la barra negra que está dentro de las cajas. El ancho de las cajas nos dan la idea de cómo se distribuyen los salarios entre el 1° cuartil y el 3° cuartil.

Analicemos el puesto de Gerente. La caja correspondiente a las personas de género masculino están bien concentradas en torno a la mediana, mientras que el recorrido de los sueldos de las personas de género femenino es más amplio, y llegando a valores mucho más bajos.

Y si analizamos el puesto de Jefe, donde la mediana es prácticamente la misma para hombres y mujeres, pero la amplitud de la caja entre el 1° cuartil y la mediana es mayor en las mujeres que en los hombres; lo opuesto a lo que sucede entre la mediana y el 3° cuartil. Esto significa que los sueldos de las mujeres en el puesto de Jefe llegan a valores más bajos que en los varones, y que el sueldo de los varones, llega a sueldos más altos que sus pares mujeres.

Análisis provincial

Un análisis que faltó hacer en el trabajo publicado es el análisis de sueldos por provincia. En parte, por la disparidad en la cantidad de respuestas recibidas.

DT::datatable(rh1 %>% 
  count(provincia, sort = T))

Podríamos hacer un ranking simple de sueldo promedio por provincia, con un gráfico de pirulín (Vazquez Brust dixit):

rh1 %>% 
  group_by(provincia) %>% 
  summarise(media_salarial = mean(sueldo_bruto)) %>% 
  ggplot(aes(x = media_salarial, y = fct_reorder(provincia, media_salarial))) +
  geom_point(color = "#3B3176", size = 3) +
  geom_segment(aes(x = 0, xend = media_salarial, y = provincia, yend = provincia), 
               color = "#5C5393") +
  labs(title = "Ranking de sueldo promedio por provincia",
       subtitle = "En AR$",
       x = "Sueldo promedio",
       y = "") +
  eje_x_n +
  estilov

Unificando data frames

El objetivo del trabajo es realizar un análisis de los sueldos en RRHH en el país. En el gráfico anterior podíamos ver en el top-five a tres provincias patagónicas, pero exige cierto esfuerzo por parte del lector interpretar las diferencias salariales entre regiones. Para facilitar la interpretación de las diferencias salariales crearemos una variable nueva en el data frame arg.

Para definir las regiones utilizaremos esta guía.

regiones <- data.frame(
  provincia = c("Buenos Aires", "Entre Ríos", "Santa Fe", "La Pampa", "Córdoba",
          "Misiones", "Corrientes", "Chaco", "Formosa",
          "Jujuy", "Salta", "Tucumán", "Catamarca", "Santiago del Estero",
          "Mendoza", "San Juan", "San Luis", "La Rioja",
          "Neuquén", "Río Negro", "Chubut", "Santa Cruz", "Tierra del Fuego, Antártida e Islas del Atlántico Sur"),
  region = c(rep("Centro", 5),
             rep("NEA", 4),
             rep("NOA", 5),
             rep("Cuyo", 4),
             rep("Patagonia", 5)
             )
  )

Luego, agregamos el dato de la región al data frame de arg. sueldos promedio por provincia. Renombramos la columna provincia por NAM para poder hacer incorporar la información de sueldos y de región al data frame del país.

arg <- left_join(arg, regiones,
                 by = c("NAM" = "provincia"))

glimpse(arg)
## Rows: 24
## Columns: 13
## $ OBJECTID   <dbl> 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 437, 438,~
## $ Entidad    <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,~
## $ Objeto     <chr> "Provincia", "Provincia", "Provincia", "Provincia", "Provin~
## $ FNA        <chr> "Ciudad Autónoma de Buenos Aires", "Provincia del Neuquén",~
## $ GNA        <chr> "Ciudad Autónoma", "Provincia", "Provincia", "Provincia", "~
## $ NAM        <chr> "Ciudad Autónoma de Buenos Aires", "Neuquén", "La Pampa", "~
## $ SAG        <chr> "IGN", "IGN", "IGN", "IGN", "IGN", "IGN", "IGN", "IGN", "IG~
## $ FDC        <chr> "Geografía", "Geografía", "Geografía", "Geografía", "Geogra~
## $ IN1        <chr> "02", "58", "42", "50", "74", "14", "82", "30", "70", "46",~
## $ SHAPE_STAr <dbl> 0.02024179, 9.77181088, 14.55301930, 14.65838794, 7.3337705~
## $ SHAPE_STLe <dbl> 0.7438065, 21.5159846, 19.6656145, 23.2599862, 14.4901958, ~
## $ region     <chr> NA, "Patagonia", "Centro", "Cuyo", "Cuyo", "Centro", "Centr~
## $ geometry   <MULTIPOLYGON [°]> MULTIPOLYGON Z (((-58.34189..., MULTIPOLYGON Z~

El próximo paso es incorporar la columna de la región a rh1 y crear un nuevo data frame resumiendo los sueldos promedio por región.

# Realizo el join
rh1 <- left_join(rh1, regiones, 
                 by = "provincia")

# Creación del data frame con sueldos promedio por región
sueldo_region <- rh1 %>% 
  group_by(region) %>% 
  summarise(sueldo_promedio = mean(sueldo_bruto)) %>% 
  ungroup()

Finalmente, incorporamos los sueldos y la región al data frame arg.

arg <- left_join(arg, sueldo_region,
                 by = "region") 

glimpse(arg)
## Rows: 24
## Columns: 14
## $ OBJECTID        <dbl> 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 437,~
## $ Entidad         <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ~
## $ Objeto          <chr> "Provincia", "Provincia", "Provincia", "Provincia", "P~
## $ FNA             <chr> "Ciudad Autónoma de Buenos Aires", "Provincia del Neuq~
## $ GNA             <chr> "Ciudad Autónoma", "Provincia", "Provincia", "Provinci~
## $ NAM             <chr> "Ciudad Autónoma de Buenos Aires", "Neuquén", "La Pamp~
## $ SAG             <chr> "IGN", "IGN", "IGN", "IGN", "IGN", "IGN", "IGN", "IGN"~
## $ FDC             <chr> "Geografía", "Geografía", "Geografía", "Geografía", "G~
## $ IN1             <chr> "02", "58", "42", "50", "74", "14", "82", "30", "70", ~
## $ SHAPE_STAr      <dbl> 0.02024179, 9.77181088, 14.55301930, 14.65838794, 7.33~
## $ SHAPE_STLe      <dbl> 0.7438065, 21.5159846, 19.6656145, 23.2599862, 14.4901~
## $ region          <chr> NA, "Patagonia", "Centro", "Cuyo", "Cuyo", "Centro", "~
## $ sueldo_promedio <dbl> 80758.42, 106113.60, 80947.51, 71533.75, 71533.75, 809~
## $ geometry        <MULTIPOLYGON [°]> MULTIPOLYGON Z (((-58.34189..., MULTIPOLY~

Análisis final y conclusiones

Una vez que contamos con toda la información unificada, podemos hacer un análisis de los sueldos promedio por región. Para este propósito visualizaremos en un mapa de la Argentina los sueldos de cada región.

ggplot(arg, aes(fill = sueldo_promedio)) +
  geom_sf() +
  scale_fill_viridis_b() +
  # Limitamos los ejes para visualizar mejor al país
  scale_y_continuous(limits = c(-22, -56)) +
  scale_x_continuous(limits = c(-53, -74)) +
  labs(title ="Sueldo promedio por región",
       subtitle = "en AR$",
       fill = "Sueldo promedio") +
  estilo

En el gráfico podemos apreciar que los sueldos en la Patagonia son los más altos del país y en la región del NEA se encuentran los más bajos. Podríamos haber hecho la visualización por provincia, pero dado que hubieron provincias de las que no obtuvimos información, como Santiago del Estero por ejemplo, y en algunos casos sólo recibimos una sola respuesta como en el caso de Tierra del Fuego, decidimos tomar los datos de forma regional.

Conclusiones

Si bien el análisis es imperfecto dada la disparidad de respuestas recibidas por provincias, tiene sentido que los sueldos más altos se encuentren en el sur del país, por un lado por la presencia de empresas petroleras y mineras, y además que al ser provincias tan remotas, también haya incentivos para relocalizar profesionales.

La región central nuclea a un gran número de empresas, concentra actividades con gran peso en la economía del país, y es la región que concentra la mayoría de la actividad económica y productiva del país, lo cual explica que estén los sueldos más altos a nivel nacional.

En un futuro análisis se podría incorporar más información sobre la actividad económica de las regiones, del peso del trabajo en ámbitos públicos y privados en las provincias, y la diversidad de actividades para poder buscar correlatos entre la actividad económica y los sueldos de los profesionales de Recursos Humanos.

Hubiera sido ideal contar con una mayor homogeneidad de respuestas de todas las provincias para poder que la información sea más representativa de la situación de los profesionales de Recursos Humanos en el país pero a priori fue una sorpresa que los sueldos en la Patagonia sean más altos que los de la región Central del país.

---
title: "Trabajo Integrador Módulos I y II"
subtitle: "Diplomatura Ciencias Sociales Computacionales y Humanidades Digitales"
author: "Sergio Garcia Mora"
date: "7/8/2021"
output: 
  html_document:
    theme: lumen
    highlight: pygments
    toc: true
    toc_float: true
    code_folding: show
    code_download: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, fig.retina = 3)
```

# Introducción

Durante octubre de 2020 realizamos con el [Club de R para RRHH](https://r4hr.club) un relevamiento de sueldos de RH para Argentina y otros países de Latinoamérica. Si bien parte de ese análisis [está publicado](https://rpubs.com/Data4HR/encuesta-kiwi-2020) no hicimos ningún análisis de los sueldos por provincias. Con lo cual el objetivo de este trabajo será:

> Analizar los sueldos de los y las profesionales que trabajan en Recursos Humanos por provincia y región de la Argentina.

Para lograr este objetivo utilizaré algunas técnicas aprendidas en los Módulos I y II de la Diplomatura de Ciencias Sociales Computacionales y Humanidades Digitales de la [UNSAM](https://noticias.unsam.edu.ar/2020/11/20/nuevos-programas-de-posgrado-procesos-de-la-historia-argentina-y-aplicaciones-de-ciencia-de-datos/).

# Preparación de los Datos

Para este trabajo utilizaré dos datasets, un archivo *shape* de Argentina obtenida de la página [datos.gob.ar](https://datos.gob.ar/dataset/ign-unidades-territoriales/archivo/ign_01.02.02) para poder visualizar los resultados de las distintas provincias del país, y una muestra de la Encuesta KIWI (Key Investigation of Wages and Incomes) de Sueldos de RH con las respuestas obtenidas de profesionales de Argentina.

En el análisis utilizaré los paquetes `tidyverse()` para la transformación y visualización de datos, el paquete `funModeling()` para hacer una limpieza de los sueldos extremos. El paquete `sf()` para poder leer los datos espaciales, y hacer las visualizaciones en un mapa. También utilizaré el paquete `extrafont()` para poder cambiar las fuentes de las visualizaciones.

En primer lugar cargamos las librerías necesarias, y luego cargamos los datos.

```{r carga}
# Librerías ------------
library(tidyverse)
library(funModeling)
library(sf)
library(extrafont)
library(scales)

# Datos ---------------

# Datos de sueldos de RH
rh <- read_delim("Fuentes/rh.csv",
                 delim = ";")

# Mapa de Argentina
arg <- st_read("ign_provincia/Provincia/ign_provincia.shp")
```

## Elementos accesorios

Con el objetivo de generar visualizaciones más atractivas y personalizadas vamos a crear una serie de objetos personalizados para reutilizar en los gráficos.

```{r estilo}

options(scipen = 999)   # Elimina notación científica de los gráficos.

loadfonts(quiet = TRUE) # Permite cargar en R otros tipos de fuentes.

# Estilo limpio sin líneas de fondo
estilo <- theme(panel.grid = element_blank(),
                plot.background = element_rect(fill = "#FBFCFC"),
                panel.background = element_blank(),
                text = element_text(family = "Ubuntu"),
                plot.title.position = "plot")

# Estilo limpio con líneas de referencia verticales en gris claro
estilov <- theme(panel.grid = element_blank(),
                 plot.background = element_rect(fill = "#FBFCFC"),
                 panel.background = element_blank(),
                 panel.grid.major.x = element_line(color = "#AEB6BF"),
                 text = element_text(family = "Ubuntu"),
                 plot.title.position = "plot")

# Estilo limpio con líneas de referencia horizontales en gris claro
estiloh <- theme(panel.grid = element_blank(),
                 plot.background = element_rect(fill = "#FBFCFC"),
                 panel.background = element_blank(),
                 panel.grid.major.y = element_line(color = "#AEB6BF"),
                 text = element_text(family = "Ubuntu"),
                 plot.title.position = "plot")

# Paleta de colores para género
colores <-  c("#1FC3AA", "#8624F5")

# Creo objetos para formatear las etiquetas numéricas de los ejes x e y
eje_x_n <- scale_x_continuous(labels = comma_format(big.mark = ".", decimal.mark = ","))

eje_y_n <- scale_y_continuous(labels = comma_format(big.mark = ".", decimal.mark = ","))
```

## Exploración de los datos

En primer lugar, exploremos algunas características de los data frames que acabamos de cargar.

```{r arg1}
# Tipo de objeto
class(arg)

# Tamaño del data frame
dim(arg)

# Nombres y muestras de datos
glimpse(arg)
```

Podemos apreciar que el objeto `arg` es un data frame de tipo *sf*, es decir que contiene las coordenadas geográficas para graficar un mapa, que contiene `r nrow(arg)` filas y `r ncol(arg)` columnas. La variable que contiene los nombres de las provincias para hacer un join con el dataset `rh` es la columna `NAM`.

Ahora, realicemos un análisis inicial similar del data frame de sueldos de RH.

```{r rh1}
# Tipo de objeto
class(rh)

# Tamaño del data frame
dim(rh)

```

Este data frame es un tabla de tipo *tibble* que contiene `r nrow(rh)` filas y `r ncol(rh)` columnas. Al ser tanta, en vez de utilizar la función `glimpse()` usaremos la función `names()` para ver los nombres de las columnas.

```{r rh2}
names(rh)
```

El relevamiento de la Encuesta KIWI abarcó temas muy diversos como salario y género, y otros totalmente ridículos como si se podía tomar mate en la oficina (prepandemia) o el nombre del área. Para los propósitos de este trabajo limitaremos la cantidad de columnas para analizar.

Nos quedaremos únicamente con las variables `provincia`, `genero`, `puesto`, y `sueldo_bruto`. Hay mucha tela para cortar en el análisis pero por el alcance del trabajo nos limitaremos en el desarrollo.

```{r rh-select}

rh <- rh %>% # Sobrescribimos el objeto rh 
  filter(pais == "Argentina",                        # Seleccionamos las respuestas de Argentina
         genero %in% c("Masculino", "Femenino")) %>% # Seleccionamos géneros para analizar   
  select(provincia, genero, puesto, sueldo_bruto) %>%  # Variables seleccionadas
  mutate_if(is.character, as_factor) # Pasamos las varibles character como factor

```

Realicemos un primer análisis exploratorio del data frame `rh`.

```{r rh-summary}
summary(rh)

```

Una primera limpieza que vamos a realizar es la de reducir la cantidad de posiciones. Dada la cantidad de respuestas recibidas, vamos a eliminar las posiciones de `Director` y de `Pasante`. Y luego vamos a definir el orden correspondiente a la jerarquía de las posiciones.

```{r rh-clean1}

rh <- rh %>% 
  filter(!puesto %in% c("Pasante", "Director")) %>% 
  mutate(puesto = factor(puesto, 
                         levels = c("Administrativo", "Analista", "HRBP",
                                    "Responsable", "Jefe", "Gerente"))) 
```

Y otra variable que hace falta limpiar es la de `sueldo_bruto`. Tenemos registrado un sueldo mínimo de `r paste0("AR$ ", min(rh$sueldo_bruto))` y el sueldo máximo es de `r paste0("AR$ ", max(rh$sueldo_bruto))`. Para lograr sueldos más representativos, vamos a eliminar los valores que estén por debajo del *percentil 5* y los valores que están por encima del *percentil 95*.

Nos apoyaremos en el paquete `funModeling` para detectar los valores en ambos percentiles y usarlo posteriormente en el análisis.

```{r rh-clean2}
# Sacamos los valores descriptivos de la variable numérica
valores <- profiling_num(rh)

# Extraemos los percentiles 5 y 95
p05 <- valores[1,6]
p95 <- valores[1,10]

# Filtramos en la variable sueldo_bruto los valores extremos 
rh1 <- rh %>% 
  filter(between(   # Función auxiliar para filtrar valores
    sueldo_bruto,   # Variable a filtrar
    p05,            # Filtro inferior
    p95             # Filtro superior
  ))

# Eliminamos objetos que no reutilizaremos para liberar memoria
rm(valores, p05, p95)

# Análisis descriptivo de la variable sueldo_bruto
summary(rh1$sueldo_bruto)

```

Comparemos cómo queda la variable `sueldo_bruto` antes y después de la limpieza:

```{r boxplot-sueldos, fig.show='hold', out.width="50%"}
# Boxplot variable original
ggplot(rh, aes(x = sueldo_bruto)) +
  geom_histogram() +
  ggtitle("Distribución variable original") +
  estiloh +
  eje_x_n

# Boxplot variable original
ggplot(rh1, aes(x = sueldo_bruto)) +
  geom_histogram() +
  ggtitle("Distribución variable limpia") +
  estiloh +
  eje_x_n
```

En estos dos *histogramas* podemos apreciar la influencia de los **outliers**, que nos impiden en el data frame original la distribución de los sueldos por debajo de los AR\$ 500.000. En el segundo gráfico, luego de la limpieza de la variable `sueldo_bruto` podemos apreciar los picos en los AR\$ 50.000 y en los AR\$ 75.000.

Analizar la **distribución** de las variables es muy importante, porque muchas veces, las métricas de resumen estadístico pueden estar "tapando" algunos problemas. Por ejemplo, miremos la mediana salarial de los sueldos por género y por puesto.

```{r comp_sueldos}
rh1 %>% 
  group_by(puesto, genero) %>% 
  summarise(mediana_salarial = median(sueldo_bruto)) %>% 
  ggplot(aes(x = puesto, y = mediana_salarial, fill = genero)) +
  geom_col(position = "dodge") +
  scale_fill_manual(values = colores) +
  estiloh +
  eje_y_n +
    labs(title = "Mediana salarial por puesto y género",
         subtitle = "En AR$",
         fill = "Género",
         x = "", y = "")
```

En el gráfico de barras, podemos apreciar que si bien en varios puestos, como el de *Responsable*, o el de *Analista* los sueldos de los varones son más altos que en el caso de las mujeres, podemos apreciar una paridad en las posiciones de *HRBP* y *Jefe*. Pero analicemos la misma variable con un **boxplot** que nos permite apreciar la distribución de los gráficos.

```{r comp_sueldos2}
ggplot(rh1, aes(x = puesto, y = sueldo_bruto, fill = genero)) +
  geom_boxplot() +
  scale_fill_manual(values = colores) +
  estiloh +
  eje_y_n +
  labs(title = "Distribución de sueldos brutos por puesto y género",
       subtitle = "En AR$",
       x = "", y = "",
       fill = "Género")
```

En los *boxplots* podemos apreciar la mediana salarial con la barra negra que está dentro de las *cajas*. El ancho de las cajas nos dan la idea de cómo se distribuyen los salarios entre el 1° cuartil y el 3° cuartil.

Analicemos el puesto de *Gerente*. La *caja* correspondiente a las personas de género masculino están bien concentradas en torno a la mediana, mientras que el recorrido de los sueldos de las personas de género femenino es más amplio, y llegando a valores mucho más bajos.

Y si analizamos el puesto de *Jefe*, donde la mediana es prácticamente la misma para hombres y mujeres, pero la amplitud de la caja entre el 1° cuartil y la mediana es mayor en las mujeres que en los hombres; lo opuesto a lo que sucede entre la mediana y el 3° cuartil. Esto significa que los sueldos de las mujeres en el puesto de Jefe llegan a valores más bajos que en los varones, y que el sueldo de los varones, llega a sueldos más altos que sus pares mujeres.

## Análisis provincial

Un análisis que faltó hacer en el trabajo publicado es el análisis de sueldos por provincia. En parte, por la disparidad en la cantidad de respuestas recibidas.

```{r prov1}
DT::datatable(rh1 %>% 
  count(provincia, sort = T))
```

Podríamos hacer un ranking simple de sueldo promedio por provincia, con un gráfico de *pirulín* (Vazquez Brust dixit):

```{r prov2}
rh1 %>% 
  group_by(provincia) %>% 
  summarise(media_salarial = mean(sueldo_bruto)) %>% 
  ggplot(aes(x = media_salarial, y = fct_reorder(provincia, media_salarial))) +
  geom_point(color = "#3B3176", size = 3) +
  geom_segment(aes(x = 0, xend = media_salarial, y = provincia, yend = provincia), 
               color = "#5C5393") +
  labs(title = "Ranking de sueldo promedio por provincia",
       subtitle = "En AR$",
       x = "Sueldo promedio",
       y = "") +
  eje_x_n +
  estilov
```

# Unificando data frames

El objetivo del trabajo es realizar un análisis de los sueldos en RRHH en el país. En el gráfico anterior podíamos ver en el top-five a tres provincias patagónicas, pero exige cierto esfuerzo por parte del lector interpretar las diferencias salariales entre regiones. Para facilitar la interpretación de las diferencias salariales crearemos una variable nueva en el data frame `arg`.

Para definir las regiones utilizaremos [esta guía](https://argentinalomejor.com/c-generalidades-del-pais/regiones-de-argentina/).

```{r regiones}

regiones <- data.frame(
  provincia = c("Buenos Aires", "Entre Ríos", "Santa Fe", "La Pampa", "Córdoba",
          "Misiones", "Corrientes", "Chaco", "Formosa",
          "Jujuy", "Salta", "Tucumán", "Catamarca", "Santiago del Estero",
          "Mendoza", "San Juan", "San Luis", "La Rioja",
          "Neuquén", "Río Negro", "Chubut", "Santa Cruz", "Tierra del Fuego, Antártida e Islas del Atlántico Sur"),
  region = c(rep("Centro", 5),
             rep("NEA", 4),
             rep("NOA", 5),
             rep("Cuyo", 4),
             rep("Patagonia", 5)
             )
  )
```

Luego, agregamos el dato de la región al data frame de `arg`. sueldos promedio por provincia. Renombramos la columna `provincia` por `NAM` para poder hacer incorporar la información de sueldos y de región al data frame del país.

```{r join1}
arg <- left_join(arg, regiones,
                 by = c("NAM" = "provincia"))

glimpse(arg)
```

El próximo paso es incorporar la columna de la región a `rh1` y crear un nuevo data frame resumiendo los sueldos promedio por región.

```{r join2}
# Realizo el join
rh1 <- left_join(rh1, regiones, 
                 by = "provincia")

# Creación del data frame con sueldos promedio por región
sueldo_region <- rh1 %>% 
  group_by(region) %>% 
  summarise(sueldo_promedio = mean(sueldo_bruto)) %>% 
  ungroup()
```

Finalmente, incorporamos los sueldos y la región al data frame `arg`.

```{r join3}
arg <- left_join(arg, sueldo_region,
                 by = "region") 

glimpse(arg)
```

# Análisis final y conclusiones

Una vez que contamos con toda la información unificada, podemos hacer un análisis de los sueldos promedio por región. Para este propósito visualizaremos en un mapa de la Argentina los sueldos de cada región.

```{r an-region}
ggplot(arg, aes(fill = sueldo_promedio)) +
  geom_sf() +
  scale_fill_viridis_b() +
  # Limitamos los ejes para visualizar mejor al país
  scale_y_continuous(limits = c(-22, -56)) +
  scale_x_continuous(limits = c(-53, -74)) +
  labs(title ="Sueldo promedio por región",
       subtitle = "en AR$",
       fill = "Sueldo promedio") +
  estilo
```

En el gráfico podemos apreciar que los sueldos en la Patagonia son los más altos del país y en la región del NEA se encuentran los más bajos. Podríamos haber hecho la visualización por provincia, pero dado que hubieron provincias de las que no obtuvimos información, como Santiago del Estero por ejemplo, y en algunos casos sólo recibimos una sola respuesta como en el caso de Tierra del Fuego, decidimos tomar los datos de forma regional.

## Conclusiones

Si bien el análisis es imperfecto dada la disparidad de respuestas recibidas por provincias, tiene sentido que los sueldos más altos se encuentren en el sur del país, por un lado por la presencia de empresas petroleras y mineras, y además que al ser provincias tan remotas, también haya incentivos para relocalizar profesionales.

La región central nuclea a un gran número de empresas, concentra actividades con gran peso en la economía del país, y es la región que concentra la mayoría de la actividad económica y productiva del país, lo cual explica que estén los sueldos más altos a nivel nacional.

En un futuro análisis se podría incorporar más información sobre la actividad económica de las regiones, del peso del trabajo en ámbitos públicos y privados en las provincias, y la diversidad de actividades para poder buscar correlatos entre la actividad económica y los sueldos de los profesionales de Recursos Humanos.

Hubiera sido ideal contar con una mayor homogeneidad de respuestas de todas las provincias para poder que la información sea más representativa de la situación de los profesionales de Recursos Humanos en el país pero a priori fue una sorpresa que los sueldos en la Patagonia sean más altos que los de la región Central del país.
