Análisis Exploratorio de Salarios para Data Science

Introducción

La base de datos utilizada contiene información de Salarios de puestos relacionados con científicos de datos alrededor mundo, para, los datos son extraídos de una fuente de datas en kaggle [Data Science Salaries 2023] (https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023).

El fin de usar esta base de datos es tener una visión del mercado laboral mundial y las oportunidades que nos esperan en el futuro, a la vez por medio de este encontrar los factores que más influyen en el salario de los cargos relacionados con data Science.

¿Cuáles son los principales factores que influyen en los salarios al rededor del mundo para los científicos de datos?

La base de datos a analizar se compone por las siguientes 11 Columnas:

“work_year”, correspode al año donde se registró se obtuvo el registro.
“experience_level”, corresponde al nivel de experiencia del trabajado.
“employment_type”, corresponde al tipo de contrato que tiene el trabajado.
“job_title”, es el nombre del cargo del trabajador.
“salary”, es el salario neto al año.
“salary_currency”, corresponde a la moneda en la que se devenga el salario.
“salary_in_usd”, es la conversión del salario a dólares estadounidenses
“employee_residence”, es el país donde se encuentra el trabajador.
“remote_ratio”, corresponde a la tasa de trabajo que se realiza en remoto
“company_location”: es el país donde se encuentra la compañía que ofrece el trabajo.
“company_size”, es el tamaño de la compañía que ofrece el trabajo

Siglas usadas

Algunas de las siglas usadas en la fuente de datos son:

Clasificación del Profesional

EN: Entry-level / Junior.
MI: Mid-level / Intermediate.
SE: Senior-level / Expert.
EX: Executive-level / Director.

Tipo de contrato

PT: Part-time
FT: Full-time
CT: Contract
FL: Freelance

Tamaño de la compañía

L: Grande
M: Mediana
S: Pequeña

Resumen de los datos

Observamos que tenemos 11 columnas, 3755 registros.

Las columnas numéricas son: años de experiencia, Salario.

Las variables categóricas son: nivel de experiencia, Tipo de contrato, Titulo del cargo, moneda, Residencia del empleado, localización de la empresa y Tamaño de la empresa.

Se decide tratar todas las variable categóricas como factor pues esto facilitará el análisis y disminuirá el tamaño en memoria.

##    work_year    experience_level employment_type
##  Min.   :2020   EN: 320          CT:  10        
##  1st Qu.:2022   EX: 114          FL:  10        
##  Median :2022   MI: 805          FT:3718        
##  Mean   :2022   SE:2516          PT:  17        
##  3rd Qu.:2023                                   
##  Max.   :2023                                   
##                                                 
##                      job_title        salary         salary_currency
##  Data Engineer            :1040   Min.   :    6000   USD    :3224   
##  Data Scientist           : 840   1st Qu.:  100000   EUR    : 236   
##  Data Analyst             : 612   Median :  138000   GBP    : 161   
##  Machine Learning Engineer: 289   Mean   :  190696   INR    :  60   
##  Analytics Engineer       : 103   3rd Qu.:  180000   CAD    :  25   
##  Data Architect           : 101   Max.   :30400000   AUD    :   9   
##  (Other)                  : 770                      (Other):  40   
##  salary_in_usd    employee_residence  remote_ratio    company_location
##  Min.   :  5132   US     :3004       Min.   :  0.00   US     :3040    
##  1st Qu.: 95000   GB     : 167       1st Qu.:  0.00   GB     : 172    
##  Median :135000   CA     :  85       Median :  0.00   CA     :  87    
##  Mean   :137570   ES     :  80       Mean   : 46.27   ES     :  77    
##  3rd Qu.:175000   IN     :  71       3rd Qu.:100.00   IN     :  58    
##  Max.   :450000   DE     :  48       Max.   :100.00   DE     :  56    
##                   (Other): 300                        (Other): 265    
##  company_size
##  L: 454      
##  M:3153      
##  S: 148      
##              
##              
##              
##

Análisis exploratorio

Análisis preliminar de los datos

## [1] 2023 2022 2020 2021

Comenzando con la columna “work_year”, se identifica que no son números si no años los datos de la columna, es por esto por lo que se decide convertirlo los valores a tipo factor

## [1] 100   0  50

En la columna remote_ratio se identifica que también se trata de solo 3 datos para referirse al trabajo remoto, es por ello por lo que se decide cambiar estos datos numéricos por factor dejándolo así:

remote => re = 100
hybrid => hy = 50
presential => pr = 0

Se decide eliminar la columna salary para trabajar con una moneda común, sin embargo, se deja la columna salary_currency para verificar si existe alguna influencia por el tipo de moneda en los salarios.

##  work_year   experience_level employment_type                     job_title   
##  2020:  76   EN: 320          CT:  10         Data Engineer            :1040  
##  2021: 230   EX: 114          FL:  10         Data Scientist           : 840  
##  2022:1664   MI: 805          FT:3718         Data Analyst             : 612  
##  2023:1785   SE:2516          PT:  17         Machine Learning Engineer: 289  
##                                               Analytics Engineer       : 103  
##                                               Data Architect           : 101  
##                                               (Other)                  : 770  
##  salary_currency salary_in_usd    employee_residence remote_ratio
##  USD    :3224    Min.   :  5132   US     :3004       HY: 189     
##  EUR    : 236    1st Qu.: 95000   GB     : 167       PR:1923     
##  GBP    : 161    Median :135000   CA     :  85       RE:1643     
##  INR    :  60    Mean   :137570   ES     :  80                   
##  CAD    :  25    3rd Qu.:175000   IN     :  71                   
##  AUD    :   9    Max.   :450000   DE     :  48                   
##  (Other):  40                     (Other): 300                   
##  company_location company_size
##  US     :3040     L: 454      
##  GB     : 172     M:3153      
##  CA     :  87     S: 148      
##  ES     :  77                 
##  IN     :  58                 
##  DE     :  56                 
##  (Other): 265

Por último, se decide crear una nueva columna “work_abroad”, un booleano el cual usaremos para verificar si los trabajadores tienen un trabajo en el extranjero o trabajan en el país donde se genera el trabajo.

##  work_abroad 
##  FALSE:3659  
##  TRUE :  96

Verificamos si hay faltantes

Adicional al análisis preliminar de los datos, se verifica si existen no datos nulos o vacíos en el dataset, por si acaso toca completar los datos o hacer limpieza de estos.

por medio de un gráfico vis_miss hacemos el análisis y encontramos que los datos se encuentran completos por lo cual no será necesario completar o limpiar estos datos.

Análisis de inicial de los datos

Como primera medida verificamos como se encuentran distribuidos los datos para saber si hay sesgos muy grandes que impidan hacer un correcto análisis de los datos, para esto observamos las distribuciones de los datos principales, como:

Distribución Salarial
Contrataciones por año
Nivel de experiencia del profesional
Tipo de contrato
Lugar de trabajo
Tamaño de las compañías
Divisa del salario
¿Trabaja Desde Otro País?

Se evidencian algunos sesgos, sin embargo, se decide dejarlos porque estos obedecen a la naturaleza de los datos, aunque luego se explorará esto.

De estos gráficos iniciales se puede destacar que tal como se ve con las tendencias actuales, los cargos relacionados con Data Science han ido aumentando progresivamente, teniendo su boom en el 2022 cuando se hicieron más famosas las tecnologías como chat GPT, midjourney, entre otras.

Por otro lado a pesar de las tendencias de los nómadas digitales, en el caso de los cargos relacionados con Data son muy pocos los contratistas o Freelancers, estoy creemos es porque para estos cargos necesitan personal con una mayor responsabilidad y confianza, lo cual también se refleja en que la mayor parte de los trabajos son presenciales, suponemos también la sensibilidad de los datos que manejan aunque, tal como se vive en la actualidad hay una gran cantidad de trabajos remotos, a pesar de esto se evidencia que son trabajos remotos pero, como se evidencia en el último gráfico son muy pocos los trabajos que se dan a personas del extranjero, creemos es por el mismo problema con la sensibilidad de los datos.

Distribución de los cargos para los científicos de datos

Análisis de los datos

Empezamos a observar las relaciones entre las diferentes variables de la data. Observamos que la relación entre todas las variables es positiva, unas más fuertes que otras. Por ejemplo, se ver una fuerte relación entre la moneda del salario y el lugar de la empresa, y esto es proporcional a lo visto en el grafico anterior, donde se observa que la mayoría del personal es escogido en el mismo país.

También captamos una relación entre el tamaño de la compañía y el salario, esto se podría suponer porque entre más grande la empresa, mejores los beneficios, aunque esto último debe ser tomado con precaución.

Los siguientes mapas nos muestra la concentración de los trabajos en este campo. En el primero vemos la concentración de los trabajadores y en el segundo la concentración de los puestos de trabajo en el mundo. De acá observamos que, tanto en número de trabajadores, como puestos de empleos, estos se concentran en los países de primer mundo, siendo Estados Unidos la principal plaza para esta área de trabajo.

También es llamativo, como en zonas como el medio oriente y la gran mayoría de África no tiene datos sobre mercado laboral para los profesionales en DataScience, esto puede debe ser ahí que no hay forma de recolectar datos o su mercado es imperceptible.

Distribución de Salarios

En los siguientes gráficos vamos a observar el comportamiento del salario en referencia a las otras variables. Acá observamos cosas esperadas como que los salarios más altos sean para las personas locales, ya que la mayoría de las plazas están en Estados Unidos, se observa que a las personas que viven en países de tercer mundo (remoto), les paguen menos. Esto se puede explicar por el cambio de divisa que, aunque sea un salario por debajo del promedio, al realizar el cambio, es una cifra significativa para el mercado local.

Algo que se comporta diferente, es que las empresas medianas ofrecen mejores salarios, tal vez sea normal pensar que las grandes empresas ofrecen los salarios más competitivos, pero se observa que son las empresas medinas y después las pequeñas empresas.

Otro grafico que nos aporta mucha información son los salarios vs el lugar de trabajo. Ya la atención que mientras el trabajo remoto y presencial, están similares en valores, los híbridos tienen en promedio los salarios más bajo

En los siguientes mapas se presenta la distribución de los salarios promedios, mínimos y máximos a nivel global. En este grafico se observa que Estados Unidos tiene los salarios más altos, más bajos y el mejor promedio. Los salarios más bajos podríamos adjudicarlo a los trabajos remotos de país como la India y Latino-América.

En Europa no se pagan los mejores salarios, tampoco los peores, siempre se mueven en el rango medio. En contrate los países de Asia y Oceanía, presenta salarios muy buenos, y no están en los salarios bajos.

Distribución de Salarios por Nivel de Experiencia

Lo primero que se resalta es el hecho que en el paso de tiempo las personas van aumentando sus salarios y que también los datos atípicos se vuelven más recurrentes.

El perfil que más gana son los Expertos (EX), este perfil son altos cargos en las compañías y existen pocas plazas, esto explicaría por qué sobre salen sobre los demás profesionales.

Los salarios más bajos se encuentran con los perfiles Junior (EN), lo cual es normal, al ser perfiles con pocos años de experiencia. Este perfil en todas las áreas de TI, son quienes manejan los salarios iniciales y para alcanzar otros rangos y así poder aspirar a mejores salarios, es necesario realizar estudios de profundización y adquirir la mayor experiencia posible en el campo.

Conclusión

Trabajar como científico de datos, independiente de cualquier otro motivo, a nivel salarial es muy motivador, maneja salarios muy buenos, lo cual hace que sea atractivos para todos. Pero para lograr esto, se debe estudiar mucho y tener buena experiencia, esto se ve directamente proporcionado a los salarios, por lo que lograr nivel de Especialista, puede ser muy atractivo.

Aunque se puede trabajar de forma remota, la verdad es que las ofertas por fuera del país de origen son pocas y no siempre bien pagas. Estos lo podríamos atribuir a que el trabajo no solo se enfoca en procesar los datos, si no en realizar un análisis y soportar esas interpretaciones a los Data Set. Para esto muchas veces es necesario conocer los contextos sociales, políticos y culturales, en los cuales se extrajeron los datos, para así, poder realizar un análisis multivariado a la información.