La base de datos utilizada contiene información de Salarios de puestos relacionados con científicos de datos alrededor mundo, para, los datos son extraídos de una fuente de datas en kaggle [Data Science Salaries 2023] (https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023).
El fin de usar esta base de datos es tener una visión del mercado laboral mundial y las oportunidades que nos esperan en el futuro, a la vez por medio de este encontrar los factores que más influyen en el salario de los cargos relacionados con data Science.
La base de datos a analizar se compone por las siguientes 11 Columnas:
Algunas de las siglas usadas en la fuente de datos son:
Clasificación del Profesional
Tipo de contrato
Tamaño de la compañía
Observamos que tenemos 11 columnas, 3755 registros.
Las columnas numéricas son: años de experiencia, Salario.
Las variables categóricas son: nivel de experiencia, Tipo de contrato, Titulo del cargo, moneda, Residencia del empleado, localización de la empresa y Tamaño de la empresa.
Se decide tratar todas las variable categóricas como factor pues esto facilitará el análisis y disminuirá el tamaño en memoria.
## work_year experience_level employment_type
## Min. :2020 EN: 320 CT: 10
## 1st Qu.:2022 EX: 114 FL: 10
## Median :2022 MI: 805 FT:3718
## Mean :2022 SE:2516 PT: 17
## 3rd Qu.:2023
## Max. :2023
##
## job_title salary salary_currency
## Data Engineer :1040 Min. : 6000 USD :3224
## Data Scientist : 840 1st Qu.: 100000 EUR : 236
## Data Analyst : 612 Median : 138000 GBP : 161
## Machine Learning Engineer: 289 Mean : 190696 INR : 60
## Analytics Engineer : 103 3rd Qu.: 180000 CAD : 25
## Data Architect : 101 Max. :30400000 AUD : 9
## (Other) : 770 (Other): 40
## salary_in_usd employee_residence remote_ratio company_location
## Min. : 5132 US :3004 Min. : 0.00 US :3040
## 1st Qu.: 95000 GB : 167 1st Qu.: 0.00 GB : 172
## Median :135000 CA : 85 Median : 0.00 CA : 87
## Mean :137570 ES : 80 Mean : 46.27 ES : 77
## 3rd Qu.:175000 IN : 71 3rd Qu.:100.00 IN : 58
## Max. :450000 DE : 48 Max. :100.00 DE : 56
## (Other): 300 (Other): 265
## company_size
## L: 454
## M:3153
## S: 148
##
##
##
##
## [1] 2023 2022 2020 2021
Comenzando con la columna “work_year”, se identifica que no son números si no años los datos de la columna, es por esto por lo que se decide convertirlo los valores a tipo factor
## [1] 100 0 50
En la columna remote_ratio se identifica que también se trata de solo 3 datos para referirse al trabajo remoto, es por ello por lo que se decide cambiar estos datos numéricos por factor dejándolo así:
Se decide eliminar la columna salary para trabajar con una moneda común, sin embargo, se deja la columna salary_currency para verificar si existe alguna influencia por el tipo de moneda en los salarios.
## work_year experience_level employment_type job_title
## 2020: 76 EN: 320 CT: 10 Data Engineer :1040
## 2021: 230 EX: 114 FL: 10 Data Scientist : 840
## 2022:1664 MI: 805 FT:3718 Data Analyst : 612
## 2023:1785 SE:2516 PT: 17 Machine Learning Engineer: 289
## Analytics Engineer : 103
## Data Architect : 101
## (Other) : 770
## salary_currency salary_in_usd employee_residence remote_ratio
## USD :3224 Min. : 5132 US :3004 HY: 189
## EUR : 236 1st Qu.: 95000 GB : 167 PR:1923
## GBP : 161 Median :135000 CA : 85 RE:1643
## INR : 60 Mean :137570 ES : 80
## CAD : 25 3rd Qu.:175000 IN : 71
## AUD : 9 Max. :450000 DE : 48
## (Other): 40 (Other): 300
## company_location company_size
## US :3040 L: 454
## GB : 172 M:3153
## CA : 87 S: 148
## ES : 77
## IN : 58
## DE : 56
## (Other): 265
Por último, se decide crear una nueva columna “work_abroad”, un booleano el cual usaremos para verificar si los trabajadores tienen un trabajo en el extranjero o trabajan en el país donde se genera el trabajo.
## work_abroad
## FALSE:3659
## TRUE : 96
Adicional al análisis preliminar de los datos, se verifica si existen no datos nulos o vacíos en el dataset, por si acaso toca completar los datos o hacer limpieza de estos.
por medio de un gráfico vis_miss hacemos el análisis y encontramos que los datos se encuentran completos por lo cual no será necesario completar o limpiar estos datos.
Como primera medida verificamos como se encuentran distribuidos los datos para saber si hay sesgos muy grandes que impidan hacer un correcto análisis de los datos, para esto observamos las distribuciones de los datos principales, como:
Se evidencian algunos sesgos, sin embargo, se decide dejarlos porque estos obedecen a la naturaleza de los datos, aunque luego se explorará esto.
De estos gráficos iniciales se puede destacar que tal como se ve con las tendencias actuales, los cargos relacionados con Data Science han ido aumentando progresivamente, teniendo su boom en el 2022 cuando se hicieron más famosas las tecnologías como chat GPT, midjourney, entre otras.
Por otro lado a pesar de las tendencias de los nómadas digitales, en el caso de los cargos relacionados con Data son muy pocos los contratistas o Freelancers, estoy creemos es porque para estos cargos necesitan personal con una mayor responsabilidad y confianza, lo cual también se refleja en que la mayor parte de los trabajos son presenciales, suponemos también la sensibilidad de los datos que manejan aunque, tal como se vive en la actualidad hay una gran cantidad de trabajos remotos, a pesar de esto se evidencia que son trabajos remotos pero, como se evidencia en el último gráfico son muy pocos los trabajos que se dan a personas del extranjero, creemos es por el mismo problema con la sensibilidad de los datos.
Empezamos a observar las relaciones entre las diferentes variables de la data. Observamos que la relación entre todas las variables es positiva, unas más fuertes que otras. Por ejemplo, se ver una fuerte relación entre la moneda del salario y el lugar de la empresa, y esto es proporcional a lo visto en el grafico anterior, donde se observa que la mayoría del personal es escogido en el mismo país.
También captamos una relación entre el tamaño de la compañía y el salario, esto se podría suponer porque entre más grande la empresa, mejores los beneficios, aunque esto último debe ser tomado con precaución.
Los siguientes mapas nos muestra la concentración de los trabajos en este campo. En el primero vemos la concentración de los trabajadores y en el segundo la concentración de los puestos de trabajo en el mundo. De acá observamos que, tanto en número de trabajadores, como puestos de empleos, estos se concentran en los países de primer mundo, siendo Estados Unidos la principal plaza para esta área de trabajo.
También es llamativo, como en zonas como el medio oriente y la gran mayoría de África no tiene datos sobre mercado laboral para los profesionales en DataScience, esto puede debe ser ahí que no hay forma de recolectar datos o su mercado es imperceptible.
En los siguientes gráficos vamos a observar el comportamiento del salario en referencia a las otras variables. Acá observamos cosas esperadas como que los salarios más altos sean para las personas locales, ya que la mayoría de las plazas están en Estados Unidos, se observa que a las personas que viven en países de tercer mundo (remoto), les paguen menos. Esto se puede explicar por el cambio de divisa que, aunque sea un salario por debajo del promedio, al realizar el cambio, es una cifra significativa para el mercado local.
Algo que se comporta diferente, es que las empresas medianas ofrecen mejores salarios, tal vez sea normal pensar que las grandes empresas ofrecen los salarios más competitivos, pero se observa que son las empresas medinas y después las pequeñas empresas.
Otro grafico que nos aporta mucha información son los salarios vs el lugar de trabajo. Ya la atención que mientras el trabajo remoto y presencial, están similares en valores, los híbridos tienen en promedio los salarios más bajo
En los siguientes mapas se presenta la distribución de los salarios promedios, mínimos y máximos a nivel global. En este grafico se observa que Estados Unidos tiene los salarios más altos, más bajos y el mejor promedio. Los salarios más bajos podríamos adjudicarlo a los trabajos remotos de país como la India y Latino-América.
En Europa no se pagan los mejores salarios, tampoco los peores, siempre se mueven en el rango medio. En contrate los países de Asia y Oceanía, presenta salarios muy buenos, y no están en los salarios bajos.
Lo primero que se resalta es el hecho que en el paso de tiempo las personas van aumentando sus salarios y que también los datos atípicos se vuelven más recurrentes.
El perfil que más gana son los Expertos (EX), este perfil son altos cargos en las compañías y existen pocas plazas, esto explicaría por qué sobre salen sobre los demás profesionales.
Los salarios más bajos se encuentran con los perfiles Junior (EN), lo cual es normal, al ser perfiles con pocos años de experiencia. Este perfil en todas las áreas de TI, son quienes manejan los salarios iniciales y para alcanzar otros rangos y así poder aspirar a mejores salarios, es necesario realizar estudios de profundización y adquirir la mayor experiencia posible en el campo.
Trabajar como científico de datos, independiente de cualquier otro motivo, a nivel salarial es muy motivador, maneja salarios muy buenos, lo cual hace que sea atractivos para todos. Pero para lograr esto, se debe estudiar mucho y tener buena experiencia, esto se ve directamente proporcionado a los salarios, por lo que lograr nivel de Especialista, puede ser muy atractivo.
Aunque se puede trabajar de forma remota, la verdad es que las ofertas por fuera del país de origen son pocas y no siempre bien pagas. Estos lo podríamos atribuir a que el trabajo no solo se enfoca en procesar los datos, si no en realizar un análisis y soportar esas interpretaciones a los Data Set. Para esto muchas veces es necesario conocer los contextos sociales, políticos y culturales, en los cuales se extrajeron los datos, para así, poder realizar un análisis multivariado a la información.