Introduccion

En el siguiente informe se analizara un dataSet sobre el salario de diferente tipos de personas al rededor del mundo y de diferentes razas de personas

Origen y obtencion del dataset

El dataSet fue obtenido en la pagina de ‘Kaggle’

https://www.kaggle.com/datasets/amirmahdiabbootalebi/salary-by-job-title-and-country

Este conjunto de datos se origina a partir de una combinación de encuestas salariales disponibles públicamente, datos recopilados por sitios web de búsqueda de empleo de buena reputación y estadísticas laborales gubernamentales. Ha sido cuidadosamente seleccionado para garantizar la precisión y exhaustividad de los datos.

Importar el dataset desde el archivo CSV

Salario <- read.csv("C:/Users/Chovi/Desktop/Salary.csv")

Visualizacion de datos

head(Salario)
##   Edad   Sexo NivelEducativo     PuestoTrabajo AñosExperiencia Salario   Pais
## 1   32   Male              1 Software Engineer               5   90000     UK
## 2   28 Female              2      Data Analyst               3   65000    USA
## 3   45   Male              3           Manager              15  150000 Canada
## 4   36 Female              1   Sales Associate               7   60000    USA
## 5   52   Male              2          Director              20  200000    USA
## 6   29   Male              1 Marketing Analyst               2   55000    USA
##       Raza senior
## 1    White      0
## 2 Hispanic      0
## 3    White      1
## 4 Hispanic      0
## 5    Asian      0
## 6 Hispanic      0

Limpieza de datos para un mejor manejo de estos

Salario <- Salario %>%
  select(-senior, -Raza, -Pais)

write.csv(Salario, 'SalarioLimpio.csv', row.names = FALSE)

Verificar que esten limpios exitosamente

Se ha realizado una modifucacion de los datos eliminando algunas columnas como: seniors, raza, pais

head(Salario)
##   Edad   Sexo NivelEducativo     PuestoTrabajo AñosExperiencia Salario
## 1   32   Male              1 Software Engineer               5   90000
## 2   28 Female              2      Data Analyst               3   65000
## 3   45   Male              3           Manager              15  150000
## 4   36 Female              1   Sales Associate               7   60000
## 5   52   Male              2          Director              20  200000
## 6   29   Male              1 Marketing Analyst               2   55000

Propuesta de hipotesis nula (H0) e hipotesis alternativa (H1)

En este caso investigaremos si existen diferencias salariales significativa entre direfentes grupos de empreados en funcion de su nivel educativo

Hipotesis Nula (H0)

No hay diferencia significativa en el salario entre los grupos de empleados con diferentes niveles educativos.

Hipotesis Alternativa (H1)

Hay una diferencia significativa en el salario entre los grupos de empleados con diferentes niveles educativos.

Recuento estadistico sobre el nivel educativo

summary(Salario$NivelEducativo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.000   1.000   1.622   2.000   3.000
  • 0 educación secundaria | 1 licenciatura | 2 maestría | 3 doctorado -

Recuento estadistico sobre el Salario

summary(Salario$Salario)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     350   70000  115000  115307  160000  250000

El valor de los salarios en base a Dolares Americanos (USD)

Grafico de punto

Este grafico de puntos tiene relacion entre el salario de las personas y su nivel educacion utilizando una muestra de 250 personas

muestra <- Salario %>% sample_n(250)

ggplot(muestra, aes(x = NivelEducativo, y = Salario)) +
  geom_point(color = "orange") +
  geom_smooth(method = "lm", se = FALSE, color = "green") +
  labs(x = "Nivel Educativo", y = "Salario", title = "Relación entre Nivel Educativo y Salario en una Muestra de 250 Personas")
## `geom_smooth()` using formula = 'y ~ x'

  • 0 educación secundaria | 1 licenciatura | 2 maestría | 3 doctorado -

Grafico de mujeres

Este grafico esta realizado solo con mujeres

muestra <- Salario %>% sample_n(250)

muestra_mujeres <- muestra %>% filter(Sexo == "Female")

ggplot(muestra_mujeres, aes(x = NivelEducativo, y = Salario)) +
  geom_point(color = "purple") +
  geom_smooth(method = "lm", se = FALSE, color = "green") +
  labs(x = "Nivel Educativo", y = "Salario", title = "Relación entre Nivel Educativo y Salario en Mujeres unicamente")
## `geom_smooth()` using formula = 'y ~ x'

  • 0 educación secundaria | 1 licenciatura | 2 maestría | 3 doctorado -

Grafico de hombres

Este grafico esta realizado solo con hombres

muestra <- Salario %>% sample_n(250)

muestra_hombres <- muestra %>% filter(Sexo == "Male")

ggplot(muestra_hombres, aes(x = NivelEducativo, y = Salario)) +
  geom_point(color = "darkblue") +
  geom_smooth(method = "lm", se = FALSE, color = "green") +
  labs(x = "Nivel Educativo", y = "Salario", title = "Relación entre Nivel Educativo y Salario en hombres unicamente")
## `geom_smooth()` using formula = 'y ~ x'

  • 0 educación secundaria | 1 licenciatura | 2 maestría | 3 doctorado -

Grafico de caja

Este grafico de cajatiene relacion entre el sueldo y el genero de las personas

ggplot(Salario, aes(x = Sexo, y = Salario, fill = Sexo)) +
  geom_boxplot() +
  labs(x = "Género", y = "Salario", title = "Comparación de Salario entre Hombres y Mujeres") +
  scale_fill_manual(values = c("Male" = "darkblue", "Female" = "purple"))

Test sobre los Datos

Prueba ANOVA para grupos de edad

La prueba de ANOVA revela diferencias significativas en el salario y la edad de las personas. Específicamente, se observa que el grupo de edad impacta de manera significativa en el salario, indicando que hay variaciones en el salario entre diferentes rangos de edad.

anova_edad <- aov(Salario ~ Edad, data = Salario)
summary(anova_edad)
##               Df    Sum Sq   Mean Sq F value Pr(>F)    
## Edad           1 9.886e+12 9.886e+12    7550 <2e-16 ***
## Residuals   6682 8.750e+12 1.309e+09                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Prueba ANOVA para genero

La prueba de ANOVA muestra diferencias estadísticamente significativas en el salario y el genero de las personas. Se observa que el género tiene un impacto significativo en el salario, indicando que hay variaciones en el tiempo de sueño entre hombres y mujeres.

anova_genero <- aov(Salario~ Sexo, data = Salario)
summary(anova_genero)
##               Df    Sum Sq   Mean Sq F value Pr(>F)    
## Sexo           1 3.019e+11 3.019e+11     110 <2e-16 ***
## Residuals   6682 1.833e+13 2.744e+09                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ANOVA para la interacción nivel educacional y salario

Los resultados sugieren que hay una asociación significativa entre el nivel educativo y Salario que ganan las personas. El Nivel de educacion tiene un impacto significativo en el Salario

anova_salario <- aov(Salario~ NivelEducativo, data = Salario)
summary(anova_salario)
##                  Df    Sum Sq   Mean Sq F value Pr(>F)    
## NivelEducativo    1 7.764e+12 7.764e+12    4771 <2e-16 ***
## Residuals      6682 1.087e+13 1.627e+09                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclucion e interpretacion de los datos

En los graficos de puntos que se han proporcionado, no se logra apreciar una diferencia significativa entre el salario recibido por hombres y mujeres, pero si podemos encontrar una diferencia de sueldo bastante amplia entre el nivel educacional y el sueldo de las personas. Podemos decir que a mayor nivel educacional, las personas obtienen un mayor sueldo a diferencia de las personas con menos nivel eduacional, cuyo sueldo es menor.

Adicionalmente, gracias a los datos obtenidos en el grafico de caja, se logra apreciar de mejor manera la diferencia de salario entre hombres y mujeres que el grafico de puntos no nos lograba dar. esto gracias a que con el grafico de caja se trabajo con toda la poblacion del data set y no con una pequeña muestra

En conclucion, podemos decir que en base a la evidencia mostrada por los diferentes graficos que se han entregado, son de ayuda para rechazar la hipotesis nula y respaldar la hipotesis alterativa. La diferencia observada en el sueldo de las personas sugiere que a mayor nivel de educacion mayor podra ser su sueldo.