En el siguiente informe se analizara un dataSet sobre el salario de diferente tipos de personas al rededor del mundo y de diferentes razas de personas
El dataSet fue obtenido en la pagina de ‘Kaggle’
https://www.kaggle.com/datasets/amirmahdiabbootalebi/salary-by-job-title-and-country
Este conjunto de datos se origina a partir de una combinación de encuestas salariales disponibles públicamente, datos recopilados por sitios web de búsqueda de empleo de buena reputación y estadísticas laborales gubernamentales. Ha sido cuidadosamente seleccionado para garantizar la precisión y exhaustividad de los datos.
Salario <- read.csv("C:/Users/Chovi/Desktop/Salary.csv")
head(Salario)
## Edad Sexo NivelEducativo PuestoTrabajo AñosExperiencia Salario Pais
## 1 32 Male 1 Software Engineer 5 90000 UK
## 2 28 Female 2 Data Analyst 3 65000 USA
## 3 45 Male 3 Manager 15 150000 Canada
## 4 36 Female 1 Sales Associate 7 60000 USA
## 5 52 Male 2 Director 20 200000 USA
## 6 29 Male 1 Marketing Analyst 2 55000 USA
## Raza senior
## 1 White 0
## 2 Hispanic 0
## 3 White 1
## 4 Hispanic 0
## 5 Asian 0
## 6 Hispanic 0
Salario <- Salario %>%
select(-senior, -Raza, -Pais)
write.csv(Salario, 'SalarioLimpio.csv', row.names = FALSE)
Se ha realizado una modifucacion de los datos eliminando algunas columnas como: seniors, raza, pais
head(Salario)
## Edad Sexo NivelEducativo PuestoTrabajo AñosExperiencia Salario
## 1 32 Male 1 Software Engineer 5 90000
## 2 28 Female 2 Data Analyst 3 65000
## 3 45 Male 3 Manager 15 150000
## 4 36 Female 1 Sales Associate 7 60000
## 5 52 Male 2 Director 20 200000
## 6 29 Male 1 Marketing Analyst 2 55000
En este caso investigaremos si existen diferencias salariales significativa entre direfentes grupos de empreados en funcion de su nivel educativo
No hay diferencia significativa en el salario entre los grupos de empleados con diferentes niveles educativos.
Hay una diferencia significativa en el salario entre los grupos de empleados con diferentes niveles educativos.
summary(Salario$NivelEducativo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.000 1.000 1.622 2.000 3.000
summary(Salario$Salario)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 350 70000 115000 115307 160000 250000
El valor de los salarios en base a Dolares Americanos (USD)
Este grafico de puntos tiene relacion entre el salario de las personas y su nivel educacion utilizando una muestra de 250 personas
muestra <- Salario %>% sample_n(250)
ggplot(muestra, aes(x = NivelEducativo, y = Salario)) +
geom_point(color = "orange") +
geom_smooth(method = "lm", se = FALSE, color = "green") +
labs(x = "Nivel Educativo", y = "Salario", title = "Relación entre Nivel Educativo y Salario en una Muestra de 250 Personas")
## `geom_smooth()` using formula = 'y ~ x'
Este grafico esta realizado solo con mujeres
muestra <- Salario %>% sample_n(250)
muestra_mujeres <- muestra %>% filter(Sexo == "Female")
ggplot(muestra_mujeres, aes(x = NivelEducativo, y = Salario)) +
geom_point(color = "purple") +
geom_smooth(method = "lm", se = FALSE, color = "green") +
labs(x = "Nivel Educativo", y = "Salario", title = "Relación entre Nivel Educativo y Salario en Mujeres unicamente")
## `geom_smooth()` using formula = 'y ~ x'
Este grafico esta realizado solo con hombres
muestra <- Salario %>% sample_n(250)
muestra_hombres <- muestra %>% filter(Sexo == "Male")
ggplot(muestra_hombres, aes(x = NivelEducativo, y = Salario)) +
geom_point(color = "darkblue") +
geom_smooth(method = "lm", se = FALSE, color = "green") +
labs(x = "Nivel Educativo", y = "Salario", title = "Relación entre Nivel Educativo y Salario en hombres unicamente")
## `geom_smooth()` using formula = 'y ~ x'
Este grafico de cajatiene relacion entre el sueldo y el genero de las personas
ggplot(Salario, aes(x = Sexo, y = Salario, fill = Sexo)) +
geom_boxplot() +
labs(x = "Género", y = "Salario", title = "Comparación de Salario entre Hombres y Mujeres") +
scale_fill_manual(values = c("Male" = "darkblue", "Female" = "purple"))
Prueba ANOVA para grupos de edad
La prueba de ANOVA revela diferencias significativas en el salario y la edad de las personas. Específicamente, se observa que el grupo de edad impacta de manera significativa en el salario, indicando que hay variaciones en el salario entre diferentes rangos de edad.
anova_edad <- aov(Salario ~ Edad, data = Salario)
summary(anova_edad)
## Df Sum Sq Mean Sq F value Pr(>F)
## Edad 1 9.886e+12 9.886e+12 7550 <2e-16 ***
## Residuals 6682 8.750e+12 1.309e+09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Prueba ANOVA para genero
La prueba de ANOVA muestra diferencias estadísticamente significativas en el salario y el genero de las personas. Se observa que el género tiene un impacto significativo en el salario, indicando que hay variaciones en el tiempo de sueño entre hombres y mujeres.
anova_genero <- aov(Salario~ Sexo, data = Salario)
summary(anova_genero)
## Df Sum Sq Mean Sq F value Pr(>F)
## Sexo 1 3.019e+11 3.019e+11 110 <2e-16 ***
## Residuals 6682 1.833e+13 2.744e+09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ANOVA para la interacción nivel educacional y salario
Los resultados sugieren que hay una asociación significativa entre el nivel educativo y Salario que ganan las personas. El Nivel de educacion tiene un impacto significativo en el Salario
anova_salario <- aov(Salario~ NivelEducativo, data = Salario)
summary(anova_salario)
## Df Sum Sq Mean Sq F value Pr(>F)
## NivelEducativo 1 7.764e+12 7.764e+12 4771 <2e-16 ***
## Residuals 6682 1.087e+13 1.627e+09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En los graficos de puntos que se han proporcionado, no se logra apreciar una diferencia significativa entre el salario recibido por hombres y mujeres, pero si podemos encontrar una diferencia de sueldo bastante amplia entre el nivel educacional y el sueldo de las personas. Podemos decir que a mayor nivel educacional, las personas obtienen un mayor sueldo a diferencia de las personas con menos nivel eduacional, cuyo sueldo es menor.
Adicionalmente, gracias a los datos obtenidos en el grafico de caja, se logra apreciar de mejor manera la diferencia de salario entre hombres y mujeres que el grafico de puntos no nos lograba dar. esto gracias a que con el grafico de caja se trabajo con toda la poblacion del data set y no con una pequeña muestra
En conclucion, podemos decir que en base a la evidencia mostrada por los diferentes graficos que se han entregado, son de ayuda para rechazar la hipotesis nula y respaldar la hipotesis alterativa. La diferencia observada en el sueldo de las personas sugiere que a mayor nivel de educacion mayor podra ser su sueldo.