# Datos de salarios por provincia
salarios <- c(
# Valencia
299, 313, 300, 321, 308, 312, 300, 310, 281, 308, 309, 300, 303, 303, 311, 308,
291, 298, 276, 290, 310, 308, 295, 310, 286, 295, 289, 293, 291, 297, 297, 287,
297, 302, 298, 301, 313, 290, 306, 313, 294, 308, 295, 303, 316, 299, 313, 296,
290, 299,
# Castellón
252, 248, 232, 229, 256, 233, 240, 237, 248, 232, 230, 246, 236, 250, 238, 243,
245, 241, 235, 249, 238, 231, 230, 239, 261, 243, 242, 245, 249, 258, 245, 236,
244, 242, 229, 246, 244, 244, 255, 247, 236, 252, 237, 259, 248, 237, 236, 252,
236, 239,
# Alicante
272, 268, 285, 274, 278, 287, 297, 275, 269, 281, 270, 284, 282, 281, 280, 286,
265, 283, 281, 272, 269, 286, 268, 288, 284, 282, 304, 280, 283, 281, 281, 286,
287, 288, 278, 272, 268, 287, 269, 272, 270, 271, 291, 265, 280, 280, 275, 294,
269, 277
)
provincia <- factor(c(rep("Valencia", 50), rep("Castellón", 50), rep("Alicante", 50)))
# Ver las primeras observaciones de los datos
head(data.frame(salarios, provincia))
## salarios provincia
## 1 299 Valencia
## 2 313 Valencia
## 3 300 Valencia
## 4 321 Valencia
## 5 308 Valencia
## 6 312 Valencia
install.packages("ggplot2")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.4'
## (as 'lib' is unspecified)
library(ggplot2)
# Cargar ggplot2
library(ggplot2)
# Gráfico de caja para comparar los salarios por provincia
ggplot(data = data.frame(salarios, provincia), aes(x = provincia, y = salarios)) +
geom_boxplot(fill = c("lightblue", "lightgreen", "lightcoral")) +
labs(title = "Comparación de Salarios por Provincia", x = "Provincia", y = "Salarios (Euros por semana)")
# Estadísticas descriptivas
tapply(salarios, provincia, summary)
## $Alicante
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 265.0 272.0 280.0 279.1 284.8 304.0
##
## $Castellón
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 229.0 236.0 242.5 242.4 248.0 261.0
##
## $Valencia
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 276.0 295.0 300.0 300.6 308.0 321.0
# Calcular la desviación estándar por provincia
tapply(salarios, provincia, sd)
## Alicante Castellón Valencia
## 8.593424 8.228869 9.567718
Observamos diferencias en los promedios de los salarios semanales por provincia.Valencia parece tener un promedio más alto y una menor variabilidad que Castellón y Alicante, según el gráfico y las estadísticas descriptivas.
# ANOVA
anova_salarios <- aov(salarios ~ provincia)
summary(anova_salarios)
## Df Sum Sq Mean Sq F value Pr(>F)
## provincia 2 86713 43356 558 <2e-16 ***
## Residuals 147 11422 78
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hipótesis del ANOVA: Hipótesis nula (H₀): Las medias de los salarios semanales son iguales en las tres provincias. Hipótesis alternativa (H₁): Al menos una de las provincias tiene una media diferente.
en notación científica. Equivale a 0.0000000000000002.
0.05 o 0.01. Si el valor p es menor que el nivel de significancia, se rechaza la hipótesis nula
# Obtener el p-valor del ANOVA
p_value <- summary(anova_salarios)[[1]][["Pr(>F)"]][1]
cat("P-valor del ANOVA:", p_value, "\n")
## P-valor del ANOVA: 2.213869e-69
if (p_value < 0.05) {
cat("Se rechaza la hipótesis nula: Hay diferencias significativas en los salarios entre las provincias.\n")
} else {
cat("No se rechaza la hipótesis nula: No hay diferencias significativas en los salarios entre las provincias.\n")
}
## Se rechaza la hipótesis nula: Hay diferencias significativas en los salarios entre las provincias.
# Aplicar el test de Tukey para determinar dónde están las diferencias
tukey_salarios <- TukeyHSD(anova_salarios)
print(tukey_salarios)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = salarios ~ provincia)
##
## $provincia
## diff lwr upr p adj
## Castellón-Alicante -36.70 -40.87415 -32.52585 0
## Valencia-Alicante 21.54 17.36585 25.71415 0
## Valencia-Castellón 58.24 54.06585 62.41415 0
El test de Tukey muestra qué pares de provincias tienen diferencias significativas en sus medias de salarios.
# Histograma de residuos
hist(anova_salarios$residuals,
main = "Histograma de los Residuos",
xlab = "Residuos",
col = "lightblue",
border = "black")
# QQ plot de los residuos
qqnorm(anova_salarios$residuals,
main = "QQ Plot de los Residuos")
qqline(anova_salarios$residuals, col = "red")
# Graficar los residuos para analizar independencia
plot(anova_salarios$residuals,
main = "Gráfico de Residuos vs Observaciones",
xlab = "Índice de Observación",
ylab = "Residuos",
pch = 16, col = "blue")
abline(h = 0, col = "red", lty = 2)
# Test de Shapiro-Wilk para normalidad
shapiro.test(anova_salarios$residuals)
##
## Shapiro-Wilk normality test
##
## data: anova_salarios$residuals
## W = 0.99194, p-value = 0.5574
Dado que el valor p es mayor que el nivel de significancia comúnmente utilizado (0.05), no se puede rechazar la hipótesis nula de que los residuos siguen una distribución normal.
kruskal_test <- kruskal.test(salarios ~ provincia)
print(kruskal_test)
##
## Kruskal-Wallis rank sum test
##
## data: salarios by provincia
## Kruskal-Wallis chi-squared = 126.23, df = 2, p-value < 2.2e-16
El valor p es extremadamente pequeño (< 2.2e-16), lo que significa que podemos rechazar la hipótesis nula de que las medianas son iguales.
En otras palabras, hay evidencia suficiente para concluir que al menos una de las provincias tiene una mediana de salario diferente a las demás
Deciones y recomendaciones de la universidad (G) #1 la universidad podría considerar ajustar las políticas de compensación para disminuir las disparidades salariales entre las provincias.
2 Fomentar investigaciones adicionales para identificar las causas de estas diferencias y desarrollar estrategias que mejoren la equidad salarial en la región.
3 Implementar programas de capacitación y empleo para mejorar las oportunidades laborales en las provincias con salarios más bajos.