A. Se introducen los datos.
salario <- c(299, 313, 300, 321, 308, 312, 300, 310, 281, 308, 309, 300, 303, 303, 311, 308,
291, 298, 276, 290, 310, 308, 295, 310, 286, 295, 289, 293, 291, 297, 297, 287,
297, 302, 298, 301, 313, 290, 306, 313, 294, 308, 295, 303, 316, 299, 313, 296,
290, 299,
252, 248, 232, 229, 256, 233, 240, 237, 248, 232, 230, 246, 236, 250, 238, 243,
245, 241, 235, 249, 238, 231, 230, 239, 261, 243, 242, 245, 249, 258, 245, 236,
244, 242, 229, 246, 244, 244, 255, 247, 236, 252, 237, 259, 248, 237, 236, 252,
236, 239,
272, 268, 285, 274, 278, 287, 297, 275, 269, 281, 270, 284, 282, 281, 280, 286,
265, 283, 281, 272, 269, 286, 268, 288, 284, 282, 304, 280, 283, 281, 281, 286,
287, 288, 278, 272, 268, 287, 269, 272, 270, 271, 291, 265, 280, 280, 275, 294,
269, 277)
provincia <- factor(rep(c("Valencia", "Castellón", "Alicante"), each=50))
B. Exploracion de los datos.
# Gráficos descriptivos
boxplot(salario ~ provincia,
main="Salarios por provincia",
xlab="Provincia", ylab="Salario semanal",
col=c("lightblue", "lightcoral", "lightgreen"))

# Resumen de datos de salarios por provincia
summary_data_salarios <- aggregate(salario ~ provincia, data=data.frame(salario, provincia), summary)
summary_data_salarios
## provincia salario.Min. salario.1st Qu. salario.Median salario.Mean
## 1 Alicante 265.00 272.00 280.00 279.10
## 2 Castellón 229.00 236.00 242.50 242.40
## 3 Valencia 276.00 295.00 300.00 300.64
## salario.3rd Qu. salario.Max.
## 1 284.75 304.00
## 2 248.00 261.00
## 3 308.00 321.00
El gráfico nos muestra las diferencias en los salarios semanales
entre las provincias, podemos notar que Valencia tiene el salario
promedio más alto y la mayor variabilidad, seguida por Alicante con una
variabilidad moderada, mientras que Castellón presenta el salario
promedio más bajo y la menor variabilidad.
F.
Se analiza el supuesto de independencia de los errores.
plot(anova_model2$residuals,
col="blue",
pch=09)

Gráficamente se puede observar que los errores están distribuidos de
una forma dispersa y por tanto no se logra observar ningún patrón entre
ellos, por lo cual se cumple el supuesto de independencia, que garantiza
que los resultados no estén sesgados.
Se realiza el histograma y el QQplot de los residuos para
identificar si se cumple con el supuesto de normalidad.
hist(anova_model2$residuals,
col="blue")

qqnorm(anova_model2$residuals,
col="blue")
qqline(anova_model2$residuals)

Analizando los gráficos, no se puede observar claramente si se
cumple o no, el supuesto de normalidad en los errores, por lo que a
continuación se realiza la prueba de Shapiro Wilk para verificar el
cumplimiento del supuesto de normalidad.
Se realiza el test de Shapiro-Wilk.
shapiro.test(anova_model2$residuals)
##
## Shapiro-Wilk normality test
##
## data: anova_model2$residuals
## W = 0.99194, p-value = 0.5574
Nos encontramos con P-valor de 0.5574 > 0.05, lo cual nos indica
que no existe evidencia suficiente para rechazar la hipótesis nula de
que los errores se distribuyen de forma normal, por lo tanto, el modelo
ANOVA si cumple con el supuesto de normalidad, a pesar de que se logran
observar algunas desviaciones en el grafico Q-Q Plot.
Dado lo anterior, podemos concluir que el modelo ANOVA es un modelo
valido para analizar los datos y el cual cumple con las condiciones de
normalidad.