ANÁLISIS DE ANOVA
Introducción
El análisis de la varianza es una técnica estadística utilizada para evaluar si existen diferencias significativas entre las medias de varios grupos, descomponiendo la variabilidad total en sus componentes dentro y entre los grupos. Este método permite determinar si las variaciones observadas son atribuibles a factores específicos o si podrían ser el resultado de la aleatoriedad.
En este trabajo, se empleará ANOVA para analizar dos casos de estudio, evaluando si factores específicos como la carrera universitaria o la provincia de residencia tienen un impacto significativo en ciertos comportamientos y resultados económicos.
El primer caso se centra en un estudio realizado en una universidad de Colombia para analizar los hábitos, preferencias y niveles de satisfacción sexual de estudiantes de tres carreras universitarias: economía, administración y contaduría. Este análisis pretende identificar si los estudiantes de estas carreras presentan variaciones en la frecuencia mensual de relaciones sexuales, lo cual podría sugerir tendencias de comportamiento relacionadas con el contexto académico. A partir de los resultados, se busca proponer políticas que favorezcan el bienestar emocional y sexual de los jóvenes, que adapten a los perfiles observados.
Por otro lado, el segundo caso de estudio examina si el salario semanal promedio difiere entre tres provincias de la Comunidad Valenciana: Valencia, Castellón y Alicante. Se han recogido datos de una muestra representativa de 50 personas por provincia, con el propósito de evaluar si el lugar de residencia afecta de manera significativa los niveles salariales. Un análisis de este tipo permite identificar patrones de desigualdad en los ingresos según la ubicación geográfica, ofreciendo información de carácter importante para la toma de decisiones que promuevan la equidad económica entre las provincias.
Estos estudios ofrecen una base para diseñar políticas públicas que respondan a necesidades específicas. A través de estos, se explora el potencial del ANOVA para contribuir a un desarrollo social y económico, ofreciendo propuestas de intervención adaptadas a las particularidades de cada contexto.
Ejercicio 1
Relaciones sexuales entre jóvenes universitarios, en 3 carreras diferentes. El departamento de Psicología de una Universidad de Colombia ha realizado un estudio sobre hábitos, preferencias y satisfacción sexual en estudiantes universitarios. Hemos utilizado los datos que recogieron en sus encuestas y queremos conocer si existen diferencias entre la frecuencia mensual de relaciones sexuales de estudiantes universitarios pertenecientes a tres titulaciones universitarias diferentes:
Economía: 11 14 7 15 11 13 11 16 10 15 18 12 9 9 10 10 15 10 14 10 10 12 14 12 15 7 13 6 10 15 20 10 13 10 6 14 8 10 8 11
Administración: 13 10 12 7 5 10 10 16 9 7 7 2 6 9 9 8 8 10 3 6 5 2 9 3 4 5 10 8 5 9 10 8 13 10 0 2 1 1 0 4
Contaduría: 6 7 3 5 9 6 1 6 0 2 5 6 11 6 7 0 5 7 5 4 7 4 2 8 9 6 1 4 7 7 8 9 7 5 1 6 9 4 7 6
actividad_sexual <- c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 10, 15, 10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11, 13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4, 6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)
titulacion <- factor(rep(c("Economía", "Administración", "Contaduría"), times = c(41,40,40)))
# Gráfico de cajas
boxplot(actividad_sexual ~ titulacion,
main = "Distribución de actividad sexual por titulación",
xlab = "Titulación",
ylab = "Frecuencia de actividad sexual",
col = c("violetred1", "yellow1", "cyan3"))
Gráfico de BLOXPOT
El grafico de bloxpot muestra la distribución de la frecuencia de actividad sexual en tres carreras: Administración, Contaduría y Economía. Observamos que la mediana de la frecuencia de relaciones sexuales es más alta en los estudiantes de Economía, seguida por los de Administración, y es más baja en Contaduría. Además, la variabilidad de los datos es mayor en Economía, ya que el rango intercuartil y los bigotes del boxplot son más amplios en comparación con las otras dos carreras. Esto indica que los estudiantes de Economía tienen una frecuencia de actividad sexual más dispersa y en promedio más alta, mientras que, en Contaduría, la frecuencia es menor y menos variable.
tapply(actividad_sexual, titulacion, mean)
## Administración Contaduría Economía
## 6.90000 5.45000 11.56098
anova = aov( lm(actividad_sexual ~ titulacion) )
options(scipen=999)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## titulacion 2 828.4 414.2 39.3 0.000000000000083 ***
## Residuals 118 1243.6 10.5
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Test de ANOVA
El análisis de varianza de un factor se emplea aquí para analizar si la frecuencia mensual de relaciones sexuales varía entre estudiantes de Economía, Administración y Contaduría. La hipótesis nula establece que las medias de los tres grupos son iguales, mientras que la hipótesis alternativa sugiere que al menos una de ellas es diferente.
Con un p-valor de 0.000000000000083, extremadamente bajo, hay suficiente evidencia para rechazar la hipótesis nula, lo que indica que existen diferencias en las frecuencias promedio de relaciones sexuales entre las carreras. Además, la estadística F de 39.3 refuerza este hallazgo, al mostrar que la variabilidad entre los grupos es considerablemente mayor que la variabilidad dentro de ellos, lo que confirma la existencia de diferencias significativas.
plot(anova$residuals)
Residuos
Este gráfico muestra los residuos en el eje vertical y el índice de cada observación en el eje horizontal. Los residuos están centrados lo que sugiere que las diferencias entre la frecuencia de relaciones sexuales y el promedio de cada grupo están equilibradas. No se observa ningún patrón claro en la distribución de los puntos, lo cual indica que los residuos son aleatorios y que no existen relaciones ocultas entre el índice de observación y los residuos. Esta aleatoriedad sugiere que el modelo ANOVA está capturando bien las variaciones entre los tres grupos y que los errores son independientes. Además, la variabilidad de los residuos parece constante a lo largo del gráfico, lo que indica homocedasticidad.
# Histograma de los residuos del ANOVA con color morado
hist(anova$residuals, col = "purple", # color morado
main = "Histograma de Residuos",
xlab = "Residuos")
Los valores extremos sugieren la presencia de observaciones atípicas que se desvían considerablemente de la tendencia central. Además, se puede apreciar que la mayoría de los residuos se agrupan alrededor del valor cero, lo que indica que existe una tendencia central clara, aunque la distribución no es perfectamente simétrica. Esta leve asimetría implica que la distribución no es completamente equilibrada en ambos extremos, lo que podría reflejar ciertos sesgos en los datos.
qqnorm(anova$residuals, col = "#EE2C2C",
main = "Gráfico Q-Q de Residuos")
qqline(anova$residuals, col = "#0D0D0D", lwd = 2)
El gráfico Q-Q (cuantil-cuantil) compara los cuantiles de los residuos obtenidos en el ANOVA con los cuantiles de una distribución normal teórica. En este gráfico, los residuos del análisis se representan en el eje vertical y los valores teóricos de una distribución normal en el eje horizontal. La mayoría de los puntos se alinean cercanamente con la línea diagonal, lo cual indica que los residuos se distribuyen aproximadamente de manera normal. Esta alineación con la línea de referencia significa que los datos no presentan desviaciones significativas de normalidad, lo que es fundamental para que los resultados del ANOVA sean válidos. Sin embargo, en los extremos de la gráfica donde se encuentran los valores más pequeños y grandes, se observa una ligera desviación de algunos puntos respecto a la línea diagonal, lo cual sugiere la presencia de algunas observaciones extremas o valores atípicos. Aunque esta ligera desviación podría indicar una leve desviación de normalidad en los valores más extremos, parece ser suficientemente pequeña como para no invalidar el análisis.
shapiro.test(anova$residuals)
##
## Shapiro-Wilk normality test
##
## data: anova$residuals
## W = 0.98487, p-value = 0.1955
Test de normalidad
Hipótesis nula (H0): Los datos siguen una distribución normal.
Hipótesis alternativa (H1): Los datos no siguen una distribución normal.
El valor p de 0.1955 es mayor que 0.05. Esto significa que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad. Por lo tanto, podemos concluir que, con un 95% de confianza, los errores del modelo ANOVA cumplen con el supuesto de normalidad, lo cual valida el uso de este modelo para el análisis.
tukey_result <- TukeyHSD(anova)
# Mostrar los resultados del test de Tukey
print(tukey_result)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = lm(actividad_sexual ~ titulacion))
##
## $titulacion
## diff lwr upr p adj
## Contaduría-Administración -1.450000 -3.173063 0.2730628 0.1172897
## Economía-Administración 4.660976 2.948452 6.3734997 0.0000000
## Economía-Contaduría 6.110976 4.398452 7.8234997 0.0000000
Prueba de Tukey
Hipótesis
Hipótesis nula (H₀): No hay diferencias significativas en la frecuencia de actividad sexual entre las titulaciones universitarias.
Hipótesis alternativa (H₁): Al menos una de las titulaciones tiene una frecuencia de actividad sexual significativamente diferente.
Contaduría - Administración:La diferencia promedio entre las dos carreras es -1.450000. El intervalo de confianza de 95% para esta diferencia es de -3.173063 a 0.2730628, y el valor p ajustado es 0.1172897.Dado que el valor p es mayor que 0.05, no hay evidencia suficiente para rechazar la hipótesis nula. Esto significa que no hay una diferencia estadísticamente significativa entre las frecuencias de actividad sexual de los estudiantes de Contaduría y Administración.
Economía - Administración:La diferencia promedio entre las dos carreras es 4.660976. El intervalo de confianza de 95% para esta diferencia es de 2.948452 a 6.3734997, y el valor p ajustado es 0.0000000.Dado que el valor p es menor que 0.05, hay una diferencia estadísticamente significativa entre los estudiantes de Economía y Administración, con los estudiantes de Economía mostrando una frecuencia significativamente mayor que los de Administración.
Economía - Contaduría:La diferencia promedio entre las dos carreras es 6.110976. El intervalo de confianza de 95% para esta diferencia es de 4.398452 a 7.8234997, y el valor p ajustado es 0.0000000.Este resultado también muestra que hay una diferencia estadísticamente significativa entre los estudiantes de Economía y Contaduría, con los estudiantes de Economía mostrando una frecuencia significativamente mayor en comparación con los de Contaduría.
Políticas
Los resultados del análisis muestran que la carrera de Economía tiene una mayor frecuencia de actividad sexual en comparación con las carreras de Administración y Contaduría. Esto sugiere que los estudiantes de Economía pueden tener una mayor necesidad de recursos enfocados en educación sexual. Por lo tanto, se recomienda la implementación de políticas públicas que promuevan una educación sexual integral adaptada a las características de cada carrera universitaria.
Por eso es importante ofrecer programas de salud sexual y emocional dirigidos a los diferentes grupos académicos, con enfoque preventivo y personalizado. La universidad debe asegurar que todos los estudiantes tengan acceso a talleres, campañas informativas y asesorías psicológicas, para fomentar una vida sexual responsable y saludable. De igual manera, se sugiere aumentar el acompañamiento psicoeducativo para aquellos estudiantes con menor frecuencia de actividad sexual, como los de Contaduría y Administración.
Ejercicio 2
Diferencias entre los salarios según el tipo de ubicación Nos gustaría saber si el salario varía en alguna de las 3 provincias de la Comunidad Valenciana. Para ello, se realizó un estudio con 50 personas por provincia a las que se preguntó su salario en euros por semana.
Valencia: 299 313 300 321 308 312 300 310 281 308 309 300 303 303 311 308 291 298 276 290 310 308 295 310 286 295 289 293 291 297 297 287 297 302 298 301 313 290 306 313 294 308 295 303 316 299 313 296 290 299
Castellón: 252 248 232 229 256 233 240 237 248 232 230 246 236 250 238 243 245 241 235 249 238 231 230 239 261 243 242 245 249 258 245 236 244 242 229 246 244 244 255 247 236 252 237 259 248 237 236 252 236 239
Alicante: 272 268 285 274 278 287 297 275 269 281 270 284 282 281 280 286 265 283 281 272 269 286 268 288 284 282 304 280 283 281 281 286 287 288 278 272 268 287 269 272 270 271 291 265 280 280 275 294 269 277
salarios <- c(299,313,300,321,308,312,300,310,281,308,309,300,303,303,311,308,291,298,276,290,310,308,295,310,286,295,289,293,291,297,297,287,297,302,298,301,313,290,306,313,294,308,295,303,316,299,313,296,290,299,252,248,232,229,256,233,240,237,248,232,230,246,236,250,238,243,245,241,235,249,238,231,230,239,261,243,242,245,249,258,245,236,244,242,229,246,244,244,255,247,236,252,237,259,248,237,236,252,236,239,272,268,285,274,278,287,297,275,269,281,270,284,282,281,280,286,265,283,281,272,269,286,268,288,284,282,304,280,283,281,281,286,287,288,278,272,268,287,269,272,270,271,291,265,280,280,275,294,269,277)
provincia <- factor(rep(c("valencia", "castellon", "alicante"), times = c(50,50,50)))
#Grafico de cajas
boxplot(salarios ~ provincia,
main = "Distribución de salarios por provincia",
xlab = "provincia",
ylab = "salarios",
col = c("#00BFFF", "#FF1493", "green3"))
Boxplot
En el anterior gráfico de cajas podemos observar la diferencia que existe entre los salarios según la ubicación de las tres provincias de la comunidad (Alicante, Castellón y Valencia). Se puede evidenciar que en promedio la provincia con los salarios más altos en este caso es Valencia, como lo indica la posición de la caja y la mediana muy cercana a 300. Por otro lado, Alicante tiene una menor dispersión en los salarios, una mediana de aproximadamente 280, un poco más baja en comparación con la provincia de Valencia, pero mayor a la provincia de Castellón.
En último lugar, vemos que Castellón cuenta con la mediana más baja, en la proximidad de 240, al igual que sus salarios.Lo anterior se podría relacionar con los factores que influyen en la distribución en las tres provincias mencionadas anteriormente. Por ejemplo, la composición de los sectores económicos en cada provincia influye directamente en esa distribución, debido al mercado laboral que este les puede ofrecer, lo que permite que haya mayor variabilidad y una mejor remuneración de los salarios.
tapply(salarios, provincia, mean)
## alicante castellon valencia
## 279.10 242.40 300.64
anova = aov( lm(salarios ~ provincia) )
options(scipen=999)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## provincia 2 86713 43356 558 <0.0000000000000002 ***
## Residuals 147 11422 78
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Test de ANOVA
En este caso, el análisis de varianza se utiliza para evaluar si el salario semanal promedio difiere entre las provincias de Valencia, Castellón y Alicante. La hipótesis nula plantea que las medias salariales de las tres provincias son iguales, mientras que la hipótesis alternativa sugiere que al menos una de las medias es significativamente diferente de las demás.
El p-valor obtenido, 0.0000000000000002 proporciona evidencia suficiente para rechazar la hipótesis nula, sugiriendo que los salarios medios no son iguales en las tres provincias. Con una estadística F de 558, se observa que la variabilidad entre provincias es mucho mayor que la variabilidad dentro de cada provincia, lo que respalda la conclusión de diferencias significativas en los salarios semanales. En particular se destaca la diferencia entre Valencia y Castellón
plot(anova$residuals)
Grafico de residuos
El gráfico anterior representa los residuales del análisis ANOVA. Cada punto corresponde a un residuo es decir a la diferencia entre el valor observado y el valor predicho por el modelo. Por lo cual podemos observar, que los residuos parecen estar distribuidos de manera aleatoria alrededor de la línea horizontal cerca al valor cero. Esto señala que en general el modelo podría estar haciendo un buen trabajo al predecir los valores, ya que no se observan patrones claros en los datos.
# Histograma de los residuos del ANOVA
hist(anova$residuals, col = "cyan4",
main = "Histograma de Residuos",
xlab = "Residuos")
Histograma
En el histograma, los residuos se distribuyen alrededor de la media. La forma general parece ser aproximadamente simétrica, pero muestra una leve inclinación hacia la derecha.
La distribución no es perfectamente normal, pero tiene una tendencia central clara, con una dispersión moderada a los lados, aunque con una mayor frecuencia en el intervalo cercano a cero.
#Grafico Q-Q de residuos
qqnorm(anova$residuals, col = "maroon1",
main = "Gráfico Q-Q de Residuos")
qqline(anova$residuals, col = "snow4", lwd = 2)
En el gráfico Q-Q (quantile-quantile), los puntos representan los residuos ordenados en función de los cuantiles teóricos de una distribución normal. La línea diagonal muestra la distribución normal esperada.
Observamos que la mayoría de los puntos se alinean de manera cercana a la línea diagonal, lo que sugiere que los residuos se aproximan a una distribución normal. Sin embargo, en los extremos (principalmente en la cola izquierda), algunos puntos se desvían de la línea, lo que indica ligeras desviaciones de normalidad en los valores residuales extremos.
shapiro.test(anova$residuals)
##
## Shapiro-Wilk normality test
##
## data: anova$residuals
## W = 0.99194, p-value = 0.5574
Test de normalidad
Hipótesis nula (H0): Los datos siguen una distribución normal.
Hipótesis alternativa (H1): Los datos no siguen una distribución normal.
El valor p de 0.5574 es mayor que 0.05. Esto significa que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad. Por lo tanto, podemos concluir que, con un 95% de confianza, los errores del modelo ANOVA cumplen con el supuesto de normalidad, lo cual valida el uso de este modelo para el análisis.
tukey_result <- TukeyHSD(anova)
#Mostrar los resultados del test de Tukey
print(tukey_result)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = lm(salarios ~ provincia))
##
## $provincia
## diff lwr upr p adj
## castellon-alicante -36.70 -40.87415 -32.52585 0
## valencia-alicante 21.54 17.36585 25.71415 0
## valencia-castellon 58.24 54.06585 62.41415 0
Tukey
Castellón - Alicante: La diferencia promedio entre los salarios en Castellón y Alicante es de -36.70 euros, con un intervalo de confianza de -40.8742 a -32.5259. El valor p ajustado es 0.0000, lo que indica que los salarios en Castellón son significativamente más bajos que en Alicante.
Valencia - Alicante: La diferencia promedio es de 21.54 euros, con un intervalo de confianza de 17.3659 a 25.7142. El valor p ajustado es 0.0000, lo que sugiere que los salarios en Valencia son significativamente más altos que en Alicante.
Valencia - Castellón: La diferencia promedio entre los salarios en Valencia y Castellón es de 58.24 euros, con un intervalo de confianza de 54.0659 a 62.4142. El valor p ajustado es 0.0000, lo que indica que los salarios en Valencia son significativamente más altos que en Castellón.
Políticas
Se evidencia una disparidad salarial entre las provincias de Valencia, Alicante y Castellón, siendo Valencia la de mejores salarios. Para reducir esta desigualdad, el gobierno debería promover políticas públicas orientadas al crecimiento económico en Alicante y Castellón. Una estrategia sería incentivar la diversificación económica, promoviendo sectores como la tecnología, la innovación y la manufactura avanzada, que suelen generar salarios más altos.
Esto se podría lograr mediante incentivos fiscales o subvenciones a empresas innovadoras. Además, mejorar la infraestructura de transporte facilitaría la movilidad laboral, permitiendo que los habitantes de Castellón y Alicante accedan a las oportunidades salariales de Valencia.
Por último, sería esencial fortalecer la oferta educativa y de formación en áreas de alta demanda, como son la informática y sistemas, para mejorar las perspectivas salariales en estas provincias y, a su vez, impulsar el desarrollo económico local.
Conclusión
En conclusión, el análisis de varianza (ANOVA) aplicado en los dos casos de estudio revela diferencias significativas tanto en los hábitos sexuales de estudiantes universitarios de diferentes carreras como en los salarios promedio entre provincias. En el primer caso, se encontró que los estudiantes de Economía presentan una mayor frecuencia de relaciones sexuales en comparación con los de Administración y Contaduría, lo que sugiere la necesidad de políticas adaptadas a cada grupo académico para promover el bienestar sexual. En el segundo caso, los salarios semanales varían significativamente entre las provincias de Valencia, Castellón y Alicante, con Valencia mostrando los salarios más altos.
El análisis de varianza (ANOVA) ha demostrado ser una herramienta estadística crucial para identificar y evaluar diferencias significativas entre grupos en diversos contextos. Nos muestra la importancia de ANOVA no solo en la investigación académica, sino también en la formulación de políticas públicas basadas en evidencia, ayudando a tomar decisiones