Introduccion

En este trabajo se aplicaran tecnicas de analisis de varianza (ANOVA) para estudiar dos conjuntos de datos que abordan tematicas relevantes desde una perpectiva estadistica y social. El ejercicio 1 se centra en explorar si existen diferencias significativas en la frecuencia mensual de relaciones sexuales entre entre estudiantes universitarios de 3 carreras distintas (economia, contaduria, y administracion), a partir de datos recopilados por el departamento de psicologia de una universidad de Colombia. Este analisis nos puede permitir entender si la pertenencia a una carrera en especifico influye en el comportamiento de los estudiantes respecto a su vida sexual.

El ejercicio 2 analiza las diferencias salariales entre tres provincias de la comunidad Valenciana (Valencia, Catellon, y Alicante). A traves de datos de salario semanal, se avaluan si existen variaciones significativas en los ingresos segun la provincia.

En ambos ejercicios se emplean pruebas ANOVA para comparar las medias de los grupos y el test HSD de Tuckey para identificar en que grupos se encuentran las diferencias significativas, en caso de que existan. Tambien evaluamos los supuestos de normalidad e independencia de los residuos, que son fundamentales para la validez del modelo ANOVA.

Ejercicio 1: Relaciones sexuales entre jóvenes universitarios, en 3 carreras diferentes.

A. Se introducen los datos.

# Datos de frecuencias de relaciones sexuales y carrera
frecuencia <- c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15, 10, 14, 10, 
                10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11,
                13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2, 
                9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4,
                6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 
                7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)
carrera <- factor(rep(c("Economía", "Administración", "Contaduría"), c(40, 40, 40)))

B. Exploracion de los datos.

# Gráficos descriptivos
boxplot(frecuencia ~ carrera, 
        main="Frecuencia de relaciones sexuales por carrera",
        xlab="Carrera", ylab="Frecuencia mensual",
        col=c("skyblue", "salmon", "lightgreen"))

summary_data <- aggregate(frecuencia ~ carrera, data=data.frame(frecuencia, carrera), summary)
summary_data
##          carrera frecuencia.Min. frecuencia.1st Qu. frecuencia.Median
## 1 Administración            0.00               4.00              7.50
## 2     Contaduría            0.00               4.00              6.00
## 3       Economía            6.00              10.00             11.00
##   frecuencia.Mean frecuencia.3rd Qu. frecuencia.Max.
## 1            6.90              10.00           16.00
## 2            5.45               7.00           11.00
## 3           11.60              14.00           20.00

En este gráfico de boxplot se puede observar que si existen diferencias en los valores promedios y de variabilidad en las carreras universitarias. Podemos notar que la carrera de economía presenta el promedio más alto y la mayor variabilidad en la frecuencia mensual de las relaciones sexuales de los estudiantes, seguida por la carrera de administración con un promedio y una variabilidad moderada, mientras que la carrera de contaduría presenta el menor promedio y una menor variabilidad en la frecuencia de las relaciones sexuales.

Se calcula la media de relaciones sexuales por carrera

tapply(frecuencia,carrera, mean)
## Administración     Contaduría       Economía 
##           6.90           5.45          11.60

C. Se realiza el ANOVA

options(scipen = 999)
anova_model <- aov(frecuencia ~ carrera)
summary(anova_model)
##              Df Sum Sq Mean Sq F value            Pr(>F)    
## carrera       2  826.9   413.4   38.98 0.000000000000107 ***
## Residuals   117 1241.1    10.6                              
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ho: Las medias de la frecuencia mensual de las relaciones sexuales de estudiantes universitarios pertenecientes a las carreras de administración, contaduría y economía son iguales entre las tres carreras.

Ha: Al menos una de las medias de la frecuencia mensual de las relaciones sexuales de estudiantes universitarios entre las carreras administración, contaduría y economía es diferente.

Tenemos un P- valor obtenido en el análisis de 0.000000000000107 < 0.05, lo cual nos indica que se rechaza la hipótesis nula y se concluye que existen diferencias significativas en el promedio de la frecuencia mensual de las relaciones sexuales de estudiantes universitarios pertenecientes a estas tres carreras, teniendo la mayor frecuencia la carrera de economía.

D.

En este contexto, en el análisis Anova se puede observar un P- valor de 0.000000000000107 el cual es menor al nivel de significancia que es de 0.05. Por tanto, esto nos permite rechazar la hipótesis nula que establece que el promedio de la frecuencia mensual de las relaciones sexuales de estudiantes universitarios es igual entre las carreras de administración, contaduría y economía. Con respecto a esto, se puede llegar a la conclusión que existen diferencias estadísticamente significativas en el promedio de la frecuencia mensual de las relaciones sexuales de estudiantes entre estas tres carreras por lo cual se le da veracidad a la hipótesis alternativa. Al observar las medias de la frecuencia de las relaciones sexuales, podemos notar que la carrera de economía tiene la frecuencia promedio más alta (11.60), luego le sigue administración (6.90) y por último contaduría (5.45). Esto nos da a entender que, en promedio, la frecuencia mensual de las relaciones sexuales varía entre las tres carreras universitarias, con economía teniendo una frecuencia promedio más alta que contaduría y administración.

E. Se realiza el test de Tuckey para ver en que grupos se logra evidenciar las diferencias.

diferencias = TukeyHSD(anova_model)
diferencias
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = frecuencia ~ carrera)
## 
## $carrera
##                            diff       lwr       upr     p adj
## Contaduría-Administración -1.45 -3.178861 0.2788605 0.1189269
## Economía-Administración    4.70  2.971139 6.4288605 0.0000000
## Economía-Contaduría        6.15  4.421139 7.8788605 0.0000000

Anteriormente en este análisis anova se han obtenido diferencias significativas entre los grupos con respecto a la frecuencia promedio mensual de las relaciones sexuales de estudiantes universitarios, por lo cual, se realiza el Test de Tuckey para ver, en cual de estos grupos se logran evidenciar de forma más específica dichas diferencias. Si comparamos entre las carreras economía - administración, nos damos cuenta que la diferencia que existe entre la frecuencia promedio de relaciones sexuales es muy notoria con una cifra de 4.70 y un P- valor ajustado asociado de 0.0000000, asimismo, la comparación de economía – administración también presenta una diferencia de 6.15 en la frecuencia promedio de relaciones sexuales con un P- valor de 0.0000000, por lo cual, en estas dos comparaciones que se realizaron antes se obtuvo que sus P- valores son menores al nivel de significancia 0.05 lo que implica que se rechaza la hipótesis nula y que existe una diferencia muy significativa en su promedio, siendo los estudiantes de economía los que presentan una mayor frecuencia promedio mensual de relaciones sexuales a comparación con los estudiantes de administración. Por otro lado, nos encontramos con un caso diferente en la comparación de las carreras contaduría – administración, la cual nos muestra una diferencia de -1.45 y un P- valor ajustado asociado de 0.1189269 mayor al nivel de significancia 0.05, de este modo, solo en este caso no se rechaza la hipótesis nula de que la frecuencia promedio mensual de relaciones sexuales son iguales y estos resultados nos dan a entender que entre estas dos carreras no existe una diferencia estadísticamente significativa en su promedio de frecuencia de relaciones sexuales entre los estudiantes de las carreras de contaduría y economía. Con estas comparaciones podemos confirmar las diferencias observadas del análisis Anova, pero de forma más detallada.

F.

Se analiza el supuesto de independencia de los errores.

plot(anova_model$residuals, 
     col="blue",  
     pch=09)

Gráficamente podemos observar que los errores están distribuidos de una forma no uniforme, por lo que no se logra observar ningún patrón entre ellos. Es por tanto que se cumple el supuesto de independencia, que garantiza que los resultados no estén sesgados.

Se realiza el histograma y el QQplot de los residuos para identificar si se cumple con el supuesto de normalidad.

hist(anova_model$residuals, 
     col="blue")

qqnorm(anova_model$residuals, 
       col="blue")      
qqline(anova_model$residuals)

Analizando los gráficos no podemos ver claramente si se cumple con el supuesto de normalidad o no en los errores, es por ello que a continuación se realiza la prueba de Shapiro Wilk, para estar seguros del cumplimiento del supuesto de normalidad.

Se realiza el test de Shapiro-Wilk.

shapiro.test(anova_model$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  anova_model$residuals
## W = 0.98473, p-value = 0.1945

Tenemos un P-valor de 0.1945 > 0.05, lo que nos indica que no hay evidencia suficiente para rechazar la hipótesis nula de que los errores se distribuyen de forma normal, por lo tanto, el modelo ANOVA si cumple con el supuesto de normalidad, a pesar de existir algunas pequeñas desviaciones en el gráfico Q-Q Plot.

Se puede observar que la variable que no presenta diferencias significativas en el promedio de relaciones sexuales de los estudiantes es en las carreras de contaduría y administración, cuya diferencia es de -1.45 en la frecuencia de las relaciones sexuales y cuyo p-valor es de 0.118 > 0.05 como se observa en el cuadro del test de Tukey, rechazando así la hipótesis nula de que ambos grupos de estudiantes tienen la misma media.

Dado todo lo anterior, podemos concluir que el modelo ANOVA es un modelo válido para analizar los datos a pesar de existir pequeñas desviaciones de normalidad.

G.

En este caso, en la universidad se podría empezar a implementar diversas ayudas en el tema de educación sexual, como lo pueden ser programas de educación sexual integral, facilitar la disponibilidad y entrega de anticonceptivos, asesoramiento de salud reproductiva, opciones de planificación familiar, ofrecer asesoramiento psicológico en un ambiente seguro y confidencial, llevar a cabo campañas de prevención, entre otras opciones. Estas opciones serian adecuadas para que en la universidad se maneje un ambiente seguro, sano y educado, lo cual es conveniente tanto para la institución y su comunidad en general.

Ejercicios 2. Diferencias entre los salario según el tipo de ubicación.

A. Se introducen los datos.

salario <- c(299, 313, 300, 321, 308, 312, 300, 310, 281, 308, 309, 300, 303, 303, 311, 308, 
             291, 298, 276, 290, 310, 308, 295, 310, 286, 295, 289, 293, 291, 297, 297, 287, 
             297, 302, 298, 301, 313, 290, 306, 313, 294, 308, 295, 303, 316, 299, 313, 296, 
             290, 299,
             252, 248, 232, 229, 256, 233, 240, 237, 248, 232, 230, 246, 236, 250, 238, 243, 
             245, 241, 235, 249, 238, 231, 230, 239, 261, 243, 242, 245, 249, 258, 245, 236, 
             244, 242, 229, 246, 244, 244, 255, 247, 236, 252, 237, 259, 248, 237, 236, 252, 
             236, 239,
             272, 268, 285, 274, 278, 287, 297, 275, 269, 281, 270, 284, 282, 281, 280, 286, 
             265, 283, 281, 272, 269, 286, 268, 288, 284, 282, 304, 280, 283, 281, 281, 286, 
             287, 288, 278, 272, 268, 287, 269, 272, 270, 271, 291, 265, 280, 280, 275, 294, 
             269, 277)
provincia <- factor(rep(c("Valencia", "Castellón", "Alicante"), each=50))

B. Exploracion de los datos.

# Gráficos descriptivos 
boxplot(salario ~ provincia, 
        main="Salarios por provincia",
        xlab="Provincia", ylab="Salario semanal",
        col=c("lightblue", "lightcoral", "lightgreen")) 

# Resumen de datos de salarios por provincia
summary_data_salarios <- aggregate(salario ~ provincia, data=data.frame(salario, provincia), summary)
summary_data_salarios
##   provincia salario.Min. salario.1st Qu. salario.Median salario.Mean
## 1  Alicante       265.00          272.00         280.00       279.10
## 2 Castellón       229.00          236.00         242.50       242.40
## 3  Valencia       276.00          295.00         300.00       300.64
##   salario.3rd Qu. salario.Max.
## 1          284.75       304.00
## 2          248.00       261.00
## 3          308.00       321.00

El gráfico nos muestra las diferencias en los salarios semanales entre las provincias, podemos notar que Valencia tiene el salario promedio más alto y la mayor variabilidad, seguida por Alicante con una variabilidad moderada, mientras que Castellón presenta el salario promedio más bajo y la menor variabilidad.

Se calcula la media salario semanal por provincia

tapply(salario,provincia, mean)
##  Alicante Castellón  Valencia 
##    279.10    242.40    300.64

C. Se realiza el ANOVA

options(scipen = 999)
anova_model2 <- aov(salario ~ provincia)
summary(anova_model2)
##              Df Sum Sq Mean Sq F value              Pr(>F)    
## provincia     2  86713   43356     558 <0.0000000000000002 ***
## Residuals   147  11422      78                                
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hipótesis nula H0: Las medias de los salarios semanales son iguales entre las tres provincias.

Hipótesis alternativa Ha: Al menos una de las medias de los salarios semanales entre las provincias es diferente.

El p-valor obtenido es de 0.0000000000000002 < 0.05, lo cual permite rechazar la hipótesis nula y concluir que existen diferencias significativas en los salarios promedio semanales entre las provincias siendo el mayor salario el de valencia.

D.

En el contexto del problema, el análisis ANOVA muestra un p-valor bastante bajo, de 0.0000000000000002, el cual es menor al nivel de significancia que es de 0.05. Esto nos permite rechazar la hipótesis nula que establece que los salarios semanales promedio son iguales entre las provincias de Alicante, Castellón, y Valencia. Con respecto a esto, podemos concluir que existen diferencias estadísticamente significativas en los salarios promedio entre las tres provincias. Al observar las medias de los salarios, podemos notar que Valencia tiene el salario promedio más alto (300.64), seguida de Alicante (279.10) y Castellón (242.40). Esto sugiere que, en promedio, los salarios semanales varían entre las provincias, con Valencia teniendo un salario promedio más alto en comparación con Alicante y Castellón.

E. Se realiza el test de Tuckey para ver en que grupos se logra evidenciar las diferencias.

diferencias = TukeyHSD(anova_model2)
diferencias
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = salario ~ provincia)
## 
## $provincia
##                      diff       lwr       upr p adj
## Castellón-Alicante -36.70 -40.87415 -32.52585     0
## Valencia-Alicante   21.54  17.36585  25.71415     0
## Valencia-Castellón  58.24  54.06585  62.41415     0

Con respecto al el test HSD de Tukey, se observa que todos los grupos presentan diferencias significativas en el salario promedio semanal entre las provincias. Si comparamos entre Castellón y Alicante, la diferencia es de -36.70 y el p-valor ajustado es de 0, menor que 0.05, lo que nos indica que el salario promedio en Castellón es menor que en Alicante. En la comparación entre Valencia y Alicante, la diferencia es de 21.54 con un p-valor ajustado de 0, lo que señala que el salario promedio en Valencia es mucho mayor que en Alicante. Finalmente, entre Valencia y Castellón, la diferencia es de 58.24, con un p-valor ajustado de 0, confirmando que el salario promedio en Valencia es significativamente mayor que en Castellón. Con estas comparaciones se pueden confirmar las diferencias observadas previamente en el análisis ANOVA.

F.

Se analiza el supuesto de independencia de los errores.

plot(anova_model2$residuals, 
     col="blue",  
     pch=09)

Gráficamente se puede observar que los errores están distribuidos de una forma dispersa y por tanto no se logra observar ningún patrón entre ellos, por lo cual se cumple el supuesto de independencia, que garantiza que los resultados no estén sesgados.

Se realiza el histograma y el QQplot de los residuos para identificar si se cumple con el supuesto de normalidad.

hist(anova_model2$residuals, 
     col="blue")

qqnorm(anova_model2$residuals, 
       col="blue")      
qqline(anova_model2$residuals)

Analizando los gráficos, no se puede observar claramente si se cumple o no, el supuesto de normalidad en los errores, por lo que a continuación se realiza la prueba de Shapiro Wilk para verificar el cumplimiento del supuesto de normalidad.

Se realiza el test de Shapiro-Wilk.

shapiro.test(anova_model2$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  anova_model2$residuals
## W = 0.99194, p-value = 0.5574

Nos encontramos con P-valor de 0.5574 > 0.05, lo cual nos indica que no existe evidencia suficiente para rechazar la hipótesis nula de que los errores se distribuyen de forma normal, por lo tanto, el modelo ANOVA si cumple con el supuesto de normalidad, a pesar de que se logran observar algunas desviaciones en el grafico Q-Q Plot.

Dado lo anterior, podemos concluir que el modelo ANOVA es un modelo valido para analizar los datos y el cual cumple con las condiciones de normalidad.

G.

En este caso, se pueden tener en cuenta la implementación de programas de capacitación laboral exactamente para las ciudades de Alicante y Castellón, donde se presenta un salario semanal menor en comparación con Valencia, además, se pueden implementar políticas fiscales que generen inversión en los sectores mas productivos y se pueden tener en cuenta las políticas de apoyo para reducir las disparidades salariales entre las ciudades.