taller anova

#Introducción

en el presente taller de análisis de varianza ANOVA buscamos explorar diferencias significativas en dos contextos específicos una estudiantes universitarios y empleados en diferentes ubicaciones. En la primera situación, analizamos la frecuencia de relaciones sexuales entre estudiantes de distintas carreras como economía, contaduría y administración, lo que nos permitirá observar cómo variables sociales, educativas, hábitos, preferencias y principalmente su satisfacción sexual pueden influir en ciertos comportamientos. En la segunda situación planteada, examinaremos diferencias salariales en tres provincias de la comunidad valenciana, dichas provincias vienen siendo valencia, Castellón y alicante, lo que nos aporta una visión sobre las diferencias económicas en función de la ubicación geográfica. Este análisis lo haremos con ayuda de Rstudio y mediante el uso de ANOVA y pruebas adicionales como el test de Tukey, evaluamos las variaciones de medias entre los grupos.

Ejercicio 1

Relaciones sexuales entre jóvenes universitarios, en 3 carreras diferentes. El departamento de Psicología de una Universidad de Colombia ha realizado un estudio sobre hábitos, preferencias y satisfacción sexual en estudiantes universitarios. Hemos utilizado los datos que recogieron en sus encuestas y queremos conocer si existen diferencias entre la frecuencia mensual de relaciones sexuales de estudiantes universitarios pertenecientes a tres titulaciones universitarias diferentes:

Economía: 11 14 7 15 11 13 11 16 10 15 18 12 9 9 10 10 15 10 14 10 10 12 14 12 15 7 13 6 10 15 20 10 13 10 6 14 8 10 8 11

Administración: 13 10 12 7 5 10 10 16 9 7 7 2 6 9 9 8 8 10 3 6 5 2 9 3 4 5 10 8 5 9 10 8 13 10 0 2 1 1 0 4

Contaduría: 6 7 3 5 9 6 1 6 0 2 5 6 11 6 7 0 5 7 5 4 7 4 2 8 9 6 1 4 7 7 8 9 7 5 1 6 9 4 7 6

economia<- c( 11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15, 10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15,
20, 10, 13, 10, 6, 14, 8, 10, 8, 11)
administracion<- c(13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2,
1, 1, 0, 4)
contaduria<- c(6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)

relaciones<- data.frame(frecuencia= c(economia,administracion,contaduria),
carrera=(c(rep(c("Economia", "Administracion", "Contaduria"), each =40))))

attach(relaciones)

head(relaciones)

##   frecuencia  carrera
## 1         11 Economia
## 2         14 Economia
## 3          7 Economia
## 4         15 Economia
## 5         11 Economia
## 6         13 Economia

# Crear un data frame con los datos
relaciones <- data.frame(
  frecuencia = c(economia, administracion, contaduria),
  carrera = rep(c("Economia", "Administracion", "Contaduria"), each = 40)
)

# Crear el boxplot con colores personalizados
boxplot(frecuencia ~ carrera, col = c("#EE7621", "#EE7", "#00FFFF"),
        ylab = "Número de frecuencia que los estudiantes tienen relaciones",
        data = relaciones)

La caja principal muestra el rango intercuartílico (IQR), que es el rango entre el primer cuartil (Q1) y el tercer cuartil (Q3). Este es el rango en el que se encuentran las frecuencias del 50% central de la muestra. La línea del centro representa la mediana de la frecuencia para cada carrera. La posición de esta línea dentro de la caja indica si la distribución es simétrica, y esto nos indica que por carrera la mediana está: en Administración, la mediana es un poco más cercana al borde inferior de la caja, lo que sugiere una ligera asimetría hacia frecuencias más altas; en Contaduría, la mediana se encuentra casi en el centro de la caja, indicando una distribución más simétrica; y en Economía, la mediana está cerca del borde inferior de la caja, sugiriendo que la mayoría de las frecuencias están concentradas en valores altos dentro de la muestra de esta carrera.

podemos decir que: Administración: Tiene un rango de frecuencias menor comparado con las otras carreras, con una mediana cercana a 7. La caja es relativamente estrecha, indicando poca variabilidad en las frecuencias en esta carrera. Esto sugiere que las frecuencias en Administración son más homogéneas.

Contaduría: Presenta un rango más amplio, con frecuencias que van aproximadamente desde 4 hasta 8. La dispersión en las frecuencias es considerablemente alta, lo que podría deberse a diferencias en las relaciones o interacciones de los estudiantes en esta carrera. Economía: Muestra las frecuencias más altas en promedio, con una mediana cercana a 12 y un rango intercuartílico estrecho, lo que indica poca dispersión en las frecuencias. Esto sugiere que Economía podría tener un entorno más activo en términos de relaciones entre estudiantes. Además, Administración y Economía muestran menos variabilidad en las frecuencias, lo cual podría reflejar una estructura más uniforme o una menor variabilidad en las interacciones en estas carreras. Contaduría, comparado con las otras dos carreras, presenta una mayor variabilidad en las frecuencias, lo que puede indicar la presencia de distintas dinámicas sociales o niveles de interacción entre los estudiantes. Economía parece tener las frecuencias más altas de relaciones, lo cual podría deberse a un entorno social más activo o colaborativo entre los estudiantes de esta carrera.

tapply(frecuencia, carrera, mean)

## Administracion     Contaduria       Economia 
##           6.90           5.45          11.60

anova = aov( lm(frecuencia ~ carrera) )

options(scipen=999)
summary(anova)

##              Df Sum Sq Mean Sq F value            Pr(>F)    
## carrera       2  826.9   413.4   38.98 0.000000000000107 ***
## Residuals   117 1241.1    10.6                              
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Para empezar, el p-valor es de 0.000000000000107, lo que nos indica que es extremadamente bajo. Es decir, se rechaza la hipótesis nula que plantea que las medias de las frecuencias de relaciones entre las carreras son iguales. Esto significa que al menos una de las medias de las carreras es significativamente diferente de las demás.

Además, el elevado valor del F-value, el cual es de 38.98, también nos indica que la variabilidad en las frecuencias de relaciones entre las diferentes carreras es considerablemente mayor que la variabilidad observada dentro de cada carrera. Esto sugiere que el factor “Carrera” tiene un impacto fuerte y significativo sobre las diferencias en las frecuencias de relaciones entre losestudiantes.

plot(anova$residuals, col="red", pch=16, main="Gráfico de Residuos")

# Histograma de los residuos con color azul celeste
hist(anova$residuals, col="deepskyblue", main="Histograma de Residuos", xlab="Residuos")

# Gráfico Q-Q con puntos azul celeste
qqnorm(anova$residuals, col="deepskyblue", main="Gráfico Q-Q de Residuos")
qqline(anova$residuals, col="deepskyblue")

En el gráfico Q-Q de residuos proporcionado, los puntos azules representan los residuos y la línea verde representa la distribución normal teórica. Observamos que los puntos se alinean bastante bien a lo largo de la línea verde, aunque hay algunas desviaciones en los extremos. El alineamiento general de los puntos con la línea verde en el gráfico Q-Q de residuos nos indica que los residuos siguen aproximadamente una distribución normal. Esto se puede interpretar como un buen indicativo para la validez del modelo ANOVA en términos de normalidad de los residuos, lo cual respalda la validez del modelo ANOVA.

shapiro.test(anova$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova$residuals
## W = 0.98473, p-value = 0.1945

El Shapiro-Wilk normality test nos dice que el criterio de normalidad se cumple para los residuos, ya que el p-valor es de 0.1945. Este valor es mayor a 0.05, lo cual nos señala que los residuos se pueden considerar como distribuidos normalmente, respaldando así la validez del modelo ANOVA en términos de normalidad de los residuos.

diferencias = TukeyHSD(anova)
diferencias

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(frecuencia ~ carrera))
## 
## $carrera
##                            diff       lwr       upr     p adj
## Contaduria-Administracion -1.45 -3.178861 0.2788605 0.1189269
## Economia-Administracion    4.70  2.971139 6.4288605 0.0000000
## Economia-Contaduria        6.15  4.421139 7.8788605 0.0000000

Comparación Contaduría-Administración: La comparación entre Contaduría y Administración muestra una diferencia en las medias de -1.45 unidades. Este valor negativo indica que el promedio del grupo de Contaduría es menor que el de Administración en 1.45 unidades. El p-valor ajustado es 0.1189269, lo que no nos permite rechazar la hipótesis nula de que no hay diferencia en las medias entre estas dos carreras. Esto significa que la diferencia observada no es estadísticamente significativa.

Comparación Economía-Administración: Entre Economía y Administración, la diferencia en las medias es de 4.70 unidades. Este valor positivo indica que el promedio del grupo de Economía es mayor que el de Administración en 4.70 unidades. El p-valor ajustado es 0, lo que nos permite rechazar la hipótesis nula y confirmar que la diferencia entre las medias de Economía y Administración es estadísticamente significativa.

Comparación Economía-Contaduría: La diferencia en las medias entre Economía y Contaduría es de 6.15 unidades, siendo Economía la carrera con el promedio más alto. El p-valor ajustado, una vez más, es 0, indicando una diferencia significativa. Esta comparación muestra que Economía tiene una media mucho mayor en comparación con Contaduría, consolidando la posición de Economía como la carrera con la media más alta entre las tres.

#recomendaciones Programas de Integración y Colaboración: Implementar programas y actividades que promuevan la integración y las relaciones entre los estudiantes de diferentes carreras, especialmente en Contaduría y Administración, donde se observan frecuencias de relaciones más bajas. Esto puede incluir talleres, seminarios interdisciplinarios y actividades extracurriculares que fomenten la colaboración.

Apoyo Psicosocial: Ofrecer servicios de apoyo psicosocial para mejorar el bienestar y las relaciones interpersonales de los estudiantes. Programas de mentoría y consejería pueden ser útiles para ayudar a los estudiantes a desarrollar habilidades sociales y de comunicación.

Fortalecimiento de la Comunidad Universitaria: Crear espacios y eventos que fomenten el sentido de comunidad entre los estudiantes. Esto puede incluir actividades deportivas, culturales y sociales que involucren a estudiantes de todas las carreras.

Incentivos para la Participación Estudiantil: Establecer incentivos para la participación activa en actividades académicas y sociales. Esto podría incluir créditos académicos, reconocimientos y premios para los estudiantes más involucrados.

Desarrollo Profesional y de Habilidades: Ofrecer talleres y cursos que desarrollen habilidades profesionales y de liderazgo en los estudiantes. Esto puede ayudar a los estudiantes a sentirse más conectados con sus compañeros y mejorar su capacidad para trabajar en equipo.

Investigación y Evaluación Continua: Realizar investigaciones continuas para evaluar la efectividad de las políticas implementadas y ajustar las estrategias según sea necesario. Esto asegura que las decisiones de política pública se basen en datos y evidencia actualizada.

Con base en estos hallazgos, se recomienda que la universidad implemente políticas de integración, apoyo psicosocial, y fomento de la colaboración interdisciplinaria para mejorar las relaciones interpersonales entre los estudiantes, especialmente en las carreras que muestran menores frecuencias de relaciones. Estas acciones contribuirán a un entorno académico más cohesivo y enriquecedor para todos los estudiantes.

#Ejercicio 2

Diferencias entre los salario según el tipo de ubicación

Nos gustaría saber si el salario varía en alguna de las 3 provincias de la Comunidad Valenciana. Para ello, se realizó un estudio con 50 personas por provincia a las que se preguntó su salario en euros por semana.

Valencia 299 313 300 321 308 312 300 310 281 308 309 300 303 303 311 308 291 298 276 290 310 308 295 310 286 295 289 293 291 297 297 287 297 302 298 301 313 290 306 313 294 308 295 303 316 299 313 296 290 299

Castellón: 252 248 232 229 256 233 240 237 248 232 230 246 236 250 238 243 245 241 235 249 238 231 230 239 261 243 242 245 249 258 245 236 244 242 229 246 244 244 255 247 236 252 237 259 248 237 236 252 236 239

Alicante: 272 268 285 274 278 287 297 275 269 281 270 284 282 281 280 286 265 283 281 272 269 286 268 288 284 282 304 280 283 281 281 286 287 288 278 272 268 287 269 272 270 271 291 265 280 280 275 294 269 277

valencia<- c(299,313,300,321,308,312,300,310,281,308,309,300,303,303,311,308,291,298,276,290,310,308,295,310,286,295,289,293,291,297,297,287,297,302,298,301,313,290,306,313,294,308,295,303,316,299,313,296,290,299)
castellon<- c(252,248,232,229,256,233,240,237,248,232,230,246,236,250,238,243,245,241,235,249,238,231,230,239,261,243,242,245,249,258,245,236,244,242,229,246,244,244,255,247,236,252,237,259,248,237,236,252,236,239)
alicante<- c(272,268,285,274,278,287,297,275,269,281,270,284,282,281,280,286,265,283,281,272,269,286,268,288,284,282,304,280,283,281,281,286,287,288,278,272,268,287,269,272,270,271,291,265,280,280,275,294,269,277)

salario<- data.frame(frecuencia= c(valencia,castellon,alicante),
provincia=(c(rep(c("valencia", "castellon", "alicante"), each =50))))

attach(salario)

## The following object is masked from relaciones:
## 
##     frecuencia

head(salario)

##   frecuencia provincia
## 1        299  valencia
## 2        313  valencia
## 3        300  valencia
## 4        321  valencia
## 5        308  valencia
## 6        312  valencia

boxplot(frecuencia ~ provincia, col = c("#0EE", "#EE7", "#D15FEE"), ylab = "Diferencias entre los salarios segun el tipo de ubicacion",data = salario)

El análisis de los datos salariales muestra que el rango intercuartílico (IQR), es decir, el intervalo entre el primer cuartil (Q1) y el tercer cuartil (Q3), representa el rango en el que se concentra el 50% central de los salarios en cada provincia. La línea que divide cada caja representa la mediana salarial, y su posición dentro de la caja proporciona información sobre la simetría de la distribución en cada región.

En Alicante, la mediana salarial está levemente más cercana al límite superior de la caja, lo que sugiere una ligera asimetría hacia los salarios más bajos. La amplitud del rango salarial en esta provincia es reducida, con una mediana alrededor de los 280, lo cual indica una variabilidad limitada. Esto puede interpretarse como una homogeneidad en los salarios, probablemente reflejando una estructura ocupacional más uniforme o menor desigualdad salarial.

En Castellón, el rango intercuartílico es considerablemente amplio, con salarios que oscilan entre aproximadamente 240 y casi 300, lo que denota una mayor dispersión salarial. La mediana se encuentra aproximadamente en el centro de la caja, indicando una distribución más simétrica. La elevada variabilidad en esta provincia podría estar vinculada a la presencia de empleos con distintos niveles de especialización o una diversidad significativa de sectores económicos.

Valencia muestra los salarios más altos en promedio, con una mediana cercana a 300. La caja es estrecha, lo que sugiere una baja dispersión de los salarios y, por tanto, una menor variabilidad salarial en esta provincia. Esta característica podría reflejar un mercado laboral consolidado con menor desigualdad en los ingresos o una estructura laboral menos fragmentada.

tapply(frecuencia, provincia, mean)

##  alicante castellon  valencia 
##    279.10    242.40    300.64

Alicante: 279.10 Castellón: 242.40 Valencia: 300.64

los datos revelan una heterogeneidad significativa entre las tres ciudades, con Valencia mostrando el valor más elevado, lo que puede indicar una particularidad en su dinámica socioeconómica en relación con Alicante y Castellón.

anova = aov( lm(frecuencia ~ provincia) )

options(scipen=999)
summary(anova)

##              Df Sum Sq Mean Sq F value              Pr(>F)    
## provincia     2  86713   43356     558 <0.0000000000000002 ***
## Residuals   147  11422      78                                
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis revela un P-valor de 0.0000000000000002, nos indica que existe una probabilidad extremadamente baja de aceptar la hipótesis nula que asume igualdad en las medias salariales entre las provincias. Este valor tan reducido permite rechazar con confianza la hipótesis nula, confirmando que al menos una de las medias salariales difiere significativamente de las demás, lo cual sugiere variaciones salariales notables entre las distintas provincias.

Además, el elevado valor del F value, que alcanza los 558, refuerza esta interpretación al evidenciar que la variabilidad salarial entre provincias es notablemente superior a la variabilidad interna dentro de cada provincia.

plot(anova$residuals, col="red", pch=16, main="Gráfico de Residuos", xlab="Observaciones", ylab="Residuos")

El gráfico de residuos muestra una distribución aleatoria alrededor de la línea cero, lo que indica la ausencia de patrones sistemáticos y sugiere que el modelo capta adecuadamente la relación entre las variables. Además, los residuos presentan homocedasticidad, ya que su varianza parece constante, sin estructuras en abanico ni agrupaciones, cumpliendo así una suposición clave en regresión lineal. Finalmente, no se observa autocorrelación, lo que implica que las observaciones son independientes.

# Histograma de los residuos en color rojo
hist(anova$residuals, col="red", main="Histograma de Residuos", xlab="Residuos")

La distribución de los residuos muestra una simetría aproximada alrededor de cero, aunque con un leve sesgo hacia la derecha debido a valores más altos en la cola positiva. Los residuos se concentran principalmente entre -10 y 10, indicando una buena predicción por parte del modelo en la mayoría de los casos. No obstante, se observan algunos valores extremos fuera de este rango (entre -20 y 20), lo que sugiere errores de predicción más significativos en ciertos casos. La alta frecuencia de residuos cercanos a cero (más de 30) es un indicio positivo de que el modelo presenta errores pequeños en la mayoría de las observaciones. Sin embargo, el sesgo derecho y los valores atípicos sugieren que el modelo podría mejorar en términos de ajuste.

# Gráfico Q-Q con puntos y línea en rojo
qqnorm(anova$residuals, col="red", main="Gráfico Q-Q de Residuos")
qqline(anova$residuals, col="red")

En general, los puntos siguen de cerca esta línea, aunque se observan algunas desviaciones en los extremos. Este alineamiento general sugiere que los residuos se aproximan a una distribución normal.

La proximidad de los puntos a la línea de referencia en el gráfico Q-Q indica que se cumple razonablemente bien el supuesto de normalidad en los residuos, lo cual refuerza la validez del modelo ANOVA. Esta evidencia de normalidad en los residuos es un respaldo importante para la robustez del modelo en el análisis estadístico realizado.

shapiro.test(anova$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova$residuals
## W = 0.99194, p-value = 0.5574

En este caso, el resultado del test sugiere que el criterio de normalidad se satisface para los residuos, dado que el P-valor obtenido es de 0.5574, lo cual es superior al umbral de 0.05. Este valor indica que no hay evidencia suficiente para rechazar la hipótesis de normalidad, permitiendo considerar que los residuos se distribuyen aproximadamente de manera normal, según esta prueba.

diferencias = TukeyHSD(anova)
diferencias

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(frecuencia ~ provincia))
## 
## $provincia
##                      diff       lwr       upr p adj
## castellon-alicante -36.70 -40.87415 -32.52585     0
## valencia-alicante   21.54  17.36585  25.71415     0
## valencia-castellon  58.24  54.06585  62.41415     0

En la comparación entre Castellón y Alicante, se observa una diferencia de medias de -36.70 unidades, lo cual indica que el promedio salarial en Castellón es 36.70 unidades inferior al de Alicante. Dado que el P-valor ajustado es 0, podemos rechazar la hipótesis nula de igualdad de medias entre ambas provincias, confirmando que esta diferencia es altamente significativa y que la probabilidad de que ocurra por azar es prácticamente inexistente.

Para la comparación entre Valencia y Alicante, la diferencia en las medias es de 21.54 unidades, con Valencia mostrando un promedio superior al de Alicante. Al igual que en la comparación previa, el P-valor ajustado es 0, permitiendo rechazar la hipótesis nula y confirmar que esta diferencia es estadísticamente significativa.

Finalmente, la diferencia de medias entre Valencia y Castellón es de 58.24 unidades, consolidando a Valencia como la provincia con el promedio salarial más alto. El P-valor ajustado, una vez más, es 0, lo que respalda la significancia estadística de esta diferencia. Esta comparación subraya la posición de Valencia como la provincia con la media salarial más elevada entre las tres, con una ventaja considerable sobre Castellón.

#Alternativas Adicionales Basadas en el Análisis

Fomento de Políticas de Movilidad Laboral Facilitar la movilidad de la fuerza laboral entre las provincias mediante subsidios o incentivos para el traslado puede equilibrar la oferta y demanda de empleo y mejorar el acceso a empleos de calidad en provincias con menores oportunidades salariales. Esto puede incluir programas de reubicación y subsidios para el transporte de los trabajadores que se desplazan hacia las provincias con mayores salarios.

Creación de Incentivos Fiscales para Empresas en Zonas con Menores Ingresos La implementación de incentivos fiscales para empresas que establezcan operaciones en Alicante y Castellón puede atraer inversión en áreas con menor actividad económica. Los beneficios fiscales podrían estar orientados a sectores que presenten una demanda creciente, generando nuevas oportunidades de empleo y elevando el promedio salarial en estas zonas.

Implementación de Programas de Vivienda Asequible Facilitar el acceso a vivienda asequible en provincias de mayor crecimiento, como Valencia, podría hacer que la provincia sea accesible para trabajadores de otras regiones. Estos programas permiten que la fuerza laboral menos calificada acceda a oportunidades en áreas de alta demanda, mejorando la equidad de ingresos en toda la región.

Alianzas Público-Privadas para Desarrollo Local Establecer asociaciones estratégicas entre el sector público y privado puede ser clave para la implementación efectiva de políticas de desarrollo económico en provincias menos favorecidas. Estas alianzas pueden enfocarse en la creación de centros de investigación y desarrollo, incubadoras de empresas, y programas de capacitación que impacten directamente en la generación de empleos de calidad en Alicante y Castellón.

Políticas de Apoyo al Comercio Local y a la Economía Circular Impulsar el comercio local y la economía circular en provincias con menor crecimiento económico puede fortalecer la economía regional, generando empleo local y estableciendo estructuras de mercado que beneficien a las comunidades. Esto puede incluir incentivos para empresas locales y cooperativas que contraten personal de la región y reduzcan la dependencia de sectores económicos externos.

#Conclusión El análisis ANOVA es una herramienta de suma utilidad cuando queremos comparar las medias de varios grupos y ver si existen diferencias significativas entre ellos. En el caso que nos ocupa sobre la frecuencia de relaciones sexuales entre estudiantes universitarios, los resultados mostraron diferencias notables entre algunas carreras diferencias significativas entre los estudiantes de Economía y Administración, así como entre Economía y Contaduría, mientras que no se encontraron diferencias significativas entre Administración y Contaduría lo que sugiere que la carrera en la que los estudiantes están matriculados podría influir en su nivel de actividad sexual y cómo podría afectar su bienestar. Por otro lado, en el estudio de los salarios entre diferentes provincias de la Comunidad Valenciana, también se encontraron diferencias significativas las diferencias se encontraban principalmente entre Castellón y las otras dos provincias, Valencia y Alicante, mientras que no se encontraron diferencias significativas entre Valencia y Alicante lo que manifiesta que existen variaciones salariales importantes entre las regiones, posiblemente debido a factores como las condiciones económicas, el tipo de industria y el costo de vida en cada área.

taller anova

José catalán, Juan Denuvila, Junior Solano, Diego Anaya.

2024-11-09