TALLER DE ANOVA

EJERCICIO 1:

Este trabajo pretende analizar los datos obtenidos para determinar si existen diferencias significativas en la frecuencia mensual de relaciones sexuales entre estudiantes de las tres carreras, y cómo estas diferencias pueden relacionarse con las particularidades de cada área de estudio. Los hallazgos de esta investigación podrían proporcionar una mayor comprensión de la vida sexual de los estudiantes universitarios y servir como base para futuros estudios que exploren la relación entre la formación académica y los comportamientos y actitudes hacia la sexualidad en esta etapa.

economia<- c( 11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15, 10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15,
20, 10, 13, 10, 6, 14, 8, 10, 8, 11)
administracion<- c(13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2,
1, 1, 0, 4)
contaduria<- c(6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)

relaciones<- data.frame(frecuencia= c(economia,administracion,contaduria),
carrera=(c(rep(c("Economia", "Administracion", "Contaduria"), each =40))))

attach(relaciones)

head(relaciones)

##   frecuencia  carrera
## 1         11 Economia
## 2         14 Economia
## 3          7 Economia
## 4         15 Economia
## 5         11 Economia
## 6         13 Economia

# Crear un data frame con los datos
relaciones <- data.frame(
  frecuencia = c(economia, administracion, contaduria),
  carrera = rep(c("Economia", "Administracion", "Contaduria"), each = 40)
)

# Crear el boxplot con colores personalizados
boxplot(frecuencia ~ carrera, col = c("#76EE00", "#EE7621", "#00FFFF"),
        ylab = "Número de frecuencia que los estudiantes tienen relaciones",
        data = relaciones)

El siguiente diagrama de boxplot ilustra la frecuencia mensual de relaciones sexuales entre estudiantes de tres carreras: Administración, Contaduría y Economía.

Administración: Los estudiantes de esta carrera muestran una frecuencia de relaciones sexuales media, ligeramente superior a la de los estudiantes de Contaduría, aunque inferior a la de los de Economía.

Contaduría: Este grupo presenta la mediana de frecuencia de relaciones sexuales más baja entre las tres carreras, además de una distribución de frecuencias más compacta.

Economía: En promedio, los estudiantes de Economía tienen la mediana más alta, lo que indica que su frecuencia de relaciones sexuales es mayor en comparación con los otros dos grupos.

tapply(frecuencia, carrera, mean)

## Administracion     Contaduria       Economia 
##           6.90           5.45          11.60

anova = aov( lm(frecuencia ~ carrera) )

summary(anova)

##              Df Sum Sq Mean Sq F value   Pr(>F)    
## carrera       2  826.9   413.4   38.98 1.07e-13 ***
## Residuals   117 1241.1    10.6                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El valor p es 1.07e-13, muy muy bajo (menor que 0.001). Esto nos dice que las diferencias que se ven en cuántas veces tienen sexo los de tres carreras son grandes en verdad.

Con un valor p tan bajo, podemos negar la idea de que no hay diferencias en cuántas veces tienen sexo en las carreras. Esto dice que sí hay diferencias grandes en la frecuencia de sexo entre los alumnos de Administración, Contaduría y Economía.

plot(anova$residuals)

En este diagrama de dispersión, observamos que los puntos se distribuyen alrededor de la línea de cero, lo cual es una señal positiva. Además, la dispersión de los puntos se mantiene relativamente constante a lo largo del gráfico, lo que indica que la suposición de homogeneidad de varianza se cumple, un requisito clave para el análisis ANOVA. Tampoco se detectan valores que se desvíen notablemente de la línea central.

hist(anova$residuals)

qqnorm(anova$residuals)
qqline(anova$residuals)

Este histograma de los residuos de un modelo ANOVA muestra una distribución aproximadamente simétrica en torno a cero, lo cual es una buena señal. La mayoría de los residuos se concentran entre -5 y 5, especialmente cerca de cero, con pocos valores alejándose hacia el extremo positivo. No obstante, estos valores no parecen ser lo suficientemente extremos como para poner en duda la validez del modelo. Y En el gráfico Q-Q, la mayoría de los puntos se alinean bien con la línea diagonal. Esto muestra que los residuos son casi normales. Pero, aunque muchos puntos siguen la línea, hay algunos en los extremos que no lo hacen tanto. Que los puntos se agrupen cerca de la línea diagonal también es buena señal de que los residuos actúan como se espera en una distribución normal.

shapiro.test(anova$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova$residuals
## W = 0.98473, p-value = 0.1945

W=0.98473: Este valor se acerca a 1, lo que sugiere que los datos se ajustan bastante bien a una distribución normal.

p-value=0.1945: Dado que el valor p es mayor que el nivel de significancia comúnmente utilizado (por ejemplo, 𝛼=0.05), no se rechaza la hipótesis nula de que los residuos siguen una distribución normal.

diferencias = TukeyHSD(anova)
diferencias

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(frecuencia ~ carrera))
## 
## $carrera
##                            diff       lwr       upr     p adj
## Contaduria-Administracion -1.45 -3.178861 0.2788605 0.1189269
## Economia-Administracion    4.70  2.971139 6.4288605 0.0000000
## Economia-Contaduria        6.15  4.421139 7.8788605 0.0000000

Los estudiantes del programa de Economía reportan una frecuencia significativamente mayor de relaciones sexuales mensuales en comparación con los estudiantes de los programas de Administración y Contaduría. No existe diferencia estadísticamente significativa entre los grupos Administración y Contaduría en cuanto a la frecuencia mensual de relaciones sexuales.

EJERCICIO 2:

Haremos un estudio de los sueldos en la Comunidad Valenciana quiere ver si hay cambios grandes en los sueldos de cada semana entre tres zonas: Valencia, Castellón y Alicante. Para esto, se juntó info de sueldos de 150 personas, con 50 de cada zona. Cada uno dijo lo que gana a la semana en euros, y esta info ayuda a comparar. Usando pruebas de números, como el análisis de varianza (ANOVA), se va a ver si lo que se gana en promedio es muy distinto entre las zonas, dando una idea clara de cómo los sueldos cambian en este lugar. Este estudio es clave para entender desigualdades y ayudar a decidir sobre el trabajo y cómo crece la economía.

valencia<- c(299,313,300,321,308,312,300,310,281,308,309,300,303,303,311,308,291,298,276,290,310,308,295,310,286,295,289,293,291,297,297,287,297,302,298,301,313,290,306,313,294,308,295,303,316,299,313,296,290,299)
castellon<- c(252,248,232,229,256,233,240,237,248,232,230,246,236,250,238,243,245,241,235,249,238,231,230,239,261,243,242,245,249,258,245,236,244,242,229,246,244,244,255,247,236,252,237,259,248,237,236,252,236,239)
alicante<- c(272,268,285,274,278,287,297,275,269,281,270,284,282,281,280,286,265,283,281,272,269,286,268,288,284,282,304,280,283,281,281,286,287,288,278,272,268,287,269,272,270,271,291,265,280,280,275,294,269,277)

salario<- data.frame(frecuencia= c(valencia,castellon,alicante),
provincia=(c(rep(c("valencia", "castellon", "alicante"), each =50))))

attach(salario)

## The following object is masked from relaciones:
## 
##     frecuencia

head(salario)

##   frecuencia provincia
## 1        299  valencia
## 2        313  valencia
## 3        300  valencia
## 4        321  valencia
## 5        308  valencia
## 6        312  valencia

boxplot(frecuencia ~ provincia, col = c("#EE00EE", "#EE30A7", "#D15FEE"), ylab = "Diferencias entre los salarios segun el tipo de ubicacion",data = salario)

Vamos a ver el gráfico de cajas que nos dice cómo se reparten los sueldos cada semana en euros en tres lugares de la Comunidad Valenciana: Alicante, Castellón y Valencia. Alicante:

La mitad de los sueldos cae cerca de 280 euros, con un trecho entre cuartos que muestra poca variación. Los sueldos en este lugar van de más o menos 265 a 295 euros, y los puntos más altos y bajos no se alejan mucho de esos números.

Castellón: El centro del pago es el más bajo de las tres zonas, cerca de 240 euros. La caja es más chiquita, lo que dice que hay menos cambio en los pagos al lado de las otras zonas. Además, los montos están más juntos en la parte baja, y los pagos más altos no pasan de 260 euros, más o menos.

Valencia: Tiene el centro de pago más alto, cerca de 305 euros. La caja muestra un área más grande entre los cuartos, lo que dice que hay más cambio en los pagos en esta zona. Los pagos se mueven en un área más alta, de cerca de 290 a 320 euros.

tapply(frecuencia, provincia, mean)

##  alicante castellon  valencia 
##    279.10    242.40    300.64

anova = aov( lm(frecuencia ~ provincia) )

summary(anova)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## provincia     2  86713   43356     558 <2e-16 ***
## Residuals   147  11422      78                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

plot(anova$residuals)

Los residuos están distribuidos alrededor del valor cero, lo que es un buen indicio de que el modelo de ANOVA está ajustado correctamente, ya que no hay un sesgo evidente en los residuos, o La dispersión de los residuos es relativamente homogénea a lo largo de todos los puntos, sin mostrar patrones específicos (como una tendencia en forma de “U” o de “V”). Esto sugiere que el supuesto de homogeneidad de varianza (homocedasticidad) se cumple, ya que no hay evidencia de variabilidad creciente o decreciente en los residuos, o Aunque hay algunos puntos dispersos, no hay valores extremos o “outliers” evidentes. Los residuos se encuentran dentro de un rango razonable (aproximadamente de -20 a 20), lo cual es consistente con un buen ajuste del modelo.

hist(anova$residuals)

qqnorm(anova$residuals)
qqline(anova$residuals)

• La mayoría de los puntos se alinean bastante bien con la línea diagonal, lo cual sugiere que los datos están aproximadamente distribuidos de forma normal. • Algunos puntos en los extremos se desvían ligeramente de la línea, lo que puede indicar la presencia de ligeras colas en los datos, pero la desviación no es grande.

shapiro.test(anova$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova$residuals
## W = 0.99194, p-value = 0.5574

El objetivo de esta prueba es verificar si los residuos del modelo ANOVA se distribuyen de manera normal, lo cual es uno de los supuestos fundamentales para la validez de esta técnica estadística.

Estadístico W: 0.99194 Valor p: 0.5574

Dado que el valor p (0.5574) es mayor al nivel de significancia común (0.05), no se rechaza la hipótesis nula de normalidad. Esto indica que los residuos del modelo ANOVA pueden considerarse como distribuidos normalmente.

diferencias = TukeyHSD(anova)
diferencias

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(frecuencia ~ provincia))
## 
## $provincia
##                      diff       lwr       upr p adj
## castellon-alicante -36.70 -40.87415 -32.52585     0
## valencia-alicante   21.54  17.36585  25.71415     0
## valencia-castellon  58.24  54.06585  62.41415     0

Se muestra el resultado de una prueba de comparaciones múltiples de Tukey para evaluar las diferencias en los promedios de salario entre tres provincias: Alicante, Castellón y Valencia.

Comparación Castellón - Alicante: La diferencia de medias es: -36.70, el intervalo de confianza del 95%: [-40.87, -32.53], el valor p ajustado: 0 lo que indica una diferencia significativa. Esto sugiere que el salario promedio en Castellón es significativamente menor que en Alicante, ya que el intervalo de confianza no incluye el valor cero y el valor p es significativo.

Comparación Valencia - Alicante: La diferencia de medias es: 21.54, el intervalo de confianza del 95%: [17.37, 25.71], el valor p ajustado: 0. La diferencia es significativa, lo que implica que el salario promedio en Valencia es mayor que en Alicante.

Comparación Valencia - Castellón: La Diferencia de medias es: 58.24, el intervalo de confianza IC del 95%: [54.07, 62.41], el valor p ajustado: 0. Esta diferencia también es significativa, indicando que el salario promedio en Valencia es considerablemente mayor que en Castellón.

TALLER DE ANOVA

Diego Anaya, Keiner Arrazola, Juan Moreno y Andres Calderon

2024-11-09