Anova

Relaciones sexuales, en 3 carreras diferentes.

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.3.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.3

frecuencia_actividad_sexual <- c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15,10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11, 13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8,  8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4, 6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 
4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)

titulacion_universitaria <- factor(rep(c("Economía", "Administración", "Contaduría"), times = c(40, 40, 40)))

datos <- data.frame(
  Frecuencia = frecuencia_actividad_sexual,
  Titulacion = titulacion_universitaria
)

boxplot(Frecuencia ~ Titulacion, data = datos,
        main = "Frecuencia de Actividad Sexual por Titulación",
        xlab = "Titulación Universitaria",
        ylab = "Frecuencia de Actividad Sexual",
        col = c("darkorange", "darkblue", "darkgreen"))

En este boxplot, se puede realizar una interpretación preliminar sobre la frecuencia de actividad sexual de los alumnos de la facultad de ciencias económicas y administrativas. Los estudiantes de Contaduría exhiben la mediana de actividad sexual más baja, mientras que los de Administración muestran una mediana intermedia, y los de Economía presentan la mediana más alta entre las tres carreras. Adicionalmente, podemos notar el rango intercuartílico (IQR), que se representa por la longitud de cada caja. Los alumnos de Economía y Administración tienen cajas más largas, lo que sugiere una mayor variabilidad en la frecuencia de su actividad sexual. Por el contrario, los estudiantes de Contaduría cuentan con la caja más estrecha, lo que indica una menor variabilidad en este aspecto.

ggplot(datos, aes(x = Frecuencia, fill = Titulacion)) +
  geom_histogram(binwidth = 2, position = "dodge", color = "black") +
  labs(title = "Distribución de Frecuencia de Actividad Sexual por Titulación",
       x = "Frecuencia de Actividad Sexual",
       y = "Cantidad de Estudiantes") +
  scale_fill_manual(values = c("Economía" = "#1f77b4", 
                               "Administración" = "#ff7f0e", 
                               "Contaduría" = "#2ca02c")) + # Colores personalizados
  theme_minimal()

Este diagrama de barras ilustra la “distribución de frecuencia de actividad sexual según titulación”, en la que se compara la cantidad de estudiantes de tres programas académicos: administración, contaduría y economía. Se puede observar que la distribución de actividad sexual para los estudiantes de administración es menos marcada, ya que las barras de esta carrera se mantienen en un nivel intermedio. En segundo lugar, la carrera de contaduría presenta la mayor cantidad de estudiantes con frecuencias de actividad sexual más bajas (entre 2 y 5), notándose una disminución en su participación a medida que se incrementan las frecuencias. Finalmente, los estudiantes de economía parecen tener la frecuencia de actividad sexual más alta en comparación con los otros dos programas, ya que sus barras alcanzan valores superiores a los del resto.

resumen_por_grupo <- datos %>%
  group_by(Titulacion) %>%
  summarise(
    Promedio = mean(Frecuencia),
    Desviacion_Estandar = sd(Frecuencia)
  )
ggplot(resumen_por_grupo, aes(x = Titulacion, y = Promedio, fill = Titulacion)) +
  geom_bar(stat = "identity", color = "black") +
  geom_errorbar(aes(ymin = Promedio - Desviacion_Estandar, ymax = Promedio + Desviacion_Estandar),
                width = 0.2, color = "black") +
  labs(title = "Promedio de Frecuencia de Actividad Sexual por Titulación",
       x = "Titulación Universitaria",
       y = "Frecuencia de Actividad Sexual") +
  scale_fill_manual(values = c("#FF9", "#66F", "#999", "#FFCC99")) +  # 
  theme_minimal()

tapply(frecuencia_actividad_sexual, titulacion_universitaria, mean)

## Administración     Contaduría       Economía 
##           6.90           5.45          11.60

Se hallan los promedios de actividad sexual por programa

anova = aov( lm(frecuencia_actividad_sexual ~titulacion_universitaria ) )
summary(anova)

##                           Df Sum Sq Mean Sq F value   Pr(>F)    
## titulacion_universitaria   2  826.9   413.4   38.98 1.07e-13 ***
## Residuals                117 1241.1    10.6                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hipótesis nula (Ho): Las medias son iguales para las tres poblaciones universitarias. Hipótesis alternativa (Ha): Existe al menos una media diferente. A partir del test F, se puede rechazar la hipótesis nula, que sostiene que los promedios de la frecuencia mensual de relaciones sexuales en las tres poblaciones universitarias son iguales. Esto se debe a que el P-Valor obtenido es 0.000000000000107, lo cual es inferior al P-Valor crítico de 0.05. Por lo tanto, aceptamos la hipótesis alternativa (Ha), indicando que hay diferencias significativas entre las medias.

plot(anova$residuals)

hist(anova$residuals)

En este histograma, se puede notar que la mayoría de los valores se agrupan alrededor de cero, aunque la distribución no es completamente simétrica. Hay una mayor concentración de valores hacia un lado. Este comportamiento sugiere que el supuesto de normalidad no se cumple de forma estricta, lo que implica que el modelo ANOVA podría no ser el más adecuado para analizar las diferencias entre las tres titulaciones. La falta de normalidad en los residuos puede comprometer la validez de los resultados obtenidos mediante ANOVA. Dado que no se satisfacen los supuestos de normalidad e independencia de los residuos, la alternativa más apropiada sería la prueba de Kruskal-Wallis. Esta prueba no paramétrica no requiere que los datos sean normales y es una opción robusta para comparar medianas entre múltiples grupos. Aplicar la prueba de Kruskal-Wallis a estos datos permitiría evaluar las diferencias en la frecuencia mensual de relaciones sexuales entre las tres titulaciones sin depender del cumplimiento de los supuestos de normalidad de los residuos.

qqnorm(anova$residuals)
qqline(anova$residuals)

shapiro.test(anova$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova$residuals
## W = 0.98473, p-value = 0.1945

diferencias = TukeyHSD(anova)
diferencias

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(frecuencia_actividad_sexual ~ titulacion_universitaria))
## 
## $titulacion_universitaria
##                            diff       lwr       upr     p adj
## Contaduría-Administración -1.45 -3.178861 0.2788605 0.1189269
## Economía-Administración    4.70  2.971139 6.4288605 0.0000000
## Economía-Contaduría        6.15  4.421139 7.8788605 0.0000000

plot(diferencias, col = "blue", las = 1, cex.axis = 0.5, cex.lab = 0.5, cex = 0.5)

Economía vs. Administración: Este intervalo se sitúa en valores positivos y no incluye el cero, lo que sugiere que existe una diferencia estadísticamente significativa entre ambas titulaciones, siendo la media de Economía superior a la de Administración. Economía vs. Contaduría: Nuevamente, este rango no abarca el cero y es estadísticamente significativo, lo que indica que la media de Economía es mayor que la de Contaduría. Contaduría vs. Administración: El intervalo de confianza para este par de titulaciones incluye el cero, lo que sugiere que no hay una diferencia estadísticamente significativa en las medias de estas dos carreras.

##A partir de los resultados obtenidos, se propone implementar políticas públicas en la universidad que busquen concientizar sobre las consecuencias de la actividad sexual, dado que una mayor frecuencia incrementa la probabilidad de embarazos no planificados y de infecciones de transmisión sexual (ITS) como VIH y VPH, lo que podría afectar la formación académica de los estudiantes y, por ende, la competitividad de la institución. Para ello, se sugiere desarrollar programas de educación sexual integral y campañas de concientización sobre métodos anticonceptivos, así como establecer servicios de consejería y apoyo psicológico. Además, es fundamental implementar medidas de apoyo para estudiantes que enfrenten un embarazo, como programas académicos flexibles, servicios de guardería y becas específicas

#Diferencias entre los salario según el tipo de ubicación

# Paso 1: Crear el vector de salarios
salarios <- c(
  # Valencia
  299, 313, 300, 321, 308, 312, 300, 310, 281, 308, 309, 300, 303, 303, 311, 308, 291, 298,
  276, 290, 310, 308, 295, 310, 286, 295, 289, 293, 291, 297, 297, 287, 297, 302, 298, 301,
  313, 290, 306, 313, 294, 308, 295, 303, 316, 299, 313, 296, 290, 299,
  # Castellón
  252, 248, 232, 229, 256, 233, 240, 237, 248, 232, 230, 246, 236, 250, 238, 243, 245, 241,
  235, 249, 238, 231, 230, 239, 261, 243, 242, 245, 249, 258, 245, 236, 244, 242, 229, 246,
  244, 244, 255, 247, 236, 252, 237, 259, 248, 237, 236, 252, 236, 239,
  # Alicante
  272, 268, 285, 274, 278, 287, 297, 275, 269, 281, 270, 284, 282, 281, 280, 286, 265, 283,
  281, 272, 269, 286, 268, 288, 284, 282, 304, 280, 283, 281, 281, 286, 287, 288, 278, 272,
  268, 287, 269, 272, 270, 271, 291, 265, 280, 280, 275, 294, 269, 277
)
provincia <- factor(rep(c("Valencia", "Castellón", "Alicante"), times = c(50, 50, 50)))

datos_salarios <- data.frame(salarios, provincia)

# Crear el boxplot de salarios por provincia
boxplot(salarios ~ provincia, data = datos_salarios,
        main = "Distribución de Salarios por Provincia",
        xlab = "Provincia", ylab = "Salarios",
        col = c("orange", "blue", "green"))

# Calcular el promedio de salarios por provincia
promedios <- datos_salarios %>%
  group_by(provincia) %>%
  summarise(promedio = mean(salarios))
# Crear el gráfico de barras de promedios con mejoras visuales
ggplot(promedios, aes(x = provincia, y = promedio, fill = provincia)) +
  geom_bar(stat = "identity", color = "black", width = 0.6) +
  geom_text(aes(label = round(promedio, 1)), 
            vjust = -0.5, color = "black", size = 5) +  # Agregar etiquetas con el promedio
  scale_fill_manual(values = c("Valencia" = "darkblue", "Castellón" = "green", "Alicante" = "red")) +  # Colores personalizados
  labs(title = "Promedio de Salarios por Provincia",
       x = "Provincia",
       y = "Salario Promedio") +
  theme_minimal(base_size = 15) +  # Ajustar tamaño base de la fuente
  theme(legend.position = "none",
        plot.title = element_text(hjust = 0.5, face = "bold", size = 18),  # Centrar y estilizar título
        axis.title.x = element_text(face = "bold"),
        axis.title.y = element_text(face = "bold"),
        axis.text.x = element_text(size = 12),
        axis.text.y = element_text(size = 12))

El diagrama de barras presenta una comparación de los salarios promedio en las provincias de España: Alicante, Castellón y Valencia. Valencia lidera con un salario promedio de 300.6, lo que indica que su situación económica es, aparentemente, más favorable en términos de ingresos. Por su parte, Alicante muestra un salario promedio de 279.1, que se sitúa en un nivel intermedio; aunque es inferior al de Valencia, es claramente superior al de Castellón. Finalmente, Castellón tiene el salario promedio más bajo, con 242.4, lo que sugiere que sus habitantes enfrentan menos oportunidades de obtener ingresos elevados en comparación con Alicante y Valencia.

tapply(salarios, provincia, mean)

##  Alicante Castellón  Valencia 
##    279.10    242.40    300.64

La gráfica presenta la distribución de salarios por provincia (Alicante, Castellón y Valencia) utilizando un diagrama de cajas. En general, Valencia muestra los salarios más altos, seguida de Alicante, y finalmente Castellón, que tiene los salarios más bajos. La mediana salarial es más elevada en Valencia, lo que sugiere una mayor variabilidad en los ingresos de sus habitantes. Por otro lado, Castellón tiene la mediana más baja y una menor variabilidad, lo que indica que los salarios en esta provincia son más homogéneos y, en promedio, más bajos. Alicante se sitúa en un punto intermedio, con una mediana salarial y un rango intercuartílico que son menores que los de Valencia, pero superiores a los de Castellón. Los “bigotes” del diagrama indican que ninguna de las provincias presenta valores atípicos evidentes, lo que sugiere que los salarios en cada provincia están relativamente concentrados dentro de un rango específico.

anova1 = aov( lm(salarios ~provincia ) )
options(scipen=999)
summary(anova1)

##              Df Sum Sq Mean Sq F value              Pr(>F)    
## provincia     2  86713   43356     558 <0.0000000000000002 ***
## Residuals   147  11422      78                                
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Puesto que p<0.05 podemos rechazar la hipótesis nula consecuente a esto, decimos que el salario promedio entre las provincias representan diferencias significativas entre sí.

plot(anova1$residuals)

Podemos concluir que existe discrepancia entre los salarios por localización ya que hay diferencias significativas entre los salarios promedios por semana de Valencia, Alicante y Castellón, ya que observamos un grado de confianza del 95%.

hist(anova1$residuals)

El histograma ilustra la distribución de los residuos (diferencias) al comparar los salarios según la ubicación del trabajo. La mayor parte de estos residuos se agrupan cerca de 0, lo cual es un indicativo positivo, ya que sugiere que nuestro modelo estadístico es bastante efectivo para predecir los salarios. Aunque hay cierta variabilidad en los datos, su distribución aleatoria refuerza un hallazgo importante: los salarios en una ubicación son independientes de los salarios en otras. En términos sencillos, el salario que se paga en una zona no afecta a los salarios de otras zonas, lo que nos brinda confianza en que nuestro análisis estadístico es válido para comparar salarios entre distintas ubicaciones.

qqnorm(anova1$residuals)
qqline(anova1$residuals)

El diagrama Q-Q muestra que los puntos tienden a alinearse a lo largo de la recta diagonal principal, lo que sugiere que nuestros datos siguen una distribución normal. Sin embargo, al observar los extremos del gráfico, se puede ver que algunos puntos se desvían de la línea esperada, especialmente en las colas de la distribución, lo que indica la presencia de valores atípicos. Aunque esta situación no invalida la normalidad general de los datos, nos alerta sobre la necesidad de ser cautelosos al aplicar ciertas pruebas estadísticas que son especialmente sensibles a estos valores extremos.

shapiro.test(anova1$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova1$residuals
## W = 0.99194, p-value = 0.5574

Dado que el p-valor es 0.5574, que es superior al valor crítico de 0.05, aceptamos la hipótesis nula (Ho), lo que indica que los datos se distribuyen de manera normal.

diferencias2 = TukeyHSD(anova1)
diferencias2

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(salarios ~ provincia))
## 
## $provincia
##                      diff       lwr       upr p adj
## Castellón-Alicante -36.70 -40.87415 -32.52585     0
## Valencia-Alicante   21.54  17.36585  25.71415     0
## Valencia-Castellón  58.24  54.06585  62.41415     0

El test HSD de Tukey indica que existen diferencias estadísticamente significativas en los salarios entre todas las combinaciones de provincias, dado que el valor p ajustado es 0 en cada comparación. En particular, se observa que los salarios en Castellón son significativamente más bajos que en Alicante, mientras que en Valencia son más altos que en Alicante y también superan a los de Castellón. Estas diferencias están respaldadas por intervalos de confianza que no incluyen el valor cero.

plot(diferencias2, col = "orange", las = 1, cex.axis = 0.5, cex.lab = 0.5, cex = 0.5)

La regla general nos establece que si el intervalo no cruza la línea de cero, existe una diferencia significativa; en cambio, si la cruza, no hay tal diferencia. En el caso de Castellón-Alicante, el intervalo no cruza el cero, lo que indica que sí hay una diferencia significativa entre ambas. Por otro lado, el intervalo de Valencia-Alicante sí cruza el cero, lo que sugiere que no hay una diferencia significativa entre ellas. Asimismo, el intervalo de Valencia-Castellón también cruza el cero, lo que indica que no hay una diferencia significativa entre estas dos provincias.

Anova

Nair Perez, Helen Bracamonte, Xilena Bracamonte,Sebastian Torres

2024-11-09

Relaciones sexuales, en 3 carreras diferentes.

CONCLUSION