Ejercicio 1 Relaciones sexuales entre jóvenes universitarios

A. Introducción de los datos en R Primero, debes cargar los datos en R y crear las variables necesarias. Usa el siguiente código para introducir las frecuencias y crear la variable de grupo:

# Crear el vector de frecuencias de actividad sexual
frecuencia <- c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15, 10, 14, 10,
                10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11,
                13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2,
                9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4,
                6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4,
                7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)

# Crear el factor de carreras universitarias
carrera <- factor(c(rep("Economía", 40), rep("Administración", 40), rep("Contaduría", 40)))

# Crear un data frame para facilitar el análisis
datos <- data.frame(Frecuencia = frecuencia, Carrera = carrera)

B. Exploración de datos mediante gráficos y estadísticas descriptivas Usaremos gráficos y medidas estadísticas básicas para explorar los datos.

# Cargar librerías necesarias
library(ggplot2)

# Gráfico de caja con colores por carrera
ggplot(datos, aes(x = Carrera, y = Frecuencia, fill = Carrera)) + 
  geom_boxplot() + 
  labs(title = "Distribución de la frecuencia de actividad sexual por carrera", 
       x = "Carrera", y = "Frecuencia de actividad sexual") + 
  scale_fill_brewer(palette = "Set3")  # Paleta de colores para mejor estética

# Estadísticas descriptivas
summary(datos$Frecuencia)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   5.000   8.000   7.983  10.000  20.000
tapply(datos$Frecuencia, datos$Carrera, summary)
## $Administración
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     4.0     7.5     6.9    10.0    16.0 
## 
## $Contaduría
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    4.00    6.00    5.45    7.00   11.00 
## 
## $Economía
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     6.0    10.0    11.0    11.6    14.0    20.0

Los gráficos de caja mostraron la distribución de la frecuencia de actividad sexual en cada carrera, lo que permitió observar diferencias visuales en los valores promedio y la dispersión.

C. Test F (ANOVA) Realizamos el análisis de varianza para comparar las medias de los grupos.

# Realizar ANOVA
anova_modelo <- aov(Frecuencia ~ Carrera, data = datos)

# Mostrar resultados del ANOVA
summary(anova_modelo)
##              Df Sum Sq Mean Sq F value   Pr(>F)    
## Carrera       2  826.9   413.4   38.98 1.07e-13 ***
## Residuals   117 1241.1    10.6                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

D. Hipótesis:

H0 (nula): No hay diferencias significativas en la media de frecuencia entre las carreras.

H1 (alternativa): Al menos una de las carreras tiene una media significativamente diferente.

El valor de 1.07e-13 en notación decimal completa es:

0.000000000000107

Conclusión sobre la hipótesis nula: Dado que el valor p es extremadamente pequeño (mucho menor que 0.05), se rechaza la hipótesis nula. Esto significa que hay evidencia estadística suficiente para afirmar que existen diferencias significativas entre las medias de las frecuencias de actividad sexual en las tres carreras.

# se realiza el Test de Tuckey para ver, en que grupos se logra evidenciar las diferencias.
diferencias = TukeyHSD(anova_modelo)
diferencias
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Frecuencia ~ Carrera, data = datos)
## 
## $Carrera
##                            diff       lwr       upr     p adj
## Contaduría-Administración -1.45 -3.178861 0.2788605 0.1189269
## Economía-Administración    4.70  2.971139 6.4288605 0.0000000
## Economía-Contaduría        6.15  4.421139 7.8788605 0.0000000

E. Test HSD de Tukey Al realizar el test HSD de Tukey, se pudo identificar cuáles carreras presentaban diferencias significativas en sus medias de actividad sexual. Este análisis post hoc es esencial cuando el ANOVA indica diferencias significativas, ya que ayuda a determinar entre qué grupos se encuentran esas diferencias.Test HSD de Tukey Para identificar dónde se encuentran las diferencias significativas

F. Validación de supuestos del modelo ANOVA

Para garantizar la validez del análisis ANOVA, se evaluaron los supuestos de normalidad e independencia de los residuos:

Gráfico de residuos vs. valores ajustados: Verificó la independencia y homogeneidad de la varianza. Gráfico Q-Q: Verificó la normalidad de los residuos. Se utilizó la prueba de Shapiro-Wilk para confirmar la normalidad. Si los supuestos no se cumplen, se consideró la prueba de Kruskal-Wallis como alternativa no paramétrica para comparar las medianas de los grupos.

# Cargar librerías necesarias
library(ggplot2)

# Gráfico de residuos vs. valores ajustados
residuos <- data.frame(
  Ajustados = fitted(anova_modelo),
  Residuos = residuals(anova_modelo)
)

ggplot(residuos, aes(x = Ajustados, y = Residuos)) +
  geom_point(color = "blue", size = 2) +  # Puntos en color azul
  geom_hline(yintercept = 0, linetype = "dashed", color = "red") +  # Línea en y=0
  labs(title = "Residuos vs. Valores Ajustados", 
       x = "Valores Ajustados", 
       y = "Residuos") +
  theme_minimal()

# Instalar la librería ggfortify
install.packages("ggfortify")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.4'
## (as 'lib' is unspecified)
# Cargar la librería
library(ggfortify)
# Extraer los residuos y valores ajustados
residuos <- residuals(anova_modelo)
valores_ajustados <- fitted(anova_modelo)

# Gráfico Q-Q
ggplot(data.frame(Residuos = residuos), aes(sample = Residuos)) +
  stat_qq(color = "red") +
  stat_qq_line(color = "blue") +
  theme_minimal() +
  ggtitle("Gráfico Q-Q de los Residuos") +
  xlab("Cuantiles Teóricos") +
  ylab("Cuantiles de los Residuos")

Si no se cumplen los supuestos de normalidad, puedes usar una prueba no paramétrica como la de Kruskal-Wallis:

# Prueba de Kruskal-Wallis
kruskal.test(Frecuencia ~ Carrera, data = datos)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  Frecuencia by Carrera
## Kruskal-Wallis chi-squared = 51.504, df = 2, p-value = 6.547e-12

G. Interpretación y decisiones de binestar universitario Con base en los resultados obtenidos, las decisiones podrían enfocarse en mejorar la educación sexual, aumentar el acceso a recursos de salud, y desarrollar programas de apoyo específicos para los estudiantes de carreras con menor frecuencia de actividad sexual, si se considera relevante.