Taller Anova

Relaciones sexuales entre jóvenes universitarios, en 3 carreras diferentes.

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.3.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.3

# Paso 1: Definir las frecuencias de actividad sexual (combinando todos los vectores)
frecuencia_actividad_sexual <- c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15,10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11, 13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8,  8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4, 6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 
4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)

# Paso 2: Crear el factor para la titulación universitaria
titulacion_universitaria <- factor(rep(c("Economía", "Administración", "Contaduría"), 
                                       times = c(40, 40, 40)))

datos <- data.frame(
  Frecuencia = frecuencia_actividad_sexual,
  Titulacion = titulacion_universitaria
)

boxplot(Frecuencia ~ Titulacion, data = datos,
        main = "Frecuencia de Actividad Sexual por Titulación",
        xlab = "Titulación Universitaria",
        ylab = "Frecuencia de Actividad Sexual",
        col = c("lightblue", "lightgreen", "lightpink"))

En este boxplot se puede hacer una interpretación inicial sobre la frecuencia de actividad sexual de los estudiantes de la facultad de ciencias económicas y administrativas.Los estudiantes de Contaduría muestran la mediana de actividad sexual más baja, mientras que los de Administración tienen una mediana intermedia y los de Economía cuentan con la mediana más alta entre las tres titulaciones.

Además, observamos el rango intercuartílico (IQR), representado por la longitud de cada caja. Los estudiantes de Economía y Administración presentan una mayor longitud en las cajas, lo que sugiere una mayor variabilidad en la frecuencia de su actividad sexual. En contraste, los estudiantes de Contaduría tienen la caja más estrecha, lo que indica una menor variabilidad en este aspecto.

ggplot(datos, aes(x = Frecuencia, fill = Titulacion)) +
  geom_histogram(binwidth = 2, position = "dodge", color = "black") +
  labs(title = "Distribución de Frecuencia de Actividad Sexual por Titulación",
       x = "Frecuencia de Actividad Sexual",
       y = "Cantidad de Estudiantes") +
  theme_minimal()

En este diagrama de barras nos muestra la “distribución de frecuencia de actividad sexual por titulación”, donde se están comparando la cantidad de estudiantes de tres titulaciones (administración, contaduría y economía).

Podemos observar que para los estudiantes de administración se muestra una distribución de actividad sexual menos pronunciada, las barras de esta carrera se mantienen en un nivel intermedio. Luego está la carrera de contaduría que tiene la mayor cantidad de estudiantes en frecuencia de actividades más bajas (entre 2 y 5), podemos notar que luego baja su participación en frecuencias mayores. Para terminar tenemos a los estudiantes de economía que parecen tener la frecuencia de actividad sexual más alta en comparación con las otras dos carreras, vemos que sus barras alcanzan valores más altos que el resto.

resumen_por_grupo <- datos %>%
  group_by(Titulacion) %>%
  summarise(
    Promedio = mean(Frecuencia),
    Desviacion_Estandar = sd(Frecuencia)
  )
# Gráfico de barras con promedio y error estándar
ggplot(resumen_por_grupo, aes(x = Titulacion, y = Promedio, fill = Titulacion)) +
  geom_bar(stat = "identity", color = "black") +
  geom_errorbar(aes(ymin = Promedio - Desviacion_Estandar, ymax = Promedio + Desviacion_Estandar),
                width = 0.2, color = "black") +
  labs(title = "Promedio de Frecuencia de Actividad Sexual por Titulación",
       x = "Titulación Universitaria",
       y = "Frecuencia de Actividad Sexual") +
  theme_minimal()

Según el gráfico observamos que los estudiantes de Economía tienen mayor promedio en frecuencia sexual, y además de eso más diferenciada en cuanto a los otros dos programas. Por otro lado, según la línea planteada en las barras podemos decir que los estudiantes de Administración poseen una dispersión pequeña, es decir los datos si se concentran alrededor del promedio, por el lado de la población de Contaduría representa menos variación entre los datos, y por último el programa de Economía nos muestra que hay una mayor variabilidad en este grupo, con algunos estudiantes reportando frecuencias mucho mayores o menores en comparación con el promedio del grupo.

tapply(frecuencia_actividad_sexual, titulacion_universitaria, mean)

## Administración     Contaduría       Economía 
##           6.90           5.45          11.60

Se hallan los promedios de actividad sexual por programa

anova = aov( lm(frecuencia_actividad_sexual ~titulacion_universitaria ) )
summary(anova)

##                           Df Sum Sq Mean Sq F value   Pr(>F)    
## titulacion_universitaria   2  826.9   413.4   38.98 1.07e-13 ***
## Residuals                117 1241.1    10.6                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ho: Las medias son iguales para las tres poblaciones universitarias Ha: Existe alguna media distinta Con base al test F, se puede rechazar la hipótesis nula la cual nos dice que todos los promedios de la frecuencia mensual de relaciones sexuales de tres poblaciones universitarias son iguales, ya que P-Valor cuyo resultado es de 0.000000000000107 siendo menor que el P-Valor critico del 0,05, por tanto aceptamos la Ha, ya que hay diferencias entre las medias.

plot(anova$residuals)

Podemos observar dispersion entre los puntos sin mostrar una tendencia clara, señalando que existe independencia entre los residuos indicando que no están correlacionados, es decir que la frecuencia de relaciones sexuales de los estudiantes de Economia no afectan la de los otros estudiantes de diferentes carreras (Administracion y Contaduria), siendo asi que los datos son independientes en relacion a otros.

hist(anova$residuals)

En este histograma se observa que la mayor parte de los valores se centra alrededor de cero, pero la distribución no es perfectamente equilibrada. Hay más valores hacia un lado. Dado el comportamiento observado, parece que el supuesto de normalidad no se cumple de manera estricta. Esto indica que el modelo ANOVA podría no ser totalmente adecuado para analizar estas diferencias entre las tres titulaciones. La falta de normalidad en los residuos puede afectar la validez de los resultados obtenidos con ANOVA. Al no cumplirse los supuestos de normalidad e independencia de los residuos la alternativa más adecuada es la prueba de Kruskal-Wallis. Esta prueba no paramétrica no requiere normalidad en los datos y es una opción robusta para comparar medianas entre varios grupos. Aplicar la prueba de Kruskal-Wallis a estos datos permitiría evaluar las diferencias en la frecuencia mensual de relaciones sexuales entre las tres titulaciones sin depender del cumplimiento de los supuestos de normalidad de los residuos.

qqnorm(anova$residuals)
qqline(anova$residuals)

shapiro.test(anova$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova$residuals
## W = 0.98473, p-value = 0.1945

Se cumple el supuesto de normalidad ya que 0.1945 esta por encima de p-valor critico de 0,05 lo que indica que aceptamos la hipotesis nula que dice que los errores siguen una distribucion normal.

diferencias = TukeyHSD(anova)
diferencias

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(frecuencia_actividad_sexual ~ titulacion_universitaria))
## 
## $titulacion_universitaria
##                            diff       lwr       upr     p adj
## Contaduría-Administración -1.45 -3.178861 0.2788605 0.1189269
## Economía-Administración    4.70  2.971139 6.4288605 0.0000000
## Economía-Contaduría        6.15  4.421139 7.8788605 0.0000000

El analisis hecho por medio de la prueba HSD de Tukey nos dice que hay ciertas disparidades significativas en la frecuencia de actividad sexual entre los distintos programas universitarios. Especialmente, los estudiantes de economía muestran una frecuencia de actividad sexual considerablemente mayor en comparación con los estudiantes de administración y contaduría, con un p-valor adecuado de 0.000 en los dos casos. En cambio, no se observaron diferencias significativas entre los estudiantes de administración y contaduría, dado que su p- valor fue mayor a 0.05.

plot(diferencias, col = "red", las = 1, cex.axis = 0.5, cex.lab = 0.5, cex = 0.5)

Economía vs. Administración: Este intervalo se desplaza a valores positivos y no cruza el cero , lo que indica que hay una diferencia estadísticamente significativa entre ambas titulaciones , teniendo Economía un valor medio mayor que Administración Economía vs. Contaduría: Nuevamente , este rango no cruza el cero y es estadísticamente significativo, lo que indica que Economía tiene un valor medio mayor que Contabilidad . Contaduría vs. Administración: El intervalo de confianza para este par cruza el cero , lo que indica que no hay diferencia estadísticamente significativa en la media de estas dos carreras

A partir de los resultados obtenidos que decisiones de política pública, para esta universidad se pueden tomar.

Luego de realizar los respectivos analisis, se llega a la conclusion que se deben implementar politicas, las cuales busque sensibilizar los efectos que conlleva realizar la actividad sexual, si lo tomamos desde un ambito estadistico a mayor frecuencia de actividad sexual aumentara la probabibilidad de los efectos de esta tales como embarazos o enfermedades de transmicion sexual(VIH,VPH,entre otros) los cuales estan expuestos los estudiantes y afectar su formacion academica, esto puede afectar la competitividad de la universidad. asimismo, al momento de un estudiante quedar en estado de embarazo, se produce una disminucion de la demanda laboral profesional, ya que, en muchas ocasiones dichos estudiantes tienen que abandonar los estudios

Diferencias entre los salario según el tipo de ubicación

# Paso 1: Crear el vector de salarios
salarios <- c(
  # Valencia
  299, 313, 300, 321, 308, 312, 300, 310, 281, 308, 309, 300, 303, 303, 311, 308, 291, 298,
  276, 290, 310, 308, 295, 310, 286, 295, 289, 293, 291, 297, 297, 287, 297, 302, 298, 301,
  313, 290, 306, 313, 294, 308, 295, 303, 316, 299, 313, 296, 290, 299,
  # Castellón
  252, 248, 232, 229, 256, 233, 240, 237, 248, 232, 230, 246, 236, 250, 238, 243, 245, 241,
  235, 249, 238, 231, 230, 239, 261, 243, 242, 245, 249, 258, 245, 236, 244, 242, 229, 246,
  244, 244, 255, 247, 236, 252, 237, 259, 248, 237, 236, 252, 236, 239,
  # Alicante
  272, 268, 285, 274, 278, 287, 297, 275, 269, 281, 270, 284, 282, 281, 280, 286, 265, 283,
  281, 272, 269, 286, 268, 288, 284, 282, 304, 280, 283, 281, 281, 286, 287, 288, 278, 272,
  268, 287, 269, 272, 270, 271, 291, 265, 280, 280, 275, 294, 269, 277
)
provincia <- factor(rep(c("Valencia", "Castellón", "Alicante"), times = c(50, 50, 50)))

datos_salarios <- data.frame(salarios, provincia)

# Crear el boxplot de salarios por provincia
boxplot(salarios ~ provincia, data = datos_salarios,
        main = "Distribución de Salarios por Provincia",
        xlab = "Provincia", ylab = "Salarios",
        col = c("lightblue", "lightgreen", "lightpink"))

El diagrama de barras nos muestra una comparación de los salarios promedio por provincia en España: Alicante, Castellón y Valencia.

El salario promedio de Valencia es de 300.6 este, como podemos ver, es el salario promedio más alto de las tres provincias, lo que nos quiere decir que la situación económica de aquí es, aparentemente, más favorable en términos de ingreso. En Alicante se observa un salario promedio de 279.1, un salario intermedio, más bajo que Valencia pero, viendo por encima, superior a Castellón. Por último, la provincia de Castellón tiene el salario promedio (242.4) más bajo entre las provincias, Castellón parece tener menos oportunidad de ingresos altos en comparación con Alicante y Valencia.

# Calcular el promedio de salarios por provincia
promedios <- datos_salarios %>%
  group_by(provincia) %>%
  summarise(promedio = mean(salarios))
# Crear el gráfico de barras de promedios con mejoras visuales
ggplot(promedios, aes(x = provincia, y = promedio, fill = provincia)) +
  geom_bar(stat = "identity", color = "black", width = 0.6) +
  geom_text(aes(label = round(promedio, 1)), 
            vjust = -0.5, color = "black", size = 5) +  # Agregar etiquetas con el promedio
  scale_fill_manual(values = c("Valencia" = "skyblue", "Castellón" = "lightgreen", "Alicante" = "salmon")) +  # Colores personalizados
  labs(title = "Promedio de Salarios por Provincia",
       x = "Provincia",
       y = "Salario Promedio") +
  theme_minimal(base_size = 15) +  # Ajustar tamaño base de la fuente
  theme(legend.position = "none",
        plot.title = element_text(hjust = 0.5, face = "bold", size = 18),  # Centrar y estilizar título
        axis.title.x = element_text(face = "bold"),
        axis.title.y = element_text(face = "bold"),
        axis.text.x = element_text(size = 12),
        axis.text.y = element_text(size = 12))

La gráfica muestra la distribución de salarios por provincia (Alicante, Castellón y Valencia) a través de un diagrama de cajas.

En términos generales, Valencia tiene los salarios más altos, seguida de Alicante y por último Castellón. La mediana salarial es mayor en Valencia, lo que nos muestra una mayor variabilidad en los ingresos de sus habitantes. Castellón presenta la mediana más baja y una menor variabilidad, lo que nos indica que los salarios en esta provincia son más similares, promediando más bajos.

Tenemos a Alicante en un punto intermedio, con una mediana salarial y un rango intercuartílico que son menores que los de Valencia pero mayores que los de Castellón. Los “bigotes” aquí nos muestran que ninguna provincia tiene valores atípicos evidentes, lo que propone que los salarios en cada provincia están relativamente concentrados dentro de cierto rang

tapply(salarios, provincia, mean)

##  Alicante Castellón  Valencia 
##    279.10    242.40    300.64

Se encuentran los promedios de salarios por provincia

anova1 = aov( lm(salarios ~provincia ) )
options(scipen=999)
summary(anova1)

##              Df Sum Sq Mean Sq F value              Pr(>F)    
## provincia     2  86713   43356     558 <0.0000000000000002 ***
## Residuals   147  11422      78                                
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dado que el valor p es extremadamente pequeño (mucho menor que el nivel de significancia convencional de 0.05), rechazamos la hipótesis nula. Esto significa que tenemos evidencia estadística muy sólida para concluir que existe al menos una diferencia significativa en los salarios promedio entre las tres provincias

plot(anova1$residuals)

La gráfica de dispersión de los residuos de un análisis de ANOVA en función de un índice de observaciones nos muestra que, los residuos parecen estar distribuidos de manera aleatoria alrededor de la línea central, esto es algo positivo. Como no se muestra una tendencia clara, podríamos concluir que los residuos son independientes y no están correlacionados. Además, la dispersión de los puntos parece consistente a lo largo del rango índice, esto nos demuestra que no hay variación desigual de los residuos. Los residuos oscilan aproximadamente entre -20 y 20. Esta distribución alrededor de cero también es una señal de que el modelo ajustado puede estar capturando bien la media de los datos sin sesgos sistemáticos.

hist(anova1$residuals)

El histograma muestra cómo se distribuyen los residuos (diferencias) al comparar los salarios según la ubicación del trabajo. La mayoría de estos residuos se concentran cerca de 0, lo que es positivo porque indica que nuestro modelo estadístico es bastante preciso para predecir los salarios. Aunque hay cierta dispersión en los datos, su distribución aleatoria nos confirma algo importante: los salarios en una ubicación son independientes de los salarios en otras ubicaciones. En términos más simples, el salario que se paga en una zona no influye en los salarios de otras zonas, lo que nos permite confiar en que nuestro análisis estadístico es válido para comparar los salarios entre diferentes ubicaciones.

qqnorm(anova1$residuals)
qqline(anova1$residuals)

El diagrama Q-Q revela que los puntos mayormente se alinean en la recta diagonal principal, lo que nos indica una tendencia hacia una distribución normal en nuestros datos. No obstante, al examinar los extremos del gráfico, notamos que algunos puntos se alejan de la línea esperada, particularmente en las colas de la distribución, resaltando la presencia de valores que se salen del comportamiento típico. Esta situación, si bien no invalida la normalidad general de los datos, nos advierte que debemos ser cautelosos al aplicar ciertas pruebas estadísticas que son particularmente sensibles a estos valores extremos.

Para corroborar el supuesto de normalidad usamos la prueba de Shapiro Wil, ya que no hay parámetros que pueda confirmar

shapiro.test(anova1$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova1$residuals
## W = 0.99194, p-value = 0.5574

Con base al p-value=0.5574 siendo superior a al valor crítico (0.05) aceptamos la Ho, afirmando que los datos siguen una distribución normal.

diferencias2 = TukeyHSD(anova1)
diferencias2

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(salarios ~ provincia))
## 
## $provincia
##                      diff       lwr       upr p adj
## Castellón-Alicante -36.70 -40.87415 -32.52585     0
## Valencia-Alicante   21.54  17.36585  25.71415     0
## Valencia-Castellón  58.24  54.06585  62.41415     0

El análisis del test HSD de Turkey revela que hay diferencias estadísticamente significativas en los salarios entre todas las combinaciones de provincias, dado que el p- valor ajustado es cero en cada comparación. En específico, se destaca que los salarios de Castellón son notablemente inferiores a los de Alicante, mientras que Valencia presenta salarios más altos que Alicante y también supera Castellón. Estas discrepancias están corroboradas por intervalos de confianza que no incluyen cero.

plot(diferencias2, col = "red", las = 1, cex.axis = 0.5, cex.lab = 0.5, cex = 0.5)

La regla general es que si el intervalo no cruza la línea de cero, hay una diferencia significativa, y si la cruza, no la hay. Castellón-Alicante no cruza el cero, lo que indica que si hay diferencia significativa entre ellas. Valencia-Alicante sí cruza el cero, lo que indica que no hay diferencia significativa entre ellas. Valencia-Castellón sí cruza el cero, lo que indica que no hay diferencia significativa entre ellas.

A partir de los resultados obtenidos que decisiones podría estar tomando.

Estos resultados dan pie a centrar esfuerzos en incrementar la competitividad y la equidad salarial entre las provincias. Por ejemplo, Castellón podría implementar medidas destinadas a elevar los sueldos o a ofrecer estímulos adicionales con el objetivo de atraer y retener talento, compensando de esta forma su desventaja frente a las otras provincias. Asimismo, podría barajarse la asignación de más recursos o subvenciones para Castellón, buscando reducir la brecha salarial respecto a Alicante y Valencia y promover un desarrollo económico más equilibrado. Por otro lado, en Valencia, donde los salarios son más altos, sería aconsejable fortalecer políticas de retención del personal, puesto que los sueldos actuales ya constituyen un incentivo competitivo. En resumen, estos datos permiten adoptar decisiones orientadas al mejoramiento de la competitividad, equidad y sostenibilidad laboral en cada provincia, promoviendo un entorno salarial más atractivo y equilibrado.

Taller Anova

Natalia Paternina, Maria Valverde, Ana Martinez, Oscar Parra

2024-11-07

Relaciones sexuales entre jóvenes universitarios, en 3 carreras diferentes.

A partir de los resultados obtenidos que decisiones de política pública, para esta universidad se pueden tomar.

Diferencias entre los salario según el tipo de ubicación

A partir de los resultados obtenidos que decisiones podría estar tomando.