Relaciones sexuales entre universitarios
El departamento de Psicología de una Universidad de Castilla-La Mancha ha realizado un estudio sobre hábitos, preferencias y satisfacción sexual en estudiantes universitarios. Hemos utilizado los datos que recogieron en sus encuestas y queremos conocer si existen diferencias entre la frecuencia mensual de relaciones sexuales de estudiantes universitarios pertenecientes a tres titulaciones universitarias diferentes:
T1: 11 14 7 15 11 13 11 16 10 15 18 12 9 9 10 10 15 10 14 10 10 12 14 12 15 7 13 6 10 15 20 10 13 10 6 14 8 10 8 11
T2: 13 10 12 7 5 10 10 16 9 7 7 2 6 9 9 8 8 10 3 6 5 2 9 3 4 5 10 8 5 9 10 8 13 10 0 2 1 1 0 4
T3: 6 7 3 5 9 6 1 6 0 2 5 6 11 6 7 0 5 7 5 4 7 4 2 8 9 6 1 4 7 7 8 9 7 5 1 6 9 4 7 6
T1<-c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15, 10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11)
T2<-c(13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4)
T3<-c(6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)
length(T1)
## [1] 40
length(T2)
## [1] 40
length(T3)
## [1] 40
Contesta las siguientes preguntas:
actividad <- c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15, 10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11, 13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4, 6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)
titulacion <- as.factor(c(rep(c("T1", "T2", "T3"), each =40)))
titulacion
## [1] T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1
## [24] T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T2 T2 T2 T2 T2 T2
## [47] T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2
## [70] T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3
## [93] T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3
## [116] T3 T3 T3 T3 T3
## Levels: T1 T2 T3
actividad
## [1] 11 14 7 15 11 13 11 16 10 15 18 12 9 9 10 10 15 10 14 10 10 12 14
## [24] 12 15 7 13 6 10 15 20 10 13 10 6 14 8 10 8 11 13 10 12 7 5 10
## [47] 10 16 9 7 7 2 6 9 9 8 8 10 3 6 5 2 9 3 4 5 10 8 5
## [70] 9 10 8 13 10 0 2 1 1 0 4 6 7 3 5 9 6 1 6 0 2 5 6
## [93] 11 6 7 0 5 7 5 4 7 4 2 8 9 6 1 4 7 7 8 9 7 5 1
## [116] 6 9 4 7 6
boxplot(actividad ~ titulacion, col = c("yellow", "blue","green"), ylab = "Número de Relaciones Sexuales ")
tapply(actividad,titulacion,mean)
## T1 T2 T3
## 11.60 6.90 5.45
SI SE EVIDENCIA DIFERENCIA ENTRE LOS VALORES PROMEDIOS Y SU VARIABILIDAD.
h0:Las medias de cada proyecto de titulacion son iguales h1:Las medias entre las titulaciones difieren
fm = aov( lm(actividad ~ titulacion) )
Pedimos un resumen de la tabla del ANOVA
summary(fm)
## Df Sum Sq Mean Sq F value Pr(>F)
## titulacion 2 826.9 413.4 38.98 1.07e-13 ***
## Residuals 117 1241.1 10.6
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El valor de F será:
summary(fm)[[1]][1,4]
## [1] 38.97486
Los grados de libertad del factor:
#fm$rank-1
summary(fm)[[1]][1,1]
## [1] 2
Los grados de libertad del residuo:
#fm$df.residual
summary(fm)[[1]][2,1]
## [1] 117
El valor de P
summary(fm)[[1]][1,5]
## [1] 1.067578e-13
Bajo la Ho el estadístico de contraste F se distribuye como una F de grados de libertad (I-1), (n-I) donde I es el número de grupos que disponemos y n el tamaño total de la muestral. Así obtenemos el cuantil buscado:
qf(0.05, 2-1, 80-2, lower.tail = F)
## [1] 3.963472
Valores del estadístico > 3.963472 estarán incluidos en la región de rechazo. En nuestro caso 38.98 es mucho mayor que el valor crítico obtenido.
La raíz cuadrada de la media de los cuadrados del error, además de proporcionarnos una estimación de la varianza muestral de todos los datos.
media<- summary(fm)[[1]][2,3]
sp <- sqrt(media) #desviación típica de la varianza muestral común
sp
## [1] 3.256945
TRAS LA APLICACION DEL ANALISIS ANOVA, SE INFIERE QUE: NO EXISTE EVIDENCIA ESTADISTICA SUFICIENTE PARA ACEPTAR LA HIPOTESIS NULA. ES DECIR SE SUGIERE RECHAZAR LA HIPOTESIS NULA LO QUE IMPLICA QUE EXISTE DIFERENCIA ENTRE LAS MEDIAS DE LAS TITULACIONES
La raíz cuadrada de la media de los cuadrados del error, además se utiliza en la obtención de los intervalos de confianza de las medias en cada uno de los grupos de interés.
media <- mean(actividad[titulacion =="T1"])
valor_t <- pt(0.05/2, 80-2)
ee <- valor_t * (sp/ sqrt(40)) #error de estimación
media
## [1] 11.6
límite superior del intervalo de confianza de la media de actividad sexual para la titulacion T1
media + ee
## [1] 11.8626
límite inferior del intervalo de confianza de la media de actividad sexual para la titulacion T1
media - ee
## [1] 11.3374
media <- mean(actividad[titulacion =="T2"])
valor_t <- pt(0.05/2, 80-2)
ee <- valor_t * (sp/ sqrt(40)) #error de estimación
media
## [1] 6.9
límite superior del intervalo de confianza de la media de actividad sexual para la titulacion T2
media + ee
## [1] 7.162603
límite inferior del intervalo de confianza de la media de actividad sexual para la titulacion T2
media - ee
## [1] 6.637397
media <- mean(actividad[titulacion =="T3"])
valor_t <- pt(0.05/2, 80-2)
ee <- valor_t * (sp/ sqrt(40)) #error de estimación
media
## [1] 5.45
límite superior del intervalo de confianza de la media de actividad sexual para la titulacion T3
media + ee
## [1] 5.712603
límite inferior del intervalo de confianza de la media de actividad sexual para la titulacion T3
media - ee
## [1] 5.187397
intervals = TukeyHSD(fm)
intervals
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = lm(actividad ~ titulacion))
##
## $titulacion
## diff lwr upr p adj
## T2-T1 -4.70 -6.428861 -2.9711395 0.0000000
## T3-T1 -6.15 -7.878861 -4.4211395 0.0000000
## T3-T2 -1.45 -3.178861 0.2788605 0.1189269
plot(intervals)
SE EVIDENCIA LAS DIFERENCIAS ENTRE LAS TITULACIONES, ES DECIR DIFERENCIAS ENTRE LAS MEDIAS
Los supuestos que se deben cumplir son tres: independencia, homocedasticidad y normalidad.
plot(fm$residuals)
Los gráficos y descriptivos nos informan si se verifica la igualdad de varianzas en los grupos descritos:
boxplot(fm$residuals~titulacion, col = c("yellow", "blue", "green"))
desviaciones <- tapply(fm$residuals, titulacion, sd)
Comparando la desviación máxima con la mínima obtenemos una orientación sobre la falta de homocedasticidad (>2 aproximadamente)
max(desviaciones) / min(desviaciones)
## [1] 1.45217
El test de Bartlett indica que no tenemos evidencia suficiente para rechazar la hipótesis nula (las varianzas son iguales)
bartlett.test(fm$residuals ~ titulacion)
##
## Bartlett test of homogeneity of variances
##
## data: fm$residuals by titulacion
## Bartlett's K-squared = 5.3467, df = 2, p-value = 0.06902
Los gráficos y descriptivos nos informan si se verifica la igualdad de varianzas en los grupos descritos:
summary(fm$residuals)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -6.900 -1.900 0.400 0.000 2.175 9.100
boxplot(fm$residuals)
hist(fm$residuals)
qqnorm(fm$residuals)
qqline(fm$residuals)
El test de Shapiro-Wilk indica que no tenemos evidencia suficiente para rechazar la hipótesis nula (normalidad de los residuos)
shapiro.test(fm$residuals)
##
## Shapiro-Wilk normality test
##
## data: fm$residuals
## W = 0.98473, p-value = 0.1945
COMO SE CUMPLEN LAS 3 CONDICIONES, ES VALIDA LA APLICACION DEL ESTUDIO ANOVA
Cuando no se cumplen las hipótesis exigidas por el modelo ANOVA, es posible utilizar la prueba no paramétrica Kruskal-Wallis: ¿hay diferencias significativas entre las poblaciones?
kruskal.test( actividad , titulacion)
##
## Kruskal-Wallis rank sum test
##
## data: actividad and titulacion
## Kruskal-Wallis chi-squared = 51.504, df = 2, p-value = 6.547e-12
Bajo la Ho el estadístico de contraste H del test de Kruskal-Wallis se distribuye como una Chi-cuadrado de grados de libertad (I-1) (donde I es el número de grupos que disponemos). Así obtenemos el cuantil buscado:
qchisq(0.05, 2-1, lower.tail = F)
## [1] 3.841459
Valores del estadístico > 3.841459 estarán incluidos en la región de rechazo. En nuetro caso 51.504 es mucho mayor que el valor crítico obtenido.
Si transformáramos los datos de la variable respuesta, utilizando logaritmos y después aplicáramos el test de KrusKal-Wallis al logaritmo de la actividad sexual, ¿variarían los resultados del test estadístico?
kruskal.test(log(actividad), titulacion)
##
## Kruskal-Wallis rank sum test
##
## data: log(actividad) and titulacion
## Kruskal-Wallis chi-squared = 51.504, df = 2, p-value = 6.547e-12
Los resultados son exactamente los mismos. No se producen variaciones porque el test de Kruskal-Wallis trabaja sobre rangos, es decir, sobre ordenaciones de los valores de la variable en cada uno de los grupos. Aunque realicemos una transformación logarítmica, el orden entre los valores de la variable se mantiene y por lo tanto la transformación no afecta a los resultados del test.