Relaciones sexuales entre universitarios

El departamento de Psicología de una Universidad de Castilla-La Mancha ha realizado un estudio sobre hábitos, preferencias y satisfacción sexual en estudiantes universitarios. Hemos utilizado los datos que recogieron en sus encuestas y queremos conocer si existen diferencias entre la frecuencia mensual de relaciones sexuales de estudiantes universitarios pertenecientes a tres titulaciones universitarias diferentes:

T1: 11 14 7 15 11 13 11 16 10 15 18 12 9 9 10 10 15 10 14 10 10 12 14 12 15 7 13 6 10 15 20 10 13 10 6 14 8 10 8 11

T2: 13 10 12 7 5 10 10 16 9 7 7 2 6 9 9 8 8 10 3 6 5 2 9 3 4 5 10 8 5 9 10 8 13 10 0 2 1 1 0 4

T3: 6 7 3 5 9 6 1 6 0 2 5 6 11 6 7 0 5 7 5 4 7 4 2 8 9 6 1 4 7 7 8 9 7 5 1 6 9 4 7 6

T1<-c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15, 10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11)
T2<-c(13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4)
T3<-c(6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)
length(T1)
## [1] 40
length(T2)
## [1] 40
length(T3)
## [1] 40

Contesta las siguientes preguntas:

actividad <- c(11, 14, 7, 15, 11, 13, 11, 16, 10, 15, 18, 12, 9, 9, 10, 10, 15, 10, 14, 10, 10, 12, 14, 12, 15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11, 13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6, 9, 9, 8, 8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4, 6, 7, 3, 5, 9, 6, 1, 6, 0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)
titulacion <- as.factor(c(rep(c("T1", "T2", "T3"), each =40)))
titulacion
##   [1] T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1
##  [24] T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T2 T2 T2 T2 T2 T2
##  [47] T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2
##  [70] T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3
##  [93] T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3
## [116] T3 T3 T3 T3 T3
## Levels: T1 T2 T3
actividad
##   [1] 11 14  7 15 11 13 11 16 10 15 18 12  9  9 10 10 15 10 14 10 10 12 14
##  [24] 12 15  7 13  6 10 15 20 10 13 10  6 14  8 10  8 11 13 10 12  7  5 10
##  [47] 10 16  9  7  7  2  6  9  9  8  8 10  3  6  5  2  9  3  4  5 10  8  5
##  [70]  9 10  8 13 10  0  2  1  1  0  4  6  7  3  5  9  6  1  6  0  2  5  6
##  [93] 11  6  7  0  5  7  5  4  7  4  2  8  9  6  1  4  7  7  8  9  7  5  1
## [116]  6  9  4  7  6
boxplot(actividad ~ titulacion, col = c("yellow", "blue","green"), ylab = "Número de Relaciones Sexuales ")

tapply(actividad,titulacion,mean)
##    T1    T2    T3 
## 11.60  6.90  5.45

SI SE EVIDENCIA DIFERENCIA ENTRE LOS VALORES PROMEDIOS Y SU VARIABILIDAD.

h0:Las medias de cada proyecto de titulacion son iguales h1:Las medias entre las titulaciones difieren

fm = aov( lm(actividad ~ titulacion) )

Pedimos un resumen de la tabla del ANOVA

summary(fm)
##              Df Sum Sq Mean Sq F value   Pr(>F)    
## titulacion    2  826.9   413.4   38.98 1.07e-13 ***
## Residuals   117 1241.1    10.6                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El valor de F será:

summary(fm)[[1]][1,4]
## [1] 38.97486

Los grados de libertad del factor:

#fm$rank-1
summary(fm)[[1]][1,1]
## [1] 2

Los grados de libertad del residuo:

#fm$df.residual
summary(fm)[[1]][2,1]
## [1] 117

El valor de P

summary(fm)[[1]][1,5]
## [1] 1.067578e-13

Bajo la Ho el estadístico de contraste F se distribuye como una F de grados de libertad (I-1), (n-I) donde I es el número de grupos que disponemos y n el tamaño total de la muestral. Así obtenemos el cuantil buscado:

qf(0.05, 2-1, 80-2, lower.tail = F)
## [1] 3.963472

Valores del estadístico > 3.963472 estarán incluidos en la región de rechazo. En nuestro caso 38.98 es mucho mayor que el valor crítico obtenido.

La raíz cuadrada de la media de los cuadrados del error, además de proporcionarnos una estimación de la varianza muestral de todos los datos.

media<- summary(fm)[[1]][2,3]
sp <- sqrt(media)  #desviación típica de la varianza muestral común
sp
## [1] 3.256945

TRAS LA APLICACION DEL ANALISIS ANOVA, SE INFIERE QUE: NO EXISTE EVIDENCIA ESTADISTICA SUFICIENTE PARA ACEPTAR LA HIPOTESIS NULA. ES DECIR SE SUGIERE RECHAZAR LA HIPOTESIS NULA LO QUE IMPLICA QUE EXISTE DIFERENCIA ENTRE LAS MEDIAS DE LAS TITULACIONES

La raíz cuadrada de la media de los cuadrados del error, además se utiliza en la obtención de los intervalos de confianza de las medias en cada uno de los grupos de interés.

media <- mean(actividad[titulacion =="T1"]) 
valor_t <- pt(0.05/2, 80-2) 
ee  <- valor_t * (sp/ sqrt(40))  #error de estimación 
media
## [1] 11.6

límite superior del intervalo de confianza de la media de actividad sexual para la titulacion T1

media + ee 
## [1] 11.8626

límite inferior del intervalo de confianza de la media de actividad sexual para la titulacion T1

media - ee 
## [1] 11.3374
media <- mean(actividad[titulacion =="T2"]) 
valor_t <- pt(0.05/2, 80-2) 
ee  <- valor_t * (sp/ sqrt(40))  #error de estimación 
media
## [1] 6.9

límite superior del intervalo de confianza de la media de actividad sexual para la titulacion T2

media + ee 
## [1] 7.162603

límite inferior del intervalo de confianza de la media de actividad sexual para la titulacion T2

media - ee 
## [1] 6.637397
media <- mean(actividad[titulacion =="T3"]) 
valor_t <- pt(0.05/2, 80-2) 
ee  <- valor_t * (sp/ sqrt(40))  #error de estimación 
media
## [1] 5.45

límite superior del intervalo de confianza de la media de actividad sexual para la titulacion T3

media + ee 
## [1] 5.712603

límite inferior del intervalo de confianza de la media de actividad sexual para la titulacion T3

media - ee 
## [1] 5.187397
intervals = TukeyHSD(fm)
intervals
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(actividad ~ titulacion))
## 
## $titulacion
##        diff       lwr        upr     p adj
## T2-T1 -4.70 -6.428861 -2.9711395 0.0000000
## T3-T1 -6.15 -7.878861 -4.4211395 0.0000000
## T3-T2 -1.45 -3.178861  0.2788605 0.1189269
plot(intervals)

SE EVIDENCIA LAS DIFERENCIAS ENTRE LAS TITULACIONES, ES DECIR DIFERENCIAS ENTRE LAS MEDIAS

Los supuestos que se deben cumplir son tres: independencia, homocedasticidad y normalidad.

Independencia

plot(fm$residuals)

Homocedasticidad

Los gráficos y descriptivos nos informan si se verifica la igualdad de varianzas en los grupos descritos:

boxplot(fm$residuals~titulacion, col = c("yellow", "blue", "green"))  

desviaciones <- tapply(fm$residuals, titulacion, sd)

Comparando la desviación máxima con la mínima obtenemos una orientación sobre la falta de homocedasticidad (>2 aproximadamente)

max(desviaciones) / min(desviaciones)    
## [1] 1.45217

El test de Bartlett indica que no tenemos evidencia suficiente para rechazar la hipótesis nula (las varianzas son iguales)

bartlett.test(fm$residuals ~ titulacion)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  fm$residuals by titulacion
## Bartlett's K-squared = 5.3467, df = 2, p-value = 0.06902

Normalidad

Los gráficos y descriptivos nos informan si se verifica la igualdad de varianzas en los grupos descritos:

summary(fm$residuals)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -6.900  -1.900   0.400   0.000   2.175   9.100
boxplot(fm$residuals)

hist(fm$residuals)

qqnorm(fm$residuals) 
qqline(fm$residuals)

El test de Shapiro-Wilk indica que no tenemos evidencia suficiente para rechazar la hipótesis nula (normalidad de los residuos)

shapiro.test(fm$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  fm$residuals
## W = 0.98473, p-value = 0.1945

COMO SE CUMPLEN LAS 3 CONDICIONES, ES VALIDA LA APLICACION DEL ESTUDIO ANOVA

Cuando no se cumplen las hipótesis exigidas por el modelo ANOVA, es posible utilizar la prueba no paramétrica Kruskal-Wallis: ¿hay diferencias significativas entre las poblaciones?

kruskal.test( actividad , titulacion)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  actividad and titulacion
## Kruskal-Wallis chi-squared = 51.504, df = 2, p-value = 6.547e-12

Bajo la Ho el estadístico de contraste H del test de Kruskal-Wallis se distribuye como una Chi-cuadrado de grados de libertad (I-1) (donde I es el número de grupos que disponemos). Así obtenemos el cuantil buscado:

qchisq(0.05, 2-1, lower.tail = F)
## [1] 3.841459

Valores del estadístico > 3.841459 estarán incluidos en la región de rechazo. En nuetro caso 51.504 es mucho mayor que el valor crítico obtenido.

Si transformáramos los datos de la variable respuesta, utilizando logaritmos y después aplicáramos el test de KrusKal-Wallis al logaritmo de la actividad sexual, ¿variarían los resultados del test estadístico?

kruskal.test(log(actividad), titulacion) 
## 
##  Kruskal-Wallis rank sum test
## 
## data:  log(actividad) and titulacion
## Kruskal-Wallis chi-squared = 51.504, df = 2, p-value = 6.547e-12

Los resultados son exactamente los mismos. No se producen variaciones porque el test de Kruskal-Wallis trabaja sobre rangos, es decir, sobre ordenaciones de los valores de la variable en cada uno de los grupos. Aunque realicemos una transformación logarítmica, el orden entre los valores de la variable se mantiene y por lo tanto la transformación no afecta a los resultados del test.