Ejercicio: Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar:
• Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.
• Verificar si ambas variables se distribuyen normalmente con shapiro.test().
• Según el resultado de normalidad, elige la prueba de correlación adecuada:
• Interpretar: * ¿Existe una relación significativa entre horas de estudio y puntaje? * ¿La relación es positiva o negativa?
horas_usodelcelular<-c(2, 4 ,6, 8, 1, 3, 2, 5, 4, 9, 2, 4 ,6, 8, 1, 3, 2, 5, 4, 9, 2, 4 ,6, 8, 1, 3, 2, 5, 4, 9, 2, 4 ,6, 8, 1, 3, 2, 5, 4, 9)
puntaje_examen <-c(4, 3, 3.5, 2, 4.5, 4.2, 5, 4, 2.3, 1.5, 4, 3, 3.5, 2, 4.6, 4.2, 4.9, 4, 2.5, 1.5, 4, 3, 3.5, 2, 4.3, 4.2, 4.3, 4, 2, 1, 4, 3, 3.5, 2, 4.5, 4.2, 5, 4, 2.3, 1.8)
length(horas_usodelcelular)
## [1] 40
length(puntaje_examen)
## [1] 40
shapiro_horas <- shapiro.test(horas_usodelcelular)
shapiro_puntaje <- shapiro.test(puntaje_examen)
print(shapiro_horas)
##
## Shapiro-Wilk normality test
##
## data: horas_usodelcelular
## W = 0.90911, p-value = 0.003558
print(shapiro_puntaje)
##
## Shapiro-Wilk normality test
##
## data: puntaje_examen
## W = 0.92242, p-value = 0.009185
# Selección de prueba de correlación
if(shapiro_horas$p.value > 0.05 & shapiro_puntaje$p.value > 0.05) {
correlacion <- cor.test(horas_usodelcelular, puntaje_examen, method = "pearson")
} else {
correlacion <- cor.test(horas_usodelcelular, puntaje_examen, method = "spearman")
}
## Warning in cor.test.default(horas_usodelcelular, puntaje_examen, method =
## "spearman"): Cannot compute exact p-value with ties
print(correlacion)
##
## Spearman's rank correlation rho
##
## data: horas_usodelcelular and puntaje_examen
## S = 19535, p-value = 2.732e-11
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.8325375
plot(horas_usodelcelular, puntaje_examen,
main = "Relación entre horas de uso del celular y el puntaje del exámen",
xlab = "Cantidad de horas de uso del celular por día ",
ylab= "Puntaje del exámen " )
Con estos datos, podemos afirmar varias cosas. La primera es que ninguna
de los objetos de estudio tienen una distribución normal ya que, el
p-valor de ambos es menor a 0.05, por lo tanto, se debe usar el metodo
de spearman. Por otro lado, como el p-valor de la correlación es mucho
menor a 0.05, decimos que tiene una relación altamente significativa.
Ahora, cómo rho = -0.8325375, entonces tenemos una relación negativa,
esto significa que, a mayor uso del celular, implica que, menor nota se
tiene y, a menor uso del celular, entonces, mayor nota se obtiene.
# H₀: No hay correlación entre horas de uso de celular y puntaje en examen (ρ = 0)
# H₁: Existe correlación entre horas de uso de celular y puntaje en examen (ρ ≠ 0)
#Ya del punto 2 sabemos que no hay normalidad en estas variables.
# Simulación de datos adicionales (notas)
set.seed(456)
notas <- rnorm(32, mean = 75, sd = 10)
# Prueba de normalidad para notas
shapiro_notas <- shapiro.test(notas)
print(shapiro_notas)
##
## Shapiro-Wilk normality test
##
## data: notas
## W = 0.96196, p-value = 0.3104
Podemos observar que, la distribución sí es normal ya que el p-valor es mayor a 0.05.