Ejercicio: Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar:

• Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.

• Verificar si ambas variables se distribuyen normalmente con shapiro.test().

• Según el resultado de normalidad, elige la prueba de correlación adecuada:

• Interpretar: * ¿Existe una relación significativa entre horas de estudio y puntaje? * ¿La relación es positiva o negativa?

horas_usodelcelular<-c(2, 4 ,6, 8, 1, 3, 2, 5, 4, 9, 2, 4 ,6, 8, 1, 3, 2, 5, 4, 9, 2, 4 ,6, 8, 1, 3, 2, 5, 4, 9, 2, 4 ,6, 8, 1, 3, 2, 5, 4, 9) 
puntaje_examen <-c(4, 3, 3.5, 2, 4.5, 4.2, 5, 4, 2.3, 1.5, 4, 3, 3.5, 2, 4.6, 4.2, 4.9, 4, 2.5, 1.5, 4, 3, 3.5, 2, 4.3, 4.2, 4.3, 4, 2, 1, 4, 3, 3.5, 2, 4.5, 4.2, 5, 4, 2.3, 1.8) 

length(horas_usodelcelular)
## [1] 40
length(puntaje_examen)
## [1] 40
shapiro_horas <- shapiro.test(horas_usodelcelular)
shapiro_puntaje <- shapiro.test(puntaje_examen)

print(shapiro_horas)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_usodelcelular
## W = 0.90911, p-value = 0.003558
print(shapiro_puntaje)
## 
##  Shapiro-Wilk normality test
## 
## data:  puntaje_examen
## W = 0.92242, p-value = 0.009185
# Selección de prueba de correlación
if(shapiro_horas$p.value > 0.05 & shapiro_puntaje$p.value > 0.05) {
  correlacion <- cor.test(horas_usodelcelular, puntaje_examen, method = "pearson")
} else {
  correlacion <- cor.test(horas_usodelcelular, puntaje_examen, method = "spearman")
}
## Warning in cor.test.default(horas_usodelcelular, puntaje_examen, method =
## "spearman"): Cannot compute exact p-value with ties
print(correlacion)
## 
##  Spearman's rank correlation rho
## 
## data:  horas_usodelcelular and puntaje_examen
## S = 19535, p-value = 2.732e-11
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.8325375
plot(horas_usodelcelular, puntaje_examen, 
     main = "Relación entre horas de uso del celular y el puntaje del exámen",
     xlab = "Cantidad de horas de uso del celular por día ",
      ylab= "Puntaje del exámen " )

Con estos datos, podemos afirmar varias cosas. La primera es que ninguna de los objetos de estudio tienen una distribución normal ya que, el p-valor de ambos es menor a 0.05, por lo tanto, se debe usar el metodo de spearman. Por otro lado, como el p-valor de la correlación es mucho menor a 0.05, decimos que tiene una relación altamente significativa. Ahora, cómo rho = -0.8325375, entonces tenemos una relación negativa, esto significa que, a mayor uso del celular, implica que, menor nota se tiene y, a menor uso del celular, entonces, mayor nota se obtiene.

# H₀: No hay correlación entre horas de uso de celular y puntaje en examen (ρ = 0)
# H₁: Existe correlación entre horas de uso de celular y puntaje en examen (ρ ≠ 0)

#Ya del punto 2 sabemos que no hay normalidad en estas variables.

# Simulación de datos adicionales (notas)
set.seed(456)
notas <- rnorm(32, mean = 75, sd = 10)

# Prueba de normalidad para notas
shapiro_notas <- shapiro.test(notas)

print(shapiro_notas)
## 
##  Shapiro-Wilk normality test
## 
## data:  notas
## W = 0.96196, p-value = 0.3104

Podemos observar que, la distribución sí es normal ya que el p-valor es mayor a 0.05.