Prueba de hipótesis

  1. Plantear hipótesis nula Ho. No existe una relacion significativa entre las horas de estudio y las calificaciones de los estudiantes

  2. Plantear hipótesis alterna H1. Existe una relacion significativa entre las horas de estudio y las calificaciones de los estudiantes

  3. Verificar si los datos tienen una distribución normal

Cuando se aplica la prueba de Regresión lineal se observa mayor dispersión en los datos por lo que es muy dificil predecir que puede suceder dada la distribución de los datos, donde el P-value 2.2e-16 muy inferior a 0,05, luego no es normal.

  1. Aplicar prueba de hipótesis (paramétrica o no paramétrica)

Al aplicar la prueba de correlación de Pearson ambas variables presentan una distribución normal Al aplicar la prueba de correlación lineal no existe una distribución normal de los datos al no seguir la tendencia establecida para determinar la relación entre los datos de las variables

  1. Inferir sobre los datos

Existe una correlación significativa entre las horas de estudio y las calificaciones de los estudiantes, por tanto se rechaza la Ho. En la regresión lineal, no se observa correlación y hay una dispersión significativa entre los datos analizados, respecto a la tendencia, por lo tanto se puede decir que no existe dependencia entre la variable del eje y (calificaciones) y la variable x (horas de estudio), por lo tanto se puede inferir que la hipótesis nula no se rechaza.

  1. Conclusiones Cuando se analiza la cantidad de horas de estudio y las calificaciones de un grupo de estudiantes, para evaluar esta relación se aplica la correlación de Pearson que muestra la fuerza de relación entre las variables en este se evidencia que existen una relación entre las calificaciones y las notas de los estudiantes

En la regresión lineal, se observa una dispersión significativa entre los datos analizados, puesto que la regresión lineal nos permite modelar la relación entre la variable de las calificaciones y la variable independiente que sería las horas de estudio y estas no siguen la línea de tendencia que muestra el gráfico al relacionar las variables.

De acuerdo a lo anterior podemos concluir que si hay correlación al aplicar la prueba de Pearson y no existe dependencia de las calificaciones con respecto a horas de estudio cunado se aplica la correlación lineal, por lo tanto con el primer modelo se rechaza la Ho y no se rechaza la Ho con la correlación lineal. # Prueba de Correlación de Pearson

La prueba de correlación de Pearson se utiliza para evaluar la fuerza y dirección de la relación lineal entre dos variables continuas. La correlación de Pearson (\(r\)) varía entre -1 y 1, donde -1 indica una relación negativa perfecta, 1 indica una relación positiva perfecta y 0 indica ninguna correlación.

Fórmula

La fórmula para la correlación de Pearson es:

\[ r = \frac{{\sum (X_i - \bar{X})(Y_i - \bar{Y})}}{{\sqrt{\sum (X_i - \bar{X})^2 \cdot \sum (Y_i - \bar{Y})^2}}} \]

donde: - \(X_i\) e \(Y_i\) son los valores individuales de las dos variables. - \(\bar{X}\) y \(\bar{Y}\) son las medias de las dos variables.

Ejemplo

Supongamos que tenemos datos de la cantidad de horas de estudio y las calificaciones de un grupo de estudiantes y queremos evaluar la relación entre estas dos variables.

# Crear datos ficticios
set.seed(123)
horas_estudio <- rnorm(50, mean = 20, sd = 5)
calificaciones <- 0.8 * horas_estudio + rnorm(50, mean = 0, sd = 2)

# Crear un data frame
datos <- data.frame(HorasEstudio = horas_estudio, Calificaciones = calificaciones)
print(head(datos))
##   HorasEstudio Calificaciones
## 1     17.19762       14.26473
## 2     18.84911       15.02220
## 3     27.79354       22.14909
## 4     20.35254       19.01924
## 5     20.64644       16.06561
## 6     28.57532       25.89320

Problema Determinar si hay una correlación significativa entre la cantidad de horas de estudio y las calificaciones de los estudiantes.

# Realizar la prueba de correlación de Pearson
resultado_correlacion <- cor.test(datos$HorasEstudio, datos$Calificaciones, method = "pearson")
print(resultado_correlacion)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$HorasEstudio and datos$Calificaciones
## t = 13.929, df = 48, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8218357 0.9395535
## sample estimates:
##       cor 
## 0.8953635

Inferencia: Ambas variables presentan una distribución normal (0.8218357 0.9395535), por lo que Pearson es la prueba adecuada para nuestros datos. Existe una correlación significativa entre las horas de estudio y las calificaciones de los estudiantes teniendo en cuenta que el resultado de la estimación es de 0.8953635, por tanto se rechaza la Ho.

# Análisis de resultados
if (resultado_correlacion$p.value < 0.05) {
  cat("Hay una correlación significativa entre la cantidad de horas de estudio y las calificaciones.")
} else {
  cat("No hay suficiente evidencia para afirmar una correlación significativa.")
}
## Hay una correlación significativa entre la cantidad de horas de estudio y las calificaciones.

Regresión Lineal

La regresión lineal es una técnica estadística que modela la relación lineal entre una variable dependiente (respuesta) y una o más variables independientes (predictoras). La ecuación de regresión lineal es de la forma \(Y = \beta_0 + \beta_1X + \epsilon\), donde \(\beta_0\) es la ordenada al origen, \(\beta_1\) es la pendiente de la línea de regresión, \(X\) es la variable independiente, y \(\epsilon\) es el error.

Fórmula

La fórmula de la regresión lineal es:

\[ Y = \beta_0 + \beta_1X + \epsilon \]

donde: - \(Y\) es la variable dependiente. - \(X\) es la variable independiente. - \(\beta_0\) es la ordenada al origen. - \(\beta_1\) es la pendiente de la línea de regresión. - \(\epsilon\) es el término de error.

Ejemplo

Supongamos que tenemos datos de la cantidad de horas de estudio y las calificaciones de un grupo de estudiantes y queremos ajustar una regresión lineal para predecir las calificaciones en función de las horas de estudio.

# Crear datos ficticios
set.seed(123)
horas_estudio <- rnorm(50, mean = 20, sd = 5)
calificaciones <- 0.8 * horas_estudio + rnorm(50, mean = 0, sd = 2)

# Crear un data frame
datos <- data.frame(HorasEstudio = horas_estudio, Calificaciones = calificaciones)
print(head(datos))
##   HorasEstudio Calificaciones
## 1     17.19762       14.26473
## 2     18.84911       15.02220
## 3     27.79354       22.14909
## 4     20.35254       19.01924
## 5     20.64644       16.06561
## 6     28.57532       25.89320

Ejercicio Ajustar una línea de regresión para predecir las calificaciones en función de las horas de estudio.

# Ajustar un modelo de regresión lineal
modelo_regresion <- lm(Calificaciones ~ HorasEstudio, data = datos)
summary(modelo_regresion)
## 
## Call:
## lm(formula = Calificaciones ~ HorasEstudio, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.9289 -0.9725 -0.0541  0.9881  4.0512 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.57586    1.16721   0.493    0.624    
## HorasEstudio  0.78597    0.05643  13.929   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.828 on 48 degrees of freedom
## Multiple R-squared:  0.8017, Adjusted R-squared:  0.7975 
## F-statistic:   194 on 1 and 48 DF,  p-value: < 2.2e-16

Inferencia:De acuerdo al modelo de regresión lineal, existe una dispersión significativa entre las horas de estudio y las calificaciones de los estudiantes, teniendo en cuenta q el P-value 2.2e-16 muy inferior a 0,05, luego la Ho no se rechaza.

# Análisis de resultados
cat("Coeficientes del modelo:")
## Coeficientes del modelo:
print(coef(modelo_regresion))
##  (Intercept) HorasEstudio 
##    0.5758591    0.7859686
# Graficar la línea de regresión
plot(datos$HorasEstudio, datos$Calificaciones, main = "Regresión Lineal", xlab = "Horas de Estudio", ylab = "Calificaciones")
abline(modelo_regresion, col = "red")

```