Autores:

Explicación del Modelo de Regresión Lineal Simple

El modelo de regresión lineal simple permite predecir una variable Y a partir de una variable X mediante la ecuación:

\[ \hat{Y} = \beta_0 + \beta_1 X \]

StudentsPerformance

La base de datos StudentsPerfomance contiene informacion academica y detalles socieconomicos de un conjunto de 1000 estudiantes, con el proposito de analizar los factores asociados al rendimiento escolar.

El dataset incluye variables relacionadas con los puntajes obtenidos por los estudiantes en tres areas principales: matematica, lectura y escritura, asi como caracteristicas personales y familiares que pueden influir en su desempeño academico.

Variables:

1. Raza/etnia: Grupo étnico del estudiante, etiquetado como grupo A, B, C, D o E. Se utiliza para comparar el rendimiento entre los distintos grupos.

2. Nivel educativo de los padres: El nivel educativo más alto de los padres.

3. Almuerzo: Tipo de almuerzo escolar.

4. Curso de preparación para exámenes: Si el estudiante realizó un curso de preparación.

5. Puntuación en matemáticas: Resultado del examen de matemáticas del estudiante.

6. Puntuación en lectura: Resultado del examen de lectura del estudiante.

7. Puntuación en escritura: Resultado del examen de escritura del estudiante.

Objetivo General

Evaluar la relación entre los puntajes de lectura y escritura con el matematica, determinando primero si existe asociación significativa y luego si el puntaje de lectura y escritura es un predictor estadísticamente válido para estimar el puntaje de matemáticas mediante un modelo de regresión lineal.

Objetivos específicos

1.Evaluar si el puntaje de lectura (reading.score) permite predecir el puntaje de matemáticas (math.score) mediante un modelo lineal.

2.Evaluar si el puntaje de lectura (reading.score) permite predecir el puntaje de matemáticas (math.score) mediante un modelo lineal.

Desarrollo de la Regresión usando los 5 pasos


📘 Hipótesis 1: Lenguaje → Matemáticas

Esta hipótesis propone que el desempeño en lenguaje tiene un impacto directo sobre el puntaje en matemáticas. La idea es que los estudiantes que comprenden mejor textos, instrucciones y problemas verbales tienden a obtener mejores resultados en matemáticas, porque gran parte de los ejercicios matemáticos requieren interpretar enunciados, entender condiciones y seguir pasos lógicos.

Por eso, la relación que se evalúa es:

Variable independiente: Puntaje de Lenguaje

Variable dependiente: Puntaje de Matemáticas

1.H₀ (Hipotesis nula): La correlación entre lenguaje y matematica es igual a 0

\[H_{0}:p=0\]

2.H₁ (Hipotesis alternativa): La correlación entre lenguaje y matematica es diferente de 0

\[H_{1}:p\neq 0\]

PASO 1: Analizar la asociación entre las variables de insumo

En este paso evaluamos si existe relación entre la variable predictora lenguaje y la variable respuesta matemáticas

plot(datos$reading.score, datos$math.score,
     xlab = "Puntaje de Lenguaje",
     ylab = "Puntaje de Matemáticas",
     main = "Dispersión Lectura vs Matemáticas")

Resultado:

Obtenemos como resultado el p-value < 2.2e-16, por lo que rechazas H₀ y concluye que sí existe una alta (0.81) correlación significativa.

PASO 2 — ¿Nuestro modelo es válido?

Para evaluar si el modelo de regresión lineal Lenguaje → Matemáticas es estadísticamente significativo, analizamos el resumen del modelo:

Resultado del modelo:

p-value del modelo: < 2.2e-16

Interpretación:

El p-value del modelo es mucho menor que 0.05, lo que significa que:

✔ El modelo es estadísticamente significativo.

✔ Existe evidencia suficiente para afirmar que el puntaje de lenguaje sí predice el puntaje de matemáticas.

PASO 3 — ¿Qué tanto explica mi modelo?

Para determinar qué tan bien el puntaje de lenguaje explica el puntaje de matemáticas, analizamos el coeficiente de determinación:

Resultados obtenidos:

R² = 0.6684

R² ajustado = 0.6681

El valor indica que:

El 66.84% de la variabilidad del puntaje de matemáticas se explica únicamente por el puntaje de lenguaje.

Esto significa que el modelo tiene un alto poder explicativo, considerando que solo usa una variable independiente.

PASO 4 — Parámetros del modelo

El modelo de regresión lineal estima dos parámetros fundamentales:

β₀ (Intercepto)

β₁ (Pendiente / coeficiente de lectura)

Resultados obtenidos: Parámetro Valor Interpretación

Parametro Valor interpretación
Intercepto 7.35759 Es el puntaje esperado en matemáticas cuando lectura = 0,Por cada punto adicional en lectura
Lenguaje 0.84910 el puntaje de matemáticas aumenta en 0.849 puntos

PASO 5 — Ecuación del modelo y predicción

Con los parámetros estimados del modelo, construimos la ecuación de regresión lineal simple: \[Matematicas = B_{0} + B_{1}(Lenguaje)\] Sustituyendo tus valores:

\[ Matematicas = 7.35759 + 0.84910(Lenguaje)\] Ejemplo de predicción

Si un estudiante obtiene 80 puntos en lenguaje, su puntaje estimado en matemáticas sería:

\[Matematicas = 7.35759 + 0.84910(80)\] \[ Matematicas = 75.29\] Resultado final de la predicción:

Un estudiante con 80 puntos en lenguaje tendría un puntaje estimado de:

⭐ 75.29 puntos en matemáticas

Conclusión Hipótesis 1 (Lectura → Matemáticas)

El análisis mostró que el puntaje de lectura tiene una relación positiva con el puntaje de matemáticas. El modelo de regresión lineal resultó válido (p-value < 2.2e-16) se rechaza la hipótesis nula y se concluye que la lectura sí predice de manera importante el rendimiento en matemáticas. y explicó aproximadamente el 66.8% de la variabilidad en matemáticas. El coeficiente de lectura fue positivo (β₁ ≈ 0.849), lo que indica que por cada punto adicional en lectura, el puntaje en matemáticas aumenta en promedio 0.85 puntos.

📘 Hipótesis 2: Escritura → Matemáticas

En esta segunda hipótesis se analiza si las habilidades de escritura del estudiante influyen en su rendimiento en matemáticas. La lógica detrás de este análisis es que muchos problemas matemáticos requieren interpretar enunciados, redactar procedimientos y expresar soluciones de manera clara, por lo que un mejor desempeño en escritura podría asociarse con un puntaje más alto en matemáticas. Por ello, evaluamos si el puntaje de escritura es un predictor significativo del puntaje de matemáticas.

Por eso, la relación que se evalúa es:

Variable independiente: Puntaje de Escritura

Variable dependiente: Puntaje de Matemáticas

1.H₀ (Hipotesis nula): La correlación entre escritura y matematica es igual a 0

\[H_{0}:p=0\]

2.H₁ (Hipotesis alternativa): La correlación entre escritura y matematica es diferente de 0

\[H_{1}:p\neq 0\]

PASO 1: Analizar la asociación entre las variables de insumo

Evaluamos si existe relación entre la variable predictora Escritura y la variable respuesta matemáticas.

plot(datos$reading.score, datos$math.score,
     xlab = "Puntaje de Escritura",
     ylab = "Puntaje de Matemáticas",
     main = "Dispersión Lectura vs Matemáticas")

Resultado:

Obtenemos como resultado el p-value < 2.2e-16, por lo que rechazas H₀ y concluye que sí existe una alta (0.80) correlación significativa.

PASO 2 — ¿Nuestro modelo es válido?

Para evaluar si el modelo de regresión lineal Escritura → Matemáticas es estadísticamente significativo, analizamos el resumen del modelo:

Resultado del modelo:

Para evaluar si el modelo de regresión lineal que relaciona escritura con matemáticas es estadísticamente significativo, se analiza el p-value del modelo mediante el estadístico F.

Los resultados del modelo muestran un p-value < 2.2e-16, lo que indica que:

✔ El modelo es altamente significativo.

✔ La relación entre escritura y matemáticas no es producto del azar.

✔ El puntaje de escritura sí actúa como un predictor válido del puntaje de matemáticas.

PASO 3 — ¿Qué tanto explica mi modelo?

ara determinar qué tan bien el puntaje de lenguaje explica el puntaje de matemáticas, analizamos el coeficiente de determinación:

Resultados obtenidos:

R² = 0.6442

R² ajustado = 0.6439

El valor indica que:

El 64.42% de la variabilidad del puntaje de matemáticas se explica únicamente por el puntaje de lenguaje.

Esto significa que el modelo tiene un alto poder explicativo, considerando que solo usa una variable independiente.

PASO 4 — Parámetros del modelo

El modelo de regresión lineal estima dos parámetros fundamentales:

β₀ (Intercepto)

β₁ (Pendiente / coeficiente de Escritura)

Resultados obtenidos: Parámetro Valor Interpretación

Parametro Valor interpretación
Intercepto 14.89422 Esto indica que, cuando la variable Lenguaje = 0, el valor esperado de la variable dependiente es aproximadamente 14.89
Escritura 0.80437 Este coeficiente significa que por cada unidad adicional en la variable Lenguaje, el valor de la variable dependiente aumenta en 0.80437

PASO 5 — Ecuación del modelo y predicción

Con los parámetros estimados del modelo, construimos la ecuación de regresión lineal simple: \[Matematicas = B_{0} + B_{1}(Escritura)\] Sustituyendo tus valores:

\[ Matematicas = 14.89422 + 0.80437(Escritura)\] Ejemplo de predicción

Si un estudiante obtiene 70 puntos en Escritura, su puntaje estimado en matemáticas sería:

\[Matematicas = 14.89422 + 0.80437(70)\] \[ Matematicas = 71.20\]

Resultado final de la predicción:

Un estudiante con 70 puntos en Escritura tendría un puntaje de

⭐71.20 en Matematicas

Conclusión Hipótesis 2 (Escritura → Matemáticas)

El análisis evidenció que el puntaje de escritura también está significativamente relacionado con el puntaje de matemáticas (p-value < 2.2e-16). El modelo logró explicar alrededor del 64% de la variabilidad en matemáticas, mostrando que existe una asociación fuerte y positiva. El coeficiente de escritura fue β₁ ≈ 0.804, lo que significa que cada punto adicional en escritura incrementa en promedio 0.80 puntos el puntaje de matemáticas. Así, se rechaza la hipótesis nula, concluyendo que la escritura también es un predictor estadísticamente significativo del rendimiento matemático.