Análisis de Regresión Lineal Simple

1. Descripción del Estudio

Se analiza la relación entre la cantidad de libros leídos y la puntuación en comprensión lectora. Se recopilaron datos de 100 observaciones de individuos con distintos niveles de hábito lector.

2. Base de Datos

El archivo proporcionado contiene dos variables principales:

Libros_leidos: número de libros leídos.
Comprension_lectora: puntuación en comprensión lectora (0–100).

Este conjunto de datos sirve como insumo para construir y evaluar un modelo de regresión lineal simple. La estructura es ideal para examinar si la cantidad de libros leídos influye estadísticamente en la comprensión lectora.

Puedes descargar el archivo original a través del siguiente enlace:

data <- read.csv("libros_vs_comprension.csv")
head(data)

##   ID Libros_leidos Comprension_lectora
## 1  1             2                  38
## 2  2             3                  41
## 3  3             1                  33
## 4  4             5                  50
## 5  5             6                  52
## 6  6             3                  43

Archivo CSV: libros_vs_comprension.csv

3. Modelo de Regresión Lineal

# Ajustar modelo
data <- read.csv("libros_vs_comprension.csv")
modelo <- lm(Comprension_lectora ~ Libros_leidos, data = data)

# Mostrar tabla de coeficientes bien formateada
library(knitr)
kable(summary(modelo)$coefficients, 
      digits = 4, 
      caption = "Tabla: Coeficientes del modelo de regresión lineal")

Tabla: Coeficientes del modelo de regresión lineal
	Estimate	Std. Error	t value	Pr(>\|t\|)
(Intercept)	29.8255	0.2958	100.8265	0
Libros_leidos	3.9610	0.0413	95.9451	0

El modelo ajustado toma la forma:

Comprensión lectora = β₀ + β₁ × Libros leídos

Donde:

β₀ es el intercepto (comprensión lectora esperada cuando no se han leído libros).
β₁ representa el aumento promedio en la puntuación de comprensión por cada libro leído adicional.

4. Métricas del Modelo

📊 Evaluación del Modelo mediante Métricas Estadísticas A continuación se presentan las principales métricas estadísticas que permiten evaluar la calidad y validez del modelo de regresión lineal simple que predice la comprensión lectora a partir del número de libros leídos. Estas métricas ayudan a determinar qué tan bien se ajusta el modelo a los datos observados y si la relación entre las variables es estadísticamente significativa.

R² (R-cuadrado): Representa la proporción de la variabilidad total en la comprensión lectora que puede explicarse por el número de libros leídos. En este caso, un R² de 0.989 indica que el modelo explica aproximadamente el 98.9% de la variación en la comprensión lectora, lo cual sugiere un ajuste excelente.

F-statistic: Es una medida global del modelo. Evalúa si el modelo completo es estadísticamente significativo, es decir, si la variable independiente (libros leídos) realmente tiene un efecto sobre la variable dependiente (comprensión lectora). Un valor muy alto (9205.47) indica una relación muy fuerte.

p-valor (modelo): Asociado a la F-statistic, indica la probabilidad de obtener un resultado igual o más extremo que el observado si la relación entre variables fuera nula (es decir, si no hubiera efecto real). Un p-valor prácticamente igual a cero (< 0.001) confirma que la relación es estadísticamente significativa.

Número de observaciones: El modelo se construyó con 100 observaciones, lo cual proporciona una base sólida para hacer inferencias confiables.

# Extraer métricas
r2 <- summary(modelo)$r.squared
fstat <- summary(modelo)$fstatistic[1]
pval <- pf(fstat, summary(modelo)$fstatistic[2], summary(modelo)$fstatistic[3], lower.tail = FALSE)
n <- nrow(data)

# Crear tabla con resultados
library(knitr)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

data.frame(
  Métrica = c("R² (R-cuadrado)", "F-statistic", "p-valor (modelo)", "Observaciones"),
  Valor = c(round(r2, 3),
            round(fstat, 2),
            signif(pval, 3),
            n)
) %>%
  kable(caption = "Métricas del Modelo de Regresión Lineal")

Métricas del Modelo de Regresión Lineal
Métrica	Valor
R² (R-cuadrado)	0.989
F-statistic	9205.470
p-valor (modelo)	0.000
Observaciones	100.000

5. Gráfico de Regresión con Modelo

Visualizar el modelo de regresión lineal es una herramienta clave para comprender cómo se ajusta la línea de predicción a los datos reales. En este gráfico se representan:

Los puntos individuales (azules), que corresponden a las observaciones reales de la muestra.

La línea roja, que representa el modelo ajustado de regresión lineal.

Esta visualización permite evaluar de manera intuitiva si la relación entre las variables es efectivamente lineal y si el modelo parece captar adecuadamente la tendencia de los datos.

Además, se incluye la ecuación estimada del modelo, obtenida a partir de los coeficientes de regresión. Esta fórmula permite hacer predicciones de comprensión lectora en función del número de libros leídos.

###🔍 Interpretación del Gráfico Tendencia Positiva: La pendiente positiva de la línea indica que a medida que aumenta el número de libros leídos, también aumenta la puntuación en comprensión lectora.

Ajuste Visualmente Preciso: La mayoría de los puntos se alinean cercanamente a la línea de regresión, lo que sugiere un buen ajuste del modelo.

Fórmula Visible: La ecuación en el subtítulo permite conocer la relación matemática exacta entre ambas variables, útil para hacer estimaciones.

Este gráfico no solo facilita la interpretación de los resultados, sino que también refuerza visualmente la validez del modelo presentado en las secciones anteriores

6. Verificación de Supuestos del Modelo

Antes de confiar en los resultados de un modelo de regresión lineal, es fundamental verificar si se cumplen ciertos supuestos estadísticos. Estos supuestos garantizan la validez de las inferencias realizadas, como los intervalos de confianza o los valores p. A continuación se detallan los principales supuestos junto con sus respectivas visualizaciones para evaluar su cumplimiento en este caso.

📌 6.1 Supuesto de Linealidad

¿Qué se espera? Se asume que existe una relación lineal entre la variable independiente (libros leídos) y la variable dependiente (comprensión lectora). Es decir, al aumentar el número de libros, la comprensión debería incrementarse (o disminuir) de forma proporcional.

¿Por qué importa? Si la relación no es lineal, el modelo lineal puede subestimar o sobreestimar los efectos, llevando a conclusiones incorrectas.

¿Cómo se evalúa? Se observa un gráfico de dispersión con la línea de regresión. Si los puntos siguen una tendencia aproximadamente recta, el supuesto se considera cumplido.

ggplot(data, aes(x = Libros_leidos, y = Comprension_lectora)) +
  geom_point(color = "blue") +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  labs(title = "1. Supuesto de Linealidad",
       x = "Libros leídos", y = "Comprensión lectora") +
  theme_minimal()

## `geom_smooth()` using formula = 'y ~ x'

📌 6.2 Supuesto de Independencia de los Errores

¿Qué se espera? Los errores (residuos) del modelo deben ser independientes entre sí. Es decir, el valor de un residuo no debe depender del valor de otro.

¿Por qué importa? Si hay correlación entre los errores, puede existir un patrón oculto no capturado por el modelo, lo que reduce la fiabilidad de las inferencias.

¿Cómo se evalúa? Se grafica la secuencia de residuos. La ausencia de patrones sistemáticos o tendencias indica independencia.

data$residuos <- resid(modelo)
ggplot(data, aes(x = 1:nrow(data), y = residuos)) +
  geom_line() + geom_point() +
  geom_hline(yintercept = 0, linetype = "dashed", color = "red") +
  labs(title = "2. Supuesto de Independencia de Errores",
       x = "Índice", y = "Residuos") +
  theme_minimal()

📌📌 6.3 Supuesto de Homocedasticidad

¿Qué se espera? Los errores deben tener una varianza constante a lo largo de los valores predichos. Este supuesto se conoce como homocedasticidad.

¿Por qué importa? La heterocedasticidad (varianza desigual) puede distorsionar las pruebas estadísticas y generar errores estándar incorrectos.

¿Cómo se evalúa? Se grafica la dispersión de los residuos en función de las predicciones. Una nube de puntos sin patrón claro indica homocedasticidad.

data$predicciones <- predict(modelo)
ggplot(data, aes(x = predicciones, y = residuos)) +
  geom_point() +
  geom_hline(yintercept = 0, linetype = "dashed", color = "red") +
  labs(title = "3. Supuesto de Homocedasticidad",
       x = "Predicción", y = "Residuos") +
  theme_minimal()

📌 6.4 Supuesto de Normalidad de los Errores

¿Qué se espera? Se espera que los errores sigan una distribución normal, especialmente para que los valores p y los intervalos de confianza del modelo sean válidos.

¿Por qué importa? Aunque la regresión lineal es robusta a pequeñas desviaciones, la normalidad es clave si se busca hacer inferencias precisas sobre los parámetros.

¿Cómo se evalúa? Se utiliza un histograma con densidad superpuesta para visualizar si los residuos se aproximan a una curva normal.

ggplot(data, aes(x = residuos)) +
  geom_histogram(aes(y = ..density..), bins = 10, fill = "skyblue", color = "black") +
  geom_density(color = "red") +
  labs(title = "4. Supuesto de Normalidad de los Errores",
       x = "Residuos", y = "Densidad") +
  theme_minimal()

## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

7. Conclusión

El análisis de regresión lineal simple realizado permite concluir que existe una relación positiva entre la cantidad de libros leídos y la puntuación en comprensión lectora. A partir de los resultados obtenidos:

El modelo presenta un coeficiente positivo, lo que implica que leer más libros se asocia con una mayor comprensión lectora.
Las métricas como el R² y el p-valor del modelo confirman que esta relación es estadísticamente significativa.
Los gráficos de diagnóstico no muestran violaciones severas de los supuestos del modelo.

Este modelo puede utilizarse como base para fomentar estrategias de promoción de la lectura, considerando su efecto positivo en la comprensión lectora.