Esta unidad introduce los conceptos fundamentales de correlación y regresión como herramientas estadísticas para analizar la relación entre dos variables cuantitativas. Se estudia cómo identificar y medir la fuerza y dirección de una relación lineal mediante el coeficiente de correlación, así como cómo modelar dicha relación a través de una recta de regresión.
Esta unidad introduce los conceptos fundamentales de correlación y regresión como herramientas estadísticas para analizar la relación entre dos variables cuantitativas.
Se estudia cómo identificar y medir la fuerza y dirección de una relación lineal mediante el coeficiente de correlación de Pearson, así como cómo modelar dicha relación a través de una recta de regresión lineal.
También se abordan las medidas de ajuste del modelo, como el coeficiente de determinación, y se analizan los supuestos del modelo.
2 🎯 Objetivos
Interpretar y calcular el coeficiente de correlación lineal.
Ajustar un modelo de regresión lineal simple.
Verificar los supuestos del modelo.
Evaluar la calidad del ajuste del modelo.
3 📊 Generación de datos y modelo lineal
Código
set.seed(123)x <-rnorm(100, mean =50, sd =10)error <-rnorm(100, mean =0, sd =5)y <-3+0.7* x + errordatos <-data.frame(x, y)modelo <-lm(y ~ x, data = datos)summary(modelo)
Call:
lm(formula = y ~ x, data = datos)
Residuals:
Min 1Q Median 3Q Max
-9.5367 -3.4175 -0.4375 2.9032 16.4520
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.79778 2.76324 1.374 0.172
x 0.67376 0.05344 12.608 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.854 on 98 degrees of freedom
Multiple R-squared: 0.6186, Adjusted R-squared: 0.6147
F-statistic: 159 on 1 and 98 DF, p-value: < 2.2e-16
Interpretación: El modelo ajustado es \(\overline{y}=\beta_0 + \beta_1 x\), donde los coeficientes indican la pendiente y la ordenada al origen de la recta de regresión. El summary(modelo) nos brinda estos valores, junto con el valor \(R^2\), los errores estándar y los valores p asociados.
4 📈 Visualización de la regresión
Código
library(ggplot2)ggplot(datos, aes(x = x, y = y)) +geom_point(color ="steelblue") +geom_smooth(method ="lm", color ="darkred", se =FALSE) +theme_minimal() +labs(title ="Recta de regresion",x ="Variable X",y ="Variable Y")
Interpretación: El gráfico muestra una nube de puntos y la recta de regresión ajustada. Visualmente podemos evaluar si existe una tendencia lineal clara, y si hay valores atípicos o dispersión irregular de los puntos.
5 ✅ Verificación de supuestos
5.1 1. Linealidad y homocedasticidad
Interpretación: Este gráfico de residuos frente a los valores ajustados nos permite verificar la linealidad (patrón en forma de nube) y la homocedasticidad (la varianza de los residuos debe ser constante a lo largo de los valores ajustados).
5.2 2. Normalidad de los residuos
Shapiro-Wilk normality test
data: residuals(modelo)
W = 0.9748, p-value = 0.05204
Interpretación:
El gráfico QQ-plot nos muestra si los residuos siguen una distribución normal. Si los puntos se alinean con la recta, se cumple el supuesto.
El test de Shapiro-Wilk evalúa estadísticamente la normalidad. Un valor \(p > 0.05\) indica que no se rechaza la hipótesis de normalidad.
5.3 3. Independencia de los errores
lag Autocorrelation D-W Statistic p-value
1 -0.1257677 2.233153 0.264
Alternative hypothesis: rho != 0
Interpretación: El test de Durbin-Watson evalúa la autocorrelación de los residuos. Un valor cercano a 2 indica independencia. Valores cercanos a 0 o 4 indican autocorrelación positiva o negativa, respectivamente.
Linealidad: la relación entre ( \(x\) ) y ( \(y\) ) es lineal.
Independencia de los errores.
Homocedasticidad: varianza constante de los errores.
Normalidad de los errores.
No multicolinealidad (en caso de regresión múltiple).
8 📝 Conclusión
El análisis de regresión lineal permite modelar y predecir una variable dependiente a partir de una independiente, siempre que se cumplan ciertos supuestos estadísticos. Es fundamental validar estos supuestos para obtener resultados confiables y útiles para la toma de decisiones.
Ejecutar el código
---title: "Unidad 3: Teoría de la correlación"subtitle: "Clase 5"date: "2025-04-09"date-format: longdescription: Esta unidad introduce los conceptos fundamentales de correlación y regresión como herramientas estadísticas para analizar la relación entre dos variables cuantitativas. Se estudia cómo identificar y medir la fuerza y dirección de una relación lineal mediante el coeficiente de correlación, así como cómo modelar dicha relación a través de una recta de regresión.author: name: Blás Antonio Benítez Cristaldo affiliation: Facultad de Ciencias Administrativas y Contables, UPE affiliation-url: https://upe.edu.py/title-block-banner: "#2471A3"format: html: theme: journal toc: true number-sections: true code-fold: true code-tools: true warning: false link-external-newwindow: truelang: eseditor: visual---## 📚 IntroducciónEsta unidad introduce los conceptos fundamentales de **correlación** y **regresión** como herramientas estadísticas para analizar la relación entre dos variables cuantitativas.Se estudia cómo identificar y medir la fuerza y dirección de una relación lineal mediante el **coeficiente de correlación de Pearson**, así como cómo modelar dicha relación a través de una **recta de regresión lineal**.También se abordan las medidas de ajuste del modelo, como el **coeficiente de determinación**, y se analizan los **supuestos del modelo**.------------------------------------------------------------------------## 🎯 Objetivos- Interpretar y calcular el coeficiente de correlación lineal.- Ajustar un modelo de regresión lineal simple.- Verificar los supuestos del modelo.- Evaluar la calidad del ajuste del modelo.------------------------------------------------------------------------## 📊 Generación de datos y modelo lineal```{r}set.seed(123)x <-rnorm(100, mean =50, sd =10)error <-rnorm(100, mean =0, sd =5)y <-3+0.7* x + errordatos <-data.frame(x, y)modelo <-lm(y ~ x, data = datos)summary(modelo)```**Interpretación**: El modelo ajustado es $\overline{y}=\beta_0 + \beta_1 x$, donde los coeficientes indican la pendiente y la ordenada al origen de la recta de regresión. El `summary(modelo)` nos brinda estos valores, junto con el valor $R^2$, los errores estándar y los valores p asociados.------------------------------------------------------------------------## 📈 Visualización de la regresión```{r, message=FALSE, warning=FALSE}library(ggplot2)ggplot(datos, aes(x = x, y = y)) + geom_point(color = "steelblue") + geom_smooth(method = "lm", color = "darkred", se = FALSE) + theme_minimal() + labs(title = "Recta de regresion", x = "Variable X", y = "Variable Y")```**Interpretación**: El gráfico muestra una nube de puntos y la recta de regresión ajustada. Visualmente podemos evaluar si existe una tendencia lineal clara, y si hay valores atípicos o dispersión irregular de los puntos.------------------------------------------------------------------------## ✅ Verificación de supuestos### 1. Linealidad y homocedasticidad```{r, echo=FALSE, message=FALSE}library(ggfortify)autoplot(modelo, which = 1)```**Interpretación**: Este gráfico de residuos frente a los valores ajustados nos permite verificar la **linealidad** (patrón en forma de nube) y la **homocedasticidad** (la varianza de los residuos debe ser constante a lo largo de los valores ajustados).------------------------------------------------------------------------### 2. Normalidad de los residuos```{r, echo=FALSE, message=FALSE}autoplot(modelo, which = 2)shapiro.test(residuals(modelo))```**Interpretación**: - El gráfico QQ-plot nos muestra si los residuos siguen una distribución normal. Si los puntos se alinean con la recta, se cumple el supuesto. - El test de Shapiro-Wilk evalúa estadísticamente la normalidad. Un valor $p > 0.05$ indica que no se rechaza la hipótesis de normalidad.------------------------------------------------------------------------### 3. Independencia de los errores```{r, echo=FALSE, message=FALSE}library(car)durbinWatsonTest(modelo)```**Interpretación**: El test de Durbin-Watson evalúa la autocorrelación de los residuos. Un valor cercano a 2 indica independencia. Valores cercanos a 0 o 4 indican autocorrelación positiva o negativa, respectivamente.------------------------------------------------------------------------## 📐 Fórmulas**Coeficiente de correlación lineal de Pearson**:$$r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}$$**Recta de regresión lineal**:$$\hat{y} = \beta_0 + \beta_1 x$$**Coeficiente de determinación**:$$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}$$------------------------------------------------------------------------## 🧪 Supuestos del Modelo de Regresión Lineal- **Linealidad**: la relación entre ( $x$ ) y ( $y$ ) es lineal.- **Independencia** de los errores.- **Homocedasticidad**: varianza constante de los errores.- **Normalidad** de los errores.- **No multicolinealidad** (en caso de regresión múltiple).------------------------------------------------------------------------## 📝 ConclusiónEl análisis de regresión lineal permite modelar y predecir una variable dependiente a partir de una independiente, siempre que se cumplan ciertos supuestos estadísticos. Es fundamental validar estos supuestos para obtener resultados confiables y útiles para la toma de decisiones.