Este taller se realizó un modelode regresión lineal múltiple y todas las estadísticas y pruebas. Se destacó sobre formas de verificar qué tan preciso es un modelo y qué podemos observar para determinar si tenemos el mejor modelo para nuestros datos. Por último, se analizó las interpretaciones, intervalosy prueba de significancia
Para realizar el análisis de regresión lineal múltiple se utilizaron las variables de cuenta corriente, tasa de cambio real y balanza comercial. Los datos se tomaron del Banco Mundial, la cuenta corriente y balanza comercial está medido en miles de millones de dólares y el indice de tasa de cambio real como un porcentaje de 0 a 1.
La cuenta corriente es una parte de la balanza de pagos de un país que registra las transacciones de bienes y servicios, así como los ingresos y pagos primarios y secundarios entre residentes y no residentes durante un período de tiempo específico. En otras palabras, es como una especie de “chequera” de un país en sus relaciones con el resto del mundo. Incluye exportaciones e importaciones de bienes y servicios, así como ingresos por inversiones y transferencias, como remesas y ayuda exterior.
La balanza comercial, por otro lado, es una parte específica de la cuenta corriente que registra la diferencia entre el valor de las exportaciones y el valor de las importaciones de bienes físicos durante un período determinado. Si un país exporta más de lo que importa, tiene un superávit comercial, lo que significa que está vendiendo más productos de los que está comprando en el extranjero. Por el contrario, si importa más de lo que exporta, tiene un déficit comercial.
Ambos conceptos son importantes porque reflejan la posición económica de un país en términos de su interacción con el resto del mundo y pueden influir en variables macroeconómicas como el tipo de cambio, la balanza de pagos y el crecimiento económico.
El ahorro nacional es la cantidad total de ingresos disponibles que no se destinan al consumo final de bienes y servicios durante un período de tiempo determinado en un país. En otras palabras, es la parte de la renta nacional que no se gasta en consumo. El ahorro nacional se compone principalmente de tres componentes:
Ahorro del sector público: Es el exceso de ingresos del gobierno sobre sus gastos. Si el gobierno gasta menos de lo que recauda a través de impuestos y otras fuentes de ingresos, se genera un ahorro del sector público.
Ahorro del sector privado: Es el exceso de ingresos de los hogares y las empresas sobre sus gastos de consumo. Este ahorro se puede destinar a la inversión en activos financieros o reales, como acciones, bonos, bienes raíces.
Ahorro externo: Es la diferencia entre lo que un país recibe del resto del mundo (a través de exportaciones netas, remesas, inversiones extranjeras) y lo que envía al exterior (en forma de importaciones netas, pagos de deuda externa).
Se utilizó ésta definición de ahorro nacional, debido a que la cuenta corriente se puede expresar como la diferencia entre el ahorro nacional y la inversión bruta en capital.
El Índice de Tipo de Cambio Real (ITCR) es una medida que compara el valor relativo de una canasta de bienes entre dos períodos de tiempo diferentes en el mismo país, ajustando los precios por la inflación. Este índice es utilizado para evaluar si la moneda de un país se ha apreciado o depreciado en términos reales frente a un período base. Este índice nos permite entender si la moneda de un país se ha vuelto más fuerte o más débil en términos reales, es decir, teniendo en cuenta la inflación. Si el ITCR es mayor a 1, indica que la moneda se ha apreciado en términos reales, mientras que si es menor a 1, indica una depreciación en términos reales. Se utilizó éste indice dado que el valor de la moneda en términos relativos a una moneda extranjera puede cambiar significativamente la cuenta corriente o la balanza comercial, pues para exportar o importar se debe de utilizar la tasa de cambio.
En el resumen de la variables se evidencia una gran dispersión de datos en la variable de ahorro nacional. Por otro lado, el coeficiente de asimetría es importante, dado que en un modelo de regresión lineal se tiene el supuesto que las variables independientes y dependiente tienen una distribución similar.
Pues la balanza comercial y la cuenta corriente tiene un coeficiente de asimetría negativo, es decir, su mediana es mayor a la media y la media mayor a la moda En cambio, el ahorro nacional y la tasa de cambio real tienen una asimetría positiva, en otras palabras, la media es mayor a la mediana y la mediana mayor a la moda.
La curtosis es la medida del achatamiento o el escarpado de la distribución. Si la curtosis tiene un valor positivo, el pico es la función es más pronunciado a comparación con la distribución normal y las colas de la función son más largas. Esto indica que los valores están más concentrados al rededor de la media y hay menos datos atípicos. Por eso, la balanza comercial, cuenta corriente y la tasa de cambio real tienen una curtosis positiva, pues hay una mayor concentración de los datos en la media.
Una curtosis negativa indica una mayor concentración de datos en las colas y el pico de la función es más achatado.Siendo la variable de ahorro nacional la única con curtosis negativa, de ahí que su desviación estándar sea tan grande, pues hay mayor una mayor dispersción de los datos al rededor de la media. Es decir, el ahorro nacional presenta una gran volatilidad en Colombia.
Para el diagrama de caja y bigotes se escalaron las variables para poder compararlas. Se evidencia, que ninguna de las variables tiene su media en cero. La cuenta corriente tiene una mayor concentración de datos en el primer cuartil y las otras variables el tercer cuartil hay una acumulación en el tercer cuartil.
En las variables de balanza comercial y cuenta corriente están por encima de la media. El coeficiente de asimetría es negativo. Esto resulta en un bigote inferior más largo que el superior, lo que indica una mayor dispersión de los datos por debajo de la media.
Asimismo, el ahorro nacional y la tasa de cambio real tinen una media por debajo de 0. Además,un coeficiente de simetría positiva. Pues, hay una mayor densidad de datos en el tercer cuartil a comparación del primero, en otras palabras, hay una mayor variabilidad de datos por encima de la media.
Por último, hay una presencia de atípicos en la balanza comercial y la tasa de cambio real. Siendo la balanza comercial, la presencia de atípicos por debajo de la media,de ahí que, el bigote inferior en más largo. La tasa de cambio real tiene una presencia de datos especiales en el bigote superior.
Se comprueba por medio de la prueba de hipótesis si las variable tienen una distribución normal.
\(H_{0}\): La variable posee una distribución normal
\(H_{1}\): La variable no tiene una distribución normal
Dado el p-valor es menor al 5% se rechaza \(H_{0}\) en todas las variables y se acepta que no tienen una distribución normal.
##
## Pearson chi-square normality test
##
## data: CA
## P = 22.349, p-value = 0.002211
##
## Pearson chi-square normality test
##
## data: TCR
## P = 24.209, p-value = 0.001047
##
## Shapiro-Francia normality test
##
## data: ST
## W = 0.84652, p-value = 0.0001197
##
## Pearson chi-square normality test
##
## data: BC
## P = 23.744, p-value = 0.001263
Con el gráfico del histograma se resume la media de los datos, la desviación de los datos, los asimetría y el achatamiento de cada variable.
multi.hist(scale(BASEDEDATOS[,-c(1)]), dcol = c("blue", "red"),
dlty = c("dotted", "solid"),mar = c(2,2,2,2) )El diagrama de dispersión visualiza la relación entre las variables. En este caso la única relación lineal que se observa es la cuenta corriente con la balanza comercial.
La correlación entre las variables muestra que, la más significativa es la cuenta corriente y la balanza comercial siendo ésta proporcional con un coeficiente de \(0.9\). Además, la correlación entre la cuenta corriente y el ahorro nacional es inversa, con un coeficiente de -0.79. Por otro lado, la tasa de cambio real muestra una correlación baja con las demás variables, siendo menor al 0.4.
En resumen, variaciones en la balanza comercial afecatan de misma forma la cuenta corriente, en cambio fluctuaciones del ahorro nacional influyen opuestamente la cuenta corriente. La tasa de cambio real no tiene una influencia significa, a comparación de las demás.
plot_ly(x=ST, y=BC, z=CA, type="scatter3d", color=CA) %>%
layout(scene = list(xaxis = list(title = "Ahorro Nacional"),
yaxis = list(title = "Balanza Comercial"),
zaxis = list(title = "Cuenta Corriente")))## Año CA ST BC TCR
## Año 1.0000000 -0.7955306 0.8113690 -0.8320473 -0.5884669
## CA -0.7955306 1.0000000 -0.7919462 0.8989975 0.2122172
## ST 0.8113690 -0.7919462 1.0000000 -0.5930560 -0.2265719
## BC -0.8320473 0.8989975 -0.5930560 1.0000000 0.3947363
## TCR -0.5884669 0.2122172 -0.2265719 0.3947363 1.0000000
I. La cuenta corriente tiene una concentración de datos en el primer cuartil y el ahorro nacional, balanza comercial y tasa de cambio real poseen una acumulación de datos en el tercer cuartil.
Ninguna de las variables posee una distribución normal.
Hay una presencia de atípicos en la variable de ahorro nacional dado que hay una diferencia de 10 entre la media y t-media.
Se observa una correlación lineal entre la cuenta corriente y la balanza comercial, con un coeficiente de 0.9.
V. Cambios en la tasa de cambio real no tienen mayor significancia en las otras variables presentadas.
Un modelo regresión múltiple es una generalización del modelo de regresión simple con n covariables se escribe de la siguiente forma.
\(Y = \beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+...+\beta_{n}X_{n}+\varepsilon\)
\(\beta_{0}=\)Corte con el eje o valor esperado de Y cuando las demás variables sean \(0\)
\(\beta_{n}=\) Efecto que tiene sobre Y ante un variación en una unidad de \(X{n}=\), manteiendo lo demás constante.
\(\varepsilon\): Residuo o error del modelo, es la diferencia entre lo obersvado y estimado.
Dado que se desconoce la influencia de las variables independientes sobre la dependiente, se estiman los coeficientes por medio de mínimos cuadrados.
\[RSS= \sum_{i=1}^{n} (y_{i}-\widehat{\beta_{0}}-\widehat{\beta_{1}}x_{i1}-\widehat{\beta_{2}}x_{i2}-...-\widehat{\beta_{p}}x_{ip})^2 \]
Linealidad en los parámetros
Esperanza del error es cero \(E( \varepsilon|X_{1},X_{2},...,X_{n} )=0\)
Las observacionen provienen de una muestra aleatoria.
Ausencia de multicolinealidad perfecta.
Con base a la correlación de las variables se eligió a la cuenta corriente como variable dependiente, dada su alta correalción con las demás variables.
En el resumen del modelo nos da la siguiente estimación de los valores
\(\beta_{0}=5.41\)
\(\beta_{1}=\widehat{ST}=-0.11\)
\(\beta_{2}=\widehat{BC}=0.61\)
\(\beta_{3}=\widehat{TCR}=-4.33\)
\(\widehat{CA} =5.41-0.11 \widehat{ST}+0.61 \widehat{BC}- 4.33 \widehat{TCR}\)
Test de Hipótesis Con base a los predictores elegidos se realiza una prueba de hipótesis para determinar cuales variables tienen poder de afectar la variable estimada.
Hipótesis nula
\(H_{0}:\beta_{1}+\beta_{2}+...+\beta_{n}=0\)Los coeficiente de las variables independientes son cero.
Hipótesis alternativa
\(H_{1}:\beta_{1}+\beta_{2}+...+\beta_{n}\ne 0\)Los coeficiente de las variables independientes distintos a cero.
Dado que el p-valor para todos los coeficientes en la prueba de hipótesis es menor que el nivel de significancia del 5%, se rechaza la hipótesis nula y se acepta la hipótesis alternativa. Esto indica que las variables independientes tienen un efecto significativo en la predicción de la cuenta corriente, según el análisis estadístico realizado.
Se presenta el \(R^2\) corresponde al cuadrado de la correlación entre la variable respuesta y el modelo lineal ajustado.Aun así es una estiamción sesgada. Por ello se usa \(R^2\) ajustado, que toma en cuenta los grados de libertad, número de predictores y tamaño de la muestra. El resultado mientras más próximo a 1 indica la capacidad de explicar en mejor proporción la variable a predecir.
Una media de residuos cercana a cero y un valor mayor al 90% para el R ajustado indica que el modelo de regresión se ajusta a la tendencia de los datos proporcionados y es capaz de proporcionar acertadas predicciones.
##
## Call:
## lm(formula = CA ~ . - Año, data = BASEDEDATOS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.6232 -1.0107 -0.1878 0.7029 3.5820
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.41010 1.24311 4.352 9.43e-05 ***
## ST -0.11186 0.01432 -7.811 1.69e-09 ***
## BC 0.61227 0.04530 13.516 2.68e-16 ***
## TCR -4.32609 1.16548 -3.712 0.000641 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.684 on 39 degrees of freedom
## Multiple R-squared: 0.9346, Adjusted R-squared: 0.9296
## F-statistic: 185.8 on 3 and 39 DF, p-value: < 2.2e-16
La función step se usa para juzgar la significancia de las variables dentro del modelo. Se utiliza el criterio de información de Akaike (AIC), se basa en quitar la variable sea menos significativa, es decir la que tenga mayor p-valor. En este caso al ser todas las variables significativas para el modelo se siguen tomando en cuenta cada variable y sus estimaciones de los coeficientes.
## Start: AIC=48.64
## CA ~ (Año + ST + BC + TCR) - Año
##
## Df Sum of Sq RSS AIC
## <none> 110.63 48.636
## - TCR 1 39.08 149.72 59.645
## - ST 1 173.08 283.71 87.131
## - BC 1 518.19 628.82 121.354
##
## Call:
## lm(formula = CA ~ (Año + ST + BC + TCR) - Año, data = BASEDEDATOS)
##
## Coefficients:
## (Intercept) ST BC TCR
## 5.4101 -0.1119 0.6123 -4.3261
La validación de esta condición puede realizarse mediante gráficos de dispersión que representen la relación entre los predictores y los residuos del modelo.Ya que permite identificar posibles valores atípicos mientras se evalúa si los residuos se distribuyen de manera aleatoria alrededor de cero, con una variabilidad constante a lo largo del eje X, lo cual es indicativo de una relación lineal adecuada.
Como se asume que cada variable debe estar linealmente relacionada con la variable dependiente, se asume que los residuos deben de satisfacer esta condición. Por medio del test de shapiro se puede saber.
Siendo la hipótesis nula:
\(H_{0}=\)Los residuos presentan una distribución normal
Hipótesis alternativa:
\(H_{1}=\)Los residuos presentan una distribución no noraml
El p-valor de Shapiro test es del 0.35, entonces se asume la distribución normal de los residuos.
##
## Shapiro-Wilk normality test
##
## data: mod1$residuals
## W = 0.97164, p-value = 0.3596
En la regresión lineal la varianza de los errores debe ser constante, esto depende del error estándar, los intervalos de confianza y el test de hipótesis.
Esto se detecta cuando los errores se distribuyen de manera aleatoria en torno al eje X. Se puede utilizar el test de Breush-Pagan como constraste de la homocedasaticidad.
La hipótesis nula es:
\(H_{0}=\)Los residuos poseen una varianza constante.
La hipótesis alternativa es:
\(H_{1}=\)Los residuos no poseen una varianza constante.
Debido al p-valor 0.001, el modelo no cumple con la condición de varianza constante y se ejemplifica al tener una distribución de los errores en forma cónica.
##
## studentized Breusch-Pagan test
##
## data: mod1
## BP = 16.072, df = 3, p-value = 0.001096
Detectar los posibles valores atípicos y observaciones que puedan tener un alto grado de influencia en el modelo de regresión lineal es importante. Independientemente, si se cumplen las condiciones y supuestos del modelo. La razón detrás de esto es que estas observaciones pueden distorsionar significativamente los resultados del modelo para eso se decide si eliminar estas observaciones o no. Debe hacerse teniendo en cuenta que un modelo sin valores influyentes puede llegar a realizar predicciones con mayor exactitud.
Para encontrar los datos que aportan una gran influencia en el modelo
de regresión se utiliza el gráfico de la función \(influencePlot.\)
La función \(outlierTest\) encuentra
residuos estandrizados con una deviación 3 veces mayor.
Se observa que las observaciones 41 y 43 son las más influyentes en el modelo. Esto se debe a que la primera observación corresponde al año 2020, durante el cual la pandemia de Covid-19 provocó una disminución del ahorro nacional y el déficit en la cuenta corriente. En cuanto, la observación 43, del año 2022, es la más influyente porque representa una proyección de la tendencia de los datos realizada por el Banco Mundial. En consecuencia, no se quitaron los datos influyentes ya que no alteran el valor de proyección en gran medida.
La función \(wich\) encuentra los residuos estandarizados mayores a 3 deviaciones estándar. En este caso no se encuentran ningun residuo. Lo cual se verifica con el gráfico
Otra forma de comprobarlo es con la función \(outlierTest\) para realizar una prueba de hipótesis con
\(H_{0}=\)La observación i-ésima no es un atípico.
\(H_{1}=\)La observación i-ésima SI es un atípico.
## named integer(0)
## No Studentized residuals with Bonferroni p < 0.05
## Largest |rstudent|:
## rstudent unadjusted p-value Bonferroni p
## 43 -2.536158 0.015439 0.66389
El gráfico confirma el resultado de la función \(which\) de que no hay datos atípicos. Aun así la función \(outlierTest\) da un p-valor menor al 5%, por ende se debería de rechazar la hipótesis de que no hay atípicos. En este caso, dado que la gráfica no hay datos mayores a 3 desviaciones estándar se va a asumir que no hay presencia de atípicos.
La colinealidad se refiere a la situación en la que dos o más predictores están estrechamente relacionados entre sí. Cuando dos predictores correlacionados son colineales,puede generar problemas significativos en el análisis estadístico.
La presencia de colinealidad puede dificultar la capacidad para separar el efecto individual de variables colineales sobre la variable respuesta en un modelo de regresión. Esto se traduce en una pérdida de precisión en las estimaciones de los coeficientes de regresión, ya que la colinealidad provoca un aumento del error estándar.
Para saber si está presente en el modelo de regresión, se puede verificar la correlación entre las variables predictoras. O se puede calcular el factor de inflación de la varianza con la función \(vif\)
\(VIF\widehat{\beta_{j}}=\frac{1}{1-R^2_{X_{j}|X_{-j}}}\)
Se pueden obtener los siguientes resultados
\(VIF=1\) ausencia de colinealidad
\(1 < VIF < 5\) cierta colinealidad
\(5 < VIF < 10\) alta colinealidad
En el gráfico de correlación se puede verificar que hay cierta colinealidad, pues su valor es de 0,2 y una correlación significativa entre la balanza comercial y ahorro nacional. Aun así, este valor no afecta a las predicciones del modelo ya que se logran diferenciar los predictores.
## ST BC TCR
## 1.542692 1.733626 1.184700
El factor de inflación de la varianza de los tres predictores son cercanos a uno. Se verifica una poca colinealidad entre los predictores.
Debido a que no se cumple la condición de varianza no constate. Se realizó un reajuste del modelo por medio de una transformación polimonial de grado 2. Con un aumento a las variables se vuelven más flexibles y puede aumentar el grado de predicción del modelo.
modelo.lineal.poli <- update(mod1, formula = CA ~ . + poly(ST, 2)
+ poly(BC, 2) + poly(TCR, 2))
summary(modelo.lineal.poli)##
## Call:
## lm(formula = CA ~ ST + BC + TCR + poly(ST, 2) + poly(BC, 2) +
## poly(TCR, 2), data = BASEDEDATOS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.88476 -0.81544 0.08823 0.57498 3.14399
##
## Coefficients: (3 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.66945 1.04263 4.479 7.30e-05 ***
## ST -0.08863 0.01444 -6.137 4.56e-07 ***
## BC 0.74132 0.04638 15.984 < 2e-16 ***
## TCR -3.37987 0.98049 -3.447 0.001459 **
## poly(ST, 2)1 NA NA NA NA
## poly(ST, 2)2 -7.59290 1.91644 -3.962 0.000337 ***
## poly(BC, 2)1 NA NA NA NA
## poly(BC, 2)2 -5.56457 1.58116 -3.519 0.001193 **
## poly(TCR, 2)1 NA NA NA NA
## poly(TCR, 2)2 3.91103 1.59549 2.451 0.019220 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.155 on 36 degrees of freedom
## Multiple R-squared: 0.9716, Adjusted R-squared: 0.9669
## F-statistic: 205.3 on 6 and 36 DF, p-value: < 2.2e-16
Con la función \(anova\) se compara el modelo inicial y el ajustado.
Con el modelo ajustado se logró un aumento en el R-ajustado, de 0.93 a 0.97. El p-valor se mantuvo constante.Así quedaría los nuevos valores de los predictores para la pronosticación de la cuenta corriente.
\(\widehat{CA}=4.66945-0.08863\widehat{ST}+0.74132\widehat{BC}-3.37987\widehat{TCR}\)
I. El modelo ajustado de regresión lineal permite predecir el comportamiento de la cuenta corriente con exactitud el 97% de las veces.
Se cumplen la mayoría de condiciones del modelo, sin embargo, pueda que la falta de precisión en el modelo sea debido a la falta de constancia en los errores y la cierta colinealidad entre las variables de ahorro y balanza comercial .
La observación 43 es influyente aunque no lo suficiente para eliminarla.
La variable de ahorro tiene una varianza significativa lo que puede afectar en la predicción.
Gil, C. (Mayo 2018).REGRESIÓN LINEAL MÚLTIPLE Apuntes personales sobre regresión lineal múltiple. GitHub.https://github.com/CristinaGil/Ciencia-de-Datos-R/blob/master/PDF/Regresion_lineal_multiple.pdf
Stenroos, M. (Abril 18, 2018). Rpubs. Multiple linear regression R Guide. https://rpubs.com/MStenroos/385153
Hernández, F. Modelos de Regresión con R.(03-2024). https://fhernanb.github.io/libro_regresion/index.html