rm(list = ls())
library(ggplot2)
library(tidyverse)
library(dplyr)
library(data.table)
library(readxl)
library(haven)
library(pacman)
library(boot)
library(lmtest)
library(sandwich)
library(corrplot)
library(car)
library(QuantPsyc)
library(ggcorrplot)Taller 2
Quarto - Taller 2 - Analítica
Miguel Angel Castellanos Sosa, Paula Fernanda Cruz Gómez, Damaris Paola Rozo López
Running Code
Modelo de regresión lineal múltiple.
1.1 Alistar entorno de trabajo
1.2 Cargar base de datos
Esta base de datos está construida con información del Banco Mundial, donde se utilizarán tres variables para ciento ochenta países. Los datos son del año 2023 donde “Evida” es la esperanza de vida en cada país, “PIBP” nos muestra el PIB en dólares per cápita, y, por último, “Gasto” muestra el gasto en salud del gobierno en dólares per cápita.
Base_datos <- read_excel(
"C:/Users/migue/Desktop/Analítica/Taller 2/Input/T2.xlsx",
sheet = "Datos Organizados"
)1.3 Descripción de los datos
Como variable a explicar, se eligió “Evida” que estará relacionada con “PIBP” y “Gasto”. Lo que se quiere comprobar es que las personas, por lo general, viven más tiempo si tienen mayores niveles de riqueza que les permitan adquirir más y mejores bienes y servicios; por ejemplo, comida, servicios de salud, transporte y demás. Se esperaría que mayores niveles de riqueza mejoren la calidad de vida, lo que llevaría a una mejor salud y así, más años de vida. Por otro lado, se esperaría que si los gobiernos gastan más en la salud de las personas, estos puedan recibir mejor cuidado, atención y servicios médicos que prevengan o contrarResten enfermedades que reduzcan la esperanza de vida.
Al analizar las relaciones de las variables y para efectos de crear un modelo lineal de explicación, se trabajarán los logaritmos de las variables “PIBP” y “Gasto”.
1.4 Estimación de lo modelo.
Evida i = B0 + B1*PIBP_log i + B2*gasto_log i + U i
Al estimar el modelo, se obtuvieron los siguiente resultados:
Call:
lm(formula = Evida ~ PIBP_log + gasto_log, data = Base_datos)
Residuals:
Min 1Q Median 3Q Max
-14.483 -1.805 0.231 2.541 7.653
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.7481 2.5360 16.068 < 2e-16 ***
PIBP_log 2.8498 0.5448 5.231 4.73e-07 ***
gasto_log 1.1661 0.4354 2.678 0.00809 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.627 on 177 degrees of freedom
Multiple R-squared: 0.7494, Adjusted R-squared: 0.7466
F-statistic: 264.7 on 2 and 177 DF, p-value: < 2.2e-16
El R2 es 0.7494 lo que indicaría un alto nivel de explicación de las variables de PIB Y Gasto a la esperanza de vida.
B0 = 40.7481 Nos muestra el intercepto de la función, lo que indicaría que para PIBP_log y gasto_log iguales a 0, la esperanza de vida es 40.74 años, lo que puede ser confuso, ya que no esperaríamos países con un PIB de 0 o un gasto per cápita en salud de 0. Para facilitar un poco el análisis podríamos pensar que para países con niveles extremos de pobreza y gastos nulos en salud se esperaría que la esperanza de vida fuera muy baja. Si existiera un país donde no hay producción ni gasto en salud, su esperanza de vida sería de alrededor de 40 años. El P valor es bajo, el coeficiente es estadísticamente significativo, pero por lo anteriormente mencionado la interpretación del coeficiente es ambigua.
B1 = 2.8498 Nos dice que cuando el PIB per cápita aumenta en 1% (manteniendo el gasto constante), la esperanza de vida aumenta en promedio 0.0284 años. El valor P de este coeficiente es muy bajo lo que traduce en una alta significancia estadística.
B2 = 1.16 Nos dice que cuando el gasto per cápita en salud del gobierno aumenta en 1% (manteniendo el PIB per cápita constante), la esperanza de vida aumenta 0.0116 años. Su P valor también es bajo, el coeficiente es estadísticamente significativo, pero no es tan influyente como el PIB per cápita.
- Linealidad de los parámetros.
RESET test
data: modelo
RESET = 0.85583, df1 = 2, df2 = 175, p-value = 0.4267
En la gráfica se observa que los residuos se distribuyen de manera relativamente aleatoria alrededor de la línea horizontal en cero. No se aprecia una forma clara de U, ni patrones curvilíneos marcados, ni estructuras sistemáticas evidentes. La dispersión parece relativamente homogénea a lo largo del rango de valores ajustados. En consecuencia, no se encuentra evidencia visual de violación del supuesto de linealidad en los parámetros, lo que respalda la correcta especificación funcional del modelo.
El test RESET no rechaza la hipótesis nula de correcta especificación funcional (p = 0.427), lo que sugiere que la forma funcional logarítmica adoptada es adecuada.
- Gráficos de normalidad.
Shapiro-Wilk normality test
data: errores
W = 0.96681, p-value = 0.0002784
Se observa que la mayoría de los puntos siguen de manera bastante cercana la línea teórica de normalidad en la parte central de la distribución. Sin embargo, en los extremos (colas), se presentan ligeras desviaciones respecto a la línea de referencia, particularmente en la cola inferior, lo que sugiere la posible presencia de valores atípicos o colas ligeramente más pesadas que las de una distribución normal estricta.
La gráfica de densidad muestra una distribución aproximadamente simétrica y unimodal, centrada en torno a cero, aunque con una leve asimetría y cierta dispersión en las colas. No se observan multimodalidades ni deformaciones severas. El test Shapiro evidencia la no normalidad de los residuos, al ser una muestra grande no habría que tener mucha preocupación, pero se utilizarán los errores robustos para hacer más sólido el modelo.
En conjunto, la evidencia gráfica sugiere que los residuos presentan una aproximación a la normalidad, con pequeñas desviaciones en las colas. Dado que el tamaño muestral es relativamente grande (N = 180), estas desviaciones no representan una preocupación crítica, ya que por el Teorema Central del Límite la inferencia basada en los estimadores MCO sigue siendo válida en muestras grandes.
- Homocedasticidad.
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.74809 2.63667 15.4544 < 2.2e-16 ***
PIBP_log 2.84981 0.61383 4.6427 6.679e-06 ***
gasto_log 1.16613 0.52025 2.2415 0.02624 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Visualmente, los residuos no muestran un patrón de dispersión completamente aleatorio. La línea suavizada presenta una ligera tendencia descendente a medida que aumentan los valores ajustados, lo que sugiere que la variabilidad de los residuos disminuye levemente en niveles altos de la variable dependiente. Sin embargo, no se observa una forma clara de embudo pronunciado ni un ensanchamiento de la dispersión.
Esto indica que podría existir una leve heterocedasticidad, aunque no parece ser severa ni estructuralmente marcada. La dispersión general de los residuos es relativamente estable en la mayor parte del rango de valores ajustados.
Dado que algunos supuestos del modelo clásico de regresión lineal no se cumplen, se estimaron errores estándar robustos a la heterocedasticidad utilizando el estimador de errores robustos. Esto permite obtener inferencias estadísticas consistentes incluso en presencia de heterocedasticidad.
Al comparar los resultados del modelo estimado mediante MCO con aquellos obtenidos utilizando errores estándar robustos, se observa que los coeficientes permanecen iguales, pero los errores estándar aumentan ligeramente. Como consecuencia, los estadísticos t disminuyen y los p-valores aumentan. Sin embargo, ambas variables explicativas continúan siendo estadísticamente significativas, lo que indica que los resultados del modelo son robustos ante posibles problemas de heterocedasticidad.
- Multicolinearidad
PIBP_log gasto_log
8.693495 8.693495
El análisis de multicolinealidad se realizó mediante el cálculo del Factor de Inflación de la Varianza (VIF) para las variables explicativas del modelo (PIBP_log y gasto_log). Los resultados arrojan valores de VIF iguales a 8.69 para ambas variables.
Dado que valores de VIF superiores a 5 suelen indicar multicolinealidad moderada y valores cercanos o superiores a 10 sugieren multicolinealidad severa, los resultados evidencian la presencia de multicolinealidad alta pero no extrema. En términos cuantitativos, este VIF implica que aproximadamente el 88.5% de la variación de cada variable explicativa puede ser explicada por la otra, lo cual confirma una fuerte correlación entre ellas.
No obstante, la multicolinealidad no parece comprometer gravemente la estimación, ya que ambos coeficientes permanecen estadísticamente significativos. Por tanto, aunque existe una relación estructural fuerte entre el PIB per cápita y el gasto en salud, no se observa evidencia de multicolinealidad perfecta ni de distorsión crítica en la inferencia estadística.