Correlación y regresión

Introducción

El documento proporciona instrucciones básicas para hacer análisis de correlación y regresión clásicas, en R. Se consideran datos de una muestra de países tomadas de Ourworldindata.org, para el año 2022, guardada previamente en excel y en formato csv delimitado por comas.

Lectura de datos

La lectura de datos es posible con la función read.csv o también, readxl, igualmente, desde el ambiente enviroment se puede ver la opción import Dataset, para buscar la base de datos previamente guardada en el programa Excel.

Estudio de correlación previo

Puede ser relevante analizar la correlación lineal, usando pruebas de correlación entre los pares de variables cuantitativas que hay en la base de datos.

cor.test(Extremapob,GINI)

## 
##  Pearson's product-moment correlation
## 
## data:  Extremapob and GINI
## t = 1.3568, df = 49, p-value = 0.1811
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.09002034  0.44265514
## sample estimates:
##       cor 
## 0.1902839

cor.test(Extremapob,GDP.per.capita)

## 
##  Pearson's product-moment correlation
## 
## data:  Extremapob and GDP.per.capita
## t = -4.1879, df = 49, p-value = 0.0001168
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.6911934 -0.2770135
## sample estimates:
##        cor 
## -0.5134037

cor.test(GINI,GDP.per.capita)

## 
##  Pearson's product-moment correlation
## 
## data:  GINI and GDP.per.capita
## t = -2.016, df = 49, p-value = 0.0493
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.513197376 -0.001267836
## sample estimates:
##        cor 
## -0.2767548

Es importante notar que el GDP y la Extrema pobreza tienen una correlación negativa o inversa, sin incluir el cero en el intervalo, es significativa. Esto es, para los datos del año 2022, a nivel internacional, se puede afirmar que con una confianza del 95%, la asociación es inversamente proporcional, en países con altos PIB, la pobreza extrema es baja, presuponiendo que en lugares con altas capacidades productivas y pagos, no hay alta pobreza.

Por otro lado GINI y GDP también tienen correlación negativa, sin incluir el cero, es significativa, por ello también puede presuponerse que en países donde hay una desigualdad en la repartición de ingresos y recursos puede haber altos índices de GDP, lo cual confirma casos donde los recursos altos se quedan en una parte de la población, sin ser distribuidos de forma muy uniforme en toda la población.

Modelo de regresión simple

En este caso se usará una variable respuesta que es GDP per cápita, o Producto Interno Bruto por individuo, vs Extrema pobreza, por país, del año 2022.

modelo=lm(GDP.per.capita~Extremapob)
summary(modelo)

## 
## Call:
## lm(formula = GDP.per.capita ~ Extremapob)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -32139 -15778  -5569   9097  85846 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    47165       4258  11.076 6.07e-15 ***
## Extremapob     -4212       1006  -4.188 0.000117 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 24690 on 49 degrees of freedom
## Multiple R-squared:  0.2636, Adjusted R-squared:  0.2486 
## F-statistic: 17.54 on 1 and 49 DF,  p-value: 0.0001168

Anova(modelo,type='III')

## Anova Table (Type III tests)
## 
## Response: GDP.per.capita
##                 Sum Sq Df F value    Pr(>F)    
## (Intercept) 7.4761e+10  1 122.683 6.071e-15 ***
## Extremapob  1.0688e+10  1  17.538 0.0001168 ***
## Residuals   2.9860e+10 49                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El modelo de regresión puede estimarse entre 2 variables, siendo una la respuesta y otra la explicativa, o también, varias explicativas o independientes, siendo este último caso, un modelo de regresión.

Las tablas que se presentan son la de parámetros estimados y la tabla ANOVA o de Análisis de Varianza, con sumas de cuadrados tipo III, o sumas parciales que miden el aporte de cada variable al modelo.

Modelo de regresión múltiple

Se agregarán dos variables al modelo que se estimó previamente.

region=World.region.according.to.OWID
modelorm=lm(GDP.per.capita~Extremapob+GINI+region)
summary(modelorm)

## 
## Call:
## lm(formula = GDP.per.capita ~ Extremapob + GINI + region)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -40856 -13298  -4264   5963  74489 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            19042      24972   0.763 0.449731    
## Extremapob             -2370       1010  -2.345 0.023471 *  
## GINI                   24559      70859   0.347 0.730512    
## regionEurope           30915       8600   3.595 0.000802 ***
## regionNorth America    11027      11980   0.920 0.362238    
## regionSouth America    -2130      12212  -0.174 0.862323    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21900 on 45 degrees of freedom
## Multiple R-squared:  0.4677, Adjusted R-squared:  0.4086 
## F-statistic: 7.908 on 5 and 45 DF,  p-value: 2.063e-05

Anova(modelorm,type='III')

## Anova Table (Type III tests)
## 
## Response: GDP.per.capita
##                 Sum Sq Df F value   Pr(>F)   
## (Intercept) 2.7888e+08  1  0.5814 0.449731   
## Extremapob  2.6386e+09  1  5.5012 0.023471 * 
## GINI        5.7617e+07  1  0.1201 0.730512   
## region      6.9274e+09  3  4.8143 0.005431 **
## Residuals   2.1584e+10 45                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La tabla Anova, con sumas de cuadrados tipo III, muestra que la región es fundamental para explicar el comportamiento del PIB, sin embargo, el indicador GINI no muestra relevancia, ya que su valor p es superior al nivel de significancia o de error, lo que hace que dicha variable no explique el comportamiento del GDP significativamente en 2022.