INTRODUCCIÓN Y OBJETIVOS:

Link a github: https://github.com/LuisEduardoValverdeRamos/PROYECTO-ESTAD-STICA-II.git

Actualmente, existe una tendencia generalizada a que los países productores de petróleo son los Estados más contaminantes. Bajo este enfoque, en esta investigación, se desea estudiar la relación entre las variables “emisión de CO2 (Mt)”, “Producción de petroleo (MBd)” y “Producción de electricidad (GWh)”. Dicho esto, se han planteado dos hipótesis:

  • H1: La Emisión de CO2 depende de la Producción de petróleo.

  • H2: La Emisión de CO2 depende de la producción de petróleo y el consumo de electricidad.

Posterior a este análisis, se adicionará tres variables: percepción de corrupción, los ingresos de los recursos naturales (% del PIB), el acceso a servicios públicos; con el objetivo de establecer un análisis de conglomerados y evaluar la posibilidad de construir variables latentes entre estás variables.

VARIABLES DEPENDIENTES E INDEPENDIENTES

En primer lugar, la variable dependiente es la emisión de CO2 medida en Millones de Toneladas (MT). Para ello, se han utilizado los datos disponibles en Datos Macro. En segundo lugar, la variable independiente es la producción de petroleo medida en Miles de Barriles (MBd). Para ello, se han utilizado los datos disponibles en Datos Macro. En tercer lugar, la variable independiente es la producción de electricidad medidas en GigaWats. Para ello, se han utilizado los datos disponibles en Datos Macro.

Por un lado, el CO2 es uno de los principales gases de efecto invernadero que contribuyen al aumento de la temperatura mundial y fomentan el cambio climático (ONU 2020). En los últimos 800.000 años, las concentraciones de CO2 en la atmósfera nunca habían alcanzado las 300 partes por millón. Pero esa cifra se superó por primera vez en 1950 y no ha parado de incrementarse desde entonces (El país). Dicho, esto, el cambio climático es uno de los principales problemas que enfrentan los Estados actualmente.

En particular, las emisiones de CO2 del sector energético representan cerca del 65% del total de los gases de efecto invernadero en la atmósfera causados por actividades humanas. Algunas estimaciones sugieren que aproximadamente el 40% del total de emisiones de CO2 son atribuidas al sector energético (IPCC, 2019), el cual incluye actividades como la producción de combustible, gas natural y generación de electricidad para consumo industrial y doméstico. Sólo para el 2014, las emisiones mundiales de CO2 se situaron alrededor del 40% dado por el sector electricidad y calor (Pérez 2018).

ANÁLISIS DE REGRESIÓN: TABLA

A continuación, se muestra una trabal que representa la regresión, tomando como variable dependiente a la Emisión de CO2 y como variables independientes a la cantidad a la producción de petróleo y y el consumo de electricidad. El proceso para llegar a este resultado se muestrá en el Anexo 1: Desarrollo y análisis de la regresión.

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                 CO2            
## -----------------------------------------------
## Constant                    10,869.420         
##                            (25,515.960)        
##                                                
## PETROLEO                    -40.241***         
##                              (13.375)          
##                                                
## ELECTRICIDAD                 1.622***          
##                               (0.032)          
##                                                
## -----------------------------------------------
## Observations                    88             
## R2                             0.974           
## Adjusted R2                    0.974           
## Residual Std. Error    218,988.300 (df = 85)   
## F Statistic          1,610.847*** (df = 2; 85) 
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

En primer lugar, al tener un p-value menor a 0.05 (2.2e-16), es posible afirmar que se trata de un modelo valido. En segundo lugar, el consumo de electricidad, al tener un p -value menor a 0.05 (2.2e-16), es posible afirmar que tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es positivo (1.622e+00), podemos afirmar que se trata de una relación directa. En tercer lugar, debido a que el coeficiente es 1.622e+00, podemos afirmar que, el consumo de un Gigavatio por hora, la producción de CO2, aumenta en 1.622e+00 millones de toneladas (MT).

Por otro lado, al tener un p-value menor a 0.05 (0.00345), es posible afirmar que la producción de petroleo tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es negativo (-40.024e+01), podemos afirmar que se trata de una relación inversa. En tercer lugar, debido a que el coeficiente es -40.024e+01, podemos afirmar que, por el aumento de un millon de barriles de petroleo por día, la producción de CO2, disminuye 40.241 millones de toneladas (MT).

Por tanto, según la función, la producción de petroleo no determina un crecimiento en la producción de CO2. En particular esto puede ser explicado a que los Estados productores de Petroleo como Kuwait, Rusia y Arabia Saudita suelen exportar el petroleo a otros Estados; lugares donde recién son consumidos (Datos Macro 2021). En ese sentido, este suele ser usado en otros Estados en aspectos como la industría automotriz o en la propia combustión de los automoviles en los países que importan el petroleo. Por ejemplo, según el informe de la Agencia Europea del Medio Ambiente, el transporte era responsable de cerca de una cuarta parte de las emisiones de CO2 en la Unión Europea en 2019, de las cuales el 71,7%% provino del transporte por carretera, Dicho esto, la producción de petroleo no necesariamente aumenta el nivel de CO2 en un Estado; por el contrario, este suele ser exportado y ser utilizado como combustible en otros Estados, desarrollandose recien el proceso de combustión y emisión de CO2.

Por último, debido a que el valor del R2 ajustado es 0.9737, es posible afirmar que el modelo tiene un porcentaje de explicación del 97.37%. Es decir, tiene un porcentaje de explicación alto.

Dicho esto, se presenta la siguiente ecuación: CO2= 123,968.7 - 4.024e+01PETROLEO + 1.622e+00ELECTRICIDAD

  • CO2= “emisión de CO2 (Mt)”

  • PETROLEO = “Producción de petroleo (MBd)”

  • ELECTRICIDAD = “Consumo de electricidad (GWh)”.

Cabe resaltar que, tal como se muestra en el Anexo 1: Desarrollo y análisis de la regresión, si bien este modelo sirve para analizar el caso actual, no es recomendable extrapolar valores futuros. Por último, y tal como se muestra en el mismo anexo, se denota que hay valores atípicos que pueden estar afectando el modelo; en particular, estos son China, Rusia y Estados. Esto puede ser explicado debido a que, estos Estados tienen un alto indice de producción de petroleo, consumo de energía y producción de CO2.

ANÁLISIS DE CLUSTERS

Gráfico de clusters

Para el análisis de clusters, se tomó en cuenta las tres variables anteriormente trabajadas (Emisión de CO2, Consumo de Electricidad, Producción de Petroleo) y se adicionaron tres variables adicionales (percepción de corrupción, los ingresos de los recursos naturales (% del PIB), el acceso a servicios públicos).Tal como se puede observar, en el Anexo 2: Análisis de Clusters, se evaluó el número de clausters y se optó por trabajar en base a tres grupos. En adición a ello, se evaluó el método para poder conglomerar los casos (Ver Anexo: Análisis de Clusters) y, debido a que el coeficiente de amplitud fue mayor en comparación a los otros métodos (agnes y pan), se optó por usar el método DIANA para el proceso de conglomerados (Ver Anexo: Análisis de Clusters). Los casos clausterizados mediante el método DIANA se muestran a continuación en el gráfico de Escalamiento multidimensional :

Tal como se puede observar en el gráfico, los casos fueron divididos en base a tres grupos. Si bien no hay una tendencia muy clara, es posible denotar dos tres aspectos relevantes. En el primer grupo (color rosa), se encuentran paises como Australia, Noruega, Chile, Ucrania, entre otros. Si bien estos Estados no se encuentran en la misma región greográfica, son productores de petroleo en un porcentaje no tal elevado. Asimismo, suelen tener cierto acceso a servicios garantizado. En el segundo grupo (color verde), se encuentran paises como Venezuela, Iran, Kuwait, Iraq, Brasil, entre otros. Cabe precisar que, si bien estos Estados tampoco pertenecen a una región en específico, tienen en común que son de los Estados con mayor producción de petroleo y emisión de CO2. Por último, en el tercer grup (color celeste), Se encuentran Estado Estados Unidos y China; estos Estados se encuentran muy apartados geográficamente, sin embargo, son los Estados con mayores industria en el mundo, por tanto, con mayor emisión de CO2 y consumo de energia.

Cabe precisar que, según este método, hay tres casos mal clausterizados. Estos son Estados Unidos, Kuwait y Arabia Saudita. Esto pudo haber ocurrido debido a que la producción de petróleo y el consumo de energía en estos Estados es muy superior en comparación a los otros. A continuación se muestran los datos mal clausterizados.

##              V1
## 1        Kuwait
## 2  Saudi Arabia
## 3 United States

ANÁLISIS FACTORIAL

Por último, se procedió a realizar un análisis factorial exploratorio respecto al nivel de correlación de estás seis variables; para posteriormente, evaluar la existencia de variables latentes. El procedimiento se expone en el “Anexo3: Análisis Factorial” y los resultados se muestran a continuación.

## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully

Según el análisis exploratorio de factorización, las variables pueden dividirse en dos variables latentes (MR1 y MR2).

En primer lugar, las tres variables pertenecientes a la primera variable latente son consumo de electricidad, producción de CO2 y producción de petroleo. Respecto a esta variable latente, el consumo de electricidad tiene un mayor nivel de aporte 1.002, seguido de la producción de CO2 con 0.976, por último, la produccion de petroleo tiene un coeficiente de 0.46. Cabe precisar que, estas variables están relacionadas en términos de producción de energía.

En segundo lugar, las tres variables pertenecientes a la segunda variable latente son la percepción de corrupción, renta como porcentaje de PIB y; el acceso a servicios. En particular, la percepción de corrupción tiene una indice de 0.998, lo cual indica una fuerte aporte con la variable latente; seguido del acceso a servicios cuyo coeficiente es de 0.832; por último, la variable renta tiene un coeficiente bajo 0.380, lo cual indica que no existe un fuerte respecto a la variable latente. Cabe precisar que, están relacionadas en términos de percepción respecto a las actividades que realiza el Estado.

CONCLUSIONES:

  1. Se acepta la hipótesis 2, es decir, la Emisión de CO2 depende de la producción de petróleo y el consumo de electricidad. En particular, el consumo de un Gigavatio por hora aumenta la producción de CO2 en 1.622e+00 millones de toneladas (MT). Asimismo, por el aumento de un millon de barriles de petroleo por día, la producción de CO2, disminuye 40.241 millones de toneladas (MT). En particular, esto puede ser explicado debido a que los Estados productores de petroleo suelen exportarlo en forma de combustible a otros Estados, en los que tras su uso, recién se convierte en CO2.

  2. Los casos fueron divididos en base a tres grupos según el metodo divisivo, el cuál fue el más adeucado. si bien no hay una tendencia clara respecto al agrupamiento de los casos, estos suelen estar asociados en base a la producción y consumo de energía. Cabe precisar que, hubo tres casos que no pudieron ser clausterizados de manera adecuado según este método. Estos son Estados Unidos, Kuwait y Arabia Saudita, Estados en la que la producción de petróleo y el consumo de energía es muy superior en comparación a los otros.

  3. Según el análisis de factorización, es posible sostener que las variables del estudio pueden agruparse en base a dos variables latentes (conceptos). Por un lado, MR1 agrupa al consumo de electricidad, producción de CO2 y producción de petroleo; es decir, estás variables están relacionadas en términos de producción de energía. Por otro lado, MR2 agrupa a la percepción de corrupción, renta como porcentaje de PIB, y el acceso a servicios; es decir, están relacionadas en términos de percepción respecto a las actividades que realiza el Estado.

  4. Esta investigación tuvo la limitación de que algunos casos no tenían datos actualizados respecto a la emisión de CO2, consumo de energia y producción de petróleo. Por tanto, para próximos estudios y con el obejtivo de tener resultados más robustos, Se recomienda tomar en cuenta la actualización de la data con el objetivo de trabajar con la mayor cantidad de casos posibles.

ANEXO 1: DESARROLLO DE REGRESIÓN Y DIAGNÓSTICOS

PRUEBA DE HIPÓTESIS:

  1. Hipótesis 1: La producción de CO2 de un Estado es afectada por la producción de petroleo.
## 
## Call:
## lm(formula = CO2 ~ PETROLEO, data = data1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2285642  -168538  -112122   -25651 10419232 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 123968.75  141872.98   0.874    0.385    
## PETROLEO       292.42      65.14   4.489 2.21e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1222000 on 86 degrees of freedom
## Multiple R-squared:  0.1898, Adjusted R-squared:  0.1804 
## F-statistic: 20.15 on 1 and 86 DF,  p-value: 2.209e-05

A continuación, se representa el modelo 1:

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                 CO2            
## -----------------------------------------------
## Constant                    123,968.700        
##                            (141,873.000)       
##                                                
## PETROLEO                    292.418***         
##                              (65.144)          
##                                                
## -----------------------------------------------
## Observations                    88             
## R2                             0.190           
## Adjusted R2                    0.180           
## Residual Std. Error   1,222,249.000 (df = 86)  
## F Statistic           20.149*** (df = 1; 86)   
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

Interpretación: En primer lugar, al tener un p-value menor a 0.05 (2.21e-05), es posible afirmar que la producción de petroleo tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es positivo (+292.418), podemos afirmar que se trata de una relación directa. En tercer lugar, debido a que el coeficiente es 292.418, podemos afirmar que, por el aumento de un millon de barriles por día, la producción de CO2, aumenta en 292.418 millones de toneladas (MT). Por último, debido a que el valor del R2 es 0.19, es posible afirmar que el modelo tiene un porcentaje de explicación del 19%.

Dicho esto, se presenta la siguiente ecuación: CO2= 123,968.7+ 292.418*PETROLEO

  • CO2= “emisión de CO2 (Mt)”

  • PETROLEO = “Producción de petroleo (MBd)”

  1. Hipótesis 2: La producción de CO2 de un Estado es afectada por el Consumo de electricidad y la producción de petroleo.
modelo2<-lm(CO2~PETROLEO + ELECTRICIDAD, data=data1) 
summary(modelo2)
## 
## Call:
## lm(formula = CO2 ~ PETROLEO + ELECTRICIDAD, data = data1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1255981   -27027    -8866    18885   673296 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.087e+04  2.552e+04   0.426  0.67120    
## PETROLEO     -4.024e+01  1.338e+01  -3.009  0.00345 ** 
## ELECTRICIDAD  1.622e+00  3.185e-02  50.932  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 219000 on 85 degrees of freedom
## Multiple R-squared:  0.9743, Adjusted R-squared:  0.9737 
## F-statistic:  1611 on 2 and 85 DF,  p-value: < 2.2e-16

A continuación se presenta el modelo 2

library(stargazer)
stargazer(modelo2,type = "text",intercept.bottom = FALSE)
## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                 CO2            
## -----------------------------------------------
## Constant                    10,869.420         
##                            (25,515.960)        
##                                                
## PETROLEO                    -40.241***         
##                              (13.375)          
##                                                
## ELECTRICIDAD                 1.622***          
##                               (0.032)          
##                                                
## -----------------------------------------------
## Observations                    88             
## R2                             0.974           
## Adjusted R2                    0.974           
## Residual Std. Error    218,988.300 (df = 85)   
## F Statistic          1,610.847*** (df = 2; 85) 
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

Interpretación: En primer lugar, al tener un p-value menor a 0.05 (2.2e-16), es posible afirmar que se trata de un modelo valido. En segundo lugar, el consumo de electricidad, al tener un p -value menor a 0.05 (2.2e-16), es posible afirmar que el tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es positivo (1.622e+00), podemos afirmar que se trata de una relación directa. En tercer lugar, debido a que el coeficiente es 1.622e+00, podemos afirmar que, el consumo de un Gigavatio por hora, la producción de CO2, aumenta en 1.622e+00 millones de toneladas (MT).

Por otro lado, al tener un p-value menor a 0.05 (0.00345), es posible afirmar que la producción de petroleo tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es negativo (-40.024e+01), podemos afirmar que se trata de una relación inversa. En tercer lugar, debido a que el coeficiente es -40.024e+01, podemos afirmar que, por el aumento de un millon de barriles de petroleo por día, la producción de CO2, disminuye 40.241 millones de toneladas (MT).

Por último, debido a que el valor del R2 ajustado es 0.9737, es posible afirmar que el modelo tiene un porcentaje de explicación del 97.37%.

Dicho esto, se presenta la siguiente ecuación: CO2= 123,968.7 - 4.024e+01PETROLEO + 1.622e+00ELECTRICIDAD

  • CO2= “emisión de CO2 (Mt)”

  • PETROLEO = “Producción de petroleo (MBd)”

  • ELECTRICIDAD = “Consumo de electricidad (GWh)”.

ANÁLISIS DE VARIANZA

A continuación, se analiza si hay un cambio significativo entre el paso del modelo 1 al 2.

H0: Ambos modelos no difieren. H1: Ambos modelos si difieren.

## 
## Tabla de Análisis de Varianza
## =============================================================================
##   Res.Df           RSS           Df        Sum of Sq            F     Pr(> F)
## -----------------------------------------------------------------------------
## 1   86   128,474,731,232,458.000                                             
## 2   85    4,076,249,329,420.000  1  124,398,481,903,038.000 2,594.020    0   
## -----------------------------------------------------------------------------

Debido a que al P-value es menor a 0.05 (0), se rechaza la hipótesis nula y es posible afirmar que ambos modelos si difieren (si se ha reducido el error al pasar de un modelo a otro). Dicho esto, el modelo 2 si reduce el error al incluir una variable más.

DIAGNÓSTICO DE REGRESIÓN:

A continuación, se hicieron cinco análisis respecto a la regresión expresada en el modelo 2: Linealiad, Homocedasticidad, Normalidad de los Residuos, No multicolinealidad y valores influyentes.

  1. LINEALIDAD

Debido a que la linea roja no es cercana a la linea horizontal, podemos afirmar que la regresión no es lineal. Con esto, se resuelve que, por un lado, el error de predicción no esta bien definido; por otro lado, que esta regresión no sirve como un predictor. Dicho esto, si bien este modelo sirve para analizar el caso actual, no es recomendable extrapolar valores futuros con este modelo. Por último, se denota que hay valores atípicos que pueden estar afectando el modelo.

  1. HOMOCEDASTICIDAD

La tendencia del gráfico es incremental; por tanto, Según el gráfico, cuando los valores predecidos son mas pequeños, hay mucha dispersión, en cambio, cuando los valores predecidos son más grandes, hay menos dispersión. Dicho esto, el error no se comporta igual en todos los valores. Debido a ello, podemos afirmar que como hay mucho error al principio y poco error al final, se trata de un caso de heteroceasticidad (el error no es constante en toda la población).

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 56.756, df = 2, p-value = 4.739e-13

H0: Hay homoceasticidad. H1: No hay homoceasticidad.

La probabilidad de homocedasticidad es muy baja (p-value menor a 0.05), de ahi que se rechaza que el modelo muestre homocedasticidad. Por tanto, asumimos que se trata de una relación de heteroceasticidad (los errores no son constantes a lo largo de toda la población)

  1. NORMALIDAD DE LOS RESIDUOS

Debido a las fluctuaciones en los valores de la linea horizontal, es posible afirmar que los residuos no se distribuyen de manera normal. Esto debido a que hay heteroceasticidad. Es decir, la variable dependiente no se comportará siempre así, en todos los escenarios futuros. Para tener mayor certeza de eso, aplicaremos el tes de shapiro.

3.1 Test de Shapiro a los residuos

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo2$residuals
## W = 0.67865, p-value = 1.398e-12

H0: Los datos se distribuyen de manera normal H1: Los datos no se distribuyen de manera normal.

Debido a que el p-value es menor a 0.05 (1.398e-12), rechazamos la hipótesis nula y podemos afirmar que los datos no se distribuyen de manera normal.

  1. NO MULTICOLINEALIDAD
##     PETROLEO ELECTRICIDAD 
##     1.313149     1.313149

Como ninguno de los valores de las variables es mayor a 5, podemos asumir que no hay multicolinealidad entre las variables. Por tanto, no es necesario eliminar ninguna de ellas.

  1. VALORES INFLUYENTES

Si hay casos que afectan al modelo 2. A continuación, averiguaremos, cuales son:

##   dfb.1_ dfb.PETR dfb.ELEC dffit cov.r cook.d   hat
## 2  FALSE    FALSE    FALSE FALSE FALSE  FALSE FALSE
## 3  FALSE    FALSE    FALSE FALSE  TRUE  FALSE FALSE
## 4  FALSE    FALSE    FALSE FALSE FALSE  FALSE FALSE
## 6  FALSE    FALSE    FALSE FALSE FALSE  FALSE FALSE
## 8  FALSE    FALSE    FALSE FALSE FALSE  FALSE FALSE
## 9  FALSE    FALSE    FALSE FALSE FALSE  FALSE FALSE
##     dfb.1_ dfb.PETR dfb.ELEC dffit cov.r cook.d  hat
## 35   FALSE     TRUE     TRUE  TRUE  TRUE   TRUE TRUE
## 135  FALSE     TRUE    FALSE  TRUE FALSE   TRUE TRUE
## 172   TRUE     TRUE     TRUE  TRUE  TRUE   TRUE TRUE

Tal como se puede apreciar, hay tres valores que afectan la regresión. Estos casos son los ubicados en la posición 35 (China), 135 (Rusia) y 172 (Estados Unidos). En particular, esto se puede deber a que estos casos tienen valores muy altos referidos a la emisión de CO2, consumo de electricidad y producción de petroleo, en comparación a los otros Estados del estudio. Por tanto, y tal se ha demostrado, estos casos afectan la regresión.

ANEXO 2: ANÁLISIS DE CLUSTERS

  1. Proceso de normalización de las variables

A continuación, se presenta gráfico de bigotes con los valores normalizados (0 a 1).

Se presentan los estadísticos descríptivos para cada variable

##     PAISES               CO2              PETROLEO          ELECTRICIDAD     
##  Length:87          Min.   :-0.20225   Min.   :-0.427939   Min.   :-0.21518  
##  Class :character   1st Qu.:-0.18286   1st Qu.:-0.420730   1st Qu.:-0.19516  
##  Mode  :character   Median :-0.12345   Median :-0.391648   Median :-0.13860  
##                     Mean   : 0.19314   Mean   : 0.004919   Mean   : 0.19816  
##                     3rd Qu.: 0.07672   3rd Qu.:-0.099828   3rd Qu.: 0.03318  
##                     Max.   :11.94189   Max.   : 5.193188   Max.   :11.18512  
##    CORRUPCIÓN            RENTA           SERVICIOS      
##  Min.   :-1.635618   Min.   :-0.7651   Min.   :-1.7673  
##  1st Qu.:-0.682127   1st Qu.:-0.6545   1st Qu.:-0.8481  
##  Median :-0.205381   Median :-0.1875   Median :-0.3686  
##  Mean   :-0.008717   Mean   : 0.2561   Mean   :-0.1206  
##  3rd Qu.: 0.536222   3rd Qu.: 0.9984   3rd Qu.: 0.6704  
##  Max.   : 2.390232   Max.   : 3.8312   Max.   : 1.7095

Para una mejor visualización se presenta la correlación entre cada variable.

##                      CO2    PETROLEO ELECTRICIDAD  CORRUPCIÓN      RENTA
## CO2           1.00000000  0.43495742    0.9856634  0.07329358 -0.1336692
## PETROLEO      0.43495742  1.00000000    0.4876484  0.09562538  0.1186981
## ELECTRICIDAD  0.98566338  0.48764840    1.0000000  0.12640127 -0.1655829
## CORRUPCIÓN    0.07329358  0.09562538    0.1264013  1.00000000 -0.3875954
## RENTA        -0.13366925  0.11869806   -0.1655829 -0.38759541  1.0000000
## SERVICIOS    -0.07941679 -0.12873693   -0.1210235 -0.83052585  0.3204170
##                SERVICIOS
## CO2          -0.07941679
## PETROLEO     -0.12873693
## ELECTRICIDAD -0.12102346
## CORRUPCIÓN   -0.83052585
## RENTA         0.32041696
## SERVICIOS     1.00000000

Tal como se puede apreciar, la variable renta y servicios tienen correlaciones negativas, por tanto es necesario el proceso de cambio de monotonia.

Ahora, veamos

cor(allData[,-1])
##                     CO2    PETROLEO ELECTRICIDAD CORRUPCIÓN      RENTA
## CO2          1.00000000  0.43495742    0.9856634 0.07329358  0.1336692
## PETROLEO     0.43495742  1.00000000    0.4876484 0.09562538 -0.1186981
## ELECTRICIDAD 0.98566338  0.48764840    1.0000000 0.12640127  0.1655829
## CORRUPCIÓN   0.07329358  0.09562538    0.1264013 1.00000000  0.3875954
## RENTA        0.13366925 -0.11869806    0.1655829 0.38759541  1.0000000
## SERVICIOS    0.07941679  0.12873693    0.1210235 0.83052585  0.3204170
##               SERVICIOS
## CO2          0.07941679
## PETROLEO     0.12873693
## ELECTRICIDAD 0.12102346
## CORRUPCIÓN   0.83052585
## RENTA        0.32041696
## SERVICIOS    1.00000000

Preparemos la data para la clusterización

Calculo de la matriz de distancias:

  1. Proponer cantidad de clusters: Las siguientes gráficas proponen la cantidad de clusters a solicitar (usando el estadístico gap):
  1. Para PAM

  2. Para Agnes

c)Para DIANA

3. Evaluemos resultados

Pidamos tres grupos:

Ahora veamos a cuál le fue mejor:

  1. Para PAN
##   cluster size ave.sil.width
## 1       1   39          0.15
## 2       2   23          0.36
## 3       3   25          0.39

  1. Para Agnes
fviz_silhouette(res.agnes)
##   cluster size ave.sil.width
## 1       1   37          0.48
## 2       2   46          0.27
## 3       3    4          0.00

  1. Para DIANA
##   cluster size ave.sil.width
## 1       1   40          0.47
## 2       2   45          0.28
## 3       3    2          0.07

Debido a que bajo la prueba DIANA, el coeficiente de amplitud (0.37) es superior en comparación a las otras dos pruebas, se puede concluir que estos datos fueron mejor clusterizados usando el metodo jerarquico divisivo.

PIDAMOS 6 GRUPOS

Ahora veamos a cuál le fue mejor:

  1. Para Pan con 6 grupos
##   cluster size ave.sil.width
## 1       1   23          0.55
## 2       2   14          0.14
## 3       3   24          0.25
## 4       4   16          0.19
## 5       5    9          0.40
## 6       6    1          0.00

  1. Para agnes con 6 grupos
fviz_silhouette(res.agnes1)
##   cluster size ave.sil.width
## 1       1   25          0.54
## 2       2   14          0.23
## 3       3   32          0.19
## 4       4   12          0.46
## 5       5    1          0.00
## 6       6    3          0.12

  1. Para DIANA con 6 grupos
##   cluster size ave.sil.width
## 1       1   40          0.39
## 2       2   19          0.20
## 3       3   24          0.43
## 4       4    1          0.00
## 5       5    2          0.55
## 6       6    1          0.00

Dado que el escenario de 3 grupos, es mejor en terminos de amplitud y de menos casos mal clusterizados, se eligio dividir los casos en base a 3 grupos. Además de eso, se utilizó DIANA.

Encontremos los casos MAL clusterizados (silueta negativa):

##       poorPAM         poorAGNES     poorDIANA
## 1     Bolivia Brunei Darussalam        Kuwait
## 2      Brazil         Indonesia  Saudi Arabia
## 3        Cuba              Oman United States
## 4       Gabon             Qatar          <NA>
## 5       Ghana      Saudi Arabia          <NA>
## 6       India              <NA>          <NA>
## 7      Mexico              <NA>          <NA>
## 8 Timor-Leste              <NA>          <NA>
  1. Graficando

Por lo anterior sabemos que usaremos la técnica diana. Verifiquemos las etiquetas:

##   diana         CO2    PETROLEO ELECTRICIDAD CORRUPCIÓN      RENTA  SERVICIOS
## 1     1 -0.01761241 -0.23564626   0.02795811  0.7401635  0.3386439  0.9290743
## 2     2  0.02338899  0.07012605  -0.02715411 -0.7021384 -0.8248930 -0.6233705
## 3     3  8.22749549  3.34905847   8.67190202  0.6156799  0.6483378  0.6882983
##        pam    agnes     pam1   agnes1   diana1
## 1 2.200000 1.075000 2.200000 1.975000 1.000000
## 2 1.511111 2.044444 3.111111 2.888889 2.666667
## 3 2.000000 3.000000 5.000000 5.500000 5.000000

A continuación, se presenta un gráfico con escalamiento multidimensional

Se dividio en tres grupos.

ANEXO 3: ANÁLISIS FACTORIAL

Proceso del Analisis Factorial Exploratorio (EFA). El análisis factorial exploratorio requiere que hagamos algunas observaciones previas.

Calculemos matriz de correlación:

Explorar correlaciones: Sin evaluar significancia:

Se observan dos bloques de variables correlacionads. Por tanto, hay posibilidad de que se generen dos conceptos.

Verificar si datos permiten factorizar:

## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = corMatrix)
## Overall MSA =  0.53
## MSA for each item = 
##          CO2     PETROLEO ELECTRICIDAD   CORRUPCIÓN        RENTA    SERVICIOS 
##         0.51         0.53         0.51         0.54         0.61         0.56

Para verificar, si la matriz de correlaciones es adecuada Aqui hay dos pruebas:

Hnula: La matriz de correlacion es una matriz identidad

## [1] FALSE

Hnula: La matriz de correlacion es una matriz singular.

## [1] FALSE

Es posible factorizar estas variables.

Ahora, es necesario determinar en cuantos factores o variables latentes podríamos redimensionar la data:

## Parallel analysis suggests that the number of factors =  2  and the number of components =  NA

Se sugiere 2, lo esperado, sigamos.

Redimensionar a numero menor de factores Resultado inicial:

## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully
## 
## Loadings:
##              MR1   MR2  
## CO2          0.976      
## PETROLEO     0.457      
## ELECTRICIDAD 1.002      
## CORRUPCIÓN         0.998
## RENTA              0.380
## SERVICIOS          0.832
## 
##                  MR1   MR2
## SS loadings    2.177 1.845
## Proportion Var 0.363 0.307
## Cumulative Var 0.363 0.670

Resultado mejorado (solo apropiado si hay más de un factor):

## 
## Loadings:
##              MR1   MR2  
## CO2          0.976      
## PETROLEO                
## ELECTRICIDAD 1.002      
## CORRUPCIÓN         0.998
## RENTA                   
## SERVICIOS          0.832
## 
##                  MR1   MR2
## SS loadings    2.177 1.845
## Proportion Var 0.363 0.307
## Cumulative Var 0.363 0.670

Cuando logramos que cada variable se vaya a un factor, tenemos una estructura simple.

Resultado visual:

Basado en el análisis factorial, es posible concluir que las variables se pueden agrupar en base a dos conceptos.

En primer lugar, las tres variables pertenecientes a la primera variable latente son consumo de electricidad, producción de CO2 y producción de petroleo. Respecto a esta variable latente, el consumo de electricidad tiene un mayor nivel de aporte 1.002, seguido de la producción de CO2 con 0.976, por último, la produccion de petroleo tiene un coeficiente de 0.46. Cabe precisar que, estas variables están relacionadas en términos de producción de energía.

En segundo lugar, las tres variables pertenecientes a la segunda variable latente son la percepción de corrupción, renta como porcentaje de PIB y; el acceso a servicios. En particular, la percepción de corrupción tiene una indice de 0.998, lo cual indica una fuerte aporte con la variable latente; seguido del acceso a servicios cuyo coeficiente es de 0.832; por último, la variable renta tiene un coeficiente bajo 0.380, lo cual indica que no existe un fuerte respecto a la variable latente. Cabe precisar que, están relacionadas en términos de percepción respecto a las actividades que realiza el Estado.