Link a github: https://github.com/LuisEduardoValverdeRamos/PROYECTO-ESTAD-STICA-II.git
Actualmente, existe una tendencia generalizada a que los países productores de petróleo son los Estados más contaminantes. Bajo este enfoque, en esta investigación, se desea estudiar la relación entre las variables “emisión de CO2 (Mt)”, “Producción de petroleo (MBd)” y “Producción de electricidad (GWh)”. Dicho esto, se han planteado dos hipótesis:
H1: La Emisión de CO2 depende de la Producción de petróleo.
H2: La Emisión de CO2 depende de la producción de petróleo y el consumo de electricidad.
Posterior a este análisis, se adicionará tres variables: percepción de corrupción, los ingresos de los recursos naturales (% del PIB), el acceso a servicios públicos; con el objetivo de establecer un análisis de conglomerados y evaluar la posibilidad de construir variables latentes entre estás variables.
En primer lugar, la variable dependiente es la emisión de CO2 medida en Millones de Toneladas (MT). Para ello, se han utilizado los datos disponibles en Datos Macro. En segundo lugar, la variable independiente es la producción de petroleo medida en Miles de Barriles (MBd). Para ello, se han utilizado los datos disponibles en Datos Macro. En tercer lugar, la variable independiente es la producción de electricidad medidas en GigaWats. Para ello, se han utilizado los datos disponibles en Datos Macro.
Por un lado, el CO2 es uno de los principales gases de efecto invernadero que contribuyen al aumento de la temperatura mundial y fomentan el cambio climático (ONU 2020). En los últimos 800.000 años, las concentraciones de CO2 en la atmósfera nunca habían alcanzado las 300 partes por millón. Pero esa cifra se superó por primera vez en 1950 y no ha parado de incrementarse desde entonces (El país). Dicho, esto, el cambio climático es uno de los principales problemas que enfrentan los Estados actualmente.
En particular, las emisiones de CO2 del sector energético representan cerca del 65% del total de los gases de efecto invernadero en la atmósfera causados por actividades humanas. Algunas estimaciones sugieren que aproximadamente el 40% del total de emisiones de CO2 son atribuidas al sector energético (IPCC, 2019), el cual incluye actividades como la producción de combustible, gas natural y generación de electricidad para consumo industrial y doméstico. Sólo para el 2014, las emisiones mundiales de CO2 se situaron alrededor del 40% dado por el sector electricidad y calor (Pérez 2018).
A continuación, se muestra una trabal que representa la regresión, tomando como variable dependiente a la Emisión de CO2 y como variables independientes a la cantidad a la producción de petróleo y y el consumo de electricidad. El proceso para llegar a este resultado se muestrá en el Anexo 1: Desarrollo y análisis de la regresión.
##
## ===============================================
## Dependent variable:
## ---------------------------
## CO2
## -----------------------------------------------
## Constant 10,869.420
## (25,515.960)
##
## PETROLEO -40.241***
## (13.375)
##
## ELECTRICIDAD 1.622***
## (0.032)
##
## -----------------------------------------------
## Observations 88
## R2 0.974
## Adjusted R2 0.974
## Residual Std. Error 218,988.300 (df = 85)
## F Statistic 1,610.847*** (df = 2; 85)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
En primer lugar, al tener un p-value menor a 0.05 (2.2e-16), es posible afirmar que se trata de un modelo valido. En segundo lugar, el consumo de electricidad, al tener un p -value menor a 0.05 (2.2e-16), es posible afirmar que tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es positivo (1.622e+00), podemos afirmar que se trata de una relación directa. En tercer lugar, debido a que el coeficiente es 1.622e+00, podemos afirmar que, el consumo de un Gigavatio por hora, la producción de CO2, aumenta en 1.622e+00 millones de toneladas (MT).
Por otro lado, al tener un p-value menor a 0.05 (0.00345), es posible afirmar que la producción de petroleo tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es negativo (-40.024e+01), podemos afirmar que se trata de una relación inversa. En tercer lugar, debido a que el coeficiente es -40.024e+01, podemos afirmar que, por el aumento de un millon de barriles de petroleo por día, la producción de CO2, disminuye 40.241 millones de toneladas (MT).
Por tanto, según la función, la producción de petroleo no determina un crecimiento en la producción de CO2. En particular esto puede ser explicado a que los Estados productores de Petroleo como Kuwait, Rusia y Arabia Saudita suelen exportar el petroleo a otros Estados; lugares donde recién son consumidos (Datos Macro 2021). En ese sentido, este suele ser usado en otros Estados en aspectos como la industría automotriz o en la propia combustión de los automoviles en los países que importan el petroleo. Por ejemplo, según el informe de la Agencia Europea del Medio Ambiente, el transporte era responsable de cerca de una cuarta parte de las emisiones de CO2 en la Unión Europea en 2019, de las cuales el 71,7%% provino del transporte por carretera, Dicho esto, la producción de petroleo no necesariamente aumenta el nivel de CO2 en un Estado; por el contrario, este suele ser exportado y ser utilizado como combustible en otros Estados, desarrollandose recien el proceso de combustión y emisión de CO2.
Por último, debido a que el valor del R2 ajustado es 0.9737, es posible afirmar que el modelo tiene un porcentaje de explicación del 97.37%. Es decir, tiene un porcentaje de explicación alto.
Dicho esto, se presenta la siguiente ecuación: CO2= 123,968.7 - 4.024e+01PETROLEO + 1.622e+00ELECTRICIDAD
CO2= “emisión de CO2 (Mt)”
PETROLEO = “Producción de petroleo (MBd)”
ELECTRICIDAD = “Consumo de electricidad (GWh)”.
Cabe resaltar que, tal como se muestra en el Anexo 1: Desarrollo y análisis de la regresión, si bien este modelo sirve para analizar el caso actual, no es recomendable extrapolar valores futuros. Por último, y tal como se muestra en el mismo anexo, se denota que hay valores atípicos que pueden estar afectando el modelo; en particular, estos son China, Rusia y Estados. Esto puede ser explicado debido a que, estos Estados tienen un alto indice de producción de petroleo, consumo de energía y producción de CO2.
Para el análisis de clusters, se tomó en cuenta las tres variables anteriormente trabajadas (Emisión de CO2, Consumo de Electricidad, Producción de Petroleo) y se adicionaron tres variables adicionales (percepción de corrupción, los ingresos de los recursos naturales (% del PIB), el acceso a servicios públicos).Tal como se puede observar, en el Anexo 2: Análisis de Clusters, se evaluó el número de clausters y se optó por trabajar en base a tres grupos. En adición a ello, se evaluó el método para poder conglomerar los casos (Ver Anexo: Análisis de Clusters) y, debido a que el coeficiente de amplitud fue mayor en comparación a los otros métodos (agnes y pan), se optó por usar el método DIANA para el proceso de conglomerados (Ver Anexo: Análisis de Clusters). Los casos clausterizados mediante el método DIANA se muestran a continuación en el gráfico de Escalamiento multidimensional :
Tal como se puede observar en el gráfico, los casos fueron divididos en base a tres grupos. Si bien no hay una tendencia muy clara, es posible denotar dos tres aspectos relevantes. En el primer grupo (color rosa), se encuentran paises como Australia, Noruega, Chile, Ucrania, entre otros. Si bien estos Estados no se encuentran en la misma región greográfica, son productores de petroleo en un porcentaje no tal elevado. Asimismo, suelen tener cierto acceso a servicios garantizado. En el segundo grupo (color verde), se encuentran paises como Venezuela, Iran, Kuwait, Iraq, Brasil, entre otros. Cabe precisar que, si bien estos Estados tampoco pertenecen a una región en específico, tienen en común que son de los Estados con mayor producción de petroleo y emisión de CO2. Por último, en el tercer grup (color celeste), Se encuentran Estado Estados Unidos y China; estos Estados se encuentran muy apartados geográficamente, sin embargo, son los Estados con mayores industria en el mundo, por tanto, con mayor emisión de CO2 y consumo de energia.
Cabe precisar que, según este método, hay tres casos mal clausterizados. Estos son Estados Unidos, Kuwait y Arabia Saudita. Esto pudo haber ocurrido debido a que la producción de petróleo y el consumo de energía en estos Estados es muy superior en comparación a los otros. A continuación se muestran los datos mal clausterizados.
## V1
## 1 Kuwait
## 2 Saudi Arabia
## 3 United States
Por último, se procedió a realizar un análisis factorial exploratorio respecto al nivel de correlación de estás seis variables; para posteriormente, evaluar la existencia de variables latentes. El procedimiento se expone en el “Anexo3: Análisis Factorial” y los resultados se muestran a continuación.
## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully
Según el análisis exploratorio de factorización, las variables pueden dividirse en dos variables latentes (MR1 y MR2).
En primer lugar, las tres variables pertenecientes a la primera variable latente son consumo de electricidad, producción de CO2 y producción de petroleo. Respecto a esta variable latente, el consumo de electricidad tiene un mayor nivel de aporte 1.002, seguido de la producción de CO2 con 0.976, por último, la produccion de petroleo tiene un coeficiente de 0.46. Cabe precisar que, estas variables están relacionadas en términos de producción de energía.
En segundo lugar, las tres variables pertenecientes a la segunda variable latente son la percepción de corrupción, renta como porcentaje de PIB y; el acceso a servicios. En particular, la percepción de corrupción tiene una indice de 0.998, lo cual indica una fuerte aporte con la variable latente; seguido del acceso a servicios cuyo coeficiente es de 0.832; por último, la variable renta tiene un coeficiente bajo 0.380, lo cual indica que no existe un fuerte respecto a la variable latente. Cabe precisar que, están relacionadas en términos de percepción respecto a las actividades que realiza el Estado.
Se acepta la hipótesis 2, es decir, la Emisión de CO2 depende de la producción de petróleo y el consumo de electricidad. En particular, el consumo de un Gigavatio por hora aumenta la producción de CO2 en 1.622e+00 millones de toneladas (MT). Asimismo, por el aumento de un millon de barriles de petroleo por día, la producción de CO2, disminuye 40.241 millones de toneladas (MT). En particular, esto puede ser explicado debido a que los Estados productores de petroleo suelen exportarlo en forma de combustible a otros Estados, en los que tras su uso, recién se convierte en CO2.
Los casos fueron divididos en base a tres grupos según el metodo divisivo, el cuál fue el más adeucado. si bien no hay una tendencia clara respecto al agrupamiento de los casos, estos suelen estar asociados en base a la producción y consumo de energía. Cabe precisar que, hubo tres casos que no pudieron ser clausterizados de manera adecuado según este método. Estos son Estados Unidos, Kuwait y Arabia Saudita, Estados en la que la producción de petróleo y el consumo de energía es muy superior en comparación a los otros.
Según el análisis de factorización, es posible sostener que las variables del estudio pueden agruparse en base a dos variables latentes (conceptos). Por un lado, MR1 agrupa al consumo de electricidad, producción de CO2 y producción de petroleo; es decir, estás variables están relacionadas en términos de producción de energía. Por otro lado, MR2 agrupa a la percepción de corrupción, renta como porcentaje de PIB, y el acceso a servicios; es decir, están relacionadas en términos de percepción respecto a las actividades que realiza el Estado.
Esta investigación tuvo la limitación de que algunos casos no tenían datos actualizados respecto a la emisión de CO2, consumo de energia y producción de petróleo. Por tanto, para próximos estudios y con el obejtivo de tener resultados más robustos, Se recomienda tomar en cuenta la actualización de la data con el objetivo de trabajar con la mayor cantidad de casos posibles.
##
## Call:
## lm(formula = CO2 ~ PETROLEO, data = data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2285642 -168538 -112122 -25651 10419232
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 123968.75 141872.98 0.874 0.385
## PETROLEO 292.42 65.14 4.489 2.21e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1222000 on 86 degrees of freedom
## Multiple R-squared: 0.1898, Adjusted R-squared: 0.1804
## F-statistic: 20.15 on 1 and 86 DF, p-value: 2.209e-05
A continuación, se representa el modelo 1:
##
## ===============================================
## Dependent variable:
## ---------------------------
## CO2
## -----------------------------------------------
## Constant 123,968.700
## (141,873.000)
##
## PETROLEO 292.418***
## (65.144)
##
## -----------------------------------------------
## Observations 88
## R2 0.190
## Adjusted R2 0.180
## Residual Std. Error 1,222,249.000 (df = 86)
## F Statistic 20.149*** (df = 1; 86)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Interpretación: En primer lugar, al tener un p-value menor a 0.05 (2.21e-05), es posible afirmar que la producción de petroleo tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es positivo (+292.418), podemos afirmar que se trata de una relación directa. En tercer lugar, debido a que el coeficiente es 292.418, podemos afirmar que, por el aumento de un millon de barriles por día, la producción de CO2, aumenta en 292.418 millones de toneladas (MT). Por último, debido a que el valor del R2 es 0.19, es posible afirmar que el modelo tiene un porcentaje de explicación del 19%.
Dicho esto, se presenta la siguiente ecuación: CO2= 123,968.7+ 292.418*PETROLEO
CO2= “emisión de CO2 (Mt)”
PETROLEO = “Producción de petroleo (MBd)”
modelo2<-lm(CO2~PETROLEO + ELECTRICIDAD, data=data1)
summary(modelo2)##
## Call:
## lm(formula = CO2 ~ PETROLEO + ELECTRICIDAD, data = data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1255981 -27027 -8866 18885 673296
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.087e+04 2.552e+04 0.426 0.67120
## PETROLEO -4.024e+01 1.338e+01 -3.009 0.00345 **
## ELECTRICIDAD 1.622e+00 3.185e-02 50.932 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 219000 on 85 degrees of freedom
## Multiple R-squared: 0.9743, Adjusted R-squared: 0.9737
## F-statistic: 1611 on 2 and 85 DF, p-value: < 2.2e-16
A continuación se presenta el modelo 2
library(stargazer)
stargazer(modelo2,type = "text",intercept.bottom = FALSE)##
## ===============================================
## Dependent variable:
## ---------------------------
## CO2
## -----------------------------------------------
## Constant 10,869.420
## (25,515.960)
##
## PETROLEO -40.241***
## (13.375)
##
## ELECTRICIDAD 1.622***
## (0.032)
##
## -----------------------------------------------
## Observations 88
## R2 0.974
## Adjusted R2 0.974
## Residual Std. Error 218,988.300 (df = 85)
## F Statistic 1,610.847*** (df = 2; 85)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Interpretación: En primer lugar, al tener un p-value menor a 0.05 (2.2e-16), es posible afirmar que se trata de un modelo valido. En segundo lugar, el consumo de electricidad, al tener un p -value menor a 0.05 (2.2e-16), es posible afirmar que el tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es positivo (1.622e+00), podemos afirmar que se trata de una relación directa. En tercer lugar, debido a que el coeficiente es 1.622e+00, podemos afirmar que, el consumo de un Gigavatio por hora, la producción de CO2, aumenta en 1.622e+00 millones de toneladas (MT).
Por otro lado, al tener un p-value menor a 0.05 (0.00345), es posible afirmar que la producción de petroleo tiene un efecto significativo en la producción de CO2. En segundo lugar, debido a que el coeficiente es negativo (-40.024e+01), podemos afirmar que se trata de una relación inversa. En tercer lugar, debido a que el coeficiente es -40.024e+01, podemos afirmar que, por el aumento de un millon de barriles de petroleo por día, la producción de CO2, disminuye 40.241 millones de toneladas (MT).
Por último, debido a que el valor del R2 ajustado es 0.9737, es posible afirmar que el modelo tiene un porcentaje de explicación del 97.37%.
Dicho esto, se presenta la siguiente ecuación: CO2= 123,968.7 - 4.024e+01PETROLEO + 1.622e+00ELECTRICIDAD
CO2= “emisión de CO2 (Mt)”
PETROLEO = “Producción de petroleo (MBd)”
ELECTRICIDAD = “Consumo de electricidad (GWh)”.
A continuación, se analiza si hay un cambio significativo entre el paso del modelo 1 al 2.
H0: Ambos modelos no difieren. H1: Ambos modelos si difieren.
##
## Tabla de Análisis de Varianza
## =============================================================================
## Res.Df RSS Df Sum of Sq F Pr(> F)
## -----------------------------------------------------------------------------
## 1 86 128,474,731,232,458.000
## 2 85 4,076,249,329,420.000 1 124,398,481,903,038.000 2,594.020 0
## -----------------------------------------------------------------------------
Debido a que al P-value es menor a 0.05 (0), se rechaza la hipótesis nula y es posible afirmar que ambos modelos si difieren (si se ha reducido el error al pasar de un modelo a otro). Dicho esto, el modelo 2 si reduce el error al incluir una variable más.
A continuación, se hicieron cinco análisis respecto a la regresión expresada en el modelo 2: Linealiad, Homocedasticidad, Normalidad de los Residuos, No multicolinealidad y valores influyentes.
Debido a que la linea roja no es cercana a la linea horizontal, podemos afirmar que la regresión no es lineal. Con esto, se resuelve que, por un lado, el error de predicción no esta bien definido; por otro lado, que esta regresión no sirve como un predictor. Dicho esto, si bien este modelo sirve para analizar el caso actual, no es recomendable extrapolar valores futuros con este modelo. Por último, se denota que hay valores atípicos que pueden estar afectando el modelo.
La tendencia del gráfico es incremental; por tanto, Según el gráfico, cuando los valores predecidos son mas pequeños, hay mucha dispersión, en cambio, cuando los valores predecidos son más grandes, hay menos dispersión. Dicho esto, el error no se comporta igual en todos los valores. Debido a ello, podemos afirmar que como hay mucho error al principio y poco error al final, se trata de un caso de heteroceasticidad (el error no es constante en toda la población).
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 56.756, df = 2, p-value = 4.739e-13
H0: Hay homoceasticidad. H1: No hay homoceasticidad.
La probabilidad de homocedasticidad es muy baja (p-value menor a 0.05), de ahi que se rechaza que el modelo muestre homocedasticidad. Por tanto, asumimos que se trata de una relación de heteroceasticidad (los errores no son constantes a lo largo de toda la población)
Debido a las fluctuaciones en los valores de la linea horizontal, es posible afirmar que los residuos no se distribuyen de manera normal. Esto debido a que hay heteroceasticidad. Es decir, la variable dependiente no se comportará siempre así, en todos los escenarios futuros. Para tener mayor certeza de eso, aplicaremos el tes de shapiro.
3.1 Test de Shapiro a los residuos
##
## Shapiro-Wilk normality test
##
## data: modelo2$residuals
## W = 0.67865, p-value = 1.398e-12
H0: Los datos se distribuyen de manera normal H1: Los datos no se distribuyen de manera normal.
Debido a que el p-value es menor a 0.05 (1.398e-12), rechazamos la hipótesis nula y podemos afirmar que los datos no se distribuyen de manera normal.
## PETROLEO ELECTRICIDAD
## 1.313149 1.313149
Como ninguno de los valores de las variables es mayor a 5, podemos asumir que no hay multicolinealidad entre las variables. Por tanto, no es necesario eliminar ninguna de ellas.
Si hay casos que afectan al modelo 2. A continuación, averiguaremos, cuales son:
## dfb.1_ dfb.PETR dfb.ELEC dffit cov.r cook.d hat
## 2 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 3 FALSE FALSE FALSE FALSE TRUE FALSE FALSE
## 4 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 6 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 8 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 9 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## dfb.1_ dfb.PETR dfb.ELEC dffit cov.r cook.d hat
## 35 FALSE TRUE TRUE TRUE TRUE TRUE TRUE
## 135 FALSE TRUE FALSE TRUE FALSE TRUE TRUE
## 172 TRUE TRUE TRUE TRUE TRUE TRUE TRUE
Tal como se puede apreciar, hay tres valores que afectan la regresión. Estos casos son los ubicados en la posición 35 (China), 135 (Rusia) y 172 (Estados Unidos). En particular, esto se puede deber a que estos casos tienen valores muy altos referidos a la emisión de CO2, consumo de electricidad y producción de petroleo, en comparación a los otros Estados del estudio. Por tanto, y tal se ha demostrado, estos casos afectan la regresión.
A continuación, se presenta gráfico de bigotes con los valores normalizados (0 a 1).
Se presentan los estadísticos descríptivos para cada variable
## PAISES CO2 PETROLEO ELECTRICIDAD
## Length:87 Min. :-0.20225 Min. :-0.427939 Min. :-0.21518
## Class :character 1st Qu.:-0.18286 1st Qu.:-0.420730 1st Qu.:-0.19516
## Mode :character Median :-0.12345 Median :-0.391648 Median :-0.13860
## Mean : 0.19314 Mean : 0.004919 Mean : 0.19816
## 3rd Qu.: 0.07672 3rd Qu.:-0.099828 3rd Qu.: 0.03318
## Max. :11.94189 Max. : 5.193188 Max. :11.18512
## CORRUPCIÓN RENTA SERVICIOS
## Min. :-1.635618 Min. :-0.7651 Min. :-1.7673
## 1st Qu.:-0.682127 1st Qu.:-0.6545 1st Qu.:-0.8481
## Median :-0.205381 Median :-0.1875 Median :-0.3686
## Mean :-0.008717 Mean : 0.2561 Mean :-0.1206
## 3rd Qu.: 0.536222 3rd Qu.: 0.9984 3rd Qu.: 0.6704
## Max. : 2.390232 Max. : 3.8312 Max. : 1.7095
Para una mejor visualización se presenta la correlación entre cada variable.
## CO2 PETROLEO ELECTRICIDAD CORRUPCIÓN RENTA
## CO2 1.00000000 0.43495742 0.9856634 0.07329358 -0.1336692
## PETROLEO 0.43495742 1.00000000 0.4876484 0.09562538 0.1186981
## ELECTRICIDAD 0.98566338 0.48764840 1.0000000 0.12640127 -0.1655829
## CORRUPCIÓN 0.07329358 0.09562538 0.1264013 1.00000000 -0.3875954
## RENTA -0.13366925 0.11869806 -0.1655829 -0.38759541 1.0000000
## SERVICIOS -0.07941679 -0.12873693 -0.1210235 -0.83052585 0.3204170
## SERVICIOS
## CO2 -0.07941679
## PETROLEO -0.12873693
## ELECTRICIDAD -0.12102346
## CORRUPCIÓN -0.83052585
## RENTA 0.32041696
## SERVICIOS 1.00000000
Tal como se puede apreciar, la variable renta y servicios tienen correlaciones negativas, por tanto es necesario el proceso de cambio de monotonia.
Ahora, veamos
cor(allData[,-1])## CO2 PETROLEO ELECTRICIDAD CORRUPCIÓN RENTA
## CO2 1.00000000 0.43495742 0.9856634 0.07329358 0.1336692
## PETROLEO 0.43495742 1.00000000 0.4876484 0.09562538 -0.1186981
## ELECTRICIDAD 0.98566338 0.48764840 1.0000000 0.12640127 0.1655829
## CORRUPCIÓN 0.07329358 0.09562538 0.1264013 1.00000000 0.3875954
## RENTA 0.13366925 -0.11869806 0.1655829 0.38759541 1.0000000
## SERVICIOS 0.07941679 0.12873693 0.1210235 0.83052585 0.3204170
## SERVICIOS
## CO2 0.07941679
## PETROLEO 0.12873693
## ELECTRICIDAD 0.12102346
## CORRUPCIÓN 0.83052585
## RENTA 0.32041696
## SERVICIOS 1.00000000
Preparemos la data para la clusterización
Calculo de la matriz de distancias:
Para PAM
Para Agnes
c)Para DIANA
3. Evaluemos resultados
Pidamos tres grupos:
Ahora veamos a cuál le fue mejor:
## cluster size ave.sil.width
## 1 1 39 0.15
## 2 2 23 0.36
## 3 3 25 0.39
fviz_silhouette(res.agnes)## cluster size ave.sil.width
## 1 1 37 0.48
## 2 2 46 0.27
## 3 3 4 0.00
## cluster size ave.sil.width
## 1 1 40 0.47
## 2 2 45 0.28
## 3 3 2 0.07
Debido a que bajo la prueba DIANA, el coeficiente de amplitud (0.37) es superior en comparación a las otras dos pruebas, se puede concluir que estos datos fueron mejor clusterizados usando el metodo jerarquico divisivo.
PIDAMOS 6 GRUPOS
Ahora veamos a cuál le fue mejor:
## cluster size ave.sil.width
## 1 1 23 0.55
## 2 2 14 0.14
## 3 3 24 0.25
## 4 4 16 0.19
## 5 5 9 0.40
## 6 6 1 0.00
fviz_silhouette(res.agnes1)## cluster size ave.sil.width
## 1 1 25 0.54
## 2 2 14 0.23
## 3 3 32 0.19
## 4 4 12 0.46
## 5 5 1 0.00
## 6 6 3 0.12
## cluster size ave.sil.width
## 1 1 40 0.39
## 2 2 19 0.20
## 3 3 24 0.43
## 4 4 1 0.00
## 5 5 2 0.55
## 6 6 1 0.00
Dado que el escenario de 3 grupos, es mejor en terminos de amplitud y de menos casos mal clusterizados, se eligio dividir los casos en base a 3 grupos. Además de eso, se utilizó DIANA.
Encontremos los casos MAL clusterizados (silueta negativa):
## poorPAM poorAGNES poorDIANA
## 1 Bolivia Brunei Darussalam Kuwait
## 2 Brazil Indonesia Saudi Arabia
## 3 Cuba Oman United States
## 4 Gabon Qatar <NA>
## 5 Ghana Saudi Arabia <NA>
## 6 India <NA> <NA>
## 7 Mexico <NA> <NA>
## 8 Timor-Leste <NA> <NA>
Por lo anterior sabemos que usaremos la técnica diana. Verifiquemos las etiquetas:
## diana CO2 PETROLEO ELECTRICIDAD CORRUPCIÓN RENTA SERVICIOS
## 1 1 -0.01761241 -0.23564626 0.02795811 0.7401635 0.3386439 0.9290743
## 2 2 0.02338899 0.07012605 -0.02715411 -0.7021384 -0.8248930 -0.6233705
## 3 3 8.22749549 3.34905847 8.67190202 0.6156799 0.6483378 0.6882983
## pam agnes pam1 agnes1 diana1
## 1 2.200000 1.075000 2.200000 1.975000 1.000000
## 2 1.511111 2.044444 3.111111 2.888889 2.666667
## 3 2.000000 3.000000 5.000000 5.500000 5.000000
A continuación, se presenta un gráfico con escalamiento multidimensional
Se dividio en tres grupos.
Proceso del Analisis Factorial Exploratorio (EFA). El análisis factorial exploratorio requiere que hagamos algunas observaciones previas.
Calculemos matriz de correlación:
Explorar correlaciones: Sin evaluar significancia:
Se observan dos bloques de variables correlacionads. Por tanto, hay posibilidad de que se generen dos conceptos.
Verificar si datos permiten factorizar:
## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = corMatrix)
## Overall MSA = 0.53
## MSA for each item =
## CO2 PETROLEO ELECTRICIDAD CORRUPCIÓN RENTA SERVICIOS
## 0.51 0.53 0.51 0.54 0.61 0.56
Para verificar, si la matriz de correlaciones es adecuada Aqui hay dos pruebas:
Hnula: La matriz de correlacion es una matriz identidad
## [1] FALSE
Hnula: La matriz de correlacion es una matriz singular.
## [1] FALSE
Es posible factorizar estas variables.
Ahora, es necesario determinar en cuantos factores o variables latentes podríamos redimensionar la data:
## Parallel analysis suggests that the number of factors = 2 and the number of components = NA
Se sugiere 2, lo esperado, sigamos.
Redimensionar a numero menor de factores Resultado inicial:
## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully
##
## Loadings:
## MR1 MR2
## CO2 0.976
## PETROLEO 0.457
## ELECTRICIDAD 1.002
## CORRUPCIÓN 0.998
## RENTA 0.380
## SERVICIOS 0.832
##
## MR1 MR2
## SS loadings 2.177 1.845
## Proportion Var 0.363 0.307
## Cumulative Var 0.363 0.670
Resultado mejorado (solo apropiado si hay más de un factor):
##
## Loadings:
## MR1 MR2
## CO2 0.976
## PETROLEO
## ELECTRICIDAD 1.002
## CORRUPCIÓN 0.998
## RENTA
## SERVICIOS 0.832
##
## MR1 MR2
## SS loadings 2.177 1.845
## Proportion Var 0.363 0.307
## Cumulative Var 0.363 0.670
Cuando logramos que cada variable se vaya a un factor, tenemos una estructura simple.
Resultado visual:
Basado en el análisis factorial, es posible concluir que las variables se pueden agrupar en base a dos conceptos.
En primer lugar, las tres variables pertenecientes a la primera variable latente son consumo de electricidad, producción de CO2 y producción de petroleo. Respecto a esta variable latente, el consumo de electricidad tiene un mayor nivel de aporte 1.002, seguido de la producción de CO2 con 0.976, por último, la produccion de petroleo tiene un coeficiente de 0.46. Cabe precisar que, estas variables están relacionadas en términos de producción de energía.
En segundo lugar, las tres variables pertenecientes a la segunda variable latente son la percepción de corrupción, renta como porcentaje de PIB y; el acceso a servicios. En particular, la percepción de corrupción tiene una indice de 0.998, lo cual indica una fuerte aporte con la variable latente; seguido del acceso a servicios cuyo coeficiente es de 0.832; por último, la variable renta tiene un coeficiente bajo 0.380, lo cual indica que no existe un fuerte respecto a la variable latente. Cabe precisar que, están relacionadas en términos de percepción respecto a las actividades que realiza el Estado.