Trabajo final- EST2
Presentación
En el presente trabajo se analizarán los factores que influyen en la capacidad estatal a nivel mundial. Para aproximarnos a este concepto, nos guiaremos por la tesis de la maldición de los recursos naturales, la cual postula que la presencia de abundantes recursos naturales fácilmente recaudables en un país no favorece al desarrollo de un aparato estatal fuerte. Esto debido a los pocos incentivos a desaroollar un aparato burocrático fuerte. Asimismo, esta facilidad al acceso de recursos favorece la búsqueda de rentas, corrupción y clientelismo.
Para aproximarnos a esta controvertida tesis, usaremos la data proporcionada por el Banco Mundial, el Índice de Estados Frágiles y el Índice de Percepción de Corrupción para construir una base de datos que se constituya por 3 variables: porcentaje de renta obtenida por la extracción de recursos naturales en relación al PBI, capacidad estatal e índice de percepción de corrupción. Con estas variables construirmemos dos modelos de regresión y se construirá un variable latente cuyo objetivo será medir el desempeño de un país Estado, no solo en monopolizar las rentas obtenidas por la extracción de recursos naturales, sino en evitar la corrupción y brindar las condiciones para el desarrollo económico de su población. Asimismo, se realizará un análisis de conglomerados para visualizar las tendencias de los países del norte y el sur global.
library(rio)
data=import("https://github.com/ximenapize/EST2/blob/main/data1.xlsx?raw=true")head(data)## PAISES Percepción de Corrupción
## 1 Afghanistan 19
## 2 Albania 36
## 3 Algeria 36
## 4 Angola 27
## 5 Antigua and Barbuda NA
## 6 Argentina 42
## Total natural resources rents (% PBI) Public Services
## 1 0.7 9.8
## 2 1.3 4.4
## 3 11.9 5.6
## 4 0.0 9.3
## 5 0.0 4.4
## 6 2.3 4.8
Modelos de regresión Gaussiana
Marco Teórico
HIPÓTESIS 1: La capacidad estatal de brindar servicios públicos de calidad a la población depende de la actividad económica de extracción de recursos naturales, de acuerdo a la teoría de la maldición de los recursos, los países que dependen más de la actividad económica extractora son más proclives a tener aparatos estatales débiles y con poca capacidad de brindar servicios.
HIPÓTESIS 2: La capacidad estatal de brindar servicios básicos para la población responde a los niveles de corrupción del gobierno de turno y del porcentaje de renta por recursos naturales de acuerdo al PBI.
str(data)## 'data.frame': 179 obs. of 4 variables:
## $ PAISES : chr "Afghanistan" "Albania" "Algeria" "Angola" ...
## $ Percepción de Corrupción : num 19 36 36 27 NA 42 49 77 76 30 ...
## $ Total natural resources rents (% PBI): num 0.7 1.3 11.9 0 0 2.3 6 9.8 0.1 19 ...
## $ Public Services : num 9.8 4.4 5.6 9.3 4.4 4.8 3.9 2.8 2.3 5.5 ...
VARIABLE DEPENDIENTE:
- Capacidad estatal para brindar servicios básicos a la población (salud, educación, electricidad, agua, seguridad, etc), esta tiene el nombre de “PUBLIC SERVICES” y fue construida por el proyecto “Fragile States Index”. Este indicador está construido en una escala del 1 al 10, donde 1 es el nivel más alto de capacidad estatal de brindar servicios y 10, el nivel más bajo de capacidad estatal.
VARIABLES INDEPENDIENTES:
- Índice de percepción de corrupción: Fue obtenido de la base de datos del proyecto “Índice de Percepción de la Corrupción 2020” por Transparencia Internacional. La medición de los niveles de corrupción de un país es una actividad complicada debido a la naturaleza ilegal de esta actividad. Hay 2 formas de aproximarnos a este fenómeno en los gobiernos: mediante la percepción de la ciudadanía y mediante la observación directa de casos que llegaron al Poder Judicial de los Estados, auditorías y/o reportes. En este caso, utilizaré la primera forma de medición de los niveles de corrupción.
Esta variable es un indicador que está en una escala del 0 al 100, donde 0 equivale al nivel más alto de percepción de corrupción, y 100 implica el nivel más bajo.
- Porcentaje de renta obtenida por la extracción de recursos naturales en relación al PBI: Variable obtenida de la base de datos del Banco Mundial.
names(data)## [1] "PAISES"
## [2] "Percepción de Corrupción"
## [3] "Total natural resources rents (% PBI)"
## [4] "Public Services"
library(dplyr)##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
data = rename(data, corrupcion = 'Percepción de Corrupción', recursosnaturales = 'Total natural resources rents (% PBI)', capacidad = 'Public Services')data1 = data[complete.cases(data$corrupcion),]
data2 = data1[complete.cases(data1$recursosnaturales),]
data3= data2[complete.cases(data2$capacidad),]library(ggplot2)
base2=ggplot(data=data3, aes(x=recursosnaturales, y=capacidad))
scatter2 = base2 + geom_point()
scatter2Modelos de regresión
modelo1 = formula(capacidad~recursosnaturales)
modelo2 = formula(capacidad~corrupcion + recursosnaturales)Primer modelo
library(stargazer)##
## Please cite as:
## Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
reg1=lm(modelo1,data=data3)
stargazer(reg1,type ="text")##
## ===============================================
## Dependent variable:
## ---------------------------
## capacidad
## -----------------------------------------------
## recursosnaturales 0.111***
## (0.022)
##
## Constant 5.041***
## (0.230)
##
## -----------------------------------------------
## Observations 171
## R2 0.129
## Adjusted R2 0.124
## Residual Std. Error 2.366 (df = 169)
## F Statistic 25.038*** (df = 1; 169)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
ggplot(data3, aes(x=recursosnaturales, y=capacidad)) +
geom_point()+
geom_smooth(method=lm)## `geom_smooth()` using formula 'y ~ x'
ECUACIÓN DEL PRIMER MODELO
Indice de capacidad estatal para brindar servicios básicos = 5.041 + 0.111(Porcentaje de renta de recursos naturales en relación al PBI)
INTERPRETACIÓN:
Para este primer modelo podemos afirmar que la variable de porcentaje de renta de recursos naturales en relación al PBI sí tiene un impacto significativo en la variable de capacidad estatal, ya que el p-valor es menor a 0.05. El efecto es directo, ya que el coeficiente es positivo, eso quiere decir que cuando el porcentaje de renta aumenta, aumenta el índice de capacidad estatal, lo cual significa que los países que dependen más de los recursos naturales tienen Estados menos eficientes a la hora de brindar servicios básicos. Asimismo, cuando el porcentaje aumenta en 1 punto, el índice aumenta en 0.111 unidades. De igual manera, el R cuadrado nos muestra que este modelo tiene una capacidad predictora de 12.4%.
Segundo modelo
reg2=lm(modelo2,data=data2)
stargazer(reg2,type ="text")##
## ===============================================
## Dependent variable:
## ---------------------------
## capacidad
## -----------------------------------------------
## corrupcion -0.107***
## (0.007)
##
## recursosnaturales 0.012
## (0.015)
##
## Constant 10.260***
## (0.348)
##
## -----------------------------------------------
## Observations 171
## R2 0.667
## Adjusted R2 0.663
## Residual Std. Error 1.468 (df = 168)
## F Statistic 167.998*** (df = 2; 168)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
summary(reg2)##
## Call:
## lm(formula = modelo2, data = data2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.7425 -1.0344 0.0942 1.1186 3.2526
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.260100 0.347602 29.517 <2e-16 ***
## corrupcion -0.107065 0.006504 -16.461 <2e-16 ***
## recursosnaturales 0.012377 0.014978 0.826 0.41
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.468 on 168 degrees of freedom
## Multiple R-squared: 0.6667, Adjusted R-squared: 0.6627
## F-statistic: 168 on 2 and 168 DF, p-value: < 2.2e-16
ECUACIÓN DEL TERCER MODELO
Índice de capacidad estatal de brindar servicios básicos = 10.260 - 0.107065(Índice de percepción de corrupción) + 0.012377(Porcentaje de renta por recursos naturales)
INTERPRETACIÓN
Para este segundo modelo se añadió la variable de corrupción para poder explicar a la variable de índice de capacidad estatal, junto a la variable de porcentaje de renta de recursos naturales en relación al PBI. Sin embargo, los p-valores que nos arroja el modelo nos muestran que solo la variable de índice de corrupción es significativa para explicar la variable dependiente, mientras que la de porcentaje de renta por recursos naturales posee un p-valor mayor a 0.05 por lo que descartamos la posibilidad de que esta sea significativa para el modelo. El efecto del índice de corrupción en el índice de capacidad estatal es indirecto, ya que el signo del coeficiente es negativo. Eso quiere decir que cuando el índice aumenta, o sea, cuando la percepción sobre la corrupción de un país disminuye, el índice de capacidad estatal disminuye, o sea, la capacidad de brindar servicios por parte de un Estado es mejor. El efecto del porcentaje de renta por recursos naturales en el índice de capacidad estatal es directo, como fue descrito en el primer modelo. Asimismo, el R cuadrado de este modelo tiene una mayor capacidad predictora que el anterior, con un 66.3%.
tanova=anova(reg1, reg2)
stargazer(tanova,type ='text', summary = F, title ="Table de Análisis de Varianza")##
## Table de Análisis de Varianza
## =============================================
## Res.Df RSS Df Sum of Sq F Pr(> F)
## ---------------------------------------------
## 1 169 945.925
## 2 168 362.025 1 583.899 270.962 0
## ---------------------------------------------
INTERPRETACIÓN:
En el análisis de varianza entre los dos modelos, el p-valor resultante es menor a 0.05, por lo que podemos afirmar que ambos modelos sí difieren. Es decir, en el modelo 2 se ha reducido el error al incluir una variable más.
Análisis de conglomerados
Para los análisis siguientes, se adicionaron dos variables para la medición del desempeño estatal en relación a su capacidad estatal, rentas obtenidas por la extracción de recursos naturales e índice de corrupción. Las variables agregadas han sido extraídas del Banco Mundial y son el ingreso fiscal del Estado y el índice GINI.
Metadata de las nuevas variables:
Ingreso Fiscal del Estado en relación al PBI: La recaudación impositiva se refiere a las transferencias obligatorias al Gobierno central con fines públicos. Se excluyen ciertas transferencias obligatorias como las multas, sanciones y la mayoría de las contribuciones al seguro social. Los reembolsos y correcciones de ingresos tributarios recaudados por error se consideran ingreso negativo.
Índice GINI: El índice de Gini mide hasta qué punto la distribución del ingreso (o, en algunos casos, el gasto de consumo) entre individuos u hogares dentro de una economía se aleja de una distribución perfectamente equitativa. Una curva de Lorenz muestra los porcentajes acumulados de ingreso recibido total contra la cantidad acumulada de receptores, empezando a partir de la persona o el hogar más pobre. El índice de Gini mide la superficie entre la curva de Lorenz y una línea hipotética de equidad absoluta, expresada como porcentaje de la superficie máxima debajo de la línea. Así, un índice de Gini de 0 representa una equidad perfecta, mientras que un índice de 100 representa una inequidad perfecta. (Banco Mundial)
Formateo de la data
## 'data.frame': 179 obs. of 6 variables:
## $ PAISES : chr "Afghanistan" "Albania" "Algeria" "Angola" ...
## $ corrupcion : num 19 36 36 27 NA 42 49 77 76 30 ...
## $ recursosnaturales: num 0.7 1.3 11.9 0 0 2.3 6 9.8 0.1 19 ...
## $ capacidad : num 9.8 4.4 5.6 9.3 4.4 4.8 3.9 2.8 2.3 5.5 ...
## $ ING_FIS : num NA 18.14 NA 9.38 NA ...
## $ GINI : num NA 33.2 27.6 51.3 NA ...
## PAISES corrupcion recursosnaturales capacidad
## Length:98 Min. :-1.63562 Min. :-0.76509 Min. :-1.8073
## Class :character 1st Qu.:-0.52321 1st Qu.:-0.73744 1st Qu.:-1.0380
## Mode :character Median :-0.01998 Median :-0.60533 Median :-0.3886
## Mean : 0.21461 Mean :-0.19187 Mean :-0.2153
## 3rd Qu.: 0.86730 3rd Qu.:-0.03079 3rd Qu.: 0.6604
## Max. : 2.39023 Max. : 3.22898 Max. : 1.6695
## ING_FIS GINI
## Min. :-2.651161 Min. :-1.6683
## 1st Qu.:-0.727682 1st Qu.:-0.9466
## Median :-0.049885 Median :-0.3380
## Mean :-0.002669 Mean :-0.1232
## 3rd Qu.: 0.769986 3rd Qu.: 0.4782
## Max. : 2.714226 Max. : 3.1047
## corrupcion recursosnaturales capacidad ING_FIS GINI
## corrupcion 1.0000000 -0.4377761 -0.7996451 0.5306579 -0.3402516
## recursosnaturales -0.4377761 1.0000000 0.5209629 -0.3312065 0.1473953
## capacidad -0.7996451 0.5209629 1.0000000 -0.4447848 0.5788633
## ING_FIS 0.5306579 -0.3312065 -0.4447848 1.0000000 -0.1203423
## GINI -0.3402516 0.1473953 0.5788633 -0.1203423 1.0000000
## corrupcion recursosnaturales capacidad ING_FIS GINI
## corrupcion 1.0000000 0.4377761 0.7996451 0.5306579 0.3402516
## recursosnaturales 0.4377761 1.0000000 0.5209629 0.3312065 0.1473953
## capacidad 0.7996451 0.5209629 1.0000000 0.4447848 0.5788633
## ING_FIS 0.5306579 0.3312065 0.4447848 1.0000000 0.1203423
## GINI 0.3402516 0.1473953 0.5788633 0.1203423 1.0000000
Evaluando resultados
## diana corrupcion recursosnaturales capacidad ING_FIS GINI pam
## 1 1 -0.8480558 -0.6152955 -0.9657761 -0.3862868 -0.5926575 1.169811
## 2 2 0.5314518 0.3068248 0.6686617 0.4607732 0.4297677 2.000000
## agnes
## 1 1.698113
## 2 1.000000
Graficando el análisis de cluster con una gráfica de escalamiento multidimensional
proyeccion = cmdscale(g.dist, k=2,add =T)
dataClus$dim1 <- proyeccion$points[,1]
dataClus$dim2 <- proyeccion$points[,2]
base= ggplot(dataClus,aes(x=dim1, y=dim2,label=row.names(dataClus)))
base + geom_text(size=2, aes(color=as.factor(diana))) + labs(title ="DIANA")Interpretación:
Como podemos ver en el gráfico de escalamiento multidimensional, nuestra data sobre los países del mundo fue conglomerada en dos grupos. En el primer grupo (color rojo) podemos distinguir claramente que está compuesto por los países occidentales (europeos y Estados Unidos) cuyos aparatos estatales son más eficientes y tienen mayor capacidad de recaudar más impuestos en comparación a los países de Latinoamérica y África. En este primer grupo podemos diferenciar que se encuentran los conocidos “Estados de bienestar”.
Por otro lado, en el segundo conglomerado (color azul) podemos ver en el extremo de la izquierda países africanos y asiáticos que, según el Fragile States Index, son los estados débiles o frágiles del mundo. Asimismo, más cerca al conglomerado de rojo, se encuentran los países de Latinoamérica, cuyos aparatos estatales, si bien presentan fallas, funcionan a pesar de sus límites.
Un caso a resaltar es el de Uruguay, el cual, es el único país de Latinoamérica que se encuentra en el conglomerado rojo, lo cual nos muestra que, teniendo en cuenta que todas nuestras variables miden directa o indirectamente la capacidad estatal, es uno de los aparatos estatales más fuertes de Latinoamérica.
Análisis Factorial
En el siguiente análisis, se desea construir una variable latente que mida el desempeño de un Estado en relación a su capacidad de brindar servicios a su población como salud, educación, vivienda e infraestructura pública, así como de su capacidad de recaudación de impuestos, de evitar la percepción de corrupción en la población y disminuir los niveles de desigualdad en los ingresos de sus habitantes.
## Parallel analysis suggests that the number of factors = 2 and the number of components = NA
##
## Loadings:
## MR1 MR2
## corrupcion 0.771 -0.378
## recursosnaturales -0.514 0.182
## capacidad -0.669 0.748
## ING_FIS 0.633
## GINI -0.105 0.675
##
## MR1 MR2
## SS loadings 1.718 1.195
## Proportion Var 0.344 0.239
## Cumulative Var 0.344 0.583
##
## Loadings:
## MR1 MR2
## corrupcion 0.771
## recursosnaturales -0.514
## capacidad -0.669 0.748
## ING_FIS 0.633
## GINI 0.675
##
## MR1 MR2
## SS loadings 1.718 1.195
## Proportion Var 0.344 0.239
## Cumulative Var 0.344 0.583
Graficamos
fa.diagram(resfa)Interpretación:
El análisis factorial que se realizó nos arrojó el gráfico mostrado, en el cual podemos concluir que nuestra data ha sido dividida en dos variables latentes y no una como se deseó al principio. La primera variable latente está compuesta por las variables de Índice de Percepción de Corrupción, con un nivel de correlación muy fuerte de 0.8; por la variable de porcentaje de Ingres o Fiscal o Recaudación Impositiva con relación al PBI, con una correlación fuerte de 0.7; y por la variable de porcentaje de renta obtenida por la extracción de recursos naturales en relación al PBI, la cual muestra una correlación negativa media de 0.5.
Por otro lado, la segunda variable latente sugerida por el análisis exploratorio está compuesta por la variables de capacidad estatal, cabe resaltar nuevamente que esta variable está medida de tal manera que los aparatos estatales más fuertes son los que tienen los puntajes más bajos, la cual presenta una correlación fuerte de 0.7. Asimismo, nuestra segunda variable latente está compuesta por el coeficiente GINI, el cual mide la desigualdad de ingresos en los países y los valores más altos de desigualdad son los valores más altos del coeficiente, presenta una correlación positiva y fuerte de 0.7.
Por lo tanto, podríamos inferir que la primera variable latente nos podría ayudar a cuantificar y elaborar un indicador para la teoría de la maldición de los recursos. Este indicador nos puede mostrar que los países que tienen mayor capacidad de recoger impuestos de su población pueden ser también aquellos países que no dependen de las rentas generadas por la extracción de recursos naturales, así como los que presentan menor percepción de corrupción. Por otro lado, la segunda variable está más relacionada con la cuantificación de fenómenos sobre la capacidad del Estado para disminuir la desigualdad en sus poblaciones.
Conclusiones
El trabajo realizado nos ha servido para aproximarnos a la tesis de la maldición de los recursos desde los métodos estadísticos. Hemos encontrado, en primer lugar, que la variable de porcentaje de renta obtenida por la extracción de recursos naturales no es una variable que nos puede ayudar a explicar la fortaleza o no de un aparato estatal en tanto es proveedor de servicios públicos. Sin embargo, el índice de corrupción sí lo es, por lo que la corrupción dentro de un país sí afecta la capacidad del aparato estatal.
Por otro lado, como hemos hallado en el análisis factorial, no es recomendable construir una variable latente que pueda medir todo el fenómeno de desempeño estatal desde una visión de la tesis de los recursos naturales. Sin embargo, gracias al análisis de clústers, sí vemos una tendencia entre los Estados con aparatos estatales más fuertes y los Estados débiles o frágiles, por lo que se recomienda seguir analizando las variables que puedan explicar el buen desempeño estatal sin recurrir a la tesis de la maldición de los recursos naturales.
Anexos
Diagnósticos de regresión con el segundo modelo
- Linealidad
plot(reg2,1)INTERPRETACIÓN:
Debido a que la línea roja sí se aproxima a la línea punteada, podemos afirmar que la regresión sí es lineal. El modelo se podría emplear para realizar predicciones.
- Homocedasticidad
plot(reg2,3)library(lmtest)## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
bptest(reg2)##
## studentized Breusch-Pagan test
##
## data: reg2
## BP = 6.4482, df = 2, p-value = 0.03979
INTERPRETACIÓN:
En el gráfico se puede visualizar que la línea roja no tiende a la horizontalidad, por lo que aplicamos el test de Breusch-Pagan para confirmar si el modelo presenta heterocedasticidad. El test nos arroja un valor menor a 0.05, por lo que confirmamos la hipótesis alternativa de que el modelo es heterocedástico, por lo que los errores de predicción no son constantes a lo largo de y; y los mínimos cuadrados no son eficientes en este caso. El error del modelo de regresión si afecta la varianza de la estimación, por lo que los errores de estimación pueden ser más probables, es decir, el modelo no es muy eficiente.
- Normalidad de los residuos
plot(reg2,2)shapiro.test(reg2$residuals)##
## Shapiro-Wilk normality test
##
## data: reg2$residuals
## W = 0.99246, p-value = 0.5169
INTERPRETACIÓN: El gráfico nos muestra que los puntos se acercan a la línea punteada por el medio de esta, pero en los extremos estos están más dispersos. Asimismo, la prueba de Shapiro Wilk para analizar la normalidad en la distribución de los errores nos arroja un p-valor mayor a 0.05, podemos afirmar que estos sí se distribuyen normalmente. Esto hace de nuestro modelo un modelo con fuerza predictora.
- No Multicolinealidad
library(DescTools)##
## Attaching package: 'DescTools'
## The following objects are masked from 'package:psych':
##
## AUC, ICC, SD
## The following object is masked from 'package:BBmisc':
##
## %nin%
VIF(reg2)## corrupcion recursosnaturales
## 1.189366 1.189366
INTERPRETACIÓN:
Ninguna de las variables predictoras arroja un valor mayor a 5, por lo que podemos afirmar que no tienen una correlación muy alta y sirven para explicar la variable dependiente sin la necesidad de retirar alguna.
- Valores influyentes
plot(reg2,5)checkReg2=as.data.frame(influence.measures(reg2)$is.inf)
head(checkReg2)## dfb.1_ dfb.crrp dfb.rcrs dffit cov.r cook.d hat
## 1 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 2 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 3 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 4 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 6 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 7 FALSE FALSE FALSE FALSE FALSE FALSE FALSE
checkReg2[checkReg2$cook.d & checkReg2$hat,]## [1] dfb.1_ dfb.crrp dfb.rcrs dffit cov.r cook.d hat
## <0 rows> (or 0-length row.names)
Análisis de conglomerados: Elección del número de clusters y la estrategia para clusterizar
Proponer cantidad de clusters
- Con el método Pam
library(factoextra)
fviz_nbclust(dataClus, pam,diss=g.dist,method ="gap_stat",k.max =10,verbose =F)- Con el método Agnes
fviz_nbclust(dataClus, hcut,diss=g.dist,method ="gap_stat",k.max =10,verbose =F,hc_func ="agnes")- Con el método Diana
fviz_nbclust(dataClus, hcut,diss=g.dist,method ="gap_stat",k.max =10,verbose =F,hc_func ="diana")Se optará por pedir 2 grupos para clusterizar, gracias al análisis en la visualización de los gráficos anteriores.
Evaluando resultados
###pam
set.seed(123)
grupos=2
res.pam=pam(g.dist,k = grupos,cluster.only =F)
dataClus$pam=res.pam$cluster
###agnes
res.agnes<- hcut(g.dist, k =grupos,hc_func='agnes',hc_method ="ward.D")
dataClus$agnes=res.agnes$cluster
### diana
res.diana <- hcut(g.dist, k = grupos,hc_func='diana')
dataClus$diana=res.diana$clusterfviz_silhouette(res.pam)## cluster size ave.sil.width
## 1 1 44 0.52
## 2 2 54 0.29
fviz_silhouette(res.agnes)## cluster size ave.sil.width
## 1 1 61 0.27
## 2 2 37 0.57
fviz_silhouette(res.diana)## cluster size ave.sil.width
## 1 1 53 0.47
## 2 2 45 0.34
Se opta por elegir la estrategia jerárquica (método jerárquico divisivo) con el método de Diana para poder continuar con el análisis de conglomerados debido a que tienen la silueta más grande entre las tres estrategias (0.41) y debido a que pudo llegar a clusterizar todos los casos, sin dejar casos mal clusterizados.
Análisis factorial exploratorio
Matriz de Correlaciones
corMatrix=polycor::hetcor(bdaf2)$correlationslibrary(ggcorrplot)## Warning: package 'ggcorrplot' was built under R version 4.1.3
ggcorrplot(corMatrix)¿Los datos permiten factorizar?
psych::KMO(corMatrix)## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = corMatrix)
## Overall MSA = 0.66
## MSA for each item =
## corrupcion recursosnaturales capacidad ING_FIS
## 0.67 0.76 0.61 0.85
## GINI
## 0.53
¿La matriz de correlaciones es adecuada?
cortest.bartlett(corMatrix,n=nrow(bdaf2))$p.value>0.05## [1] FALSE
=> La matriz de correlación es una matriz singular.
library(matrixcalc)
is.singular.matrix(corMatrix)## [1] FALSE
fa.parallel(bdaf2,fm ='ML', fa ='fa',correct =T)## Parallel analysis suggests that the number of factors = 2 and the number of components = NA
=> El modelo nos sugiere 2 factores o variables latentes
Redimensionar al número menor de factores
library(GPArotation)
resfa <- fa(bdaf2,nfactors =2,cor ='mixed',rotate ="varimax",fm="minres")## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully
print(resfa$loadings)##
## Loadings:
## MR1 MR2
## corrupcion 0.771 -0.378
## recursosnaturales -0.514 0.182
## capacidad -0.669 0.748
## ING_FIS 0.633
## GINI -0.105 0.675
##
## MR1 MR2
## SS loadings 1.718 1.195
## Proportion Var 0.344 0.239
## Cumulative Var 0.344 0.583
Mejorando el resultado
print(resfa$loadings,cutoff =0.5)##
## Loadings:
## MR1 MR2
## corrupcion 0.771
## recursosnaturales -0.514
## capacidad -0.669 0.748
## ING_FIS 0.633
## GINI 0.675
##
## MR1 MR2
## SS loadings 1.718 1.195
## Proportion Var 0.344 0.239
## Cumulative Var 0.344 0.583
Evaluando el resultado obtenido
¿Qué variables aportan más al modelo?
sort(resfa$communality)## recursosnaturales ING_FIS GINI corrupcion
## 0.2974214 0.4038719 0.4664505 0.7375903
## capacidad
## 1.0071849
¿Qué variables contribuyen a mas de un factor?
sort(resfa$complexity)## ING_FIS GINI recursosnaturales corrupcion
## 1.017178 1.048114 1.247642 1.454100
## capacidad
## 1.975220
library(rmdformats)