PRESENTACION

Column {data-width=500}

Introducción

Según la Contraloría General de la República estimó que, en 2023, la corrupción y la mala conducta funcional costaron alrededor de S/ 24 268 millones, representando el 12.7% del presupuesto público ejecutado en 2022 (2023). Estas cifras demuestran el interés de analizar la corrupción. Así, el interés que conduce este trabajo es el de establecer como tema principal el estudio estadístico de la corrupción, ya que posibilita explicar, en base a los datos proporcionados por entidades peruanas, cómo existen diferentes factores, tanto sociales, económicos e institucionales, que logran tener influencia en los niveles de corrupción del Perú.

Column {data-width=450}

NUESTRAS VARIABLES

Específicamente, para este trabajo, se utilizará como variable dependiente al Índice de Corrupción del 2022. En consecuencia, las variables independientes que se emplean para generar una explicación a la variable dependiente serán: Canon minero, tipo de organización política y cantidad de hogares dependientes. Por último, se emplearán como variables de control a la cantidad de población de cada provincia y a la cantidad de trabajadores municipales. Cabe recalcar que todas las variables son del año 2022.

Estadísticas Descriptivas de CANON
Minimo 1st Qu. Mediana Media 3rd Qu. Maximo
7 3185487 12069096 48733024 37193282 1607175203
Estadísticas Descriptivas de Cantidad de trabajadores
Min. 1st Qu. Median Mean 3rd Qu. Max.
5 66 151 334.8214 369.25 6524
Estadísticas Descriptivas de Cantidad de hogares dependientes
Minimo 1st Qu. Mediana Media 3rd Qu. Maximo
9 257 609.5 948.7398 1151.75 12286
Estadísticas Descriptivas de Población por provincia
Minimo 1st Qu. Mediana Media 3rd Qu. Maximo
3270 28765 61863 170391.3 121459.8 10004141

PROVENIENCIA DE VARIABLES

Para realizar el proceso estadístico, en primera instancia, se recolectaron los datos de las variables de distintas páginas de internet, que fueran del año 2022. En el caso de la variable corrupción, se utilizó los datos proporcionados por el Observatorio Nacional Anticorrupción de la Contraloría. Respecto a la variable “tipo de organización política” fue descargada del Observatorio para la Gobernabilidad del JNE. Por último, tanto las variables independientes restantes, “Hogares con alta dependencia económica” y “Transferencia por canon a las municipalidades provinciales”, como las variables de control, “Población proyectada” y “población proyectada”, se obtuvieron del Sistema de Información Regional para la Toma de Decisiones del INEI.

Variable Central

Column

INDICE DE CORRUPCION

Nuestra variable de estudio es el índice de corrupción e inconducta funcional (INCO) del 2022 proporcionado por la Contraloría General de la República. Por lo que, se configura como una variable cuantitativa continua, se presenta en una escala de 0 a 100 puntos.

Estadísticas Descriptivas de INCO2022
Minimo 1st Qu. Mediana Media 3rd Qu. Maximo Desviación Estandar
17 33.475 39.9 40.56735 46.8 69.1 11.01915

Interpretación

  • Histograma:

En el histograma de la variable central se puede observa una similitud con la distribucion normal.

Se encuentra que el promedio del indice de corrupcion a nivel provincia en Peru es de 40 puntos de corrupcion.

  • Boxplot:

A través del boxplot, podemos observar que los datos son homogéneos. Los valores máximos, en este caso, pertenecen a las provincias de Maynas y Huancayo. Esta homogeneidad en los puntos indica que el valor promedio es representativo de la mayoría de las provincias en términos de corrupción. La simetría de la distribución sugiere que hay una distribución equilibrada alrededor de este promedio, sin sesgos extremos hacia valores altos o bajos de corrupción.

Column {data-width=450}

HISTOGRAMA DEL INDICE DE CORRUPCIÓN

BOXPLOT

Correlación

Column {data-width=500}

Matriz de correlacion

Column {data-width=500}

Interpretacion

En miras de crear un modelo de regresión lineal, se realiza una matriz de correlación para poder relacionar las variables de estudio. Se puede observar que existen correlación entre las variables que estamos presentando con el índice de corrupción. Las que tienen mayor correlación son nuestras variables designadas de control (la población y el número de trabajadores en las municiapalidades). Como se demuestra, las variables de control están capturando adecuadamente la variabilidad de la variable dependiente. Esto es deseable para obtener un buen ajuste del modelo, y, también, para que los coeficientes estimados sean representativos de las relaciones verdaderas en los datos. Sin embargo, se debe tener cuidado con la multicolinealidad, por esta razón, se requiere de un análisis de los supuestos, de tal forma que se pueda saber la fidelidad del modelo. Asimismo, encontramos que nuestras variables independientes, a pesar de tener menor correlación, sí poseen niveles de correlación (altos y bajos). Por lo que es valido continuar con el modelo de linealidad.

Analisis bivariado

Column {data-width=500}

HOGARES DEPENDIENTES

CANON

Movimiento regional

# A tibble: 2 × 2
  TIPO_OP Media_INCO2022
  <fct>            <dbl>
1 0                 43.0
2 1                 38.8

Column {data-width=500}

HOGARES DEPENDIENTES

En el gráfico se puede observar que hay una tendencia de que, a mayor cantidad de hogares dependientes económicamente, mayor resultará el Índice de Corrupción de la provincia, sin embargo, la dispersión de los datos puede identificarse como alta, cuando hay menos cantidad de hogares dependiendo económicamente.

CANON

En la variable Canon, se puede observar que hay una gran dispersión entre las provincias que han recibido una menor cantidad de Canon;sin embargo, solo con el gráfico proporcionado no es posible observar una tendencia entre estas dos variables.

MOVIMIENTO REGIONAL

En este caso, nuestra variable independiente “Movimiento regional” es categórica dicotómica, donde 1 implica que sí es un “Movimiento regional” y 0 indica que no hay “Movimiento regional”. Esto demuestra que existe otro tipo de organización política como, por ejemplo, los partidos regionales o alianzas regionales. Lo más resaltante es que podemos observar que, en promedio las provincias con movimientos regionales tienden a tener un menor indice de corrupción.

REGRESION LINEAL

Column {data-width=500}

Hipotesis 1

Regresion: modelo 1
 apropiacion (I)
(Intercept) 38.985***
(0.796)
CANON 0.000***
(0.000)
POBLACION 0.000***
(0.000)
Num.Obs. 196
R2 0.130
R2 Adj. 0.121
AIC 1476.6
BIC 1489.7
Log.Lik. -734.312
F 14.396
RMSE 10.25
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Hipotesis 2

Regresion: modelo 2
 apropiacion (II)
(Intercept) 35.966***
(0.959)
CANON 0.000***
(0.000)
HOGARES_DEP 0.004***
(0.001)
POBLACION 0.000
(0.000)
Num.Obs. 196
R2 0.232
R2 Adj. 0.220
AIC 1454.2
BIC 1470.6
Log.Lik. -722.110
F 19.300
RMSE 9.63
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Hipotesis 3

Regresion: modelo 3
 apropiacion (III)
(Intercept) 38.254***
(1.267)
CANON 0.000***
(0.000)
HOGARES_DEP 0.004***
(0.001)
TIPO_OP1 -3.793**
(1.401)
POBLACION 0.000
(0.000)
Num.Obs. 196
R2 0.260
R2 Adj. 0.245
AIC 1448.8
BIC 1468.5
Log.Lik. -718.417
RMSE 9.45
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001
Regresion: modelo 3 con coeficientes estandarizados
 Corrupcion (III_st)
(Intercept) 0.202*
(0.097)
scale(CANON) 0.230***
(0.063)
TIPO_OP1 -0.344**
(0.127)
scale(HOGARES_DEP) 0.477***
(0.093)
scale(POBLACION) -0.105
(0.093)
Num.Obs. 196
R2 0.260
R2 Adj. 0.245
AIC 508.2
BIC 527.8
Log.Lik. -248.089
F 16.786
RMSE 0.86
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparacion

Comparando los resultados de los modelos

Resultados de todos los modelos de corrupcion
 apropiacion (I)  apropiacion (II)  apropiacion (III)
(Intercept) 38.985*** 35.966*** 38.254***
(0.796) (0.959) (1.267)
CANON 0.000*** 0.000*** 0.000***
(0.000) (0.000) (0.000)
POBLACION 0.000*** 0.000 0.000
(0.000) (0.000) (0.000)
HOGARES_DEP 0.004*** 0.004***
(0.001) (0.001)
TIPO_OP1 -3.793**
(1.401)
Num.Obs. 196 196 196
R2 0.130 0.232 0.260
R2 Adj. 0.121 0.220 0.245
AIC 1476.6 1454.2 1448.8
BIC 1489.7 1470.6 1468.5
Log.Lik. -734.312 -722.110 -718.417
F 14.396 19.300
RMSE 10.25 9.63 9.45
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Test ANOVA

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
193 20603.56 NA NA NA NA
192 18191.43 1 2412.1311 26.298593 0.0000007
191 17518.70 1 672.7306 7.334538 0.0073784

Column {data-width=500}

Interpretación

  • Hipotesis 1: El canon tiene un impacto directo en el índice de corrupción

Generamos un modelo para averiguar si estas dos variables se impactan entre ellas, ponemos como variable de control a la poblacion. En este modelo observamos que si hay una significancia entre las dos variables y el efecto es positivo. Es decir el aumento del canon si tiene efecto significativamente en el indice de corrupcion pero su efecto es minimo es por ello que en la tabla no llega a aparecer los decimales.

  • Hipotesis 2: La cantidad de hogares dependientes como el canon afectan conjuntamente dicho índice

Igualmente ambas variables son significativas pero en este caso el numero de hogares implica un mayor efecto en el indice de corrupcion de las provincias.

  • Hipotesis 3: El tipo de organización política, en combinación con la cantidad de hogares dependientes y el canon, inciden en el nivel de corrupción

Todas las variables son significativas excepto la poblacion que es nuestra variables de control, pero en este modelo vemos que el tipo de organizacion politica(TIPO_op), tiene un efecto negativo es decir que mientras exista presencia de movimiento regional el indice de corrupcion es menor. Esto ya lo habiamos planteado antes pero ahora si podemos asegurarlo.

Comparación

Grafico de los modelos anidados

Analisis:

Podemos observar que el modelo 3 es significativamente diferente a todos los demas modelos, gracias al ANOVA que nos ilustra un 0.07 en el p-value podemos afirmar que el mejor modelo de los que hemos planteado es el modelo 3 en el que se encuentran las tres variables dependientes.

SUPUESTOS

Column {data-width=700}

1 Principio de la linealidad

2 Homocedasticidad

Test Breusch-Pagan

studentized Breusch-Pagan test
BP df p.value
BP 8.913159 4 0.0633071
Grafico de homocedasticidad

3 Normalidad de Residuos

Grafico de residuos

Shapiro Test

Shapiro-Wilk normality test
SW p.value
W 0.9845988 0.0306256

4 NO Multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
CANON 1.016448
HOGARES_DEP 2.248863
TIPO_OP 1.016514
POBLACION 2.250593

5 VALORES INFLUYENTES

Grafico de outliners

Outliners

Valores Influyentes criticos
cook.d hat
105 TRUE TRUE
113 TRUE TRUE

Column {data-width=300}

Interpretacion:

El principio de linealidad si se cumple pero el de homocedasticina no yaque es muchos menor a 0.05 el valor segun el test de Breush Pragan debe ser mayor no menor como lo es en este caso. Respecto a la normalidad de residuos, mediante el test de Shapiro Wilk se detecta un resultado de 0.3339147, el cual es mayor a 0.05. Asimismo, el principio de no multicolinealidad se cumple, ya que tanto la variable de canon minero (1.125481), hogares dependientes (1.627534) y tipo de organización política (1.006356) presentan valor menor a 3. Por último, debido a que se retiraron las provincias de Lima y La Convención, se demuestra que no existen valores influyentes en este modelo.

SIN OUTLINERS

Column {data-width=650}

Modelo 4

Resultados de todos los modelos de corrupcion
 apropiacion (I)  apropiacion (II)  apropiacion (III)  apropiacion (IV)
(Intercept) 38.985*** 35.966*** 38.254*** 37.304***
(0.796) (0.959) (1.267) (1.141)
CANON 0.000*** 0.000*** 0.000*** 0.000*
(0.000) (0.000) (0.000) (0.000)
POBLACION 0.000*** 0.000 0.000 0.000***
(0.000) (0.000) (0.000) (0.000)
HOGARES_DEP 0.004*** 0.004*** 0.002*
(0.001) (0.001) (0.001)
TIPO_OP1 -3.793** -3.538**
(1.401) (1.253)
Num.Obs. 196 196 196 195
R2 0.130 0.232 0.260 0.405
R2 Adj. 0.121 0.220 0.245 0.393
AIC 1476.6 1454.2 1448.8 1397.8
BIC 1489.7 1470.6 1468.5 1417.4
Log.Lik. -734.312 -722.110 -718.417 -692.898
F 14.396 19.300
RMSE 10.25 9.63 9.45 8.45
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

1 Principio de la linealidad

2 Homocedasticidad

Test Breusch-Pagan

studentized Breusch-Pagan test
BP df p.value
BP 13.14702 4 0.0105793
Grafico de homocedasticidad

3 Normalidad de Residuos

Grafico de residuos

Shapiro Test

Shapiro-Wilk normality test
SW p.value
W 0.9895425 0.1656758

4 NO Multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
CANON 1.061514
HOGARES_DEP 1.608736
TIPO_OP 1.013703
POBLACION 1.670823

5 VALORES INFLUYENTES

Grafico de outliners

Outliners

Valores Influyentes criticos
cook.d hat
105 TRUE TRUE

Column {data-width=300}

Interpretacion:

A pesar de que se retiraron las provincias de La Convención, Cusco, y Lima, del departamento de Lima, se puede observar que no hay una mejora de los supuestos de la regresión lineal. Por lo que, se ha decidido mantener la hipótesis 3, previamnete planteada.

FACTORIZACION

Column {data-width=700}

Matriz de correlacion

                CANON POBLACION INCO2022 CANT_TRABAJADOR HOGARES_DEP
CANON            1.00      0.04     0.27            0.22        0.05
POBLACION        0.04      1.00     0.25            0.85        0.74
INCO2022         0.27      0.25     1.00            0.48        0.40
CANT_TRABAJADOR  0.22      0.85     0.48            1.00        0.79
HOGARES_DEP      0.05      0.74     0.40            0.79        1.00

Evaluaciones

Verificar si los datos permiten factorizar:
Kaiser-Meyer-Olkin factor adequacy
Call: psych::KMO(r = corMatrix)
Overall MSA =  0.69
MSA for each item = 
          CANON       POBLACION        INCO2022 CANT_TRABAJADOR     HOGARES_DEP 
           0.42            0.66            0.65            0.66            0.85 
Verificar la existencia de la matriz indentidad
[1] FALSE
Verificar la existencia de la matriz singular
[1] FALSE

Factores

Parallel analysis suggests that the number of factors =  2  and the number of components =  NA 

.


Loadings:
                MR1   MR2  
CANON                 0.422
POBLACION       0.940      
INCO2022        0.281 0.627
CANT_TRABAJADOR 0.885 0.400
HOGARES_DEP     0.798 0.218

                 MR1   MR2
SS loadings    2.384 0.779
Proportion Var 0.477 0.156
Cumulative Var 0.477 0.632

Visualización

Comprobacion de los factores

Factor mas influencia

          CANON        INCO2022     HOGARES_DEP       POBLACION CANT_TRABAJADOR 
      0.1786224       0.4718342       0.6843683       0.8836501       0.9438040 

Factor con mayor complejidad

      POBLACION           CANON     HOGARES_DEP        INCO2022 CANT_TRABAJADOR 
       1.000065        1.004420        1.148377        1.385997        1.391752 

Test Turkey

[1] 0.8255969

RMS

[1] 0.02820522

RMSEA

     RMSEA      lower      upper confidence 
 0.2180285  0.1122841  0.3478659  0.9000000 

BIC

[1] 5.044157
Ejemplo de tabla con kable y kable_styling
Test Resultado
Turkey 0.8300000
RMS 0.0200000
RMSA 0.2180285
BIC 5.0441570

Column

Interpretación

Como observamos, todas las correlaciones positivas por lo que no hay necesidad de forzar la positividad de alguna de estas.Vemos que en la prueba Kaiser-Meyer-Olkin, el canon es una variable con poco nivel de correlacion para la formacion de los factores, pero esa es la unica prueba que es desfavorable, la otras pruebas nos permiten continuar con el estudio factorial. La fución fa.parallel nos recomiendo crear dos factores. Al realizarlos vemos que el factor generado por la poblacion, cantidad de trabajadores y hogares dependiente economicamente tienen niveles mas alto de precision. Mientres que el Canon y el Indice de corrupcion, poseen problemas. Revisando que factores añaden mas complejidad y cual ayuda en mayor media a la construccion de los factores, observamos que en ambos casos quien mas complejidad y ayuda al analisis factoral es la cantidad de trabajadores municipales.

  • Test Tucker Lewis Como se puede observar en la tabla, el resultado es 0.83. Esto demuestra que el modelo, a través de este modelo, no indica un buen ajuste del modelo a los datos, ya que es menor a 0.9. Esto significa que, según el Test Tucker, el modelo presentado no explica tan bien las interacciones entre las variables dadas.

  • RMS En el caso del Root Mean Square Error, se demuestra un resultado de 0.02, el cual es un valor cercano al 0. De esta manera, a través de esta prueba, se puede mencionar que el modelo expuesto presenta un buen a los datos proporcionados. De esta manera, se puede asumir una gran precisión del modelo.

  • RMSA En el caso del Root Mean Square Error of Approximation, se expone un resultado de 0.218, el cual es un valor no tan cercano al 0. Por lo que, a través de esta prueba, se puede recomendar que el modelo expuesto puede tener mejores posibilidades de ajustes, que el que presenta actualmente.

  • BIC El BIC (Bayesian Information Criterion) presenta como resultado a 5.044, siendo este un valor alto. Esto implica que, debido al gran valor del BIC, el modelo propuesto describe un cierto grado de complejidad, es decir, que puede estar utilizando más factores de los necesarios.

CLUSTER

Column {data-width=650}

Estandarización

DATOS NORMALES

DATOS ESTANDARIZADOS

PAM

Número de cluster

Comprobando el modelo

Paises mal clausterizados

 [1] "BARRANCA"              "CAJATAMBO"             "CELENDIN"             
 [4] "CHACHAPOYAS"           "COTABAMBAS"            "DATEM DEL MARANON"    
 [7] "FERRENAFE"             "GENERAL SANCHEZ CERRO" "ILO"                  
[10] "NASCA"                 "OCROS"                 "OXAPAMPA"             
[13] "PASCO"                 "POMABAMBA"             "SAN MARTIN"           
[16] "SATIPO"                "SIHUAS"                "TAMBOPATA"            
[19] "TOCACHE"               "VIRU"                 

AGNES

Número de cluster

Comprobando el modelo

Paises mal clausterizados

 [1] "AMBO"                  "ASCOPE"                "ATALAYA"              
 [4] "CAMANA"                "CASMA"                 "CHANCHAMAYO"          
 [7] "CHEPEN"                "CHINCHA"               "CHUCUITO"             
[10] "CONTRALMIRANTE VILLAR" "EL COLLAO"             "HUARMEY"              
[13] "ISLAY"                 "JUNIN"                 "PAUCARTAMBO"          
[16] "SAN IGNACIO"           "TALARA"                "UCAYALI"              

DIANA

Número de cluster

Comprobando el modelo

Paises mal clausterizados

character(0)

COMPARACION

Grafico Pam

#### Grafico Agnes

Grafico Diana

Column {data-width=350}

INTERPRETACIÓN

  • Estandarización: Primero vemos una comparación entre los datos sin estandarizacion y estandarizados como observamos el que mas sufre un cambio es el indice de corrupcion nuestra variable dependiente es por ello que vamos a realizar la clusterizacion con los datos estandarizados para que el modelo se más preciso
  • PAM En el modelo PAM se nos sugirio la creacion de tres clusters, al hacerlo vemos como hay una gran cantidad de provincias que no han podido ser clusterizadas de forma precisa.
  • AGNES Por su parte en el modelo AGNES tambien se crean 3 clusters porque eso era lo que se indicaba, en este caso solo hay 18 paises mal clusterizados a pesar de ser menor cantidad de paises es necesario buscar otro modelo que se adapte mejor.
  • DIANA En el modelo DIANA, igual se eligen 3 clusters en este caso el diagrama nos decia que escojamo entre 3 y 4 clusters pero como vemos en este modelo cuando se lo divide entre 3 clusters no hay ningun pais mal clusterizado a traves de los silohuettes podemos observar que este es el mejor modelo
  • COMPARACIÓN Al observar las graficas entendemos porque en los silhouttes habia un cluster que no aparecia. Parece ser que hay solo un cluster que esta atrapando a un pais que posee valores atipicos grandes. Aun asi mantendremos nuestra decision de usar DIANA porque el indicador del Silohutte es mejor.