Reporte oficial sobre el nivel de pobreza del Perú a nivel provincial
Introducción
Hoy en día, se presenta constantemente la discusión de cuales países, ciudades y provincias son pobres y cuales no o qué factores influyen para el aumento de su pobreza o su disminución. Ante ello, resulta destacable cuestionarse¿Qué condiciones se le atribuye a un individuo como pobre?¿Cómo es esto medible?
Consideramos que definir el concepto de pobreza por cuenta propia —algo que puede ser entendible por el público general— es un poco complejo debido a que caeríamos a la arbitrariedad. Por lo que, en principio, rescatamos la definición de Amartya Sen
- “Ser pobre es tener un nivel de ingresos insuficiente para poder desarrollar determinadas funciones básicas, tomando en cuenta las circunstancias y requerimientos sociales del entorno, esto sin olvidar la interconexión de muchos factores.” (BID 2001)
En ese sentido, se presenta a la pobreza como la privación al acceso a realizar o tener lo considerado básico para el individuo. Implícitamente, ello es promovido por la escasez monetaria de cada individuo. Pero, también destaca la atribución de un enfoque multidimensional de los factores que me permiten predecir y estimar los niveles de pobreza en una población determinada. Es importante la realización de diagnósticos con este enfoque multidimensional; pues, servirá para la generación de data o información que, consecuentemente, puede ser utilizada por los tomadores de decisión para crear las estrategias pertinentes que promuevan y garanticen el bienestar de la población afectada.
En el Perú, se presentó que el nivel de pobreza para el año 2019 fue de 20.2% según el Instituto Nacional de Estadística e Informática (INEI), ente encargado en recolección y generación de información medible de pobreza . Para el año siguiente, como consecuencia de la pandemia, se reporto que ascendió a 30.2%. Ciertamente, se ha considerado las dimensiones y criterios que van más allá del carácter monetario para operacionalizar las condiciones de pobreza.
- “[…] se asocia con la incapacidad de las personas para satisfacer sus necesidades básicas de alimentación. Luego, se considera un concepto más amplio que incluye la salud, las condiciones de vivienda, educación, empleo, ingresos, gastos […]” (INEI 2000)
Como institución estadística, tiene innumerable registros de información de la población en diversas dimensiones (nivel distrital, provincial y por ciudades) , la cual van actualizando progresivamente mediante encuestas anuales y por los censos nacionales (los cuales se da cada 10 años). A partir de ello y mediante un proceso selectivo de información, van creando e identificando indicadores que permiten estimar la vulnerabilidad de la pobreza y que las caracterizan por cada dimensión en el Perú.
Resulta pertinente poder realizar una revisión y análisis de ciertos datos recogidos por esta institución, posiblemente no tomados en cuenta, que consideramos podrían interactuar en cuanto la variabilidad y distribución de la pobreza en el Perú a nivel provincial.
Objetivos
El propósito del reporte se realiza, mediante un sistema de complejidad organizada de adaptación, con el fin de identificar como se comporta el nivel de pobreza en el Perú a partir de diferentes aristas que la influyan: condición de vivienda, nivel educativo y los servicios que cuentan.
Se escogió al nivel de provincias como una medida de proyección evolutiva y cuantitativa de la población que permita concentrar las determinadas capas poblacionales pobres. Para dar a conocer una adecuada caracterización de la variabilidad de pobreza provincial, se realizara una serie de análisis a las determinadas variables, correspondientes al conjunto de aristas previamente detalladas, que nos permita:
Primero, estimar y modelar su relación con la variable que se busca a conocer (Nivel de pobreza). Además, que prediga valores basándonos en el modelo hallado.
Luego, aglomerar los elementos en común que obtengan cada variable para la identificación de los factores mediante su diferenciación.
Consecuentemente, definir los factores y reducir los que están altamente relacionados entre si y poder evaluar tanto eliminar datos poco relevantes hallados como indicarnos la factibilidad de las variables escogidas para el caso.
Variables a emplear
Para el reporte presente, se recurrió la revisión de la data registrada por la INEI obtenidas de los Censos Nacionales 2017: XII de Población, VII de Vivienda y III de Comunidades Indígenas para la selección de las variables que nos permita que pasaran por el sistema de análisis de complejidad organizada. En adición, se recurrió a la base a nivel provincial del CEPLAN para la obtención de la data del porcentaje pobreza total por población.
Por lo que, se realiza un enfoque en cuanto las condiciones y características por vivienda. Es decir, se estudiara la condición, dentro de la vivienda, con que cuenta la población para realizar sus diferentes actividades. De acuerdo con ello, se evaluara el porcentaje de pobreza(variable dependiente) según el abastecimiento de agua y el consumo de leña como energía domestica por vivienda (variables independientes). Asimismo, en complementación al aspecto monetario y los puntos multidimensionales, se utilizara el porcentaje de la población en cien mil como variable control.
Variable dependiente:
Porcentaje de la población en pobreza total (porpobre)
Dentro del CEPLAN (2021) , se presentaban los indicadores del nivel de pobreza total y extrema en situación en que no se dispone de los recursos que permitan satisfacer al menos las necesidades básicas de alimentación por departamento, provincia y distrito. Pues, con esta variable se busca, según el MEF, examinar las carencias específicas de los hogares que podrían afectar el desarrollo de su capital humano.
Considerando el enfoque monetario y para la elaboración de esta evaluación, se restringió por la dimensión provincia y por el nivel de pobreza total . En este caso, evaluara esta variable y se centrará la atención en indicadores complementarios (variables independientes).
Variables independientes:
La energía o combustible que utiliza para cocinar: leña (leña)
A través del REDATAM proporcionado por el Censo del 2017 de la INEI, se pudo indagar las diversas fuentes de energía o combustible que utilizan los hogares para cocinar los alimentos.
Se considero relevante la utilización de esta data para el análisis debido a que se puede presentar un escenario donde prima la ausencia de energía moderna para cocinar y seguras. Siendo la alimentación un principio vital en la población y la cocina y sus implementos un medio para sustentarse, no se presentan de igual manera según las condiciones socioeconómicas. La utilización de la leña podría significar un daño en el bienestar de la población (especialmente en la salud) como mostrar su estado de vulnerabilidad económica por no contar con los recursos suficientes para adquirir la tecnología suficiente y segura.
- ” en población mundial, 4000 millones de personas, de bajo y mediano ingreso, no pueden cocinar con tecnologías y combustibles limpios, de forma eficiente, segura, asequible y conveniente.” (Banco Mundial 2020)
Asimismo, revisando literaturas de previas investigaciones académicas que buscaban relacionar estos dos aspectos— las cuales han sido escasas— muestra que, en efecto, se presentan escenarios correlativos entre la condición escasa monetaria y el uso de la leña. Según Maribel Caicedo,
- “se puede definir que los mayores índices de consumo se encuentran en familias cuyas condiciones de vida no son las mejores y que se encuentran dentro de la población pobre (pobres no indigentes y pobres indigentes), determinándose así, que el consumo de leña alcanza porcentajes superiores en los hogares donde los más altos niveles de pobreza sí coinciden con el mayor consumo de este recurso” (2019, p.108)
El caso presentado por Caicedo (2019) fue un estudio de análisis estadístico en el territorio ecuatoriano. Este último, siendo muy cercano y teniendo ciertas similitudes con el Perú en condiciones sociales, nos muestra un indicio de la pertinencia del tema de las energías domesticas en los indicadores de pobreza. Según la INEI, se reporta el masivo consumo de la leña como combustible en las provincias de Piura, Chota y Cajamarca. Entonces, teniendo como precedente la presencia de este factor, nos parece interesante poder analizar esta determinada variable para explicar y mostrar un posible resultante en los niveles de pobreza provinciales.
Abastecimiento de agua en la vivienda: Red pública (redpublica)
Al igual que la variable anterior, se recurrió su obtención mediante a través del REDATAM del Censo 2017 de la INEI.
Asimismo, también se ha tomado en consideración la elección de esta data como parte de las variables posiblemente explicativas para mostrar la variabilidad de los niveles porcentuales de la pobreza. Pues, como lo estima la INEI (2020), el recurso del agua es indispensable para vivir y es de suma importancia la proporción de su servicio que incluye red pública para reducir las enfermedades y elevar las condiciones de vida en la población. La ausencia de este servicio puede significar, como dirían Bosh, et. al (1999), un impacto que recae en los sectores pobres.
- “La clara necesidad de servicios básicos de agua y saneamiento en los sectores pobres adquiere aún mayor significado cuando se consideran los vínculos con otras dimensiones de la pobreza.[educación, salud, consumo e inclusión social]” (p.3)
Se nos presenta que el abastecimiento de agua puede ser un buen indicador de pobreza debido a que afecta directamente a aspectos que, al igual a la pobreza, forman parte del bienestar del individuo. Segun Nash (2014), ambos [abastecimiento de agua y pobreza] mantienen una relación que no es evidente, pero que existen. Asimismo, coincide con lo presentado con Bosch: tiene un efecto consecuente con las dimensiones de pobreza.
- “Al año 2019, en 14 departamentos más del 91% de la población consumen agua proveniente de red pública (dentro de la vivienda, fuera de la vivienda, pero dentro del edificio o pilón de uso público), destacando dentro de este grupo los departamentos de Moquegua, Tacna, Provincia Constitucional del Callao, Apurímac, Arequipa, Provincia de Lima, Áncash y Lambayeque. En tanto, la población de los departamentos de Tumbes (78,8%), Ucayali (75,7), Huánuco (73,1%), Puno (71,6%) y Loreto (56,3%), presentan menor cobertura de agua por red pública. “ (INEI 2020, p.13)
Si bien es un problema aparentemente muy bien tratado, aun se muestra ciertos percances en otras zonas provinciales y con niveles altos en cada una de ellas. En sintonìa, puede deberse a los costos monetarios. Puede mostrarse escenarios donde el alcance y su distribución de la red publica se requiere de costos , lo cual impacta directamente para el sector que se analiza. Teniendo esa perspectiva, el considerar una variable que cuantifica la cantidad de viviendas con abastecimiento de agua por red publica, nos plasma una posible correlación entre esta variable explicativa con la variable que se busca explicar :nivel pobreza
Análisis de regresión
Para el inicio de este análisis de regresión entre las variables presentadas, se requirió plantearse las hipótesis correspondientes:
H1: El porcentaje de pobreza responde bajo criterios de abastecimiento de agua mediante la red publica por vivienda
H2: El porcentaje de pobreza responde bajo criterios de consumo de leña como combustible de cocina por vivienda y abastecimiento de agua mediante la red publica por vivienda.
A continuación, se muestra la tabla la cual nos ha llegado a elegir por la segunda hipótesis. Para ello, se debe ver la diferencia significativa de ambos modelos.
##
## Table de Análisis de Varianza-ANOVA
## =================================================
## Res.Df RSS Df Sum of Sq F Pr(> F)
## -------------------------------------------------
## 1 193 31,574.970
## 2 192 17,546.650 1 14,028.320 153.502 0
## -------------------------------------------------
A través de la tabla anova, podemos contrastar la proposición de igualdad de varianzas en nuestros modelos. Ademas, se muestra que el modelo 2 reduce el error al incluir una variable adicional (es decir, incluir la variable de abastecimiento de agua con el consumo de leña en el modelo). Por ello, se concluyo la selección del modelo 2
Demanera mas completa, se muestra una tabla que nos indica en que porcentaje de explicacion toma cada modelo para la variabilidad de la variable de nivel porcentual de pobreza.
##
## ===================================================================
## Dependent variable:
## -----------------------------------------------
## porpobre
## (1) (2)
## -------------------------------------------------------------------
## redpublica -0.366*** -0.219***
## (0.049) (0.038)
##
## leña 0.327***
## (0.026)
##
## poblacion -0.106 0.211*
## (0.148) (0.114)
##
## Constant 52.347*** 24.790***
## (2.803) (3.055)
##
## -------------------------------------------------------------------
## Observations 196 196
## R2 0.239 0.577
## Adjusted R2 0.231 0.570
## Residual Std. Error 12.791 (df = 193) 9.560 (df = 192)
## F Statistic 30.255*** (df = 2; 193) 87.275*** (df = 3; 192)
## ===================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Fue posible realizar una comparación entre ambos modelos. De acuerdo a ello, indica que el modelo dos tiene un grado de significancia mayor por el aumento de una variable de redpublica al modelo, en comparacion del modelo 1 que solo cuenta con la variable de consumo de leña. Debido a que, el 57,7% del porcentaje de la variabilidad de porpobre es predicho por redpublica y leña, segun la revision del r ajustado. Asimismo, ambas variables resultan ser significativas para la explicacion de la variable porpobre.
Esto nos quiere decir que, tanto el abastecimiento de agua a las viviendas por redpublica como el consumo de leña como combustible domestico nos permite explicar el 57,7% de los niveles de porcentuales de pobreza total.
Análisis de clusterización o conglomerado
Con el metodo de la partición de los datos, disponemos de datos que sospechamos son heterogéneos y se desea dividirlos en un número de grupos prefijado, de manera que: cada elemento pertenezca a uno y sólo uno de los grupos; todo elemento quede clasificado; cada grupo sea internamente homogéneo
Asimismo, evidenciamos mediante la grafica de multidimensional que la clusterizacion de las diversas aristas del nivel de pobreza segun por provincias ha sido exitosa. Pues, no se ha llegado a presentar casos atipicos de particion
Análisis Factorial
Mediante este analisis, se puede deprender el resumen de informacion contenida. Se pudo obtener dos conceptos para explicar el nivel de pobreza mediante las variables. Ello muestra que no se presento un buen augurio en estas variables para explicar la variabilidad del nivel de pobreza.Ello quiere decir que las influencias de los factores utilizados el método de extracción de componentes principales no permiten explicar la mayor parte de la variabilidad de la variable porpobre
Conclusion
Si bien a traves de la regresión de las variables se ha mostrado que es permisible la explicacion en un 57,7% de los niveles de porcentuales de pobreza total y, mediante el analisis conglomerado se pudo indetificar la petenencia de estas variables a determinados grupos ante los niveles de pobreza; A traves del analisis factorial, hemos obtenido resultados no tan favorables para la explicación del nivel de pobreza en dimension provincial. Por lo que, las variables empleadas en cuanto a las condiciones de vivienda escogidas puede que no sean las adecuadas a las expliciacion de pobreza.
====================================================================================================================================
Anexos
REGRESION (anexo 1)
Representación de las hipótesis:
- H1: “El porcentaje de pobreza responde bajo criterios de abastecimiento de agua mediante la red publica por vivienda” ,controlando por “el tamaño de la población”.Esto se figuaria de la siguiente manera:
##
## Call:
## lm(formula = porpobre ~ redpublica + poblacion, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -35.561 -8.519 0.016 9.082 40.664
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 52.34678 2.80268 18.677 < 2e-16 ***
## redpublica -0.36564 0.04852 -7.536 1.84e-12 ***
## poblacion -0.10576 0.14804 -0.714 0.476
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.79 on 193 degrees of freedom
## Multiple R-squared: 0.2387, Adjusted R-squared: 0.2308
## F-statistic: 30.26 on 2 and 193 DF, p-value: 3.722e-12
library(stargazer)
stargazer(reg1, type = "html",intercept.bottom = FALSE, style="all2")| Dependent variable: | |
| porpobre | |
| Constant | 52.347*** |
| (2.803) | |
| redpublica | -0.366*** |
| (0.049) | |
| poblacion | -0.106 |
| (0.148) | |
| Observations | 196 |
| R2 | 0.239 |
| Adjusted R2 | 0.231 |
| Residual Std. Error | 12.791 (df = 193) |
| F Statistic | 30.255*** (df = 2; 193) (p = 0.000) |
| Note: | p<0.1; p<0.05; p<0.01 |
Viendo la regresión, se puede estimar que redpublica tiene un efecto significativo al 0.1; asimismo, tiene un efecto inversamente proporcional, ya que el coeficiente calculado es negativo; y, por ultimo, su magnitud es de -0.366,es decir, lo que varía porpobre en promedio cuando redpublica se disminuya en una unidad, controlando por poblacienmil.
Se puede representar esa relación mediante una ecuación:
porpobre= 52.347+-0.366.redpublica+ -0.106⋅poblacioncienmil+ϵ
Adicional mente, se brinda una estimación del R cuadrado ajustado (0.2336) que nos aproxima un porcentaje de una pista posible a la escenario que se quiere evaluar
Pero,¿Si evaluamos bajo el consumo de leña como combustible?…
- H2: El porcentaje de pobreza responde bajo criterios de consumo de leña como combustible de cocina por vivienda
##
## Call:
## lm(formula = porpobre ~ redpublica + leña + poblacion, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23.7496 -6.1140 -0.9792 6.7264 27.9474
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 24.79013 3.05530 8.114 5.73e-14 ***
## redpublica -0.21875 0.03815 -5.733 3.77e-08 ***
## leña 0.32685 0.02638 12.390 < 2e-16 ***
## poblacion 0.21137 0.11356 1.861 0.0642 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.56 on 192 degrees of freedom
## Multiple R-squared: 0.5769, Adjusted R-squared: 0.5703
## F-statistic: 87.27 on 3 and 192 DF, p-value: < 2.2e-16
| Dependent variable: | |
| porpobre | |
| Constant | 24.790*** |
| (3.055) | |
| redpublica | -0.219*** |
| (0.038) | |
| leña | 0.327*** |
| (0.026) | |
| poblacion | 0.211* |
| (0.114) | |
| Observations | 196 |
| R2 | 0.577 |
| Adjusted R2 | 0.570 |
| Residual Std. Error | 9.560 (df = 192) |
| F Statistic | 87.275*** (df = 3; 192) (p = 0.000) |
| Note: | p<0.1; p<0.05; p<0.01 |
Al igual que el anterior modelo, al probar esta hipótesis vemos, que redpublica también tiene efecto significativo al 0.1 ; ese efecto es inverso, pues el coeficiente calculado es negativo; y la magnitud de ese efecto es -0.219, lo que indica cuanto varía porpobre en promedio cuando redpublica se disminuya en una unidad, controlando por poblacienmil.
Pero, vemos que leña tiene efecto significativo al 0.001 ; ese efecto es directa, pues el coeficiente calculado es positiva ; y la magnitud de ese efecto es 0.327, lo que indica cuanto varía porpobre en promedio cuando leña aumenta en una unidad (también controlado por poblacienmil).
Esto es información suficiente para representar esa relación con una ecuación:
popobre=24.790+ -0.219⋅redpublica+0.327.leña+ 0.211⋅poblacioncienmil+e
Hemos podido percibir dos modelos que nos permitian brindar los escenarios esperados; no obstante, se escogerá uno de ellos. Para ello, y como ya se vio, se empleara la tabla anova
- H0= Existe una igualdad de varianzas entre las medias grupales de ambos modelos
tabla de de análisis de variaran
stargazer(tanova,type='html',summary = F,title = "Table de Análisis de Varianza")| Res.Df | RSS | Df | Sum of Sq | F | Pr(> F) | |
| 1 | 193 | 31,574.970 | ||||
| 2 | 192 | 17,546.650 | 1 | 14,028.320 | 153.502 | 0 |
Se contrasto la hipótesis nula planteada. El modelo 2 reduce el error al incluir una variable mas (es decir, ambas variables independientes). Por ello, se escogió el modelo 2
=================================================================
Teniendo definido al modelo de regresión, se debe verificar si se encuentra adecuado para el estudio del caso.
Diagnostico (ANEXO 02)
linealidad
Se asumio relación lineal entre Y y Xs:
- Según la gráfica de dispersión de los valores predichos y los residuos, se muestra, aparentemente, que se cumple un supuesto de linealidad. La linea roja se encuentra de manera horizontal.Por lo que, la variable porpobre esta lineal mente relacionada con las variables redpublica y leña. Los errores estan parcialmente bien distribuidos, a pesar de poder visualizar 3 datos que pueden ser atipicos e influyentes.
Homocedasticidad
Se asumió que el error del modelo de regresión no afecta a la varianza o dispersión de la estimación
- H0= la varianza de los errores es la misma para cualquier combinación de los valores de las variables independientes
Según el gráfico, se puede decir que es homocedàstico ya que parece que gran parte de los valores de la variable de predicción se forman de manera homogénea y puede que los errores sean constantes.
##
## studentized Breusch-Pagan test
##
## data: reg2
## BP = 22.836, df = 3, p-value = 4.368e-05
Es un valor significativo; pero, la probabilidad de homocedasticidad es muy baja (p-value menor a 0.05) y puede que los errores se distribuyen normalmente. Rechazo la homocedasticidad
Normalidad de residuos
Los residuos, la diferencia entre porpobre y las variables deben distribuirse de manera normal:
- Se puede apreciar que los residuos no se destruyen; por lo que, aparentemente se presenta una distribución normal
Realizamos la prueba de normalidad Shapiro- wilk para verificar
- H0: La distribución es normal H1: La distribución no es normal
##
## Shapiro-Wilk normality test
##
## data: reg2$residuals
## W = 0.99148, p-value = 0.305
Podemos observar que si existe diferencias significativas con la distribución (p-value<0.05); por lo tanto, rechazamos a nuestra hipótesis nula. Presentamos una distribución normal
no multicolinealidad
Si los predictores tienen una correlación muy alta entre sí, hay multicolinealidad, lo cual no es deseable:
## redpublica leña poblacion
## 1.135257 1.189039 1.080524
Evaluando cada variable independiente, se observa que no hay multicolinealidad. No se presenta factor de inflasiòn de varianzas. Por lo que nos indica que es un buen modelo. Asimsimo, no hay ningún tipo de correlación o dependencia entre las variables explicativas.
influyentes
Hay casos particulares, que tienen la capacidad de influir lo que el modelo representa. A veces es mejor detectarlos y,en lo posible, suprimiéndolos:
Viendo a la gráfica, no se presenta un valores extremadamente atípicos, exceptuando uno. No obstante, se prevee que no pueda influir severamente al modelo. Pero, es pertinente recuperar los posibles casos influyentes:
## dfb.1_ dfb.rdpb dfb.leña dfb.pblc dffit cov.r cook.d hat
## 1 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 2 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 3 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 4 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 5 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 6 FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
Observaciones extremas respecto a x: valor de distancia
Distancia cook: mide la influencia de cada observación en el modelo
hatvalue: las predicciones hechas por el modelo para cada observación.
## [1] dfb.1_ dfb.rdpb dfb.leña dfb.pblc dffit cov.r cook.d hat
## <0 rows> (or 0-length row.names)
Se puede apreciar que no se ha detectado valores que afecten la regresión. En conclusión, el modelo 2 presenta ser un buen modelo para la investigación de la pobreza en base a las condiciones de viviendas.
Hemos visto que el modelo presenta linealidad entre las variables independientes (redpublica y leña) con la dependiente (porpobre). Es decir, que existe una relación lineal (correctamente especificado) entre abastecimiento de agua y consumo de leña como energía en el porcentaje de pobreza. No obstante, presenta una homocedasticidad baja .A pesar de esto, los problemas de la homocedasticidad y de distribución normal pueden tener consecuencias muy leves al modelo.En cuanto al supuesto de no multicolinealidad, lo llega a cumplir, no presenta una relación de dependencia entre las variables explicativas (incluyendo a la variable de control) que puede ser perjudicial al modelo.Por ultimo, no se ha presentado valores influyentes o atípicos extremos que puedan tener un mayor peso en la formulación del modelo y distorsionarlo.
=================================================================
ANALISIS CONGLOMERADO (ANEXO 03)
Preparación links de las data en conjunto a la data investigada por parte de los otros integrantes del grupo para ver como se estableceria la agruapcion e diferenciacion para el analisis de nivel de pobreza.
library(rio)
data2="https://github.com/FrankNapan/TRABAJO-FINAL/blob/main/Base.FNR.xlsx?raw=true"
data2= import(data2)
data3= "https://github.com/camilachurampi03/Trabajo-Grupal/blob/main/basedata_CM.xlsx?raw=true"
data3= import(data3)str(data2)## 'data.frame': 196 obs. of 6 variables:
## $ Código : num 101 102 103 104 105 106 107 201 202 203 ...
## $ Provincia : chr "Chachapoyas" "Bagua" "Bongara" "Condorcanqui" ...
## $ IDH : num 54.3 46.1 41.3 25.4 34.1 ...
## $ NOAlumbradoelectxred: num 12.5 32.4 17.6 81.6 14.7 ...
## $ NOConexióninter : num 89.1 95.3 97 99.4 98 ...
## $ Porcentaje pobreza : num 22 34.8 33.2 56.8 48.1 33.2 29.9 14.5 31.7 41.1 ...
str(data3)## 'data.frame': 196 obs. of 6 variables:
## $ codigo : num 101 102 103 104 105 106 107 201 202 203 ...
## $ provincias : chr "Chachapoyas" "Bagua" "Bongara" "Condorcanqui" ...
## $ porpobre : num 22 34.8 33.2 56.8 48.1 33.2 29.9 14.5 31.7 41.1 ...
## $ poblacion : num 0.555 0.741 0.256 0.425 0.444 ...
## $ SinNivel : num 6.3 9.77 9.37 12.79 12.56 ...
## $ InstotroDistrito: num 7.89 6.72 13.56 2.69 8.36 ...
- Integrando la data> Tenemos tres tablas, con la misma unidad de análisis (PROVINCIAS). Pasemos a integrarlas en una sola. Identifiquemos el campo común :“key”
## [[1]]
## [1] "provincias" "porpobre" "redpublica" "leña"
##
## [[2]]
## [1] "Código" "Provincia" "IDH"
## [4] "NOAlumbradoelectxred" "NOConexióninter" "Porcentaje pobreza"
##
## [[3]]
## [1] "codigo" "provincias" "porpobre" "poblacion"
## [5] "SinNivel" "InstotroDistrito"
VImos que hay campos necesarios e innecesarios. En este caso, consideramos las variables sin nivel educativo (SinNivel) y Noconexcnintern (No conexcion a internet) para el proceso de agromeracion
En este paso, verificamos la distribución (y posible transformación). Notamos que los valores no son tan distintos a los demás. No obstante, ello no implica que no debemos transformar los datos para evitar confundir a los algoritmos de conglomeración. Los valores presenten se encuentra entre -1 y 1
Aca se aprecia un establecimiento de un rango que va de 0 a 1, pero podemos ver que se presentan valores distintivos
No obstante, para la estandarizacion, se ve muy parecido a lo previamente visto por el primer boxplot. La mediana es casi a 0 y se ve positiva . Por lo que, nos quedamos con esta ultima opcion.
library(BBmisc)
boxplot(normalize(allData[,-1],method='standardize'))## provincias porpobre redpublica leña
## Length:196 Min. :-2.41870 Min. :-2.8690 Min. :-1.3699
## Class :character 1st Qu.:-0.80904 1st Qu.:-0.5599 1st Qu.:-0.9130
## Mode :character Median :-0.07021 Median : 0.1372 Median :-0.2851
## Mean : 0.00000 Mean : 0.0000 Mean : 0.0000
## 3rd Qu.: 0.68919 3rd Qu.: 0.7993 3rd Qu.: 0.9234
## Max. : 1.98342 Max. : 1.6193 Max. : 1.9983
## nointernet SinNivel
## Min. :-0.8854 Min. :-2.9979
## 1st Qu.:-0.7028 1st Qu.:-0.7957
## Median :-0.4637 Median : 0.1260
## Mean : 0.0000 Mean : 0.0000
## 3rd Qu.: 0.4878 3rd Qu.: 0.8939
## Max. : 4.0251 Max. : 1.6489
cor(allData[,-1])## porpobre redpublica leña nointernet SinNivel
## porpobre 1.0000000 0.4864938 0.7071131 0.6962871 0.7697377
## redpublica 0.4864938 1.0000000 0.3376028 0.5690970 0.3652116
## leña 0.7071131 0.3376028 1.0000000 0.7595025 0.7160907
## nointernet 0.6962871 0.5690970 0.7595025 1.0000000 0.6722006
## SinNivel 0.7697377 0.3652116 0.7160907 0.6722006 1.0000000
allData$porpobre=-1*allData$porpobre
allData$leña=-1*allData$leña
allData$nointernet=-1*allData$nointernet
allData$SinNivel=-1*allData$SinNivel
#ahora:
cor(allData[,-1])## porpobre redpublica leña nointernet SinNivel
## porpobre 1.0000000 -0.4864938 0.7071131 0.6962871 0.7697377
## redpublica -0.4864938 1.0000000 -0.3376028 -0.5690970 -0.3652116
## leña 0.7071131 -0.3376028 1.0000000 0.7595025 0.7160907
## nointernet 0.6962871 -0.5690970 0.7595025 1.0000000 0.6722006
## SinNivel 0.7697377 -0.3652116 0.7160907 0.6722006 1.0000000
Que el mayor valor, sea el mejor valor para todos, por eso que todos estan positivos, al igual al menor valor. Por eso, se realizo la tecnica de monotomia, la cual hace que todas las variables estean en positivo.
A continuacion empleamos la tecnica de row.name porque no debemos usar los nombres en la clusterización (columna), pero tampoco debemos perderlos:
dataClus=allData[,-1]
row.names(dataClus)=allData$provinciasCLUSTERIZACION
Proposicion de cantidad de clusters:
library(cluster)
g.dist = daisy(dataClus, metric="gower")opcion 1: PAM
library(factoextra)
fviz_nbclust(dataClus, pam,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F)opcion 2: AGNES
library(factoextra)
fviz_nbclust(dataClus, hcut,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F,hc_func = "agnes")OPCION 3: DIANA
## PARA JERARQUICO
library(factoextra)
fviz_nbclust(dataClus, hcut,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F,hc_func = "diana")Por metodo agnes, se selecciono realizar una agrupacion de 6 clusters debido a que se presenta lo mas cercano un distancia significativa. Evaluamos resultados:
###pam
set.seed(123)
grupos=6
res.pam=pam(g.dist,k = grupos,cluster.only = F)
dataClus$pam=res.pam$cluster
###agnes
res.agnes<- hcut(g.dist, k =grupos,hc_func='agnes',hc_method = "ward.D")
dataClus$agnes=res.agnes$cluster
### diana
res.diana <- hcut(g.dist, k = grupos,hc_func='diana')
dataClus$diana=res.diana$clusterfviz_silhouette(res.pam)## cluster size ave.sil.width
## 1 1 39 0.24
## 2 2 39 0.28
## 3 3 35 0.24
## 4 4 37 0.15
## 5 5 35 0.42
## 6 6 11 0.39
fviz_silhouette(res.agnes)## cluster size ave.sil.width
## 1 1 47 0.16
## 2 2 58 0.25
## 3 3 40 0.22
## 4 4 13 0.36
## 5 5 28 0.49
## 6 6 10 0.46
fviz_silhouette(res.diana)## cluster size ave.sil.width
## 1 1 35 0.18
## 2 2 68 0.24
## 3 3 38 0.25
## 4 4 24 0.29
## 5 5 14 0.26
## 6 6 17 0.30
En vista de las siluetas presentadas, escogemos agnes y encontramos los casos MAL clusterizados (silueta negativa). por lo que, hemos estando regulando los mal clusterizados
library(magrittr)
silPAM=data.frame(res.pam$silinfo$widths)
silPAM$country=row.names(silPAM)
poorPAM=silPAM[silPAM$sil_width<0,'country']%>%sort()
silAGNES=data.frame(res.agnes$silinfo$widths)
silAGNES$country=row.names(silAGNES)
poorAGNES=silAGNES[silAGNES$sil_width<0,'country']%>%sort()
silDIANA=data.frame(res.diana$silinfo$widths)
silDIANA$country=row.names(silDIANA)
poorDIANA=silDIANA[silDIANA$sil_width<0,'country']%>%sort()
###
library("qpcR")
mal_Clus=as.data.frame(qpcR:::cbind.na(poorPAM, poorAGNES,poorDIANA))
mal_Clus## poorPAM poorAGNES poorDIANA
## 1 Ambo Ayabaca Andahuaylas
## 2 Anta Castrovirreyna Carhuaz
## 3 Caravelí Chumbivilcas Chepén
## 4 Celendín Concepción Espinar
## 5 Chumbivilcas Contralmirante Villar Huamalíes
## 6 Churcampa Gran Chimú Huancavelica
## 7 Huarmey Huancabamba Huari
## 8 Huaytará Junín Huarochirí
## 9 Lucanas Lauricocha Jaén
## 10 Otuzco Manu Lauricocha
## 11 Paita Marañón Manu
## 12 Piura Nazca Oxapampa
## 13 San Miguel Paucartambo Palpa
## 14 Santa Cruz Piura Pasco
## 15 Santiago de Chuco Puerto Inca Puerto Inca
## 16 Tahuamanu Quispicanchi Puno
## 17 <NA> Rioja Sechura
## 18 <NA> San Ignacio <NA>
## 19 <NA> Sullana <NA>
## 20 <NA> Tambopata <NA>
## 21 <NA> Yarowilca <NA>
## 22 <NA> Zarumilla <NA>
Realizamos un recodificacion de los clustears
original=aggregate(.~ agnes, data=dataClus,mean)
original[order(original$SinNivel),]## agnes porpobre redpublica leña nointernet SinNivel pam
## 5 5 -1.34132526 1.13865602 -1.4702266 -1.9438446 -1.29648752 4.857143
## 1 1 -0.81848272 0.37292491 -0.6349964 -0.4258865 -0.67061944 1.829787
## 3 3 0.02821467 -0.02460846 0.4648662 0.4537192 -0.06156878 2.900000
## 4 4 0.77568085 -2.08567812 0.7904180 0.7623544 0.18739612 4.000000
## 6 6 0.76892946 -1.21348264 -1.2461529 0.6851394 0.30716609 6.000000
## 2 2 0.98489763 -0.15822171 0.9414245 0.6816129 1.11682250 2.775862
## diana
## 5 4.285714
## 1 2.425532
## 3 3.050000
## 4 2.384615
## 6 4.600000
## 2 2.068966
dataClus$agnes=dplyr::recode(dataClus$agnes, `2` = 1, `6`=2,`4`=3,`3`=4,`1`=5,`5`=6)Finalmente, se obtuvo la grafica multidimendisional dbscan en agnes, mas no significa sea un grafico de densidad.
proyeccion = cmdscale(g.dist, k=2,add = T) # k es la cantidad de dimensiones
dataClus$dim1 <- proyeccion$points[,1]
dataClus$dim2 <- proyeccion$points[,2]
base= ggplot(dataClus,aes(x=dim1, y=dim2,label=row.names(dataClus)))
base + geom_text(size=2, aes(color=as.factor(agnes))) + labs(title = "AGNES")Finalmente, se obtuvo la grafica multidimendisional dbscan en agnes, mas no significa sea un grafico de densidad. No evidenciamos problemas hasta el momento y durante el proceso de clusterizacion.
Procedemos a visualizar el dendograma, nos muestra el proceso de conglomeración. Asimismo, se presenta que la particion fue normal y que, al parecer, el tiempo de concretar los clusters ,segun el heigh, no ha sido duro o costoso.
fviz_dend(res.agnes, cex = 0.7, horiz = T)## Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> =
## "none")` instead.
=================================================================
Análisis Factorial Exploratorio (EFA) (ANEXO 04)
Se requiere que hagamos algunas observaciones previas. Calculemos y vemos la matriz de correlación
dontselect=c("provincias","porpobre")
select=setdiff(names(allData),dontselect)
theData=allData[,select] # sin los Scores ni nombre de país.
# esta es:
library(polycor)
corMatrix=polycor::hetcor(theData)$correlationsEn el gráfico, se aprecio la no presencia de puntos blancos, pero aun se puede sospechar sobre este en el transcurso de análisis factorial. Pero inicialmente, consideramos que todas las variables se encuentran correlacionadas. Por lo que, se verifico si datos permiten factorizar:
library(psych)
psych::KMO(corMatrix) ## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = corMatrix)
## Overall MSA = 0.72
## MSA for each item =
## redpublica leña nointernet SinNivel
## 0.68 0.70 0.70 0.82
el KMO sale 0.72, es decir un MCA para cada variable, es difcil de captar un concepto latente. Se estima que la variable puede ayudar mas es el de sinNivel. Se tuvo que verificar si la matriz de correlaciones es adecuada
- H0: La matriz de correlacion es una matriz identidad
cortest.bartlett(corMatrix,n=nrow(theData))$p.value>0.05## [1] FALSE
No existe matriz de identidad.
- Hnula: La matriz de correlacion es una matriz singular.
library(matrixcalc)
is.singular.matrix(corMatrix)## [1] FALSE
Determinar en cuantos factores o variables latentes podríamos redimensionar la data:
fa.parallel(theData,fm = 'ML', fa = 'fa',correct = T)## Parallel analysis suggests that the number of factors = 2 and the number of components = NA
Se me sugiere agrupar en 2 factores, se puede observar que hay dos conceptos observados
Ahora pasamos a redimensionar a numero menor de factores Resultado inicial:
library(GPArotation)
resfa <- fa(theData,
nfactors = 1,
cor = 'mixed',
rotate = "varimax",
fm="minres")
print(resfa$loadings)##
## Loadings:
## MR1
## redpublica -0.507
## leña 0.832
## nointernet 0.930
## SinNivel 0.775
##
## MR1
## SS loadings 2.414
## Proportion Var 0.604
print(resfa$loadings,cutoff = 0.5)##
## Loadings:
## MR1
## redpublica -0.507
## leña 0.832
## nointernet 0.930
## SinNivel 0.775
##
## MR1
## SS loadings 2.414
## Proportion Var 0.604
fa.diagram(resfa)Notamos las variables que aportan a los factores
sort(resfa$communality)## redpublica SinNivel leña nointernet
## 0.2567133 0.6009374 0.6914204 0.8653064
Parcialmente la mayoria, pero en este caso es destacable que la variable leña , no internet y Sin Nivel Educativo son las que mas aportan a los factores.
Asimsimo, la variable que contribuye es el de no conexion de internet
sort(resfa$complexity)## redpublica leña nointernet SinNivel
## 1 1 1 1
ANALISIS FACTORIAL CONFIRMATORIO
modeloo <- ' porpobre =~ redpublica + leña + nointernet + SinNivel'theDataNorm=as.data.frame(scale(theData))
library(lavaan)## This is lavaan 0.6-12
## lavaan is FREE software! Please report any bugs.
##
## Attaching package: 'lavaan'
## The following object is masked from 'package:psych':
##
## cor2cov
cfa_fit <- cfa(modeloo, data=theDataNorm,
std.lv=TRUE,
missing="fiml")allParamCFA=parameterEstimates(cfa_fit,standardized = T)
allFitCFA=as.list(fitMeasures(cfa_fit))allParamCFA[allParamCFA$op=="=~",]## lhs op rhs est se z pvalue ci.lower ci.upper std.lv
## 1 porpobre =~ redpublica 0.527 0.073 7.259 0 0.385 0.669 0.527
## 2 porpobre =~ leña -0.849 0.062 -13.805 0 -0.970 -0.729 -0.849
## 3 porpobre =~ nointernet -0.895 0.061 -14.776 0 -1.014 -0.777 -0.895
## 4 porpobre =~ SinNivel -0.778 0.064 -12.150 0 -0.903 -0.652 -0.778
## std.all std.nox
## 1 0.528 0.528
## 2 -0.851 -0.851
## 3 -0.898 -0.898
## 4 -0.780 -0.780
allFitCFA[c("chisq", "df", "pvalue")] # pvalue>0.05## $chisq
## [1] 33.35353
##
## $df
## [1] 2
##
## $pvalue
## [1] 5.719707e-08
allFitCFA$tli # > 0.90## [1] 0.7667742
allFitCFA[c('rmsea.ci.lower','rmsea' ,'rmsea.ci.upper')] # 0.05 en el Int de Conf?## $rmsea.ci.lower
## [1] 0.2033715
##
## $rmsea
## [1] 0.2828135
##
## $rmsea.ci.upper
## [1] 0.3708874
scorescfa=normalize(lavPredict(cfa_fit),
method = "range",
margin=1, # by column
range = c(0, 10))Se confirma el no buen augurio de las variables
Bibliografía
Banco Interamericano de Desarrollo (BID) (2001, 1 julio). Amartya Sen y las mil caras de la pobreza | IADB. Noticias BID. Recuperado 6 de julio de 2022, de https://www.iadb.org/es/noticias/amartya-sen-y-las-mil-caras-de-la-pobreza
Caicedo Meneses, C. M. (2019) La pobreza como determinante del consumo de leña para cocinar y su efecto en la deforestación de los bosques del Ecuador entre 1982-2017 (Master’s thesis, Quito, Ecuador: Flacso Ecuador).
Bosch, C., Hommann, K., Sadoff, C., & Travers, L. (1999). Agua, saneamiento y la pobreza. Bibl. virtual Desarro. Sosten. y salud, 1-44.
INEI. Censos Nacionales XII de Población y VII de Vivienda, 22 de octubre del 2017, Perú: Resultados Definitivos. Lima, octubre de 2018.
. INEI. Perú Encuesta Demográfica y de Salud Familiar 2000. Informe Principal. Lima, Perú, mayo del 2001
Nath, A. (2014, 2 mayo). Sin agua no hay salida a la pobreza. El PAIS. https://elpais.com/elpais/2014/04/30/planeta_futuro/1398883387_823114.html