######PREGUNTA 1
###VARIABLE DEPENDIENTE
***DATA ORIGINAL Prevalencia de casos de niños(as) <5 años a nivel de PROVINCIAS (“neumonia”) La data se construyó a partir de la información de la SALA SITUACIONAL del Centro Nacional de Epidemiología, Prevención y Control de Enfermedades del año 2018 (variable numerica)
library(openxlsx)
link1= "https://docs.google.com/spreadsheets/d/e/2PACX-1vT1w842ldEsmlvPAbyPhQD6lhDHMurICPCehefpyabv8lCK-PmLjnU67IZqqZOAviHffW6EmIooL37W/pub?output=xlsx"
neumonia= read.xlsx(link1,
sheet= 1,
skipEmptyRows = T,
skipEmptyCols = T)
names(neumonia)= c("region", "ubigeoProvincia", "PROVINCIA","numcasos")
neumonia$region= NULL
neumonia$ubigeoProvincia= NULL
str(neumonia)
## 'data.frame': 195 obs. of 2 variables:
## $ PROVINCIA: chr "Chachapoyas" "Bagua" "Bongará" "Condorcanqui" ...
## $ numcasos : num 12 207 5 209 16 13 38 181 8 3 ...
summary(neumonia$numcasos)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 11.5 28.0 144.2 105.0 8991.0
head(neumonia)
## PROVINCIA numcasos
## 1 Chachapoyas 12
## 2 Bagua 207
## 3 Bongará 5
## 4 Condorcanqui 209
## 5 Luya 16
## 6 Rodríguez de Mendoza 13
###VARIABLE INDEPENDIENTE
***DATA Porcentaje de niños(as) <5 años con algún tipo de seguros a nivel de PROVINCIAS (“cseguro”) Variable numérica
cseguro= read.xlsx(link1,
sheet=3,
skipEmptyRows = T,
skipEmptyCols = T)
names(cseguro)= c("ubigeoProvincia", "PROVINCIA", "siseguro")
cseguro$region= NULL
cseguro$ubigeoProvincia= NULL
str(cseguro)
## 'data.frame': 195 obs. of 2 variables:
## $ PROVINCIA: chr "Chachapoyas" "Bagua" "Bongará" "Condorcanqui" ...
## $ siseguro : num 78.6 86.4 67.4 85.2 83.4 64.2 80.8 59.6 50.3 75.1 ...
summary(cseguro$siseguro)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 36.30 62.20 72.90 71.73 82.75 92.30
head(cseguro)
## PROVINCIA siseguro
## 1 Chachapoyas 78.6
## 2 Bagua 86.4
## 3 Bongará 67.4
## 4 Condorcanqui 85.2
## 5 Luya 83.4
## 6 Rodríguez de Mendoza 64.2
###VARIABLE INDEPENDIENTE
***DATA Porcentaje de niños(as) <5 años sin ningún seguro a nivel de PROVINCIAS (“nseguro”) Variable numérica
library(openxlsx)
nseguro= read.xlsx(link1,
sheet= 4,
skipEmptyRows = T,
skipEmptyCols = T)
names(nseguro)= c("ubigeoProvincia", "PROVINCIA", "noseguro")
nseguro$region= NULL
nseguro$ubigeoProvincia= NULL
str(nseguro)
## 'data.frame': 195 obs. of 2 variables:
## $ PROVINCIA: chr "Chachapoyas" "Bagua" "Bongará" "Condorcanqui" ...
## $ noseguro : num 21.4 13.6 32.6 14.8 16.6 35.8 19.2 40.4 49.7 24.9 ...
summary(nseguro$noseguro)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.70 17.25 27.10 28.24 37.70 63.70
head(nseguro)
## PROVINCIA noseguro
## 1 Chachapoyas 21.4
## 2 Bagua 13.6
## 3 Bongará 32.6
## 4 Condorcanqui 14.8
## 5 Luya 16.6
## 6 Rodríguez de Mendoza 35.8
###VARIABLE INDEPENDIENTE
*** DATA Indice de salud niños <5 años a nivel de PROVINCIAS (“saludninos”) La data original del Indice está construida por: 1) Porcentaje de desnutrición infantil 2007 (variable numerica) 2) EDA Enfermedad de Diarrea Aguda infantil fue elaborada a partir de la información de la SALA SITUACIONAL del Centro Nacional de Epidemiología, Prevención y Control de Enfermedades del año 2018 (variable numerica) 3) Numero de niños muertos 2007 (variable numerica)
saludninos= read.xlsx(link1,
sheet= 5,
skipEmptyRows = T,
skipEmptyCols = T)
names(saludninos)= c("ubigeoProvincia", "PROVINCIA", "desnutricion", "eda", "mortalidad", "isalud")
saludninos$region= NULL
saludninos$ubigeoProvincia= NULL
str(saludninos)
## 'data.frame': 195 obs. of 5 variables:
## $ PROVINCIA : chr "Chachapoyas" "Bagua" "Bongará" "Condorcanqui" ...
## $ desnutricion: num 1986 3888 1072 4665 2589 ...
## $ eda : num 981 2916 446 3218 1418 ...
## $ mortalidad : num 23 28 13 30 30 8 46 61 9 15 ...
## $ isalud : num 997 2277 510 2638 1346 ...
summary(saludninos)
## PROVINCIA desnutricion eda mortalidad
## Length:195 Min. : 50 Min. : 80 Min. : 2.00
## Class :character 1st Qu.: 1310 1st Qu.: 450 1st Qu.: 18.00
## Mode :character Median : 2589 Median : 986 Median : 33.00
## Mean : 3630 Mean : 2436 Mean : 56.84
## 3rd Qu.: 4470 3rd Qu.: 2352 3rd Qu.: 60.50
## Max. :59607 Max. :98347 Max. :1817.00
## isalud
## Min. : 61.67
## 1st Qu.: 645.50
## Median : 1238.00
## Mean : 2040.96
## 3rd Qu.: 2187.83
## Max. :53257.00
head(saludninos)
## PROVINCIA desnutricion eda mortalidad isalud
## 1 Chachapoyas 1986 981 23 996.6667
## 2 Bagua 3888 2916 28 2277.3333
## 3 Bongará 1072 446 13 510.3333
## 4 Condorcanqui 4665 3218 30 2637.6667
## 5 Luya 2589 1418 30 1345.6667
## 6 Rodríguez de Mendoza 956 568 8 510.6667
###VARIABLE INDEPENDIENTE
*** DATA Variables de control a nivel de PROVINCIAS (“vcontrol”) La data original de Variables de control está construida por 1)Poblacion urbana (variable numerica) 2)Poblacion rural (variable numerica) 3)Costa (variable categórica dicotómica) 4)Sierra (variable categórica dicotómica) 5)Selva (variable categórica dicotómica) 6)Capital (variable categórica dicotómica)
vcontrol= read.xlsx(link1,
sheet=6,
skipEmptyRows = T,
skipEmptyCols = T)
names(vcontrol)= c("ubigeoProvincia","PROVINCIA", "urbano", "rural", "costa", "sierra", "selva", "capital")
vcontrol$region= NULL
vcontrol$ubigeoProvincia= NULL
vcontrol$capital=factor(vcontrol$capital)
vcontrol$costa=factor(vcontrol$costa)
vcontrol$sierra=factor(vcontrol$sierra)
vcontrol$selva=factor(vcontrol$selva)
str(vcontrol)
## 'data.frame': 195 obs. of 7 variables:
## $ PROVINCIA: chr "Chachapoyas" "Bagua" "Bongará" "Condorcanqui" ...
## $ urbano : num 34343 33559 16460 6458 19526 ...
## $ rural : num 15357 38198 11005 36853 28802 ...
## $ costa : Factor w/ 2 levels "NO","SI": 1 1 1 1 1 1 1 1 1 1 ...
## $ sierra : Factor w/ 2 levels "NO","SI": 1 1 1 1 1 1 1 2 2 2 ...
## $ selva : Factor w/ 2 levels "NO","SI": 2 2 2 2 2 2 2 1 1 1 ...
## $ capital : Factor w/ 2 levels "NO","SI": 2 1 1 1 1 1 1 2 1 1 ...
summary(vcontrol)
## PROVINCIA urbano rural costa sierra
## Length:195 Min. : 1251 Min. : 0 NO:155 NO: 88
## Class :character 1st Qu.: 11250 1st Qu.: 13054 SI: 40 SI:107
## Mode :character Median : 23080 Median : 26822
## Mean : 106719 Mean : 33856
## 3rd Qu.: 60330 3rd Qu.: 42088
## Max. :7596058 Max. :141424
## selva capital
## NO:147 NO:170
## SI: 48 SI: 25
##
##
##
##
head(vcontrol)
## PROVINCIA urbano rural costa sierra selva capital
## 1 Chachapoyas 34343 15357 NO NO SI SI
## 2 Bagua 33559 38198 NO NO SI NO
## 3 Bongará 16460 11005 NO NO SI NO
## 4 Condorcanqui 6458 36853 NO NO SI NO
## 5 Luya 19526 28802 NO NO SI NO
## 6 Rodríguez de Mendoza 8593 17796 NO NO SI NO
###VARIABLE INDEPENDIENTE
*** DATA IDE a nivel de PROVINCIAS La data original del Indice de Densidad Estatal (IDE) para el Peru esta elaborado por PNUD (variable numerica)
link="https://github.com/PoliticayGobiernoPUCP/EstadisticaPoliticaGobiernoII/raw/master/sesiones/data/idePeru.xlsx"
library(openxlsx)
datos=read.xlsx(link,
sheet = 1, #hoja que cargaremos, corresponde al a?o 2012.
startRow = 4, #desde esta fila empezaremos a leer, aseguremonos de no perder t?tulos
skipEmptyRows = T, skipEmptyCols = T)
datos= datos[-c(223:226),] #La data acaba en la fila 222. Eliminemos filas innecesarias
datos=datos[-c(1:3),] #La tercera fila, con informaci?n de Per?, es innecesaria. Hay que eliminarla
columnas=c(seq(5,17,2))
datos = datos[,-columnas] #Hemos dejado listas las filas. Sin embargo, tenemos columnas que no son necesarias. Podemos crear una secuencia para eliminarlas todas; es decir, que empieza en el 5 y termine en el 17 y que los saltos sean de 2.
regiones=datos[!is.na(datos$X2),] #creamos un subconjunto llamado regiones
row.names(regiones)=NULL #resetear el indice de regiones
regiones=regiones[c(1,2)] #El subconjunto debe contener solo la informaci?n del Ubigeo y del nombre de la regi?n. Seleccionemos las columnas que nos interesan que son las dichas anteriormente.
colnames(regiones) = c("ubigeoRegion", "region") #hay que ponerle nombres adecuados a las columas del subconjunto
provincias=datos[is.na(datos$X2),] #creamos un subconjunto llamado provincias. Seleccionemos ?nicamente las filas que tienen datos perdios en la columna "X2"
row.names(provincias)=NULL #resetear el indice de provincias
provincias=provincias[,-c(2)] #Eliminemos la segunda columna X2 pues no es necesaria
#hay que ingresar los nombres en el orden que se requiere
names(provincias) <- c("ubigeoProvincia", "PROVINCIA", "habitantes", "IDE", "identidad", "medicos", "asistenciasecu", "saneamiento", "electrificacion")
provincias$ubigeoRegion=provincias$ubigeoProvincia
substr(provincias$ubigeoRegion,3,6)='0000' #Como queremos que la informaci?n de la regi?n aparezca junto a la informaci?n de la provincia, debemos juntar nuestras subtablas. Retener los primeros digitos del ubigeo de regi?n. A?adirle ceros a la cola de lo que acabamos de retener.
row.names(provincias)=NULL #Hay que resetear el ?ndice
provinciasIDE = merge(provincias, regiones, by="ubigeoRegion") #Ahora podemos a?adir la informaci?n de las provincias y de las regiones en nuestra data final, es decir, juntemos distritos con informaci?n de provincias
provinciasIDE= provinciasIDE[,c(1,2,11,3:10)] # ordenando las variables de la data
# convertir las variables a numerica
provinciasIDE$habitantes= as.numeric(provinciasIDE$habitantes)
provinciasIDE$IDE= as.numeric(provinciasIDE$IDE)
provinciasIDE$'identidad' = as.numeric(provinciasIDE$'identidad')
provinciasIDE$"medicos"= as.numeric(provinciasIDE$"medicos")
provinciasIDE$ "asistenciasecu"=as.numeric(provinciasIDE$"asistenciasecu")
provinciasIDE$"saneamiento" = as.numeric(provinciasIDE$"saneamiento")
provinciasIDE$"electrificacion"= as.numeric(provinciasIDE$"electrificacion")
provinciasIDE$ubigeoRegion= NULL
provinciasIDE$region= NULL
provinciasIDE$ubigeoProvincia= NULL
head(provinciasIDE,10)
## PROVINCIA habitantes IDE identidad medicos
## 1 Bagua 77438 0.6622805 94.60787 14.609121
## 2 Bongará 32317 0.6318249 97.46807 9.010207
## 3 Condorcanqui 51802 0.4598242 86.23196 8.556959
## 4 Luya 52185 0.6047198 96.19272 12.418003
## 5 Rodríguez de Mendoza 30236 0.6312264 97.34310 14.878682
## 6 Utcubamba 118747 0.6096605 95.17449 10.110167
## 7 Chachapoyas 54783 0.7736995 98.61788 25.450024
## 8 Huaraz 161003 0.8118806 98.50730 21.806643
## 9 Aija 7974 0.6579253 98.23439 8.593985
## 10 Asunción 9013 0.6974917 97.14841 17.189034
## asistenciasecu saneamiento electrificacion
## 1 79.79018 64.47904 67.91462
## 2 76.42404 54.83408 72.16926
## 3 52.21494 37.71451 39.48908
## 4 74.72597 43.34842 67.39611
## 5 79.42439 46.50182 67.54610
## 6 77.16833 52.51951 63.11765
## 7 91.49856 70.34540 83.97119
## 8 95.00631 82.93264 93.14964
## 9 89.49891 47.78407 79.12196
## 10 81.53830 67.11844 74.29232
###VARIABLE INDEPENDIENTE
***DATA IDH a nivel de PROVINCIAS La data original del Indice de Desarrollo Humano (IDH) para el Peru esta elaborado por PNUD (variable numerica)
link="https://docs.google.com/spreadsheets/d/e/2PACX-1vTp-Zw7bYP8fpWdTMdYdHwGXmYxMJCpSR1qK0vFvuB9fQOQPm07OHYyh_NpUv4Y5qeVA5D2XeHuKxATe4NGR30/pub?output=xlsx"
IDH=read.xlsx(link,
sheet = 1,
skipEmptyRows = T, skipEmptyCols = T) #evita filas vacias / evita columnas vacias
names(IDH)= c("ubigeoProvincia", "PROVINCIA", "habitantes", "IDH", "esperanza", "secucompleta", "educatiempo", "percapitaf")
IDH$ubigeoProvincia= NULL
IDH$habitantes= NULL
str(IDH)
## 'data.frame': 195 obs. of 6 variables:
## $ PROVINCIA : chr "Chachapoyas" "Bagua" "Bongara" "Condorcanqui" ...
## $ IDH : num 0.334 0.292 0.279 0.169 0.251 ...
## $ esperanza : num 72.5 73.7 72.2 70.1 71.2 ...
## $ secucompleta: num 45.69 39.88 29.59 8.02 34.6 ...
## $ educatiempo : num 7.4 6.56 6.14 5.25 5.17 ...
## $ percapitaf : num 307 241 261 148 211 ...
head(IDH)
## PROVINCIA IDH esperanza secucompleta educatiempo
## 1 Chachapoyas 0.3335262 72.49 45.69294 7.400032
## 2 Bagua 0.2916301 73.65 39.88207 6.556959
## 3 Bongara 0.2787903 72.19 29.58502 6.135140
## 4 Condorcanqui 0.1687656 70.09 8.02116 5.253848
## 5 Luya 0.2508164 71.25 34.59977 5.169241
## 6 Rodriguez de Mendoza 0.2698545 74.59 26.69197 5.772830
## percapitaf
## 1 307.1952
## 2 241.2875
## 3 260.9738
## 4 147.8792
## 5 211.1026
## 6 249.4701
###JUNTAMOS LAS VARIABLES
DATA= merge(provinciasIDE, IDH, by= "PROVINCIA")
DATA1=merge(DATA, neumonia, by= "PROVINCIA")
DATA2= merge(DATA1,cseguro, by= "PROVINCIA")
DATA3= merge(DATA2, nseguro, by="PROVINCIA")
DATA4= merge(DATA3, saludninos, by= "PROVINCIA")
final= merge(DATA4, vcontrol, by= "PROVINCIA")
row.names(final)= final$PROVINCIA
final$PROVINCIA =NULL
str(final)
## 'data.frame': 149 obs. of 25 variables:
## $ habitantes : num 105694 73243 28318 7974 57957 ...
## $ IDE : num 0.747 0.577 0.633 0.658 0.559 ...
## $ identidad : num 97.9 98.8 97.2 98.2 97.9 ...
## $ medicos : num 16.93 2.63 10.45 8.59 11.18 ...
## $ asistenciasecu : num 93.7 77.5 83.1 89.5 74.9 ...
## $ saneamiento : num 63 31.2 48.2 47.8 25.6 ...
## $ electrificacion: num 90.5 76.7 70.6 79.1 62.7 ...
## $ IDH : num 0.354 0.191 0.209 0.254 0.237 ...
## $ esperanza : num 73.4 71.4 66.2 66.7 72.8 ...
## $ secucompleta : num 66.5 36.7 41.6 34.6 34.9 ...
## $ educatiempo : num 7.88 4.67 4.72 6.95 4.58 ...
## $ percapitaf : num 289 117 147 200 193 ...
## $ numcasos : num 224 27 26 8 21 166 18 22 4 3 ...
## $ siseguro : num 86.7 87.8 90.3 50.3 82.8 84.1 76.6 82.3 89.4 75.1 ...
## $ noseguro : num 13.3 12.2 9.7 49.7 17.2 15.9 23.4 17.7 10.6 24.9 ...
## $ desnutricion : num 3204 4730 1617 331 3063 ...
## $ eda : num 2541 986 316 117 1074 ...
## $ mortalidad : num 33 29 35 9 28 61 45 26 20 15 ...
## $ isalud : num 1926 1915 656 152 1388 ...
## $ urbano : num 60810 19345 14460 2528 18453 ...
## $ rural : num 35254 44447 12897 5467 37030 ...
## $ costa : Factor w/ 2 levels "NO","SI": 1 1 1 1 1 1 1 1 1 1 ...
## $ sierra : Factor w/ 2 levels "NO","SI": 2 2 2 2 2 2 2 2 2 2 ...
## $ selva : Factor w/ 2 levels "NO","SI": 1 1 1 1 1 1 1 1 1 1 ...
## $ capital : Factor w/ 2 levels "NO","SI": 2 1 1 1 1 1 1 1 1 1 ...
head(final)
## habitantes IDE identidad medicos asistenciasecu
## Abancay 105694 0.7466421 97.90419 16.931097 93.69086
## Acobamba 73243 0.5771310 98.75156 2.628194 77.54075
## Acomayo 28318 0.6331165 97.19903 10.453706 83.12670
## Aija 7974 0.6579253 98.23439 8.593985 89.49891
## Ambo 57957 0.5594230 97.92044 11.182912 74.88339
## Andahuaylas 163662 0.7180374 98.36602 12.402813 83.70879
## saneamiento electrificacion IDH esperanza secucompleta
## Abancay 63.00113 90.50638 0.3538328 73.43 66.50041
## Acobamba 31.17210 76.72076 0.1911213 71.43 36.69992
## Acomayo 48.23934 70.57030 0.2090776 66.15 41.63205
## Aija 47.78407 79.12196 0.2543539 66.65 34.62627
## Ambo 25.58357 62.68590 0.2374165 72.83 34.92477
## Andahuaylas 72.29697 83.97553 0.2672051 73.15 49.78930
## educatiempo percapitaf numcasos siseguro noseguro desnutricion
## Abancay 7.877932 288.5724 224 86.7 13.3 3204
## Acobamba 4.670571 116.6439 27 87.8 12.2 4730
## Acomayo 4.716717 147.3322 26 90.3 9.7 1617
## Aija 6.954080 199.8291 8 50.3 49.7 331
## Ambo 4.583533 193.1539 21 82.8 17.2 3063
## Andahuaylas 5.442921 198.9673 166 84.1 15.9 6908
## eda mortalidad isalud urbano rural costa sierra selva
## Abancay 2541 33 1926.0000 60810 35254 NO SI NO
## Acobamba 986 29 1915.0000 19345 44447 NO SI NO
## Acomayo 316 35 656.0000 14460 12897 NO SI NO
## Aija 117 9 152.3333 2528 5467 NO SI NO
## Ambo 1074 28 1388.3333 18453 37030 NO SI NO
## Andahuaylas 2754 61 3241.0000 64704 79142 NO SI NO
## capital
## Abancay SI
## Acobamba NO
## Acomayo NO
## Aija NO
## Ambo NO
## Andahuaylas NO
####ANALISIS FACTORIAL DE TODAS LAS VARIABLES INDEPENDIENTES
final_s= as.data.frame(scale(final[,-c(2,8,13,19,22:25)])) #creamos subset de puntuaciones estandarizadas
head(final_s)
## habitantes identidad medicos asistenciasecu saneamiento
## Abancay -0.09381642 0.23790535 0.63879876 1.1800208 0.2706739
## Acobamba -0.13997793 0.60736915 -1.22636329 -0.3534782 -1.3076989
## Acomayo -0.20388369 -0.06955031 -0.20588182 0.1769237 -0.4613499
## Aija -0.23282300 0.38187955 -0.44839768 0.7819825 -0.4839266
## Ambo -0.16172225 0.24499326 -0.11079013 -0.6058024 -1.5848293
## Andahuaylas -0.01135701 0.43927278 0.04829048 0.2321948 0.7316461
## electrificacion esperanza secucompleta educatiempo
## Abancay 1.0884338 0.69988244 1.0681875 0.55147489
## Acobamba 0.2122358 -0.08076272 -0.6492957 -1.11980988
## Acomayo -0.1786799 -2.14166594 -0.3650437 -1.09576426
## Aija 0.3648536 -1.94650465 -0.7688057 0.07007613
## Ambo -0.6798035 0.46568889 -0.7516024 -1.16516371
## Andahuaylas 0.6733409 0.59059212 0.1050808 -0.71735555
## percapitaf siseguro noseguro desnutricion eda
## Abancay 0.4572918 1.1376818 -1.1350932 -0.1068940 -0.01099996
## Acobamba -1.2983229 1.2248439 -1.2222689 0.1662410 -0.19376341
## Acomayo -0.9849558 1.4229398 -1.4203956 -0.3909472 -0.27251036
## Aija -0.4488935 -1.7465938 1.7496317 -0.6211252 -0.29589938
## Ambo -0.5170563 0.8286522 -0.8260155 -0.1321312 -0.18342053
## Andahuaylas -0.4576934 0.9316621 -0.9290414 0.5560758 0.01403452
## mortalidad urbano rural
## Abancay -0.179604703 -0.09677638 0.03232988
## Acobamba -0.205751358 -0.16248714 0.35188129
## Acomayo -0.166531376 -0.17022854 -0.74480609
## Aija -0.336484630 -0.18913751 -1.00307510
## Ambo -0.212288022 -0.16390072 0.09406416
## Andahuaylas 0.003421878 -0.09060545 1.55788980
library(psych)
pearson= cor(final_s)
pearson
## habitantes identidad medicos asistenciasecu
## habitantes 1.000000000 0.10815112 0.3871663 0.120785824
## identidad 0.108151119 1.00000000 0.3447268 0.596618657
## medicos 0.387166268 0.34472677 1.0000000 0.419696445
## asistenciasecu 0.120785824 0.59661866 0.4196964 1.000000000
## saneamiento 0.255262369 0.43980102 0.6735922 0.414531165
## electrificacion 0.220457728 0.49172621 0.5368197 0.671414031
## esperanza 0.196597434 0.31697007 0.5263551 0.350869825
## secucompleta 0.223376309 0.60395182 0.5957711 0.800790694
## educatiempo 0.271038678 0.38712472 0.7364577 0.683099960
## percapitaf 0.366170117 0.34756145 0.7518571 0.546718635
## siseguro -0.226942724 -0.28115972 -0.4216712 -0.360037001
## noseguro 0.227450659 0.28166476 0.4204577 0.360643979
## desnutricion 0.889217468 0.01520069 0.2455858 -0.006303684
## eda 0.975151665 0.09069119 0.4503525 0.126293302
## mortalidad 0.984706609 0.08222114 0.3468117 0.084349800
## urbano 0.998960316 0.11665503 0.3974465 0.135096623
## rural 0.002421424 -0.16250961 -0.2293230 -0.296458338
## saneamiento electrificacion esperanza secucompleta
## habitantes 0.2552624 0.2204577 0.19659743 0.2233763
## identidad 0.4398010 0.4917262 0.31697007 0.6039518
## medicos 0.6735922 0.5368197 0.52635506 0.5957711
## asistenciasecu 0.4145312 0.6714140 0.35086983 0.8007907
## saneamiento 1.0000000 0.6412860 0.54408708 0.6088538
## electrificacion 0.6412860 1.0000000 0.42393247 0.7825606
## esperanza 0.5440871 0.4239325 1.00000000 0.4622723
## secucompleta 0.6088538 0.7825606 0.46227234 1.0000000
## educatiempo 0.6991449 0.7491412 0.56026332 0.8670539
## percapitaf 0.7751378 0.6921941 0.65047501 0.7400428
## siseguro -0.5602217 -0.5831748 -0.34289828 -0.5982358
## noseguro 0.5583688 0.5829471 0.34097654 0.5994303
## desnutricion 0.1548339 0.1473826 0.08773521 0.1041538
## eda 0.2745264 0.2550437 0.21153840 0.2586788
## mortalidad 0.2263267 0.1984388 0.10913006 0.2029312
## urbano 0.2628840 0.2315586 0.20396657 0.2355235
## rural -0.1633050 -0.2370630 -0.15383451 -0.2402244
## educatiempo percapitaf siseguro noseguro desnutricion
## habitantes 0.2710387 0.3661701 -0.2269427 0.2274507 0.889217468
## identidad 0.3871247 0.3475614 -0.2811597 0.2816648 0.015200691
## medicos 0.7364577 0.7518571 -0.4216712 0.4204577 0.245585806
## asistenciasecu 0.6831000 0.5467186 -0.3600370 0.3606440 -0.006303684
## saneamiento 0.6991449 0.7751378 -0.5602217 0.5583688 0.154833854
## electrificacion 0.7491412 0.6921941 -0.5831748 0.5829471 0.147382611
## esperanza 0.5602633 0.6504750 -0.3428983 0.3409765 0.087735206
## secucompleta 0.8670539 0.7400428 -0.5982358 0.5994303 0.104153776
## educatiempo 1.0000000 0.8983882 -0.6529836 0.6529686 0.154896239
## percapitaf 0.8983882 1.0000000 -0.5967349 0.5957459 0.239628784
## siseguro -0.6529836 -0.5967349 1.0000000 -0.9997149 -0.148469864
## noseguro 0.6529686 0.5957459 -0.9997149 1.0000000 0.148813454
## desnutricion 0.1548962 0.2396288 -0.1484699 0.1488135 1.000000000
## eda 0.3294834 0.4167218 -0.2361489 0.2368265 0.882773623
## mortalidad 0.2428847 0.3289097 -0.2095801 0.2103320 0.936618152
## urbano 0.2853562 0.3786493 -0.2343956 0.2349078 0.871997642
## rural -0.3044970 -0.2722557 0.1447124 -0.1447972 0.368118965
## eda mortalidad urbano rural
## habitantes 0.975151665 0.98470661 0.99896032 0.002421424
## identidad 0.090691195 0.08222114 0.11665503 -0.162509613
## medicos 0.450352473 0.34681167 0.39744652 -0.229323029
## asistenciasecu 0.126293302 0.08434980 0.13509662 -0.296458338
## saneamiento 0.274526431 0.22632674 0.26288397 -0.163305005
## electrificacion 0.255043732 0.19843878 0.23155856 -0.237063041
## esperanza 0.211538402 0.10913006 0.20396657 -0.153834513
## secucompleta 0.258678787 0.20293118 0.23552346 -0.240224403
## educatiempo 0.329483404 0.24288467 0.28535625 -0.304497049
## percapitaf 0.416721830 0.32890966 0.37864930 -0.272255665
## siseguro -0.236148950 -0.20958010 -0.23439564 0.144712383
## noseguro 0.236826464 0.21033196 0.23490784 -0.144797202
## desnutricion 0.882773623 0.93661815 0.87199764 0.368118965
## eda 1.000000000 0.96869849 0.97445241 0.003602708
## mortalidad 0.968698488 1.00000000 0.97866770 0.118824445
## urbano 0.974452409 0.97866770 1.00000000 -0.042470178
## rural 0.003602708 0.11882444 -0.04247018 1.000000000
cor.plot(pearson,
numbers=T,
upper= FALSE,
main="correlacion",
show.legend = "FALSE")
interpretacion:los cuadrados que estan en azul son las variables que mas se correlacionan y que probablemente pertenecen a una dimension asi por ejemplo tenemos que eda se correlaciona con mortalidad. Los que salen celestes estan debilmente correlacionados y los rojos que no estan correlacionados.
KMO(final_s)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = final_s)
## Overall MSA = 0.8
## MSA for each item =
## habitantes identidad medicos asistenciasecu
## 0.68 0.78 0.92 0.87
## saneamiento electrificacion esperanza secucompleta
## 0.90 0.92 0.70 0.85
## educatiempo percapitaf siseguro noseguro
## 0.85 0.91 0.78 0.78
## desnutricion eda mortalidad urbano
## 0.86 0.94 0.79 0.67
## rural
## 0.24
Aqui esperamos que le kmo no baje por variable de 0.7 y me dice cuan apropiado es juntar mis variables y va de 0 a 1, donde 1 hay mas correspondencia entre las varaibles y 0 hay menos. Lo que esperamos es que el valor del KMO sea alto. Resultado: En nuestra caso, el MSA es 0.8 (cercano a 1), lo cual significa que es apropiado juntar mis variables Si vemos el MSA por cada variable, identificamos a “rural”, “urbano” y “habitantes” como variables que podrían ser retiradas.
fa.parallel(pearson, fm="pa", fa="fa", main = "Scree Plot",n.obs = nrow(final_s)) # la estructura de mi data me dice cuantas indices hay o deberia formar. Por la pendiente por el salto mas grande
## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs
## = np.obs, : The estimated weights for the factor scores are probably
## incorrect. Try a different factor extraction method.
## Parallel analysis suggests that the number of factors = 4 and the number of components = NA
#Interpretación:R studio me indica que debería de formar 4 indices para todas mis variables independientes numéricas
final_sF <-fa(final_s,
nfactors=4, #factores o latentes, reduce en 9 dimensiones a 2 dimensiones
rotate="varimax") # lo que se cambia es la data y el numero de factores
## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs
## = np.obs, : The estimated weights for the factor scores are probably
## incorrect. Try a different factor extraction method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate =
## rotate, : An ultra-Heywood case was detected. Examine the results carefully
loadings(final_sF)
##
## Loadings:
## MR2 MR1 MR4 MR3
## habitantes 0.974 0.144
## identidad 0.221 0.589
## medicos 0.271 0.727 0.253 0.130
## asistenciasecu 0.260 0.883
## saneamiento 0.132 0.683 0.278 0.306
## electrificacion 0.116 0.453 0.594 0.342
## esperanza 0.614 0.200 0.114
## secucompleta 0.107 0.453 0.761 0.320
## educatiempo 0.137 0.701 0.496 0.352
## percapitaf 0.224 0.839 0.314 0.280
## siseguro -0.107 -0.302 -0.213 -0.919
## noseguro 0.108 0.299 0.215 0.920
## desnutricion 0.930
## eda 0.956 0.211
## mortalidad 0.995
## urbano 0.962 0.160
## rural 0.134 -0.256 -0.230
##
## MR2 MR1 MR4 MR3
## SS loadings 4.875 3.437 2.743 2.279
## Proportion Var 0.287 0.202 0.161 0.134
## Cumulative Var 0.287 0.489 0.650 0.784
Interpretando el Cumulative Var –> 0.78: que tanto he podido recuperar de toda la variabilidad del sistema. Este sistema tenia 17 variables. Las cuatro dimensiones representan el 78% de las variables que ha podido recuperar.
sort(final_sF$communalities) # mientras mas grande mejor (lo que aporta)
## rural identidad esperanza saneamiento
## 0.1364179 0.4050610 0.4365376 0.6551484
## medicos electrificacion asistenciasecu desnutricion
## 0.6833457 0.6881461 0.8563606 0.8735484
## educatiempo secucompleta percapitaf urbano
## 0.8788328 0.8974273 0.9310495 0.9594152
## eda habitantes siseguro noseguro
## 0.9642486 0.9767090 0.9927202 0.9932786
## mortalidad
## 0.9950000
#Una comunalidad es la medida en que un elemento se correlaciona con todos los demás elementos. Las comunalidades más altas son mejores. Si las comunalidades para una variable en particular son bajas (entre 0.0-0.4), entonces esa variable puede tener dificultades para cargar significativamente en cualquier factor la que mas aporta de los factores en general, las que desacan aportando su factores. Dimensiones que se han podido juntar de manera adecuada para representar algo unico.
#Interpretación: Las variables bajas que se identifica son rural, identidad y esperanza.
sort(final_sF$uniquenesses)
## mortalidad noseguro siseguro habitantes
## -0.003255998 0.006584425 0.007174335 0.023159317
## eda urbano percapitaf secucompleta
## 0.035604209 0.040414944 0.068740524 0.102718263
## educatiempo desnutricion asistenciasecu electrificacion
## 0.120555905 0.125895675 0.143798838 0.312019151
## medicos saneamiento esperanza identidad
## 0.316628011 0.344606623 0.563185108 0.595177674
## rural
## 0.863302133
#La singularidad es la varianza que es "única" a la variable y no se comparte con otras variables. Es igual a 1 menos la comunalidad (varianza que se comparte con otras variables). Tenga en cuenta que cuanto mayor sea la "singularidad", menor será la relevancia de la variable en el modelo factorial.
#Interpretación: Las variables más singulares son esperanza, identidad y rural
sort(final_sF$complexity) # Elc y income estan muy cerca a 1 que quiere decir que la complejidada de esa varaible esta cerca a 1 porque la complejidad de ellas se han podido reducir a un solo factor. Mientras que cultura coquetea en ambas dimensions su complejidad se reduce hasta 2 dimensiones
## desnutricion mortalidad habitantes urbano
## 1.020120 1.027495 1.060239 1.075850
## eda asistenciasecu esperanza identidad
## 1.111501 1.199046 1.321780 1.335772
## noseguro siseguro medicos percapitaf
## 1.358975 1.360989 1.612785 1.685970
## saneamiento secucompleta educatiempo rural
## 1.844004 2.078823 2.438817 2.516250
## electrificacion
## 2.627674
#Interpretación: desde desnutrición hasta percapitaf, se puede decir que su complejidad se ha podido reducir en un solo factor, mientras que, desde saneamiento a electrificación, su complejidad se agrupan hacia un segundo factor, e inclusive, a un tercer factor, en el caso de electrificación.
fa.diagram(final_sF) # grafico de los factores, de los conceptos
#Interpretación: vemos en el grafico que se formulan cuatro conceptos entre todas las variables.
scores=as.data.frame(final_sF$scores)#MR1=democracia, MR2=DHI, me dice quien esta mejor que el otro. Las distancias no son interpretables. Pero yo puedo decir en el mr1 afghanistan esta debajo de albania
names(scores)=c("idhFA","ideFA","educacionFA","segurosFA") # el score se crea cuando se hace el FactorAnalisis
head(scores)
## idhFA ideFA educacionFA segurosFA
## Abancay -0.23707702 0.7944104 1.46506645 -1.8245339
## Acobamba 0.42200418 -1.2375172 -0.09312424 -0.8460078
## Acomayo -0.48087083 -0.5345810 0.75446777 -1.5763546
## Aija -0.95525841 0.1123346 -0.25867211 1.6237115
## Ambo -0.06215922 -0.4984544 -0.45461806 -0.5411563
## Andahuaylas 0.95434330 -0.9523780 0.41280787 -0.5981433
final=merge(final,scores,by=0)
head(final)
## Row.names habitantes IDE identidad medicos asistenciasecu
## 1 Abancay 105694 0.7466421 97.90419 16.931097 93.69086
## 2 Acobamba 73243 0.5771310 98.75156 2.628194 77.54075
## 3 Acomayo 28318 0.6331165 97.19903 10.453706 83.12670
## 4 Aija 7974 0.6579253 98.23439 8.593985 89.49891
## 5 Ambo 57957 0.5594230 97.92044 11.182912 74.88339
## 6 Andahuaylas 163662 0.7180374 98.36602 12.402813 83.70879
## saneamiento electrificacion IDH esperanza secucompleta educatiempo
## 1 63.00113 90.50638 0.3538328 73.43 66.50041 7.877932
## 2 31.17210 76.72076 0.1911213 71.43 36.69992 4.670571
## 3 48.23934 70.57030 0.2090776 66.15 41.63205 4.716717
## 4 47.78407 79.12196 0.2543539 66.65 34.62627 6.954080
## 5 25.58357 62.68590 0.2374165 72.83 34.92477 4.583533
## 6 72.29697 83.97553 0.2672051 73.15 49.78930 5.442921
## percapitaf numcasos siseguro noseguro desnutricion eda mortalidad
## 1 288.5724 224 86.7 13.3 3204 2541 33
## 2 116.6439 27 87.8 12.2 4730 986 29
## 3 147.3322 26 90.3 9.7 1617 316 35
## 4 199.8291 8 50.3 49.7 331 117 9
## 5 193.1539 21 82.8 17.2 3063 1074 28
## 6 198.9673 166 84.1 15.9 6908 2754 61
## isalud urbano rural costa sierra selva capital idhFA ideFA
## 1 1926.0000 60810 35254 NO SI NO SI -0.23707702 0.7944104
## 2 1915.0000 19345 44447 NO SI NO NO 0.42200418 -1.2375172
## 3 656.0000 14460 12897 NO SI NO NO -0.48087083 -0.5345810
## 4 152.3333 2528 5467 NO SI NO NO -0.95525841 0.1123346
## 5 1388.3333 18453 37030 NO SI NO NO -0.06215922 -0.4984544
## 6 3241.0000 64704 79142 NO SI NO NO 0.95434330 -0.9523780
## educacionFA segurosFA
## 1 1.46506645 -1.8245339
## 2 -0.09312424 -0.8460078
## 3 0.75446777 -1.5763546
## 4 -0.25867211 1.6237115
## 5 -0.45461806 -0.5411563
## 6 0.41280787 -0.5981433
row.names(final)=final$Row.names #El merge desconfigura el indice y lo añade como una nueva columna. Podemos corregir eso:
final$Row.names=NULL
head(final)
## habitantes IDE identidad medicos asistenciasecu
## Abancay 105694 0.7466421 97.90419 16.931097 93.69086
## Acobamba 73243 0.5771310 98.75156 2.628194 77.54075
## Acomayo 28318 0.6331165 97.19903 10.453706 83.12670
## Aija 7974 0.6579253 98.23439 8.593985 89.49891
## Ambo 57957 0.5594230 97.92044 11.182912 74.88339
## Andahuaylas 163662 0.7180374 98.36602 12.402813 83.70879
## saneamiento electrificacion IDH esperanza secucompleta
## Abancay 63.00113 90.50638 0.3538328 73.43 66.50041
## Acobamba 31.17210 76.72076 0.1911213 71.43 36.69992
## Acomayo 48.23934 70.57030 0.2090776 66.15 41.63205
## Aija 47.78407 79.12196 0.2543539 66.65 34.62627
## Ambo 25.58357 62.68590 0.2374165 72.83 34.92477
## Andahuaylas 72.29697 83.97553 0.2672051 73.15 49.78930
## educatiempo percapitaf numcasos siseguro noseguro desnutricion
## Abancay 7.877932 288.5724 224 86.7 13.3 3204
## Acobamba 4.670571 116.6439 27 87.8 12.2 4730
## Acomayo 4.716717 147.3322 26 90.3 9.7 1617
## Aija 6.954080 199.8291 8 50.3 49.7 331
## Ambo 4.583533 193.1539 21 82.8 17.2 3063
## Andahuaylas 5.442921 198.9673 166 84.1 15.9 6908
## eda mortalidad isalud urbano rural costa sierra selva
## Abancay 2541 33 1926.0000 60810 35254 NO SI NO
## Acobamba 986 29 1915.0000 19345 44447 NO SI NO
## Acomayo 316 35 656.0000 14460 12897 NO SI NO
## Aija 117 9 152.3333 2528 5467 NO SI NO
## Ambo 1074 28 1388.3333 18453 37030 NO SI NO
## Andahuaylas 2754 61 3241.0000 64704 79142 NO SI NO
## capital idhFA ideFA educacionFA segurosFA
## Abancay SI -0.23707702 0.7944104 1.46506645 -1.8245339
## Acobamba NO 0.42200418 -1.2375172 -0.09312424 -0.8460078
## Acomayo NO -0.48087083 -0.5345810 0.75446777 -1.5763546
## Aija NO -0.95525841 0.1123346 -0.25867211 1.6237115
## Ambo NO -0.06215922 -0.4984544 -0.45461806 -0.5411563
## Andahuaylas NO 0.95434330 -0.9523780 0.41280787 -0.5981433
plot(final[,c(26,27)])
#Interpretación: vemos un valor atipico
library(ggplot2) #Utilizamos ggplot2 para añadir los nombres de nuestros casos
##
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
##
## %+%, alpha
base=ggplot(final,aes(x=idhFA,y=ideFA))
base + geom_point() + geom_text(aes(label = row.names(final)))# cambio los nombres, es una decoracion
base=ggplot(final,aes(x=idhFA,y=ideFA))
base + geom_point() + geom_text(aes(label = ifelse(idhFA >0 & ideFA >0,row.names(final),"")))
base=ggplot(final,aes(x=ideFA,y=idhFA))
base + geom_point() + geom_text(aes(label = row.names(final))) + xlim(0, 2) + ylim(0, 2) #aqui limitando los ejes mayores de 0
## Warning: Removed 138 rows containing missing values (geom_point).
## Warning: Removed 138 rows containing missing values (geom_text).
#Interpretación: las provincias con mejores resultado en idhFA e ideFA son los observados
plot(final[,c(28,29)])
library(ggplot2) #Utilizamos ggplot2 para añadir los nombres de nuestros casos
base=ggplot(final,aes(x=educacionFA,y=segurosFA))
base + geom_point() + geom_text(aes(label = row.names(final)))# cambio los nombres, es una decoracion
base=ggplot(final,aes(x=educacionFA,y=segurosFA))
base + geom_point() + geom_text(aes(label = ifelse(educacionFA >0 & segurosFA >0,row.names(final),"")))
base=ggplot(final,aes(x=educacionFA,y=segurosFA))
base + geom_point() + geom_text(aes(label = row.names(final))) + xlim(0, 2) + ylim(0, 2) #aqui limitando los ejes mayores de 0
## Warning: Removed 123 rows containing missing values (geom_point).
## Warning: Removed 123 rows containing missing values (geom_text).
#Interpretación: las provincias con mejores resultado en educacion y seguros son los observados
####MAPA DE SIMILITUDES Aquí vamos a ubicar en el plano las provincias de acuerdo a cuan cercanos son. Es una ayuda visual. Si son cercanos es que se parecen las provincias y, si son lejanos, significará que no tienen relación entre ellas.
final_d =dist(final[-c(2, 8, 14, 19, 22:29)])
final_map <- cmdscale(final_d,eig=TRUE, k=2) # k sugiere el numero de dimensiones a dibujar --> consejo utilizar siempre en 2 dimensiones xq asi es mas facil la interpretacion, con la funcion cmdscale calculamos las posiciones de nuestros casos
final_map$GOF # mientras mas cerca a 1 mejor. El GOF es un indicador que nos dice que tan adecuado a sido juntar esas dimensiones o variables. Esto ira de 0 a 1, pero mientras mas cercano a 1 es mas adecuado y a la vez es lo que esperamos.
## [1] 0.9999832 0.9999832
#Interpretación: esta super bien. A cada una de mis distancias que conseguido 0.99, 0.99 de ajuste bastante bien a pesar de haber sido reducido a 2 dimensiones
#Rapidamente podemos ver la posición de los puntos creados:
titulo="Mapa de Similitudes entre provincias"
x <- final_map$points[,1] # el punto 1 y el 2 no cambian se queda asi
y <- final_map$points[,2]
plot(x, y, main=titulo)
#Podemos ver las provincias en lugar de puntos.
plot(x, y, xlab="Dimensión 1", ylab="Dimensión 2", main=titulo,
type="n") # 'n' evita que se pongan los puntos.
# etiquetas y colores de los puntos
text(x, y,labels = rownames(final_map$points),cex=1)
#Poniendo colores
plot(x,y, xlab = "Dimension 1", ylab = "Dimension 2",main=titulo, type="n")
#etiquetas y colores de los puntos
columnForLabels=rownames(final_map$points)
colorForLabels= final$costa
paleta=c('gray', 'red')
text(x,y, labels = columnForLabels, cex=1.5, col=paleta[colorForLabels])
legend("bottomright",legend = levels(colorForLabels), fill=paleta,title = "¿son de costa?")
#####PREGUNTA 2
####REGRESION LINEAL
modelo=lm(numcasos~idhFA+ideFA+educacionFA+segurosFA,data = final)
summary(modelo)
##
## Call:
## lm(formula = numcasos ~ idhFA + ideFA + educacionFA + segurosFA,
## data = final)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1163.38 -158.84 14.35 167.55 2071.46
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 157.57 29.77 5.293 4.39e-07 ***
## idhFA 566.29 25.60 22.124 < 2e-16 ***
## ideFA 255.47 25.93 9.852 < 2e-16 ***
## educacionFA 76.21 30.50 2.498 0.0136 *
## segurosFA -56.19 28.49 -1.972 0.0505 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 363.4 on 144 degrees of freedom
## Multiple R-squared: 0.7762, Adjusted R-squared: 0.77
## F-statistic: 124.8 on 4 and 144 DF, p-value: < 2.2e-16
#Justificación del modelo del análisis de resultados: Este modelo de regresión lineal es elegido porque nuestra variable dependiente es de tipo numérica.
Interpretación:
1.-¿Son estadísticamente significativas? Observamos que idhFA, ideFA y educacion (variables estandarizadas creadas luego del análisis factorial) son estadísticamente significativas en relación a la prevalencia de casos de neumonía en niños <5 años. Por otro lado, la variable seguros no es estadísticamente significativa por 0.0005.
2.-La dirección del efecto: Las variables idhFA, ideFA y educacion tienen una relación directa
3.-La magnitud del efecto: En primer lugar, por cada punto en idhFA, los números de casos aumentan en 566; en segundo lugar, por cada punto de ideFA, los números de casos aumentan en 255 y; en tercer lugar, por cada punto en educacion, los números de casos aumentan en 76. Por otro lado, podemos visualizar que el idhFA tiene una magnitud mayor a diferencia de ideFA y educacion.