Cargo la data:
folder="data"
fileName="IDH.xlsx"
fileToRead=file.path(folder,fileName)
library(openxlsx)
idhPeru2012=read.xlsx(fileToRead,sheet = 1,startRow = 3,skipEmptyRows = T,skipEmptyCols = T)
Limpio la data
names(idhPeru2012)
## [1] "Ubigeo.2010"
## [2] "DEPARTAMENTO"
## [3] "X3"
## [4] "Población"
## [5] "X5"
## [6] "Índice.de.Desarrollo.Humano"
## [7] "X7"
## [8] "Esperanza.de.vida.al.nacer"
## [9] "X9"
## [10] "Población.con.Educ..secundaria.completa"
## [11] "X11"
## [12] "Años.de.educación.(Poblac..25.y.más)"
## [13] "X13"
## [14] "Ingreso.familiar.per.cápita"
## [15] "X15"
idhPeru2012=idhPeru2012[,-c(seq(5,15,2))]
head(idhPeru2012)
## Ubigeo.2010 DEPARTAMENTO X3 Población
## 1 <NA> <NA> Provincia <NA>
## 2 <NA> <NA> Distrito habitantes
## 3 000000 PERÚ a/ <NA> 30135875
## 4 010000 AMAZONAS <NA> 417508
## 5 010100 <NA> Chachapoyas 54783
## 6 010101 1 Chachapoyas 27737
## Índice.de.Desarrollo.Humano Esperanza.de.vida.al.nacer
## 1 <NA> <NA>
## 2 IDH años
## 3 0.50583823330953126 74.310445858605163
## 4 0.38456481683981075 73.985877321240068
## 5 0.43437528891030147 73.954749644794703
## 6 0.54672121354742387 73.387090177327593
## Población.con.Educ..secundaria.completa
## 1 <NA>
## 2 %
## 3 67.873195177629114
## 4 53.652878324694122
## 5 45.487825419517883
## 6 62.719298245614027
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 1 <NA> <NA>
## 2 años N.S. mes
## 3 8.9959000000000007 696.93701302677732
## 4 6.6609999999999996 435.67364690236298
## 5 7.7996986562381565 599.8076078461562
## 6 9.9688286831812238 866.57251609406023
tail(idhPeru2012,10)
## Ubigeo.2010
## 2055 250302
## 2056 250303
## 2057 250400
## 2058 250401
## 2059 a/ Incluye las cifras estimadas del distrito de Carmen Alto en la provincia de Huamanga, departamento de Ayacucho, donde. Autoridades locales no permitieron la ejecución del Censo de Población y Vivienda 2007.
## 2060 1/ Cifras estimadas. Autoridades locales no permitieron la ejecución del Censo de Población y Vivienda 2007.
## 2061 2/ Incluye a la población ubicada en área temporal por límites de fronteras de los distritos de Pangoa y Mazamari.
## 2062 3/ Provincias de Lima y Callao.
## 2063 Fuente: INEI. Censo de Población y Vivienda 2007. ENAHO y ENAPRES.
## 2064 Elaboración: PNUD-Perú.
## DEPARTAMENTO X3 Población Índice.de.Desarrollo.Humano
## 2055 2 Irazola 22779 0.32832801515012805
## 2056 3 Curimana 7613 0.30390233110000209
## 2057 <NA> Purús 4251 0.28622572125272666
## 2058 1 Purus 4251 0.28622572125272666
## 2059 <NA> <NA> <NA> <NA>
## 2060 <NA> <NA> <NA> <NA>
## 2061 <NA> <NA> <NA> <NA>
## 2062 <NA> <NA> <NA> <NA>
## 2063 <NA> <NA> <NA> <NA>
## 2064 <NA> <NA> <NA> <NA>
## Esperanza.de.vida.al.nacer Población.con.Educ..secundaria.completa
## 2055 78.892577937702697 31.035303766487111
## 2056 78.835068285303294 28.938974128125359
## 2057 68.608710070267122 17.43073026128393
## 2058 68.608710070267122 17.43073026128393
## 2059 <NA> <NA>
## 2060 <NA> <NA>
## 2061 <NA> <NA>
## 2062 <NA> <NA>
## 2063 <NA> <NA>
## 2064 <NA> <NA>
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 2055 6.6577377723258087 333.10013830992625
## 2056 6.795543115482233 276.66638766859393
## 2057 7.2334763187429854 342.94162726940084
## 2058 7.2334763187429854 342.94162726940084
## 2059 <NA> <NA>
## 2060 <NA> <NA>
## 2061 <NA> <NA>
## 2062 <NA> <NA>
## 2063 <NA> <NA>
## 2064 <NA> <NA>
De la 2059 a la 2064 no me sirve:
idhPeru2012=idhPeru2012[-c(2059:2064),]
tail(idhPeru2012,10)
## Ubigeo.2010 DEPARTAMENTO X3 Población
## 2049 250201 1 Raymondi 32474
## 2050 250202 2 Sepahua 8037
## 2051 250203 3 Tahuania 7860
## 2052 250204 4 Yurua 2198
## 2053 250300 <NA> Padre Abad 56756
## 2054 250301 1 Padre Abad 26364
## 2055 250302 2 Irazola 22779
## 2056 250303 3 Curimana 7613
## 2057 250400 <NA> Purús 4251
## 2058 250401 1 Purus 4251
## Índice.de.Desarrollo.Humano Esperanza.de.vida.al.nacer
## 2049 0.26247914875676975 61.596820481869607
## 2050 0.29800930078023424 61.216388907440468
## 2051 0.19197668330693488 65.564409739787621
## 2052 0.16932535331699958 62.003376416300128
## 2053 0.37283676011991507 78.772538052205874
## 2054 0.41610147243660101 77.626887341474216
## 2055 0.32832801515012805 78.892577937702697
## 2056 0.30390233110000209 78.835068285303294
## 2057 0.28622572125272666 68.608710070267122
## 2058 0.28622572125272666 68.608710070267122
## Población.con.Educ..secundaria.completa
## 2049 20.891965531531216
## 2050 26.769525282332516
## 2051 11.403906447393817
## 2052 13.181040276364154
## 2053 38.731434045823718
## 2054 44.322344322344321
## 2055 31.035303766487111
## 2056 28.938974128125359
## 2057 17.43073026128393
## 2058 17.43073026128393
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 2049 6.3231953072356815 318.29642669359299
## 2050 7.0325983103448264 379.12610848175586
## 2051 5.5483375775383612 183.68476366504794
## 2052 4.4021929216867477 159.8511005384012
## 2053 7.193236019531537 406.66484582139958
## 2054 7.6761271516983305 507.7651619464624
## 2055 6.6577377723258087 333.10013830992625
## 2056 6.795543115482233 276.66638766859393
## 2057 7.2334763187429854 342.94162726940084
## 2058 7.2334763187429854 342.94162726940084
head(idhPeru2012,10)
## Ubigeo.2010 DEPARTAMENTO X3 Población
## 1 <NA> <NA> Provincia <NA>
## 2 <NA> <NA> Distrito habitantes
## 3 000000 PERÚ a/ <NA> 30135875
## 4 010000 AMAZONAS <NA> 417508
## 5 010100 <NA> Chachapoyas 54783
## 6 010101 1 Chachapoyas 27737
## 7 010102 2 Asuncion 296
## 8 010103 3 Balsas 1590
## 9 010104 4 Cheto 608
## 10 010105 5 Chiliquin 790
## Índice.de.Desarrollo.Humano Esperanza.de.vida.al.nacer
## 1 <NA> <NA>
## 2 IDH años
## 3 0.50583823330953126 74.310445858605163
## 4 0.38456481683981075 73.985877321240068
## 5 0.43437528891030147 73.954749644794703
## 6 0.54672121354742387 73.387090177327593
## 7 0.16832245880162994 73.280820415395127
## 8 0.26337610668672068 71.967076884827279
## 9 0.32743662407199559 77.839884651592982
## 10 0.21150174096034399 76.248111138914311
## Población.con.Educ..secundaria.completa
## 1 <NA>
## 2 %
## 3 67.873195177629114
## 4 53.652878324694122
## 5 45.487825419517883
## 6 62.719298245614027
## 7 0.75149457384102425
## 8 14.48287345185612
## 9 44.613681253002987
## 10 8.0251612786779312
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 1 <NA> <NA>
## 2 años N.S. mes
## 3 8.9959000000000007 696.93701302677732
## 4 6.6609999999999996 435.67364690236298
## 5 7.7996986562381565 599.8076078461562
## 6 9.9688286831812238 866.57251609406023
## 7 6.0791010152284262 341.99034054677423
## 8 5.2821896086369771 340.27719283612231
## 9 4.9618599406528183 346.76467351627718
## 10 4.4392277013752448 258.56870325767909
Las tres primeras filas no me sirven:
idhPeru2012=idhPeru2012[-c(1:3),]
head(idhPeru2012,10)
## Ubigeo.2010 DEPARTAMENTO X3 Población
## 4 010000 AMAZONAS <NA> 417508
## 5 010100 <NA> Chachapoyas 54783
## 6 010101 1 Chachapoyas 27737
## 7 010102 2 Asuncion 296
## 8 010103 3 Balsas 1590
## 9 010104 4 Cheto 608
## 10 010105 5 Chiliquin 790
## 11 010106 6 Chuquibamba 2146
## 12 010107 7 Granada 415
## 13 010108 8 Huancas 1119
## Índice.de.Desarrollo.Humano Esperanza.de.vida.al.nacer
## 4 0.38456481683981075 73.985877321240068
## 5 0.43437528891030147 73.954749644794703
## 6 0.54672121354742387 73.387090177327593
## 7 0.16832245880162994 73.280820415395127
## 8 0.26337610668672068 71.967076884827279
## 9 0.32743662407199559 77.839884651592982
## 10 0.21150174096034399 76.248111138914311
## 11 0.23193444820977388 70.879241173571813
## 12 0.32686855517327618 71.315271432488458
## 13 0.29537487438595333 74.712060550197251
## Población.con.Educ..secundaria.completa
## 4 53.652878324694122
## 5 45.487825419517883
## 6 62.719298245614027
## 7 0.75149457384102425
## 8 14.48287345185612
## 9 44.613681253002987
## 10 8.0251612786779312
## 11 10.35471263488482
## 12 40.127332662354469
## 13 25.774280593077169
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 4 6.6609999999999996 435.67364690236298
## 5 7.7996986562381565 599.8076078461562
## 6 9.9688286831812238 866.57251609406023
## 7 6.0791010152284262 341.99034054677423
## 8 5.2821896086369771 340.27719283612231
## 9 4.9618599406528183 346.76467351627718
## 10 4.4392277013752448 258.56870325767909
## 11 6.1527209602954747 260.75763823846364
## 12 5.2762831967213106 390.81957935714411
## 13 5.7398567692307685 321.70663148570031
regiones=idhPeru2012[is.na(idhPeru2012$X3),]
head(regiones)
## Ubigeo.2010 DEPARTAMENTO X3 Población Índice.de.Desarrollo.Humano
## 4 010000 AMAZONAS <NA> 417508 0.38456481683981075
## 96 020000 ANCASH <NA> 1129391 0.44290230621269056
## 283 030000 APURÍMAC <NA> 451881 0.34441683483726371
## 371 040000 AREQUIPA <NA> 1245251 0.57806322953044309
## 489 050000 AYACUCHO <NA> 666029 0.33357111699774589
## 612 060000 CAJAMARCA <NA> 1513892 0.37734675827049052
## Esperanza.de.vida.al.nacer Población.con.Educ..secundaria.completa
## 4 73.985877321240068 53.652878324694122
## 96 74.111913737790118 57.005399447080961
## 283 72.41377846205701 60.572749145477857
## 371 75.970633019883053 88.271661375470302
## 489 70.215650055032341 43.591237225688303
## 612 73.832452915628664 54.776611740840529
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 4 6.6609999999999996 435.67364690236298
## 96 7.8883999999999999 564.22424063193841
## 283 6.1528 330.75894948576064
## 371 10.035500000000001 818.36239127735587
## 489 6.3811 358.7459924604106
## 612 6.4005000000000001 421.30077222005315
Elimino clumnas innecesarias y reseteo el índice:
regiones=regiones[,c(1,2)]
row.names(regiones)=NULL
head(regiones,10)
## Ubigeo.2010 DEPARTAMENTO
## 1 010000 AMAZONAS
## 2 020000 ANCASH
## 3 030000 APURÍMAC
## 4 040000 AREQUIPA
## 5 050000 AYACUCHO
## 6 060000 CAJAMARCA
## 7 080000 CUSCO
## 8 090000 HUANCAVELICA
## 9 100000 HUÁNUCO
## 10 110000 ICA
Elimino filas 15 y 16:
regiones=regiones[-c(15,16),]
Reseteo índice y nombro adecuadamente las columnas:
row.names(regiones)=NULL
colnames(regiones)=c("UbigeoReg","nombreReg")
head(regiones,10)
## UbigeoReg nombreReg
## 1 010000 AMAZONAS
## 2 020000 ANCASH
## 3 030000 APURÍMAC
## 4 040000 AREQUIPA
## 5 050000 AYACUCHO
## 6 060000 CAJAMARCA
## 7 080000 CUSCO
## 8 090000 HUANCAVELICA
## 9 100000 HUÁNUCO
## 10 110000 ICA
provincias=idhPeru2012[is.na(idhPeru2012$DEPARTAMENTO),]
head(provincias)
## Ubigeo.2010 DEPARTAMENTO X3 Población
## 5 010100 <NA> Chachapoyas 54783
## 27 010200 <NA> Bagua 77438
## 34 010300 <NA> Bongará 32317
## 47 010400 <NA> Condorcanqui 51802
## 51 010500 <NA> Luya 52185
## 75 010600 <NA> Rodríguez de Mendoza 30236
## Índice.de.Desarrollo.Humano Esperanza.de.vida.al.nacer
## 5 0.43437528891030147 73.954749644794703
## 27 0.38666363595333475 76.878968016828637
## 34 0.34979114080765911 73.369277315355845
## 47 0.18662628231842029 70.391366951422441
## 51 0.30759811789767089 74.065734878866394
## 75 0.33106191919526051 73.353178903481876
## Población.con.Educ..secundaria.completa
## 5 45.487825419517883
## 27 39.843663000614804
## 34 29.456796245528039
## 47 8.012634398123593
## 51 34.403834218734417
## 75 26.603732016307635
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 5 7.7996986562381565 599.8076078461562
## 27 6.9715534122201923 467.64418691375141
## 34 6.4642134036243819 455.71423179631608
## 47 5.5773132627271629 180.07024137173016
## 51 5.5040336081755905 327.84929131047261
## 75 6.0766346174073087 427.0962097640508
Elimino la columna departamento:
provincias=provincias[,-c(2)]
head(provincias)
## Ubigeo.2010 X3 Población Índice.de.Desarrollo.Humano
## 5 010100 Chachapoyas 54783 0.43437528891030147
## 27 010200 Bagua 77438 0.38666363595333475
## 34 010300 Bongará 32317 0.34979114080765911
## 47 010400 Condorcanqui 51802 0.18662628231842029
## 51 010500 Luya 52185 0.30759811789767089
## 75 010600 Rodríguez de Mendoza 30236 0.33106191919526051
## Esperanza.de.vida.al.nacer Población.con.Educ..secundaria.completa
## 5 73.954749644794703 45.487825419517883
## 27 76.878968016828637 39.843663000614804
## 34 73.369277315355845 29.456796245528039
## 47 70.391366951422441 8.012634398123593
## 51 74.065734878866394 34.403834218734417
## 75 73.353178903481876 26.603732016307635
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 5 7.7996986562381565 599.8076078461562
## 27 6.9715534122201923 467.64418691375141
## 34 6.4642134036243819 455.71423179631608
## 47 5.5773132627271629 180.07024137173016
## 51 5.5040336081755905 327.84929131047261
## 75 6.0766346174073087 427.0962097640508
Reseteo el índice:
row.names(provincias)=NULL
head(provincias)
## Ubigeo.2010 X3 Población Índice.de.Desarrollo.Humano
## 1 010100 Chachapoyas 54783 0.43437528891030147
## 2 010200 Bagua 77438 0.38666363595333475
## 3 010300 Bongará 32317 0.34979114080765911
## 4 010400 Condorcanqui 51802 0.18662628231842029
## 5 010500 Luya 52185 0.30759811789767089
## 6 010600 Rodríguez de Mendoza 30236 0.33106191919526051
## Esperanza.de.vida.al.nacer Población.con.Educ..secundaria.completa
## 1 73.954749644794703 45.487825419517883
## 2 76.878968016828637 39.843663000614804
## 3 73.369277315355845 29.456796245528039
## 4 70.391366951422441 8.012634398123593
## 5 74.065734878866394 34.403834218734417
## 6 73.353178903481876 26.603732016307635
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 1 7.7996986562381565 599.8076078461562
## 2 6.9715534122201923 467.64418691375141
## 3 6.4642134036243819 455.71423179631608
## 4 5.5773132627271629 180.07024137173016
## 5 5.5040336081755905 327.84929131047261
## 6 6.0766346174073087 427.0962097640508
Elimino la fila 129:
provincias=provincias[-c(129),]
head(provincias)
## Ubigeo.2010 X3 Población Índice.de.Desarrollo.Humano
## 1 010100 Chachapoyas 54783 0.43437528891030147
## 2 010200 Bagua 77438 0.38666363595333475
## 3 010300 Bongará 32317 0.34979114080765911
## 4 010400 Condorcanqui 51802 0.18662628231842029
## 5 010500 Luya 52185 0.30759811789767089
## 6 010600 Rodríguez de Mendoza 30236 0.33106191919526051
## Esperanza.de.vida.al.nacer Población.con.Educ..secundaria.completa
## 1 73.954749644794703 45.487825419517883
## 2 76.878968016828637 39.843663000614804
## 3 73.369277315355845 29.456796245528039
## 4 70.391366951422441 8.012634398123593
## 5 74.065734878866394 34.403834218734417
## 6 73.353178903481876 26.603732016307635
## Años.de.educación.(Poblac..25.y.más) Ingreso.familiar.per.cápita
## 1 7.7996986562381565 599.8076078461562
## 2 6.9715534122201923 467.64418691375141
## 3 6.4642134036243819 455.71423179631608
## 4 5.5773132627271629 180.07024137173016
## 5 5.5040336081755905 327.84929131047261
## 6 6.0766346174073087 427.0962097640508
Reseteo el índice y cambio el nombre a mis variables:
row.names(provincias)=NULL
colnames(provincias)=c("UbigeoProv","nombreProv","habitantes","IDH","esperanza","secundaria","educa","percapitaf")
head(provincias)
## UbigeoProv nombreProv habitantes IDH
## 1 010100 Chachapoyas 54783 0.43437528891030147
## 2 010200 Bagua 77438 0.38666363595333475
## 3 010300 Bongará 32317 0.34979114080765911
## 4 010400 Condorcanqui 51802 0.18662628231842029
## 5 010500 Luya 52185 0.30759811789767089
## 6 010600 Rodríguez de Mendoza 30236 0.33106191919526051
## esperanza secundaria educa
## 1 73.954749644794703 45.487825419517883 7.7996986562381565
## 2 76.878968016828637 39.843663000614804 6.9715534122201923
## 3 73.369277315355845 29.456796245528039 6.4642134036243819
## 4 70.391366951422441 8.012634398123593 5.5773132627271629
## 5 74.065734878866394 34.403834218734417 5.5040336081755905
## 6 73.353178903481876 26.603732016307635 6.0766346174073087
## percapitaf
## 1 599.8076078461562
## 2 467.64418691375141
## 3 455.71423179631608
## 4 180.07024137173016
## 5 327.84929131047261
## 6 427.0962097640508
Creo ubigeo de de regiones en ubigeo de provincias:
provincias$UbigeoReg=provincias$UbigeoProv
str(provincias$UbigeoReg)
## chr [1:195] "010100" "010200" "010300" "010400" "010500" "010600" ...
Genero los ubigeos de región en la columna UbigeoReg
substr(provincias$UbigeoReg,3,6)='0000'
head(provincias,10)
## UbigeoProv nombreProv habitantes IDH
## 1 010100 Chachapoyas 54783 0.43437528891030147
## 2 010200 Bagua 77438 0.38666363595333475
## 3 010300 Bongará 32317 0.34979114080765911
## 4 010400 Condorcanqui 51802 0.18662628231842029
## 5 010500 Luya 52185 0.30759811789767089
## 6 010600 Rodríguez de Mendoza 30236 0.33106191919526051
## 7 010700 Utcubamba 118747 0.36779541092844004
## 8 020100 Huaraz 161003 0.48161227345666302
## 9 020200 Aija 7974 0.27935256400470715
## 10 020300 Antonio Raymondi 16879 0.22642628807549581
## esperanza secundaria educa
## 1 73.954749644794703 45.487825419517883 7.7996986562381565
## 2 76.878968016828637 39.843663000614804 6.9715534122201923
## 3 73.369277315355845 29.456796245528039 6.4642134036243819
## 4 70.391366951422441 8.012634398123593 5.5773132627271629
## 5 74.065734878866394 34.403834218734417 5.5040336081755905
## 6 73.353178903481876 26.603732016307635 6.0766346174073087
## 7 74.770210670142745 33.401093278755212 6.1971641366390022
## 8 73.197564266953222 67.602667602667594 9.2732485820429282
## 9 62.597794477383118 34.785370586458441 7.2436258948298722
## 10 70.15113526288998 26.486047369972539 5.946810500863557
## percapitaf UbigeoReg
## 1 599.8076078461562 010000
## 2 467.64418691375141 010000
## 3 455.71423179631608 010000
## 4 180.07024137173016 010000
## 5 327.84929131047261 010000
## 6 427.0962097640508 010000
## 7 494.72180776007764 010000
## 8 609.70273257318433 020000
## 9 269.83645145333554 020000
## 10 171.72834031992653 020000
Ordeno:
provincias=provincias[,c(9,1:8)]
head(provincias,10)
## UbigeoReg UbigeoProv nombreProv habitantes
## 1 010000 010100 Chachapoyas 54783
## 2 010000 010200 Bagua 77438
## 3 010000 010300 Bongará 32317
## 4 010000 010400 Condorcanqui 51802
## 5 010000 010500 Luya 52185
## 6 010000 010600 Rodríguez de Mendoza 30236
## 7 010000 010700 Utcubamba 118747
## 8 020000 020100 Huaraz 161003
## 9 020000 020200 Aija 7974
## 10 020000 020300 Antonio Raymondi 16879
## IDH esperanza secundaria
## 1 0.43437528891030147 73.954749644794703 45.487825419517883
## 2 0.38666363595333475 76.878968016828637 39.843663000614804
## 3 0.34979114080765911 73.369277315355845 29.456796245528039
## 4 0.18662628231842029 70.391366951422441 8.012634398123593
## 5 0.30759811789767089 74.065734878866394 34.403834218734417
## 6 0.33106191919526051 73.353178903481876 26.603732016307635
## 7 0.36779541092844004 74.770210670142745 33.401093278755212
## 8 0.48161227345666302 73.197564266953222 67.602667602667594
## 9 0.27935256400470715 62.597794477383118 34.785370586458441
## 10 0.22642628807549581 70.15113526288998 26.486047369972539
## educa percapitaf
## 1 7.7996986562381565 599.8076078461562
## 2 6.9715534122201923 467.64418691375141
## 3 6.4642134036243819 455.71423179631608
## 4 5.5773132627271629 180.07024137173016
## 5 5.5040336081755905 327.84929131047261
## 6 6.0766346174073087 427.0962097640508
## 7 6.1971641366390022 494.72180776007764
## 8 9.2732485820429282 609.70273257318433
## 9 7.2436258948298722 269.83645145333554
## 10 5.946810500863557 171.72834031992653
Añado columna de regiones:
idhProvincial2012=merge(regiones,provincias,
by.x = "UbigeoReg",
by.y = "UbigeoReg")
head(idhProvincial2012,10)
## UbigeoReg nombreReg UbigeoProv nombreProv habitantes
## 1 010000 AMAZONAS 010200 Bagua 77438
## 2 010000 AMAZONAS 010300 Bongará 32317
## 3 010000 AMAZONAS 010400 Condorcanqui 51802
## 4 010000 AMAZONAS 010500 Luya 52185
## 5 010000 AMAZONAS 010600 Rodríguez de Mendoza 30236
## 6 010000 AMAZONAS 010700 Utcubamba 118747
## 7 010000 AMAZONAS 010100 Chachapoyas 54783
## 8 020000 ANCASH 020100 Huaraz 161003
## 9 020000 ANCASH 020200 Aija 7974
## 10 020000 ANCASH 020400 Asunción 9013
## IDH esperanza secundaria
## 1 0.38666363595333475 76.878968016828637 39.843663000614804
## 2 0.34979114080765911 73.369277315355845 29.456796245528039
## 3 0.18662628231842029 70.391366951422441 8.012634398123593
## 4 0.30759811789767089 74.065734878866394 34.403834218734417
## 5 0.33106191919526051 73.353178903481876 26.603732016307635
## 6 0.36779541092844004 74.770210670142745 33.401093278755212
## 7 0.43437528891030147 73.954749644794703 45.487825419517883
## 8 0.48161227345666302 73.197564266953222 67.602667602667594
## 9 0.27935256400470715 62.597794477383118 34.785370586458441
## 10 0.27388066138515543 69.956696881310734 33.692834676997627
## educa percapitaf
## 1 6.9715534122201923 467.64418691375141
## 2 6.4642134036243819 455.71423179631608
## 3 5.5773132627271629 180.07024137173016
## 4 5.5040336081755905 327.84929131047261
## 5 6.0766346174073087 427.0962097640508
## 6 6.1971641366390022 494.72180776007764
## 7 7.7996986562381565 599.8076078461562
## 8 9.2732485820429282 609.70273257318433
## 9 7.2436258948298722 269.83645145333554
## 10 5.3756625932647726 267.03580987246301
Ordeno columnas:
idhProvincial2012=idhProvincial2012[,c(1,3,2,4,5:10)]
head(idhProvincial2012)
## UbigeoReg UbigeoProv nombreReg nombreProv habitantes
## 1 010000 010200 AMAZONAS Bagua 77438
## 2 010000 010300 AMAZONAS Bongará 32317
## 3 010000 010400 AMAZONAS Condorcanqui 51802
## 4 010000 010500 AMAZONAS Luya 52185
## 5 010000 010600 AMAZONAS Rodríguez de Mendoza 30236
## 6 010000 010700 AMAZONAS Utcubamba 118747
## IDH esperanza secundaria
## 1 0.38666363595333475 76.878968016828637 39.843663000614804
## 2 0.34979114080765911 73.369277315355845 29.456796245528039
## 3 0.18662628231842029 70.391366951422441 8.012634398123593
## 4 0.30759811789767089 74.065734878866394 34.403834218734417
## 5 0.33106191919526051 73.353178903481876 26.603732016307635
## 6 0.36779541092844004 74.770210670142745 33.401093278755212
## educa percapitaf
## 1 6.9715534122201923 467.64418691375141
## 2 6.4642134036243819 455.71423179631608
## 3 5.5773132627271629 180.07024137173016
## 4 5.5040336081755905 327.84929131047261
## 5 6.0766346174073087 427.0962097640508
## 6 6.1971641366390022 494.72180776007764
Pongo en mayúscula nombre de las provincias:
idhProvincial2012$nombreProv=toupper(idhProvincial2012$nombreProv)
head(idhProvincial2012)
## UbigeoReg UbigeoProv nombreReg nombreProv habitantes
## 1 010000 010200 AMAZONAS BAGUA 77438
## 2 010000 010300 AMAZONAS BONGARÁ 32317
## 3 010000 010400 AMAZONAS CONDORCANQUI 51802
## 4 010000 010500 AMAZONAS LUYA 52185
## 5 010000 010600 AMAZONAS RODRÍGUEZ DE MENDOZA 30236
## 6 010000 010700 AMAZONAS UTCUBAMBA 118747
## IDH esperanza secundaria
## 1 0.38666363595333475 76.878968016828637 39.843663000614804
## 2 0.34979114080765911 73.369277315355845 29.456796245528039
## 3 0.18662628231842029 70.391366951422441 8.012634398123593
## 4 0.30759811789767089 74.065734878866394 34.403834218734417
## 5 0.33106191919526051 73.353178903481876 26.603732016307635
## 6 0.36779541092844004 74.770210670142745 33.401093278755212
## educa percapitaf
## 1 6.9715534122201923 467.64418691375141
## 2 6.4642134036243819 455.71423179631608
## 3 5.5773132627271629 180.07024137173016
## 4 5.5040336081755905 327.84929131047261
## 5 6.0766346174073087 427.0962097640508
## 6 6.1971641366390022 494.72180776007764
Ya tengo mi data limpia.
Saco estructura:
str(idhProvincial2012)
## 'data.frame': 194 obs. of 10 variables:
## $ UbigeoReg : chr "010000" "010000" "010000" "010000" ...
## $ UbigeoProv: chr "010200" "010300" "010400" "010500" ...
## $ nombreReg : chr "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
## $ nombreProv: chr "BAGUA" "BONGARÁ" "CONDORCANQUI" "LUYA" ...
## $ habitantes: chr "77438" "32317" "51802" "52185" ...
## $ IDH : chr "0.38666363595333475" "0.34979114080765911" "0.18662628231842029" "0.30759811789767089" ...
## $ esperanza : chr "76.878968016828637" "73.369277315355845" "70.391366951422441" "74.065734878866394" ...
## $ secundaria: chr "39.843663000614804" "29.456796245528039" "8.012634398123593" "34.403834218734417" ...
## $ educa : chr "6.9715534122201923" "6.4642134036243819" "5.5773132627271629" "5.5040336081755905" ...
## $ percapitaf: chr "467.64418691375141" "455.71423179631608" "180.07024137173016" "327.84929131047261" ...
Hago un subset con mi data de interés (variables esperanza, secundaria, educa y percapitaf):
datos=idhProvincial2012[,c(7:10)]
row.names(datos)=idhProvincial2012$nombreProv
head(datos)
## esperanza secundaria
## BAGUA 76.878968016828637 39.843663000614804
## BONGARÁ 73.369277315355845 29.456796245528039
## CONDORCANQUI 70.391366951422441 8.012634398123593
## LUYA 74.065734878866394 34.403834218734417
## RODRÍGUEZ DE MENDOZA 73.353178903481876 26.603732016307635
## UTCUBAMBA 74.770210670142745 33.401093278755212
## educa percapitaf
## BAGUA 6.9715534122201923 467.64418691375141
## BONGARÁ 6.4642134036243819 455.71423179631608
## CONDORCANQUI 5.5773132627271629 180.07024137173016
## LUYA 5.5040336081755905 327.84929131047261
## RODRÍGUEZ DE MENDOZA 6.0766346174073087 427.0962097640508
## UTCUBAMBA 6.1971641366390022 494.72180776007764
Convierto mis variables en numéricas:
datos$esperanza=as.numeric(datos$esperanza)
datos$secundaria=as.numeric(datos$secundaria)
datos$educa=as.numeric(datos$educa)
datos$percapitaf=as.numeric(datos$percapitaf)
Veo estructura:
str(datos)
## 'data.frame': 194 obs. of 4 variables:
## $ esperanza : num 76.9 73.4 70.4 74.1 73.4 ...
## $ secundaria: num 39.84 29.46 8.01 34.4 26.6 ...
## $ educa : num 6.97 6.46 5.58 5.5 6.08 ...
## $ percapitaf: num 468 456 180 328 427 ...
Estandarizo con scale:
datos_s=scale(datos)
summary(datos_s)
## esperanza secundaria educa percapitaf
## Min. :-3.2881 Min. :-2.19012 Min. :-1.96792 Min. :-1.4720
## 1st Qu.:-0.5043 1st Qu.:-0.84026 1st Qu.:-0.84724 1st Qu.:-0.7646
## Median : 0.1642 Median :-0.07862 Median :-0.07409 Median :-0.3573
## Mean : 0.0000 Mean : 0.00000 Mean : 0.00000 Mean : 0.0000
## 3rd Qu.: 0.6694 3rd Qu.: 0.84775 3rd Qu.: 0.77516 3rd Qu.: 0.6550
## Max. : 1.7821 Max. : 2.12455 Max. : 2.43113 Max. : 3.5033
Saco distancias con dist:
datos_d=dist(datos_s)
Escalamiento multidimensional con cmdscale:
datos_r <- cmdscale(datos_d,eig=TRUE, k=2)
datos_r$GOF
## [1] 0.9059724 0.9059724
Mapa de similitudes:
titulo="Mapa de Similitudes entre provincias del Peru basado en el IDH 2012"
x <- datos_r$points[,1]
y <- datos_r$points[,2]
plot(x, y, main=titulo)
Personalicemos el mapa y añadimos etiquetas:
plot(x, y, xlab="Dimension 1", ylab="Dimension 2", main=titulo, type="n")
columnForLabels=dimnames(datos_r[[1]])[[1]]
text(x, y,labels = columnForLabels , cex = 0.5)
La bondad de ajuste es de 0.90. Bastante buena.
Del mapa de similitudes podemos ver que los grupos de provincias que sobresalen en el mapa son:
Las provincias de cada grupo están cercanas en su IDH. Pero los grupos tienen diferencias en su IDH.
Cargo data PeruLAPOP2014
folder="data"
fileName="PeruLAPOP2014.sav"
fileToRead=file.path(folder,fileName)
library(foreign)
lapop=foreign::read.spss(fileToRead,use.value.labels = F,to.data.frame = T)
head(lapop)
## pais idnum uniq_id estratopri estratosec upm prov municipio
## 1 11 380 14110380 1105 3 78 1110 1100045
## 2 11 154 14110154 1107 3 97 1105 1100064
## 3 11 532 14110532 1106 3 88 1113 1100055
## 4 11 207 14110207 1106 3 87 1106 1100054
## 5 11 373 14110373 1105 3 78 1110 1100045
## 6 11 1187 14111187 1104 3 65 1116 1100032
## perprov cluster ur tamano idiomaq fecha wt q1 q2y q2 ls3 a4 soct2
## 1 1010 186 2 5 1 13610419200 1 2 1953 61 3 5 2
## 2 505 224 2 5 1 13610160000 1 1 1973 41 2 3 2
## 3 1306 205 2 5 1 13610678400 1 1 1965 49 2 7 2
## 4 610 203 2 5 1 13610332800 1 2 1974 40 NA 25 NA
## 5 1010 185 2 5 1 13610505600 1 2 1992 22 2 4 3
## 6 1601 160 2 5 1 13609900800 1 2 1979 35 1 5 1
## idio2 np1 np2 sgl1 sgl2 muni5 muni6 muni11 cp4a cp5 cp6 cp7 cp8 cp13
## 1 2 2 2 3 3 0 1 4 2 4 1 3 3 4
## 2 2 1 1 3 2 1 2 3 1 3 2 1 3 4
## 3 1 2 2 3 3 0 NA 4 2 NA 4 2 4 4
## 4 NA 2 NA 4 3 0 1 4 NA 3 3 2 3 4
## 5 3 2 2 3 3 0 0 3 2 4 1 3 3 3
## 6 1 2 2 2 2 0 3 2 2 4 NA 2 2 NA
## cp20 cpss1 it1 l1 prot3 jc10 jc13 jc15a vic1ext vic1exta vic2 vic2aa
## 1 NA 4 2 NA 2 2 2 2 2 NA NA NA
## 2 NA 3 2 5 1 1 1 2 2 NA NA NA
## 3 NA 4 2 5 2 NA NA NA 2 NA NA NA
## 4 NA 4 NA 6 NA 1 1 1 2 NA NA NA
## 5 3 3 4 NA 2 2 2 NA 2 NA NA NA
## 6 4 3 1 10 2 1 1 2 2 NA NA NA
## vic1hogar pole2n aoj11 pese1 pese2 aoj17 aoj12 aoj22 b1 b2 b3 b4 b6 b10a
## 1 2 NA 2 3 3 4 4 2 NA 7 4 7 7 3
## 2 2 2 1 3 2 4 3 2 3 4 2 3 4 4
## 3 2 4 2 2 2 4 NA 3 4 4 4 4 4 4
## 4 2 3 4 2 2 1 2 2 3 1 1 1 5 4
## 5 2 3 3 3 3 4 4 2 5 5 5 7 7 4
## 6 2 2 1 3 2 4 2 2 1 6 5 4 5 3
## b11 b12 b13 b18 b20 b20a b21 b21a b32 b33 b17 b47a n9 n11 n15 b3milx
## 1 5 7 2 4 5 5 1 4 4 4 6 6 4 2 5 5
## 2 4 4 4 3 5 1 3 4 4 4 4 4 4 4 5 4
## 3 4 4 3 3 4 4 3 4 3 4 4 4 3 3 3 4
## 4 4 3 1 2 4 3 2 1 2 3 1 1 2 2 1 5
## 5 5 7 3 3 3 7 3 5 2 4 5 5 1 1 4 5
## 6 NA 2 5 6 2 4 3 4 4 4 4 4 4 4 4 5
## mil3 mil4 pr3a pr3b pr3c pr4 pr5 m1 sd2new2 sd3new2 sd6new2 infrax
## 1 NA NA 1 3 5 NA 2 3 4 3 3 6
## 2 2 2 3 4 6 6 2 3 2 4 4 5
## 3 NA NA 3 3 3 4 2 2 2 2 2 6
## 4 4 6 6 5 4 1 1 3 3 NA 3 NA
## 5 1 1 1 3 3 5 2 3 4 2 2 6
## 6 5 7 6 6 6 5 2 4 2 2 2 2
## infra2 coer1 ros1 ros4 gen6 ing4 eff1 eff2 mil7 env1 pn4 w14a e5 e15 e3
## 1 6 4 NA NA NA 6 3 5 6 2 2 2 10 1 1
## 2 5 4 4 6 4 5 4 4 5 1 3 2 6 5 6
## 3 6 4 5 5 5 5 4 4 4 2 2 2 3 2 2
## 4 NA 3 2 2 4 1 3 2 1 3 NA 2 2 2 3
## 5 6 4 NA NA 7 5 1 4 7 2 2 2 10 1 1
## 6 6 1 7 7 7 7 1 1 1 1 2 1 10 10 8
## e16 d1 d2 d3 d4 d5 d6 d7 dem2 dem11 exc2 exc6 exc20 exc11 exc13 exc14
## 1 1 8 8 10 10 1 1 10 2 2 0 0 0 NA NA 0
## 2 6 6 5 6 7 4 3 3 2 2 0 0 0 0 0 NA
## 3 4 5 4 4 4 5 5 5 1 2 0 0 0 NA 0 NA
## 4 2 1 7 6 2 5 4 5 NA 1 0 0 0 0 NA 1
## 5 1 10 9 10 10 10 5 10 2 NA 0 0 0 NA NA NA
## 6 10 1 10 9 10 10 1 10 2 2 0 0 0 NA 0 NA
## exc15 exc16 exc18 exc7 vicbar1 vicbar1f vicbar3 vicbar4 vicbar7 fear10
## 1 0 0 0 3 2 NA 2 2 2 0
## 2 NA 0 0 3 2 NA 2 2 2 0
## 3 NA 0 0 NA NA NA NA 2 2 0
## 4 0 0 1 3 1 1 2 2 2 1
## 5 0 0 0 1 2 NA 2 2 2 0
## 6 0 1 1 3 2 NA 1 1 2 0
## vic44 vb1 vb2 vb3n vb4new vb101 vb10 vb11 pol1 vb20 vb50 clien1n
## 1 0 1 1 NA NA NA 2 NA 4 NA 3 2
## 2 1 1 1 1101 NA NA 2 NA 3 1 3 2
## 3 0 1 1 1101 NA NA 1 1101 4 2 2 2
## 4 1 1 2 NA 77 NA 1 NA 3 1 3 NA
## 5 0 1 1 1101 NA NA 2 NA 4 4 3 2
## 6 1 1 1 1177 NA NA 2 NA 3 3 2 2
## clien1na soc2a soc3n soc5 soc7 soc9 for1n for4 for5 for6 for7 for6b
## 1 2 1 2 2 2 2 4 NA 4 2 2 2
## 2 2 5 2 2 3 1 4 4 10 3 4 3
## 3 2 2 2 NA 2 NA 1 1 1 1 2 2
## 4 2 1 NA NA 3 2 NA 12 13 2 3 3
## 5 2 2 2 2 2 2 5 5 4 2 2 2
## 6 2 1 1 1 1 1 4 4 2 1 2 1
## for7b mil10a mil10c mil10e vol207n vol208n wf1 cct1b ed ed2 q3c q5b
## 1 2 2 NA 2 3 2 2 2 6 0 1 2
## 2 4 3 3 2 4 1 2 1 11 0 1 1
## 3 2 2 NA NA 4 3 2 2 3 1 2 3
## 4 5 3 4 NA 3 4 2 2 0 0 12 2
## 5 2 2 NA 2 5 2 2 2 11 0 5 1
## 6 2 2 4 1 4 3 2 1 3 3 5 1
## ocup4a ocup1a q10new q10g q10a q14 q10d q10e q11n q12c q12bn q12 etid
## 1 5 NA NA NA 2 2 3 3 6 2 0 5 2
## 2 1 4 3 NA 2 2 4 2 2 6 1 4 10
## 3 1 4 2 2 2 2 4 2 2 5 3 5 2
## 4 5 NA NA NA 2 2 NA 3 3 6 2 4 4
## 5 5 NA 5 NA 2 2 2 2 3 4 2 2 2
## 6 1 4 9 NA 2 2 3 1 3 7 4 5 10
## leng1 leng4 www1 gi0 gi1 gix4 gi4 gi7 r3 r4 r4a r5 r6 r7 r8 r12 r14 r15
## 1 1101 2 5 4 NA NA NA NA 0 0 0 0 0 0 0 0 0 0
## 2 1102 3 5 2 NA 2 1 120 0 0 0 0 0 0 0 0 0 0
## 3 1101 1 5 1 NA NA NA NA 0 0 0 0 0 0 0 0 0 0
## 4 1102 2 5 2 2 2 2 60 0 0 0 0 0 0 0 0 0 0
## 5 1101 1 5 2 1 NA 1 NA 0 0 0 0 0 0 0 0 0 0
## 6 1101 3 5 1 NA NA 2 NA 0 0 0 0 0 0 0 0 0 0
## r18 r1 r16 r26 colorr sexi colori nationality formatq sex gi7r
## 1 0 0 NA 0 4 1 7 11 1 2 NA
## 2 0 0 NA 0 6 2 3 11 1 1 0
## 3 0 0 NA 0 8 2 6 11 1 1 NA
## 4 0 0 NA 0 3 2 5 11 1 2 0
## 5 0 0 NA 0 5 1 7 11 1 2 NA
## 6 0 0 NA 0 5 2 3 11 1 2 NA
Me interesa trabajar con las variables pole2n y aoj11. Saco estructura de ambas:
str(lapop$pole2n)
## atomic [1:1500] NA 2 4 3 3 2 3 3 4 4 ...
## - attr(*, "value.labels")= Named num [1:4] 4 3 2 1
## ..- attr(*, "names")= chr [1:4] "Muy insatisfecho(a)" "Insatisfecho(a)" "Satisfecho(a)" "Muy satisfecho(a)"
str(lapop$aoj11)
## atomic [1:1500] 2 1 2 4 3 1 3 3 2 2 ...
## - attr(*, "value.labels")= Named num [1:4] 4 3 2 1
## ..- attr(*, "names")= chr [1:4] "Muy inseguro(a)" "Algo inseguro(a)" "Algo seguro(a)" "Muy seguro(a)"
Tengo que formatear mis variables a factores ordenados:
oldValues1=names(table(lapop$pole2n))
oldValues2=names(table(lapop$aoj11))
newValues1=c("Muy satisfecho(a)","Satisfecho(a)","Insatisfecho(a)","Muy insatisfecho(a)")
newValues2=c("Muy seguro(a)","Algo seguro(a)","Algo inseguro(a)","Muy inseguro(a)")
lapop$pole2n=factor(lapop$pole2n,
levels = oldValues1,
labels = newValues1,
ordered = T)
lapop$aoj11=factor(lapop$aoj11,
levels = oldValues2,
labels = newValues2,
ordered = T)
table(lapop$pole2n)
##
## Muy satisfecho(a) Satisfecho(a) Insatisfecho(a)
## 21 425 710
## Muy insatisfecho(a)
## 297
table(lapop$aoj11)
##
## Muy seguro(a) Algo seguro(a) Algo inseguro(a) Muy inseguro(a)
## 112 484 623 276
str(lapop$pole2n)
## Ord.factor w/ 4 levels "Muy satisfecho(a)"<..: NA 2 4 3 3 2 3 3 4 4 ...
str(lapop$aoj11)
## Ord.factor w/ 4 levels "Muy seguro(a)"<..: 2 1 2 4 3 1 3 3 2 2 ...
Summary de mis variables:
summary(lapop$pole2n)
## Muy satisfecho(a) Satisfecho(a) Insatisfecho(a)
## 21 425 710
## Muy insatisfecho(a) NA's
## 297 47
summary(lapop$aoj11)
## Muy seguro(a) Algo seguro(a) Algo inseguro(a) Muy inseguro(a)
## 112 484 623 276
## NA's
## 5
Saco tabla cruzada:
tablaTE=table(lapop$pole2n,lapop$aoj11)
prop.table(tablaTE)
##
## Muy seguro(a) Algo seguro(a) Algo inseguro(a)
## Muy satisfecho(a) 0.004137931 0.004137931 0.002758621
## Satisfecho(a) 0.035172414 0.157931034 0.083448276
## Insatisfecho(a) 0.022758621 0.109655172 0.254482759
## Muy insatisfecho(a) 0.011724138 0.051724138 0.075862069
##
## Muy inseguro(a)
## Muy satisfecho(a) 0.003448276
## Satisfecho(a) 0.016551724
## Insatisfecho(a) 0.100689655
## Muy insatisfecho(a) 0.065517241
Saco chi-cuadrado:
chisq.test(tablaTE)
## Warning in chisq.test(tablaTE): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: tablaTE
## X-squared = 229.57, df = 9, p-value < 2.2e-16
Saco versión no paramétrica:
chisq.test(tablaTE,simulate.p.value = T)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablaTE
## X-squared = 229.57, df = NA, p-value = 0.0004998
Hay asociación.
Hago análisis de correspondencias:
library(ca)
## Warning: package 'ca' was built under R version 3.4.4
tablaCA_te=ca(tablaTE)
tablaCA_te
##
## Principal inertias (eigenvalues):
## 1 2 3
## Value 0.13006 0.021989 0.006278
## Percentage 82.15% 13.89% 3.97%
##
##
## Rows:
## Muy satisfecho(a) Satisfecho(a) Insatisfecho(a)
## Mass 0.014483 0.293103 0.487586
## ChiDist 0.866118 0.551787 0.262416
## Inertia 0.010864 0.089241 0.033576
## Dim. 1 -0.830137 -1.528182 0.662122
## Dim. 2 3.889172 -0.127236 -0.713488
## Muy insatisfecho(a)
## Mass 0.204828
## ChiDist 0.346878
## Inertia 0.024646
## Dim. 1 0.669327
## Dim. 2 1.605517
##
##
## Columns:
## Muy seguro(a) Algo seguro(a) Algo inseguro(a) Muy inseguro(a)
## Mass 0.073793 0.323448 0.416552 0.186207
## ChiDist 0.557240 0.430432 0.259515 0.504713
## Inertia 0.022914 0.059926 0.028054 0.047433
## Dim. 1 -1.287684 -1.179250 0.595515 1.226517
## Dim. 2 1.297987 0.016784 -0.965880 1.617167
plot.ca(tablaCA_te, col=c("red","blue"))
Ángulos:
plot.ca(tablaCA_te, col=c("red","blue"), arrows = c(T,T))
“Satisfecho(a)” y “Algo seguro(a)” están cerca al origen. No están asociadas.
“Muy satisfecho(a)” y “Muy seguro(a)” están muy lejos del origen. Debe haber asociación positiva (ángulo agudo).
“Muy insatisfecho(a)” y “Muy inseguro(a)” están lejos del origen, aunque no tanto. Asociación positiva.
“Insatisfecho(a)” y “Algo inseguro(a)” están algo alejados del origen. Asociación positiva.