El siguiente trabajo se propone un nuevo abordaje al trabajo de los Lic. Alvarez, Gustavo , Lic. Lago Martínez, Silvia , Lic. Larrea, Pablo y Lic. Mauro, Mirta titulado “Análisis Exploratorio Multivariado. Combinación de procedimientos para clasificar departamentos de Cuatro Provincias Argentinas según el impacto del desarrollo en las condiciones de vida” durante las “TERCERAS JORNADAS DE SOCIOLOGIA DE LA UBA ‘LA CUESTION SOCIAL HOY’”.
En este documento se desarrollarán 4 pasos para alcanzar los resultados propuestos por los autores: 1) Preparación de los datos 2)Análisis factorial 3)Clusterización 4) ANOVA. Se culminará con una breve conclusión detallando la selección del cluster final y las razones de la elección del método distinto al propuesto por los autores.
Para realizar este trabajo se contó con la base utilizada por los autores, así como también de las modificaciones hechas por ellos. Entonces, contaremos con los factores y clusters presentados en el paper original para su comparación.
A continuación se presenta el desarrollo de cada uno de los cuatros pasos.
#Importamos la base
library(haven)
base<- read_sav(file="C:\\Users\\jonat\\OneDrive\\Escritorio\\Maestria generacion y analisis de informacion estadistica\\7. Estadistica 3\\Examen\\basejor3.sav")
Las técnicas multivariantes suponen un gran poder analítico. Tienen la capacidad de resuminar grandes volúmenes de observaciones y variables en categorías que sean más fáciles de aprehender para el investigador.Sin embargo, también suponen una serie de criterios que deben seguirse para asegurarse de no introducir distorsiones en los datos.
A partir de esto, podemos hacer hincapié en la relevancia de entender la naturalez de los datos, el impacto de los datos ausentes o perdidos y los casos atípicos que puedan afectar nuestros modelos.
#Observamos el cabezal de la base
head(base)
## # A tibble: 6 × 45
## N_ORDEN DEPART DEPTO PURBANA MIGINTPR MIGLIMIT HOGNBI VSINAGUA VSINELEC
## <chr> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 C7 CAPITAL C049 99.7 13.9 0.2 15.5 0.9 4.9
## 2 M1 CAPITAL M007 100 18.4 4 9.7 5.1 0.6
## 3 M15 S RAFAEL M105 65.6 7.4 1.2 17.6 26.6 7.7
## 4 M3 GOD CRUZ M021 100 13.4 2.4 9.6 0.6 0.4
## 5 M4 GUAYMALL M028 91.7 14.2 4 13.4 11.3 1.4
## 6 M7 LAS HERA M049 94.9 14.6 3.4 17.3 12.2 2.2
## # … with 36 more variables: HSINGAS <dbl>, CONDESAG <dbl>, MORTINF <dbl>,
## # MORTNEON <dbl>, NACVIV20 <dbl>, SINCOBSA <dbl>, ESCMEDIO <dbl>,
## # ANALFAB <dbl>, ASISHTPI <dbl>, PRPERHOG <dbl>, JEFMUJER <dbl>,
## # VIVPREC <dbl>, IRRTENVI <dbl>, TASACTTO <dbl>, TASACTMU <dbl>,
## # TASDESTO <dbl>, TASDESMU <dbl>, ASALPUBL <dbl>, CTAPROP <dbl>,
## # PRECASAL <dbl>, FAC1_1 <dbl>, FAC2_1 <dbl>, FAC3_1 <dbl>, FAC4_1 <dbl>,
## # FAC5_1 <dbl>, FAC6_1 <dbl>, PCIA <chr>, D1 <dbl+lbl>, D2 <dbl+lbl>, …
Nuestra base cuenta con 71 observaciones y 45 variables en total. En donde nos encontramos con la siguintes variables:
Del total de variables, contamos con 4 variables
categóricas(N_ORDEN, DEPART, DEPTO y PCIA), mientras que el
resto corresponden a variables de tipo numérica.
#Revisamos el nivel de medicion de las variables
summary(base)
## N_ORDEN DEPART DEPTO PURBANA
## Length:71 Length:71 Length:71 Min. : 0.00
## Class :character Class :character Class :character 1st Qu.: 9.80
## Mode :character Mode :character Mode :character Median : 51.20
## Mean : 48.91
## 3rd Qu.: 72.10
## Max. :100.00
##
## MIGINTPR MIGLIMIT HOGNBI VSINAGUA
## Min. : 2.00 Min. :0.0000 Min. : 9.60 Min. : 0.10
## 1st Qu.: 6.35 1st Qu.:0.2000 1st Qu.:18.10 1st Qu.:11.75
## Median : 9.90 Median :0.4000 Median :23.30 Median :26.00
## Mean :10.51 Mean :0.9268 Mean :26.83 Mean :25.81
## 3rd Qu.:13.90 3rd Qu.:1.0000 3rd Qu.:34.40 3rd Qu.:34.35
## Max. :29.30 Max. :6.2000 Max. :68.60 Max. :85.20
##
## VSINELEC HSINGAS CONDESAG MORTINF
## Min. : 0.40 Min. : 0.50 Min. : 0.000 Min. : 1.00
## 1st Qu.: 6.70 1st Qu.: 8.85 1st Qu.: 0.500 1st Qu.:15.35
## Median :13.80 Median :21.50 Median : 1.200 Median :18.70
## Mean :18.78 Mean :27.74 Mean : 9.993 Mean :21.17
## 3rd Qu.:22.45 3rd Qu.:44.70 3rd Qu.:14.100 3rd Qu.:25.10
## Max. :82.40 Max. :84.80 Max. :82.500 Max. :61.00
##
## MORTNEON NACVIV20 SINCOBSA ESCMEDIO
## Min. : 1.00 Min. : 7.40 Min. :20.40 Min. : 7.90
## 1st Qu.: 7.90 1st Qu.:14.75 1st Qu.:36.80 1st Qu.:36.85
## Median :11.60 Median :17.60 Median :44.70 Median :45.30
## Mean :12.66 Mean :17.60 Mean :44.19 Mean :44.29
## 3rd Qu.:15.50 3rd Qu.:20.75 3rd Qu.:51.95 3rd Qu.:53.05
## Max. :46.00 Max. :25.70 Max. :75.30 Max. :70.90
##
## ANALFAB ASISHTPI PRPERHOG JEFMUJER
## Min. : 1.600 Min. :13.00 Min. :3.300 Min. : 9.90
## 1st Qu.: 4.250 1st Qu.:25.80 1st Qu.:4.050 1st Qu.:15.85
## Median : 6.500 Median :32.80 Median :4.300 Median :20.20
## Mean : 6.344 Mean :31.49 Mean :4.217 Mean :20.22
## 3rd Qu.: 8.150 3rd Qu.:37.25 3rd Qu.:4.400 3rd Qu.:24.35
## Max. :13.500 Max. :55.90 Max. :4.700 Max. :39.50
##
## VIVPREC IRRTENVI TASACTTO TASACTMU
## Min. : 2.60 Min. :11.80 Min. :47.80 Min. :17.40
## 1st Qu.: 6.25 1st Qu.:16.85 1st Qu.:53.55 1st Qu.:31.90
## Median :10.90 Median :19.90 Median :55.80 Median :36.30
## Mean :14.50 Mean :21.23 Mean :56.40 Mean :36.69
## 3rd Qu.:20.85 3rd Qu.:24.45 3rd Qu.:58.20 3rd Qu.:41.50
## Max. :52.30 Max. :38.90 Max. :84.20 Max. :83.40
##
## TASDESTO TASDESMU ASALPUBL CTAPROP
## Min. :0.200 Min. : 0.000 Min. : 8.50 Min. :10.30
## 1st Qu.:2.850 1st Qu.: 3.700 1st Qu.:17.45 1st Qu.:18.55
## Median :4.700 Median : 6.600 Median :30.50 Median :22.00
## Mean :4.679 Mean : 6.842 Mean :30.27 Mean :21.70
## 3rd Qu.:5.950 3rd Qu.: 8.900 3rd Qu.:41.85 3rd Qu.:24.65
## Max. :9.700 Max. :20.700 Max. :63.20 Max. :38.10
##
## PRECASAL FAC1_1 FAC2_1 FAC3_1
## Min. :10.60 Min. :-1.71963 Min. :-2.4965 Min. :-2.0352
## 1st Qu.:23.70 1st Qu.:-0.67946 1st Qu.:-0.5978 1st Qu.:-0.6953
## Median :32.60 Median :-0.06942 Median : 0.1909 Median :-0.1263
## Mean :32.91 Mean : 0.00000 Mean : 0.0000 Mean : 0.0000
## 3rd Qu.:40.70 3rd Qu.: 0.47102 3rd Qu.: 0.6243 3rd Qu.: 0.6552
## Max. :60.80 Max. : 3.27670 Max. : 1.9739 Max. : 3.3048
##
## FAC4_1 FAC5_1 FAC6_1 PCIA
## Min. :-1.4772 Min. :-3.8661 Min. :-2.93097 Length:71
## 1st Qu.:-0.6883 1st Qu.:-0.4601 1st Qu.:-0.46859 Class :character
## Median :-0.1415 Median : 0.1633 Median :-0.02722 Mode :character
## Mean : 0.0000 Mean : 0.0000 Mean : 0.00000
## 3rd Qu.: 0.3662 3rd Qu.: 0.6478 3rd Qu.: 0.59574
## Max. : 4.3461 Max. : 1.8146 Max. : 2.30530
##
## D1 D2 D3 D4 D5
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.00 Min. :1.000
## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.00 1st Qu.:1.000
## Median :1.000 Median :2.000 Median :1.000 Median :1.00 Median :2.000
## Mean :1.437 Mean :1.563 Mean :1.451 Mean :1.38 Mean :1.563
## 3rd Qu.:2.000 3rd Qu.:2.000 3rd Qu.:2.000 3rd Qu.:2.00 3rd Qu.:2.000
## Max. :2.000 Max. :2.000 Max. :2.000 Max. :2.00 Max. :2.000
##
## QCL_1 ESTRAT CLU11_1 FILT
## Min. :1.000 Min. :1.000 Min. : 1.000 Min. :1
## 1st Qu.:2.000 1st Qu.:2.000 1st Qu.: 1.000 1st Qu.:1
## Median :2.000 Median :3.000 Median : 3.000 Median :1
## Mean :2.155 Mean :2.465 Mean : 4.465 Mean :1
## 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.: 6.500 3rd Qu.:1
## Max. :4.000 Max. :4.000 Max. :11.000 Max. :1
## NA's :9
Al hacer el análisis de los datos faltantes, podemos observar que el 87% de nuestras observaciones están completas. Estas presentan datos para todas las variables. El 13% restante corresponde a los datos perdidos en la variable FILT(9 casos perdidos).
#Buscamos missings
library(VIM)
summary(aggr(base, col=c("orange","violet"), numbers=TRUE))
##
## Missings per variable:
## Variable Count
## N_ORDEN 0
## DEPART 0
## DEPTO 0
## PURBANA 0
## MIGINTPR 0
## MIGLIMIT 0
## HOGNBI 0
## VSINAGUA 0
## VSINELEC 0
## HSINGAS 0
## CONDESAG 0
## MORTINF 0
## MORTNEON 0
## NACVIV20 0
## SINCOBSA 0
## ESCMEDIO 0
## ANALFAB 0
## ASISHTPI 0
## PRPERHOG 0
## JEFMUJER 0
## VIVPREC 0
## IRRTENVI 0
## TASACTTO 0
## TASACTMU 0
## TASDESTO 0
## TASDESMU 0
## ASALPUBL 0
## CTAPROP 0
## PRECASAL 0
## FAC1_1 0
## FAC2_1 0
## FAC3_1 0
## FAC4_1 0
## FAC5_1 0
## FAC6_1 0
## PCIA 0
## D1 0
## D2 0
## D3 0
## D4 0
## D5 0
## QCL_1 0
## ESTRAT 0
## CLU11_1 0
## FILT 9
##
## Missings in combinations of variables:
## Combinations
## 0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0
## 0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:1
## Count Percent
## 62 87.32394
## 9 12.67606
Debido a que esta variable no será utilizada en nuestro análisis, simplemente asignaremos la media de los valores presentes a los perdidos. No haremos un análisis minucioso de la imputación.
#Reemplazamos los NA
mediafilt<- mean(base$FILT, na.rm = TRUE)
base[is.na(base)] <- mediafilt
#Creamos una base para trabajar con nuestro análisis
baseprov<- base[,c(1:6,8:29,36)]#nos quedamos con las variables en la base que usaremos para procesar/ Removemos hogares con NBI porque no fue usada en el trabajo de "La cuestion social hoy"
baseprov[,c(1:3,29)]<- lapply(baseprov[,c(1:3,29)], as.factor)
Para evaluar la forma de la distribución de las variables hacemos un
histograma con cada una de ellas. Esto permite entender a rasgos
generales el modo en que las frecuencias se agrupan para cada variable.
Se observa que las variablies presentan una distribución positiva o
normal, mayoritariamente unimodales a excepción de
VIVPREC.
#Analizamos la distribucion de frecuencia de las variables
library(tidyverse)
library(psych)
library(viridis)
library(hrbrthemes)
basefreq<- baseprov[,4:28]
basefreq<- basefreq %>% gather(key = "text", value = "value") %>% mutate(value= as.numeric(value))
basefreq %>%
mutate(text = fct_reorder(text, value)) %>%
ggplot( aes(x=value, color=text, fill=text)) +
geom_histogram(alpha=0.6, binwidth = 5) +
scale_fill_viridis(discrete=TRUE) +
scale_color_viridis(discrete=TRUE) +
theme_ipsum() +
theme(
legend.position="none",
panel.spacing = unit(0.1, "lines"),
strip.text.x = element_text(size = 8)
) +
xlab("Se muestran las variables utilizadas para el analisis") +
ylab("Porcentaje asignado (%)") +
facet_wrap(~text)
El estandarizado de las variables nos va a permitir trabajar con variables que posean distintas unidades de medición. De esta manera, podremos trabajar con variables tales como tasas, proporciones, índices y demás sin estar afectando a nuestro análisis factorial o cluster por la diferencia de las escalas de las unidades de medidas.
Realizando el escalado vemos cómo a continuación todas las variables pasan a tener media cero. Los valores mínimos y máximos de la vaiable pasan a agruparse entorno a la media.
#Estandarizamos las variables de analisis
baseprov[,c(4:28)]<- scale(baseprov[,c(4:28)])
summary(baseprov[,c(4:28)])
## PURBANA MIGINTPR MIGLIMIT VSINAGUA
## Min. :-1.40396 Min. :-1.6079 Min. :-0.7212 Min. :-1.46537
## 1st Qu.:-1.12263 1st Qu.:-0.7857 1st Qu.:-0.5656 1st Qu.:-0.80125
## Median : 0.06587 Median :-0.1147 Median :-0.4099 Median : 0.01108
## Mean : 0.00000 Mean : 0.0000 Mean : 0.0000 Mean : 0.00000
## 3rd Qu.: 0.66586 3rd Qu.: 0.6413 3rd Qu.: 0.0570 3rd Qu.: 0.48708
## Max. : 1.46680 Max. : 3.5520 Max. : 4.1038 Max. : 3.38583
## VSINELEC HSINGAS CONDESAG MORTINF
## Min. :-1.0385 Min. :-1.2448 Min. :-0.5830 Min. :-1.7611
## 1st Qu.:-0.6826 1st Qu.:-0.8632 1st Qu.:-0.5539 1st Qu.:-0.5080
## Median :-0.2815 Median :-0.2850 Median :-0.5130 Median :-0.2155
## Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000
## 3rd Qu.: 0.2072 3rd Qu.: 0.7754 3rd Qu.: 0.2396 3rd Qu.: 0.3434
## Max. : 3.5939 Max. : 2.6083 Max. : 4.2304 Max. : 3.4783
## MORTNEON NACVIV20 SINCOBSA ESCMEDIO
## Min. :-1.3281 Min. :-2.5213546 Min. :-2.27672 Min. :-2.9344
## 1st Qu.:-0.5425 1st Qu.:-0.7047470 1st Qu.:-0.70752 1st Qu.:-0.6001
## Median :-0.1212 Median :-0.0003481 Median : 0.04838 Median : 0.0812
## Mean : 0.0000 Mean : 0.0000000 Mean : 0.00000 Mean : 0.0000
## 3rd Qu.: 0.3228 3rd Qu.: 0.7781980 3rd Qu.: 0.74208 3rd Qu.: 0.7061
## Max. : 3.7953 Max. : 2.0016276 Max. : 2.97628 Max. : 2.1453
## ANALFAB ASISHTPI PRPERHOG JEFMUJER
## Min. :-1.75048 Min. :-2.1366 Min. :-3.0516 Min. :-1.775394
## 1st Qu.:-0.77259 1st Qu.:-0.6572 1st Qu.:-0.5555 1st Qu.:-0.752181
## Median : 0.05769 Median : 0.1519 Median : 0.2766 Median :-0.004118
## Mean : 0.00000 Mean : 0.0000 Mean : 0.0000 Mean : 0.000000
## 3rd Qu.: 0.66657 3rd Qu.: 0.6662 3rd Qu.: 0.6094 3rd Qu.: 0.709552
## Max. : 2.64080 Max. : 2.8218 Max. : 1.6078 Max. : 3.314876
## VIVPREC IRRTENVI TASACTTO TASACTMU
## Min. :-1.1409 Min. :-1.4611 Min. :-1.6496 Min. :-2.08677
## 1st Qu.:-0.7911 1st Qu.:-0.6787 1st Qu.:-0.5463 1st Qu.:-0.51830
## Median :-0.3454 Median :-0.2062 Median :-0.1146 Median :-0.04235
## Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.00000
## 3rd Qu.: 0.6082 3rd Qu.: 0.4987 3rd Qu.: 0.3459 3rd Qu.: 0.52013
## Max. : 3.6225 Max. : 2.7373 Max. : 5.3346 Max. : 5.05247
## TASDESTO TASDESMU ASALPUBL CTAPROP
## Min. :-2.040923 Min. :-1.73567 Min. :-1.57766 Min. :-2.23428
## 1st Qu.:-0.833377 1st Qu.:-0.79709 1st Qu.:-0.92907 1st Qu.:-0.61757
## Median : 0.009627 Median :-0.06145 Median : 0.01664 Median : 0.05851
## Mean : 0.000000 Mean : 0.00000 Mean : 0.00000 Mean : 0.00000
## 3rd Qu.: 0.579224 3rd Qu.: 0.52199 3rd Qu.: 0.83915 3rd Qu.: 0.57782
## Max. : 2.288016 Max. : 3.51528 Max. : 2.38633 Max. : 3.21355
## PRECASAL
## Min. :-1.92403
## 1st Qu.:-0.79405
## Median :-0.02636
## Mean : 0.00000
## 3rd Qu.: 0.67232
## Max. : 2.40610
Para realizar un análisis factorial es deseable que haya algún tipo de relación entre las variables. Uno esperaría que haya algún grado de multicolinealidad entre las variables para crear nuestros factores. Estos supuestos son conceptuales más que estadísticos pero un análisis de correlación entre todas las variables nos permitiría ver si hay alguna tendencia a a que estas se agrupen para dar cuenta de una variable latente.
#Observamos si existe correlacion entre las variables
library(corrplot)
varanalisis<- baseprov[,c(4:28)]
correlacion<- cor(varanalisis)
correlacion
## PURBANA MIGINTPR MIGLIMIT VSINAGUA VSINELEC
## PURBANA 1.0000000000 0.13212940 0.23521748 -0.6013989058 -0.58925485
## MIGINTPR 0.1321294010 1.00000000 0.13394973 -0.1617118256 0.12392648
## MIGLIMIT 0.2352174812 0.13394973 1.00000000 -0.0296418067 -0.42184433
## VSINAGUA -0.6013989058 -0.16171183 -0.02964181 1.0000000000 0.66443307
## VSINELEC -0.5892548476 0.12392648 -0.42184433 0.6644330718 1.00000000
## HSINGAS -0.6979890374 0.09131739 -0.48766579 0.4993669142 0.88781437
## CONDESAG 0.5139053107 0.25323650 0.50227106 -0.3804591468 -0.42749945
## MORTINF 0.1323910596 0.11822812 -0.04616122 -0.0945876653 0.10383330
## MORTNEON 0.1934895961 0.01382359 -0.01744632 -0.1730849535 -0.02135775
## NACVIV20 -0.1797879555 -0.12893117 -0.37758246 -0.0005254477 0.18055087
## SINCOBSA -0.1217164771 -0.03814227 0.14043929 0.5533560059 0.36430600
## ESCMEDIO 0.7165372405 0.08643434 0.14763252 -0.8047144402 -0.73477791
## ANALFAB -0.4981689253 -0.23753596 -0.04690447 0.6428319844 0.45158782
## ASISHTPI -0.4627742899 -0.11681873 -0.04082849 0.7175676122 0.49068036
## PRPERHOG -0.1334823308 -0.27280679 -0.19248245 0.0675501238 -0.04834602
## JEFMUJER -0.0006622077 0.24082257 -0.39945925 -0.2432303374 0.41533188
## VIVPREC -0.4846658837 -0.22739303 -0.20686492 0.6601916504 0.68873256
## IRRTENVI -0.1540963515 -0.47460410 0.07862740 0.3886126298 -0.11635857
## TASACTTO -0.3350557181 0.12279349 0.12170823 0.0986361258 0.29290637
## TASACTMU -0.1507079222 0.22732069 -0.11325322 -0.1467165300 0.34479059
## TASDESTO 0.6589017231 -0.31242538 0.13394695 -0.2525793295 -0.52958404
## TASDESMU 0.4902147813 -0.43038734 0.08925837 -0.0959477462 -0.48184791
## ASALPUBL -0.3114590975 0.14036756 -0.50566485 -0.1767905207 0.41327035
## CTAPROP 0.0706738471 0.10380229 0.02228187 0.0538831532 0.24456883
## PRECASAL 0.2272631250 -0.06850628 0.47530642 0.2108752901 -0.39752358
## HSINGAS CONDESAG MORTINF MORTNEON NACVIV20
## PURBANA -0.69798904 0.51390531 0.13239106 0.19348960 -0.1797879555
## MIGINTPR 0.09131739 0.25323650 0.11822812 0.01382359 -0.1289311656
## MIGLIMIT -0.48766579 0.50227106 -0.04616122 -0.01744632 -0.3775824603
## VSINAGUA 0.49936691 -0.38045915 -0.09458767 -0.17308495 -0.0005254477
## VSINELEC 0.88781437 -0.42749945 0.10383330 -0.02135775 0.1805508718
## HSINGAS 1.00000000 -0.53000012 0.01924331 -0.10904707 0.3874158000
## CONDESAG -0.53000012 1.00000000 0.16785705 0.24538533 -0.4875896607
## MORTINF 0.01924331 0.16785705 1.00000000 0.93523293 -0.2480661559
## MORTNEON -0.10904707 0.24538533 0.93523293 1.00000000 -0.3292491209
## NACVIV20 0.38741580 -0.48758966 -0.24806616 -0.32924912 1.0000000000
## SINCOBSA 0.28346485 -0.23947420 0.07565979 0.01877567 0.0608722056
## ESCMEDIO -0.70434846 0.50301620 0.07436068 0.22007387 -0.2455752313
## ANALFAB 0.44178515 -0.49416443 -0.11959539 -0.16376356 0.2598110100
## ASISHTPI 0.43574804 -0.47246158 -0.15464962 -0.22428234 0.2293199937
## PRPERHOG 0.07429484 -0.43654327 -0.33932768 -0.33349020 0.4226646654
## JEFMUJER 0.51401168 0.03605028 0.36188991 0.28454989 0.1579469463
## VIVPREC 0.65089942 -0.39088495 -0.02872503 -0.09670190 0.2187299418
## IRRTENVI -0.08967407 -0.28272996 -0.38783082 -0.36776935 0.1026154148
## TASACTTO 0.35781337 -0.06186037 0.38554800 0.36881508 -0.1234546053
## TASACTMU 0.40979310 0.03448457 0.50174691 0.47477348 -0.0878360510
## TASDESTO -0.67031289 0.23717937 0.02219863 0.11112577 -0.1958017822
## TASDESMU -0.60697561 0.13485942 -0.11242780 -0.02061464 -0.0838197304
## ASALPUBL 0.54104176 -0.27564455 -0.02379989 -0.07921427 0.3433437423
## CTAPROP 0.21223910 0.12562106 0.34313878 0.32239873 -0.1434414393
## PRECASAL -0.44248277 0.04837464 -0.15962051 -0.15663816 -0.1192200773
## SINCOBSA ESCMEDIO ANALFAB ASISHTPI PRPERHOG
## PURBANA -0.12171648 0.71653724 -0.498168925 -0.46277429 -0.13348233
## MIGINTPR -0.03814227 0.08643434 -0.237535964 -0.11681873 -0.27280679
## MIGLIMIT 0.14043929 0.14763252 -0.046904466 -0.04082849 -0.19248245
## VSINAGUA 0.55335601 -0.80471444 0.642831984 0.71756761 0.06755012
## VSINELEC 0.36430600 -0.73477791 0.451587816 0.49068036 -0.04834602
## HSINGAS 0.28346485 -0.70434846 0.441785147 0.43574804 0.07429484
## CONDESAG -0.23947420 0.50301620 -0.494164428 -0.47246158 -0.43654327
## MORTINF 0.07565979 0.07436068 -0.119595394 -0.15464962 -0.33932768
## MORTNEON 0.01877567 0.22007387 -0.163763558 -0.22428234 -0.33349020
## NACVIV20 0.06087221 -0.24557523 0.259811010 0.22931999 0.42266467
## SINCOBSA 1.00000000 -0.48944317 0.657726144 0.72094889 -0.04455165
## ESCMEDIO -0.48944317 1.00000000 -0.694192465 -0.73353436 -0.16438692
## ANALFAB 0.65772614 -0.69419246 1.000000000 0.86265449 0.24488231
## ASISHTPI 0.72094889 -0.73353436 0.862654495 1.00000000 0.12351769
## PRPERHOG -0.04455165 -0.16438692 0.244882313 0.12351769 1.00000000
## JEFMUJER -0.07138907 0.04339032 -0.206055293 -0.22927132 -0.39841554
## VIVPREC 0.39112866 -0.73901909 0.483346391 0.48210251 0.13495154
## IRRTENVI 0.18734020 -0.31941989 0.364402375 0.28965240 0.42664139
## TASACTTO 0.25780123 -0.28893356 0.330106375 0.19586643 -0.23688081
## TASACTMU 0.04214357 -0.05060657 -0.006919136 -0.10403536 -0.37337606
## TASDESTO -0.09044552 0.42184038 -0.196292339 -0.23281684 0.11754060
## TASDESMU -0.04815299 0.26755526 -0.137885669 -0.11385555 0.24120410
## ASALPUBL -0.44611453 -0.01365729 -0.156239856 -0.24331629 0.05838504
## CTAPROP 0.52897955 -0.05216207 0.084324007 0.09896494 -0.42422302
## PRECASAL 0.51213809 -0.02686454 0.240502009 0.33112131 0.13292947
## JEFMUJER VIVPREC IRRTENVI TASACTTO TASACTMU
## PURBANA -0.0006622077 -0.48466588 -0.15409635 -0.33505572 -0.150707922
## MIGINTPR 0.2408225669 -0.22739303 -0.47460410 0.12279349 0.227320685
## MIGLIMIT -0.3994592507 -0.20686492 0.07862740 0.12170823 -0.113253219
## VSINAGUA -0.2432303374 0.66019165 0.38861263 0.09863613 -0.146716530
## VSINELEC 0.4153318759 0.68873256 -0.11635857 0.29290637 0.344790595
## HSINGAS 0.5140116765 0.65089942 -0.08967407 0.35781337 0.409793103
## CONDESAG 0.0360502778 -0.39088495 -0.28272996 -0.06186037 0.034484567
## MORTINF 0.3618899056 -0.02872503 -0.38783082 0.38554800 0.501746911
## MORTNEON 0.2845498864 -0.09670190 -0.36776935 0.36881508 0.474773479
## NACVIV20 0.1579469463 0.21872994 0.10261541 -0.12345461 -0.087836051
## SINCOBSA -0.0713890725 0.39112866 0.18734020 0.25780123 0.042143568
## ESCMEDIO 0.0433903188 -0.73901909 -0.31941989 -0.28893356 -0.050606567
## ANALFAB -0.2060552932 0.48334639 0.36440237 0.33010638 -0.006919136
## ASISHTPI -0.2292713183 0.48210251 0.28965240 0.19586643 -0.104035364
## PRPERHOG -0.3984155421 0.13495154 0.42664139 -0.23688081 -0.373376065
## JEFMUJER 1.0000000000 0.14501539 -0.57992766 0.35634498 0.734787363
## VIVPREC 0.1450153924 1.00000000 0.36318701 0.15282221 0.038444507
## IRRTENVI -0.5799276583 0.36318701 1.00000000 -0.30806845 -0.607057902
## TASACTTO 0.3563449841 0.15282221 -0.30806845 1.00000000 0.846948196
## TASACTMU 0.7347873631 0.03844451 -0.60705790 0.84694820 1.000000000
## TASDESTO -0.4039507677 -0.20150783 0.35955290 -0.52393502 -0.533596606
## TASDESMU -0.5196773436 -0.11033883 0.49085692 -0.58063157 -0.646943272
## ASALPUBL 0.5917011211 0.07506901 -0.39654779 0.12595039 0.416231132
## CTAPROP 0.4030003594 0.07981293 -0.25558631 0.29997491 0.388831057
## PRECASAL -0.6529377541 -0.09542449 0.51597639 -0.21474382 -0.533812588
## TASDESTO TASDESMU ASALPUBL CTAPROP PRECASAL
## PURBANA 0.65890172 0.49021478 -0.31145910 0.07067385 0.22726312
## MIGINTPR -0.31242538 -0.43038734 0.14036756 0.10380229 -0.06850628
## MIGLIMIT 0.13394695 0.08925837 -0.50566485 0.02228187 0.47530642
## VSINAGUA -0.25257933 -0.09594775 -0.17679052 0.05388315 0.21087529
## VSINELEC -0.52958404 -0.48184791 0.41327035 0.24456883 -0.39752358
## HSINGAS -0.67031289 -0.60697561 0.54104176 0.21223910 -0.44248277
## CONDESAG 0.23717937 0.13485942 -0.27564455 0.12562106 0.04837464
## MORTINF 0.02219863 -0.11242780 -0.02379989 0.34313878 -0.15962051
## MORTNEON 0.11112577 -0.02061464 -0.07921427 0.32239873 -0.15663816
## NACVIV20 -0.19580178 -0.08381973 0.34334374 -0.14344144 -0.11922008
## SINCOBSA -0.09044552 -0.04815299 -0.44611453 0.52897955 0.51213809
## ESCMEDIO 0.42184038 0.26755526 -0.01365729 -0.05216207 -0.02686454
## ANALFAB -0.19629234 -0.13788567 -0.15623986 0.08432401 0.24050201
## ASISHTPI -0.23281684 -0.11385555 -0.24331629 0.09896494 0.33112131
## PRPERHOG 0.11754060 0.24120410 0.05838504 -0.42422302 0.13292947
## JEFMUJER -0.40395077 -0.51967734 0.59170112 0.40300036 -0.65293775
## VIVPREC -0.20150783 -0.11033883 0.07506901 0.07981293 -0.09542449
## IRRTENVI 0.35955290 0.49085692 -0.39654779 -0.25558631 0.51597639
## TASACTTO -0.52393502 -0.58063157 0.12595039 0.29997491 -0.21474382
## TASACTMU -0.53359661 -0.64694327 0.41623113 0.38883106 -0.53381259
## TASDESTO 1.00000000 0.89516227 -0.48841597 -0.08503343 0.34840408
## TASDESMU 0.89516227 1.00000000 -0.52275897 -0.17160998 0.43491139
## ASALPUBL -0.48841597 -0.52275897 1.00000000 -0.19030497 -0.85227046
## CTAPROP -0.08503343 -0.17160998 -0.19030497 1.00000000 0.03357492
## PRECASAL 0.34840408 0.43491139 -0.85227046 0.03357492 1.00000000
En el gráfico de correlación esta asociación entre las variables se
hace más evidente. Las zonas calientes cuyo color es azul intenso
indican una alta correlación positiva entre las variables, mientras que
las zonas de color rojo intenso indican una correlación negativa. Por
ejemplo, podemos identificar en azul oscurosa la alta correlación entre
las variables de TASDESTO y TASDESMU. Es
posible que esto podría traducirse luego en una variable latente del
análisis factorial.
#Grafico de correlacion
corrplot(correlacion, method = "square" , order = "hclust", tl.cex = 0.5, tl.col="black")
El análisis factorial es una técnica de interdependencia en la que se consideran todas las variables de manera simultánea. Esta relación entre las variables no busca establecer causalidad, por lo que no se predice una variable dependiente. Por el contrario, se genera un valor teórico que el compuesto lineal de las variables.
El análisis factorial puede satisfacer principalmente dos objetivos para el investigador: 1) Identificar estructuras mediante el resumen de datos o 2) la reducción de datos.
Los supuestos para realizar el análisis factorial recaen en cuestiones conceptuales más que estadísticas. Como hemos visto antes, el hecho de que haya algún tipo de correlación entre las variables es un indicador esencial para proceder con el análisis. Se espera que al menos se encuentren presente correlaciones por encima de 0.30.
Otro supuesto a verificar es el contraste de esfericidad de Bartlett. Este test nos proporciona la probabilidad de que la matriz de correlación de las variables sea una matriz de identidad en donde todos los elementos de su diagonal sean igual a 1. El problema con este test es que es susceptible al tamaño de la muestra. Cuanto más grande la muestra, más susceptible a encontrar correlaciones entre las variables. En el caso de nuestro análisis factorial, el test de esfericidad arroja un chisq alto y un p.value de menos de 0.05. Esto quiere decir que la H0 de que las variables no son correlacionada se rechaza. Es posible hacer un AF o CP con nuestros datos.
#Test de esfericidad
cortest.bartlett(correlacion, n=71)
## $chisq
## [1] 2049.968
##
## $p.value
## [1] 8.694932e-258
##
## $df
## [1] 300
Otra medida a tener en cuenta es la medida de suficiencia de
muestreo(MSA). A partir del test de KMO podemos observar la capacidad
total de las variables de ser predichas sin error.El índicador arroja un
valor entre 0 y 1 en donde asumimos que por encima de 0.6 estamos
hablando de un buen set de variables para trabajar. Esta lógica del MSA
general, puede aplicarse a cada una de las variables a factorizar.En
este caso, es bastante viable realizar un análisis factorial con
nuestras variables MSA overall = 0.73.
#Verificamos la viabilidad para hacer un analisis factorial segun el test de Kaiser,Maier Olkin
KMO(varanalisis)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = varanalisis)
## Overall MSA = 0.73
## MSA for each item =
## PURBANA MIGINTPR MIGLIMIT VSINAGUA VSINELEC HSINGAS CONDESAG MORTINF
## 0.78 0.63 0.74 0.83 0.79 0.84 0.81 0.56
## MORTNEON NACVIV20 SINCOBSA ESCMEDIO ANALFAB ASISHTPI PRPERHOG JEFMUJER
## 0.57 0.73 0.74 0.79 0.75 0.83 0.64 0.68
## VIVPREC IRRTENVI TASACTTO TASACTMU TASDESTO TASDESMU ASALPUBL CTAPROP
## 0.75 0.77 0.65 0.71 0.73 0.78 0.68 0.57
## PRECASAL
## 0.67
Al momento de hacer un análisis factorial o de componentes principales, nos encontramos frente a una decisión que se define a partir de los intereses de nuestro estudio. A continuación se presenta brevemente el análisis de componentes principales y se explica porqué procedemos con un análisis factorial.
El análisis de los componentes principales nos arroja 25 componentes, uno para cada una de nuestras variables. La varianza que se obtiene corresponde a la varianza total y estima los factores que tienen una baja varianza única. Se onserva que a partir del componente 6 el desvío estandard es menor a 1 y que la proporcion de variancia disminuye significativamente. Cada componente comienza a agregar menos proporción acumulada de la variancia.
#Hacemos el analisis de los componentes principales
CPbase<- prcomp(varanalisis)
summary(CPbase)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.6780 2.3893 1.8389 1.36604 1.13432 1.10036 0.91601
## Proportion of Variance 0.2869 0.2283 0.1353 0.07464 0.05147 0.04843 0.03356
## Cumulative Proportion 0.2869 0.5152 0.6505 0.72513 0.77659 0.82503 0.85859
## PC8 PC9 PC10 PC11 PC12 PC13 PC14
## Standard deviation 0.80148 0.71494 0.68727 0.6225 0.53504 0.51581 0.48127
## Proportion of Variance 0.02569 0.02045 0.01889 0.0155 0.01145 0.01064 0.00926
## Cumulative Proportion 0.88428 0.90473 0.92362 0.9391 0.95057 0.96122 0.97048
## PC15 PC16 PC17 PC18 PC19 PC20 PC21
## Standard deviation 0.40604 0.34884 0.32878 0.29103 0.27133 0.21360 0.20749
## Proportion of Variance 0.00659 0.00487 0.00432 0.00339 0.00294 0.00182 0.00172
## Cumulative Proportion 0.97708 0.98194 0.98627 0.98965 0.99260 0.99442 0.99615
## PC22 PC23 PC24 PC25
## Standard deviation 0.19760 0.15759 0.14036 0.11296
## Proportion of Variance 0.00156 0.00099 0.00079 0.00051
## Cumulative Proportion 0.99771 0.99870 0.99949 1.00000
En cuanto al análisis factorial se incorporan las varianzas compartidas en la diagonal. Veremos más adelante que los factores nacen de la varianza común. Esto introduce el concepto de los autovalores o Eigenvalues que explica que el criterio de raiz latente es que cualquier factor individual debería justificar la varianza de por lo menos una variable. Debajo se observa que seis factores individuales se hallan por encima de 1, justificando la varianza de una o más variables.
#Factor analisis
library(nFactors)
eigen(correlacion)
## eigen() decomposition
## $values
## [1] 7.17159865 5.70882663 3.38170592 1.86605497 1.28668283 1.21079981
## [7] 0.83907712 0.64236823 0.51114516 0.47234013 0.38746753 0.28627007
## [13] 0.26606423 0.23161740 0.16486647 0.12168694 0.10809380 0.08470049
## [19] 0.07361784 0.04562459 0.04305183 0.03904424 0.02483508 0.01969993
## [25] 0.01276010
##
## $vectors
## [,1] [,2] [,3] [,4] [,5]
## [1,] -0.290767097 -0.05854366 0.078553354 0.126972734 0.3345293565
## [2,] 0.004811370 -0.18018466 0.060085569 -0.384398706 0.2806948959
## [3,] -0.142377435 0.06103315 0.274884022 -0.381392245 -0.1711089248
## [4,] 0.242898840 0.21553913 0.143232033 -0.016188449 -0.1025031789
## [5,] 0.331290323 -0.03581688 0.008391320 0.082829586 0.1063930895
## [6,] 0.349728076 -0.05648854 -0.084753570 0.043668868 0.1075651349
## [7,] -0.222728358 -0.14035086 0.179295643 -0.167259529 -0.0009161314
## [8,] 0.007509727 -0.21612296 0.272379696 0.363484639 -0.1908282433
## [9,] -0.038353783 -0.21187422 0.273392600 0.386452543 -0.2562521063
## [10,] 0.129165605 0.07189851 -0.275258499 0.098450941 0.3182299002
## [11,] 0.161941416 0.15825059 0.354473139 0.029122766 0.3230738570
## [12,] -0.308710702 -0.16123355 -0.065989914 0.018960077 0.0872515997
## [13,] 0.240026778 0.21470858 0.141249427 0.009820414 -0.0411323147
## [14,] 0.235918739 0.22866362 0.166822087 -0.055888003 0.0982297044
## [15,] 0.022874347 0.21167731 -0.262231115 0.093165274 -0.1139812923
## [16,] 0.132331194 -0.32425924 -0.037556267 0.155687977 0.2725865421
## [17,] 0.256823104 0.12506147 0.025833975 0.197185914 -0.0230303550
## [18,] -0.006001763 0.34719451 -0.032362325 0.101834178 -0.1445422961
## [19,] 0.180986680 -0.17587571 0.237430678 -0.087424248 -0.3112339455
## [20,] 0.152347076 -0.32473095 0.133350380 0.024405176 -0.1216909118
## [21,] -0.262007894 0.15276096 0.044899931 0.349501672 0.0766197944
## [22,] -0.229448050 0.22726403 0.003538445 0.332075083 0.0416687246
## [23,] 0.147741425 -0.22773442 -0.361023787 0.015008759 -0.0323127699
## [24,] 0.071786928 -0.11585415 0.325491028 0.133184516 0.4194705692
## [25,] -0.114935188 0.28419722 0.260569574 -0.131396171 0.1222439160
## [,6] [,7] [,8] [,9] [,10]
## [1,] 0.075488201 -0.029347025 -0.261756158 -0.261744698 0.20514762
## [2,] -0.093171652 -0.579608922 -0.254680134 0.064870647 0.22700380
## [3,] 0.012488935 0.183421579 -0.398304504 -0.057024591 -0.15711252
## [4,] -0.318563010 -0.119019580 0.081394646 -0.034679152 -0.04505581
## [5,] -0.291531042 -0.134759181 -0.043302326 -0.099137826 0.16207947
## [6,] -0.084654275 -0.004573612 -0.087879681 0.134961925 0.03145946
## [7,] -0.279855269 0.147037791 -0.285770146 -0.194506683 -0.14061344
## [8,] 0.052949399 -0.381663347 -0.100438183 0.085881160 -0.23972994
## [9,] 0.071204080 -0.277056140 -0.019866422 0.051281029 -0.17266524
## [10,] 0.400080170 0.002522572 -0.293672862 -0.082232314 -0.58391490
## [11,] 0.160384426 0.017296994 0.003819794 0.012981930 0.07880120
## [12,] 0.132613012 0.065312028 0.154069898 0.007093702 0.06410060
## [13,] 0.257237539 0.026349984 0.061863744 -0.384778017 0.10883782
## [14,] 0.122205108 -0.122538393 0.168654957 -0.410651568 -0.04625609
## [15,] 0.343211957 -0.196097188 -0.337900985 0.268591351 0.41824541
## [16,] -0.041245394 0.212535977 -0.147904231 -0.022024001 -0.04572926
## [17,] -0.305376257 0.160817321 -0.471476304 0.034804557 -0.02160545
## [18,] -0.073247443 0.199259979 -0.172516916 0.309821037 0.01881768
## [19,] 0.331188463 0.211611645 -0.131976765 -0.062479226 0.23422810
## [20,] 0.213918470 0.198071642 -0.092811340 -0.048515118 0.21220416
## [21,] -0.087631197 0.011638590 -0.086992772 -0.248435624 0.25105830
## [22,] -0.102149660 0.027504842 -0.047260368 -0.148696920 0.10240616
## [23,] -0.019676071 0.013016076 -0.013347958 -0.135561051 0.06094577
## [24,] -0.005200955 0.286450397 0.182085034 0.406324028 0.10350071
## [25,] 0.170480976 -0.128663741 -0.008168437 0.282639010 -0.12006178
## [,11] [,12] [,13] [,14] [,15]
## [1,] 0.124638470 -0.198478774 0.2380183226 0.063852697 -0.172128615
## [2,] 0.252689209 0.181365889 -0.2928990994 0.001955120 0.054381738
## [3,] -0.203453027 -0.490584879 -0.3345823069 0.057312801 0.006697274
## [4,] -0.121115236 -0.171609312 0.1282094941 -0.065928791 -0.481288664
## [5,] -0.135867293 -0.117541832 0.0005407399 -0.034653958 -0.219689442
## [6,] -0.047489061 0.059663588 -0.0286253921 0.074660540 -0.016786700
## [7,] -0.383951148 0.572980895 0.2127704930 0.153650506 -0.156226953
## [8,] -0.003549614 -0.038775394 -0.0856652741 0.090542190 -0.068374089
## [9,] -0.083561133 0.003312216 0.0053399501 0.165690028 0.085767476
## [10,] -0.046329767 0.077669194 -0.1650073744 -0.176399795 -0.165919230
## [11,] -0.069139290 -0.228847475 0.2007580564 0.134889705 -0.097620309
## [12,] -0.024082892 -0.180289533 0.1526340108 0.378006670 0.064974937
## [13,] -0.059302566 0.221598230 -0.1832183299 0.418140940 0.064855190
## [14,] 0.007667503 0.089517144 0.0543252524 0.018313313 0.226367113
## [15,] -0.489034536 0.055193972 0.1835839423 0.016899922 0.013983253
## [16,] 0.202371380 0.035549698 0.1913984846 0.118525983 -0.059621896
## [17,] 0.138853265 -0.121397123 0.1801906501 -0.004510394 0.553379691
## [18,] 0.406114934 0.221901156 -0.1835689199 0.423806396 -0.297951790
## [19,] 0.195325718 0.127120477 -0.0513086210 -0.245540145 -0.089440829
## [20,] 0.137203131 0.006617268 0.0919504009 -0.188782584 -0.216159853
## [21,] 0.073072510 -0.012770756 -0.3354439566 -0.019775754 0.038162290
## [22,] -0.006505037 0.065734684 -0.1616993076 -0.387588431 -0.172846776
## [23,] -0.060266586 -0.255088677 -0.2084695060 0.337438433 -0.221095123
## [24,] -0.315682519 0.089631935 -0.3773433697 -0.021645861 0.077163232
## [25,] 0.219944686 -0.016899508 0.2761536100 0.005518937 -0.119873458
## [,16] [,17] [,18] [,19] [,20] [,21]
## [1,] -0.02456316 -0.49020122 -0.17257644 0.122580816 -0.02937412 -0.19913072
## [2,] -0.16305270 0.13838704 0.01350158 0.054851183 -0.11594269 0.14081498
## [3,] 0.21291655 0.06014752 0.11014943 0.155712538 0.02836324 -0.02018743
## [4,] -0.30704883 -0.08317856 0.26836281 0.212336554 -0.13709950 0.33808253
## [5,] -0.06983991 -0.07386575 0.04502630 -0.005582512 0.17358743 -0.46778319
## [6,] 0.19357537 0.22001606 0.15320137 0.085102922 0.51709305 -0.16533874
## [7,] -0.02630194 0.11268062 -0.11351795 -0.071165923 0.07734247 -0.02519613
## [8,] 0.25030437 -0.11168713 0.01315744 -0.095500324 -0.15756338 0.02799691
## [9,] -0.18846943 0.10450981 -0.10454626 0.160107683 0.13940682 -0.05518541
## [10,] -0.28757452 -0.03351667 0.03699552 0.022176672 0.08972897 0.03403997
## [11,] -0.02540793 0.30009349 -0.34341532 -0.437171861 0.09885501 0.34408096
## [12,] -0.44278855 0.33459803 0.23769042 0.310872447 0.06969822 -0.01930647
## [13,] -0.06306148 -0.08394660 0.37248500 -0.228804318 -0.30584697 -0.16059789
## [14,] 0.22837143 0.06519308 -0.28759577 0.592974636 0.08519800 0.05343866
## [15,] 0.12308400 -0.01768280 0.05414939 0.136905387 -0.06948438 0.12047820
## [16,] 0.41998724 0.13466781 0.36668025 0.136403121 -0.22093276 0.24187349
## [17,] -0.28606542 0.04229886 -0.03145843 -0.030555282 -0.17619290 -0.05081156
## [18,] 0.00636492 -0.08033558 -0.24421964 0.205786118 0.04911739 0.07334713
## [19,] -0.23571673 0.06825848 -0.04905644 -0.020519844 0.07465307 -0.08726172
## [20,] -0.01646474 0.02883755 0.01558636 0.121002412 0.03188363 0.06680445
## [21,] 0.02433482 -0.00126452 0.25640675 -0.151061871 0.46396750 0.21804588
## [22,] 0.05909222 0.52543272 -0.06640727 0.105340868 -0.35516317 -0.17486078
## [23,] 0.03344983 0.23531040 -0.33951698 -0.095492879 -0.18186945 -0.17170029
## [24,] -0.09591924 -0.16698302 -0.05197279 0.174698849 -0.16291269 -0.08269511
## [25,] 0.11312714 0.18468643 0.22437492 -0.063780306 0.01190877 -0.46810416
## [,22] [,23] [,24] [,25]
## [1,] -0.046158444 -0.3396868515 0.053175575 0.017188005
## [2,] -0.053652392 -0.0050792961 -0.025614297 -0.029378133
## [3,] -0.141119372 0.0234213162 0.029482949 0.010269663
## [4,] 0.174163328 -0.2112129994 -0.121087637 0.014351969
## [5,] -0.199679513 0.5433173389 0.144188470 0.175063113
## [6,] -0.017379924 -0.5679972567 0.228711364 -0.143834750
## [7,] 0.145781514 0.0385738534 -0.025517513 -0.031649151
## [8,] 0.378495517 0.0789666371 0.445365509 -0.086605492
## [9,] -0.424939998 -0.1168843984 -0.441471985 0.112979958
## [10,] 0.004604624 0.0915320522 -0.002729807 -0.005616211
## [11,] -0.129218886 0.0494415015 0.110584077 0.031154079
## [12,] 0.112292792 0.1331730179 0.340999154 -0.011042274
## [13,] -0.165294122 -0.1160360458 0.028298601 -0.125196080
## [14,] 0.205109535 0.1256263475 -0.029107678 0.011676505
## [15,] 0.032946666 0.0830550590 -0.048052903 0.059815696
## [16,] -0.111489563 0.1020450360 -0.140763164 0.334748069
## [17,] 0.167370222 0.0004535862 -0.028824402 -0.120355557
## [18,] -0.121276536 0.1276604712 0.111265004 0.004234013
## [19,] 0.232084225 -0.1113235880 0.095364983 0.517646316
## [20,] -0.067441379 0.2073069205 -0.110997688 -0.711451265
## [21,] 0.287426638 0.1499279351 -0.246800025 0.001327602
## [22,] -0.167215827 -0.1395900721 0.162715633 -0.036477720
## [23,] 0.365707942 -0.0847673849 -0.335447480 -0.008694802
## [24,] 0.145056914 -0.0304727084 -0.092455411 -0.006086460
## [25,] 0.284177942 0.0580312614 -0.344402411 -0.057360328
Entonces, el motivo de selección del método de análisis factorial o componentes principales posee un racional en el modo en que se construyen con respecto a la varianza. Cuando buscamos explicar la proporción mínima del número de variancia, en otras palabras dar cuenta de la estructura de los datos, procederemos con un análisis de componentes principales. Por lo contrario, cuando buscamos definir dimensiones latentes avanzaremos con el análisis factorial.
Al igual que los autores, nos proponemos avanzar con un análisis factorial. Para determinar la cantidad de factores que incluiremos hay varios procedimientos. A continuación mostraremos algunos de ellos y justificaremos nuestra selección.
Para examinar la estructura subyacente a las variables y determinar el número de factores a extraer podemos utilizar los criterios de raiz latente y el contraste de caída. Los cuales los podemos graficar a través de un gráfico de sedimentación mediante el método de Scree.
El criterio de raíz latente hace referencia al autovalor 1. Siguiendo el gráfico que mostramos debajo nos quedaríamos con 6 componentes o 4 factores. Si quisieramos seguir el criterio del contraste de caída nos indica el momento en que la cantidad de la varianza única empieza a dominar la estructura de la varianza común. Siguiendo el gráfico para el FA sería cerca de 5 factories, mientras que para CP sería cerca de los 6 componentes.
#Grafico de sedimentacion
scree(varanalisis)
Otro método, es el método de las paralelas que genera una serie de simulaciones y compara los datos obtenidos con los datos reales. Se trazan dos lineas que generan el límite optimo para la creación de factores y componentes. Si bien este método difiere levemente del método Scree, sus resultados no se alejan mucho de lo expuesto arriba para el criterio de raiz latente del FA.
#Grafico de analisis de las paralelas para CP y FA
fa.parallel(varanalisis)
## Parallel analysis suggests that the number of factors = 4 and the number of components = 4
Entonces, observamos que la solución podría encontrarse entre 4 y 6 factores. Por lo tanto procedemos a probar soluciones con 4 y 6 factores.
Utilizamos el método de máxima verosimilitud para el análisis factorial de 4 factores. Observamos que el mismo tiene un chisquare alto y un p.value menor a 0.05 por lo cual es significativo. Sin embargo, estas variables latentes explican solo un 67% de la varianza acumulada. Por lo cual, nos resulta interesante probar la solución con 6 factores.
#Procedemos a hacer el factor analisis con 4 factores
factanal(varanalisis, factors = 4, rotation="none")
##
## Call:
## factanal(x = varanalisis, factors = 4, rotation = "none")
##
## Uniquenesses:
## PURBANA MIGINTPR MIGLIMIT VSINAGUA VSINELEC HSINGAS CONDESAG MORTINF
## 0.308 0.770 0.509 0.233 0.127 0.063 0.550 0.425
## MORTNEON NACVIV20 SINCOBSA ESCMEDIO ANALFAB ASISHTPI PRPERHOG JEFMUJER
## 0.408 0.732 0.279 0.149 0.361 0.257 0.647 0.221
## VIVPREC IRRTENVI TASACTTO TASACTMU TASDESTO TASDESMU ASALPUBL CTAPROP
## 0.329 0.364 0.368 0.162 0.073 0.093 0.092 0.535
## PRECASAL
## 0.163
##
## Loadings:
## Factor1 Factor2 Factor3 Factor4
## PURBANA -0.701 -0.349 0.266
## MIGINTPR 0.201 -0.289 0.294 -0.140
## MIGLIMIT -0.390 0.524 -0.238
## VSINAGUA 0.396 0.780
## VSINELEC 0.831 0.302 -0.134 0.271
## HSINGAS 0.923 0.205 -0.169 0.121
## CONDESAG -0.420 -0.387 0.346
## MORTINF -0.255 0.377 0.600
## MORTNEON -0.304 0.380 0.596
## NACVIV20 0.286 0.115 -0.395 -0.133
## SINCOBSA 0.178 0.665 0.434 0.244
## ESCMEDIO -0.607 -0.693
## ANALFAB 0.354 0.709 0.104
## ASISHTPI 0.340 0.778 0.144
## PRPERHOG 0.289 -0.453 -0.242
## JEFMUJER 0.577 -0.530 0.404
## VIVPREC 0.497 0.550 -0.211 0.278
## IRRTENVI -0.297 0.670 -0.288 -0.125
## TASACTTO 0.524 -0.105 0.568 0.152
## TASACTMU 0.593 -0.467 0.414 0.311
## TASDESTO -0.842 0.107 -0.253 0.377
## TASDESMU -0.809 0.276 -0.329 0.262
## ASALPUBL 0.631 -0.530 -0.473
## CTAPROP 0.182 0.452 0.477
## PRECASAL -0.549 0.599 0.378 -0.182
##
## Factor1 Factor2 Factor3 Factor4
## SS loadings 6.689 5.381 2.768 1.944
## Proportion Var 0.268 0.215 0.111 0.078
## Cumulative Var 0.268 0.483 0.594 0.671
##
## Test of the hypothesis that 4 factors are sufficient.
## The chi square statistic is 720.39 on 206 degrees of freedom.
## The p-value is 3.15e-58
Con la solución de 6 factores logramos mejorar la varianza acumulada llegando a explicar un 75% de la varianza. Sin embargo, se observa que la varianza que explica el factor 6 comienza a verse reducida. Debido a que el test de hipótesis también resulta significante con un pvalue menor a 0.05 y un chisquare alto, decidimos quedarnos con la solución de 6 factores al igual que los autores.
#La variancia explicada es baja con 4 factores probamos con 6
seisfactoresinrotar<- factanal(varanalisis, factors = 6, rotation = "none")
seisfactoresinrotar
##
## Call:
## factanal(x = varanalisis, factors = 6, rotation = "none")
##
## Uniquenesses:
## PURBANA MIGINTPR MIGLIMIT VSINAGUA VSINELEC HSINGAS CONDESAG MORTINF
## 0.166 0.662 0.478 0.221 0.127 0.047 0.559 0.081
## MORTNEON NACVIV20 SINCOBSA ESCMEDIO ANALFAB ASISHTPI PRPERHOG JEFMUJER
## 0.029 0.733 0.113 0.139 0.261 0.232 0.659 0.091
## VIVPREC IRRTENVI TASACTTO TASACTMU TASDESTO TASDESMU ASALPUBL CTAPROP
## 0.332 0.336 0.005 0.022 0.067 0.101 0.144 0.423
## PRECASAL
## 0.138
##
## Loadings:
## Factor1 Factor2 Factor3 Factor4 Factor5 Factor6
## PURBANA -0.675 -0.349 -0.209 0.457
## MIGINTPR 0.163 -0.225 -0.172 0.162 -0.453
## MIGLIMIT -0.233 0.559 -0.239 -0.308
## VSINAGUA 0.577 0.288 0.586
## VSINELEC 0.598 0.383 -0.332 0.501
## HSINGAS 0.689 0.448 -0.388 0.346
## CONDESAG -0.542 -0.263 0.144 -0.229
## MORTINF -0.631 0.456 -0.221 0.497
## MORTNEON -0.742 0.426 -0.169 0.438 -0.127
## NACVIV20 0.435 -0.193 0.165
## SINCOBSA 0.251 0.232 0.455 0.530 0.505 -0.166
## ESCMEDIO -0.697 -0.287 -0.193 -0.487 0.109
## ANALFAB 0.514 0.279 0.468 0.405 0.117
## ASISHTPI 0.563 0.159 0.437 0.470 0.108
## PRPERHOG 0.289 -0.281 0.171 -0.264 0.281
## JEFMUJER 0.488 -0.731 0.360
## VIVPREC 0.522 0.177 0.529 0.291
## IRRTENVI 0.269 -0.401 0.533 0.202 -0.142 0.293
## TASACTTO 0.982 0.162
## TASACTMU -0.129 0.911 -0.321 -0.101 0.132
## TASDESTO -0.543 -0.584 0.279 0.110 0.143 0.432
## TASDESMU -0.379 -0.651 0.355 0.152 0.423
## ASALPUBL 0.302 0.233 -0.761 -0.231 -0.211 0.181
## CTAPROP -0.128 0.346 0.302 0.571 -0.146
## PRECASAL -0.326 0.770 0.161 0.213 -0.294
##
## Factor1 Factor2 Factor3 Factor4 Factor5 Factor6
## SS loadings 5.235 4.496 3.832 2.796 1.254 1.222
## Proportion Var 0.209 0.180 0.153 0.112 0.050 0.049
## Cumulative Var 0.209 0.389 0.543 0.654 0.705 0.753
##
## Test of the hypothesis that 6 factors are sufficient.
## The chi square statistic is 415.58 on 165 degrees of freedom.
## The p-value is 1.38e-23
Las cargas factoriales para los 6 factores con respecto a las variables se observan en la matriz de factores. Esta será nuestra matriz inicial de factores que, si bien ya están definidos, puede ser mejorada. En el heatmap se observa como el factor 1 tienen valores más altos en variables relacionadas a la vivienda, el factor 2 con respecto a la tasa de actividad, el factor 3 con precariedad laboral y demás. Al ver el valor de las cargas factoriales, se observa que no son cargas fuertes. La mayoría se encuentra por debajo de 0.6.
#Visualizacion cargas factoriales
library(gplots)
library(RColorBrewer)
heatmap.2(seisfactoresinrotar$loadings,
col=brewer.pal(9, "Reds"), trace="none", key=FALSE, dend="none",
Colv=FALSE, cexCol = 1.2,
main="\n\n\n\nHeatmap de cargas factoriales")
Solo los factores 1, 2 y 3 tienen cargas por encima de 0.6. El resto de los factores no están cláramente definidos.
#Visualizamos la estructura
library(semPlot)
semPaths(seisfactoresinrotar, what="est", residuals=FALSE,
cut=0.6, posCol=c("white", "darkgreen"), negCol=c("white", "red"),
edge.label.cex=0.5, nCharNodes=7)
La rotación de los factores es una herramienta que nos permite mejorar
la interpretación de los factores. En casos como estos en donde la
interpretación no es tan clara podemos recurrir a un tipo de rotación,
ya sea oblicua u ortogonales, que nos permitan avanzar de manera
efectiva para descubrir la identidad de las variables latentes.
En nuestro caso, procederemos con un tipo de rotación ortogonal. La rotación de tipo VARIMAX se centra en simplificar las columnas de la matriz de los factores. Este método maximiza la suma de las varianzas de las cargas requeridas de la matriz de factores. Es un método que tiende a ser más robusto que otros métodos de rotación ortogonales. Entonces, utilizaremos este método para nuestro análisis factorial de 6 factores.
#Realizamos la rotacion debido a que no hay factores claramente identificables
seisfactoresvarimax<- factanal(varanalisis, factors = 6, rotation = "varimax" )
seisfactoresvarimax
##
## Call:
## factanal(x = varanalisis, factors = 6, rotation = "varimax")
##
## Uniquenesses:
## PURBANA MIGINTPR MIGLIMIT VSINAGUA VSINELEC HSINGAS CONDESAG MORTINF
## 0.166 0.662 0.478 0.221 0.127 0.047 0.559 0.081
## MORTNEON NACVIV20 SINCOBSA ESCMEDIO ANALFAB ASISHTPI PRPERHOG JEFMUJER
## 0.029 0.733 0.113 0.139 0.261 0.232 0.659 0.091
## VIVPREC IRRTENVI TASACTTO TASACTMU TASDESTO TASDESMU ASALPUBL CTAPROP
## 0.332 0.336 0.005 0.022 0.067 0.101 0.144 0.423
## PRECASAL
## 0.138
##
## Loadings:
## Factor1 Factor2 Factor3 Factor4 Factor5 Factor6
## PURBANA -0.714 0.190 0.315 -0.140 0.407
## MIGINTPR -0.161 -0.529 0.176
## MIGLIMIT -0.188 0.675 0.158
## VSINAGUA 0.865 0.118 -0.127
## VSINELEC 0.737 -0.496 -0.220 0.181
## HSINGAS 0.705 -0.569 -0.317 0.122 0.115
## CONDESAG -0.577 0.238 0.167 0.135
## MORTINF 0.925 0.124 0.192
## MORTNEON -0.144 0.952 0.155 0.137
## NACVIV20 0.241 -0.318 -0.312 -0.101
## SINCOBSA 0.622 0.397 0.583
## ESCMEDIO -0.916
## ANALFAB 0.795 0.205 0.105 0.205
## ASISHTPI 0.814 0.259 -0.131 0.144
## PRPERHOG 0.209 0.301 -0.271 -0.105 -0.349
## JEFMUJER -0.104 -0.697 -0.332 0.167 0.245 0.462
## VIVPREC 0.750 -0.267 0.161
## IRRTENVI 0.371 0.304 0.523 -0.276 -0.179 -0.229
## TASACTTO 0.251 -0.297 0.280 0.870
## TASACTMU -0.351 -0.392 0.342 0.716 0.266
## TASDESTO -0.364 0.227 0.816 -0.261
## TASDESMU -0.218 0.264 0.822 -0.326
## ASALPUBL -0.828 -0.315 -0.100 0.129 -0.206
## CTAPROP 0.118 -0.139 0.240 0.113 0.687
## PRECASAL 0.126 0.850 0.188 -0.107 -0.228 0.159
##
## Factor1 Factor2 Factor3 Factor4 Factor5 Factor6
## SS loadings 6.320 3.816 2.795 2.391 1.806 1.706
## Proportion Var 0.253 0.153 0.112 0.096 0.072 0.068
## Cumulative Var 0.253 0.405 0.517 0.613 0.685 0.753
##
## Test of the hypothesis that 6 factors are sufficient.
## The chi square statistic is 415.58 on 165 degrees of freedom.
## The p-value is 1.38e-23
Vemos entonces que las cargas factoriales mejoran para la solución de 6 factores elegidos y hace más fácil su interpretación. Para seleccionar las variables cuya carga factorial es significativa tomaremos como criterio que la carga factorial super el 70% para que pueda explicar al menos un 50% de la varianza. Dado que la carga factorial es la correlación entre la variable y el factor, el cuadrado de la carga es la cuantía de la varianza total de la variable(ver HATB-Análisis multivariante). Otra posible solución sería, tomar cargas factoriales mayores a 0.65 para muestras de 70 observaciones.
#Visualizamos la rotacion varimax
semPaths(seisfactoresvarimax, what="est", residuals=FALSE,
cut=0.6, posCol=c("white", "darkgreen"), negCol=c("white", "red"),
edge.label.cex=0.50, nCharNodes=7)
Entonces, los factores creados contemplan las siguientes variables.
En términos comparativos nuestro factores 1, 2, 3 y 5 son similares a los de los autores sólo con algunas diferencias entre las variables incluídas por ellos en cada factor. El factor 4 y 6 son idénticos a los desprendidos de nuestro análisis. Esto se debe al punto de corte de significancia elegido para las cargas factoriales. Los autores no explican en el informe ni en el anexo cómo identificaron las cargas significativas para cada factor.
Una vez identificados nuestros factores, utilizamos puntuaciones factoriales que reemplazarán las 25 variables originales por nuestros 6 factores. Ahora cada una de nuestras observaciones tendrá una 6 nuevas variables con las puntuaciones factoriales para cada factor.
#Creamos los scores a partir del factorial de seis rotado
factores<- factanal(varanalisis, factors = 6, rotation = "varimax", scores = "Bartlett")
factoresscores<- data.frame(factores$scores)
baseprov<- data.frame(baseprov,factoresscores)
#Etiquetamos los factores de acuerdo a nuestro analisis
nombresfactores<- c("Vivienda_Hogar_educacion", "Vulnerabilidad", "Mercado_laboral", "Mortalidad", "Actividad","Irregularidad")
colnames(baseprov)[30:35] <- nombresfactores
baseprov
## N_ORDEN DEPART DEPTO PURBANA MIGINTPR MIGLIMIT VSINAGUA
## 1 C7 CAPITAL C049 1.458185375 0.64128621 -0.56558856 -1.4197671977
## 2 M1 CAPITAL M007 1.466797661 1.49180902 2.39169425 -1.1803425648
## 3 M15 S RAFAEL M105 0.479255525 -0.58724674 0.21264376 0.0452835322
## 4 M3 GOD CRUZ M021 1.466797661 0.54678368 1.14652254 -1.4368689572
## 5 M4 GUAYMALL M028 1.228524413 0.69798773 2.39169425 -0.8269062020
## 6 M7 LAS HERA M049 1.320388798 0.77358976 1.92475486 -0.7756009235
## 7 R17 SANAGAST R126 -1.403964362 -0.34154015 -0.56558856 -1.0606302484
## 8 R2 CAPITAL R014 1.406511658 1.60521206 -0.48776533 -1.3228572273
## 9 R3 C BARROS R021 -1.403964362 -0.19033609 -0.72123502 -1.2715519488
## 10 R5 CHAMICAL R035 1.018958785 1.17050041 -0.56558856 -0.6330862610
## 11 J11 RAWSON J077 1.240007461 -0.81405282 -0.25429563 -0.9637202779
## 12 J14 STA LUCI J098 1.306034987 -0.79515231 -0.25429563 -1.1062349403
## 13 J4 CAPITAL J028 1.466797661 -0.05803254 -0.17647240 -1.4653718897
## 14 JI2 RIVADAVI J084 1.429477754 -0.43604268 -0.09864917 -1.3627613327
## 15 C14 STA ROSA C098 -0.597280234 3.55196428 -0.56558856 0.0737864647
## 16 M10 MAIPU M070 0.484997049 0.49008216 2.39169425 0.0452835322
## 17 M11 MALARGUE M077 0.622793626 -0.15253508 0.52393669 -0.2283446197
## 18 M12 RIVADAVI M084 0.017062839 -0.19033609 0.36829022 0.0110800132
## 19 M13 S CARLOS M091 0.054382745 -0.60614724 0.75740638 0.7521562579
## 20 M14 S MARTIN M098 0.487867811 0.22547506 0.21264376 -0.0972311303
## 21 M16 STA ROSA M112 -0.855648816 -0.11473406 -0.09864917 0.8091621229
## 22 M17 TUNUYAN M119 0.427581808 0.09317151 1.53563870 0.0110800132
## 23 M18 TUPUNGAT M126 -0.450871371 0.60348520 4.10380536 0.9231738528
## 24 M2 G ALVEAR M014 0.473514001 0.07427101 -0.40994209 -0.0117223328
## 25 M5 JUNIN M035 0.005579791 -0.13363457 0.67958315 0.3873187220
## 26 M8 LAVALLE M056 -0.809716624 1.18940091 1.61346193 1.9549800089
## 27 M9 LUJAN CU M063 0.703174963 0.37667912 2.15822456 -0.4506674931
## 28 J10 POCITO J070 -0.092026118 -1.09756042 -0.33211886 1.0257844098
## 29 J15 SARMIENT J105 -0.054706212 -0.70064978 -0.02082594 0.8946709203
## 30 J18 25 DE MA J126 0.065865793 -0.94635637 -0.56558856 1.0542873423
## 31 J3 CALINGAS J021 -1.403964362 -0.87075434 2.39169425 0.8604674013
## 32 C10 LA PAZ C070 -0.195373551 1.83201815 -0.64341179 -0.0003211598
## 33 C11 PACLIN C077 -1.403964362 0.33887810 -0.48776533 0.0737864647
## 34 C12 POMAN C084 -1.403964362 -0.36044065 -0.64341179 -0.9637202779
## 35 C13 STA MARI C091 0.215145419 0.92479382 -0.64341179 -0.4335657336
## 36 C15 TINOGAST C105 0.525187717 -0.17143558 -0.48776533 -0.6387868475
## 37 C16 VAL VIEJ C112 1.251490509 0.33887810 -0.56558856 -1.2316478433
## 38 C3 ANDALGAL C021 0.436194094 0.64128621 -0.56558856 -0.5931821556
## 39 C5 BELEN C035 -0.275754887 -0.88965485 -0.64341179 0.3360134436
## 40 C6 CAPAYAN C042 -0.625987854 0.73578875 -0.40994209 -0.1086323033
## 41 C9 F M ESQU C063 0.970155831 -0.15253508 -0.64341179 -1.2658513623
## 42 M6 LA PAZ M042 0.594086006 -0.07693305 -0.33211886 -0.3309551767
## 43 R1 ARAUCO R007 0.565378385 1.43510750 -0.02082594 -0.9751214509
## 44 R11 G LAMADR R077 -1.403964362 0.09317151 -0.48776533 -0.6957927125
## 45 R12 G OCAMPO R084 -0.206856599 0.79249027 -0.64341179 0.6039410089
## 46 R14 INDEPEND R105 -1.403964362 0.26327607 -0.56558856 0.1820976081
## 47 R15 R V PEÑA R112 0.484997049 1.18940091 -0.64341179 0.2505046461
## 48 R16 SAN BLAS R119 1.168238410 0.22547506 -0.56558856 -0.9409179319
## 49 R18 VINCHINA R098 -1.403964362 -0.77625180 -0.40994209 -0.6444874340
## 50 R4 CNEL VAR R028 0.473514001 -0.30373913 -0.40994209 -0.5190745311
## 51 R6 CHILECIT R042 0.938577448 0.83029128 0.05699730 -0.9865226239
## 52 R7 FAMATINA R049 -1.403964362 0.09317151 -0.56558856 0.3930193085
## 53 R9 G BELGRA R063 0.002709029 0.69798773 -0.72123502 -0.1827399277
## 54 J13 SAN MART J091 -1.389610552 -1.41886904 -0.56558856 0.4215222410
## 55 J16 ULLUM J112 0.835230016 -1.43776955 0.21264376 0.2505046461
## 56 J17 V FERTIL J119 0.088831890 -0.87075434 -0.56558856 0.0965888107
## 57 J19 ZONDA J133 0.628535150 -1.34326701 0.05699730 0.5526357305
## 58 J2 ANGACO J014 -0.390585368 -1.47557056 -0.48776533 1.8124653464
## 59 J5 CAUCETE J035 0.605569054 -0.54944572 -0.56558856 -0.1029317168
## 60 J6 CHIMBAS J042 1.363450228 -0.77625180 -0.02082594 -1.2487496028
## 61 J7 IGLESIA J049 -1.403964362 -1.60787411 -0.25429563 0.2676064056
## 62 J8 JACHAL J056 -0.005903257 -1.32436650 -0.48776533 0.2334028866
## 63 J9 9 DE JUL J063 -0.117862976 -1.19206296 -0.40994209 0.9459761988
## 64 JI ALBARDON J007 0.157730178 -1.34326701 -0.33211886 0.3588157895
## 65 C1 AMBATO C007 -1.403964362 -1.00305789 -0.64341179 0.2619058191
## 66 C2 ANCASTI C014 -1.403964362 -1.00305789 -0.72123502 3.3858272198
## 67 C4 ANTOFAGA C028 -1.403964362 -1.38106803 -0.64341179 1.3165143211
## 68 C8 EL ALTO C056 -1.403964362 2.41793386 -0.64341179 2.3996257557
## 69 R10 G QUIROG R070 -1.403964362 0.16877354 -0.64341179 1.5274360216
## 70 R13 G S MART R091 -1.403964362 1.30280395 -0.64341179 1.5616395405
## 71 R8 G PEÑALO R056 -1.403964362 -0.36044065 -0.72123502 1.3963225321
## VSINELEC HSINGAS CONDESAG MORTINF MORTNEON NACVIV20
## 1 -0.78429471 -1.002600350 2.124145948 1.21662136 1.64349645 0.0490833907
## 2 -1.02721362 -1.240278563 4.230377708 -0.30280245 -0.05291773 -2.3730601000
## 3 -0.62611495 -0.961463736 0.292132726 0.10761663 0.32279816 -0.6923891065
## 4 -1.03851217 -1.244849298 2.929298255 -0.16308531 0.14063288 -1.1867041046
## 5 -0.98201940 -1.203712684 1.330662514 -0.26787316 -0.08707372 -1.5080088533
## 6 -0.93682519 -1.167146805 2.742596271 0.16001055 0.19755953 -0.9395466055
## 7 -0.62046567 -0.284994975 -0.583032825 0.79746997 0.85790868 -1.7057348526
## 8 -0.68260772 -1.016312554 1.791583038 0.79746997 0.85790868 0.1479463903
## 9 -0.47923374 0.007532056 -0.577198388 -0.71322152 -1.14590942 0.0737991406
## 10 -0.11768001 -0.284994975 -0.513019581 -0.37266101 -0.45140429 -1.0878411050
## 11 -0.87468314 -1.062019903 -0.513019581 3.04167639 2.42908423 -0.4452316074
## 12 -0.89728025 -1.084873577 0.624695636 -0.45125190 -0.30339499 -0.7665363562
## 13 -0.98201940 -1.176288275 1.768245290 3.47829243 3.79532384 -1.6068718530
## 14 -0.89728025 -1.144293131 -0.361324219 0.33465697 0.83513802 -0.5935261069
## 15 1.15905661 1.584435585 -0.396330841 0.02029342 -0.44001895 0.9635661371
## 16 -0.91987735 -1.121439456 0.986430731 0.02902574 0.04955024 -0.8406836059
## 17 0.10264179 -0.358126733 -0.542191766 0.26479840 0.32279816 -0.8406836059
## 18 -0.84078748 -1.062019903 0.513841333 0.04649038 0.20894486 -1.3102828541
## 19 -0.63741350 -0.824341690 -0.571363951 -0.43378726 0.01539425 -0.4205158575
## 20 -0.86903386 -1.107727252 1.138126093 0.35212161 0.52773410 -0.5935261069
## 21 -0.58092073 -0.769492871 -0.524688455 1.15549512 1.51825782 0.3703881394
## 22 -0.68260772 -0.902044183 1.243145959 0.35212161 0.08370623 -1.3102828541
## 23 -0.42274097 -0.700931848 -0.483847396 0.11634895 -0.40586296 -0.5193788572
## 24 -0.47923374 -0.787775811 0.309636037 -0.04083282 0.03816491 -0.5440946071
## 25 -0.90292952 -1.062019903 0.578020140 -0.30280245 0.01539425 -1.2361356044
## 26 -0.12332929 -0.189009543 -0.291310975 0.72761140 0.22033019 0.4692511390
## 27 -0.86338458 -1.098585782 2.170821444 0.03775806 0.06093557 -0.7171048564
## 28 -0.34365109 -0.563809802 -0.402165278 -0.27660548 -0.53110160 -0.1733583585
## 29 0.05744758 -0.422117022 -0.320483160 -1.41180718 -1.21422140 0.2962408897
## 30 0.19303023 0.167507776 -0.063767931 -0.71322152 -0.87266150 0.5928298886
## 31 -0.51312941 0.327483497 -0.501350707 -1.32448397 -0.87266150 0.4198196392
## 32 0.63367384 0.830264332 -0.460509648 -0.08449443 -1.06621211 1.3343023857
## 33 0.53198685 0.935391234 -0.553860640 -0.89660025 -1.03205612 1.9027646335
## 34 -0.03859013 1.314762228 -0.542191766 -0.29407012 -0.42863362 1.1860078863
## 35 0.22127661 1.346757372 -0.524688455 1.06817191 1.34747787 0.7411243880
## 36 0.01790264 0.469176278 -0.553860640 1.04197495 0.16340354 1.3343023857
## 37 -0.59786856 -0.586663477 -0.542191766 -0.66082760 -0.47417495 0.6669771383
## 38 0.17043312 0.688571551 -0.005423561 -0.26787316 -0.31478032 0.9141346373
## 39 0.74665938 1.159357243 0.338808222 1.03324263 0.37972481 0.3951038893
## 40 0.45289697 0.875971681 -0.583032825 -0.16308531 -0.63356957 0.9388503872
## 41 -0.69955555 -0.454112166 -0.122112301 -0.29407012 -0.22369768 0.7164086381
## 42 -0.16852350 -0.536385393 -0.577198388 0.15127823 0.02677958 0.8152716377
## 43 -0.48488302 -0.207292483 -0.542191766 -0.71322152 -1.14590942 0.4445353891
## 44 0.14783601 0.789127718 -0.559695077 -0.21547924 -0.12122971 -0.2227898583
## 45 1.15340733 0.514883626 -0.583032825 -0.37266101 -0.45140429 0.9882818870
## 46 1.04042179 0.999381522 -0.530522892 0.79746997 0.85790868 -0.0250638591
## 47 0.79185360 0.162937042 -0.460509648 -0.47744886 -0.54248693 -0.4699473573
## 48 -0.03859013 0.880542416 -0.583032825 -0.71322152 -1.14590942 1.2107236362
## 49 -0.10638146 0.684000816 -0.548026203 -0.21547924 -0.12122971 1.6061756347
## 50 0.13653746 0.537737301 -0.571363951 -0.21547924 -0.12122971 1.7297543842
## 51 -0.71650338 -0.577522007 0.251291667 0.64028819 0.97176198 0.4692511390
## 52 -0.01599302 0.761703309 -0.559695077 0.64028819 0.97176198 -0.1239268587
## 53 1.06301890 0.601727589 -0.577198388 -0.37266101 -0.45140429 0.8152716377
## 54 -0.40579314 -0.513531719 0.227953919 -1.06251435 -0.53110160 -0.2475056082
## 55 -0.28150905 -0.472395105 -0.437171900 -1.32448397 -1.10036810 1.0871448867
## 56 0.65062167 0.738849635 -0.553860640 -1.32448397 -0.98651480 2.0016276331
## 57 -0.07813507 -0.335273059 -0.536357329 -1.76110001 -1.32807470 1.3837338855
## 58 0.15913457 0.016673526 -0.577198388 -0.97519114 -0.98651480 -0.3463686078
## 59 -0.46228591 -0.481536575 -0.507185144 0.33465697 0.83513802 -0.0003481092
## 60 -0.85208603 -1.020883289 -0.513019581 1.55718187 1.63211112 -0.0003481092
## 61 -0.17417278 0.871400946 -0.559695077 -1.32448397 -1.10036810 0.9141346373
## 62 -0.30410615 -0.074741172 -0.553860640 -0.53857511 -0.18954169 -0.7171048564
## 63 -0.47358447 -0.380980408 -0.542191766 -1.14983756 -1.10036810 0.0985148905
## 64 -0.60916712 -0.710073318 -0.559695077 -1.23716076 -1.21422140 -0.8159678560
## 65 0.55458396 1.136503568 -0.530522892 -0.80054473 -0.98651480 1.4578811352
## 66 3.59389502 2.512294764 -0.501350707 2.57013107 1.43856051 0.5928298886
## 67 3.04591515 2.608280196 -0.553860640 2.43041394 3.02112140 -0.6923891065
## 68 2.66176431 2.320323899 -0.583032825 0.25606608 -0.07568839 -2.5213545994
## 69 2.18722503 1.543298972 -0.583032825 -0.47744886 -0.54248693 -0.3958001076
## 70 2.60527154 1.584435585 -0.571363951 -0.47744886 -0.54248693 -0.3216528579
## 71 1.55450600 1.223347531 -0.302979849 -0.37266101 -0.45140429 -0.8159678560
## SINCOBSA ESCMEDIO ANALFAB ASISHTPI PRPERHOG JEFMUJER
## 1 -1.85571354 1.484153037 -1.63977926 -1.870802146 0.27656284 1.062087475
## 2 -1.37729792 1.911490085 -1.75048385 -2.136640982 -3.05156623 1.492008859
## 3 -0.20039550 0.710108573 0.02078959 -0.009930293 -1.38750169 -0.244873532
## 4 0.75643574 1.621223411 -1.63977926 -1.685870782 -1.05468879 0.185047852
## 5 -0.26737369 1.177760437 -1.23386243 -0.957703535 -1.05468879 -0.227676676
## 6 -0.05687081 0.702045610 -1.19696090 -0.946145325 -0.38906297 -0.330857809
## 7 -2.27671929 0.419841899 -0.82794560 -1.420031945 0.60937574 -0.004117557
## 8 -1.72175717 1.161634510 -1.38146855 -1.928593197 0.27656284 0.718150368
## 9 -1.72175717 -0.257447007 -1.16005937 -1.639637940 -1.38750169 0.941709487
## 10 -0.77449424 1.072941915 -0.93865019 -0.657190068 -0.38906297 0.683756657
## 11 -0.18125888 0.847178947 -1.08625631 -0.911470694 0.27656284 -0.296464098
## 12 -0.65967449 1.040690063 -1.23386243 -1.073285638 -0.05625007 -0.330857809
## 13 -1.43470780 2.145316017 -1.75048385 -2.113524561 -1.72031460 0.890118921
## 14 -1.01370205 1.717978969 -1.49217314 -1.616521520 0.27656284 -0.227676676
## 15 1.59844723 -0.999239618 0.35290337 1.203681784 0.27656284 0.855725211
## 16 0.38327155 0.016693741 -0.42202877 0.059418968 -0.38906297 -1.018732023
## 17 0.79470899 -0.273572933 2.19797987 0.151884650 -0.38906297 -0.296464098
## 18 0.13449543 0.347275230 -0.20061959 0.475514538 -0.72187588 -0.915550890
## 19 0.81384561 0.097323372 0.68501714 0.718236953 -0.38906297 -1.328275419
## 20 -0.03773419 0.395653009 -0.27442265 0.429281697 -1.05468879 -0.812369758
## 21 0.26845181 -0.289698860 0.98022938 1.203681784 -0.05625007 -1.672212526
## 22 0.19190531 0.081197446 0.05769112 0.313699594 -0.38906297 -0.863960324
## 23 1.47405917 -0.894421097 1.09093397 1.238356415 0.27656284 -1.569031394
## 24 0.96693861 0.726234499 0.68501714 0.660445902 -2.38594041 -0.176086110
## 25 0.28758843 0.210204857 -0.16371806 0.683562322 -1.05468879 -1.311078564
## 26 2.10556778 -1.458828519 2.05037375 1.723801246 0.60937574 -1.775393658
## 27 -0.44917162 0.476282641 -0.53273336 -0.310443760 -0.38906297 -1.121913155
## 28 1.40708098 -0.862169245 0.46360796 0.764469794 0.60937574 -1.104716299
## 29 0.30672506 -0.442895160 0.98022938 1.076541471 1.27500156 -1.689409381
## 30 0.72773080 -1.063743324 2.34558599 1.793150508 0.94218865 -1.259487997
## 31 0.15363206 -0.773476650 0.79572173 0.371490645 0.60937574 -0.743582337
## 32 -0.46830825 -1.192750734 0.38980490 0.891610107 -0.38906297 0.718150368
## 33 -1.07111193 -0.886358134 -0.90174866 -0.379793022 -0.38906297 0.408606971
## 34 -0.21953212 -0.031684038 -0.01611194 0.672004112 0.60937574 0.408606971
## 35 1.06262173 0.290834488 0.05769112 -0.079279555 0.27656284 1.096481186
## 36 0.88082380 0.186015967 0.61121408 0.614213061 -0.72187588 1.646780557
## 37 -1.34859299 1.153571547 -1.41837008 -1.431590156 0.60937574 0.374213261
## 38 0.52679624 0.210204857 -0.42202877 0.094093599 0.27656284 1.165268607
## 39 0.83298224 -0.523524792 1.01713091 0.637329481 0.60937574 2.162686217
## 40 -0.75535762 -0.910547024 0.72191867 0.833819056 0.94218865 -0.038511268
## 41 -1.90355510 1.129382658 -1.49217314 -1.477822997 0.27656284 0.786937789
## 42 0.59377443 0.798801168 0.50050949 0.267466753 -0.72187588 0.013079298
## 43 -0.06643913 0.452093752 -0.68033948 -0.645631858 0.27656284 0.511788104
## 44 -1.10938518 -0.281635897 0.35290337 -0.657190068 1.27500156 -0.502826362
## 45 -0.33435187 0.081197446 -0.16371806 0.140326440 -0.72187588 0.253835273
## 46 -1.09981686 -1.055680361 0.94332785 0.094093599 1.27500156 0.099063575
## 47 0.63204768 0.008630777 -0.01611194 0.718236953 -0.38906297 0.511788104
## 48 -0.21953212 -0.080061817 -0.16371806 0.082535389 0.27656284 1.320040305
## 49 -0.83190412 1.032627100 0.75882020 -0.449142283 0.60937574 0.735347223
## 50 0.92866536 -0.168754412 0.27910031 -0.206419868 0.94218865 0.357016405
## 51 -0.62140124 0.887493763 -0.90174866 -1.061727427 0.27656284 0.408606971
## 52 -0.32478356 0.379527083 -0.45893030 -0.564724386 -0.72187588 0.872922066
## 53 0.55550118 0.484345604 0.05769112 0.359932435 -0.38906297 0.941709487
## 54 -0.87017737 -0.604154423 0.05769112 0.348374225 0.94218865 -1.620621960
## 55 0.21104193 -0.596091460 0.98022938 0.625771271 1.27500156 -0.984338312
## 56 0.85211886 -0.152628486 0.75882020 0.868493687 0.60937574 0.271032129
## 57 -0.26737369 0.040882630 0.13149418 0.244350332 1.27500156 -0.760779192
## 58 0.61291105 -0.539650718 0.57431255 0.463956327 0.60937574 -1.242291142
## 59 0.55550118 0.524660420 0.09459265 0.325257804 0.27656284 -0.468432651
## 60 0.04838062 0.661730794 -0.90174866 -0.772772171 1.27500156 -0.416842085
## 61 0.19190531 -0.588028497 1.38614621 -0.102395975 1.60781446 -0.330857809
## 62 0.76600405 0.847178947 -0.01611194 -0.657190068 1.60781446 -0.210479821
## 63 -0.30564694 -1.225002587 0.64811561 0.960959369 1.60781446 -1.586228249
## 64 0.59377443 0.161827078 -0.16371806 0.336816015 0.94218865 -0.571613783
## 65 -0.86060905 -1.176624808 -0.71724101 -0.414467653 -1.05468879 0.597772380
## 66 1.22528304 -2.934350778 0.13149418 0.082535389 -0.72187588 1.388827726
## 67 2.97628421 -2.619895215 2.64079824 2.821831221 -2.71875332 3.314875526
## 68 0.97650692 -1.878102604 0.05769112 0.452398117 -1.38750169 0.511788104
## 69 -0.58312800 -0.418706270 0.53741102 1.030308630 0.27656284 0.013079298
## 70 1.03391680 -1.861976677 1.34924468 1.099657892 1.27500156 -0.365251519
## 71 -1.13809011 -0.652532202 -0.38512724 0.244350332 -0.38906297 0.700953512
## VIVPREC IRRTENVI TASACTTO TASACTMU TASDESTO TASDESMU
## 1 -1.016351575 -1.461060800 -0.19133184 0.59585151 0.875414773 0.36978548
## 2 -0.834247939 -0.934328307 -0.34482970 0.49849812 0.237465884 -0.23902076
## 3 -0.824663538 -0.051276775 -0.51751479 -0.31278015 0.738711440 0.36978548
## 4 -0.910923155 -0.965312571 -0.42157863 0.03336525 0.829846995 0.64882168
## 5 -0.843832341 -0.578009268 0.05810218 0.02254820 0.647575884 0.42051934
## 6 -0.719235117 -0.376611550 0.24997451 0.09826751 0.829846995 0.67418861
## 7 -0.786325930 -0.159721700 1.13258721 1.13670368 -0.947296338 -1.10149628
## 8 -0.882169949 -0.887851911 0.36509790 0.79055829 0.055194773 -0.06145227
## 9 -1.140948800 -0.872359778 -0.38320417 0.22807203 -1.402974115 -0.77172623
## 10 -0.422118658 -1.120233893 0.24997451 0.55258334 0.510872551 0.14148314
## 11 -0.527547079 -0.051276775 -0.40239140 -0.16134154 2.060176995 1.73959954
## 12 -0.345443443 0.196597339 -0.47914033 -0.26951197 1.103253662 0.67418861
## 13 -0.709650715 -0.655469929 -0.44076586 0.52013220 0.784279217 0.29368470
## 14 -0.767157126 -0.732930589 -0.44076586 0.10908455 1.741202550 1.23226100
## 15 0.708840765 -0.531532872 0.11566388 -0.28032901 -1.448541893 -1.45663325
## 16 -0.815079136 -0.082261040 0.30753621 -0.23706084 0.283033662 0.42051934
## 17 0.335049092 0.785298360 1.43958293 0.30379133 2.196880328 0.39515241
## 18 -1.045104781 -0.237182361 -0.42157863 -0.61565736 -0.172644116 0.04001543
## 19 -0.872585547 -0.454072211 0.69128086 -0.04235406 -0.127076338 -0.03608535
## 20 -0.997182772 -0.578009268 -0.47914033 -0.66974258 0.237465884 0.42051934
## 21 -0.949260762 -0.237182361 -0.36401693 -1.24304589 0.602008106 0.97859173
## 22 -0.728819519 -0.268166625 0.26916174 -0.23706084 0.328601440 -0.01071842
## 23 -0.383781050 -0.004800379 1.40120846 0.05499933 -1.129567449 -0.89856086
## 24 -0.795910332 -0.221690229 -0.11458291 -0.18297562 1.057685884 0.44588626
## 25 -1.073857987 -0.299150890 -0.30645524 -0.70219371 -0.354915227 -0.06145227
## 26 0.306295886 1.234570192 1.38202123 0.04418229 -0.765025227 -0.41658925
## 27 -0.709650715 -0.407595814 0.32672344 -0.05317110 0.283033662 -0.03608535
## 28 0.862191196 2.319019441 -0.07620844 -0.77791302 0.465304773 1.33372871
## 29 0.200867465 1.141617399 -0.65182542 -1.25386293 0.419736995 1.08005944
## 30 0.756762775 2.071145327 -0.57507649 -1.40530154 0.556440328 0.59808783
## 31 2.414864302 2.737307009 -0.22970631 -0.98343684 -0.263779671 -0.56879081
## 32 0.699256363 0.041676017 -0.19133184 0.09826751 0.191898106 -0.16291998
## 33 0.450061914 0.057168150 -0.76694882 -0.39931649 -0.537186338 -0.06145227
## 34 -0.192093013 -0.516040739 0.61453193 0.54176629 -1.266270782 -1.07612935
## 35 0.910113205 -0.655469929 0.34591067 0.61748560 -0.673889671 -0.59415774
## 36 -0.690481911 -0.872359778 -0.65182542 0.08745046 0.009626995 -0.16291998
## 37 -0.585053490 -0.500548607 -0.95882114 -0.19379267 0.510872551 0.49662012
## 38 -0.489209471 -0.516040739 0.17322558 0.35787655 -0.263779671 -0.01071842
## 39 0.450061914 -1.011788968 0.88315318 1.29895934 -0.856160782 -0.94929472
## 40 0.565074737 -0.097753172 -0.11458291 -0.19379267 -0.354915227 -0.23902076
## 41 -0.690481911 0.336026528 -1.07394454 -0.18297562 0.510872551 0.54735397
## 42 -0.843832341 1.575397099 -0.47914033 -0.61565736 -0.127076338 -0.67025852
## 43 -0.594637892 -0.763914854 1.11339997 1.02853325 -1.402974115 -1.15223013
## 44 -0.700066313 -0.020292511 1.24771060 0.62830264 -1.083999671 -0.69562545
## 45 0.440477512 -1.430076535 -0.07620844 0.09826751 -0.810593004 -0.79709315
## 46 0.421308709 -0.004800379 0.74884256 0.72565603 -0.491618560 -0.94929472
## 47 -0.038742582 -1.337123743 -1.07394454 -0.20460971 -0.263779671 -0.46732310
## 48 -0.144171003 -0.113245304 -0.09539568 0.70402194 -0.673889671 -1.12686320
## 49 -0.719235117 -0.918836175 1.66982972 1.75327516 -1.038431893 -1.05076242
## 50 -0.997182772 -0.547025004 -0.01864675 0.74729012 -0.628321893 -0.87319393
## 51 -0.815079136 -0.779406986 0.61453193 0.85546055 -0.400483005 -0.36585540
## 52 -0.949260762 0.134628810 1.72739142 1.86144560 -1.357406338 -1.25369784
## 53 0.517152727 -1.461060800 -0.61345096 0.21725499 -0.947296338 -0.79709315
## 54 0.382971101 1.219078060 -1.64956152 -2.08677528 0.419736995 1.33372871
## 55 0.593827943 2.442956498 -1.26581686 -1.58919128 2.288015883 3.51528442
## 56 -0.671313107 -0.159721700 -1.16988070 -0.75627893 0.419736995 0.06538236
## 57 1.255151673 1.404983645 -1.43850196 -1.74062989 0.328601440 1.08005944
## 58 0.622581148 2.272543045 -1.32337856 -1.65409354 1.376660328 2.70354276
## 59 0.890944401 0.614884906 -1.22744240 -0.96180276 1.422228106 1.15616022
## 60 -0.201677414 0.397995057 -0.26808077 -0.12889041 1.969041439 1.86643417
## 61 1.466008515 0.599392774 0.65290639 -0.19379267 -0.901728560 -0.67025852
## 62 -0.345443443 0.692345567 -1.01638284 -0.72382780 0.328601440 0.31905163
## 63 0.814269186 1.373999381 -0.61345096 -1.38366745 1.012118106 0.80102324
## 64 0.900528803 1.931716138 -0.90125945 -0.99425389 1.695634773 1.48593027
## 65 1.791878179 0.909235417 0.24997451 -0.04235406 -1.175135227 -0.94929472
## 66 3.622498941 -0.175213832 0.01972772 0.52013220 -0.582754116 -0.44195618
## 67 3.076188033 -1.414584403 5.33459114 5.05247343 -2.040923004 -1.73566945
## 68 1.130554449 0.599392774 0.34591067 0.42277881 -1.129567449 -1.45663325
## 69 1.159307654 -0.717438457 -0.59426372 -0.42095058 -0.856160782 -0.87319393
## 70 1.034710430 -0.206198097 0.17322558 0.36869360 -1.402974115 -1.15223013
## 71 -0.009989377 -0.701946325 0.51859576 0.92036281 -1.448541893 -1.25369784
## ASALPUBL CTAPROP PRECASAL PCIA Vivienda_Hogar_educacion
## 1 0.66884739 -0.84292516 -1.08733010 CAT -1.82070066
## 2 -0.30222145 0.80318017 -0.25925837 MZA -2.35201401
## 3 -0.95443186 0.66600472 0.17202899 MZA -0.58751411
## 4 -0.43991031 0.88156614 -0.25925837 MZA -1.65381735
## 5 -0.95443186 1.07753106 0.37042117 MZA -1.31773030
## 6 -0.75876874 1.03833807 0.46530439 MZA -1.12462082
## 7 1.48773380 -1.11727605 -1.40648275 RJA -0.78105745
## 8 0.16881941 -1.15646904 -0.94069240 RJA -1.68519758
## 9 1.19061573 -0.56857428 -0.60428826 RJA -0.94514234
## 10 0.77030235 -0.66655674 -0.78542895 RJA -1.05727623
## 11 -0.70079448 0.70519771 0.41354991 SJU -0.59726414
## 12 -0.63557344 -0.09825847 0.29278945 SJU -1.20550194
## 13 0.03113054 0.07810996 -0.43177332 SJU -1.62718250
## 14 -0.07032441 0.05851347 -0.27650987 SJU -1.51896001
## 15 -0.60658631 0.78358367 1.58665152 CAT 1.24407805
## 16 -1.41097915 0.27407488 1.04322945 MZA -0.37146266
## 17 -0.43266353 0.23488190 -0.30238711 MZA 0.40451995
## 18 -1.11386107 0.48963629 0.68957382 MZA -0.33401383
## 19 -1.04139325 -0.50978480 1.47451681 MZA 0.14620540
## 20 -1.04864003 0.43084682 0.49980738 MZA -0.44626668
## 21 -1.12835464 -0.60776726 0.61194209 MZA 0.78578980
## 22 -0.90370438 -0.05906548 0.69819956 MZA -0.26728561
## 23 -1.36749846 -1.25445150 2.40609750 MZA 0.73296358
## 24 -1.12835464 1.11672404 1.03460370 MZA -0.28019156
## 25 -1.23705637 0.25447839 0.65507083 MZA -0.20715605
## 26 -1.52692767 0.21528541 2.24220831 MZA 1.62717043
## 27 -1.04139325 0.19568891 0.66369658 MZA -0.75758805
## 28 -1.57765515 -0.19624093 2.34571727 SJU 0.88885655
## 29 -1.28778385 -0.52938129 0.92246899 SJU 0.65691137
## 30 -1.42547272 -1.52880239 1.75916647 SJU 1.37064980
## 31 -0.29497466 -1.23485501 0.68094807 SJU 0.97981758
## 32 1.01669295 -0.96050412 -1.00107263 CAT 0.38994176
## 33 1.06742043 0.35246085 -1.22534206 CAT 0.26473103
## 34 1.13264147 -0.17664444 -0.78542895 CAT 0.31118561
## 35 -0.20801327 1.66542582 0.33591818 CAT 0.47637863
## 36 0.34998897 0.82277666 0.22378347 CAT -0.09592509
## 37 0.52391175 -0.72534621 -0.85443493 CAT -1.41431021
## 38 0.15432584 0.47003980 0.59469060 CAT -0.12375847
## 39 0.82827661 1.21470650 -0.98382114 CAT 0.48126103
## 40 0.77030235 -0.56857428 -0.77680320 CAT 0.59383538
## 41 1.50947415 -1.56799537 -1.53586896 CAT -1.46069168
## 42 0.48767783 0.95995210 0.53431037 MZA -0.18510192
## 43 -0.46889744 1.21470650 0.24103496 RJA -0.85976534
## 44 2.27763308 -1.62678485 -1.66525516 RJA 0.20201165
## 45 1.39352563 -0.29422339 -1.08733010 RJA 0.13909733
## 46 0.61811992 0.25447839 -1.39785700 RJA 0.80447986
## 47 1.09640756 0.29367137 -0.65604274 RJA -0.10912664
## 48 0.90799121 -0.58817077 -0.50940504 RJA -0.50105406
## 49 1.33555137 -0.03946899 -1.05282711 RJA -0.37667921
## 50 0.85726374 0.21528541 -0.44902481 RJA -0.14561334
## 51 0.61087314 -0.98010061 -0.18162665 RJA -1.05514801
## 52 0.91523800 -0.23543391 -0.47490205 RJA -0.02796870
## 53 1.35004494 -0.62736375 -0.80268045 RJA -0.06132618
## 54 -1.32401776 -1.78355678 0.24103496 SJU 0.56308555
## 55 -0.36744249 -0.11785496 0.90521750 SJU 0.46060243
## 56 0.16881941 1.88098723 -0.09536918 SJU 0.39898875
## 57 0.25578080 -1.86194275 0.42217565 SJU 0.21179970
## 58 -1.04139325 -0.23543391 1.12086118 SJU 1.04094969
## 59 -0.77326230 -0.07866198 0.96559773 SJU 0.08811380
## 60 -0.62832665 0.29367137 0.74995405 SJU -0.60433674
## 61 0.47318427 0.41125033 -0.18162665 SJU 0.86175758
## 62 -0.28048110 1.64582932 0.43080140 SJU -0.06780526
## 63 -0.75876874 -2.23427610 0.68957382 SJU 0.73895473
## 64 -1.24430316 -0.07866198 1.01735221 SJU 0.03447495
## 65 1.25583677 0.05851347 -0.99244688 CAT 0.63163370
## 66 0.21954689 1.15591702 -1.13908458 CAT 2.71383099
## 67 0.01663698 3.21354869 -1.85502160 CAT 2.45934178
## 68 0.01663698 1.68502231 -0.02636320 CAT 1.92943629
## 69 2.38633482 -1.31324097 -1.92402758 RJA 1.14763571
## 70 0.85001695 0.41125033 -0.38001883 RJA 1.74821542
## 71 1.32105781 -1.05848658 -1.11320734 RJA 0.49784887
## Vulnerabilidad Mercado_laboral Mortalidad Actividad Irregularidad
## 1 -1.006821909 4.099590e-01 1.386235037 0.052659513 -0.33239000
## 2 0.093017562 -1.045042e+00 -0.526934517 -0.040130279 1.22899549
## 3 0.510338289 1.615094e-01 0.293843100 -0.491261331 0.31569018
## 4 0.475341367 -4.794589e-02 -0.310431200 -0.107747984 1.50608890
## 5 0.945684911 -8.610026e-02 -0.397543604 0.433607672 0.67112661
## 6 0.915095716 2.857916e-01 -0.073158416 0.618000927 0.63413173
## 7 -0.649414791 -6.902960e-01 1.027477722 1.298308448 -2.81917744
## 8 -0.429413386 -1.696205e-01 0.639673976 0.694532247 -0.51500398
## 9 -0.813359442 -1.569405e+00 -1.007450179 -0.221946000 -1.05021184
## 10 -0.773726403 5.165417e-01 -0.815109509 0.990643032 0.37674100
## 11 0.007099051 1.739683e+00 2.694476527 -0.586394355 0.12018238
## 12 0.150152348 8.042005e-01 -0.562990047 0.221984586 0.26592253
## 13 -0.375997696 -2.803259e-01 3.954519129 -1.358283063 -0.35913656
## 14 -0.477612078 1.454010e+00 0.487267075 0.286584180 0.08007664
## 15 0.713401232 -2.092051e+00 -0.245913114 -1.107980002 1.45232934
## 16 1.704904479 -2.341462e-01 0.052516107 0.311973844 0.01536864
## 17 0.209742534 2.680064e+00 -0.077355437 2.381417795 0.36164178
## 18 1.387300163 -8.968238e-01 0.409755393 -0.822729710 -0.30650421
## 19 1.814637493 -3.717876e-01 -0.041218131 0.623269681 -0.25984176
## 20 1.171782271 -4.585547e-01 0.690071246 -0.820540951 -0.19983654
## 21 1.310309233 3.453490e-01 2.077709452 -1.082213807 -1.63834331
## 22 1.338468697 -2.450741e-01 0.206273570 0.209439252 -0.18478372
## 23 3.003936504 -1.597091e+00 -0.122709983 0.862695279 -0.48258531
## 24 0.943678781 3.962849e-01 -0.164590247 -0.038844947 1.41524864
## 25 1.685566934 -1.067206e+00 0.217329389 -0.712775223 -0.51211213
## 26 2.653633209 -7.417028e-01 0.615910310 0.625134655 -0.21325023
## 27 1.384691223 -3.974089e-01 0.053998027 0.443169147 -0.39256489
## 28 1.462530166 9.794741e-01 -0.396434253 0.042241512 0.41955273
## 29 0.928033194 8.310472e-01 -1.079822581 -0.271273132 -0.47615768
## 30 1.007192621 9.235092e-01 -0.590188156 -0.560149188 -0.18998515
## 31 0.621463270 -2.809010e-02 -0.706781926 -0.201580694 -1.25907862
## 32 -1.288730551 5.319367e-01 -0.938357432 0.174590524 0.15982251
## 33 -1.393980333 -1.933609e-01 -0.839007381 -0.630412270 -0.80248373
## 34 -0.661558773 -9.304384e-01 -0.423047167 0.516963307 -0.69239254
## 35 -0.252519005 -8.036233e-01 1.205300779 -0.568090386 1.39199279
## 36 -0.545878189 -4.753793e-01 0.176556621 -1.130333916 1.96590394
## 37 -0.981806811 3.781118e-01 -0.728647794 -0.290357720 -0.03698172
## 38 -0.297015858 -2.440663e-01 -0.639010707 0.184154769 1.41536927
## 39 -1.042324393 -4.273221e-01 0.249246153 0.526931968 1.46310592
## 40 -0.811911300 1.022495e-01 -0.390486899 -0.031853836 -0.85816098
## 41 -1.665979926 6.291630e-01 -0.385330148 -0.343493801 -0.70064973
## 42 0.568987908 -6.903819e-01 0.068714892 -0.840429232 0.36877070
## 43 0.689284341 -1.505103e+00 -1.492619521 1.378243748 0.78152870
## 44 -0.865475940 -1.168139e-01 -0.036835501 1.624649956 -2.65327419
## 45 -0.791956108 -7.852008e-01 -0.356185757 -0.248422378 -0.33364545
## 46 -1.009071937 2.430234e-05 1.120238607 0.476610016 -1.51050376
## 47 -0.655441391 -8.293584e-01 -0.541059442 -1.387089819 1.13866386
## 48 -1.045332445 -6.654856e-01 -1.480510567 0.211697148 1.21138091
## 49 -0.822469789 -3.976755e-01 -0.471028457 2.169354420 -0.74463642
## 50 -0.473313199 -7.757817e-01 -0.363175932 -0.161860761 0.98235110
## 51 0.009900840 -5.772876e-01 0.728701659 0.612002207 -0.32501937
## 52 -0.362497542 -1.050713e+00 0.806172252 1.479610018 -0.67277365
## 53 -0.935109463 -1.169081e+00 -0.496478701 -0.977286205 0.88838831
## 54 0.403011015 6.399498e-01 0.001051952 -1.615347726 -2.11903838
## 55 -0.353847649 3.617046e+00 -1.309619906 0.043630107 0.37699916
## 56 -0.592910021 2.189147e-01 -1.186452504 -1.132851926 1.43073223
## 57 -0.102400404 8.917821e-01 -1.293073006 -0.938753303 -0.69324266
## 58 0.101930948 2.281712e+00 -0.765283565 -0.791455851 0.01504219
## 59 0.165251392 1.101460e+00 0.860002949 -1.382972421 0.56493176
## 60 0.065070239 2.020383e+00 1.519795942 0.030823375 0.34692705
## 61 -0.009901048 -3.023436e-02 -1.142695267 0.937075319 -0.98415237
## 62 0.109615297 3.528988e-02 -0.233330284 -1.122856246 0.66769654
## 63 0.480202977 1.473266e+00 -0.852016236 -0.005912954 -1.36451297
## 64 0.295337556 1.926835e+00 -1.374683057 -0.010810400 0.76130196
## 65 -1.064949274 -4.155976e-01 -0.835758814 0.344427932 -1.15000773
## 66 -1.852253835 2.032826e-01 2.251630521 -1.451212393 0.82250212
## 67 -0.984093054 3.091836e-01 2.157443332 4.594241197 2.82383054
## 68 -0.511378503 -1.240623e+00 0.324896342 -0.768086539 0.76084347
## 69 -1.709118217 -4.646297e-01 -0.087908018 -0.963096603 -1.40737026
## 70 -0.501717015 -1.035822e+00 -0.230300625 -0.530880852 0.03541208
## 71 -1.215306084 -1.045364e+00 -0.265274077 0.347050426 -0.99678446
Estas nuevas variables con sus puntajes factoriales para cada observación serán utilizadas para proceder a segmentar los resultados.
El análisis de Cluster se propone la construcción de tipologías que nos permitan comparar objetos mediante un conjunto de características compartidas. Este análisis busca la mayor homogeneídad al interior del grupo y la mayor heterogeneídad con respecto a otros grupos. Para ello se parte de una aproximación geométrica en donde en el espacio se agrupan los objetos que tienen mayor similitud entre sí.
El método con que trabajan los conglomerados es mediante mediciones de similitud. Toma la distancia Euclidea trazando una recta entre dos puntos y estableciendo qué tan separados o cercanos se encuentran. Entonces, los puntos que se encuentren de manera más cercana se dirá que son lo más similares entre ellos.
Por ende, el análisis Cluster puede tener varios objetivos: 1) Describir una taxonomía 2)Simplificar los datos 3)Identificar relaciones.
Siguiendo la propuesta de los autores, nos proponemos describir una taxonomía de las provincias de Cuyo y NOA utilizando los factores creados en el paso anterior.
A continuación proponemos un abordaje alternativo al realizado por los autores. A diferencia de ellos, desarrollaremos primero una aproximación jerarquica para definir los estratos y el número óptimo de los mismos. Luego compararemos los resultados entre los distintos estratos.
En los métodos jerarquicos la construcción de los conglomerados se da en formal de arbol. El método jerarquico aglomerativo une de manera sucesiva los elementos que se encuentran más cercanos entre sí. En etapas posteriores, los elementos crean conglomerados y los conglomerados se unen creando más elementos.
El problema de los métodos jerarquicos es que son muy susceptibles a los casos atípicos principalmente con los métodos de encadenamiento completo. El método de Ward es una aproximación óptima para reducir estos problemas ya que la distancia se calcula entre dos conglomerados como la suma de cuadrados entre dos conglomerados sumados para todas las variables. Si bien es un método útil, tiende a estar sesgado a crear aconglomerados de un número aproximadamente igual de observaciones.
Debajo se observa el método de aglomerativo de Ward a partir de los agrupamientos creados en base a nuestros factores.
#Clusterizacion
library(cluster)
#Agglomerative Nesting (Hierarchical Clustering)
agnesprov<- agnes(baseprov[,30:35], metric = "euclidean",stand=TRUE, method = "ward")
#Drendrograma
library(factoextra)
#Aglomerativo
fviz_dend(agnesprov, cex = 0.2, k=4, main = "Cluster aglomerativo metodo de Ward")
Se observa lo comentado más arriba, la aglomeración tiende a crear grupos de tamaño similar. A su vez, se observa un caso que puede ser dificilmente agrupado y sólo lo hace hacia uno de los grupos al fin de la clusterización. Este caso podría considerarse como un outlier.
Debemos entonces proceder a realizar algunos análisis para determinar la cantidad óptima de Clusters a seleccionar. Si bien no existe un procedimiento objetivo para determinar la cantidad de clusters a retener. El análisis de cluster es más un arte que una ciencia pero a pesar de ello existen algunos criterios para determinar el número final de clusters. Los criterios básicos consisten en observar en qué momento existen saltos súbitos o se excede cierta medida de similitud en la creación de los cluster. El método de Silhoutte o el gráfico de Elbow permiten identificar de manera visual el criterio de parada mostrando claramente en qué momentos se producen saltos súbitos en la creación de nuevos clusters.
#Metodo elbow
fviz_nbclust(baseprov[,30:35], kmeans, method = "wss") +
geom_vline(xintercept =6 , linetype = 2)+
labs(subtitle = "Elbow method")
De acuerdo al gráfico de Elbow podríamos determinar que el número óptimo de clusters es cercano a 6. Es a partir del sexto cluster que la suma de cuadrados interna total se reduce.
#Metodo silhouette
fviz_nbclust(baseprov[,30:35], kmeans, method = "silhouette") +
labs(subtitle = "Silhouette method")
Un resultado similar arroja el análisis de Silhoutte. El número ideal de clusters sería entre 2 y 6. Por lo tanto, definiremos la solución final mediante la interpretación que se le pueda dar a los cluster.
#Cluster solucion entre 3 y 6
#Matriz de distancia jerarquica
distancia<- dist(baseprov[,30:35],method = "euclidean")
#Clusterizamos los datos mediante Ward2
clusterjerData<- hclust(distancia, method = "ward.D2")
Cluster3 <- cutree(clusterjerData, k = 3)
Cluster4 <- cutree(clusterjerData, k = 4)
Cluster5 <- cutree(clusterjerData, k= 5)
Cluster6 <- cutree(clusterjerData, k= 6)
Para los fines comparativos de este proyecto, se creará un cluster no jerarquico que intenta replicar la solución de 4 cluster propuestos por el autor. El mayor inconveniente reside en que el punto del centroide de las agrupaciones no jerarquicas se asigna de manera aleatoria por lo cual es imposible replicar los mismos resultados. Esta segmentación sólo tiene por fin contraponer los distintos métodos y evaluar la mejor solución.
#Metodo no jerarquico como proponen los autores sin el factor "Irregularidad" de nuestro análisis (Factor Inserción incompleta en el mercado laboral). Se establece un punto de partida random
set.seed(123)
cuatroclusterskmedia<- kmeans(baseprov[,30:34], centers = 4)
#Agregamos los clusters a la base
clusterK<- cuatroclusterskmedia$cluster
baseprov<- data.frame(baseprov,clusterK, Cluster3,Cluster4,Cluster5,Cluster6)
A continuación se muestran y comparar las performance de los distintos cluster con respecto a los factores creados en el ejercicio anterior. Se busca a partir de esto poder interpretarlos y tomar una decisión teórica de la selección del cluster final.
El primer análisis cluster a analizar es el de la solución no jerarquica de kmedias para 4 conglomerados.
En este conglomerado se observa cierta similitud entre los estratos 1, 2 y 3 en términos de actividad económica y de irregularidad en las condiciones de trabajo y salud. Mientras que los estratos 1 y 2 performan en líneas generales de manera muy similar a lo largo de todos los indicadores, el estato 3 se distingue en el mercado laboral con una media mayor al resto. En cambio, el estrato 4 se distingue del resto en la mayoría de los indicadores sólo asimilándose al estrato 1 en el factor de vulnerabilidad.
#Observamos el puntaje factoral medio para cada cluster
library(dplyr)
#Cluster de kmedias solucion de 4
scoremedioclusterK4<- baseprov[,30:36] %>% group_by(clusterK) %>% summarise_all(mean) %>% as.data.frame()
scoremedioclusterK4t<- scoremedioclusterK4 %>% select(clusterK, Actividad, Irregularidad, Mercado_laboral, Mortalidad, Vivienda_Hogar_educacion, Vulnerabilidad )
knitr::kable(scoremedioclusterK4t)
| clusterK | Actividad | Irregularidad | Mercado_laboral | Mortalidad | Vivienda_Hogar_educacion | Vulnerabilidad |
|---|---|---|---|---|---|---|
| 1 | -0.1829405 | 0.0479926 | -0.5229895 | -0.2710421 | 0.4782048 | -0.7042322 |
| 2 | 0.1386538 | -0.0948489 | -0.4397382 | 0.4208207 | -0.6020689 | 0.8242673 |
| 3 | -0.1555331 | -0.1050694 | 1.3826799 | -0.2593311 | -0.0777457 | 0.0511212 |
| 4 | 4.5942412 | 2.8238305 | 0.3091836 | 2.1574433 | 2.4593418 | -0.9840931 |
#Visualizacion scores clusters kmedia
scoremedioclusterK4<- pivot_longer(data=scoremedioclusterK4,
-clusterK,
names_to = "variables",
values_to="valor")
ggplot(scoremedioclusterK4) + aes(x=variables,y=valor,color=as.factor(clusterK)) +
geom_point() +
geom_line(aes(group = clusterK)) +
theme_bw() +
theme(legend.position = "bottom",legend.title=element_blank()) +
labs(title="Perfiles de Cluster K propio por factores",
x="Variable",y="") + ylim(-2.5,5)+
scale_colour_discrete("clusterK")
Para la solución de tres clusters jerarquicos observamos que la dispersión de las medias entre cada uno de los estratos se acorta. El estrato 1 performa de manera baja en el factor de actividad pero, por el contrario, lo hace en el factor de irregularidad. Tiene altos valores en mortalidad. La tendencia entre el estrato 2 y 3 son similares entre sí, pero el estrato 3 posee indice más alto en el factor de mercado labor así como también completamente opuesto al del estrato 2 en vulnerabilidad.
#Cluster jerarquico de ward solucion de 3
scoremedioclusterjerarquico3 <- baseprov[,c(30:35,37)] %>% group_by(Cluster3) %>% summarise_all(mean) %>% as.data.frame()
scoremedioclusterjerarquico3t<- scoremedioclusterjerarquico3 %>% select(Cluster3, Actividad, Irregularidad, Mercado_laboral, Mortalidad, Vivienda_Hogar_educacion, Vulnerabilidad )
knitr::kable(scoremedioclusterjerarquico3t)
| Cluster3 | Actividad | Irregularidad | Mercado_laboral | Mortalidad | Vivienda_Hogar_educacion | Vulnerabilidad |
|---|---|---|---|---|---|---|
| 1 | -0.1423525 | 0.7102195 | -0.0999038 | 0.2321348 | -0.3420654 | -0.2582493 |
| 2 | 0.4525596 | -1.1094000 | -0.5018060 | -0.1926751 | 0.2036824 | -0.9614143 |
| 3 | -0.0615226 | -0.4239129 | 0.4782689 | -0.2466939 | 0.4145789 | 1.0226602 |
#Visualizacion scores clusters jerarquico 3
scoremedioclusterjerarquico3<- pivot_longer(data=scoremedioclusterjerarquico3,
-Cluster3,
names_to = "variables",
values_to="valor")
ggplot(scoremedioclusterjerarquico3) + aes(x=variables,y=valor,color=as.factor(Cluster3)) +
geom_point() +
geom_line(aes(group = Cluster3)) +
theme_bw() +
theme(legend.position = "bottom",legend.title=element_blank()) +
labs(title="Perfiles de Cluster jerarquico de 3 conglomerados propio por factores",
x="Variable",y="") + ylim(-2.5,2.5)+
scale_colour_discrete("Cluster3")
Para la solución de 4 estratos se observa una profundización en algunos de las tendencias de la solución de 3 estratos. Incluso el estrato 1 presenta peores indicadores en el factor de acceso a la vivienda y el hogar.
#Cluster jerarquico de ward solucion de 4
scoremedioclusterjerarquico4 <- baseprov[,c(30:35,38)] %>% group_by(Cluster4) %>% summarise_all(mean) %>% as.data.frame()
scoremedioclusterjerarquico4t<- scoremedioclusterjerarquico4 %>% select(Cluster4, Actividad, Irregularidad, Mercado_laboral, Mortalidad, Vivienda_Hogar_educacion, Vulnerabilidad )
knitr::kable(scoremedioclusterjerarquico4t)
| Cluster4 | Actividad | Irregularidad | Mercado_laboral | Mortalidad | Vivienda_Hogar_educacion | Vulnerabilidad |
|---|---|---|---|---|---|---|
| 1 | 0.1502253 | 0.3033993 | 0.2895708 | 0.3501950 | -1.2726299 | -0.0833549 |
| 2 | -0.4186759 | 1.0944386 | -0.4677409 | 0.1206335 | 0.5368011 | -0.4234273 |
| 3 | 0.4525596 | -1.1094000 | -0.5018060 | -0.1926751 | 0.2036824 | -0.9614143 |
| 4 | -0.0615226 | -0.4239129 | 0.4782689 | -0.2466939 | 0.4145789 | 1.0226602 |
#Visualizacion scores clusters jerarquico 4
scoremedioclusterjerarquico4<- pivot_longer(data=scoremedioclusterjerarquico4,
-Cluster4,
names_to = "variables",
values_to="valor")
ggplot(scoremedioclusterjerarquico4) + aes(x=variables,y=valor,color=as.factor(Cluster4)) +
geom_point() +
geom_line(aes(group = Cluster4)) +
theme_bw() +
theme(legend.position = "bottom",legend.title=element_blank()) +
labs(title="Perfiles de Cluster jerarquico de 4 conglomerados propio por factores",
x="Variable",y="") + ylim(-2.5,2.5)+
scale_colour_discrete("Cluster4")
En la solución de 5 estratos se observan tendencias similares a la de la solución propia de 4 conglomerados no jerarquicos. Al igual que en esa solución, se observa gran dispersión de uno de los estratos con respecto al resto.
#Cluster jerarquico de ward solucion de 5
scoremedioclusterjerarquico5 <- baseprov[,c(30:35,39)] %>% group_by(Cluster5) %>% summarise_all(mean) %>% as.data.frame()
scoremedioclusterjerarquico5t<- scoremedioclusterjerarquico5 %>% select(Cluster5, Actividad, Irregularidad, Mercado_laboral, Mortalidad, Vivienda_Hogar_educacion, Vulnerabilidad )
knitr::kable(scoremedioclusterjerarquico5t)
| Cluster5 | Actividad | Irregularidad | Mercado_laboral | Mortalidad | Vivienda_Hogar_educacion | Vulnerabilidad |
|---|---|---|---|---|---|---|
| 1 | 0.1502253 | 0.3033993 | 0.2895708 | 0.3501950 | -1.2726299 | -0.0833549 |
| 2 | -0.7135534 | 0.9927097 | -0.5134423 | 0.0008211 | 0.4237105 | -0.3904470 |
| 3 | 0.4525596 | -1.1094000 | -0.5018060 | -0.1926751 | 0.2036824 | -0.9614143 |
| 4 | -0.0615226 | -0.4239129 | 0.4782689 | -0.2466939 | 0.4145789 | 1.0226602 |
| 5 | 4.5942412 | 2.8238305 | 0.3091836 | 2.1574433 | 2.4593418 | -0.9840931 |
#Visualizacion scores clusters jerarquico 5
scoremedioclusterjerarquico5<- pivot_longer(data=scoremedioclusterjerarquico5,
-Cluster5,
names_to = "variables",
values_to="valor")
ggplot(scoremedioclusterjerarquico5) + aes(x=variables,y=valor,color=as.factor(Cluster5)) +
geom_point() +
geom_line(aes(group = Cluster5)) +
theme_bw() +
theme(legend.position = "bottom",legend.title=element_blank()) +
labs(title="Perfiles de Cluster jerarquico de 5 conglomerados propio por factores",
x="Variable",y="") + ylim(-2.5,5)+
scale_colour_discrete("Cluster5")
Al igual que la solución de 5 estratos, la solución de 6 estratos introduce una gran complejidad al análisis y un estrato que se distingue dramáticamente del resto de los estatos.
#Cluster jerarquico de ward solucion de 6
scoremedioclusterjerarquico6 <-baseprov[,c(30:35,40)] %>% group_by(Cluster6) %>% summarise_all(mean) %>% as.data.frame()
scoremedioclusterjerarquico6t<- scoremedioclusterjerarquico6 %>% select(Cluster6, Actividad, Irregularidad, Mercado_laboral, Mortalidad, Vivienda_Hogar_educacion, Vulnerabilidad )
knitr::kable(scoremedioclusterjerarquico6t)
| Cluster6 | Actividad | Irregularidad | Mercado_laboral | Mortalidad | Vivienda_Hogar_educacion | Vulnerabilidad |
|---|---|---|---|---|---|---|
| 1 | 0.1502253 | 0.3033993 | 0.2895708 | 0.3501950 | -1.2726299 | -0.0833549 |
| 2 | -0.7135534 | 0.9927097 | -0.5134423 | 0.0008211 | 0.4237105 | -0.3904470 |
| 3 | 0.4525596 | -1.1094000 | -0.5018060 | -0.1926751 | 0.2036824 | -0.9614143 |
| 4 | 0.0799596 | -0.2817900 | -0.6677550 | 0.2313251 | 0.0136185 | 1.7938801 |
| 5 | -0.1594717 | -0.5223056 | 1.2716700 | -0.5776302 | 0.6921669 | 0.4887388 |
| 6 | 4.5942412 | 2.8238305 | 0.3091836 | 2.1574433 | 2.4593418 | -0.9840931 |
#Visualizacion scores clusters jerarquico 6
scoremedioclusterjerarquico6<- pivot_longer(data=scoremedioclusterjerarquico6,
-Cluster6,
names_to = "variables",
values_to="valor")
ggplot(scoremedioclusterjerarquico6) + aes(x=variables,y=valor,color=as.factor(Cluster6)) +
geom_point() +
geom_line(aes(group = Cluster6)) +
theme_bw() +
theme(legend.position = "bottom",legend.title=element_blank()) +
labs(title="Perfiles de Cluster jerarquico de 6 conglomerados propio por factores",
x="Variable",y="") + ylim(-2.5,5)+
scale_colour_discrete("Cluster6")
Para finalizar, observamos que la solución de 4 cluster no jerarquicos propuesto por el autor se asimila a los resultados obtenidos por nuestro análisis de conglomerado jerarquico para 4 soluciones. No así con la aglomeración creada por nuestro propio análisis conglomerado no jerarquico.
#Cluster kmedias 4 conglomerados del autor
scoremedioclusterautor <- base[,c(30:35,43)] %>% group_by(ESTRAT) %>% summarise_all(mean) %>% as.data.frame()
scoremedioclusterautort<- scoremedioclusterautor %>% select(ESTRAT, FAC1_1, FAC2_1, FAC3_1, FAC4_1, FAC5_1, FAC6_1)
knitr::kable(scoremedioclusterautort)
| ESTRAT | FAC1_1 | FAC2_1 | FAC3_1 | FAC4_1 | FAC5_1 | FAC6_1 |
|---|---|---|---|---|---|---|
| 1 | -1.0613243 | -0.1978564 | -0.2842348 | 0.4514161 | -0.9057424 | -0.1279226 |
| 2 | 0.2314871 | 0.0841566 | 1.3248131 | -0.0825782 | -0.1584880 | -0.0426780 |
| 3 | -0.0834077 | -0.0633103 | -0.3354448 | -0.2294761 | 0.6496247 | 0.0541190 |
| 4 | 1.9536734 | 0.4897956 | -1.0675509 | 0.3795309 | -0.8661323 | 0.1043596 |
#Visualizacion scores clusters kmedias autor
scoremedioclusterautor <- pivot_longer(data=scoremedioclusterautor,
-ESTRAT,
names_to = "variables",
values_to="valor")
ggplot(scoremedioclusterautor) + aes(x=variables,y=valor,color=as.factor(ESTRAT)) +
geom_point() +
geom_line(aes(group = ESTRAT)) +
theme_bw() +
theme(legend.position = "bottom",legend.title=element_blank()) +
labs(title="Perfiles de Cluster k media de 4 conglomerados del autor segun sus factores",
x="Variable",y="") + ylim(-2.5,5)+
scale_colour_discrete("ESTRAT")
A pesar de que los análisis de la cantidad de cluster óptimos arrojó en Elbow 6 estratos,seguiremos la propuesta de 4 estrados propuesto por los autores debido a la dificultad de incorporar al análisis estratos que muestran gran disparidad en un conjunto de datos pequeño (n=71).
Una vez seleccionado la cantidad de Clusters procedmos a validar los resultados como lo hicieron los autores. Para ello incorporamos la comprobación de los estratos según provincia de pertenencia
Mientras que para la estratificación del autor no hay una estricta
correspondencia entre los estratos obtenidos y las provincias. Solo el
estrato dos se commpone en mayor proporcion por una de las pronvincias
MZA, el estrato 4 se compone por departamentos en casi
partes iguales de la RJA y CTA.
#Provincia y estratos del autor
tabla1<- table(base$ESTRAT, base$PCIA)
prop.table(tabla1,margin = 1)
##
## CAT MZA RJA SJU
## 1 0.07142857 0.35714286 0.28571429 0.28571429
## 2 0.05882353 0.70588235 0.00000000 0.23529412
## 3 0.30303030 0.03030303 0.33333333 0.33333333
## 4 0.57142857 0.00000000 0.42857143 0.00000000
Para nuestra segmentacion, observamos que el estrato 1 se distribuye
de manera similar a traves de los departamentos de las cuatro
provincias, mientras que nuestro estrato 3 se asimilar al estrato 4 del
auto pero de manera inversa. El estrato 3 tiene una mayor propoción de
departamentos de la RJA que de CAT. Vale la
pena destacar la distribucion del estrato 4 en departmento solo en
MZA y SJU en iguales proporciones.
#Provincia y estratos propios.
tabla2<- table(baseprov$Cluster4, baseprov$PCIA)
prop.table(tabla2,margin = 1)
##
## CAT MZA RJA SJU
## 1 0.1764706 0.2941176 0.2352941 0.2941176
## 2 0.4444444 0.1111111 0.2777778 0.1666667
## 3 0.3571429 0.0000000 0.6428571 0.0000000
## 4 0.0000000 0.5000000 0.0000000 0.5000000
A pesar de que en nuestro caso tanto el tercer como el cuarto estrato se asocian fuertemente a provincias en particular. Se puede decir que en líneas generales hay cierto grado de independencia entre las provincias y los estratos. Si bien no performan tan bien como el modelo de los autores, la independencia se observa en mayor medidas en los estratos uno y dos de nuestro cluster análisis.
Para terminar de desarrollar la validación del análisis, los autores realizan un ANOVA para determinar si los grupos se hallaban asociado a las provincias o a la pobreza.
A continuación mostramos la distribución de nuestros cuatro clusters por NBI y procedemos a realizar el ANOVA para validdar finalmente nuestro modelo.
En el boxplot los clusters perfoman distinto de acuerdo a las NBI. Mientras el estrato 1 presenta NBI en menor medida, el estrato 2 y 3 tienen más hogares con NBI. Esto podría indicar algún tipo de relación entre las variables.
#Boxplot de NBI por 4 estratos
HOGNBI<- base[,7]
bb<- data.frame(baseprov,HOGNBI)
bb2<- bb %>% select(Cluster4, HOGNBI)
ggplot(bb2, aes(x=as.factor(Cluster4), y=HOGNBI)) + geom_boxplot()
#Anova de los grupos con la variable hogares
anovahogar<- aov(HOGNBI ~ as.factor(Cluster4), bb)
summary(anovahogar)
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(Cluster4) 3 4336 1445.2 13.49 5.51e-07 ***
## Residuals 67 7175 107.1
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Al observar el Eta cuadrado de nuestrao anova de los cluster que
construimos observamos que arroja un valor de 0.376
#Eta de clusters vs nbi
library(lsr)
etaSquared(anovahogar)
## eta.sq eta.sq.part
## as.factor(Cluster4) 0.3766539 0.3766539
#Anova de los grupos con la variable hogares
anovahogar2<- aov(HOGNBI ~ as.factor(PCIA), bb)
summary(anovahogar2)
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(PCIA) 3 3236 1078.7 8.734 5.72e-05 ***
## Residuals 67 8275 123.5
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Mientras que el Eta cuadrado para las provincia es de
0.28.
#Eta de provincias vs nbi
library(lsr)
etaSquared(anovahogar2)
## eta.sq eta.sq.part
## as.factor(PCIA) 0.2811369 0.2811369
Si bien podemos afirmar que nuestros estratos performan bien y han
cummplido con la validación buscada, nuestra selección no es tan buena
como la de los autores siendo que el eta cuadrado de su segmentación
arroja un valor de 0.67 vs 0.37 del
nuestro.
A modo de conclusión podemos decir que nuestro abordaje ha perseguido los mismos objetivos expuestos por los autores. En primera instancia desarrollamos un análisis factorial determinando las variables latentes que se desprendían de las 25 variables observables. Si bien los factores se asemejaron, las cargas factoriales y el corte utilizado por los autores para incluir a las variables como significativas en cada factor fue diferente al nuestro. Sin embargo, los factores crearon variables latentes con explicaciones casi idénticas.
En segunda instancia, procedimos con un analisis factorial y probamos distintas pruebas para llegar a construir grupos homogeneos que puedan explicar los fenémenos. Los grupos propuestos fueron analizados, observados y comparados contra los estratos presentados por los autores. A pesar de la diferencia en el método, nuestro analisis de conglomerado jerarquico mediante el método de Ward arrivó a estratos que pudieron ser comparables a los de la propuesta del autor. No sucedió así con el intento de análisis no jerarquico que nos arrojó resultados completamente disímiles.
Finalmente, hemos comprobado la validez del análisis de cluster con que decidimos trabajar. A diferencia del resultado de los autores, nuestro ANOVA no performó tan bien pero sí discriminó correctamente al nivel de agrupar las variables relacionadas a las condiciones de pobreza de los departamentos de las provincias.
Dado que los modelos son siempre perfectibles, restaría probar nuevos modos de agrupar tanto a las variables como las observaciones. En nuestro caso, se podría reducir el número de factores a pesar de que la proporción de la variancia total explicada no sea alta. Así utilizaríamos esos factores para comprobar el modo en que esas dimensiones servirían para estratificar nuevamente a nuestras observaciones y crear agrupamientos que clasifiquen a nuestro problema.