El presente documento tiene como objetivo realizar un Análisis de Componentes Principales (ACP) sobre el conjunto de datos Boston Housing, el cual considera variables asociadas con aspectos socioeconómicos y ambientales.
Para el desarrollo del análisis se emplearon las librerías FactoMineR, Factoextra y gridExtra. Cabe aclarar que la variable chas fue excluida del análisis debido a su naturaleza categórica, la cual resulta incompatible con la aplicación del ACP.
Para determinar el número de componentes a retener, se empleó el criterio de Kaiser, el cual establece que deben conservarse aquellas componentes cuyo valor propio (Eigenvalue) sea mayor que uno. Considerando este criterio, se mantuvieron las tres primeras componentes, las cuales conservaban el 72.34% de la varianza total.
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 6.54584988 50.3526914 50.35269
## comp 2 1.52266177 11.7127828 62.06547
## comp 3 1.33579036 10.2753105 72.34078
## comp 4 0.86400373 6.6461825 78.98697
## comp 5 0.66675157 5.1288582 84.11583
## comp 6 0.53745686 4.1342835 88.25011
## comp 7 0.40363954 3.1049196 91.35503
## comp 8 0.27750369 2.1346438 93.48967
## comp 9 0.25344519 1.9495784 95.43925
## comp 10 0.21286161 1.6373970 97.07665
## comp 11 0.18326459 1.4097276 98.48638
## comp 12 0.13597784 1.0459834 99.53236
## comp 13 0.06079336 0.4676412 100.00000
Considerando las contribuciones de cada variable a las componentes, se observa que, considerando el criterio de contribución superior al promedio, la primera componente está asociada principalmente con las variables Indus,Nox,Age,Dis,Rad,Tax y lstat; lo cual indica que la primera componente está relacionada con accesibilidad y factores socioeconómicos y ambientales.Por otro lado, la segunda componente está asociada con variables como Rm,Medv,Ptratio,Dis, lo cual señala que la segunda componente está asociada con la calidad de vida y el nivel socioeconómico. Finalmente, la tercera componente está relacionada con Crim ,Zn ,Rad , Tax y B, lo cual implica la relación de está componentes con características de las propiedades y aspectos sociales.
## $coord
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## crim 0.6197689 -0.01446304 0.47235773 -0.05810839 0.17378681
## zn -0.6280820 -0.13800714 0.50192784 -0.28018017 0.29492318
## indus 0.8492383 0.14319220 -0.10126883 0.01730792 0.07673553
## nox 0.8322626 0.31951823 -0.11323060 -0.17975641 0.11413997
## rm -0.5186712 0.65777462 0.28633979 0.17227096 -0.13689916
## age 0.7600605 0.30897871 -0.29873882 -0.07003425 0.02729940
## dis -0.7631564 -0.45449368 0.27721620 -0.02178611 0.01696414
## rad 0.7762838 0.11023274 0.47901744 0.19810849 0.12650691
## tax 0.8289867 0.07430000 0.39404270 0.13406961 0.16688137
## ptratio 0.5310604 -0.40629489 0.07361527 0.65481022 -0.20535890
## b -0.5030004 -0.03800389 -0.41949206 0.37260752 0.64591091
## lstat 0.7965953 -0.30330275 -0.13008695 -0.26816338 0.07838579
## medv -0.6817838 0.60821605 0.08082994 0.13308472 0.03883851
##
## $cor
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## crim 0.6197689 -0.01446304 0.47235773 -0.05810839 0.17378681
## zn -0.6280820 -0.13800714 0.50192784 -0.28018017 0.29492318
## indus 0.8492383 0.14319220 -0.10126883 0.01730792 0.07673553
## nox 0.8322626 0.31951823 -0.11323060 -0.17975641 0.11413997
## rm -0.5186712 0.65777462 0.28633979 0.17227096 -0.13689916
## age 0.7600605 0.30897871 -0.29873882 -0.07003425 0.02729940
## dis -0.7631564 -0.45449368 0.27721620 -0.02178611 0.01696414
## rad 0.7762838 0.11023274 0.47901744 0.19810849 0.12650691
## tax 0.8289867 0.07430000 0.39404270 0.13406961 0.16688137
## ptratio 0.5310604 -0.40629489 0.07361527 0.65481022 -0.20535890
## b -0.5030004 -0.03800389 -0.41949206 0.37260752 0.64591091
## lstat 0.7965953 -0.30330275 -0.13008695 -0.26816338 0.07838579
## medv -0.6817838 0.60821605 0.08082994 0.13308472 0.03883851
##
## $cos2
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## crim 0.3841135 0.0002091794 0.223121826 0.0033765854 0.0302018549
## zn 0.3944870 0.0190459716 0.251931560 0.0785009299 0.0869796803
## indus 0.7212056 0.0205040075 0.010255376 0.0002995640 0.0058883415
## nox 0.6926610 0.1020919013 0.012821169 0.0323123670 0.0130279316
## rm 0.2690198 0.4326674529 0.081990477 0.0296772823 0.0187413807
## age 0.5776919 0.0954678448 0.089244883 0.0049047968 0.0007452575
## dis 0.5824077 0.2065645072 0.076848823 0.0004746345 0.0002877819
## rad 0.6026166 0.0121512580 0.229457705 0.0392469732 0.0160039971
## tax 0.6872189 0.0055204898 0.155269646 0.0179746596 0.0278493928
## ptratio 0.2820251 0.1650755376 0.005419208 0.4287764290 0.0421722790
## b 0.2530094 0.0014442960 0.175973591 0.1388363675 0.4172009067
## lstat 0.6345641 0.0919925609 0.016922615 0.0719115973 0.0061443324
## medv 0.4648292 0.3699267627 0.006533479 0.0177115437 0.0015084301
##
## $contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## crim 5.868046 0.01373775 16.7033566 0.39080681 4.52970138
## zn 6.026521 1.25083403 18.8601122 9.08571655 13.04529072
## indus 11.017754 1.34658976 0.7677384 0.03467161 0.88313876
## nox 10.581681 6.70483120 0.9598190 3.73984115 1.95394091
## rm 4.109776 28.41520432 6.1379749 3.43485581 2.81084914
## age 8.825316 6.26979982 6.6810546 0.56768236 0.11177439
## dis 8.897358 13.56601389 5.7530602 0.05493431 0.04316179
## rad 9.206086 0.79802739 17.1776734 4.54245414 2.40029388
## tax 10.498544 0.36255522 11.6238034 2.08039144 4.17687700
## ptratio 4.308457 10.84124793 0.4056930 49.62668725 6.32503636
## b 3.865188 0.09485337 13.1737432 16.06895464 62.57216745
## lstat 9.694143 6.04156240 1.2668616 8.32306561 0.92153250
## medv 7.101128 24.29474294 0.4891096 2.04993833 0.22623571
Considerando los valores de cos² y siguiendo el criterio de calidad de representación propuesto por Husson, Lê y Pagès (2017) en Exploratory Multivariate Analysis by Example Using R, se evidencia que, para las dos primeras componentes, las variables indus, nox, rm, age, dis, rad, tax, lstat y medv presentan una buena calidad de representación (cos²acumulado ≥ 0.6).
fviz_pca_var(ResumenB,
axes = c(1, 2),
col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Circulo de correlaciones - Componentes 1 y 2")
Considerando las componentes uno y tres, y aplicando el criterio de calidad de representación basado en los valores de cos² (Husson, Lê y Pagès, 2017), se observa que las variables tax, rad, indus, nox, age, dis, zn, lstat y crim presentan los mayores niveles de representación, con valores de cos² acumulados superiores a 0.6.
fviz_pca_var(ResumenB,
axes = c(1, 3),
col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Circulo de correlaciones - Componentes 1 y 3")
## Interpretanción Nube de puntos Considerando las contribuciones de
cada variable y su correlación con la primera componente, se observa que
los barrios ubicados hacia el lado derecho del plano factorial, aunque
cuentan con mayor accesibilidad a carreteras y proximidad a centros de
empleo, presentan también altos niveles de contaminación asociados a la
presencia de industrias. Asimismo, estas zonas se caracterizan por un
bajo nivel socioeconómico y por la antigüedad de sus propiedades. Por su
parte, los barrios ubicados hacia el lado izquierdo del plano factorial,
a pesar de no contar con fácil accesibilidad a carreteras ni proximidad
a centros de empleo, corresponden principalmente a zonas residenciales
con un nivel socioeconómico elevado y propiedades relativamente nuevas.
Por otro lado, en cuanto a la segunda componente, se evidencia que los
barrios ubicados en la parte superior del eje se caracterizan por contar
con viviendas de mayor tamaño, mayor valor de mercado y una mejor
educación . En contraste, los barrios situados en la parte inferior
presenta cercanía a los centros de empleo. En consecuencia, los barrios
ubicados en el segundo cuadrante pueden considerarse los de mejores
condiciones, ya que combinan buen nivel socioeconómico, mayor valor de
las propiedades, baja contaminación y mejor calidad educativa.
fviz_pca_ind(
ResumenB,
axes = c(1, 2),
geom.ind = "point",
col.ind = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Nube de individuos - Componentes 1 y 2"
)
Considerando la caracterización de la componente tres, se observa que
los barrios ubicados en la parte superior, presentan altos niveles de
criminalidad, tasas impositivas elevadas ,zonas residenciales amplias,
accesibilidad a carrateras y presencia baja de población
afroamericana.En contraste, los ubicados en la parte inferior se
caracterizan por ser barrios con menor criminalidad y mayor diversidad
racial. En consecuencia, los barrios ubicados en el tercer cuadrante
pueden considerarse los de mejores condiciones, ya que combinan buen
nivel socioeconómico y bajo indice de criminalidad.
fviz_pca_ind(
ResumenB,
axes = c(1,3),
geom.ind = "point",
col.ind = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Nube de individuos - Componentes 1 y 3"
)