1 Información general

El presente documento tiene como objetivo realizar un Análisis de Componentes Principales (ACP) sobre el conjunto de datos Boston Housing, el cual considera variables asociadas con aspectos socioeconómicos y ambientales.

Para el desarrollo del análisis se emplearon las librerías FactoMineR, Factoextra y gridExtra. Cabe aclarar que la variable chas fue excluida del análisis debido a su naturaleza categórica, la cual resulta incompatible con la aplicación del ACP.


2 Análisis de Componentes Principales

2.1 Número de componentes

Para determinar el número de componentes a retener, se empleó el criterio de Kaiser, el cual establece que deben conservarse aquellas componentes cuyo valor propio (Eigenvalue) sea mayor que uno. Considerando este criterio, se mantuvieron las tres primeras componentes, las cuales conservaban el 72.34% de la varianza total.

ResumenB$eig      # Varianza retenida
##         eigenvalue percentage of variance cumulative percentage of variance
## comp 1  6.54584988             50.3526914                          50.35269
## comp 2  1.52266177             11.7127828                          62.06547
## comp 3  1.33579036             10.2753105                          72.34078
## comp 4  0.86400373              6.6461825                          78.98697
## comp 5  0.66675157              5.1288582                          84.11583
## comp 6  0.53745686              4.1342835                          88.25011
## comp 7  0.40363954              3.1049196                          91.35503
## comp 8  0.27750369              2.1346438                          93.48967
## comp 9  0.25344519              1.9495784                          95.43925
## comp 10 0.21286161              1.6373970                          97.07665
## comp 11 0.18326459              1.4097276                          98.48638
## comp 12 0.13597784              1.0459834                          99.53236
## comp 13 0.06079336              0.4676412                         100.00000

2.2 Definición de componentes

Considerando las contribuciones de cada variable a las componentes, se observa que, considerando el criterio de contribución superior al promedio, la primera componente está asociada principalmente con las variables Indus,Nox,Age,Dis,Rad,Tax y lstat; lo cual indica que la primera componente está relacionada con accesibilidad y factores socioeconómicos y ambientales.Por otro lado, la segunda componente está asociada con variables como Rm,Medv,Ptratio,Dis, lo cual señala que la segunda componente está asociada con la calidad de vida y el nivel socioeconómico. Finalmente, la tercera componente está relacionada con Crim ,Zn ,Rad , Tax y B, lo cual implica la relación de está componentes con características de las propiedades y aspectos sociales.

ResumenB$var
## $coord
##              Dim.1       Dim.2       Dim.3       Dim.4       Dim.5
## crim     0.6197689 -0.01446304  0.47235773 -0.05810839  0.17378681
## zn      -0.6280820 -0.13800714  0.50192784 -0.28018017  0.29492318
## indus    0.8492383  0.14319220 -0.10126883  0.01730792  0.07673553
## nox      0.8322626  0.31951823 -0.11323060 -0.17975641  0.11413997
## rm      -0.5186712  0.65777462  0.28633979  0.17227096 -0.13689916
## age      0.7600605  0.30897871 -0.29873882 -0.07003425  0.02729940
## dis     -0.7631564 -0.45449368  0.27721620 -0.02178611  0.01696414
## rad      0.7762838  0.11023274  0.47901744  0.19810849  0.12650691
## tax      0.8289867  0.07430000  0.39404270  0.13406961  0.16688137
## ptratio  0.5310604 -0.40629489  0.07361527  0.65481022 -0.20535890
## b       -0.5030004 -0.03800389 -0.41949206  0.37260752  0.64591091
## lstat    0.7965953 -0.30330275 -0.13008695 -0.26816338  0.07838579
## medv    -0.6817838  0.60821605  0.08082994  0.13308472  0.03883851
## 
## $cor
##              Dim.1       Dim.2       Dim.3       Dim.4       Dim.5
## crim     0.6197689 -0.01446304  0.47235773 -0.05810839  0.17378681
## zn      -0.6280820 -0.13800714  0.50192784 -0.28018017  0.29492318
## indus    0.8492383  0.14319220 -0.10126883  0.01730792  0.07673553
## nox      0.8322626  0.31951823 -0.11323060 -0.17975641  0.11413997
## rm      -0.5186712  0.65777462  0.28633979  0.17227096 -0.13689916
## age      0.7600605  0.30897871 -0.29873882 -0.07003425  0.02729940
## dis     -0.7631564 -0.45449368  0.27721620 -0.02178611  0.01696414
## rad      0.7762838  0.11023274  0.47901744  0.19810849  0.12650691
## tax      0.8289867  0.07430000  0.39404270  0.13406961  0.16688137
## ptratio  0.5310604 -0.40629489  0.07361527  0.65481022 -0.20535890
## b       -0.5030004 -0.03800389 -0.41949206  0.37260752  0.64591091
## lstat    0.7965953 -0.30330275 -0.13008695 -0.26816338  0.07838579
## medv    -0.6817838  0.60821605  0.08082994  0.13308472  0.03883851
## 
## $cos2
##             Dim.1        Dim.2       Dim.3        Dim.4        Dim.5
## crim    0.3841135 0.0002091794 0.223121826 0.0033765854 0.0302018549
## zn      0.3944870 0.0190459716 0.251931560 0.0785009299 0.0869796803
## indus   0.7212056 0.0205040075 0.010255376 0.0002995640 0.0058883415
## nox     0.6926610 0.1020919013 0.012821169 0.0323123670 0.0130279316
## rm      0.2690198 0.4326674529 0.081990477 0.0296772823 0.0187413807
## age     0.5776919 0.0954678448 0.089244883 0.0049047968 0.0007452575
## dis     0.5824077 0.2065645072 0.076848823 0.0004746345 0.0002877819
## rad     0.6026166 0.0121512580 0.229457705 0.0392469732 0.0160039971
## tax     0.6872189 0.0055204898 0.155269646 0.0179746596 0.0278493928
## ptratio 0.2820251 0.1650755376 0.005419208 0.4287764290 0.0421722790
## b       0.2530094 0.0014442960 0.175973591 0.1388363675 0.4172009067
## lstat   0.6345641 0.0919925609 0.016922615 0.0719115973 0.0061443324
## medv    0.4648292 0.3699267627 0.006533479 0.0177115437 0.0015084301
## 
## $contrib
##             Dim.1       Dim.2      Dim.3       Dim.4       Dim.5
## crim     5.868046  0.01373775 16.7033566  0.39080681  4.52970138
## zn       6.026521  1.25083403 18.8601122  9.08571655 13.04529072
## indus   11.017754  1.34658976  0.7677384  0.03467161  0.88313876
## nox     10.581681  6.70483120  0.9598190  3.73984115  1.95394091
## rm       4.109776 28.41520432  6.1379749  3.43485581  2.81084914
## age      8.825316  6.26979982  6.6810546  0.56768236  0.11177439
## dis      8.897358 13.56601389  5.7530602  0.05493431  0.04316179
## rad      9.206086  0.79802739 17.1776734  4.54245414  2.40029388
## tax     10.498544  0.36255522 11.6238034  2.08039144  4.17687700
## ptratio  4.308457 10.84124793  0.4056930 49.62668725  6.32503636
## b        3.865188  0.09485337 13.1737432 16.06895464 62.57216745
## lstat    9.694143  6.04156240  1.2668616  8.32306561  0.92153250
## medv     7.101128 24.29474294  0.4891096  2.04993833  0.22623571

2.3 Interpretación gráfico circulo de correlaciones

Considerando los valores de cos² y siguiendo el criterio de calidad de representación propuesto por Husson, Lê y Pagès (2017) en Exploratory Multivariate Analysis by Example Using R, se evidencia que, para las dos primeras componentes, las variables indus, nox, rm, age, dis, rad, tax, lstat y medv presentan una buena calidad de representación (cos²acumulado ≥ 0.6).

fviz_pca_var(ResumenB,
             axes = c(1, 2),
             col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             title = "Circulo de correlaciones - Componentes 1 y 2")

Considerando las componentes uno y tres, y aplicando el criterio de calidad de representación basado en los valores de cos² (Husson, Lê y Pagès, 2017), se observa que las variables tax, rad, indus, nox, age, dis, zn, lstat y crim presentan los mayores niveles de representación, con valores de cos² acumulados superiores a 0.6.

fviz_pca_var(ResumenB,
             axes = c(1, 3),
             col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             title = "Circulo de correlaciones - Componentes 1 y 3")

## Interpretanción Nube de puntos Considerando las contribuciones de cada variable y su correlación con la primera componente, se observa que los barrios ubicados hacia el lado derecho del plano factorial, aunque cuentan con mayor accesibilidad a carreteras y proximidad a centros de empleo, presentan también altos niveles de contaminación asociados a la presencia de industrias. Asimismo, estas zonas se caracterizan por un bajo nivel socioeconómico y por la antigüedad de sus propiedades. Por su parte, los barrios ubicados hacia el lado izquierdo del plano factorial, a pesar de no contar con fácil accesibilidad a carreteras ni proximidad a centros de empleo, corresponden principalmente a zonas residenciales con un nivel socioeconómico elevado y propiedades relativamente nuevas. Por otro lado, en cuanto a la segunda componente, se evidencia que los barrios ubicados en la parte superior del eje se caracterizan por contar con viviendas de mayor tamaño, mayor valor de mercado y una mejor educación . En contraste, los barrios situados en la parte inferior presenta cercanía a los centros de empleo. En consecuencia, los barrios ubicados en el segundo cuadrante pueden considerarse los de mejores condiciones, ya que combinan buen nivel socioeconómico, mayor valor de las propiedades, baja contaminación y mejor calidad educativa.

fviz_pca_ind(
  ResumenB,
  axes = c(1, 2),              
  geom.ind = "point",           
  col.ind = "cos2",             
  gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),  
  repel = TRUE,                 
  title = "Nube de individuos - Componentes 1 y 2"
)

Considerando la caracterización de la componente tres, se observa que los barrios ubicados en la parte superior, presentan altos niveles de criminalidad, tasas impositivas elevadas ,zonas residenciales amplias, accesibilidad a carrateras y presencia baja de población afroamericana.En contraste, los ubicados en la parte inferior se caracterizan por ser barrios con menor criminalidad y mayor diversidad racial. En consecuencia, los barrios ubicados en el tercer cuadrante pueden considerarse los de mejores condiciones, ya que combinan buen nivel socioeconómico y bajo indice de criminalidad.

fviz_pca_ind(
  ResumenB,
  axes = c(1,3),            
  geom.ind = "point",        
  col.ind = "cos2",             
  gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), 
  repel = TRUE,                 
  title = "Nube de individuos - Componentes 1 y 3"
)