Introducción

Se va a utilizar el archivo de datos visto en el curso de “Métodos estadísticos, regresión y diseño de experimentos” (laboratorio 7) con otro objetivo.

La base Vida.Rdata contiene información para los 50 estados de los Estados Unidos proporcionada por el US Bureau of the Census. A continuación se brinda una descripción de las variables:

Variable	Descripción
`esper`	Esperanza de vida en años (1969–71)
`pop`	Población al 1 de julio de 1975
`ingre`	Ingreso per cápita (1974)
`analf`	Porcentaje de la población analfabeta (1970)
`crim`	Tasa de criminalidad por 100 000 (1976)
`grad`	Porcentaje de graduados de secundaria (1970)
`temp`	Número promedio de días con temperatura mínima bajo 32 °F (1931–1960)
`area`	Extensión en millas cuadradas

Objetivo del análisis: reducir la cantidad de variables en un número menor de dimensiones mediante Análisis de Componentes Principales.

1 Estadísticas descriptivas

Cargue el archivo y realice un “Summary” para ver las estadísticas descriptivas.

1.1 Código

setwd("/Users/ld/Desktop/Maestría/NP_1602Introduccional AnalisisMultivariado/Tareas/T2")
load("Vida.RData")

datos <- as.data.frame(base)

summary(datos)

     esper            pop            ingre          analf      
 Min.   :67.96   Min.   :  365   Min.   :3098   Min.   :0.500  
 1st Qu.:70.12   1st Qu.: 1080   1st Qu.:3993   1st Qu.:0.625  
 Median :70.67   Median : 2838   Median :4519   Median :0.950  
 Mean   :70.88   Mean   : 4246   Mean   :4436   Mean   :1.170  
 3rd Qu.:71.89   3rd Qu.: 4968   3rd Qu.:4814   3rd Qu.:1.575  
 Max.   :73.60   Max.   :21198   Max.   :6315   Max.   :2.800  
      crim             grad            temp             area       
 Min.   : 1.400   Min.   :37.80   Min.   :  0.00   Min.   :  1049  
 1st Qu.: 4.350   1st Qu.:48.05   1st Qu.: 66.25   1st Qu.: 36985  
 Median : 6.850   Median :53.25   Median :114.50   Median : 54277  
 Mean   : 7.378   Mean   :53.11   Mean   :104.46   Mean   : 70736  
 3rd Qu.:10.675   3rd Qu.:59.15   3rd Qu.:139.75   3rd Qu.: 81162  
 Max.   :15.100   Max.   :67.30   Max.   :188.00   Max.   :566432

round(sapply(datos, var), 2)

       esper          pop        ingre        analf         crim         grad 
1.800000e+00 1.993168e+07 3.775733e+05 3.700000e-01 1.363000e+01 6.524000e+01 
        temp         area 
2.702010e+03 7.280748e+09

1.2 Interpretación

Al revisar las estadísticas descriptivas se identifican escalas muy diferentes entre las variables. Por ejemplo:

pop varía entre 365 y 21 198 (miles de personas), con una varianza de aproximadamente $1.99 \times 10^{7}$.
area varía entre 1 049 y 566 432 (millas cuadradas), con una varianza de aproximadamente $7.28 \times 10^{9}$.
analf varía entre 0.5 y 2.8 (porcentaje), con una varianza de apenas 0.37.
esper varía entre 67.96 y 73.60 (años), con una varianza de 1.80.

Estas diferencias de magnitud se reflejan en varianzas extremadamente desiguales. Si se utilizara la matriz de varianzas-covarianzas, variables como area y pop dominarían el análisis simplemente por su escala, no por su importancia real.

Por esta razón, al ejecutar el ACP se debe utilizar scale.unit = TRUE, lo cual estandariza las variables a media 0 y varianza 1, equivalente a trabajar con la matriz de correlaciones. Esto asegura que todas las variables contribuyan equitativamente al análisis.

2 ACP y selección de dimensiones

Genere un ACP e identifique cuantas dimensiones debo seleccionar.

2.1 Código

acp <- PCA(X = datos, scale.unit = TRUE, ncp = 8, graph = FALSE)

acp$eig

       eigenvalue percentage of variance cumulative percentage of variance
comp 1  3.5988956              44.986195                          44.98619
comp 2  1.6319192              20.398990                          65.38519
comp 3  1.1119412              13.899264                          79.28445
comp 4  0.7075042               8.843803                          88.12825
comp 5  0.3846417               4.808021                          92.93627
comp 6  0.3074617               3.843271                          96.77954
comp 7  0.1444488               1.805610                          98.58515
comp 8  0.1131877               1.414846                         100.00000

fviz_screeplot(acp, addlabels = TRUE, ylim = c(0, 45))

2.2 Criterios de selección

Se aplican los tres criterios vistos en clase para determinar cuántas dimensiones retener:

2.2.1 Criterio 1: Porcentaje de varianza acumulada

Hernández (1998) y Everitt y Hothorn (2011) sugieren retener componentes hasta acumular entre 70% y 90% de la varianza total. Se revisa en la columna cumulative percentage of variance de la tabla acp$eig cuántos componentes se necesitan para alcanzar ese umbral.

2.2.2 Criterio 2: Valor propio ($\lambda$) mayor a 1

Se retienen únicamente los componentes cuyo valor propio sea mayor a 1. La lógica es que, al trabajar con datos estandarizados, cada variable original aporta una varianza de 1; por tanto, un componente con $\lambda < 1$ explica menos varianza que una sola variable individual.

2.2.3 Criterio 3: Gráfico de sedimentación (codo)

Se identifica el punto donde la curva de valores propios deja de caer de forma pronunciada y se “aplana”. El número de componentes se selecciona en ese punto de inflexión.

# Se los valores propios para facilitar el análisis
cat("Valores propios (lambda):\n")

Valores propios (lambda):

round(acp$eig[, 1], 4)

comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7 comp 8 
3.5989 1.6319 1.1119 0.7075 0.3846 0.3075 0.1444 0.1132

cat("\n\nComponentes con lambda > 1:\n")



Componentes con lambda > 1:

sum(acp$eig[, 1] > 1)

[1] 3

cat("\n\nVarianza acumulada por componente:\n")



Varianza acumulada por componente:

round(acp$eig[, 3], 2)

comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7 comp 8 
 44.99  65.39  79.28  88.13  92.94  96.78  98.59 100.00

2.3 Decisión

Dado que se dispone de tres criterios, se evalúa la concordancia entre ellos:

A. El gráfico de sedimentación indica 3 componentes. La caída más fuerte se da entre los componentes 1 y 2, luego del 2 al 3 todavía hay una caída notable, y a partir del componente 3 hacia el 4 la curva se aplana, formando el codo.
B. El porcentaje de varianza acumulada con 3 componentes alcanza 79.3%, que se encuentra dentro del rango aceptable de 70–90%. Con solo 2 componentes se tendría 65.4%, que resulta insuficiente al no alcanzar el 70%.
C. El criterio del valor propio mayor a 1 indica 3 componentes: $\lambda_1 = 3.60$, $\lambda_2 = 1.63$ y $\lambda_3 = 1.11$. El cuarto componente ya cae a $\lambda_4 = 0.71$, por debajo del umbral.

Considerando que los tres criterios coinciden, se selecciona trabajar con 3 dimensiones para este análisis.

3 Interpretación de las dimensiones

Seleccione las dimensiones y genere hipótesis sobre cual podría ser su significado con la información que cuenta. Utilice el círculo de correlaciones y el porcentaje de contribución de las variables.

3.1 Código

# 1. Círculo de correlaciones (Dimensiones 1 y 2)

# Las flechas representan la correlación de cada variable con los componentes.
# - Flechas largas (cerca del borde): variable bien representada.
# - Flechas cortas (cerca del centro): variable mal representada.
# - Ángulo entre flechas: ~0° = alta correlación positiva,
#   ~90° = sin correlación, ~180° = correlación negativa.
fviz_pca_var(acp,
             col.var  = "contrib",       # Colorea según contribución
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel    = TRUE,            # Evita superposición de etiquetas
             axes     = c(1, 2))         # Dimensiones a graficar

# 2. Círculo de correlaciones (Dimensiones 1 y 3)


# Como se seleccionaron 3 dimensiones, también se genera el gráfico para los ejes 1 y 3 para visualizar la tercera dimensión retenida.
fviz_pca_var(acp,
             col.var  = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel    = TRUE,
             axes     = c(1, 3))

# 3. Correlaciones entre variables y componentes
round(acp$var$cor, 4)

        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6   Dim.7   Dim.8
esper  0.7809 -0.1043 -0.3795 -0.3723  0.2026  0.1215  0.0974  0.1774
pop   -0.2398  0.5249 -0.6921  0.3443  0.2518 -0.0059  0.0236 -0.0738
ingre  0.5669  0.6630 -0.1058  0.0744 -0.3954  0.2560 -0.0035  0.0203
analf -0.8872  0.0677  0.0748 -0.2968  0.0022  0.2148  0.2356 -0.1139
crim  -0.8428  0.3921  0.1144  0.1393 -0.0794 -0.1803  0.1121  0.2282
grad   0.8057  0.3817  0.0524 -0.1948 -0.0616 -0.3575  0.1494 -0.1034
temp   0.6780 -0.1962  0.4082  0.5204  0.1348  0.1179  0.1794  0.0095
area   0.0633  0.7507  0.5382 -0.1692  0.3092  0.0823 -0.1088  0.0044

# 4. Contribuciones porcentuales de las variables


# acp$var$contrib indica el porcentaje que cada variable aporta a la construcción de cada componente. Las columnas suman 100%.
round(acp$var$contrib, 2)

      Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
esper 16.94  0.67 12.96 19.59 10.67  4.80  6.56 27.82
pop    1.60 16.88 43.08 16.76 16.48  0.01  0.39  4.81
ingre  8.93 26.93  1.01  0.78 40.65 21.32  0.01  0.36
analf 21.87  0.28  0.50 12.45  0.00 15.01 38.42 11.47
crim  19.74  9.42  1.18  2.74  1.64 10.58  8.71 46.00
grad  18.04  8.93  0.25  5.36  0.99 41.56 15.45  9.44
temp  12.77  2.36 14.99 38.27  4.72  4.52 22.28  0.08
area   0.11 34.53 26.05  4.05 24.85  2.20  8.19  0.02

# Verificación
colSums(acp$var$contrib)

Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8 
  100   100   100   100   100   100   100   100

# 5. Calidad de representación de las variables (Cos2)

# en cada dimensión. La suma por fila de las dimensiones retenidas indica la calidad total de representación.
round(acp$var$cos2, 4)

       Dim.1  Dim.2  Dim.3  Dim.4  Dim.5  Dim.6  Dim.7  Dim.8
esper 0.6097 0.0109 0.1441 0.1386 0.0410 0.0148 0.0095 0.0315
pop   0.0575 0.2755 0.4790 0.1186 0.0634 0.0000 0.0006 0.0054
ingre 0.3214 0.4395 0.0112 0.0055 0.1564 0.0656 0.0000 0.0004
analf 0.7871 0.0046 0.0056 0.0881 0.0000 0.0461 0.0555 0.0130
crim  0.7103 0.1538 0.0131 0.0194 0.0063 0.0325 0.0126 0.0521
grad  0.6491 0.1457 0.0027 0.0379 0.0038 0.1278 0.0223 0.0107
temp  0.4597 0.0385 0.1666 0.2708 0.0182 0.0139 0.0322 0.0001
area  0.0040 0.5635 0.2897 0.0286 0.0956 0.0068 0.0118 0.0000

3.2 Interpretación

3.2.1 Dimensión 1 (45% de la varianza)

Según la tabla de contribuciones y el círculo de correlaciones, la dimensión 1 está compuesta principalmente por las siguientes variables:

Variable	Contribución	Correlación con Dim 1	Dirección
`analf`	21.87%	−0.8872	← Izquierda
`crim`	19.74%	−0.8428	← Izquierda
`grad`	18.04%	+0.8057	→ Derecha
`esper`	16.94%	+0.7809	→ Derecha
`temp`	12.77%	+0.6780	→ Derecha
`ingre`	8.93%	+0.5669	→ Derecha

Las cuatro variables principales suman el 76.6% de la contribución a esta dimensión. Las variables analf y crim cargan negativamente (hacia la izquierda), mientras que grad, esper, temp e ingre cargan positivamente (hacia la derecha).

Esto sugiere que esta dimensión puede interpretarse como un indicador de “desarrollo socioeconómico y calidad de vida”:

Derecha (valores positivos): estados con alta esperanza de vida, alto porcentaje de graduados, mayor ingreso per cápita, más días fríos y menor criminalidad. Son estados con mejores condiciones de vida.
Izquierda (valores negativos): estados con alto analfabetismo, alta criminalidad y baja esperanza de vida. Son estados con condiciones socioeconómicas más desfavorables.

La presencia de temp en el lado positivo refleja una asociación geográfica: los estados del sur de USA (más cálidos, con menos días bajo 32 °F) tienden históricamente a presentar mayores tasas de analfabetismo y criminalidad, mientras que los estados del norte (más fríos) presentan mejores indicadores socioeconómicos.

3.2.2 Dimensión 2 (20.4% de la varianza)

La dimensión 2 recibe su mayor aporte de:

Variable	Contribución	Correlación con Dim 2	Dirección
`area`	34.53%	+0.7507	↑ Arriba
`ingre`	26.93%	+0.6630	↑ Arriba
`pop`	16.88%	+0.5249	↑ Arriba

Las tres variables principales suman el 78.3% de la contribución. Todas cargan positivamente (hacia arriba).

Esto sugiere que esta dimensión puede interpretarse como un indicador de “tamaño y riqueza del estado”:

Arriba (valores positivos): estados con mayor extensión territorial, mayor ingreso per cápita y mayor población.
Abajo (valores negativos): estados pequeños, poco poblados y con menores ingresos.

3.2.3 Dimensión 3 (13.9% de la varianza)

La dimensión 3 recibe su mayor aporte de:

Variable	Contribución	Correlación con Dim 3	Dirección
`pop`	43.08%	−0.6921	Negativa
`area`	26.05%	+0.5382	Positiva
`temp`	14.99%	+0.4082	Positiva
`esper`	12.96%	−0.3795	Negativa

Destaca que pop y area tienen signos opuestos: pop carga negativamente y area positivamente. Esto separa estados extensos en territorio pero poco poblados, de estados compactos pero densamente poblados.

Esto sugiere que esta dimensión puede interpretarse como un indicador de “extensión vs. concentración poblacional” (densidad poblacional inversa):

Valores positivos: estados extensos y poco poblados (e.g., Montana, Wyoming).
Valores negativos: estados compactos pero densamente poblados (e.g., New York, California).

3.2.4 Relaciones entre variables (Círculo de correlaciones)

Del círculo de correlaciones y la matriz de correlaciones original se identifican las siguientes relaciones:

Correlaciones positivas (flechas en dirección similar):

analf y crim ($r = 0.703$): ambas apuntan hacia la izquierda del eje 1. Mayor analfabetismo se asocia con mayor criminalidad.
esper y grad ($r = 0.582$): ambas apuntan hacia la derecha. Mayor educación se asocia con mayor esperanza de vida.
grad e ingre ($r = 0.620$): ambas hacia la derecha. Mayor nivel educativo se asocia con mayores ingresos.

Correlaciones negativas (flechas en direcciones opuestas, ~180°):

esper y crim ($r = -0.781$): la correlación negativa más fuerte del dataset. Mayor criminalidad se asocia con menor esperanza de vida.
analf y grad ($r = -0.657$): mayor analfabetismo se asocia con menor porcentaje de graduados.
analf y temp ($r = -0.672$): estados más cálidos (menos días fríos) tienden a presentar mayor analfabetismo.

Correlaciones cercanas a cero (~90° en el gráfico):

area con esper ($r = -0.107$), analf ($r = 0.077$) y temp ($r = 0.059$): la extensión territorial es prácticamente independiente de las variables socioeconómicas. Esto se observa en el gráfico porque area apunta casi verticalmente, perpendicular a las variables del eje horizontal.
pop con esper ($r = -0.068$): el tamaño de la población no se relaciona con la esperanza de vida.

Estas relaciones pueden verificarse con la matriz de correlaciones original:

# Matriz de correlaciones entre variables originales
# Sirve para confirmar las relaciones observadas en el círculo
round(cor(datos), 3)

       esper    pop  ingre  analf   crim   grad   temp   area
esper  1.000 -0.068  0.340 -0.588 -0.781  0.582  0.262 -0.107
pop   -0.068  1.000  0.208  0.108  0.344 -0.098 -0.332  0.023
ingre  0.340  0.208  1.000 -0.437 -0.230  0.620  0.226  0.363
analf -0.588  0.108 -0.437  1.000  0.703 -0.657 -0.672  0.077
crim  -0.781  0.344 -0.230  0.703  1.000 -0.488 -0.539  0.228
grad   0.582 -0.098  0.620 -0.657 -0.488  1.000  0.367  0.334
temp   0.262 -0.332  0.226 -0.672 -0.539  0.367  1.000  0.059
area  -0.107  0.023  0.363  0.077  0.228  0.334  0.059  1.000

4 Gráfico de individuos y $\cos^2$

Genere los gráficos de individuos incluyendo el $\cos^2$. Por ahora no debe escribirlo, pero analice la ubicación de los individuos y la calidad de representación para discutir en la siguiente clase.

4.1 Código

# 1. Gráfico de individuos coloreados por Cos2

#   - Colores cálidos (rojo/naranja): bien representado en el plano.
#   - Colores fríos (azul): mal representado (su información "vive" en
#     dimensiones que no estamos graficando).
fviz_pca_ind(acp,
             geom.ind = c("point", "text"),
             col.ind  = "cos2",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel    = TRUE,
             axes     = c(1, 2))

# 2. Coordenadas de los individuos

# Estas son las posiciones de cada estado en el plano de componentes.
head(acp$ind$coord)

                Dim.1      Dim.2       Dim.3       Dim.4        Dim.5
Alabama    -3.8283643 -0.2371626  0.23164558 -0.38716014 -0.250063651
Alaska      1.0638275  5.5115692  4.28364318 -0.58151825  0.110240336
Arizona    -0.8762354  0.7526258  0.07805313 -1.73629384 -0.565437712
Arkansas   -2.4059587 -1.3014236  0.22505473 -0.62953449  0.654049735
California -0.2438321  3.5451534 -2.83493329  0.07109001  0.978401574
Colorado    2.0831177  0.5107976  0.51657601  0.11103857  0.002332019
                Dim.6       Dim.7      Dim.8
Alabama    -0.4385108 -0.05783264  0.5403472
Alaska      1.0114651 -0.30524293 -0.1196875
Arizona    -0.3080758 -0.13205156 -0.5298775
Arkansas    0.2613560 -0.03425425  0.4926747
California -0.6578999 -0.04577961 -0.2599951
Colorado   -0.2689292  0.65065916  0.3788240

# 3. Calidad de representación de los individuos (Cos2)

# Cos2 mide qué tan bien está representado cada individuo en cada dimensión.
# Es como una "fotografía" del espacio multidimensional: el cos2 indica (mencioando por el profe)
# si el punto quedó "de frente" (bien captado) o "de perfil" (mal captado).
head(acp$ind$cos2)

                 Dim.1       Dim.2       Dim.3        Dim.4        Dim.5
Alabama    0.947631874 0.003636683 0.003469454 0.0096915763 4.043098e-03
Alaska     0.022043977 0.591695208 0.357416092 0.0065867962 2.367165e-04
Arizona    0.151500884 0.111771675 0.001202138 0.5948672422 6.308748e-02
Arkansas   0.667717287 0.195368099 0.005842417 0.0457146434 4.934439e-02
California 0.002686673 0.567940867 0.363177349 0.0002283759 4.325809e-02
Colorado   0.786309306 0.047278485 0.048354205 0.0022341562 9.854391e-07
                 Dim.6        Dim.7        Dim.8
Alabama    0.012432935 2.162515e-04 0.0188781283
Alaska     0.019927341 1.814842e-03 0.0002790265
Arizona    0.018727891 3.440810e-03 0.0554018848
Arkansas   0.007879184 1.353459e-04 0.0279986287
California 0.019559275 9.470595e-05 0.0030546625
Colorado   0.013105142 7.671369e-02 0.0260040308

# 4. Evaluación: individuos con mala representación

# Calculamos la suma del cos2 para las dimensiones 1 y 2.
# Valores < 0.1 indican que el individuo NO está bien representado en el plano bidimensional.
Indi_SumCos2 <- acp$ind$cos2[, 1] + acp$ind$cos2[, 2]

# Individuos con mala representación (< 0.1)
cat("Individuos con cos2 sumado < 0.1 (mala representación):\n")

Individuos con cos2 sumado < 0.1 (mala representación):

sort(Indi_SumCos2[Indi_SumCos2 < 0.1])

      Hawaii Pennsylvania     Maryland         Ohio 
  0.01984127   0.02176080   0.06362508   0.08810179

# Distribución general del cos2 sumado
cat("\n\nDistribución del cos2 sumado (Dim 1 + Dim 2):\n")



Distribución del cos2 sumado (Dim 1 + Dim 2):

summary(Indi_SumCos2)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.01984 0.33523 0.60188 0.58132 0.86493 0.96367

# 5. Contribución de los individuos a los componentes

# Indica cuánto aporta cada estado a la construcción de cada componente.
# Las columnas suman 100%.
head(acp$ind$contrib)

                Dim.1       Dim.2       Dim.3      Dim.4        Dim.5     Dim.6
Alabama    8.14492818  0.06893244  0.09651531 0.42372319 3.251433e-01 1.2508335
Alaska     0.62893125 37.22904246 33.00462226 0.95593347 6.319092e-02 6.6548894
Arizona    0.42668002  0.69420780  0.01095794 8.52211547 1.662429e+00 0.6173825
Arkansas   3.21689651  2.07571972  0.09110128 1.12031468 2.224309e+00 0.4443283
California 0.03304019 15.40286091 14.45552528 0.01428624 4.977462e+00 2.8155206
Colorado   2.41150622  0.31976367  0.47997284 0.03485369 2.827728e-05 0.4704516
                Dim.7     Dim.8
Alabama    0.04630866 5.1591311
Alaska     1.29005251 0.2531213
Arizona    0.24143668 4.9611426
Arkansas   0.01624595 4.2889527
California 0.02901752 1.1944306
Colorado   5.86169545 2.5357455

4.2 Observaciones

La evaluación del $\cos^2$ sumado para las dimensiones 1 y 2 identifica 4 estados con valores por debajo de 0.1, lo que indica una mala representación en el plano bidimensional:

Estado	$\cos^2$ (Dim 1 + Dim 2)
Hawaii	0.020
Pennsylvania	0.022
Maryland	0.064
Ohio	0.088

La posición de estos estados en el gráfico no es confiable: su información real se encuentra principalmente en las dimensiones 3 o superiores. Al haber seleccionado 3 dimensiones, parte de la información de estos estados podría estar mejor representada al incluir la dimensión 3.

Estados bien representados (colores cálidos):

Mississippi (extremo izquierdo): $\cos^2$ alto en Dim 1. Presenta la criminalidad más alta (15.1), el mayor analfabetismo (2.8%) y la esperanza de vida más baja (67.96). Coherente con el extremo negativo de “desarrollo socioeconómico”.
Alabama, Louisiana, South Carolina: también a la izquierda, estados del sur con indicadores socioeconómicos desfavorables.
Alaska (extremo superior): $\cos^2$ alto en Dim 2. Mayor extensión territorial (566 432 mi²) y mayor ingreso per cápita (6 315 USD). Coherente con valores altos en “tamaño y riqueza”.
Minnesota, Iowa, North Dakota (extremo derecho): alta esperanza de vida, bajo analfabetismo y alto porcentaje de graduados. Coherentes con valores positivos en “desarrollo socioeconómico”.

Estados atípicos: Alaska se separa dramáticamente del grupo por su combinación extrema de gran extensión, poca población y alto ingreso. California y Texas también se alejan por su gran población y extensión.

5 Biplot

Genere el biplot con las dimensiones 1 y 2. Por ahora no debe escribirlo, pero analice según la interpretación de las dimensiones que hizo, algunos estados que se encuentren en diferentes cuadrantes y verifíquelo con algunos datos de las variables originales.

5.1 Código

# 1. Biplot: individuos + variables en un mismo plano

# El biplot superpone los estados (puntos) con las variables (flechas)
# en un mismo gráfico. Esto permite interpretar POR QUÉ un estado
# se ubica donde está, según la dirección de las flechas de las variables.
fviz_pca_biplot(acp,
                geom.ind  = c("point", "text"),
                col.ind   = "cos2",
                gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
                col.var   = "black",
                repel     = TRUE,
                axes      = c(1, 2))

# 2. Verificación con datos originales

# Cuadrante superior derecho (alto desarrollo + estado grande/rico)
cat("=== Cuadrante superior derecho ===\n")

=== Cuadrante superior derecho ===

datos[row.names(datos) == "Nevada", ]

       esper pop ingre analf crim grad temp   area
Nevada 69.03 590  5149   0.5 11.5 65.2  188 109889

datos[row.names(datos) == "Wyoming", ]

        esper pop ingre analf crim grad temp  area
Wyoming 70.29 376  4566   0.6  6.9 62.9  173 97203

datos[row.names(datos) == "Colorado", ]

         esper  pop ingre analf crim grad temp   area
Colorado 72.06 2541  4884   0.7  6.8 63.9  166 103766

# Cuadrante inferior izquierdo (bajo desarrollo + estado pequeño/pobre)
cat("\n=== Cuadrante inferior izquierdo ===\n")


=== Cuadrante inferior izquierdo ===

datos[row.names(datos) == "Mississippi", ]

            esper  pop ingre analf crim grad temp  area
Mississippi 68.09 2341  3098   2.4 12.5   41   50 47296

datos[row.names(datos) == "South Carolina", ]

               esper  pop ingre analf crim grad temp  area
South Carolina 67.96 2816  3635   2.3 11.6 37.8   65 30225

datos[row.names(datos) == "Arkansas", ]

         esper  pop ingre analf crim grad temp  area
Arkansas 70.66 2110  3378   1.9 10.1 39.9   65 51945

# Cuadrante superior izquierdo (bajo desarrollo + estado grande/poblado)
cat("\n=== Cuadrante superior izquierdo ===\n")


=== Cuadrante superior izquierdo ===

datos[row.names(datos) == "Texas", ]

      esper   pop ingre analf crim grad temp   area
Texas  70.9 12237  4188   2.2 12.2 47.4   35 262134

datos[row.names(datos) == "California", ]

           esper   pop ingre analf crim grad temp   area
California 71.71 21198  5114   1.1 10.3 62.6   20 156361

# Cuadrante inferior derecho (alto desarrollo + estado pequeño)
cat("\n=== Cuadrante inferior derecho ===\n")


=== Cuadrante inferior derecho ===

datos[row.names(datos) == "Maine", ]

      esper  pop ingre analf crim grad temp  area
Maine 70.39 1058  3694   0.7  2.7 54.7  161 30920

datos[row.names(datos) == "Vermont", ]

        esper pop ingre analf crim grad temp area
Vermont 71.64 472  3907   0.6  5.5 57.1  168 9267

datos[row.names(datos) == "South Dakota", ]

             esper pop ingre analf crim grad temp  area
South Dakota 72.08 681  4167   0.5  1.7 53.3  172 75955

5.2 Observaciones

Considerando que la dimensión 1 (eje horizontal) representa el “desarrollo socioeconómico y calidad de vida” y la dimensión 2 (eje vertical) representa el “tamaño y riqueza del estado”, se analizan los cuadrantes del biplot:

Cuadrante superior derecho (alto desarrollo + estado grande/rico): Se ubican estados como Nevada, Wyoming y Colorado. Presentan buenos indicadores socioeconómicos (bajo analfabetismo, aceptable esperanza de vida, buen porcentaje de graduados), y al mismo tiempo poseen extensiones territoriales considerables e ingresos relativamente altos.

Cuadrante inferior izquierdo (bajo desarrollo + estado pequeño/menos rico): Se ubican estados como Mississippi, South Carolina y Arkansas. Mississippi presenta la esperanza de vida más baja (67.96), el analfabetismo más alto (2.8%) y la criminalidad más alta (15.1). Son estados del sur con menor extensión y condiciones socioeconómicas desfavorables.

Cuadrante superior izquierdo (bajo desarrollo + estado grande/poblado): Se ubican estados como Texas y California. Texas tiene una población alta (12 237), gran extensión (262 134 mi²), pero también alta criminalidad (12.7) y alto analfabetismo (2.2). Son estados grandes y poblados, pero con indicadores socioeconómicos mixtos o moderados-bajos.

Cuadrante inferior derecho (alto desarrollo + estado pequeño): Se ubican estados como Maine, Vermont y South Dakota. Vermont presenta baja criminalidad (5.5), bajo analfabetismo (0.6%) y alta esperanza de vida (71.64), pero es un estado pequeño en extensión y población. Son estados con alta calidad de vida pero dimensiones reducidas.

Verificación con estados en esquinas opuestas:

Mississippi (extremo inferior-izquierdo): esperanza de vida 67.96 (la más baja), analfabetismo 2.8% (el más alto), criminalidad 15.1 (la más alta). Coherente con valores negativos extremos en Dim 1.
Minnesota (extremo derecho): esperanza de vida 72.96 (alta), analfabetismo 0.6% (bajo), criminalidad 2.3 (baja). Coherente con valores positivos en Dim 1.
Alaska (extremo superior): extensión 566 432 mi² (la mayor), ingreso 6 315 USD (el mayor), población 365 (la menor). Se dispara en Dim 2 mientras su posición en Dim 1 es cercana a cero, reflejando indicadores socioeconómicos mixtos.

23/03/2026 07:28

TAREA 2: Práctica ACP.

NP-1602 Introducción al Análisis Multivariado

Luis Diego Chavarría Brenes

23/03/2026