Nota: Considerando la naturaleza del dataset empleado para el primer corte, el cual solamente contaba con dos variables cuantitativas, resulta imposible la realización de un análisis de componentes principales. En este orden de ideas, se decidió cambiar el conjunto de datos.
El presente documento tiene como objetivo realizar un Análisis de Componentes Principales (ACP) sobre el conjunto de datos Bad Drivers, el cual recopila diversas variables asociadas a los accidentes automovilísticos y a las pólizas de seguro en diferentes estados de los Estados Unidos.
Para el desarrollo del análisis se emplearon las librerías FactoMineR, factoextra y gridExtra. Cabe aclarar que la variable State fue excluida del proceso de análisis debido a su naturaleza categórica, la cual resulta incompatible con la aplicación del ACP; no obstante, será considerada en la etapa de interpretación de los resultados.
Para determinar el número de componentes a retener, se empleó el criterio de Kaiser, el cual establece que deben conservarse aquellas componentes cuyo valor propio (Eigenvalue) sea mayor que uno. Considerando este criterio, se mantuvieron las cuatro primeras componentes, las cuales conservaban el 75.11% de la varianza total.
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 1.7337583 24.767975 24.76798
## comp 2 1.4146655 20.209508 44.97748
## comp 3 1.0716389 15.309127 60.28661
## comp 4 1.0376987 14.824266 75.11088
## comp 5 0.8666743 12.381061 87.49194
## comp 6 0.5428895 7.755565 95.24750
## comp 7 0.3326748 4.752497 100.00000
La primera componente está relacionada principalmente con las
variables Insurance premiums e Insurance
losses, lo cual indica que esta dimensión representa aspectos
asociados al costo y riesgo de las pólizas de seguro.
Por otro lado, la segunda componente está vinculada con las variables
Pct Speeding y Pct Alcohol, y en menor
medida con Pct no prev accidents, lo que sugiere que
esta dimensión refleja los comportamientos de lops conductores previos
al accidente, especialmente aquellos asociados con el exceso de
velocidad y la conducción bajo los efectos del alcohol.
La tercera componente muestra una mayor relación con
las variables Fatal collisions rate y Pct not
distracted, lo cual podría interpretarse como un eje asociado a
la atención del conductor y la severidad de los accidentes.
Finalmente, la cuarta componente está influenciada
principalmente por las variables Pct speeding y
Pct no prev accidents, lo que puede interpretarse como
una dimensión vinculada al comportamiento preventivo o imprudente de los
conductores.
## $coord
## Dim.1 Dim.2 Dim.3 Dim.4
## fatal_collisions_rate -0.3680242 0.06010548 0.64650574 -0.40854208
## pct_speeding -0.1895010 0.55585151 0.08052884 0.70434559
## pct_alcohol -0.4011048 0.64061667 0.37846577 0.02265490
## pct_not_distracted -0.1890912 0.43224888 -0.59378405 -0.10513309
## pct_no_prev_accidents 0.3182195 -0.45291429 0.33425714 0.55136862
## insurance_premiums 0.7986659 0.43619031 0.04001134 -0.01373205
## insurance_losses 0.7916025 0.33084713 0.19503770 -0.24274922
## Dim.5
## fatal_collisions_rate 0.48015814
## pct_speeding 0.07823205
## pct_alcohol -0.27749544
## pct_not_distracted 0.61333180
## pct_no_prev_accidents 0.41468759
## insurance_premiums 0.01248188
## insurance_losses 0.06856382
##
## $cor
## Dim.1 Dim.2 Dim.3 Dim.4
## fatal_collisions_rate -0.3680242 0.06010548 0.64650574 -0.40854208
## pct_speeding -0.1895010 0.55585151 0.08052884 0.70434559
## pct_alcohol -0.4011048 0.64061667 0.37846577 0.02265490
## pct_not_distracted -0.1890912 0.43224888 -0.59378405 -0.10513309
## pct_no_prev_accidents 0.3182195 -0.45291429 0.33425714 0.55136862
## insurance_premiums 0.7986659 0.43619031 0.04001134 -0.01373205
## insurance_losses 0.7916025 0.33084713 0.19503770 -0.24274922
## Dim.5
## fatal_collisions_rate 0.48015814
## pct_speeding 0.07823205
## pct_alcohol -0.27749544
## pct_not_distracted 0.61333180
## pct_no_prev_accidents 0.41468759
## insurance_premiums 0.01248188
## insurance_losses 0.06856382
##
## $cos2
## Dim.1 Dim.2 Dim.3 Dim.4
## fatal_collisions_rate 0.13544185 0.003612668 0.417969673 0.1669066306
## pct_speeding 0.03591062 0.308970903 0.006484895 0.4961027073
## pct_alcohol 0.16088504 0.410389722 0.143236342 0.0005132444
## pct_not_distracted 0.03575549 0.186839092 0.352579504 0.0110529658
## pct_no_prev_accidents 0.10126364 0.205131350 0.111727837 0.3040073500
## insurance_premiums 0.63786717 0.190261986 0.001600908 0.0001885691
## insurance_losses 0.62663445 0.109459824 0.038039706 0.0589271834
## Dim.5
## fatal_collisions_rate 0.2305518435
## pct_speeding 0.0061202529
## pct_alcohol 0.0770037166
## pct_not_distracted 0.3761758983
## pct_no_prev_accidents 0.1719657971
## insurance_premiums 0.0001557973
## insurance_losses 0.0047009975
##
## $contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## fatal_collisions_rate 7.812037 0.2553726 39.0028475 16.08430641 26.60190138
## pct_speeding 2.071259 21.8405618 0.6051381 47.80797460 0.70617681
## pct_alcohol 9.279555 29.0096640 13.3661019 0.04945987 8.88496593
## pct_not_distracted 2.062311 13.2072978 32.9009628 1.06514215 43.40452889
## pct_no_prev_accidents 5.840701 14.5003425 10.4258852 29.29630388 19.84203253
## insurance_premiums 36.791010 13.4492557 0.1493887 0.01817186 0.01797646
## insurance_losses 36.143127 7.7375055 3.5496759 5.67864123 0.54241800
Considerando los valores de cos cuadrado y el gráfico del círculo de correlaciones se observa que las variables Insurance premiums y Insurance losses se proyectan fuertemente sobre el eje de la primera componente , con vectores largos y cercanos al borde del círculo. Esto indica que ambas variables están altamente correlacionadas con esta dimensión. Por otro lado, las variables Pct alcohol y Pct speeding se ubican en la parte superior izquierda del círculo, mostrando una fuerte asociación con la segunda componente . .
fviz_pca_var(ResumenD,
axes = c(1, 2),
col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Circulo de correlaciones - Componentes 1 y 2")
El plano definido por las dimensiones 1 y 3 explica el 40,1 % de la variabilidad total de los datos. Si bien la primera componente mantiene su asociación con las variables asociadas al costo y riesgo de las pólizas de seguro. —ya discutida en el plano anterior—, la tercera dimensión incorpora nuevas variables vinculadas con la severidad de los accidentes y la atención del conductor. En particular, las variables fatal_collisions_rate y pct_not_distracted presentan valores elevados de (cos²)
fviz_pca_var(ResumenD,
axes = c(1, 3),
col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Circulo de correlaciones - Componentes 1 y 3")
El plano definido por las dimensiones 1 y 4 representa el 39.6%. Si bien la primera componente mantiene su asociación con las variables asociadas al costo y riesgo de las pólizas de seguro. La cuarta componente está caracterizada principalmente por las variables Pct speeding y Pct no prev accidents, que presentan correlaciones positivas con este eje, mientras que variables como fatal collisions rate se asocian de forma negativa. Este patrón sugiere que la Dimensión 4 representa un contraste entre comportamientos.
fviz_pca_var(ResumenD,
axes = c(1, 4),
col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Circulo de correlaciones - Componentes 1 y 4")
Considerando la interpretación del plano formado por las dimensiones 1 y 2, y apoyándose en los valores de correlación, se observa que los estados ubicados en el cuadrante superior derecho (primer cuadrante) se caracterizan, en promedio, por presentar primas de seguro más elevadas y mayores pérdidas para las aseguradoras. Del mismo modo, estos estados tienden a registrar una mayor proporción de accidentes asociados al exceso de velocidad y a la conducción bajo los efectos del alcohol.
fviz_pca_ind(
ResumenD,
axes = c(1, 2),
geom.ind = "point",
col.ind = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Nube de individuos - Componentes 1 y 2"
)
Por otro lado, considerando la interpretación del plano definido por las dimensiones 1 y 3, y apoyándose en los valores de correlación, se observa que los estados ubicados en el cuadrante superior derecho (primer cuadrante) se caracterizan, en promedio, por presentar primas de seguro más elevadas y mayores pérdidas para las aseguradoras. Asimismo, estos estados tienden a registrar tasas de mortalidad por colisión más altas y mayores índices de distracción al conducir,
fviz_pca_ind(
ResumenD,
axes = c(1, 3),
geom.ind = "point",
col.ind = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Nube de individuos - Componentes 1 y 3"
)
Finalmente, considerando la interpretación del plano definido por las
dimensiones 1 y 4, y apoyándose en los
valores de correlación, Se contempla que los estados
ubicados en el cuadrante superior derecho (primer cuadrante) se
caracterizan, en promedio, por presentar primas de seguro más
elevadas y mayores pérdidas para las
aseguradoras. Asimismo, los accidentes registrados en estos
estados tienden a involucrar a conductores sin antecedentes de
accidentes, que exceden los límites de velocidad, pero cuya tasa de
mortalidad es relativamente baja.
fviz_pca_ind(
ResumenD,
axes = c(1, 4),
geom.ind = "point",
col.ind = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Nube de individuos - Componentes 1 y 4"
)