library(readr)
bad_drivers <- read_csv("C:/Users/santi/Downloads/bad-drivers.csv")

Nota: Considerando la naturaleza del dataset empleado para el primer corte, el cual solamente contaba con dos variables cuantitativas, resulta imposible la realización de un análisis de componentes principales. En este orden de ideas, se decidió cambiar el conjunto de datos.

1 Introducción

El presente documento tiene como objetivo realizar un Análisis de Componentes Principales (ACP) sobre el conjunto de datos Bad Drivers, el cual recopila diversas variables asociadas a los accidentes automovilísticos y a las pólizas de seguro en diferentes estados de los Estados Unidos.

Para el desarrollo del análisis se emplearon las librerías FactoMineR, factoextra y gridExtra. Cabe aclarar que la variable State fue excluida del proceso de análisis debido a su naturaleza categórica, la cual resulta incompatible con la aplicación del ACP; no obstante, será considerada en la etapa de interpretación de los resultados.

2 Análisis de componentes principales

2.1 Número de Componentes

Para determinar el número de componentes a retener, se empleó el criterio de Kaiser, el cual establece que deben conservarse aquellas componentes cuyo valor propio (Eigenvalue) sea mayor que uno. Considerando este criterio, se mantuvieron las cuatro primeras componentes, las cuales conservaban el 75.11% de la varianza total.

ResumenD$eig
##        eigenvalue percentage of variance cumulative percentage of variance
## comp 1  1.7337583              24.767975                          24.76798
## comp 2  1.4146655              20.209508                          44.97748
## comp 3  1.0716389              15.309127                          60.28661
## comp 4  1.0376987              14.824266                          75.11088
## comp 5  0.8666743              12.381061                          87.49194
## comp 6  0.5428895               7.755565                          95.24750
## comp 7  0.3326748               4.752497                         100.00000

2.2 Definición de componentes

De acuerdo con Husson, Lê y Pagès (2017), se aplicó el criterio de la contribución promedio para identificar las variables que aportan de manera significativa a la definición de cada componente. Este criterio establece que una variable se considera relevante cuando contrib > 100/p, donde p corresponde al número total de variables. Las variables que cumplen esta condición son las que definen en mayor medida la orientación de cada componente principal. En este caso, dado que se trabajó con 7 variables, el nivel de relevancia corresponde a 14.28%. Por tanto, se consideran influyentes aquellas variables cuya contribución supere dicho valor en la componente analizada. En ese orden ideas,

La primera componente está relacionada principalmente con las variables Insurance premiums e Insurance losses, lo cual indica que esta dimensión representa aspectos asociados al costo y riesgo de las pólizas de seguro.
Por otro lado, la segunda componente está vinculada con las variables Pct Speeding y Pct Alcohol, y en menor medida con Pct no prev accidents, lo que sugiere que esta dimensión refleja los comportamientos de lops conductores previos al accidente, especialmente aquellos asociados con el exceso de velocidad y la conducción bajo los efectos del alcohol.
La tercera componente muestra una mayor relación con las variables Fatal collisions rate y Pct not distracted, lo cual podría interpretarse como un eje asociado a la atención del conductor y la severidad de los accidentes.
Finalmente, la cuarta componente está influenciada principalmente por las variables Pct speeding y Pct no prev accidents, lo que puede interpretarse como una dimensión vinculada al comportamiento preventivo o imprudente de los conductores.

ResumenD$var
## $coord
##                            Dim.1       Dim.2       Dim.3       Dim.4
## fatal_collisions_rate -0.3680242  0.06010548  0.64650574 -0.40854208
## pct_speeding          -0.1895010  0.55585151  0.08052884  0.70434559
## pct_alcohol           -0.4011048  0.64061667  0.37846577  0.02265490
## pct_not_distracted    -0.1890912  0.43224888 -0.59378405 -0.10513309
## pct_no_prev_accidents  0.3182195 -0.45291429  0.33425714  0.55136862
## insurance_premiums     0.7986659  0.43619031  0.04001134 -0.01373205
## insurance_losses       0.7916025  0.33084713  0.19503770 -0.24274922
##                             Dim.5
## fatal_collisions_rate  0.48015814
## pct_speeding           0.07823205
## pct_alcohol           -0.27749544
## pct_not_distracted     0.61333180
## pct_no_prev_accidents  0.41468759
## insurance_premiums     0.01248188
## insurance_losses       0.06856382
## 
## $cor
##                            Dim.1       Dim.2       Dim.3       Dim.4
## fatal_collisions_rate -0.3680242  0.06010548  0.64650574 -0.40854208
## pct_speeding          -0.1895010  0.55585151  0.08052884  0.70434559
## pct_alcohol           -0.4011048  0.64061667  0.37846577  0.02265490
## pct_not_distracted    -0.1890912  0.43224888 -0.59378405 -0.10513309
## pct_no_prev_accidents  0.3182195 -0.45291429  0.33425714  0.55136862
## insurance_premiums     0.7986659  0.43619031  0.04001134 -0.01373205
## insurance_losses       0.7916025  0.33084713  0.19503770 -0.24274922
##                             Dim.5
## fatal_collisions_rate  0.48015814
## pct_speeding           0.07823205
## pct_alcohol           -0.27749544
## pct_not_distracted     0.61333180
## pct_no_prev_accidents  0.41468759
## insurance_premiums     0.01248188
## insurance_losses       0.06856382
## 
## $cos2
##                            Dim.1       Dim.2       Dim.3        Dim.4
## fatal_collisions_rate 0.13544185 0.003612668 0.417969673 0.1669066306
## pct_speeding          0.03591062 0.308970903 0.006484895 0.4961027073
## pct_alcohol           0.16088504 0.410389722 0.143236342 0.0005132444
## pct_not_distracted    0.03575549 0.186839092 0.352579504 0.0110529658
## pct_no_prev_accidents 0.10126364 0.205131350 0.111727837 0.3040073500
## insurance_premiums    0.63786717 0.190261986 0.001600908 0.0001885691
## insurance_losses      0.62663445 0.109459824 0.038039706 0.0589271834
##                              Dim.5
## fatal_collisions_rate 0.2305518435
## pct_speeding          0.0061202529
## pct_alcohol           0.0770037166
## pct_not_distracted    0.3761758983
## pct_no_prev_accidents 0.1719657971
## insurance_premiums    0.0001557973
## insurance_losses      0.0047009975
## 
## $contrib
##                           Dim.1      Dim.2      Dim.3       Dim.4       Dim.5
## fatal_collisions_rate  7.812037  0.2553726 39.0028475 16.08430641 26.60190138
## pct_speeding           2.071259 21.8405618  0.6051381 47.80797460  0.70617681
## pct_alcohol            9.279555 29.0096640 13.3661019  0.04945987  8.88496593
## pct_not_distracted     2.062311 13.2072978 32.9009628  1.06514215 43.40452889
## pct_no_prev_accidents  5.840701 14.5003425 10.4258852 29.29630388 19.84203253
## insurance_premiums    36.791010 13.4492557  0.1493887  0.01817186  0.01797646
## insurance_losses      36.143127  7.7375055  3.5496759  5.67864123  0.54241800

2.3 Interpretación gráfico circulo de correlaciones

Considerando los valores de cos cuadrado y el gráfico del círculo de correlaciones se observa que las variables Insurance premiums y Insurance losses se proyectan fuertemente sobre el eje de la primera componente , con vectores largos y cercanos al borde del círculo. Esto indica que ambas variables están altamente correlacionadas con esta dimensión. Por otro lado, las variables Pct alcohol y Pct speeding se ubican en la parte superior izquierda del círculo, mostrando una fuerte asociación con la segunda componente . .

fviz_pca_var(ResumenD,
             axes = c(1, 2),
             col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             title = "Circulo de correlaciones - Componentes 1 y 2")

El plano definido por las dimensiones 1 y 3 explica el 40,1 % de la variabilidad total de los datos. Si bien la primera componente mantiene su asociación con las variables asociadas al costo y riesgo de las pólizas de seguro. —ya discutida en el plano anterior—, la tercera dimensión incorpora nuevas variables vinculadas con la severidad de los accidentes y la atención del conductor. En particular, las variables fatal_collisions_rate y pct_not_distracted presentan valores elevados de (cos²)

fviz_pca_var(ResumenD,
             axes = c(1, 3),
             col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             title = "Circulo de correlaciones - Componentes 1 y 3")

El plano definido por las dimensiones 1 y 4 representa el 39.6%. Si bien la primera componente mantiene su asociación con las variables asociadas al costo y riesgo de las pólizas de seguro. La cuarta componente está caracterizada principalmente por las variables Pct speeding y Pct no prev accidents, que presentan correlaciones positivas con este eje, mientras que variables como fatal collisions rate se asocian de forma negativa. Este patrón sugiere que la Dimensión 4 representa un contraste entre comportamientos.

fviz_pca_var(ResumenD,
             axes = c(1, 4),
             col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             title = "Circulo de correlaciones - Componentes 1 y 4")

2.4 Interpretación gráfico de nubes

Considerando la interpretación del plano formado por las dimensiones 1 y 2, y apoyándose en los valores de correlación, se observa que los estados ubicados en el cuadrante superior derecho (primer cuadrante) se caracterizan, en promedio, por presentar primas de seguro más elevadas y mayores pérdidas para las aseguradoras. Del mismo modo, estos estados tienden a registrar una mayor proporción de accidentes asociados al exceso de velocidad y a la conducción bajo los efectos del alcohol.

fviz_pca_ind(
  ResumenD,
  axes = c(1, 2),              
  geom.ind = "point",           
  col.ind = "cos2",             
  gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),  
  repel = TRUE,                 
  title = "Nube de individuos - Componentes 1 y 2"
)

Por otro lado, considerando la interpretación del plano definido por las dimensiones 1 y 3, y apoyándose en los valores de correlación, se observa que los estados ubicados en el cuadrante superior derecho (primer cuadrante) se caracterizan, en promedio, por presentar primas de seguro más elevadas y mayores pérdidas para las aseguradoras. Asimismo, estos estados tienden a registrar tasas de mortalidad por colisión más altas y mayores índices de distracción al conducir,

fviz_pca_ind(
  ResumenD,
  axes = c(1, 3),              
  geom.ind = "point",           
  col.ind = "cos2",             
  gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),  
  repel = TRUE,                 
  title = "Nube de individuos - Componentes 1 y 3"
)

Finalmente, considerando la interpretación del plano definido por las dimensiones 1 y 4, y apoyándose en los valores de correlación, Se contempla que los estados ubicados en el cuadrante superior derecho (primer cuadrante) se caracterizan, en promedio, por presentar primas de seguro más elevadas y mayores pérdidas para las aseguradoras. Asimismo, los accidentes registrados en estos estados tienden a involucrar a conductores sin antecedentes de accidentes, que exceden los límites de velocidad, pero cuya tasa de mortalidad es relativamente baja.

fviz_pca_ind(
  ResumenD,
  axes = c(1, 4),              
  geom.ind = "point",           
  col.ind = "cos2",             
  gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),  
  repel = TRUE,                 
  title = "Nube de individuos - Componentes 1 y 4"
)