Fase 1 [Descripciones Multivariantes]

1.1. Objetivos

El objetivo de este proyecto es aplicar técnicas de análisis multivariado para gestionar el conjunto de datos aprobado, correspondiente a registros relacionados con predicción de precios de vehículos usados. El propósito es organizar y procesar eficazmente la información, desarrollando habilidades en la gestión y análisis de datos. Este trabajo se enmarca dentro del curso de Gestión de Datos, dictado por el Profesor Giancarlo Libreros Londoño en la Universidad del Valle.

1.2. Descripción de los datos

El conjunto de datos fue obtenido en su totalidad de Kaggle: (https://www.kaggle.com/datasets/metawave/vehicle-price-prediction) Kaggle es una plataforma en línea de ciencia de datos y aprendizaje automático, propiedad de Google LLC. Esta facilita la participación en competencias donde las empresas publican conjuntos de datos y problemas, permitiendo a los usuarios desarrollar modelos predictivos y competir. La plataforma también ofrece notebooks para compartir y colaborar en proyectos utilizando Python y R, así como una amplia colección de conjuntos de datos de acceso público. Además, Kaggle Learn, una sección de la plataforma dedicada a la educación y el aprendizaje en ciencia de datos y aprendizaje automático proporciona tutoriales y cursos interactivos en temas como Python, SQL, visualización de datos y aprendizaje automático, dirigidos a principiantes y usuarios avanzados.

Este conjunto de datos se relaciona con diversas áreas de la ingeniería industrial, debido a que su desarrollo y análisis implican la aplicación de principios propios de la disciplina. En primer lugar, se vincula con la estadística y el análisis de datos(2.operations research y analysis), al emplear métodos estadísticos para estudiar la información y generar modelos predictivos precisos. También, se asocia con la gestión de la calidad (5.quality y reliability engineering), porque garantiza que los datos sean coherentes, completos y confiables. Asimismo, interviene la investigación de operaciones (7.operations engineering y management), que permite optimizar los algoritmos utilizados para estimar los precios de manera eficiente. En cuanto al análisis económico de ingeniería (3.engineering economic analysis), se ve reflejado en el análisis de la rentabilidad y la depreciación de los vehículos a lo largo del tiempo,también,se ve representado en el estudio del kilometraje y la antigüedad como factores que influyen en el precio de los automóviles. Adicionalmente, el estudio se relaciona con la gestión de proyectos (9.engineering managemet), al requerir una planeación estructurada para el desarrollo y ejecución del script generador de los datos. De igual manera, los sistemas de información (11.information engineering) desempeñan un papel fundamental en el almacenamiento, organización y procesamiento de los registros, de igual manera, se evidencia en el uso de herramientas computacionales como Python, que permiten crear soluciones automatizadas y aplicables al entorno industrial.

Según la descripción del conjunto de datos elegido en la plataforma kaggle, este fue diseñado con el propósito de crear una base sólida para el entrenamiento de modelos de predicción de precios automotrices de alta precisión. Contiene un total de 1.000.000 registros que representan una amplia variedad de marcas, modelos y especificaciones, abarcando 25 de las marcas más comunes en el mercado automotor. Cada registro fue construido considerando relaciones y distribuciones realistas entre las características del vehículo y su valor comercial, con el fin de reflejar comportamientos observables en contextos reales de compraventa. La lógica implementada en la generación de los datos contempla factores como la depreciación, el desgaste y el precio de marca. En primer lugar, la depreciación se modela como la principal variable que determina la reducción del precio con el paso del tiempo, siguiendo una curva de declive de tipo exponencial. En segundo lugar, el desgaste se asocia directamente con el kilometraje, el cual se correlaciona con la antigüedad del vehículo y ejerce un efecto negativo sobre el precio final. Finalmente, el precio de la marca actúa como una variable de referencia que refleja el posicionamiento del mercado de cada marca en el mundo real. (tipo_de_variable::escala_de_medición[ordenamiento]):

  • kilometraje (cuantitativa::razón): Representa la distancia total recorrida por el vehículo desde su fabricación hasta la fecha del registro, medida en kilómetros.

  • kilometraje_por_año (cuantitativa::razón): Esta variable expresa el promedio de kilómetros recorridos anualmente por el vehículo. Se obtiene dividiendo el kilometraje total entre la edad del automóvil.

  • numero_de_propietarios_anteriores (cuantitativa::razón): Indica cuántas personas han sido dueñas del vehículo antes del registro actual.

  • edad_del_vehículo (cuantitativa::razón): Corresponde al número de años transcurridos desde la fecha de fabricación del vehículo hasta la actualidad.

  • precio (cuantitativa::razón): Expresa el precio actual estimado del vehículo en el mercado de usados.

  • transmision (cualitativa::nominal): Describe el tipo de sistema de cambio de marchas del vehículo, codificado como 1 para transmisión manual y 0 para automática. Esta es la variable de decisión que se identifica en este conjunto.

  • marca_del_vehiculo (cualitativa::nominal): Identifica el nombre del fabricante del automóvil.

  • año_de_fabricacion (cuantitativa::razón): Indica el año calendario en el que el vehículo fue producido.

  • color_exterior (cualitativa::nominal): Hace referencia al color visible de la carrocería del vehículo.

  • tipo_de_combustible (cualitativa::nominal): Especifica el tipo de energía que utiliza el vehículo para su funcionamiento. Los valores comunes incluyen gasolina, diésel, híbrido y eléctrico.

Estructura del Conjunto de Datos ETL

str(vehicle_price_prediction_modificado_MUESTREADO20K_ETL)
## tibble [19,798 × 10] (S3: tbl_df/tbl/data.frame)
##  $ marca_vehiculo     : chr [1:19798] "Volkswagen" "Volkswagen" "Ford" "Jeep" ...
##  $ anho_de_fabricacion: num [1:19798] 2025 2018 2016 2023 2025 ...
##  $ kilometraje        : num [1:19798] 4725 99451 217580 51777 2874 ...
##  $ transmision        : chr [1:19798] "automatico" "automatico" "automatico" "manual" ...
##  $ tipo_de_combustible: chr [1:19798] "Electric" "Electric" "Electric" "Gasoline" ...
##  $ color_exterior     : chr [1:19798] "Gray" "Gray" "Black" "Gray" ...
##  $ cant_propietarios  : num [1:19798] 1 2 4 1 1 2 3 5 1 5 ...
##  $ antiguedad_vehiculo: num [1:19798] 1 7 9 2 1 7 5 15 3 9 ...
##  $ kilometraje_anual  : num [1:19798] 4725 14207 24176 25888 2874 ...
##  $ precio             : num [1:19798] 26141 13007 5962 29662 36614 ...

Conjunto de Datos Original Depurado

vehicle_price_prediction_modificado_MUESTREADO20K_ETL
## # A tibble: 19,798 × 10
##    marca_vehiculo anho_de_fabricacion kilometraje transmision
##    <chr>                        <dbl>       <dbl> <chr>      
##  1 Volkswagen                    2025        4725 automatico 
##  2 Volkswagen                    2018       99451 automatico 
##  3 Ford                          2016      217580 automatico 
##  4 Jeep                          2023       51777 manual     
##  5 Chrysler                      2025        2874 manual     
##  6 Mercedes-Benz                 2018       94706 manual     
##  7 Cadillac                      2020       19868 automatico 
##  8 Porsche                       2010      147189 manual     
##  9 Jeep                          2022       47750 automatico 
## 10 Jeep                          2016      133025 manual     
## # ℹ 19,788 more rows
## # ℹ 6 more variables: tipo_de_combustible <chr>, color_exterior <chr>,
## #   cant_propietarios <dbl>, antiguedad_vehiculo <dbl>,
## #   kilometraje_anual <dbl>, precio <dbl>

1.3. Estimaciones multivariadas

El vector de medias y la matriz de varianzas-covarianzas conforman un conjunto de herramientas fundamentales para describir el comportamiento posicional, dispersivo y correlacional de las variables aleatorias en un conjunto de datos. Estas medidas son esenciales en el análisis multivariado, ya que permiten capturar tanto la tendencia central como las interdependencias entre las variables.

El vector de medias refleja el valor esperado o punto medio de cada variable, sintetizando la información de todos los registros disponibles en el conjunto de datos. Por su parte, la matriz de varianzas-covarianzas describe la variabilidad y las relaciones entre las variables. En su diagonal principal, estima las dispersiones individuales de cada variable respecto a su media, mientras que los elementos por encima o por debajo de esta diagonal representan las covarianzas entre pares de variables, mostrando las relaciones lineales existentes entre ellas.

####Vector de Promedios y Boxplots

apply(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], 2, mean)
##         kilometraje   cant_propietarios antiguedad_vehiculo   kilometraje_anual 
##        1.127688e+05        3.479594e+00        7.598646e+00        1.455297e+04 
##              precio 
##        2.023431e+04
vehicle_price_prediction_modificado_MUESTREADO20K_ETL_Reducido = vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]
nombres_boxplots <- c("kilometraje","Cant_propietarios","Edad_Vehículo","Kilometraje_año","Precio")
par(mfrow = c(1, ncol(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_Reducido)))
invisible(lapply(1:ncol(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_Reducido), function(i) {
  boxplot(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_Reducido[, i],
          main = nombres_boxplots[i])}))

####Matriz de varianzas-covarianzas

round(cov(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]),2)
##                       kilometraje cant_propietarios antiguedad_vehiculo
## kilometraje         5094782082.33          56542.99           212849.93
## cant_propietarios        56542.99              2.37                3.79
## antiguedad_vehiculo     212849.93              3.79               14.47
## kilometraje_anual    258557253.15            864.85             2186.07
## precio              -596219781.96          -9307.11           -34061.37
##                     kilometraje_anual        precio
## kilometraje              258557253.15 -596219781.96
## cant_propietarios              864.85      -9307.11
## antiguedad_vehiculo           2186.07     -34061.37
## kilometraje_anual         36590705.14  -17150507.29
## precio                   -17150507.29  184515961.73

####Matriz de correlaciones

round(cor(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]),3)
##                     kilometraje cant_propietarios antiguedad_vehiculo
## kilometraje               1.000             0.514               0.784
## cant_propietarios         0.514             1.000               0.647
## antiguedad_vehiculo       0.784             0.647               1.000
## kilometraje_anual         0.599             0.093               0.095
## precio                   -0.615            -0.445              -0.659
##                     kilometraje_anual precio
## kilometraje                     0.599 -0.615
## cant_propietarios               0.093 -0.445
## antiguedad_vehiculo             0.095 -0.659
## kilometraje_anual               1.000 -0.209
## precio                         -0.209  1.000

1.4. Planteamiento y Desarrollo

Con base en la pestaña Vector de Medias y Boxplots, se puede observar que las variables cuantitativas analizadas muestran patrones de distribución particulares.

La variable kilometraje presenta una distribución con cola a la derecha, lo que sugiere que la mayoría de los vehículos tienen recorridos moderados, pero algunos presentan kilometrajes muy elevados que extienden la cola superior. La variable Cant_propietarios tiende a tomar valores bajos en la mayoría de los casos, ya que la mayor parte de los vehículos suelen tener pocos propietarios previos; sin embargo, también pueden aparecer valores atípicos asociados a automóviles con múltiples transferencias.

La Edad_Vehículo puede presentar cierta asimetría hacia la derecha, ya que predominan vehículos relativamente recientes, mientras que algunos modelos más antiguos generan la extensión de la cola.

En cuanto a la variable Kilometraje_año, está generalmente presenta una distribución con cola a la derecha, dado que la mayoría de los vehículos tienen un uso anual moderado, pero algunos registran un uso muy intensivo que incrementa notablemente los valores superiores.

Finalmente, la variable Precio también puede mostrar una ligera cola hacia la derecha, indicando que la mayoría de los vehículos se concentran en rangos de precios medios, mientras que unos pocos, con características particulares o gamas superiores, elevan la cola superior de la distribución.

Con base en la matriz de varianzas-covarianzas y la matriz de correlaciones, se identifica que las relaciones lineales entre las variables cuantitativas suelen ser de baja a moderada intensidad.

Es común que variables como kilometraje y Edad_Vehículo presenten una correlación positiva, ya que los vehículos más antiguos tienden a haber recorrido mayores distancias.

Por otro lado, variables como Precio pueden mostrar correlaciones moderadas o débiles con Kilometraje_año o Cant_propietarios, lo que sugiere que su influencia directa no es estrictamente lineal.

En general, los coeficientes de correlación cercanos a cero indican que no existen relaciones lineales fuertes entre las variables, por lo que sus efectos mutuos son limitados. Esto abre la posibilidad de interacciones no lineales o de que cada variable capture dimensiones distintas del estado, historial y valor del vehículo. Estos aspectos se exploran con mayor detalle en la sección 1.5

1.5. Gráficas multivariadas

En general, los gráficos multivariados cumplen dos objetivos esenciales: primero, ayudan a comparar el comportamiento de poblaciones de estudio con base en variables categóricas y facilitan la comprensión de la estructura de correlación entre varias variables. Además, permiten identificar patrones, tendencias, y posibles outliers en los datos, simplificando la interpretación de relaciones complejas y destacando las características más significativas de los mismos (Aldás, 2017). En este sentido, el conjunto de datos de trabajo tendrá apoyo descriptivo gráfico a través de tres diagramas: uno conjunto que integra dispersión, distribución y correlaciones; otro basado en la renderización de polígonos; y, por último, uno que recurre a las caras de Chernoff.

Diagrama Conjunto de Dispersión, Distribución y Correlaciones [SA]

ggpairs(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)])

Diagrama Conjunto de Dispersión, Distribución y Correlaciones [CA]

vehicle_price_prediction_modificado_MUESTREADO20K_ETL$transmision <- factor(vehicle_price_prediction_modificado_MUESTREADO20K_ETL$transmision)
levels= c (0,1)
labels= c ( "automatico" , "manual")
ggpairs(vehicle_price_prediction_modificado_MUESTREADO20K_ETL, column = c(3,7,8,9,10), aes(color = transmision, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama de Estrellas

set.seed(051802)
vehicle_price_prediction_modificado = vehicle_price_prediction_modificado_MUESTREADO20K_ETL[sample(1:nrow(vehicle_price_prediction_modificado_MUESTREADO20K_ETL),23),-c(1,2,4,5,6)]
stars(vehicle_price_prediction_modificado, len = 1, cex = 0.4, key.loc = c(10, 2), draw.segments = TRUE)

caras de chernoff

set.seed(051802)
vehicle_price_prediction_modificado = vehicle_price_prediction_modificado_MUESTREADO20K_ETL [sample(1:nrow(vehicle_price_prediction_modificado_MUESTREADO20K_ETL),23),-c(1,2,4,5,6)]
faces(vehicle_price_prediction_modificado)

## effect of variables:
##  modified item       Var                  
##  "height of face   " "kilometraje"        
##  "width of face    " "cant_propietarios"  
##  "structure of face" "antiguedad_vehiculo"
##  "height of mouth  " "kilometraje_anual"  
##  "width of mouth   " "precio"             
##  "smiling          " "kilometraje"        
##  "height of eyes   " "cant_propietarios"  
##  "width of eyes    " "antiguedad_vehiculo"
##  "height of hair   " "kilometraje_anual"  
##  "width of hair   "  "precio"             
##  "style of hair   "  "kilometraje"        
##  "height of nose  "  "cant_propietarios"  
##  "width of nose   "  "antiguedad_vehiculo"
##  "width of ear    "  "kilometraje_anual"  
##  "height of ear   "  "precio"

1.6. Normalidad multivariada

Es posible analizar o determinar la distribución multivariada de un conjunto de datos mediante métodos descriptivos, como los gráficos, o inferenciales, como las pruebas estadísticas. Mientras que los procedimientos inferenciales permiten obtener conclusiones más generalizables, los gráficos resultan útiles como soporte para la interpretación de los resultados.

En este apartado se aborda la aplicación de procedimientos inferenciales para verificar si el conjunto de datos de trabajo, respecto a sus variables numéricas, sigue una distribución normal multivariada (DNM). Las pruebas de normalidad multivariada (PNM) que se aplicarán son: Mardia, Henze-Zirkler, Doornik-Hansen y Royston. Estas pruebas de normalidad se realizan bajo un nivel de significancia determinado \(\alpha = 0.05\) y a las hipótesis:\[H_0: \text {Las variables tienen una DNM}\] \[H_1: \text {Las variables NO tienen una DNM}\]

La prueba de Mardia se fundamenta en las extensiones de asimetría y curtosis, el cuadrado de la distancia de Mahalanobis, el número de variables \(p\) a analizar y el número de registros \(n\). Asimismo, se considera que la estadística de la prueba para la asimetría sigue una distribución \(\chi^2\), mientras que la estadística para la curtosis se distribuye de manera aproximada de forma normal.

La prueba de Henze-Zirkler se basa en la distancia funcional, ya que si el conjunto de datos sigue una distribución normal multivariada, el estadístico de la prueba se distribuye de manera aproximada como una lognormal, con parámetros de media \(\mu\) y varianza \(\sigma^2\).

La prueba de Doornik-Hansen se basa en la asimetría y la curtosis de un conjunto de datos multivariados, los cuales se transforman para asegurar la independencia. Se considera más potente que la prueba de Shapiro-Wilk en casos multivariados. El estadístico de la prueba se define como la suma de las transformaciones al cuadrado de la asimetría y la curtosis, y sigue aproximadamente una distribución \(\chi^2\).

Por otro lado, la prueba de Royston utiliza las pruebas de Shapiro-Wilk o Shapiro-Francia para evaluar la normalidad multivariada. Si la curtosis es mayor que 3, se emplea Shapiro-Francia para distribuciones leptocúrticas, mientras que para distribuciones platicúrticas se utiliza Shapiro-Wilk. Los parámetros en esta prueba se obtienen mediante aproximaciones polinomiales.

PNM Mardia

set.seed(051802)
vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K = 
vehicle_price_prediction_modificado_MUESTREADO20K_ETL[sample(1:nrow(vehicle_price_prediction_modificado_MUESTREADO20K_ETL),5000),-c(1,2,4,5,6)]

mardia(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K)
## $mv.test
##           Test Statistic p-value Result
## 1     Skewness 7915.9402       0     NO
## 2     Kurtosis   42.1233       0     NO
## 3 MV Normality      <NA>    <NA>     NO
## 
## $uv.shapiro
##                     W      p-value UV.Normality
## kilometraje         0.9622 0       No          
## cant_propietarios   0.8143 0       No          
## antiguedad_vehiculo 0.9812 0       No          
## kilometraje_anual   0.9969 0       No          
## precio              0.9338 0       No

PNM Henze-Zirkler

mhz(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K)
## $mv.test
## Statistic   p-value    Result 
##   33.9655         0        NO 
## 
## $uv.shapiro
##                     W      p-value UV.Normality
## kilometraje         0.9622 0       No          
## cant_propietarios   0.8143 0       No          
## antiguedad_vehiculo 0.9812 0       No          
## kilometraje_anual   0.9969 0       No          
## precio              0.9338 0       No

PNM

msk(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K, 10)
## $mv.test
## Statistic   p-value    Result 
## 9690.3097         0        NO 
## 
## $uv.shapiro
##                     W      p-value UV.Normality
## kilometraje         0.9622 0       No          
## cant_propietarios   0.8143 0       No          
## antiguedad_vehiculo 0.9812 0       No          
## kilometraje_anual   0.9969 0       No          
## precio              0.9338 0       No

PNM

mvnTest(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K, 10)
## $mv.test
##      Tn p-value  Result 
##       1       0      NO 
## 
## $uv.shapiro
##                     W      p-value UV.Normality
## kilometraje         0.9622 0       No          
## cant_propietarios   0.8143 0       No          
## antiguedad_vehiculo 0.9812 0       No          
## kilometraje_anual   0.9969 0       No          
## precio              0.9338 0       No

###1.7. Interpretación normalidad multivariada {.tabset .tabset-pills}

Fase 2 [Componentes Principales]

En esta segunda etapa del estudio, se presentarán cálculos, visualizaciones e interpretaciones basadas en el conjunto de datos analizado previamente en la Fase 1. Ahora, el enfoque se centrará en el análisis de componentes principales (ACP) aplicado a las variables cuantitativas, incluyendo aspectos como la selección de componentes, calidad de representación, contribuciones y su interpretación.

2.1. Objetivos

El ACP se logra a lo largo de las siguientes fases: generación de nuevas variables, reducción dimensional del espacio de los datos, eliminación de variables de poco aporte e interpretación de los componentes resultantes en el contexto del problema del cual se obtuvieron los dato.

Estimado lector, si desea explorar los fundamentos de este análisis con mayor profundidad. Los detalles del conjunto de datos se encuentran descritos en la Sección 1.2, mientras que los principios teóricos que sustentan este estudio están cuidadosamente desarrollados en la denominada Fase 1. Una lectura detenida de estas secciones enriquecerá su comprensión y apreciación del trabajo presentado.

2.2. Selección de Componentes

El Análisis de Componentes Principales (ACP) permite reorganizar un conjunto de datos multivariado al reducir el número de variables, sin requerir suposiciones específicas sobre la distribución de probabilidad de estas. Esta reducción se alcanza mediante la creación de combinaciones lineales de las variables originales, diseñadas para captar la mayor variabilidad posible en los datos. De este modo, el ACP genera nuevas variables, denominadas componentes principales, que presentan independencia estadística y ausencia de correlación, siempre bajo el supuesto de normalidad.

2.3. Calidad de Representación

Matriz ACP

get_eigenvalue(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F))
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1 2.97851351        59.570270                    59.57027
## Dim.2 1.08348646        21.669729                    81.24000
## Dim.3 0.54078683        10.815737                    92.05574
## Dim.4 0.34110603         6.822121                    98.87786
## Dim.5 0.05610716         1.122143                   100.00000

Matriz de Correlaciones

round(cor(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]),2)
##                     kilometraje cant_propietarios antiguedad_vehiculo
## kilometraje                1.00              0.51                0.78
## cant_propietarios          0.51              1.00                0.65
## antiguedad_vehiculo        0.78              0.65                1.00
## kilometraje_anual          0.60              0.09                0.10
## precio                    -0.61             -0.44               -0.66
##                     kilometraje_anual precio
## kilometraje                      0.60  -0.61
## cant_propietarios                0.09  -0.44
## antiguedad_vehiculo              0.10  -0.66
## kilometraje_anual                1.00  -0.21
## precio                          -0.21   1.00

Valores y Vectores Propios

princomp(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], cor = TRUE)$sdev^2
##     Comp.1     Comp.2     Comp.3     Comp.4     Comp.5 
## 2.97851351 1.08348646 0.54078683 0.34110603 0.05610716
princomp(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], cor = TRUE)$loadings[ ,1:5]
##                         Comp.1     Comp.2       Comp.3     Comp.4      Comp.5
## kilometraje          0.5325797  0.2607584  0.008214931  0.3977531  0.70006350
## cant_propietarios    0.4215429 -0.3511541  0.706010944 -0.4445049  0.05437305
## antiguedad_vehiculo  0.5138550 -0.2886414 -0.061243081  0.5455653 -0.59266090
## kilometraje_anual    0.2540115  0.8426995  0.170386076 -0.2024179 -0.39412092
## precio              -0.4583576  0.1234487  0.684615901  0.5528050 -0.01940154

Correlaciones Comparadas

par(mfrow=c(1,2))
corrplot::corrplot(cor(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)

Gráfico de Cattell

fviz_eig(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, :
## Ignoring empty aesthetic: `width`.

Gráfico de Cattell-Kaiser

scree(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)],factors = FALSE, pc = TRUE, main ="")

Interpretación y análisis

2.4. Contribuciones y Biplots

Basado en las variables cuantitativas del conjunto de datos descrito en la sección 1.2, se requiere determinar las contribuciones de cada variable en la construcción de las componentes.

La navegación a través de las pestañas facilita la visualización de las contribuciones de las variables del conjunto de datos en forma de representaciones numéricas y gráficas, permitiendo comprender cómo cada variable influye en la construcción de las componentes. Esto permite analizar la proporción de variabilidad que cada variable aporta a la variabilidad total de la componente con la que está asociada.

La Matriz de Contribuciones muestra cómo cada variable contribuye a la retención de variabilidad en la construcción de cada componente. Los diagramas de barras, que se visualizan en las pestañas desde Contribuciones a D1 hasta Contribuciones a D5, ilustran las contribuciones específicas de las variables para explicar la variabilidad en cada componente. Cada gráfico incluye una línea que indica la contribución media, lo que facilita la identificación de las variables que tienen mayor impacto en la explicación de la variabilidad de los componentes.

En Contribuciones a D1 se visualiza que las variables por encima de la contribución media: kilometraje,antiguedad_vehiculo y precio , los cente el \(76,05%\) de la variabilidad del componente 1.

En Contribuciones a D2 se visualiza que las variables por encima de la contribución media: kilometraje_anual que retiene aproximadamente el \(70,98%\) de la variabilidad del componente 2.

En Contribuciones a D3 se visualiza que las variables por encima de la contribución media: cant_propietarios y precio que retienen aproximadamente el \(96,68%\) de la variabilidad del componente 3.

En Contribuciones a D4 se visualiza que la variable por encima de la contribución media: precio* y antiguedad_vehiculo** que retienen aproximadamente el \(60,43%\) de la variabilidad del componenete 4.

En Contribuciones a D5 se visualiza que las variables por encima de la contribución media: kilometraje y antiguedad_vehiculo que retienen aproximadamenteel \(84,1%\) de la variabilidad del componente 5.

Con los datos procesados hasta ahora se puede proceder con la intepretación de los componentes.

2.5. Desarrollo del análisis

Círculo de Correlaciones

fviz_pca_var(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
##   Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the factoextra package.
##   Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Matriz de Representación

(get_pca_var(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 5, scale.unit = TRUE, graph = F)))$cos2
##                         Dim.1      Dim.2        Dim.3      Dim.4        Dim.5
## kilometraje         0.8448288 0.07367161 3.649505e-05 0.05396555 2.749750e-02
## cant_propietarios   0.5292770 0.13360382 2.695560e-01 0.06739729 1.658768e-04
## antiguedad_vehiculo 0.7864674 0.09026943 2.028337e-03 0.10152732 1.970747e-02
## kilometraje_anual   0.1921791 0.76942972 1.569981e-02 0.01397614 8.715198e-03
## precio              0.6257611 0.01651188 2.534662e-01 0.10423973 2.111985e-05

Calidad de Representación

fviz_pca_var(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 5, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)

Coordenadas Individuales

head((PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 5, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
##         Dim.1      Dim.2       Dim.3       Dim.4        Dim.5
## 1  -2.9885593 -0.6439590 -1.02221922 -0.26357471 -0.512910572
## 2  -0.3559620  0.2203184 -1.04430563 -0.01552121  0.056717977
## 3   1.9995718  1.3687996 -0.22017108 -0.26800124 -0.221391807
## 4  -1.7324783  2.4323698 -0.25931943 -0.42282232  0.565354503
## 5  -3.4335027 -0.8134123 -0.54671977  0.21427486 -0.600400726
## 6  -0.9626471  0.2547214 -0.25319592  0.63538226  0.082057861
## 7  -2.3365104 -1.3135935  0.58372128  0.46634789 -0.135775419
## 8   1.3011388 -1.3964842  0.70656794  1.18169952  0.460538636
## 9  -1.9089958  0.9157192 -0.76158165 -0.13354432  0.105204478
## 10  1.0030109 -0.4110688  0.32972386 -0.41813967 -0.029154220
## 11  0.8858730 -0.9926864  0.21143619 -0.27168782  0.085752227
## 12 -0.3641176  0.3090336  0.40375865 -0.70946941  0.008146841
## 13 -0.6885553 -0.2267846  0.06772581 -1.11749848 -0.074277137
## 14  0.6880992 -0.7979359  0.05314280 -0.85188762 -0.017475836
## 15  3.9395361 -0.3278491 -0.33350917  1.26332302 -0.158258622
## 16 -2.3754259  1.1918650  0.04705684  0.48369728  0.159472403
## 17 -1.6371942  0.2208996 -0.34152906 -0.10711355 -0.006130197
## 18 -1.5513544  0.7647061  0.62794549 -0.38959403  0.100861889
## 19  2.9392124  1.4337508  0.80379875  0.77458460 -0.527445715
## 20  3.7427049 -0.7409900 -0.28118181  1.45673514  0.082198934
## 21 -2.3305783 -0.3888566 -0.47895794 -0.46894017 -0.270329244
## 22  1.3512690  1.1303789  0.35434010  0.21005078 -0.156106998
## 23  2.4701779 -0.4583225 -0.27211059  0.05714113 -0.049370791

2.6. Contribuciones

###2.7. Planteamiento y Desarrollo {.tabset .tabset-pills} #### Matriz de Contribuciones

(get_pca_var(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 5, scale.unit = TRUE, graph = F)))$contrib
##                         Dim.1     Dim.2       Dim.3     Dim.4       Dim.5
## kilometraje         28.364110  6.799495  0.00674851 15.820756 49.00889073
## cant_propietarios   17.769838 12.330917 49.84514529 19.758456  0.29564285
## antiguedad_vehiculo 26.404696  8.331385  0.37507149 29.764153 35.12469469
## kilometraje_anual    6.452182 71.014244  2.90314150  4.097302 15.53312974
## precio              21.009173  1.523958 46.86989321 30.559333  0.03764199

Contribuciones a D1

fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)

Contribuciones a D2

fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)

Contribuciones a D3

fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)

Contribuciones a D4

fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)

Contribuciones a D5

fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 5, top = 10)

2.8. Interpretación

Representar los registros en un espacio de dimensiones reducidas permite situarlos en un plano de factores, lo que facilita su análisis e interpretación. Las variables reducidas se corresponden con las componentes principales, que se utilizan como ejes en el plano y cuyos valores son los puntajes de las componentes. La distancia entre los puntos representados por estos puntajes es clave para identificar similitudes entre los perfiles de las observaciones. No obstante, las similitudes pueden aparecer solo en algunas variables y no en todas. Así, se busca que las distancias en el espacio de alta dimensión se conserven en el espacio reducido, manteniendo la estructura de las relaciones entre los datos. Según (Díaz Morales & Morales Rivera, 2012).

2.9. Planteamiento y Desarrollo

Biplot de Variables y Registros [filtro:ChestPain]

Biplot de Variables y Registros [filtro:Gender]

Biplot de Variables y Registros [filtro:N.of Major Vessels]

Coordenadas Individuales [ChestPain]

Fase 3 [Correspondencias]

3.1. Objetivos

3.2. Correspondencias Simples

3.3. Correspondencias Múltiples

Fase 4 [Conglomerados]

4.1. Objetivos

4.2. Agrupación Jerárquica

4.3. Agrupación No-Jerárquica

Fase 5 [Análisis de Regresión]

5.1. Objetivos

5.2. Regresión Lineal Simple

5.3. Regresión Lineal Múltiple

5.4. Regresión Logística Simple

5.5. Ajuste de Varianza

6. Conclusiones

7. Bibliografía

Díaz Morales, L. G., & Morales Rivera, M. A. (2012). Análisis estadístico de datos multivariados (1st ed.). UNAL.
