Fase 1 [Descripciones Multivariantes]
1.1. Objetivos
El objetivo de este proyecto es aplicar técnicas de análisis
multivariado para gestionar el conjunto de datos aprobado,
correspondiente a registros relacionados con predicción de precios de
vehículos usados. El propósito es organizar y procesar eficazmente la
información, desarrollando habilidades en la gestión y análisis de
datos. Este trabajo se enmarca dentro del curso de Gestión de
Datos, dictado por el Profesor Giancarlo Libreros Londoño en la
Universidad del Valle.
1.2. Descripción de los datos
El conjunto de datos fue obtenido en su totalidad de
Kaggle: (https://www.kaggle.com/datasets/metawave/vehicle-price-prediction)
Kaggle es una plataforma en línea de ciencia de datos y aprendizaje
automático, propiedad de Google LLC. Esta facilita la participación en
competencias donde las empresas publican conjuntos de datos y problemas,
permitiendo a los usuarios desarrollar modelos predictivos y competir.
La plataforma también ofrece notebooks para compartir y colaborar en
proyectos utilizando Python y R, así como una amplia colección de
conjuntos de datos de acceso público. Además, Kaggle Learn, una sección
de la plataforma dedicada a la educación y el aprendizaje en ciencia de
datos y aprendizaje automático proporciona tutoriales y cursos
interactivos en temas como Python, SQL, visualización de datos y
aprendizaje automático, dirigidos a principiantes y usuarios
avanzados.
Este conjunto de datos se relaciona con diversas áreas de la
ingeniería industrial, debido a que su desarrollo y análisis implican la
aplicación de principios propios de la disciplina. En primer lugar, se
vincula con la estadística y el análisis de datos(2.operations
research y analysis), al emplear métodos estadísticos para
estudiar la información y generar modelos predictivos precisos. También,
se asocia con la gestión de la calidad (5.quality y reliability
engineering), porque garantiza que los datos sean coherentes,
completos y confiables. Asimismo, interviene la investigación de
operaciones (7.operations engineering y management), que
permite optimizar los algoritmos utilizados para estimar los precios de
manera eficiente. En cuanto al análisis económico de ingeniería
(3.engineering economic analysis), se ve reflejado en el
análisis de la rentabilidad y la depreciación de los vehículos a lo
largo del tiempo,también,se ve representado en el estudio del
kilometraje y la antigüedad como factores que influyen en el precio de
los automóviles. Adicionalmente, el estudio se relaciona con la
gestión de proyectos (9.engineering managemet), al
requerir una planeación estructurada para el desarrollo y ejecución del
script generador de los datos. De igual manera, los sistemas de
información (11.information engineering) desempeñan un papel
fundamental en el almacenamiento, organización y procesamiento de los
registros, de igual manera, se evidencia en el uso de herramientas
computacionales como Python, que permiten crear soluciones automatizadas
y aplicables al entorno industrial.
Según la descripción del conjunto de datos elegido en la plataforma
kaggle, este fue diseñado con el propósito de crear una base sólida para
el entrenamiento de modelos de predicción de precios automotrices de
alta precisión. Contiene un total de 1.000.000 registros que representan
una amplia variedad de marcas, modelos y especificaciones, abarcando 25
de las marcas más comunes en el mercado automotor. Cada registro fue
construido considerando relaciones y distribuciones realistas entre las
características del vehículo y su valor comercial, con el fin de
reflejar comportamientos observables en contextos reales de compraventa.
La lógica implementada en la generación de los datos contempla factores
como la depreciación, el desgaste y el precio de marca. En primer lugar,
la depreciación se modela como la principal variable que determina la
reducción del precio con el paso del tiempo, siguiendo una curva de
declive de tipo exponencial. En segundo lugar, el desgaste se asocia
directamente con el kilometraje, el cual se correlaciona con la
antigüedad del vehículo y ejerce un efecto negativo sobre el precio
final. Finalmente, el precio de la marca actúa como una variable de
referencia que refleja el posicionamiento del mercado de cada marca en
el mundo real. (tipo_de_variable::escala_de_medición[ordenamiento]):
kilometraje (cuantitativa::razón): Representa la
distancia total recorrida por el vehículo desde su fabricación hasta la
fecha del registro, medida en kilómetros.
kilometraje_por_año (cuantitativa::razón): Esta
variable expresa el promedio de kilómetros recorridos anualmente por el
vehículo. Se obtiene dividiendo el kilometraje total entre la edad del
automóvil.
numero_de_propietarios_anteriores
(cuantitativa::razón): Indica cuántas personas han sido dueñas del
vehículo antes del registro actual.
edad_del_vehículo (cuantitativa::razón):
Corresponde al número de años transcurridos desde la fecha de
fabricación del vehículo hasta la actualidad.
precio (cuantitativa::razón): Expresa el precio
actual estimado del vehículo en el mercado de usados.
transmision (cualitativa::nominal): Describe el
tipo de sistema de cambio de marchas del vehículo, codificado como 1
para transmisión manual y 0 para automática. Esta es la variable de
decisión que se identifica en este conjunto.
marca_del_vehiculo (cualitativa::nominal):
Identifica el nombre del fabricante del automóvil.
año_de_fabricacion (cuantitativa::razón): Indica
el año calendario en el que el vehículo fue producido.
color_exterior (cualitativa::nominal): Hace
referencia al color visible de la carrocería del vehículo.
tipo_de_combustible (cualitativa::nominal):
Especifica el tipo de energía que utiliza el vehículo para su
funcionamiento. Los valores comunes incluyen gasolina, diésel, híbrido y
eléctrico.
Estructura del Conjunto de Datos ETL
str(vehicle_price_prediction_modificado_MUESTREADO20K_ETL)
## tibble [19,798 × 10] (S3: tbl_df/tbl/data.frame)
## $ marca_vehiculo : chr [1:19798] "Volkswagen" "Volkswagen" "Ford" "Jeep" ...
## $ anho_de_fabricacion: num [1:19798] 2025 2018 2016 2023 2025 ...
## $ kilometraje : num [1:19798] 4725 99451 217580 51777 2874 ...
## $ transmision : chr [1:19798] "automatico" "automatico" "automatico" "manual" ...
## $ tipo_de_combustible: chr [1:19798] "Electric" "Electric" "Electric" "Gasoline" ...
## $ color_exterior : chr [1:19798] "Gray" "Gray" "Black" "Gray" ...
## $ cant_propietarios : num [1:19798] 1 2 4 1 1 2 3 5 1 5 ...
## $ antiguedad_vehiculo: num [1:19798] 1 7 9 2 1 7 5 15 3 9 ...
## $ kilometraje_anual : num [1:19798] 4725 14207 24176 25888 2874 ...
## $ precio : num [1:19798] 26141 13007 5962 29662 36614 ...
Conjunto de Datos Original Depurado
vehicle_price_prediction_modificado_MUESTREADO20K_ETL
## # A tibble: 19,798 × 10
## marca_vehiculo anho_de_fabricacion kilometraje transmision
## <chr> <dbl> <dbl> <chr>
## 1 Volkswagen 2025 4725 automatico
## 2 Volkswagen 2018 99451 automatico
## 3 Ford 2016 217580 automatico
## 4 Jeep 2023 51777 manual
## 5 Chrysler 2025 2874 manual
## 6 Mercedes-Benz 2018 94706 manual
## 7 Cadillac 2020 19868 automatico
## 8 Porsche 2010 147189 manual
## 9 Jeep 2022 47750 automatico
## 10 Jeep 2016 133025 manual
## # ℹ 19,788 more rows
## # ℹ 6 more variables: tipo_de_combustible <chr>, color_exterior <chr>,
## # cant_propietarios <dbl>, antiguedad_vehiculo <dbl>,
## # kilometraje_anual <dbl>, precio <dbl>
1.3. Estimaciones multivariadas
El vector de medias y la matriz de
varianzas-covarianzas conforman un conjunto de herramientas
fundamentales para describir el comportamiento posicional, dispersivo y
correlacional de las variables aleatorias en un conjunto de datos. Estas
medidas son esenciales en el análisis multivariado, ya que permiten
capturar tanto la tendencia central como las interdependencias entre las
variables.
El vector de medias refleja el valor esperado o punto medio de cada
variable, sintetizando la información de todos los registros disponibles
en el conjunto de datos. Por su parte, la matriz de
varianzas-covarianzas describe la variabilidad y las relaciones entre
las variables. En su diagonal principal, estima las dispersiones
individuales de cada variable respecto a su media, mientras que los
elementos por encima o por debajo de esta diagonal representan las
covarianzas entre pares de variables, mostrando las relaciones lineales
existentes entre ellas.
####Vector de Promedios y Boxplots
apply(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], 2, mean)
## kilometraje cant_propietarios antiguedad_vehiculo kilometraje_anual
## 1.127688e+05 3.479594e+00 7.598646e+00 1.455297e+04
## precio
## 2.023431e+04
vehicle_price_prediction_modificado_MUESTREADO20K_ETL_Reducido = vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]
nombres_boxplots <- c("kilometraje","Cant_propietarios","Edad_Vehículo","Kilometraje_año","Precio")
par(mfrow = c(1, ncol(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_Reducido)))
invisible(lapply(1:ncol(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_Reducido), function(i) {
boxplot(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_Reducido[, i],
main = nombres_boxplots[i])}))

####Matriz de varianzas-covarianzas
round(cov(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]),2)
## kilometraje cant_propietarios antiguedad_vehiculo
## kilometraje 5094782082.33 56542.99 212849.93
## cant_propietarios 56542.99 2.37 3.79
## antiguedad_vehiculo 212849.93 3.79 14.47
## kilometraje_anual 258557253.15 864.85 2186.07
## precio -596219781.96 -9307.11 -34061.37
## kilometraje_anual precio
## kilometraje 258557253.15 -596219781.96
## cant_propietarios 864.85 -9307.11
## antiguedad_vehiculo 2186.07 -34061.37
## kilometraje_anual 36590705.14 -17150507.29
## precio -17150507.29 184515961.73
####Matriz de correlaciones
round(cor(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]),3)
## kilometraje cant_propietarios antiguedad_vehiculo
## kilometraje 1.000 0.514 0.784
## cant_propietarios 0.514 1.000 0.647
## antiguedad_vehiculo 0.784 0.647 1.000
## kilometraje_anual 0.599 0.093 0.095
## precio -0.615 -0.445 -0.659
## kilometraje_anual precio
## kilometraje 0.599 -0.615
## cant_propietarios 0.093 -0.445
## antiguedad_vehiculo 0.095 -0.659
## kilometraje_anual 1.000 -0.209
## precio -0.209 1.000
1.4. Planteamiento y Desarrollo
Con base en la pestaña Vector de Medias y
Boxplots, se puede observar que las variables
cuantitativas analizadas muestran patrones de distribución
particulares.
La variable kilometraje presenta una distribución
con cola a la derecha, lo que sugiere que la mayoría de los vehículos
tienen recorridos moderados, pero algunos presentan kilometrajes muy
elevados que extienden la cola superior. La variable
Cant_propietarios tiende a tomar valores bajos en la
mayoría de los casos, ya que la mayor parte de los vehículos suelen
tener pocos propietarios previos; sin embargo, también pueden aparecer
valores atípicos asociados a automóviles con múltiples
transferencias.
La Edad_Vehículo puede presentar cierta asimetría
hacia la derecha, ya que predominan vehículos relativamente recientes,
mientras que algunos modelos más antiguos generan la extensión de la
cola.
En cuanto a la variable Kilometraje_año, está
generalmente presenta una distribución con cola a la derecha, dado que
la mayoría de los vehículos tienen un uso anual moderado, pero algunos
registran un uso muy intensivo que incrementa notablemente los valores
superiores.
Finalmente, la variable Precio también puede mostrar
una ligera cola hacia la derecha, indicando que la mayoría de los
vehículos se concentran en rangos de precios medios, mientras que unos
pocos, con características particulares o gamas superiores, elevan la
cola superior de la distribución.
Con base en la matriz de varianzas-covarianzas y la
matriz de correlaciones, se identifica que las
relaciones lineales entre las variables cuantitativas suelen ser de baja
a moderada intensidad.
Es común que variables como kilometraje y
Edad_Vehículo presenten una correlación positiva, ya
que los vehículos más antiguos tienden a haber recorrido mayores
distancias.
Por otro lado, variables como Precio pueden mostrar
correlaciones moderadas o débiles con Kilometraje_año o
Cant_propietarios, lo que sugiere que su influencia
directa no es estrictamente lineal.
En general, los coeficientes de correlación cercanos a cero indican
que no existen relaciones lineales fuertes entre las
variables, por lo que sus efectos mutuos son limitados. Esto abre la
posibilidad de interacciones no lineales o de que cada variable capture
dimensiones distintas del estado, historial y valor del vehículo. Estos
aspectos se exploran con mayor detalle en la sección
1.5
1.5. Gráficas multivariadas
En general, los gráficos multivariados cumplen dos
objetivos esenciales: primero, ayudan a comparar el comportamiento de
poblaciones de estudio con base en variables categóricas y facilitan la
comprensión de la estructura de correlación entre varias variables.
Además, permiten identificar patrones, tendencias, y posibles outliers
en los datos, simplificando la interpretación de relaciones complejas y
destacando las características más significativas de los mismos (Aldás,
2017). En este sentido, el conjunto de datos de trabajo tendrá apoyo
descriptivo gráfico a través de tres diagramas: uno conjunto que integra
dispersión, distribución y correlaciones; otro basado en la
renderización de polígonos; y, por último, uno que recurre a las caras
de Chernoff.
Diagrama Conjunto de Dispersión, Distribución y Correlaciones
[SA]
ggpairs(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)])

Diagrama Conjunto de Dispersión, Distribución y Correlaciones
[CA]
vehicle_price_prediction_modificado_MUESTREADO20K_ETL$transmision <- factor(vehicle_price_prediction_modificado_MUESTREADO20K_ETL$transmision)
levels= c (0,1)
labels= c ( "automatico" , "manual")
ggpairs(vehicle_price_prediction_modificado_MUESTREADO20K_ETL, column = c(3,7,8,9,10), aes(color = transmision, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama de Estrellas
set.seed(051802)
vehicle_price_prediction_modificado = vehicle_price_prediction_modificado_MUESTREADO20K_ETL[sample(1:nrow(vehicle_price_prediction_modificado_MUESTREADO20K_ETL),23),-c(1,2,4,5,6)]
stars(vehicle_price_prediction_modificado, len = 1, cex = 0.4, key.loc = c(10, 2), draw.segments = TRUE)

caras de chernoff
set.seed(051802)
vehicle_price_prediction_modificado = vehicle_price_prediction_modificado_MUESTREADO20K_ETL [sample(1:nrow(vehicle_price_prediction_modificado_MUESTREADO20K_ETL),23),-c(1,2,4,5,6)]
faces(vehicle_price_prediction_modificado)

## effect of variables:
## modified item Var
## "height of face " "kilometraje"
## "width of face " "cant_propietarios"
## "structure of face" "antiguedad_vehiculo"
## "height of mouth " "kilometraje_anual"
## "width of mouth " "precio"
## "smiling " "kilometraje"
## "height of eyes " "cant_propietarios"
## "width of eyes " "antiguedad_vehiculo"
## "height of hair " "kilometraje_anual"
## "width of hair " "precio"
## "style of hair " "kilometraje"
## "height of nose " "cant_propietarios"
## "width of nose " "antiguedad_vehiculo"
## "width of ear " "kilometraje_anual"
## "height of ear " "precio"
1.6. Normalidad multivariada
Es posible analizar o determinar la distribución multivariada de un
conjunto de datos mediante métodos descriptivos, como los gráficos, o
inferenciales, como las pruebas estadísticas. Mientras que los
procedimientos inferenciales permiten obtener conclusiones más
generalizables, los gráficos resultan útiles como soporte para la
interpretación de los resultados.
En este apartado se aborda la aplicación de procedimientos
inferenciales para verificar si el conjunto de datos de trabajo,
respecto a sus variables numéricas, sigue una distribución normal
multivariada (DNM). Las pruebas de normalidad multivariada (PNM) que se
aplicarán son: Mardia, Henze-Zirkler, Doornik-Hansen y Royston. Estas
pruebas de normalidad se realizan bajo un nivel de significancia
determinado \(\alpha = 0.05\) y a las
hipótesis:\[H_0: \text {Las variables tienen
una DNM}\] \[H_1: \text {Las variables
NO tienen una DNM}\]
La prueba de Mardia se fundamenta en las extensiones
de asimetría y curtosis, el cuadrado de la distancia de Mahalanobis, el
número de variables \(p\) a analizar y
el número de registros \(n\). Asimismo,
se considera que la estadística de la prueba para la asimetría sigue una
distribución \(\chi^2\), mientras que
la estadística para la curtosis se distribuye de manera aproximada de
forma normal.
La prueba de Henze-Zirkler se basa en la distancia
funcional, ya que si el conjunto de datos sigue una distribución normal
multivariada, el estadístico de la prueba se distribuye de manera
aproximada como una lognormal, con parámetros de media \(\mu\) y varianza \(\sigma^2\).
La prueba de Doornik-Hansen se basa en la asimetría
y la curtosis de un conjunto de datos multivariados, los cuales se
transforman para asegurar la independencia. Se considera más potente que
la prueba de Shapiro-Wilk en casos multivariados. El estadístico de la
prueba se define como la suma de las transformaciones al cuadrado de la
asimetría y la curtosis, y sigue aproximadamente una distribución \(\chi^2\).
Por otro lado, la prueba de Royston utiliza las pruebas de
Shapiro-Wilk o Shapiro-Francia para evaluar la normalidad
multivariada. Si la curtosis es mayor que 3, se emplea Shapiro-Francia
para distribuciones leptocúrticas, mientras que para distribuciones
platicúrticas se utiliza Shapiro-Wilk. Los parámetros en esta prueba se
obtienen mediante aproximaciones polinomiales.
PNM Mardia
set.seed(051802)
vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K =
vehicle_price_prediction_modificado_MUESTREADO20K_ETL[sample(1:nrow(vehicle_price_prediction_modificado_MUESTREADO20K_ETL),5000),-c(1,2,4,5,6)]
mardia(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K)
## $mv.test
## Test Statistic p-value Result
## 1 Skewness 7915.9402 0 NO
## 2 Kurtosis 42.1233 0 NO
## 3 MV Normality <NA> <NA> NO
##
## $uv.shapiro
## W p-value UV.Normality
## kilometraje 0.9622 0 No
## cant_propietarios 0.8143 0 No
## antiguedad_vehiculo 0.9812 0 No
## kilometraje_anual 0.9969 0 No
## precio 0.9338 0 No
PNM Henze-Zirkler
mhz(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K)
## $mv.test
## Statistic p-value Result
## 33.9655 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## kilometraje 0.9622 0 No
## cant_propietarios 0.8143 0 No
## antiguedad_vehiculo 0.9812 0 No
## kilometraje_anual 0.9969 0 No
## precio 0.9338 0 No
PNM
msk(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K, 10)
## $mv.test
## Statistic p-value Result
## 9690.3097 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## kilometraje 0.9622 0 No
## cant_propietarios 0.8143 0 No
## antiguedad_vehiculo 0.9812 0 No
## kilometraje_anual 0.9969 0 No
## precio 0.9338 0 No
PNM
mvnTest(vehicle_price_prediction_modificado_MUESTREADO20K_ETL_5K, 10)
## $mv.test
## Tn p-value Result
## 1 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## kilometraje 0.9622 0 No
## cant_propietarios 0.8143 0 No
## antiguedad_vehiculo 0.9812 0 No
## kilometraje_anual 0.9969 0 No
## precio 0.9338 0 No
###1.7. Interpretación normalidad multivariada {.tabset
.tabset-pills}
Fase 2 [Componentes Principales]
En esta segunda etapa del estudio, se presentarán
cálculos, visualizaciones e interpretaciones basadas en el conjunto de
datos analizado previamente en la Fase 1. Ahora, el
enfoque se centrará en el análisis de componentes principales (ACP)
aplicado a las variables cuantitativas, incluyendo aspectos como la
selección de componentes, calidad de representación, contribuciones y su
interpretación.
2.1. Objetivos
El ACP se logra a lo largo de las siguientes fases:
generación de nuevas variables, reducción dimensional del espacio de los
datos, eliminación de variables de poco aporte e interpretación de los
componentes resultantes en el contexto del problema del cual se
obtuvieron los dato.
Estimado lector, si desea explorar los fundamentos de este análisis
con mayor profundidad. Los detalles del conjunto de datos se encuentran
descritos en la Sección 1.2, mientras que los
principios teóricos que sustentan este estudio están cuidadosamente
desarrollados en la denominada Fase 1. Una lectura
detenida de estas secciones enriquecerá su comprensión y apreciación del
trabajo presentado.
2.2. Selección de Componentes
El Análisis de Componentes Principales (ACP) permite
reorganizar un conjunto de datos multivariado al reducir el número de
variables, sin requerir suposiciones específicas sobre la distribución
de probabilidad de estas. Esta reducción se alcanza mediante la creación
de combinaciones lineales de las variables originales, diseñadas para
captar la mayor variabilidad posible en los datos. De este modo, el
ACP genera nuevas variables, denominadas componentes
principales, que presentan independencia estadística y ausencia de
correlación, siempre bajo el supuesto de normalidad.
2.3. Calidad de Representación
Matriz ACP
get_eigenvalue(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F))
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 2.97851351 59.570270 59.57027
## Dim.2 1.08348646 21.669729 81.24000
## Dim.3 0.54078683 10.815737 92.05574
## Dim.4 0.34110603 6.822121 98.87786
## Dim.5 0.05610716 1.122143 100.00000
Matriz de Correlaciones
round(cor(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]),2)
## kilometraje cant_propietarios antiguedad_vehiculo
## kilometraje 1.00 0.51 0.78
## cant_propietarios 0.51 1.00 0.65
## antiguedad_vehiculo 0.78 0.65 1.00
## kilometraje_anual 0.60 0.09 0.10
## precio -0.61 -0.44 -0.66
## kilometraje_anual precio
## kilometraje 0.60 -0.61
## cant_propietarios 0.09 -0.44
## antiguedad_vehiculo 0.10 -0.66
## kilometraje_anual 1.00 -0.21
## precio -0.21 1.00
Valores y Vectores Propios
princomp(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], cor = TRUE)$sdev^2
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## 2.97851351 1.08348646 0.54078683 0.34110603 0.05610716
princomp(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], cor = TRUE)$loadings[ ,1:5]
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## kilometraje 0.5325797 0.2607584 0.008214931 0.3977531 0.70006350
## cant_propietarios 0.4215429 -0.3511541 0.706010944 -0.4445049 0.05437305
## antiguedad_vehiculo 0.5138550 -0.2886414 -0.061243081 0.5455653 -0.59266090
## kilometraje_anual 0.2540115 0.8426995 0.170386076 -0.2024179 -0.39412092
## precio -0.4583576 0.1234487 0.684615901 0.5528050 -0.01940154
Correlaciones Comparadas
par(mfrow=c(1,2))
corrplot::corrplot(cor(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)

Gráfico de Cattell
fviz_eig(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, :
## Ignoring empty aesthetic: `width`.

Gráfico de Cattell-Kaiser
scree(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)],factors = FALSE, pc = TRUE, main ="")

Interpretación y análisis
2.4. Contribuciones y Biplots
Basado en las variables cuantitativas del conjunto de datos descrito
en la sección 1.2, se requiere determinar las
contribuciones de cada variable en la construcción de las
componentes.
La navegación a través de las pestañas facilita la visualización de
las contribuciones de las variables del conjunto de datos en forma de
representaciones numéricas y gráficas, permitiendo comprender cómo cada
variable influye en la construcción de las componentes. Esto permite
analizar la proporción de variabilidad que cada variable aporta a la
variabilidad total de la componente con la que está asociada.
La Matriz de Contribuciones muestra cómo cada
variable contribuye a la retención de variabilidad en la construcción de
cada componente. Los diagramas de barras, que se visualizan en las
pestañas desde Contribuciones a D1 hasta
Contribuciones a D5, ilustran las contribuciones
específicas de las variables para explicar la variabilidad en cada
componente. Cada gráfico incluye una línea que indica la
contribución media, lo que facilita la identificación de las
variables que tienen mayor impacto en la explicación de la variabilidad
de los componentes.
En Contribuciones a D1 se visualiza que las
variables por encima de la contribución media:
kilometraje,antiguedad_vehiculo y
precio , los cente el \(76,05%\) de la variabilidad del componente
1.
En Contribuciones a D2 se visualiza que las
variables por encima de la contribución media:
kilometraje_anual que retiene aproximadamente el \(70,98%\) de la variabilidad del componente
2.
En Contribuciones a D3 se visualiza que las
variables por encima de la contribución media:
cant_propietarios y precio que
retienen aproximadamente el \(96,68%\)
de la variabilidad del componente 3.
En Contribuciones a D4 se visualiza que la variable
por encima de la contribución media: precio* y
antiguedad_vehiculo** que retienen aproximadamente el \(60,43%\) de la variabilidad del componenete
4.
En Contribuciones a D5 se visualiza que las
variables por encima de la contribución media:
kilometraje y antiguedad_vehiculo que
retienen aproximadamenteel \(84,1%\) de
la variabilidad del componente 5.
Con los datos procesados hasta ahora se puede proceder con la
intepretación de los componentes.
2.5. Desarrollo del análisis
Círculo de Correlaciones
fviz_pca_var(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the factoextra package.
## Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Matriz de Representación
(get_pca_var(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 5, scale.unit = TRUE, graph = F)))$cos2
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## kilometraje 0.8448288 0.07367161 3.649505e-05 0.05396555 2.749750e-02
## cant_propietarios 0.5292770 0.13360382 2.695560e-01 0.06739729 1.658768e-04
## antiguedad_vehiculo 0.7864674 0.09026943 2.028337e-03 0.10152732 1.970747e-02
## kilometraje_anual 0.1921791 0.76942972 1.569981e-02 0.01397614 8.715198e-03
## precio 0.6257611 0.01651188 2.534662e-01 0.10423973 2.111985e-05
Calidad de Representación
fviz_pca_var(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 5, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)

Coordenadas Individuales
head((PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 5, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 1 -2.9885593 -0.6439590 -1.02221922 -0.26357471 -0.512910572
## 2 -0.3559620 0.2203184 -1.04430563 -0.01552121 0.056717977
## 3 1.9995718 1.3687996 -0.22017108 -0.26800124 -0.221391807
## 4 -1.7324783 2.4323698 -0.25931943 -0.42282232 0.565354503
## 5 -3.4335027 -0.8134123 -0.54671977 0.21427486 -0.600400726
## 6 -0.9626471 0.2547214 -0.25319592 0.63538226 0.082057861
## 7 -2.3365104 -1.3135935 0.58372128 0.46634789 -0.135775419
## 8 1.3011388 -1.3964842 0.70656794 1.18169952 0.460538636
## 9 -1.9089958 0.9157192 -0.76158165 -0.13354432 0.105204478
## 10 1.0030109 -0.4110688 0.32972386 -0.41813967 -0.029154220
## 11 0.8858730 -0.9926864 0.21143619 -0.27168782 0.085752227
## 12 -0.3641176 0.3090336 0.40375865 -0.70946941 0.008146841
## 13 -0.6885553 -0.2267846 0.06772581 -1.11749848 -0.074277137
## 14 0.6880992 -0.7979359 0.05314280 -0.85188762 -0.017475836
## 15 3.9395361 -0.3278491 -0.33350917 1.26332302 -0.158258622
## 16 -2.3754259 1.1918650 0.04705684 0.48369728 0.159472403
## 17 -1.6371942 0.2208996 -0.34152906 -0.10711355 -0.006130197
## 18 -1.5513544 0.7647061 0.62794549 -0.38959403 0.100861889
## 19 2.9392124 1.4337508 0.80379875 0.77458460 -0.527445715
## 20 3.7427049 -0.7409900 -0.28118181 1.45673514 0.082198934
## 21 -2.3305783 -0.3888566 -0.47895794 -0.46894017 -0.270329244
## 22 1.3512690 1.1303789 0.35434010 0.21005078 -0.156106998
## 23 2.4701779 -0.4583225 -0.27211059 0.05714113 -0.049370791
2.6. Contribuciones
###2.7. Planteamiento y Desarrollo {.tabset .tabset-pills} ####
Matriz de Contribuciones
(get_pca_var(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 5, scale.unit = TRUE, graph = F)))$contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## kilometraje 28.364110 6.799495 0.00674851 15.820756 49.00889073
## cant_propietarios 17.769838 12.330917 49.84514529 19.758456 0.29564285
## antiguedad_vehiculo 26.404696 8.331385 0.37507149 29.764153 35.12469469
## kilometraje_anual 6.452182 71.014244 2.90314150 4.097302 15.53312974
## precio 21.009173 1.523958 46.86989321 30.559333 0.03764199
Contribuciones a D1
fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)

Contribuciones a D2
fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)

Contribuciones a D3
fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)

Contribuciones a D4
fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)

Contribuciones a D5
fviz_contrib(PCA(vehicle_price_prediction_modificado_MUESTREADO20K_ETL[,-c(1,2,4,5,6)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 5, top = 10)

2.8. Interpretación
Representar los registros en un espacio de dimensiones reducidas
permite situarlos en un plano de factores, lo que facilita su análisis e
interpretación. Las variables reducidas se corresponden con las
componentes principales, que se utilizan como ejes en el plano y cuyos
valores son los puntajes de las componentes. La distancia entre los
puntos representados por estos puntajes es clave para identificar
similitudes entre los perfiles de las observaciones. No obstante, las
similitudes pueden aparecer solo en algunas variables y no en todas.
Así, se busca que las distancias en el espacio de alta dimensión se
conserven en el espacio reducido, manteniendo la estructura de las
relaciones entre los datos. Según (Díaz Morales & Morales Rivera,
2012).
2.9. Planteamiento y Desarrollo
Biplot de Variables y Registros [filtro:ChestPain]
Biplot de Variables y Registros [filtro:Gender]
Biplot de Variables y Registros [filtro:N.of Major Vessels]
Coordenadas Individuales [ChestPain]
