El objetivo de este proyecto es aplicar técnicas de análisis de datos para estudiar el conjunto ### 1.2. Descripción de los datos El conjunto de datos fue obtenido en su totalidad de Kaggle: (https://www.kaggle.com/datasets/metawave/vehicle-price-prediction) Kaggle es una plataforma en línea de ciencia de datos y aprendizaje automático, propiedad de Google LLC. Esta facilita la participación en competencias donde las empresas publican conjuntos de datos y problemas, permitiendo a los usuarios desarrollar modelos predictivos y competir. La plataforma también ofrece notebooks para compartir y colaborar en proyectos utilizando Python y R, así como una amplia colección de conjuntos de datos de acceso público. Además, Kaggle Learn, una sección de la plataforma dedicada a la educación y el aprendizaje en ciencia de datos y aprendizaje automático proporciona tutoriales y cursos interactivos en temas como Python, SQL, visualización de datos y aprendizaje automático, dirigidos a principiantes y usuarios avanzados.
Este conjunto de datos se relaciona con diversas áreas de la ingeniería industrial, debido a que su desarrollo y análisis implican la aplicación de principios propios de la disciplina. En primer lugar, se vincula con la estadística y el análisis de datos(2.operations research y analysis), al emplear métodos estadísticos para estudiar la información y generar modelos predictivos precisos. También, se asocia con la gestión de la calidad (5.quality y reliability engineering), porque garantiza que los datos sean coherentes, completos y confiables. Asimismo, interviene la investigación de operaciones (7.operations engineering y management), que permite optimizar los algoritmos utilizados para estimar los precios de manera eficiente. En cuanto al análisis económico de ingeniería (3.engineering economic analysis), se ve reflejado en el análisis de la rentabilidad y la depreciación de los vehículos a lo largo del tiempo,también,se ve representado en el estudio del kilometraje y la antigüedad como factores que influyen en el precio de los automóviles. Adicionalmente, el estudio se relaciona con la gestión de proyectos (9.engineering managemet), al requerir una planeación estructurada para el desarrollo y ejecución del script generador de los datos. De igual manera, los sistemas de información (11.information engineering) desempeñan un papel fundamental en el almacenamiento, organización y procesamiento de los registros, de igual manera, se evidencia en el uso de herramientas computacionales como Python, que permiten crear soluciones automatizadas y aplicables al entorno industrial.
Según la descripción del conjunto de datos elegido en la plataforma kaggle, este fue diseñado con el propósito de crear una base sólida para el entrenamiento de modelos de predicción de precios automotrices de alta precisión. Contiene un total de 1.000.000 registros que representan una amplia variedad de marcas, modelos y especificaciones, abarcando 25 de las marcas más comunes en el mercado automotor. Cada registro fue construido considerando relaciones y distribuciones realistas entre las características del vehículo y su valor comercial, con el fin de reflejar comportamientos observables en contextos reales de compraventa. La lógica implementada en la generación de los datos contempla factores como la depreciación, el desgaste y el precio de marca. En primer lugar, la depreciación se modela como la principal variable que determina la reducción del precio con el paso del tiempo, siguiendo una curva de declive de tipo exponencial. En segundo lugar, el desgaste se asocia directamente con el kilometraje, el cual se correlaciona con la antigüedad del vehículo y ejerce un efecto negativo sobre el precio final. Finalmente, el precio de la marca actúa como una variable de referencia que refleja el posicionamiento del mercado de cada marca en el mundo real. (tipo_de_variable::escala_de_medición[ordenamiento]):
kilometraje (cuantitativa::razón): Representa la distancia total recorrida por el vehículo desde su fabricación hasta la fecha del registro, medida en kilómetros.
kilometraje_por_año (cuantitativa::razón): Esta variable expresa el promedio de kilómetros recorridos anualmente por el vehículo. Se obtiene dividiendo el kilometraje total entre la edad del automóvil.
numero_de_propietarios_anteriores (cuantitativa::razón): Indica cuántas personas han sido dueñas del vehículo antes del registro actual.
edad_del_vehículo (cuantitativa::razón): Corresponde al número de años transcurridos desde la fecha de fabricación del vehículo hasta la actualidad.
precio (cuantitativa::razón): Expresa el precio actual estimado del vehículo en el mercado de usados.
transmision (cualitativa::nominal): Describe el tipo de sistema de cambio de marchas del vehículo, codificado como 1 para transmisión manual y 0 para automática. Esta es la variable de decisión que se identifica en este conjunto.
marca_del_vehiculo (cualitativa::nominal): Identifica el nombre del fabricante del automóvil.
año_de_fabricacion (cuantitativa::razón): Indica el año calendario en el que el vehículo fue producido.
color_exterior (cualitativa::nominal): Hace referencia al color visible de la carrocería del vehículo.
tipo_de_combustible (cualitativa::nominal): Especifica el tipo de energía que utiliza el vehículo para su funcionamiento. Los valores comunes incluyen gasolina, diésel, híbrido y eléctrico.