Por medio de estos datos analizaremos e intentaremos predecir el precio de un carro en función de las variables explicativas de este. Por medio de gráficas y análisis de regresiones, se intentará estimar la correlación entre las variables presentadas y el precio de los carros, para analizar cual es el factor más determinante a la hora de la venta de uno. Este proceso ayudaría a compradores y vendedores a tomar decisiones financieras informadas.
La muestra consiste de 54300 datos sobre carros vendidos, dividiéndose en 12 variables (sin contar el car_id)
Para lograr este análisis se tomaron las siguientes variables: 1. ID del Carro (variable cualitativa nominal): Esta variable identifica de manera única cada vehículo en la muestra. Sirve simplemente para distinguir un vehículo de otro.
Marca (variable cualitativa nominal): Indica la marca del vehículo (por ejemplo, Ford, BMW, Jaguar). Es nominal porque clasifica los vehículos en categorías sin un orden específico.
Modelo (variable cualitativa nominal): Identifica el modelo específico del vehículo dentro de la marca (por ejemplo, F-150 Lariat, X3 Luxury). Similar a la marca, es una variable nominal sin un orden específico.
Año del Modelo (variable cuantitativa discreta): Esta variable indica el año de fabricación del modelo del vehículo. Es discreta ya que se expresa en números enteros (por ejemplo, 2018, 2020).
Millaje (variable cuantitativa discreta): Indica la distancia total recorrida por el vehículo en millas. Es discreta porque toma valores enteros, sin permitir decimales (por ejemplo, 74.349 millas).
Tipo de Combustible (variable cualitativa nominal): Describe el tipo de combustible que utiliza el vehículo (por ejemplo, Gasoline, Hybrid). Es una variable nominal ya que clasifica los vehículos en categorías sin un orden específico.
Motor (variable cualitativa nominal): Representa la cilindrada y potencia del motor en litros o caballos de fuerza Es una variable nominal ya que clasifica los vehículos en categorías sin un orden específico.
Transmisión (variable cualitativa nominal): Describe el tipo de transmisión que tiene el vehículo (por ejemplo, A/T, M/T). Es una variable nominal ya que clasifica los vehículos en categorías sin un orden específico.
Color del Carro Externo (variable cualitativa nominal): Indica el color exterior del vehículo (por ejemplo, Blue, Black). Es nominal porque no hay un orden específico entre los colores.
Color del Carro Interno (variable cualitativa nominal): Indica el color interior del vehículo (por ejemplo, Gray, Black). Similar al color externo, es una variable nominal sin un orden específico.
Accidente (variable cualitativa): Esta variable indica si el vehículo ha tenido o no un accidente reportado. Solo tiene dos posibles valores (“None reported” o “At least 1 accident or damage reported”).
Precio del Carro (variable cuantitativa discreta): Muestra el precio de venta del vehículo en dólares. Es discreta porque ninguno de los valores presentes en los datos, contiene decimales (por ejemplo, $11,600.00).
Estas variables nos permiten analizar diferentes aspectos de los vehículos, desde características físicas y mecánicas hasta el valor en el mercado.
La gráfica ilustra la relación entre el precio de los carros y el millaje recorrido, mostrando cómo estos dos factores interactúan en el mercado automotriz. Los puntos representan observaciones individuales, donde cada punto indica un carro específico con su millaje y precio correspondiente. Es evidente que existe una alta concentración de carros con millajes bajos y precios más accesibles, mientras que un grupo reducido presenta precios significativamente más altos, sugiriendo la posible presencia de vehículos de lujo o ediciones especiales.
La línea de tendencia azul, generada a partir de un modelo de regresión lineal, revela una relación inversa entre el millaje y el precio: a medida que el millaje aumenta, el precio generalmente tiende a disminuir. Esta tendencia es consistente con la expectativa de que los vehículos con mayor uso pierden valor con el tiempo. Sin embargo, la dispersión considerable de los puntos alrededor de la línea de tendencia indica que el millaje, aunque importante, no es el único factor que afecta el precio de los carros. Otros elementos, como la marca, el modelo, y el estado del vehículo, probablemente también juegan un papel significativo.
En esta gráfica se analiza la relación entre el millaje recorrido por los vehículos y el año del modelo. Cada punto en la gráfica representa un vehículo, donde el eje x muestra el año de fabricación y el eje y refleja el millaje acumulado. La concentración de puntos es mayor en modelos más recientes, lo que sugiere que estos vehículos, a pesar de ser más nuevos, han acumulado un rango variado de millaje.
La línea de tendencia, generada mediante un modelo de regresión lineal, tiene una pendiente MUY negativa, lo que indica que, en general, los vehículos más antiguos tienden a tener un millaje más alto. Este comportamiento es coherente con lo observado en la gráfica anterior, donde se mostró que a medida que el millaje aumenta, el precio disminuye. Aquí, la antigüedad del modelo también parece estar asociada con un mayor millaje, lo cual influye en la depreciación del vehículo, reflejándose en precios más bajos.
| model_year | price |
|---|---|
| 1974 | 74100.00 |
| 1992 | 18112.50 |
| 1993 | 16159.81 |
| 1994 | 18127.62 |
| 1995 | 39472.71 |
| 1996 | 18759.75 |
| 1997 | 13294.65 |
| 1998 | 17381.04 |
| 1999 | 11388.85 |
| 2000 | 14923.63 |
| 2001 | 14333.97 |
| 2002 | 21688.51 |
| 2003 | 15946.62 |
| 2004 | 18891.45 |
| 2005 | 33363.79 |
| 2006 | 23897.77 |
| 2007 | 18576.55 |
| 2008 | 17616.78 |
| 2009 | 21492.05 |
| 2010 | 20848.56 |
| 2011 | 19886.70 |
| 2012 | 18774.31 |
| 2013 | 23571.85 |
| 2014 | 24303.73 |
| 2015 | 31084.08 |
| 2016 | 33418.83 |
| 2017 | 39763.11 |
| 2018 | 44580.21 |
| 2019 | 47120.92 |
| 2020 | 58212.43 |
| 2021 | 63251.72 |
| 2022 | 69826.42 |
| 2023 | 92260.36 |
| 2024 | 95052.07 |
El precio promedio de los automóviles ha aumentado de manera constante desde 1974, comenzando en 74,100 y alcanzando 95,052 en 2024. Este crecimiento se ha acelerado especialmente en los últimos años, con los precios más altos registrados en 2023 y 2024. La tendencia general muestra un aumento gradual con incrementos más notables en las últimas dos décadas, reflejando posibles factores como la inflación, mejoras en los vehículos y cambios en la demanda del mercado.
# A tibble: 7 × 2
fuel_type moda_precio
<chr> <dbl>
1 Diesel 55000
2 E85 Flex Fuel 17500
3 Gasoline 15000
4 Hybrid 50000
5 Plug-In Hybrid 86999
6 not supported 7500
7 – 15000
La moda del precio por tipo de combustible revela los precios más frecuentes en cada categoría. Los vehículos con Diesel tienen un precio común de 55,000, mientras que los de E85 Flex Fuel y Gasoline muestran precios frecuentes de 17,500 y 15,000, respectivamente. Los Hybrid tienen una moda de 50,000, y los Plug-In Hybrid tienen una moda más alta de 86,999. Las categorías not supported y – presentan precios de 7,500 y 15,000, lo que podría indicar datos incompletos o errores. Estos resultados destacan cómo los precios varían según el tipo de combustible, con precios más altos en híbridos y eléctricos en comparación con combustibles convencionales.
At least 1 accident or damage reported None reported
1974 0 5
1992 4 8
1993 9 38
1994 12 25
1995 9 39
1996 24 52
1997 29 51
1998 36 81
1999 70 106
2000 34 118
2001 83 378
2002 183 208
2003 191 366
2004 309 436
2005 342 625
2006 382 483
2007 627 957
2008 693 1048
2009 359 624
2010 633 875
2011 883 1223
2012 718 1383
2013 991 1461
2014 1054 1887
2015 1253 2462
2016 1325 3368
2017 1120 2922
2018 1140 3748
2019 805 3209
2020 503 3509
2021 328 3453
2022 167 2973
2023 60 1734
2024 1 41
La tabla muestra la distribución de accidentes reportados y daños según el año del modelo del vehículo. A lo largo del tiempo, se observa un aumento general en el número de accidentes reportados, con picos significativos en los años recientes, como 2014 y 2016. Por ejemplo, en 2016, se reportaron 1,325 accidentes mientras que en 2024 solo se reporta 1 accidente, probablemente reflejando un menor número de vehículos de ese año en el conjunto de datos. En contraste, la cantidad de vehículos sin accidentes reportados también ha aumentado, especialmente en años recientes como 2018 y 2023, donde se reportan más de 3,700 y 1,734 vehículos sin accidentes, respectivamente. Esta tendencia sugiere una mayor incidencia de accidentes con el tiempo y una acumulación de vehículos sin accidentes, posiblemente debido a una combinación de un mayor número de vehículos en circulación y un aumento en la severidad de los accidentes reportados.
fuel_type milage
1 – 89167
2 Diesel 72200
3 E85 Flex Fuel 100331
4 Gasoline 66200
5 Hybrid 27100
6 not supported 40000
7 Plug-In Hybrid 40000
La mediana del kilometraje por tipo de combustible muestra que los vehículos E85 Flex Fuel tienen el kilometraje más alto (100,331 km), mientras que los Hybrid y Plug-In Hybrid tienen los más bajos (27,100 y 40,000 km). Esta información es útil para calcular el precio futuro de un automóvil, ya que los vehículos con mayor kilometraje generalmente tienen un valor de reventa más bajo. Así, el kilometraje mediano ayuda a ajustar las estimaciones de precio en función del uso típico del vehículo.
A continuación, se presenta un análisis de la distribución de la variable precio, basada en un histograma de frecuencia relativa. La distribución de los precios de los carros en la muestra de 54,300 datos muestra una asimetría positiva, lo que indica que la mayoría de los carros se venden en rangos de precios más bajos, mientras que los precios más altos son menos comunes. La densidad de frecuencia relativa, representada en el eje y, permite visualizar la probabilidad relativa de diferentes rangos de precios en lugar de simplemente contar las ocurrencias. Además, la curva suavizada superpuesta al histograma refuerza la tendencia general observada, destacando la asimetría de la distribución.
Esta asimetría sugiere que al realizar el análisis de regresión, será fundamental explorar cómo las variables explicativas influyen en los precios, especialmente dado que la mayor concentración de datos se encuentra en los precios más bajos. Este análisis contribuirá a identificar los factores más determinantes en la predicción del precio de los carros, ayudando a compradores y vendedores a tomar decisiones financieras informadas, considerando que los datos de la muestra corresponden a carros con precio bajo-medio, donde el efecto “lujo” no les afecta como a los carros de precio más alto.
La gráfica presentada es un histograma que muestra la distribución de la variable “millaje recorrido” de los vehículos, representada en frecuencia relativa. Se observa que la mayoría de los vehículos tienen un millaje relativamente bajo, con una concentración notable de datos en el rango de 0 a 100,000 millas. A medida que el millaje aumenta, la frecuencia de vehículos con altos recorridos disminuye drásticamente, lo que sugiere que es menos común encontrar vehículos con un millaje muy elevado, lo que indicaría que en la muestra es menos probable estar sesgado hacia vehículos que tengan demasiada depreciación en su valor razonable gracias a la cantidad de millas que ya recorrieron.
Desde una perspectiva estadística, la distribución del millaje recorrido en la gráfica sugiere la presencia de un fenómeno de concentración en los valores más bajos, lo que puede ser interpretado como un indicativo de la preferencia del mercado por vehículos con menor uso. Este patrón puede ser analizado utilizando medidas de tendencia central y dispersión, como la media y la desviación estándar, para cuantificar el comportamiento del millaje en la población de vehículos. Además, la asimetría observada en la distribución puede ser evaluada mediante el coeficiente de asimetría, lo que permitirá entender mejor la naturaleza de los datos y su impacto en el análisis predictivo.
El histograma de la variable “Año de Fabricación” de los 54,300 registros de carros vendidos revela una clara distribución de cómo se han vendido los vehículos a lo largo de los años. Este gráfico muestra una tendencia creciente hasta alcanzar un pico alrededor del año 2015, evidenciando que la mayoría de los carros vendidos son relativamente recientes. A medida que se avanza hacia años más recientes, la densidad de carros vendidos comienza a disminuir, lo que podría dar un indicativo de que la muestra realmente se trata de carros ya usados o de segunda mano, ya que los carros de años más nuevos no son mayoría en este caso.
Es importante destacar que, dado que el año de fabricación es una variable cuantitativa discreta, no se observan barras entre los intervalos del histograma. Esto implica que cada año específico representa un valor único y separado, en lugar de un rango continuo. La ausencia de espacios refleja que las observaciones se agrupan absolutamente en años enteros, facilitando la interpretación de los datos de una manera más clara y directa.
El diagrama de cajas de la variable precio proporciona una representación visual clara de la distribución de los precios de los carros en la muestra de 54,300 datos. Una de las observaciones más destacadas es la presencia de numerosos outliers, que son valores atípicos que se encuentran significativamente por encima del rango intercuartílico (IQR). Esta situación sugiere que existen carros con precios que se desvían considerablemente de la tendencia general, lo que puede influir en la interpretación de la distribución de precios.
La asimetría positiva es otra característica notable que se refleja tanto en el diagrama de cajas como en el histograma de frecuencia relativa. La mayoría de los carros se venden en rangos de precios más bajos, mientras que los precios más altos son menos comunes. Esta asimetría indica que, aunque hay una concentración de datos en el extremo inferior de la escala de precios, los valores más altos, aunque menos frecuentes, tienen un impacto significativo en la visualización general de la distribución.
El gráfico de sectores presentado ilustra la distribución de las marcas de carros en el conjunto de datos, que comprende 54,300 registros. Esta visualización es fundamental para entender la representación de cada marca en el mercado de carros vendidos. Al observar los segmentos, se puede identificar rápidamente cuáles son las marcas más populares y cómo se distribuyen en relación con el total de ventas.
Cada segmento del gráfico representa una marca específica, y su tamaño es proporcional al número de carros vendidos de esa marca. Por ejemplo, si una marca ocupa un segmento grande, esto indica que tiene una alta frecuencia de ventas, lo que podría sugerir una mayor aceptación en el mercado. Esta información es crucial para el análisis, ya que las marcas más vendidas pueden influir significativamente en el precio de los carros. Además, el gráfico permite visualizar la diversidad de marcas en el mercado. Algunas marcas de lujo, como BMW y Ferrari, pueden tener un menor número de ventas en comparación con marcas más accesibles, pero su precio puede ser considerablemente más alto.
En nuestro análisis estadístico, nos hemos enfocado en la variable cualitativa “fuel_type”, que representa el tipo de combustible utilizado por los vehículos en nuestra muestra de datos. Esta variable es crucial para entender las dinámicas del mercado automotriz y su relación con el precio de los carros. A continuación, presento el gráfico de pastel que ilustra la distribución de los diferentes tipos de combustible en nuestra base de datos, que consta de 54,300 registros sobre carros vendidos.
El gráfico revela la proporción de cada tipo de combustible en la muestra. Observamos que la categoría más representativa es la de “Gasoline”, seguida de “Diesel” y “Electric”. Sin embargo, es importante destacar la presencia de una categoría denominada “-” que representa a “Otros” tipos de combustible, que incluye variantes de combustible menos comunes y representa una parte significativa del mercado. Esto sugiere que existe un nicho diversificado en términos de tipos de combustible que no encajan dentro de las clasificaciones tradicionales.
El gráfico de pastel presentado ofrece una representación visual de la distribución de la variable “accidente” en una muestra representativa de 54,300 vehículos. Esta variable binaria clasifica los carros en dos categorías: aquellos que han reportado al menos un accidente (indicados como “1”) y aquellos que no han reportado ningún accidente (indicados como “0”), información crucial al estimar una regresión lineal con variable dicotómica. La visualización permite observar de manera intuitiva la proporción de vehículos en cada categoría, facilitando la comprensión de la prevalencia de accidentes en la muestra.
Al analizar el gráfico, se puede observar que la sección correspondiente a los vehículos que han reportado al menos un accidente ocupa una proporción significativa del total. Esto sugiere que un número considerable de carros en la muestra ha estado involucrado en incidentes, lo que podría tener implicaciones importantes en el análisis posterior. La representación gráfica permite a los analistas identificar rápidamente la magnitud del problema de los accidentes en el mercado automotriz.
El diagrama de dispersión presentado ilustra la relación entre el año de fabricación de los vehículos (eje x) y su precio (eje y), siendo una herramienta clave para el análisis de regresión múltiple que busca estimar el precio de un carro en función de 14 variables. Este gráfico permite visualizar cómo se distribuyen los precios de los vehículos a lo largo del tiempo, proporcionando una base para entender las tendencias del mercado automotriz.
Una observación destacada es la notable concentración de puntos en la parte inferior del gráfico, lo que indica una gran cantidad de vehículos con precios muy bajos. Esta tendencia sugiere que muchos de los carros en la base de datos son modelos más antiguos o de menor valor. Esta concentración puede influir en la estimación del precio en el modelo de regresión, ya que un número significativo de observaciones se agrupa en un rango de precios reducido, lo que podría afectar la variabilidad y la precisión del modelo. A medida que se avanza hacia los años más recientes, se puede notar un aumento en la dispersión de precios, con algunos vehículos alcanzando precios significativamente más altos.