a) Planteamiento revisado de la pregunta predictiva

Pregunta de investigación general

¿Cuál es el efecto de la cilindrada de los automóviles fabricados en 1978 sobre su rendimiento de millas por galón, dependiendo de su origen?

Objetivo general

Explorar el efecto de la cilindrada de los automóviles fabricados en 1978 sobre su rendimiento de millas por galón, dependiendo de su origen.

Objetivos específicos

Conocer la relación entre la cilindrada de los automóviles fabricados en 1978 y su rendimiento de millas por galón, dependiente de su origen.

b) Dataset y variables seleccionadas

- Base de datos: Auto

- Número de observaciones: 74 autos

- Origen: Base de datos de Stata, integrada en el paquete carData de R.

- Número de variables: 12 (Marca y modelo del vehículo, precio, rendimiento de millas por galón, calificación de reparación, altura interior, capacidad del maletero, peso del vehículo, longitud total, radio de giro, cilindrada del motor, relación del engranaje final y el origen del vehículo).

- Tipos de variables: contiene variables numéricas (cuantitativas) y variables categóricas (cualitativas).

- A continuación, se muestra una tabla con información detallada sobre cada variable.

- Para los compradores y para las propias empresas un interés principal en los últimos años ha sido la mejora en el rendimiento de gasolina. En ese sentido, para el presente estudio se consideró el tamaño del motor (la cilindrada) para explorar su efecto sobre el rendimiento de millas por galón de los autos.

Orden de los análisis

1) Análisis exploratorios mediantes gráficas para conocer el comportamiento de las variables.

2) Análisis de correlación para explorar si la cilindrada y el rendimiento de millas por galón están asociadas de manera estadísticamente significa, separando entre los autos de origen nacional y los de origen extranjero.

3) Análisis de regresión para conocer si específicamente la cilindrada de los autos afecta su rendimiento de millas por galón, separando según el origen de los mismos.

c) Visualizaciones clave (relación de variables, comportamiento de residuos, etc.)

Gráfico de dispersión entre el rendimiento de millas por galón y la cilindrada por motor, identificando los autos según su origen

El gráfico muestra, visualmente, una relación negativa entre las variables; específicamente, cuanto mayor es la cilindrada por motor de los autos, menos es el rendimiento de millas por galón que tienen. Sin embargo, la relación parece no ser línea, sino curvilínea. Esto deberá de ser sometido a prueba mediante análisis inferenciales.

Además, los datos muestran que la relación podría no comportarse de la misma forma dependiendo de si los autos son nacionales o extranjeros.

## Warning: package 'ggplot2' was built under R version 4.5.2
## `geom_smooth()` using formula = 'y ~ x'

Gráfico de dispersión entre el rendimiento de millas por galón y la cilindrada por motor, separando la relación según el origen de los autos

La gráfica permite mostrar de manera más clara y precisa que la relación entre ambas variables no es necesarimente curvilínea, sino que es distinta entre los autos nacionales y los extrajeros, siendo en estos últimos en los que el rendimiento de millas por galón disminuye más drasticamente con el aumento de la cilindrada del motor.

## `geom_smooth()` using formula = 'y ~ x'

A continuación, se corrieron análisis de normalidad para someter a prueba el supuesto y tomar la decisión sobre si se podrían hacer análisis de correlación paramétricos (producto-momento de Pearson) o no paramétricos (Spearman).

Comprobación de la normalidad para determinar el coeficiente de correlación a ejecutar

Prueba para la variable rendimiento de millas por galón

## 
##  Shapiro-Wilk normality test
## 
## data:  datosautos_limpia.dta$mpg
## W = 0.9406, p-value = 0.001713

Prueba para la variable cilindrada del motor

## 
##  Shapiro-Wilk normality test
## 
## data:  datosautos_limpia.dta$displacement
## W = 0.91809, p-value = 0.0001429

Si bien ambas variables son de razón, de acuerdo con los análisis de normalidad, este supuesto no se cumple, pues el p valor en ambos casos es menor a .05. Por lo tanto, se realizaron análisis de correlación de Spearman.

Prueba de relaciones para los autos nacionales

Los resultados mostraron una correlación estadísticamente significativa, fuerte y negativa entre la cilindrada de los autos nacionales y su rendimiento.

## 
##  Spearman's rank correlation rho
## 
## data:  autos_nacionales$displacement and autos_nacionales$mpg
## S = 41198, p-value = 0.00000000007237
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.7586595

Prueba de relaciones para los autos extranjeros

Los resultados mostraron una correlación estadísticamente significativa, fuerte y negativa entre la cilindrada de los autos extranjeros y su rendimiento.

## 
##  Spearman's rank correlation rho
## 
## data:  autos_extranjeros$displacement and autos_extranjeros$mpg
## S = 3227.4, p-value = 0.000002656
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.8223373

Interpretación de los análisis de correlación comparando entre autos nacionales y extranjeros

Los resultados de las pruebas de Spearman muestran que, tanto para los autos nacionales y extranjeros, hay una correlación estadísticamente significativa, negativa y fuerte entre el rendimiento de millas por galón y la cilindrada; sin embargo, la correlación para los autos extranjeros es más fuerte que para los autos nacionales. Estos resultados son congruentes con lo obtenidos en el EDA. Por lo tanto, se rechaza la hipótesis nula.

Tomando en cuenta los resultados de los análisis de correlación, se procedió a realizar análisis de regresión lineal, debido a la naturaleza de las variables.

d) Modelo final

Se llevarón a cabo dos modelos, uno para los autos nacionales y otro para los autos extranjeros. Esto debido a los resultados obtenidos mediante las gráficas y los análisis de correlación.

Dada la naturaleza de las variables, se eligió el modelo lm()

Resultados de los modelos

Para autos nacionales

Se encontró una relación negativa y estadísticamente significativa entre la cilindrada del motor y el rendimiento de gasolina en los autos nacionales (β = -0.0416, p < 0.001). El modelo explicó aproximadamente el 55.8% de la variabilidad del consumo de gasolina (R² = 0.5585), lo que indica un ajuste moderadamente fuerte. Esto confirma que autos con motores más grandes presentan, en promedio, un menor rendimiento de combustible.

## 
## Call:
## lm(formula = mpg ~ displacement, data = autos_nacionales)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.9397 -1.9397 -0.9397  0.7715  9.0954 
## 
## Coefficients:
##               Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)  29.543672   1.299004  22.743 < 0.0000000000000002 ***
## displacement -0.041576   0.005227  -7.953       0.000000000196 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.183 on 50 degrees of freedom
## Multiple R-squared:  0.5585, Adjusted R-squared:  0.5497 
## F-statistic: 63.26 on 1 and 50 DF,  p-value: 0.0000000001964

Para autos extranjeros

Se encontró una relación negativa y estadísticamente significativa entre la cilindrada del motor y el rendimiento de gasolina en los autos extranjeros (β = -0.199, p < 0.001). El modelo explicó aproximadamente el 56.21% de la variabilidad del consumo de gasolina (R² = 0.5621), lo que indica un ajuste moderadamente fuerte. Esto confirma que autos con motores más grandes presentan, en promedio, un menor rendimiento de combustible.

## 
## Call:
## lm(formula = mpg ~ displacement, data = autos_extranjeros)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.1931 -3.5269 -0.5367  2.4497 11.9983 
## 
## Coefficients:
##              Estimate Std. Error t value      Pr(>|t|)    
## (Intercept)  46.93169    4.47631  10.484 0.00000000142 ***
## displacement -0.19922    0.03932  -5.067 0.00005891555 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.483 on 20 degrees of freedom
## Multiple R-squared:  0.5621, Adjusted R-squared:  0.5402 
## F-statistic: 25.68 on 1 and 20 DF,  p-value: 0.00005892

e) Discusión del modelo

Modelo para autos nacionales

El intercepto fue de 29.54, lo que significa que, teóricamente, si la cilindrada fuera de 0, el consumo esperado sería 29.54 millas por galón. La pendiente fue de -0.041, por lo que, por cada aumente de una unidad de cilindrada, el rendimiento de gasolina disminuye en promedio 0.041 millas por galón. En otras palabras, entre más grande el motor, menor el rendimiento de gasolina. El p valor fue menor a .001, por lo que el efecto de la cilindrada sobre el rendimiento fue estadísticamente significativa. El R² fue de 0.55, lo que implica que el 55.85% de la variabilidad del consumo se explica por la cilindrada. Es decir, el ajusto fue moderadamente fuerte. Por último, el error estándar del modelo fue de 3.11, lo que indica que, en promedio, las predicciones del modelo se equivocan en ±3.18 mpg.

Modelo para autos extranjeros

El intercepto fue de 46.93, lo que significa que, teóricamente, si la cilindrada fuera de 0, el consumo esperado sería 46.93 millas por galón. La pendiente fue de -0.199, por lo que, por cada aumente de una unidad de cilindrada, el rendimiento de gasolina disminuye en promedio 0.199 millas por galón. En otras palabras, entre más grande el motor, menor el rendimiento de gasolina. El p valor fue menor a .001, por lo que el efecto de la cilindrada sobre el rendimiento fue estadísticamente significativa. El R² fue de 0.5621, lo que implica que el 56.21% de la variabilidad del consumo se explica por la cilindrada. Es decir, el ajusto fue moderadamente fuerte. Por último, el error estándar del modelo fue de 4.48, lo que indica que, en promedio, las predicciones del modelo se equivocan en ±4.48 mpg.

Relevancia práctica

Las implicaciones de estos resultados pueden ir para el consumidor o para las agencias de autos. Para el consumidor esta evidencia es valiosa, pues le ayudaría a elegir un auto con mayor cilindrada de origen nacional, pues son aquellos que mantienen mejor su rendimiento. Para las agencias de autos extrajeras les permitiría conocer, que en ese aspecto, sus autos son peores que los autos nacionales, y con ello realizar esfuerzos para mejorar este apartado y poder competir mejor en el mercado.

Limitaciones

Se consideró específicamente la cilindrada del motor para predecir el rendimiento de los autos. Sin embargo, tomando en cuenta que ambos modelos explicaron aproximadamente el 56% de la varianza, la predicción de esta variable puede enriquecerse tomando en cuenta otras variables, por ejemplo, el peso del vehículo y su precio.

f) Conclusión comparando ambos modelos

En ambos grupos de vehículos se encontró una relación negativa y estadísticamente significativa entre la cilindrada del motor y el rendimiento de combustible. La magnitud del efecto fue considerablemente mayor en los autos extranjeros en comparación con los nacionales, lo que indica que el aumento en la cilindrada reduce el rendimiento de forma mucho más pronunciada en los vehículos extranjeros. Específicamente, la cilindrada afecta casi 5 veces más al consumo en autos extranjeros que en los nacionales. Además, el modelo para autos nacionales es más preciso que el modelo para autos extranjeros.