a) Planteamiento revisado de la pregunta predictiva
Pregunta de investigación general
¿Cuál es el efecto de la cilindrada de los automóviles fabricados en
1978 sobre su rendimiento de millas por galón, dependiendo de su
origen?
Objetivo general
Explorar el efecto de la cilindrada de los automóviles fabricados en
1978 sobre su rendimiento de millas por galón, dependiendo de su
origen.
Objetivos específicos
Conocer la relación entre la cilindrada de los automóviles
fabricados en 1978 y su rendimiento de millas por galón, dependiente de
su origen.
b) Dataset y variables seleccionadas
- Base de datos: Auto
- Número de observaciones: 74 autos
- Origen: Base de datos de Stata, integrada en el paquete carData de
R.
- Número de variables: 12 (Marca y modelo del vehículo, precio,
rendimiento de millas por galón, calificación de reparación, altura
interior, capacidad del maletero, peso del vehículo, longitud total,
radio de giro, cilindrada del motor, relación del engranaje final y el
origen del vehículo).
- Tipos de variables: contiene variables numéricas (cuantitativas) y
variables categóricas (cualitativas).
- Para los compradores y para las propias empresas un interés
principal en los últimos años ha sido la mejora en el rendimiento de
gasolina. En ese sentido, para el presente estudio se consideró el
tamaño del motor (la cilindrada) para explorar su efecto sobre el
rendimiento de millas por galón de los autos.
Orden de los análisis
1) Análisis exploratorios mediantes gráficas para conocer el
comportamiento de las variables.
2) Análisis de correlación para explorar si la cilindrada y el
rendimiento de millas por galón están asociadas de manera
estadísticamente significa, separando entre los autos de origen nacional
y los de origen extranjero.
3) Análisis de regresión para conocer si específicamente la
cilindrada de los autos afecta su rendimiento de millas por galón,
separando según el origen de los mismos.
c) Visualizaciones clave (relación de variables, comportamiento de
residuos, etc.)
Gráfico de dispersión entre el rendimiento de millas por galón y la
cilindrada por motor, identificando los autos según su origen
El gráfico muestra, visualmente, una relación negativa entre las
variables; específicamente, cuanto mayor es la cilindrada por motor de
los autos, menos es el rendimiento de millas por galón que tienen. Sin
embargo, la relación parece no ser línea, sino curvilínea. Esto deberá
de ser sometido a prueba mediante análisis inferenciales.
Gráfico de dispersión entre el rendimiento de millas por galón y la
cilindrada por motor, separando la relación según el origen de los
autos
A continuación, se corrieron análisis de normalidad para someter a
prueba el supuesto y tomar la decisión sobre si se podrían hacer
análisis de correlación paramétricos (producto-momento de Pearson) o no
paramétricos (Spearman).
Comprobación de la normalidad para determinar el coeficiente de
correlación a ejecutar
Prueba para la variable rendimiento de millas por galón
##
## Shapiro-Wilk normality test
##
## data: datosautos_limpia.dta$mpg
## W = 0.9406, p-value = 0.001713
Prueba para la variable cilindrada del motor
##
## Shapiro-Wilk normality test
##
## data: datosautos_limpia.dta$displacement
## W = 0.91809, p-value = 0.0001429
Si bien ambas variables son de razón, de acuerdo con los análisis de
normalidad, este supuesto no se cumple, pues el p valor en ambos casos
es menor a .05. Por lo tanto, se realizaron análisis de correlación de
Spearman.
Prueba de relaciones para los autos nacionales
Los resultados mostraron una correlación estadísticamente
significativa, fuerte y negativa entre la cilindrada de los autos
nacionales y su rendimiento.
##
## Spearman's rank correlation rho
##
## data: autos_nacionales$displacement and autos_nacionales$mpg
## S = 41198, p-value = 0.00000000007237
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.7586595
Interpretación de los análisis de correlación comparando entre autos
nacionales y extranjeros
Tomando en cuenta los resultados de los análisis de correlación, se
procedió a realizar análisis de regresión lineal, debido a la naturaleza
de las variables.
d) Modelo final
Dada la naturaleza de las variables, se eligió el modelo lm()
Resultados de los modelos
Para autos nacionales
Se encontró una relación negativa y estadísticamente significativa
entre la cilindrada del motor y el rendimiento de gasolina en los autos
nacionales (β = -0.0416, p < 0.001). El modelo explicó
aproximadamente el 55.8% de la variabilidad del consumo de gasolina (R²
= 0.5585), lo que indica un ajuste moderadamente fuerte. Esto confirma
que autos con motores más grandes presentan, en promedio, un menor
rendimiento de combustible.
##
## Call:
## lm(formula = mpg ~ displacement, data = autos_nacionales)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.9397 -1.9397 -0.9397 0.7715 9.0954
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.543672 1.299004 22.743 < 0.0000000000000002 ***
## displacement -0.041576 0.005227 -7.953 0.000000000196 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.183 on 50 degrees of freedom
## Multiple R-squared: 0.5585, Adjusted R-squared: 0.5497
## F-statistic: 63.26 on 1 and 50 DF, p-value: 0.0000000001964
e) Discusión del modelo
Modelo para autos nacionales
El intercepto fue de 29.54, lo que significa que, teóricamente, si
la cilindrada fuera de 0, el consumo esperado sería 29.54 millas por
galón. La pendiente fue de -0.041, por lo que, por cada aumente de una
unidad de cilindrada, el rendimiento de gasolina disminuye en promedio
0.041 millas por galón. En otras palabras, entre más grande el motor,
menor el rendimiento de gasolina. El p valor fue menor a .001, por lo
que el efecto de la cilindrada sobre el rendimiento fue estadísticamente
significativa. El R² fue de 0.55, lo que implica que el 55.85% de la
variabilidad del consumo se explica por la cilindrada. Es decir, el
ajusto fue moderadamente fuerte. Por último, el error estándar del
modelo fue de 3.11, lo que indica que, en promedio, las predicciones del
modelo se equivocan en ±3.18 mpg.
Relevancia práctica
Limitaciones
Se consideró específicamente la cilindrada del motor para predecir
el rendimiento de los autos. Sin embargo, tomando en cuenta que ambos
modelos explicaron aproximadamente el 56% de la varianza, la predicción
de esta variable puede enriquecerse tomando en cuenta otras variables,
por ejemplo, el peso del vehículo y su precio.
f) Conclusión comparando ambos modelos