La siguiente base de datos fue obtenida de la página web de OLX haciendo uso del método de web scraping. Se observa que la base de datos contiene 54 observaciones y seis variables, tres de ellas cualitativas y las otras tres variables cuantitativas. En ella, se tiene información sobre diferentes registros de carros modelo Spark GT que se encuentran a la venta en la página OLX, con su respectivo modelo, precio, kilometraje y si es un carro con único dueño o no.
library(readxl)
spark_gt <- read_excel("C:/Users/Lenovo/Downloads/SEXTO SEMESTRE/ESTADISTICA AVANZADA/spark_gt.xlsx")
head(spark_gt)
precio | modelo | kilometraje | unico_dueno |
---|---|---|---|
41000000 | 2019 | 20500 | Sí |
34000000 | 2018 | 26600 | Sí |
39500000 | 2019 | 30100 | Sí |
42000000 | 2019 | 30272 | No |
36000000 | 2017 | 30500 | Sí |
39900000 | 2017 | 35771 | No |
spark_gt$kilometraje <- as.numeric(spark_gt$kilometraje)
A continuación, se realiza un análisis que nos permitirá describir la base de datos. Inicialmente, tenemos un resumen general de todas las variables de la base de datos, para aquellas que son cuantitativas obtenemos el mínimo, máximo, media, mediana, primer y tercer cuartil mientras que, para la variables categoricas nos muestra la cantidad de respuestas obtenidas.
summary(spark_gt)
## precio modelo kilometraje unico_dueno
## Min. :24600000 Length:54 Min. : 20500 Length:54
## 1st Qu.:28500000 Class :character 1st Qu.: 50250 Class :character
## Median :31500000 Mode :character Median : 76000 Mode :character
## Mean :31934630 Mean : 75621
## 3rd Qu.:35000000 3rd Qu.: 91500
## Max. :42000000 Max. :162000
Se puede observar que en promedio, el valor de un automovil en venta de la marca Spark GT se encuentra al rededor de $31.934.630
mean(spark_gt$precio)
## [1] 31934630
A continuación, se puede identificar que 34 de los carros Spark GT que se encuentran en venta no han tenido unico dueño, 15 de ellos si mientras que 7 no respondieron.
numRow <- 26
numCol <- 26
table(spark_gt$unico_dueno)
##
## NA No Sí
## 7 32 15
barplot(table(spark_gt$unico_dueno),col = terrain.colors(5))
Teniendo en cuenta la gráfica, se puede observar que a mayor kilometraje tenga el vehículo, menor será su precio en venta.
plot(spark_gt$kilometraje,spark_gt$precio,xlab = "Kilometraje", ylab = "Precio")
El coeficiente de correlación es de -0.70, lo cual significa que existe una relación negativa entre las dos variables por esta razón, como se mencionó anteriormente en el análisis de la gráfica, mientras el kilometraje del automóvil aumenta, el precio en venta disminuye.
## [1] -0.7032012
El \(\beta_{1} = -95650\) nos indica que por cada kilómetro que tenga el automóvil, el valor en venta disminuirá en \(\$95.560\). Adicionalmente se observa que el coeficiente es significativamente distinto de cero dado que el p-valor es muy pequeño. El ajuste del modelo es \(R^2=0.4945\) es decir que, el modelo explica el 49% de la variabilidad del precio en venta de los automóviles Spark GT en relación a su kilometraje sin embargo, el modelo lineal no se ajusta muy bien a los datos pues, \(R^{2} < 0.69\).
mod=lm(precio~kilometraje,data=spark_gt)
summary(mod)
##
## Call:
## lm(formula = precio ~ kilometraje, data = spark_gt)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6585164 -2238485 -483127 1972351 6749387
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.917e+07 1.103e+06 35.498 < 2e-16 ***
## kilometraje -9.565e+01 1.341e+01 -7.132 3.05e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3195000 on 52 degrees of freedom
## Multiple R-squared: 0.4945, Adjusted R-squared: 0.4848
## F-statistic: 50.87 on 1 and 52 DF, p-value: 3.047e-09
Recta que ajusta los datos
library(ggplot2)
ggplot(spark_gt, aes(x=kilometraje, y=precio)) +
geom_point() +
geom_smooth(method='lm', formula=y~x, se=FALSE, col='dodgerblue1') +
theme_light()
Por cada km que tenga el automovil en venta, el precio de este disminuira entre 122.596 y 68.740.
LI= -9.565e+01 - (qt(p = 0.975,df = 52)*1.341e+01)
LS= -9.565e+01 + (qt(p = 0.975,df = 52)*1.341e+01)
c(LI,LS)
## [1] -122.55913 -68.74087