La siguiente base de datos fue obtenida de la página web de OLX haciendo uso del método de web scraping. Se observa que la base de datos contiene 54 observaciones y seis variables, tres de ellas cualitativas y las otras tres variables cuantitativas. En ella, se tiene información sobre diferentes registros de carros modelo Spark GT que se encuentran a la venta en la página OLX, con su respectivo modelo, precio, kilometraje y si es un carro con único dueño o no.

library(readxl)
spark_gt <- read_excel("C:/Users/Lenovo/Downloads/SEXTO SEMESTRE/ESTADISTICA AVANZADA/spark_gt.xlsx")
head(spark_gt)
precio modelo kilometraje unico_dueno
41000000 2019 20500
34000000 2018 26600
39500000 2019 30100
42000000 2019 30272 No
36000000 2017 30500
39900000 2017 35771 No
spark_gt$kilometraje <- as.numeric(spark_gt$kilometraje)

Exploratorio

A continuación, se realiza un análisis que nos permitirá describir la base de datos. Inicialmente, tenemos un resumen general de todas las variables de la base de datos, para aquellas que son cuantitativas obtenemos el mínimo, máximo, media, mediana, primer y tercer cuartil mientras que, para la variables categoricas nos muestra la cantidad de respuestas obtenidas.

summary(spark_gt)
##      precio            modelo           kilometraje     unico_dueno       
##  Min.   :24600000   Length:54          Min.   : 20500   Length:54         
##  1st Qu.:28500000   Class :character   1st Qu.: 50250   Class :character  
##  Median :31500000   Mode  :character   Median : 76000   Mode  :character  
##  Mean   :31934630                      Mean   : 75621                     
##  3rd Qu.:35000000                      3rd Qu.: 91500                     
##  Max.   :42000000                      Max.   :162000

Se puede observar que en promedio, el valor de un automovil en venta de la marca Spark GT se encuentra al rededor de $31.934.630

mean(spark_gt$precio)
## [1] 31934630

A continuación, se puede identificar que 34 de los carros Spark GT que se encuentran en venta no han tenido unico dueño, 15 de ellos si mientras que 7 no respondieron.

numRow <- 26
numCol <- 26
table(spark_gt$unico_dueno)
## 
## NA No Sí 
##  7 32 15
barplot(table(spark_gt$unico_dueno),col = terrain.colors(5))

Análisis de la correlación entre la variable kilometraje y precio en venta

Teniendo en cuenta la gráfica, se puede observar que a mayor kilometraje tenga el vehículo, menor será su precio en venta.

plot(spark_gt$kilometraje,spark_gt$precio,xlab = "Kilometraje", ylab = "Precio")

El coeficiente de correlación es de -0.70, lo cual significa que existe una relación negativa entre las dos variables por esta razón, como se mencionó anteriormente en el análisis de la gráfica, mientras el kilometraje del automóvil aumenta, el precio en venta disminuye.

## [1] -0.7032012

Estimación del Modelo Lineal Simple

El \(\beta_{1} = -95650\) nos indica que por cada kilómetro que tenga el automóvil, el valor en venta disminuirá en \(\$95.560\). Adicionalmente se observa que el coeficiente es significativamente distinto de cero dado que el p-valor es muy pequeño. El ajuste del modelo es \(R^2=0.4945\) es decir que, el modelo explica el 49% de la variabilidad del precio en venta de los automóviles Spark GT en relación a su kilometraje sin embargo, el modelo lineal no se ajusta muy bien a los datos pues, \(R^{2} < 0.69\).

mod=lm(precio~kilometraje,data=spark_gt)
summary(mod)
## 
## Call:
## lm(formula = precio ~ kilometraje, data = spark_gt)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -6585164 -2238485  -483127  1972351  6749387 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.917e+07  1.103e+06  35.498  < 2e-16 ***
## kilometraje -9.565e+01  1.341e+01  -7.132 3.05e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3195000 on 52 degrees of freedom
## Multiple R-squared:  0.4945, Adjusted R-squared:  0.4848 
## F-statistic: 50.87 on 1 and 52 DF,  p-value: 3.047e-09

Recta que ajusta los datos

library(ggplot2)
ggplot(spark_gt, aes(x=kilometraje, y=precio)) + 
  geom_point() +
  geom_smooth(method='lm', formula=y~x, se=FALSE, col='dodgerblue1') +
  theme_light()

Intervalo de confianza para \(\beta_{1}\)

Por cada km que tenga el automovil en venta, el precio de este disminuira entre 122.596 y 68.740.

LI= -9.565e+01 - (qt(p = 0.975,df = 52)*1.341e+01)
LS= -9.565e+01 + (qt(p = 0.975,df = 52)*1.341e+01)
c(LI,LS)
## [1] -122.55913  -68.74087