A continuacion se realiza un analisis descriptivo de Toyota Corolla Esta base de datos, se puede decargar del siguiente link https://www.kaggle.com/datasets/tolgahancepel/toyota-corolla.
#Importar la base de datos de Toyota Corolla y realizar un resumen de la data
BD <- read.csv("C:/Users/User/Downloads/ToyotaCorolla.csv")
##Imprimir la dimension de la base de datos
dim(BD)
## [1] 1436 10
#Los nombres de la base de datos
names(BD)
## [1] "Price" "Age" "KM" "FuelType" "HP" "MetColor"
## [7] "Automatic" "CC" "Doors" "Weight"
#La cantidad de columnadas de la base de datos
colnames(BD)
## [1] "Price" "Age" "KM" "FuelType" "HP" "MetColor"
## [7] "Automatic" "CC" "Doors" "Weight"
columna <- dim(BD)[2]
columna
## [1] 10
#La composicion de la data
str(BD)
## 'data.frame': 1436 obs. of 10 variables:
## $ Price : int 13500 13750 13950 14950 13750 12950 16900 18600 21500 12950 ...
## $ Age : int 23 23 24 26 30 32 27 30 27 23 ...
## $ KM : int 46986 72937 41711 48000 38500 61000 94612 75889 19700 71138 ...
## $ FuelType : chr "Diesel" "Diesel" "Diesel" "Diesel" ...
## $ HP : int 90 90 90 90 90 90 90 90 192 69 ...
## $ MetColor : int 1 1 1 0 0 0 1 1 0 0 ...
## $ Automatic: int 0 0 0 0 0 0 0 0 0 0 ...
## $ CC : int 2000 2000 2000 2000 2000 2000 2000 2000 1800 1900 ...
## $ Doors : int 3 3 3 3 3 3 3 3 3 3 ...
## $ Weight : int 1165 1165 1165 1165 1170 1170 1245 1245 1185 1105 ...
#Resumen de los cuartiles de la data
summary(BD)
## Price Age KM FuelType
## Min. : 4350 Min. : 1.00 Min. : 1 Length:1436
## 1st Qu.: 8450 1st Qu.:44.00 1st Qu.: 43000 Class :character
## Median : 9900 Median :61.00 Median : 63390 Mode :character
## Mean :10731 Mean :55.95 Mean : 68533
## 3rd Qu.:11950 3rd Qu.:70.00 3rd Qu.: 87021
## Max. :32500 Max. :80.00 Max. :243000
## HP MetColor Automatic CC
## Min. : 69.0 Min. :0.0000 Min. :0.00000 Min. :1300
## 1st Qu.: 90.0 1st Qu.:0.0000 1st Qu.:0.00000 1st Qu.:1400
## Median :110.0 Median :1.0000 Median :0.00000 Median :1600
## Mean :101.5 Mean :0.6748 Mean :0.05571 Mean :1567
## 3rd Qu.:110.0 3rd Qu.:1.0000 3rd Qu.:0.00000 3rd Qu.:1600
## Max. :192.0 Max. :1.0000 Max. :1.00000 Max. :2000
## Doors Weight
## Min. :2.000 Min. :1000
## 1st Qu.:3.000 1st Qu.:1040
## Median :4.000 Median :1070
## Mean :4.033 Mean :1072
## 3rd Qu.:5.000 3rd Qu.:1085
## Max. :5.000 Max. :1615
##Grafica de la base de datos
indexn <- NULL
indexc <- NULL
par(mfrow = c(2,5))
for(i in 1:columna){
if(is.numeric(BD[ , i])== TRUE){
titulo <- paste("An. variable: ", colnames(BD[i]))
hist(BD[ , i], col = i, main = titulo)
indexn <- c(indexn,i)
} else{
titulo <- paste("An. variable: ", colnames(BD[i]))
pie(table(BD[ , i]), main = titulo)
indexc <- c(indexc,i)
}
}
#En las graficas de los valores numericos, podemos observar que poseen sesgos tanto hacia la izquierda, como la derecha. Esto nos muestra la presencia de outliers, valores atipicos, que necesitaran ser tratados para que no afecten el analisis de la data.
#Variable Price, Weight y km, tienen un sesgo hacia la derecha
#Variable Agre y HP, un sesgo hacia la izquierda
#Para el caso de la variable Fuel Type, se puede observar que predomina, Petrol, lo podemos interpretar, como un fin del negocio
#Para las variables dicotomicas, se observa que son MetColor y Automatic