Este análisis que vamos hacer a continuación permite saber el comportamiento del uso de bicicletas en función de variables como sería el clima, la estación del año, la hora del día y el tipo de usuario, así se integrarán conceptos de estadística descriptivas y el manejo de variables categóricas.
library(readr)
train1 <- read_csv("D:/DATOS/Desktop/train1.csv")
## Rows: 10886 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): datetime
## dbl (11): Season, holiday, working day, weather, temp, Atemp, humidity, wind...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(train1)
#2. Conversion Variables
train1$Season <- factor (train1$Season,
levels = c(1, 2, 3, 4),
labels = c("Primavera", "Verano","Otono", "Invierno"))
tapply(train1$Count, train1$Season, summary)
## $Primavera
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.0 24.0 78.0 116.3 164.0 801.0
##
## $Verano
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.0 49.0 172.0 215.3 321.0 873.0
##
## $Otono
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.0 68.0 195.0 234.4 347.0 977.0
##
## $Invierno
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1 51 161 199 294 948
train1$hour <- as.numeric(format(as.POSIXct(train1$datetime, format="%d/%m/%Y %H:%M"), "%H"))
#3. Estadistica Descriptiva
tapply(train1$Count, train1$hour, summary)
## $`0`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 41.00 55.07 75.25 283.00
##
## $`1`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 10.50 18.00 33.89 47.00 165.00
##
## $`2`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 5.00 11.00 22.59 32.00 96.00
##
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 3.00 6.00 11.88 16.00 66.00
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 3.000 5.500 6.273 9.000 28.000
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 8.00 19.00 19.26 27.75 55.00
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 23.75 74.50 75.12 116.25 211.00
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.0 62.0 217.5 210.1 321.5 596.0
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.0 131.5 391.0 357.2 549.2 839.0
##
## $`9`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.0 156.8 217.0 218.7 287.5 408.0
##
## $`10`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.0 102.5 149.5 173.4 220.0 539.0
##
## $`11`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.0 119.8 183.5 208.0 260.8 647.0
##
## $`12`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 22.0 153.8 234.5 254.1 331.2 757.0
##
## $`13`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 11.0 150.8 233.5 255.9 329.0 729.0
##
## $`14`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.0 143.5 212.5 241.0 314.2 678.0
##
## $`15`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.0 146.8 233.0 251.9 331.0 724.0
##
## $`16`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 11.0 209.5 310.0 312.1 421.0 701.0
##
## $`17`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.0 261.2 482.5 460.2 601.8 970.0
##
## $`18`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 23.0 224.0 418.5 422.0 556.8 977.0
##
## $`19`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 11.0 174.8 306.0 310.5 414.0 743.0
##
## $`20`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 11.0 119.8 219.0 223.1 300.0 551.0
##
## $`21`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.0 94.5 169.5 169.7 230.0 584.0
##
## $`22`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.00 77.75 129.00 131.73 174.25 502.00
##
## $`23`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.0 51.0 81.0 88.4 123.0 256.0
#Estadistica Por Estacion Y Hora
tapply(train1$Count, list(train1$Season, train1$hour), summary)
## 0 1 2 3
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## 4 5 6 7
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## 8 9 10 11
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## 12 13 14 15
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## 16 17 18 19
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## 20 21 22 23
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
train1_clean <- train1[complete.cases(train1[, c ("Count", "Season", "hour")]),]
#4. Diagrama De Barras
boxplot(Count ~ Season,
data = train1,
main = "Cantidad de Bicicletas Rentadas por Estación",
xlab = "Estación del Año",
ylab = "Total de Bicicletas Rentadas",
col = c("#8968CD","#7CCD7C","#96CDCD","#CD919E"))
#5. Interpretaciones
Al final podemos concluir que por lo general en primavera y verano presentan mayor mediana y máximos, en comparaciones a otoño e invierno, esto puede sugerir una preferencia por el uso de bicicletas en clima cálidos. Las horas nos permitieron identificar los picos de uso a lo largo del día , esto nos ayuda a comprender patrones de movilidad.También se muestra que hay dos franjas horarias con mayor número de alquileres entre las 7 y las 9 y entre las 16 y 19 coincidiendo con las horas picos laborales, reforzando la idea del uso de este transporte en jornadas de estudio y laboral.
Por otra parte se identificó una mayor demanda en verano tanto en la mañana como en la tarde mientras que en invierno se reduce notablemente durante el dia.Por ultimo el boxplot nos muestra que la mediana de alquileres es mayor en verano y primavera, lo que nos indica que en esas estaciones el 50% de los valores están por encima de otoño e invierno, también muestra una mayor variabilidad en la demanda de bicicleta en primavera y verano, en cambio en invierno refleja una menor dispersión.