Taller: Análisis de datos sobre renta de bicicletas en Washinton D.C

El objetivo de este informe es revisar cuántas bicicletas se alquilarán en las diferentes estaciones del año. La información proviene del sistema Capital Bikeshare de Washington D.C. y está estructurada para análisis de movilidad urbana.Para mayor informacion acerca del sistema capital Bikeshare de Washington D.C.consulte https://capitalbikeshare.com/69

1. Carga de Datos

library(readr)
train1 <- read_csv("C:/Users/Acer/Desktop/UEC/Segundo semestre/Fundamentos de estadística y programación/train1.csv")
## Rows: 10886 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (1): datetime
## dbl (11): Season, holiday, working day, weather, temp, Atemp, humidity, wind...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(train1)

2. Conversión de variables categóricas

train1$Season <-factor(train1$Season, 
                       levels = c(1,2,3,4),
                       labels = c("Primavera","Verano","Otono","Invierno"))
tapply(train1$Count, train1$Season, summary)
## $Primavera
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0    24.0    78.0   116.3   164.0   801.0 
## 
## $Verano
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0    49.0   172.0   215.3   321.0   873.0 
## 
## $Otono
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0    68.0   195.0   234.4   347.0   977.0 
## 
## $Invierno
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       1      51     161     199     294     948
train1$hour <- as.numeric(format(as.POSIXct(train1$datetime, format="%d/%m/%Y %H:%M"), "%H"))

3. Estadística descriptivas

tapply(train1$Count, train1$hour, summary)
## $`0`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   41.00   55.07   75.25  283.00 
## 
## $`1`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00   10.50   18.00   33.89   47.00  165.00 
## 
## $`2`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    5.00   11.00   22.59   32.00   96.00 
## 
## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    3.00    6.00   11.88   16.00   66.00 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   5.500   6.273   9.000  28.000 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    8.00   19.00   19.26   27.75   55.00 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00   23.75   74.50   75.12  116.25  211.00 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0    62.0   217.5   210.1   321.5   596.0 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     8.0   131.5   391.0   357.2   549.2   839.0 
## 
## $`9`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    14.0   156.8   217.0   218.7   287.5   408.0 
## 
## $`10`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    17.0   102.5   149.5   173.4   220.0   539.0 
## 
## $`11`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    10.0   119.8   183.5   208.0   260.8   647.0 
## 
## $`12`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    22.0   153.8   234.5   254.1   331.2   757.0 
## 
## $`13`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    11.0   150.8   233.5   255.9   329.0   729.0 
## 
## $`14`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    12.0   143.5   212.5   241.0   314.2   678.0 
## 
## $`15`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     7.0   146.8   233.0   251.9   331.0   724.0 
## 
## $`16`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    11.0   209.5   310.0   312.1   421.0   701.0 
## 
## $`17`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    25.0   261.2   482.5   460.2   601.8   970.0 
## 
## $`18`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    23.0   224.0   418.5   422.0   556.8   977.0 
## 
## $`19`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    11.0   174.8   306.0   310.5   414.0   743.0 
## 
## $`20`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    11.0   119.8   219.0   223.1   300.0   551.0 
## 
## $`21`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     6.0    94.5   169.5   169.7   230.0   584.0 
## 
## $`22`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00   77.75  129.00  131.73  174.25  502.00 
## 
## $`23`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     6.0    51.0    81.0    88.4   123.0   256.0

Estadística de count por estación y hora

tapply(train1$Count, list(train1$Season, train1$hour), summary)
##           0                1                2                3               
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano    summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono     summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno  summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
##           4                5                6                7               
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano    summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono     summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno  summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
##           8                9                10               11              
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano    summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono     summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno  summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
##           12               13               14               15              
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano    summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono     summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno  summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
##           16               17               18               19              
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano    summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono     summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno  summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
##           20               21               22               23              
## Primavera summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Verano    summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Otono     summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
## Invierno  summaryDefault,6 summaryDefault,6 summaryDefault,6 summaryDefault,6
train1_clean <- train1[complete.cases(train1[, c("Count", "Season", "hour")]),]

4. Contrucción diagrama de caja

boxplot(Count ~ Season,
        data = train1, 
        main = "Cantidad de Bicicletas Rentadas por Estación",
        xlab = "Estación del Año",
        ylab = "Total de Bicletas Rentadas", 
         col = c("#C0FF3E","gold1","firebrick1","#00BFFF"))

5. Interpretación de resultados

Los resultados muestran diferencias claras en la cantidad de bicicletas rentadas según la estación del año. Durante el verano y el otoño se registran las medianas más altas, lo que indica una mayor frecuencia de uso de bicicletas en estas estaciones, probablemente debido a condiciones climáticas más agradables y mayor actividad turística o recreativa. En contraste, la primavera presenta la mediana más baja y un rango intercuartílico más estrecho, lo que sugiere una menor y más constante demanda. El invierno, aunque también muestra una mediana menor comparada con verano y otoño, mantiene un rango amplio, lo que indica que, si bien la demanda baja, sigue habiendo momentos con alto número de alquileres. Además, la gran cantidad de valores atípicos (outliers) en todas las estaciones, especialmente en otoño y verano, revela que existen horas con picos inusuales de demanda, lo cual puede deberse a eventos específicos, fines de semana o condiciones climáticas particulares. Estos patrones estacionales deben ser tenidos en cuenta para mejorar la logística del sistema de bicicletas, anticipar la demanda y garantizar una adecuada disponibilidad del servicio durante todo el año.