Untitled

Datos

library(tidyverse)

datos <- data.table::fread("https://github.com/jbkunst/computacion-estadistica-EPG3308/raw/main/data/subidas_paradero_cluster.gz")

datos <- datos |> 
  as_tibble() |>  # por que? más adelante!
  mutate(cluster = LETTERS[cluster]) # simplemente para trabajar con una categoria

glimpse(datos)
Rows: 3,922
Columns: 4
$ paraderosubida           <chr> "ALCANTARA", "ALCANTARA", "ALCANTARA", "ALCAN…
$ mediahora                <dttm> 2015-01-01 05:30:00, 2015-01-01 06:00:00, 20…
$ subidas_laboral_promedio <dbl> 2.6, 13.2, 53.4, 184.8, 364.0, 546.2, 478.6, …
$ cluster                  <chr> "C", "C", "C", "C", "C", "C", "C", "C", "C", …
datos
# A tibble: 3,922 × 4
   paraderosubida mediahora           subidas_laboral_promedio cluster
   <chr>          <dttm>                                 <dbl> <chr>  
 1 ALCANTARA      2015-01-01 05:30:00                      2.6 C      
 2 ALCANTARA      2015-01-01 06:00:00                     13.2 C      
 3 ALCANTARA      2015-01-01 06:30:00                     53.4 C      
 4 ALCANTARA      2015-01-01 07:00:00                    185.  C      
 5 ALCANTARA      2015-01-01 07:30:00                    364   C      
 6 ALCANTARA      2015-01-01 08:00:00                    546.  C      
 7 ALCANTARA      2015-01-01 08:30:00                    479.  C      
 8 ALCANTARA      2015-01-01 09:00:00                    359   C      
 9 ALCANTARA      2015-01-01 09:30:00                    275.  C      
10 ALCANTARA      2015-01-01 10:00:00                    230.  C      
# … with 3,912 more rows

Replicar:

Intentos

1

datos_sanjoaquin <- datos |> 
  filter(paraderosubida == "SAN JOAQUIN")

ggplot(datos_sanjoaquin) +
  geom_line(aes(mediahora, subidas_laboral_promedio))

2

datos_sanjoaquin_uchile <- datos |> 
  filter(paraderosubida %in% c("SAN JOAQUIN", "UNIVERSIDAD DE CHILE"))

# ? por que?! 
ggplot(datos_sanjoaquin_uchile) +
  geom_line(aes(mediahora, subidas_laboral_promedio))

# En clases vimos group!
ggplot(datos_sanjoaquin_uchile) +
  geom_line(
    aes(x = mediahora, 
        y = subidas_laboral_promedio,
        group = paraderosubida)
  )

3, con smooth!

  • Que hace smooth?
  • Que hace smooth cuando se utiliza sin/con el mapping group?
ggplot(datos_sanjoaquin_uchile,
       aes(x = mediahora, y = subidas_laboral_promedio, group = paraderosubida)) +
  geom_line() +
  geom_smooth()
`geom_smooth()` using method = 'loess' and formula = 'y ~ x'

# En clases vimos group!
ggplot(datos_sanjoaquin_uchile,
       aes(x = mediahora, y = subidas_laboral_promedio, group = paraderosubida)) +
  geom_line() +
  geom_smooth(aes(group = NULL))
`geom_smooth()` using method = 'loess' and formula = 'y ~ x'

# Mejor que la versión anterior
ggplot(datos_sanjoaquin_uchile,
       aes(x = mediahora, y = subidas_laboral_promedio)) +
  geom_line(aes(group = paraderosubida)) +
  geom_smooth()
`geom_smooth()` using method = 'loess' and formula = 'y ~ x'

4 Ahora con facet?

ggplot(datos_sanjoaquin_uchile,
       aes(x = mediahora, y = subidas_laboral_promedio)) +
  geom_line(aes(group = paraderosubida)) +
  geom_smooth() +
  facet_wrap(vars(cluster))# son del mismo cluster XD
`geom_smooth()` using method = 'loess' and formula = 'y ~ x'