Introducción

El Metro de Madrid sufrió una pérdida de calidad como consecuencia de la crisis económica del 2008. La frecuencia de trenes se redujo dando lugar a frecuentes aglomeraciones, sobre todo en hora punta. La falta de inversión afectó a escaleras mecánicas y ascensores que frecuentemente estaban averiados y a los servicios de limpieza.

Como consecuencia, los viajeros se quejaban frecuentemente del servicio en Twitter y aparecieron perfiles como @SufridoresMetro que denunciaban el mal estado de este transporte público. Pensé que cuantificar estas quejas de los viajeros del metro podrían convertir a sus usuarios en un sensor de la calidad del servicio.

Mapa Metroaverías

Mapa Metroaverías

Metro averías es un proyecto que arranqué en el 2014 mientras estaba realizando mi tesis sobre Caracterización de usuarios y propagación de mensajes en Twitter en el entorno de temas sociales. En 2015 publiqué un artículo en el IEEE Internet Computing titulado Microbloggers as sensors for public transport breakdowns.

Desde marzo de 2014 hasta la fecha se han recogido todos los tweets que mencionan al Metro de Madrid o a su perfil en @metro_madrid en Twitter, salvo un periodo entre septiembre de 2017 a agosto de 2018 que no se descargaron datos por problemas de infraestructura.

Los datos se obtienen con t-hoarder y se procesan de forma especial para detectar las averías del Metro de Madrid con esta metodología. Los resultados se depositan en este repositorio y están abiertos al que los quiera utilizar.

library(readr)
library(dplyr)
library(tidyr)
library(ggplot2)
library(stringr)
library(lubridate)
require(RCurl)
locale(date_names = "es", date_format = "%AD", time_format = "%AT",
       decimal_mark = ",", grouping_mark = ".", tz = "UTC",
       encoding = "UTF-8", asciify = FALSE)
<locale>
Numbers:  123.456,78
Formats:  %AD / %AT
Timezone: UTC
Encoding: UTF-8
<date_names>
Days:   domingo (dom.), lunes (lun.), martes (mar.), miércoles (mié.), jueves (jue.), viernes (vie.),
        sábado (sáb.)
Months: enero (ene.), febrero (feb.), marzo (mar.), abril (abr.), mayo (may.), junio (jun.), julio (jul.),
        agosto (ago.), septiembre (sept.), octubre (oct.), noviembre (nov.), diciembre (dic.)
AM/PM:  a. m./p. m.

Descarga y preparación de datos para las gráficas

urlfile_complaints<-"https://raw.githubusercontent.com/congosto/metroaverias/master/data/metro_madrid_topics.csv"
urlfile_lines<-"https://raw.githubusercontent.com/congosto/metroaverias/master/data/metro_madrid_lines.csv"
DiaSemana <- c('domingo','lunes','martes','miércoles','jueves','viernes','sábado')
Meses <- c ("Ene","Feb","Mar","Abr","May","Jun","Jul","Ago","Sep","Oct","Nov","Dic")
complaints<-read.csv2( urlfile_complaints,encoding = "UTF-8")

df_complaints_ancha <- data.frame(complaints)
df_complaints_ancha$Date <- as.Date(df_complaints_ancha$Date,format="%Y-%m-%d")
df_complaints_larga <- gather(df_complaints_ancha,"complaint", "Count", -"Date") 
df_complaints_larga <- mutate (df_complaints_larga, Year = as.numeric(format(Date,'%Y')))
df_complaints_larga <- mutate (df_complaints_larga, Month = as.numeric(format(Date,'%m')))
df_complaints_larga <- mutate (df_complaints_larga, DiaSem=wday(Date))

lines<-read.csv2( urlfile_lines,encoding = "UTF-8")

df_lines_ancha <- data.frame(lines)
df_lines_ancha$Date <- as.Date(df_lines_ancha$Date,format="%Y-%m-%d")
df_lines_larga <- gather(df_lines_ancha,"Line", "Count", -"Date") 
df_lines_larga <- mutate (df_lines_larga, Year = as.numeric(format(Date,'%Y')))

Quejas más frecuentes

Las quejas analizadas fueron: slowness (lentitud), entrance (accesos), breakdown (avería), heat (calor), odor (olor), overcrowding (aglomeración), dirtiness (suciedad), control(control de billetes), price (precio), flood (inundación), covid-19 (posibles quejas por covid-19).

Se ha utilizado la mediana en vez de la media porque había valores atípicos (picos de quejas) que podrían distorsionar la comparación.

De todas estas quejas, las más frecuentes por este orden han sido: slowness, entrance, heat y overcrowding.

Destaca sobre todas slowness que tiene una mediana más de tres veces superior a la siguiente queja

df_complaints_larga  %>%  select (complaint,Count) %>%
                     group_by(complaint) %>%  
                     summarise ( Mediana=median(Count), .groups = 'drop')  %>%
  ggplot (aes(x =  reorder(complaint,Mediana), y = Mediana)) +
  geom_col(color = "white",
           fill = "cornflowerblue" )+
  coord_flip() + 
  guides(color = FALSE)+
  geom_text( aes(label= round(Mediana,2)),colour="white",size=3,
           position=position_stack(vjust = 0.5))+
  theme(text=element_text(size=9))+
  theme(plot.title=element_text(size=10,face="bold"))+
  labs(x = "Quejas", y = "Mediana de quejas/día",
       title = "Mediana del número de quejas diarias")+
ggsave("../images/mediana_quejas_diarias.jpg")

Quejas más frecuentes por año

Si miramos la mediana de quejas diarias por año, se observa que de slowness va descendiendo en los años 2015, 2016 y 2017 para aumentar fuertemente en los años 2018 y 2019, volviendo a descender en el 2020. y que la mediana de covid-19 es la mayor en el año 2020.

df_complaints_larga  %>%  select (complaint,Count,Year) %>%
                     group_by(complaint,Year) %>% 
                     summarise ( Mediana=median(Count), .groups = 'drop')  %>%
  ggplot (aes(x =  reorder(complaint,Mediana), y = Mediana)) +
  geom_col(color = "white",
           fill = "cornflowerblue" )+
  coord_flip() + 
  guides(color = FALSE)+
  theme(text=element_text(size=9))+
  theme(plot.title=element_text(size=10,face="bold"))+
  labs(x = "Quejas", y = "Mediana de quejas/día",
       title = "Mediana del número de quejas diarias por año")+
  facet_wrap(~ Year) 
ggsave("../images/mediana_quejas_diarias_year.jpg")

Mediana del múmero de quejas por mes

En los meses de verano es cuando hay más quejas de lentitud, posiblemente porque se reduce la frecuencia de los trenes por las vacaciones.

df_complaints_larga  %>%  select (Count,Month,complaint)  %>%
                     group_by(Month,complaint) %>%  
                     summarise ( Mediana=median(Count), .groups = 'drop')  %>% 
  ggplot () +
  geom_step(aes(x =  Month, y = Mediana, color=reorder(complaint,-Mediana)) )+
  guides(title = "")+

  theme(text=element_text(size=9))+
         theme(plot.title=element_text(size=10,face="bold"))+
  scale_x_continuous(breaks=c(1,2,3,4,5,6,7,8,9,10,11,12), 
                              labels=Meses)+  
  labs(x = "Meses", y = "Mediana de quejas/día",
       title = "Mediana del múmero de quejas por mes")+
ggsave("../images/mediana_quejas_mes.jpg") 

Mediana del múmero de quejas por mes y año

Desglosándolo por años, persiste el aumento de quejas en los meses de verano. En el año 2020 la quejas por covid-19 desbancan a las de slowness.

df_complaints_larga  %>%  select (Count,Month,complaint,Year)  %>%
                     group_by(Month,complaint,Year) %>%  
                     summarise ( Mediana=median(Count), .groups = 'drop')  %>% 
  ggplot () +
  geom_step(aes(x =  Month, y = Mediana, color=reorder(complaint,-Mediana)) )+
  guides(title = "")+

  theme(text=element_text(size=9))+
         theme(plot.title=element_text(size=10,face="bold"))+
  scale_x_continuous(breaks=c(1,2,3,4,5,6,7,8,9,10,11,12))+  
  labs(x = "Meses", y = "Mediana de quejas/día",
       title = "Mediana del múmero de quejas por mes y año")+
  facet_wrap(~ Year)
ggsave("../images/mediana_quejas_mes_year.jpg") 

Mediana del múmero de quejas por dia de la semana

La mitad de la semana, el miércoles, es cuando se producen más quejas. Bajan significativamente los fines de semana

df_complaints_larga  %>%  select (Count,DiaSem,complaint)  %>%
                     group_by(DiaSem,complaint) %>%  
                     summarise ( Mediana=median(Count), .groups = 'drop')  %>% 
  ggplot () +
  geom_step(aes(x =  DiaSem, y = Mediana, color=reorder(complaint,-Mediana)) )+
  guides(title = "")+

  theme(text=element_text(size=9))+
         theme(plot.title=element_text(size=10,face="bold"))+
  scale_x_continuous(breaks=c(1,2,3,4,5,6,7), 
                              labels=DiaSemana)+  
  labs(x = "Días de la semana", y = "Mediana de quejas/día",
       title = "Mediana del múmero de quejas por día de la semana")+
ggsave("../images/mediana_quejas_dia_sem.jpg") 

Mediana del número de quejas diarias por línea

Las líneas con más quejas son la L1, L6 y L5, posiblemente por ser las más largas y concurridas

df_lines_larga  %>%  select (Line,Count) %>%
                     group_by(Line) %>% 
                     summarise ( Mediana=median(Count), .groups = 'drop')  %>%
  ggplot (aes(x =  reorder(Line,Mediana), y = Mediana,color = Line)) +
  geom_col(color = "white",
           fill = "cornflowerblue" )+
  coord_flip() + 
  guides(color = FALSE)+
  geom_text( aes(label= round(Mediana,2)),colour="white",size=3,
           position=position_stack(vjust = 0.5))+
  theme(text=element_text(size=9))+
  theme(plot.title=element_text(size=10,face="bold"))+
  labs(x = "Líneas", y = "Mediana de quejas/día",
       title = "Mediana del número de quejas diarias por línea")+
ggsave("../images/mediana_quejas_diarias_linea.jpg") 

Mediana del número de quejas diarias por línea y año

Salvo en el año 2015, la línea con más quejas fue la L1. En todos los años las líneas L1,L6 y L5 estuvieron en el top de quejas.

df_lines_larga  %>%  select (Line,Count,Year) %>%
                     group_by(Line,Year) %>% 
                     summarise ( Mediana=median(Count), .groups = 'drop')  %>%
  ggplot (aes(x =  reorder(Line,Mediana), y = Mediana,color = Line)) +
  geom_col(color = "white",
           fill = "cornflowerblue" )+
  coord_flip() + 
  guides(color = FALSE)+
  theme(text=element_text(size=9))+
  theme(plot.title=element_text(size=10,face="bold"))+
  labs(x = "Líneas", y = "Mediana de quejas/día",
       title = "Mediana del número de quejas diarias por línea")+
  facet_wrap(~ Year)
ggsave("../images/mediana_quejas_diarias_linea_year.jpg") 

Evolución de las quejas Lentitud (Slowness) y Aglomeración (Overcrowding) durante el periodo 2014- 2020

Para analizar la evolución de las quejas se han seleccionado las quejas slowness y Overcrowding que son las que más preocupan por su relación con posibles contagios en el Metro de Madrid.

En la gráfica se puede observar los picos de actividad y una ausencia de datos, por problemas de infraestructura, entre septiembre de 2017 a agosto de 2018.

df_complaints_larga  %>%  filter(complaint == "Slowness" | complaint == "Overcrowding" ) %>%
  ggplot () +
  geom_step(  aes(x = Date, y = Count, color=complaint))+
  scale_colour_manual('', values = c('#B40F20','#46ACC8')) +
  theme(text=element_text(size=9))+
  theme(plot.title=element_text(size=9,face="bold"))+
  labs(x = "Tiempo en días", y = "Núnero de quejas",
       title = "Evolución de las quejas del metro de Madrid 2014-2020")+
  annotate(geom="text",x=as.Date("2017-09-09"),y=600,
           label="Stop datos\n2017-09-09",size=2.5,color="red",
           hjust = 1,fontface = 'italic')+
  annotate(geom="text",x=as.Date("2018-06-11"),y=1000,
           label="reanudar datos\n2018-06-11",size=2.5,color="red",hjust = 1,
           fontface = 'italic')+
  annotate(geom="text",x=as.Date("2020-03-16"),y=3000,
           label="confinamiento\n2020-03-16",size=2.5,color="red",
           hjust = 1,fontface = 'italic')

ggsave("../images/complaint_2014_2020.jpg") 

Evolución de las quejas Lentitud (Slowness) y Aglomeración (Overcrowding) durante el periodo 2019-2020

Seleccionando sólo los años 2019 y 2020 se puede comparar las quejas del año 2020, un año atípico por el covid-19, respecto a las del 2019.

df_complaints_larga  %>%  filter(complaint == "Slowness" | complaint == "Overcrowding",
                                 Year == "2020" | Year == "2019" ) %>%
  ggplot () +
  geom_step(  aes(x = Date, y = Count, color=complaint))+
  scale_colour_manual('', values = c('#B40F20','#46ACC8')) +
  theme(text=element_text(size=9))+
  theme(plot.title=element_text(size=9,face="bold"))+
  labs(x = "Tiempo en días", y = "Núnero de quejas",
       title = "Evolución de las quejas del metro de Madrid 2019-2020")+
  annotate(geom="text",x=as.Date("2020-03-16"),y=3000,
           label="confinamiento\n2020-03-16",size=2.5,color="red",
           hjust = 1,fontface = 'italic')

ggsave("../images/complaint_2019_2020.jpg") 

Evolución de las quejas Lentitud (Slowness), Aglomeración (Overcrowding) y COVID-19 durante el año 2020

Seleccionando sólo el año 2020 e incluyendo la queja de covid-19 se observa como las quejas de covid-19 han superado ampliamente a las otras dos, tanto en momentos puntuales como continuos.

df_complaints_larga  %>%  filter(complaint == "Slowness" | complaint == "Overcrowding" | complaint == "COVID.19" ,
                                Year == "2020" ) %>%
  ggplot () +
  geom_step(  aes(x = Date, y = Count, color=complaint))+
  scale_colour_manual('', values = c('#EC33FF','#B40F20','#46ACC8')) +
  theme(text=element_text(size=9))+
  theme(plot.title=element_text(size=10,face="bold"))+
  labs(x = "Tiempo en días", y = "Núnero de quejas",
       title = "Evolución de las quejas del metro de Madrid en 2020")+
  annotate(geom="text",x=as.Date("2020-03-16"),y=20000,
           label="confinamiento\n2020-03-16",size=2.5,color="red",
           hjust = 1,fontface = 'italic')
ggsave("../images/complaint_2020.jpg") 

