Ecobici es un sistema de transporte público basado en la renta de bicicletas en la Ciudad de México. Cada viaje registrado genera información operacional sobre patrones de uso, tiempos de recorrido y dinámica de demanda entre estaciones. Si bien el sistema es ampliamente utilizado, enfrenta desafíos operativos que afectan su eficiencia y, por extensión, su rentabilidad.
Uno de los principales problemas del sistema es el desbalance de bicicletas entre estaciones. Durante las mañanas, las zonas residenciales suelen vaciarse rápidamente, mientras que las zonas corporativas se saturan. Esto obliga a la empresa a realizar un rebalanceo manual mediante camiones, generando costos operativos significativos.
Además, se ha observado que la mayoría de los viajes dura menos de 20 minutos, muy por debajo del límite de 45 minutos permitido por los planes estándar. Este patrón de uso plantea preguntas sobre cómo las duraciones de viaje y la dinámica temporal podrían relacionarse con decisiones operativas.
En este proyecto utilizamos técnicas de análisis de supervivencia para estudiar la duración de los viajes en Ecobici, identificando patrones que puedan apoyar la toma de decisiones operativas. A diferencia de otros métodos estadísticos, la supervivencia permite trabajar con tiempos, eventos e incluso datos incompletos (censurados), ofreciendo una visión más robusta del comportamiento real de los usuarios.
Los objetivos principales de este análisis son:
El propósito no es rediseñar el producto, sino aprovechar el análisis de supervivencia para comprender mejor el comportamiento del usuario y así informar decisiones operativas que podrían ayudar a mejorar la eficiencia y sostenibilidad del servicio.
Para este análisis se utilizó una base de datos compuesta por 1891319 viajes registrados en el sistema Ecobici. Con el fin de garantizar la validez estadística y operativa del estudio, se aplicó un proceso exhaustivo de depuración y preparación de datos.
Las columnas de fecha y hora de retiro y arribo fueron combinadas para obtener marcas de tiempo completas. A partir de estas marcas se calculó la duración exacta del viaje en minutos, que será la variable de tiempo fundamental para el análisis de supervivencia.
Se eliminaron observaciones que, por su naturaleza, no representan viajes reales o afectan la estabilidad de los estimadores:
Tras estos filtros, el conjunto final quedó conformado por 1843283 viajes válidos.
Para enriquecer el análisis y permitir la estratificación de las curvas de supervivencia, se generaron nuevas variables:
Estas variables permiten analizar la duración de los viajes desde distintas perspectivas temporales y operativas.
Este proceso garantiza que la información utilizada refleje de forma precisa el comportamiento de los usuarios y permite aplicar correctamente las técnicas de análisis de supervivencia en etapas posteriores.
Los datos provienen de registros de Ecobici, con las siguientes variables principales:
| Variable | Descripción |
|---|---|
| Genero_Usuario | Género del usuario (M (Masculino), F (Femenino)) |
| Edad_Usuario | Edad del usuario en años |
| Bici | Identificador único de la bicicleta utilizada |
| Ciclo_Estacion_Retiro | Identificador de la estación donde se retira la bicicleta |
| Fecha_Retiro y Hora_Retiro | Fecha y hora en que inicia el viaje |
| Ciclo_EstacionArribo | Identificador de la estación donde se devuelve la bicicleta |
| Fecha_Arribo y Hora_Arribo | Fecha y hora en que termina el viaje |
| datetime_retiro | Variable combinada de fecha y hora de inicio del viaje |
| datetime_arribo | Variable combinada de fecha y hora de llegada |
| duracion_min | Duración total del viaje expresada en minutos |
| dia_semana | Día de la semana en que se realizó el viaje (lunes a domingo) |
| hora_retiro | Hora del día (0–23) en la que se inició el viaje |
| tipo_dia | Clasificación del día como “Día Laboral” o “Fin de Semana” |
| ruta_viaje | Identificación del recorrido, combinando estación de retiro y de arribo |
Vamos a ver la distribución de las edades para saber qué tan joven o mayor es la gente que utiliza el servicio Ecobici.
Notamos que Ecobici es predominantemente utilizada por adultos jóvenes, con una edad de alrededor de 30 años. Aunque la base de usuarios disminuye significativamente con la edad, la distribución muestra que el servicio es accesible y utilizado por un amplio rango de edades, extendiéndose notablemente hasta los 60 y 70 años.
Analizamos cuántos viajes hicieron hombres y mujeres. La siguiente gráfica muestra esta comparación de forma muy clara:
Esta gráfica de barras nos muestra cuántos viajes en Ecobici hace cada género.Se ve claramente que los hombres (en azul) hacen muchos más viajes que las mujeres (en rosa), los hombres usan el servicio Ecobici más del doble de veces que las mujeres.
Vamos a analizar cuándo la gente usa más la Ecobici durante la semana. La siguiente gráfica muestra el número total de viajes que se hicieron en cada día:
La gráfica muestra cómo se distribuye el uso de Ecobici a lo largo de los siete días de la semana. Se observa claramente que el sistema es utilizado principalmente durante los días laborales.
Los días con mayor número de viajes son el jueves y el viernes, superando ligeramente los 300,000 viajes. El uso se mantiene alto y estable desde el lunes hasta el viernes, con el miércoles siendo el día ligeramente menos utilizado de la semana laboral.
En contraste, el uso cae drásticamente durante el fin de semana, especialmente el domingo, que es el día con la menor cantidad de viajes. Esto sugiere que el sistema Ecobici es una herramienta fundamentalmente de transporte diario (posiblemente para ir y volver del trabajo o la escuela) y no tanto un servicio de recreación de fin de semana.
Ahora analizamos a qué hora del día la gente saca las bicicletas.
La distribución confirma que el servicio es usado principalmente para los traslados diarios de trabajo o estudio.
Se identifican claramente dos horas pico de uso, lo cual es típico del transporte urbano: Pico Matutino: El uso se dispara a partir de las 6:00 a.m. y alcanza su punto más alto a las 8:00 a.m. Esto coincide con la hora en que la mayoría de las personas se dirigen a sus lugares de trabajo. Pico Vespertino: Un pico importante entre las 4:00 p.m. y 6:00 p.m., coincidiendo con la hora de salida y regreso a casa.
Fuera de estas horas pico, el uso es mucho menor. El análisis temporal revela un patrón de uso fuertemente utilitario. El uso se concentra de lunes a viernes, con claros picos de “ida al trabajo” (8-9 am) y “regreso a casa” (5-7 pm).
Revisamos cuánto tiempo duran los viajes que hacen los usuarios de Ecobici.
Ecobici se utiliza principalmente para trayectos cortos y rápidos, lo que lo muestra como un medio de transporte para distancias medias y como complemento al transporte público.
El comportamiento del usuario muestra una clara oportunidad de ingreso. La duración promedio del viaje es de 15.1 minutos. La Gráfica 5 muestra que la gran mayoría de los usuarios (más del 95%) termina su viaje mucho antes del límite “gratuito” de 45 minutos, por lo que la empresa no genera ingresos por tiempo extra.
Ahora vamos a comparar si hay alguna diferencia en el tiempo que usan la bicicleta los hombres y las mujeres en cada viaje
Tanto hombres como mujeres usan Ecobici para trayectos de duración muy parecida, no existe una diferencia significativa en la duración promedio del viaje entre los géneros.
El análisis espacial identifica el principal costo operativo: el desbalanceo de estaciones. Las Gráficas 7, 8 y 9 identifican los “hubs” y rutas más populares del sistema.
Revisamos desde dónde se inician más viajes. La siguiente gráfica de barras horizontales nos muestra el ‘Top 10’ de las estaciones más usadas para retirar una bicicleta
La demanda de inicio de viajes está fuertemente concentrada en la estación 271-272 ubicada en Jesús García en la colonia Buenavista, alcaldia Cuauhtémoc, mientras que el resto de las estaciones más populares tienen un uso bastante uniforme, los cuales se encuentran en zonas clave de negocios, turismo y actividad de la ciudad, como Reforma, Chapultepec, el Auditorio, y La Condesa. sugiriendo varios puntos importantes de conexión o acceso al sistema.
Ahora, esta siguiente gráfica nos dice dónde terminan más viajes.
La estación 271-272 vuelve a ser la más popular, pero ahora como destino. Esto la identifica como un punto donde se inicia y se finaliza la mayor cantidad de viajes. Las siguientes estaciones también tienen un alto volumen de arribos, lo que sugiere que las bicicletas se mueven constantemente en un circuito de alta actividad empresarial y comercial. Es importante notar que las estaciones más populares de inicio son casi idénticas a las de destino.
Finalmente, para ver cómo se conectan los puntos más usados, analizamos el Top 10 de las rutas o trayectos más populares. Esto nos dice qué estación a qué estación se mueve la gente con mayor frecuencia, revelando los ‘puentes’ de conexión más importantes del sistema.
La ruta 271-272 a 014, de Jesús García a Reforma es, por mucho, la más popular, Esto demuestra que el principal movimiento ocurre entre la estación líder 271-272 y otra estación cercana e importante 014. Notemos que puede deberse a que en la estación 271-272 se ubica cerca de un importante centro de transferencia, como el Metro Buenavista o Metro Revolución, mientras que la estación 014 se encuentra en un corredor de oficinas como Reforma donde no hay una estación de Metro cercana. Y es notable que, entre las 10 rutas más usadas, varias son el viaje de regreso de una ruta popular por ejemplo, la ruta 014 a 271-272.
Sin embargo, las Gráficas 8 y 9 son la evidencia clave. Gráfica 8 muestra las estaciones que se vacían sistemáticamente y Gráfica 9 muestra las que se saturan. Este desbalance obliga a un costoso operativo diario de rebalanceo. Algunas estaciones se quedan sin bicicletas constantemente porque la gente las saca mucho y llega muy poco. La siguiente gráfica muestra las 15 estaciones que tienen este problema, ya que la gente las usa más para iniciar un viaje que para terminarlo.
Las estaciones listadas son puntos de origen críticos en la ciudad que se quedan sin bicicletas constantemente debido a una alta demanda de salidas, siendo la estación 237-238 la que presenta el mayor desafío operativo por vaciamiento.
En contraste con la gráfica anterior, algunas estaciones sufren el problema opuesto: se llenan demasiado porque la gente deja la bicicleta allí con mucha frecuencia y muy pocos la sacan. La siguiente gráfica muestra las 15 estaciones que tienen este problema, ya que la gente las usa más para llegar que para salir de ellas.
Las estaciones listadas son destinos finales críticos que se llenan de bicicletas constantemente, siendo la estación 271-272 la que presenta el mayor desafío operativo por la necesidad de vaciarla para liberar espacios.
Para adaptar el conjunto de datos a un análisis de supervivencia, se definió como variable temporal la duración del viaje en minutos, interpretada como el tiempo que una bicicleta permanece en uso antes de ser devuelta.
La falla se definió como la devolución de la bicicleta, evento observable en todos los registros, por lo que la variable de estado toma el valor 1 en todos los casos.
Con el fin de analizar la dinámica de uso y extraer implicaciones operativas, se construyeron variables de segmentación: tipo de día (laboral o fin de semana), horario de retiro (pico o resto del dia), género del usuario y ruta origen–destino.
Este dataset permite aplicar métodos de supervivencia no paramétricos (Kaplan–Meier), comparaciones entre grupos y análisis de riesgo, útiles para comprender la duración esperada del uso de bicicletas y su relación con costos operativos como rebalanceo o disponibilidad.
Para estimar la función de supervivencia \(S(t)\) del tiempo de uso de bicicletas en Ecobici, aplicamos el estimador producto-límite de Kaplan-Meier
Este método es especialmente útil cuando no podemos asumir una distribución paramétrica para los tiempos, ya que no requiere hipótesis específicas sobre la forma de los datos.
Se construyó un objeto de supervivencia con la función Surv() de R, usando el tiempo de viaje (tiempo) como variable temporal y un indicador constante de evento (evento = 1) para cada viaje.
Luego, mediante la función survfit(), estimamos la curva de supervivencia. También calculamos intervalos de confianza usando la varianza estimada por el método de Greenwood, que es consistente con los planteamientos teóricos del libro. :contentReferenceoaicite:6
La gráfica resultante incluye la curva de supervivencia, su intervalo de confianza al 95 %, y una tabla de “número en riesgo” para cada punto de tiempo relevante. Esto permite:
Este análisis no paramétrico proporciona una base sólida para interpretar la “vida útil” de un viaje y sus implicaciones operativas sin asumir formas funcionales específicas de distribución para los tiempos.
Se estimó la función de supervivencia por separado para diferentes grupos de usuarios, utilizando el estimador de Kaplan-Meier estratificado. Esto permite comparar cómo cambia la duración del viaje según características del usuario o del contexto.
En este caso, se estimaron curvas de supervivencia según el género del usuario. La estratificación se realiza simplemente ajustando un modelo Kaplan-Meier independiente para cada grupo, lo que produce dos curvas que se pueden comparar visualmente y mediante una prueba estadística.
La gráfica resultante muestra que las curvas de supervivencia para hombres y mujeres son muy similares. Las probabilidades de “continuar en viaje” en cada instante son casi idénticas, especialmente durante los primeros 20 minutos, que es donde se concentra más del 95 % de los viajes.
El gráfico incluye el p-valor de la prueba Log-Rank, que evalúa si las curvas son estadísticamente distintas. Un p-valor alto confirma que no existen diferencias significativas en la duración del viaje entre hombres y mujeres, lo cual coincide con el análisis descriptivo previo.
Una vez estimadas las curvas de supervivencia para cada grupo, se aplicó la prueba Log-Rank con el fin de evaluar si las diferencias observadas entre las curvas son estadísticamente significativas.
La prueba Log-Rank compara la cantidad observada de eventos (terminación del viaje) en cada grupo contra la cantidad esperada bajo la hipótesis nula de que ambas poblaciones tienen la misma función de supervivencia.
Esta prueba es adecuada porque los datos tienen posibles censuras y no requiere suponer una forma funcional específica de la distribución del tiempo (no paramétrica).
En el análisis realizado, se aplicó la prueba para comparar la supervivencia según el género del usuario. Los resultados muestran un p-valor mayor a 0.05, lo que indica que no existe evidencia estadística para afirmar que la duración del viaje difiere entre hombres y mujeres.
Este resultado es consistente con las curvas de Kaplan-Meier previamente observadas, que mostraban trayectorias prácticamente idénticas.
## [1] 0
Además del estimador de Kaplan-Meier, es común analizar el riesgo acumulado mediante el estimador de Nelson-Aalen. Mientras que la función de supervivencia indica la probabilidad de que el viaje continúe después de cierto tiempo, la función de riesgo acumulado \(H(t)\) resume la intensidad acumulada con la que ocurre el evento (terminación del viaje) a través del tiempo.
El estimador de Nelson-Aalen se define como:
\[ \hat{H}(t) = \sum_{t_i \le t} \frac{d_i}{n_i} \]
donde:
Este estimador es útil porque:
En nuestro análisis, se estimó el riesgo acumulado para los viajes de Ecobici y se compararon curvas por género. Este análisis mostró que el riesgo acumulado es prácticamente idéntico para hombres y mujeres, lo cual coincide con los resultados anteriores de Kaplan-Meier y la prueba Log-Rank.
Las curvas estratificadas por tipo de día muestran que los viajes realizados en fines de semana tienden a durar ligeramente más tiempo que los realizados en días laborales. Esto es consistente con un uso menos utilitario y más recreativo los fines de semana, mientras que entre semana los viajes son más cortos y orientados al transporte diario (trabajo/escuela). La diferencia se observa principalmente después de los 15–20 minutos de duración.