1 Introducción

2 Introducción

Ecobici es un sistema de transporte público basado en la renta de bicicletas en la Ciudad de México. Cada viaje registrado genera información operacional sobre patrones de uso, tiempos de recorrido y dinámica de demanda entre estaciones. Si bien el sistema es ampliamente utilizado, enfrenta desafíos operativos que afectan su eficiencia y, por extensión, su rentabilidad.

Uno de los principales problemas del sistema es el desbalance de bicicletas entre estaciones. Durante las mañanas, las zonas residenciales suelen vaciarse rápidamente, mientras que las zonas corporativas se saturan. Esto obliga a la empresa a realizar un rebalanceo manual mediante camiones, generando costos operativos significativos.

Además, se ha observado que la mayoría de los viajes dura menos de 20 minutos, muy por debajo del límite de 45 minutos permitido por los planes estándar. Este patrón de uso plantea preguntas sobre cómo las duraciones de viaje y la dinámica temporal podrían relacionarse con decisiones operativas.

En este proyecto utilizamos técnicas de análisis de supervivencia para estudiar la duración de los viajes en Ecobici, identificando patrones que puedan apoyar la toma de decisiones operativas. A diferencia de otros métodos estadísticos, la supervivencia permite trabajar con tiempos, eventos e incluso datos incompletos (censurados), ofreciendo una visión más robusta del comportamiento real de los usuarios.

Los objetivos principales de este análisis son:

  1. Definir el problema como uno de supervivencia, estableciendo la variable de tiempo y el evento de falla (terminación del viaje), así como la presencia de censura.
  2. Aplicar métodos no paramétricos, como el estimador de Kaplan–Meier, para describir la distribución de las duraciones de viaje.
  3. Examinar cómo las funciones de supervivencia cambian entre distintos segmentos, como día laboral vs. fin de semana, hora del día o tipo de estación.
  4. Interpretar los resultados en el contexto operativo, destacando cómo el comportamiento temporal de los usuarios puede influir en la demanda y en la necesidad de rebalanceo.
  5. Discutir las posibles implicaciones para la eficiencia del sistema, enfatizando lo que puede analizarse con la metodología utilizada.

El propósito no es rediseñar el producto, sino aprovechar el análisis de supervivencia para comprender mejor el comportamiento del usuario y así informar decisiones operativas que podrían ayudar a mejorar la eficiencia y sostenibilidad del servicio.

3 Metodología y Limpieza de Datos

4 Metodología y Limpieza de Datos

Para este análisis se utilizó una base de datos compuesta por 1891319 viajes registrados en el sistema Ecobici. Con el fin de garantizar la validez estadística y operativa del estudio, se aplicó un proceso exhaustivo de depuración y preparación de datos.

4.0.1 Integración de información temporal

Las columnas de fecha y hora de retiro y arribo fueron combinadas para obtener marcas de tiempo completas. A partir de estas marcas se calculó la duración exacta del viaje en minutos, que será la variable de tiempo fundamental para el análisis de supervivencia.

4.0.2 Filtrado de valores atípicos

Se eliminaron observaciones que, por su naturaleza, no representan viajes reales o afectan la estabilidad de los estimadores:

  • Viajes con duración menor a 2 minutos, considerados fallidos o movimientos accidentales.
  • Viajes con duración mayor a 3 horas, usualmente asociados a robos, fallas operativas o errores de registro.
  • Registros con edades no realistas (menores a 12 años o mayores a 90), producto de errores de captura o usuarios anómalos.

Tras estos filtros, el conjunto final quedó conformado por 1843283 viajes válidos.

4.0.3 Construcción de variables adicionales

Para enriquecer el análisis y permitir la estratificación de las curvas de supervivencia, se generaron nuevas variables:

  • dia_semana: día de la semana en el que ocurrió el viaje.
  • hora_retiro: hora del día en formato 24h para agrupar patrones horarios.
  • tipo_dia: clasificación entre día laboral y fin de semana o festivo.

Estas variables permiten analizar la duración de los viajes desde distintas perspectivas temporales y operativas.


Este proceso garantiza que la información utilizada refleje de forma precisa el comportamiento de los usuarios y permite aplicar correctamente las técnicas de análisis de supervivencia en etapas posteriores.

5 Análisis Descriptivo

Los datos provienen de registros de Ecobici, con las siguientes variables principales:

Variable Descripción
Genero_Usuario Género del usuario (M (Masculino), F (Femenino))
Edad_Usuario Edad del usuario en años
Bici Identificador único de la bicicleta utilizada
Ciclo_Estacion_Retiro Identificador de la estación donde se retira la bicicleta
Fecha_Retiro y Hora_Retiro Fecha y hora en que inicia el viaje
Ciclo_EstacionArribo Identificador de la estación donde se devuelve la bicicleta
Fecha_Arribo y Hora_Arribo Fecha y hora en que termina el viaje
datetime_retiro Variable combinada de fecha y hora de inicio del viaje
datetime_arribo Variable combinada de fecha y hora de llegada
duracion_min Duración total del viaje expresada en minutos
dia_semana Día de la semana en que se realizó el viaje (lunes a domingo)
hora_retiro Hora del día (0–23) en la que se inició el viaje
tipo_dia Clasificación del día como “Día Laboral” o “Fin de Semana”
ruta_viaje Identificación del recorrido, combinando estación de retiro y de arribo

5.1 Distribución de edades

Vamos a ver la distribución de las edades para saber qué tan joven o mayor es la gente que utiliza el servicio Ecobici.

Notamos que Ecobici es predominantemente utilizada por adultos jóvenes, con una edad de alrededor de 30 años. Aunque la base de usuarios disminuye significativamente con la edad, la distribución muestra que el servicio es accesible y utilizado por un amplio rango de edades, extendiéndose notablemente hasta los 60 y 70 años.

5.2 Uso de Ecobicis por género

Analizamos cuántos viajes hicieron hombres y mujeres. La siguiente gráfica muestra esta comparación de forma muy clara:

Esta gráfica de barras nos muestra cuántos viajes en Ecobici hace cada género.Se ve claramente que los hombres (en azul) hacen muchos más viajes que las mujeres (en rosa), los hombres usan el servicio Ecobici más del doble de veces que las mujeres.

5.3 ¿Cuándo se usa el servicio?

5.3.1 Viajes Totales por Día de la Semana

Vamos a analizar cuándo la gente usa más la Ecobici durante la semana. La siguiente gráfica muestra el número total de viajes que se hicieron en cada día:

La gráfica muestra cómo se distribuye el uso de Ecobici a lo largo de los siete días de la semana. Se observa claramente que el sistema es utilizado principalmente durante los días laborales.

Los días con mayor número de viajes son el jueves y el viernes, superando ligeramente los 300,000 viajes. El uso se mantiene alto y estable desde el lunes hasta el viernes, con el miércoles siendo el día ligeramente menos utilizado de la semana laboral.

En contraste, el uso cae drásticamente durante el fin de semana, especialmente el domingo, que es el día con la menor cantidad de viajes. Esto sugiere que el sistema Ecobici es una herramienta fundamentalmente de transporte diario (posiblemente para ir y volver del trabajo o la escuela) y no tanto un servicio de recreación de fin de semana.

5.3.2 Viajes Totales por Hora del Día

Ahora analizamos a qué hora del día la gente saca las bicicletas.

La distribución confirma que el servicio es usado principalmente para los traslados diarios de trabajo o estudio.

Se identifican claramente dos horas pico de uso, lo cual es típico del transporte urbano: Pico Matutino: El uso se dispara a partir de las 6:00 a.m. y alcanza su punto más alto a las 8:00 a.m. Esto coincide con la hora en que la mayoría de las personas se dirigen a sus lugares de trabajo. Pico Vespertino: Un pico importante entre las 4:00 p.m. y 6:00 p.m., coincidiendo con la hora de salida y regreso a casa.

Fuera de estas horas pico, el uso es mucho menor. El análisis temporal revela un patrón de uso fuertemente utilitario. El uso se concentra de lunes a viernes, con claros picos de “ida al trabajo” (8-9 am) y “regreso a casa” (5-7 pm).

5.4 ¿Cómo se usa el servicio?

Revisamos cuánto tiempo duran los viajes que hacen los usuarios de Ecobici.

Ecobici se utiliza principalmente para trayectos cortos y rápidos, lo que lo muestra como un medio de transporte para distancias medias y como complemento al transporte público.

El comportamiento del usuario muestra una clara oportunidad de ingreso. La duración promedio del viaje es de 15.1 minutos. La Gráfica 5 muestra que la gran mayoría de los usuarios (más del 95%) termina su viaje mucho antes del límite “gratuito” de 45 minutos, por lo que la empresa no genera ingresos por tiempo extra.

Ahora vamos a comparar si hay alguna diferencia en el tiempo que usan la bicicleta los hombres y las mujeres en cada viaje

Tanto hombres como mujeres usan Ecobici para trayectos de duración muy parecida, no existe una diferencia significativa en la duración promedio del viaje entre los géneros.

5.5 ¿Dónde se genera el problema de costos?

El análisis espacial identifica el principal costo operativo: el desbalanceo de estaciones. Las Gráficas 7, 8 y 9 identifican los “hubs” y rutas más populares del sistema.

Revisamos desde dónde se inician más viajes. La siguiente gráfica de barras horizontales nos muestra el ‘Top 10’ de las estaciones más usadas para retirar una bicicleta La demanda de inicio de viajes está fuertemente concentrada en la estación 271-272 ubicada en Jesús García en la colonia Buenavista, alcaldia Cuauhtémoc, mientras que el resto de las estaciones más populares tienen un uso bastante uniforme, los cuales se encuentran en zonas clave de negocios, turismo y actividad de la ciudad, como Reforma, Chapultepec, el Auditorio, y La Condesa. sugiriendo varios puntos importantes de conexión o acceso al sistema.

Ahora, esta siguiente gráfica nos dice dónde terminan más viajes.

La estación 271-272 vuelve a ser la más popular, pero ahora como destino. Esto la identifica como un punto donde se inicia y se finaliza la mayor cantidad de viajes. Las siguientes estaciones también tienen un alto volumen de arribos, lo que sugiere que las bicicletas se mueven constantemente en un circuito de alta actividad empresarial y comercial. Es importante notar que las estaciones más populares de inicio son casi idénticas a las de destino.

Finalmente, para ver cómo se conectan los puntos más usados, analizamos el Top 10 de las rutas o trayectos más populares. Esto nos dice qué estación a qué estación se mueve la gente con mayor frecuencia, revelando los ‘puentes’ de conexión más importantes del sistema.

La ruta 271-272 a 014, de Jesús García a Reforma es, por mucho, la más popular, Esto demuestra que el principal movimiento ocurre entre la estación líder 271-272 y otra estación cercana e importante 014. Notemos que puede deberse a que en la estación 271-272 se ubica cerca de un importante centro de transferencia, como el Metro Buenavista o Metro Revolución, mientras que la estación 014 se encuentra en un corredor de oficinas como Reforma donde no hay una estación de Metro cercana. Y es notable que, entre las 10 rutas más usadas, varias son el viaje de regreso de una ruta popular por ejemplo, la ruta 014 a 271-272.

5.5.1 Balanceo

Sin embargo, las Gráficas 8 y 9 son la evidencia clave. Gráfica 8 muestra las estaciones que se vacían sistemáticamente y Gráfica 9 muestra las que se saturan. Este desbalance obliga a un costoso operativo diario de rebalanceo. Algunas estaciones se quedan sin bicicletas constantemente porque la gente las saca mucho y llega muy poco. La siguiente gráfica muestra las 15 estaciones que tienen este problema, ya que la gente las usa más para iniciar un viaje que para terminarlo.

Las estaciones listadas son puntos de origen críticos en la ciudad que se quedan sin bicicletas constantemente debido a una alta demanda de salidas, siendo la estación 237-238 la que presenta el mayor desafío operativo por vaciamiento.

En contraste con la gráfica anterior, algunas estaciones sufren el problema opuesto: se llenan demasiado porque la gente deja la bicicleta allí con mucha frecuencia y muy pocos la sacan. La siguiente gráfica muestra las 15 estaciones que tienen este problema, ya que la gente las usa más para llegar que para salir de ellas.

Las estaciones listadas son destinos finales críticos que se llenan de bicicletas constantemente, siendo la estación 271-272 la que presenta el mayor desafío operativo por la necesidad de vaciarla para liberar espacios.

6 Adaptación del dataset a un Análisis de Supervivencia

Para adaptar el conjunto de datos a un análisis de supervivencia, se definió como variable temporal la duración del viaje en minutos, interpretada como el tiempo que una bicicleta permanece en uso antes de ser devuelta.

La falla se definió como la devolución de la bicicleta, evento observable en todos los registros, por lo que la variable de estado toma el valor 1 en todos los casos.

Con el fin de analizar la dinámica de uso y extraer implicaciones operativas, se construyeron variables de segmentación: tipo de día (laboral o fin de semana), horario de retiro (pico o resto del dia), género del usuario y ruta origen–destino.

Este dataset permite aplicar métodos de supervivencia no paramétricos (Kaplan–Meier), comparaciones entre grupos y análisis de riesgo, útiles para comprender la duración esperada del uso de bicicletas y su relación con costos operativos como rebalanceo o disponibilidad.


7 Estimación no paramétrica de la función de supervivencia

Para estimar la función de supervivencia \(S(t)\) del tiempo de uso de bicicletas en Ecobici, aplicamos el estimador producto-límite de Kaplan-Meier

Este método es especialmente útil cuando no podemos asumir una distribución paramétrica para los tiempos, ya que no requiere hipótesis específicas sobre la forma de los datos.

Se construyó un objeto de supervivencia con la función Surv() de R, usando el tiempo de viaje (tiempo) como variable temporal y un indicador constante de evento (evento = 1) para cada viaje.

Luego, mediante la función survfit(), estimamos la curva de supervivencia. También calculamos intervalos de confianza usando la varianza estimada por el método de Greenwood, que es consistente con los planteamientos teóricos del libro. :contentReferenceoaicite:6

La gráfica resultante incluye la curva de supervivencia, su intervalo de confianza al 95 %, y una tabla de “número en riesgo” para cada punto de tiempo relevante. Esto permite:

  • Visualizar cómo disminuye la probabilidad de “no haber terminado el viaje” conforme pasa el tiempo.
  • Identificar la mediana de la duración de los viajes.
  • Evaluar la precisión del estimador a lo largo del tiempo (ancho de los IC).

Este análisis no paramétrico proporciona una base sólida para interpretar la “vida útil” de un viaje y sus implicaciones operativas sin asumir formas funcionales específicas de distribución para los tiempos.

7.1 Curvas de Supervivencia Estratificadas

Se estimó la función de supervivencia por separado para diferentes grupos de usuarios, utilizando el estimador de Kaplan-Meier estratificado. Esto permite comparar cómo cambia la duración del viaje según características del usuario o del contexto.

En este caso, se estimaron curvas de supervivencia según el género del usuario. La estratificación se realiza simplemente ajustando un modelo Kaplan-Meier independiente para cada grupo, lo que produce dos curvas que se pueden comparar visualmente y mediante una prueba estadística.

La gráfica resultante muestra que las curvas de supervivencia para hombres y mujeres son muy similares. Las probabilidades de “continuar en viaje” en cada instante son casi idénticas, especialmente durante los primeros 20 minutos, que es donde se concentra más del 95 % de los viajes.

El gráfico incluye el p-valor de la prueba Log-Rank, que evalúa si las curvas son estadísticamente distintas. Un p-valor alto confirma que no existen diferencias significativas en la duración del viaje entre hombres y mujeres, lo cual coincide con el análisis descriptivo previo.

7.2 Prueba Log-Rank

Una vez estimadas las curvas de supervivencia para cada grupo, se aplicó la prueba Log-Rank con el fin de evaluar si las diferencias observadas entre las curvas son estadísticamente significativas.

La prueba Log-Rank compara la cantidad observada de eventos (terminación del viaje) en cada grupo contra la cantidad esperada bajo la hipótesis nula de que ambas poblaciones tienen la misma función de supervivencia.

  • Hipótesis nula (H₀): No existen diferencias en la duración del viaje entre los grupos.
  • Hipótesis alternativa (H₁): Las curvas de supervivencia son distintas.

Esta prueba es adecuada porque los datos tienen posibles censuras y no requiere suponer una forma funcional específica de la distribución del tiempo (no paramétrica).

En el análisis realizado, se aplicó la prueba para comparar la supervivencia según el género del usuario. Los resultados muestran un p-valor mayor a 0.05, lo que indica que no existe evidencia estadística para afirmar que la duración del viaje difiere entre hombres y mujeres.

Este resultado es consistente con las curvas de Kaplan-Meier previamente observadas, que mostraban trayectorias prácticamente idénticas.

## [1] 0

7.3 Estimador de Riesgo Acumulado (Nelson-Aalen)

Además del estimador de Kaplan-Meier, es común analizar el riesgo acumulado mediante el estimador de Nelson-Aalen. Mientras que la función de supervivencia indica la probabilidad de que el viaje continúe después de cierto tiempo, la función de riesgo acumulado \(H(t)\) resume la intensidad acumulada con la que ocurre el evento (terminación del viaje) a través del tiempo.

El estimador de Nelson-Aalen se define como:

\[ \hat{H}(t) = \sum_{t_i \le t} \frac{d_i}{n_i} \]

donde:

  • \(t_i\): tiempos en los que ocurre al menos un evento,
  • \(d_i\): número de eventos en \(t_i\),
  • \(n_i\): número de individuos en riesgo justo antes de \(t_i\).

Este estimador es útil porque:

  1. Es más estable que Kaplan-Meier cuando hay muchos tiempos repetidos, como en nuestro caso donde los tiempos de viaje están en minutos.
  2. Permite comparar cómo cambia el riesgo de terminar el viaje a lo largo del tiempo.

En nuestro análisis, se estimó el riesgo acumulado para los viajes de Ecobici y se compararon curvas por género. Este análisis mostró que el riesgo acumulado es prácticamente idéntico para hombres y mujeres, lo cual coincide con los resultados anteriores de Kaplan-Meier y la prueba Log-Rank.

Las curvas estratificadas por tipo de día muestran que los viajes realizados en fines de semana tienden a durar ligeramente más tiempo que los realizados en días laborales. Esto es consistente con un uso menos utilitario y más recreativo los fines de semana, mientras que entre semana los viajes son más cortos y orientados al transporte diario (trabajo/escuela). La diferencia se observa principalmente después de los 15–20 minutos de duración.