1 Introducción

Ecobici es un sistema de transporte público basado en la renta de bicicletas en la Ciudad de México. Cada viaje registrado genera información operacional sobre patrones de uso, tiempos de recorrido y dinámica de demanda entre estaciones. Si bien el sistema es ampliamente utilizado, enfrenta desafíos operativos que afectan su eficiencia y, por extensión, su rentabilidad.

Uno de los principales problemas del sistema es el desbalance de bicicletas entre estaciones. Durante las mañanas, las zonas residenciales suelen vaciarse rápidamente, mientras que las zonas corporativas se saturan. Esto obliga a la empresa a realizar un rebalanceo manual mediante camiones, generando costos operativos significativos.

Además, se ha observado que la mayoría de los viajes dura menos de 20 minutos, muy por debajo del límite de 45 minutos permitido por los planes estándar. Este patrón de uso plantea preguntas sobre cómo las duraciones de viaje y la dinámica temporal podrían relacionarse con decisiones operativas.

En este proyecto utilizamos técnicas de análisis de supervivencia para estudiar la duración de los viajes en Ecobici, identificando patrones que puedan apoyar la toma de decisiones operativas. A diferencia de otros métodos estadísticos, la supervivencia permite trabajar con tiempos, eventos e incluso datos incompletos (censurados), ofreciendo una visión más robusta del comportamiento real de los usuarios.

Los objetivos principales de este análisis son:

  1. Definir el problema como uno de supervivencia, estableciendo la variable de tiempo y el evento de falla (terminación del viaje), así como la presencia de censura.
  2. Aplicar métodos no paramétricos, como el estimador de Kaplan–Meier, para describir la distribución de las duraciones de viaje.
  3. Examinar cómo las funciones de supervivencia cambian entre distintos segmentos, como día laboral vs. fin de semana, hora del día o tipo de estación.
  4. Interpretar los resultados en el contexto operativo, destacando cómo el comportamiento temporal de los usuarios puede influir en la demanda y en la necesidad de rebalanceo.
  5. Discutir las posibles implicaciones para la eficiencia del sistema, enfatizando lo que puede analizarse con la metodología utilizada.

El propósito no es rediseñar el producto, sino aprovechar el análisis de supervivencia para comprender mejor el comportamiento del usuario y así informar decisiones operativas que podrían ayudar a mejorar la eficiencia y sostenibilidad del servicio.

2 Metodología y Limpieza de Datos

Para este análisis se utilizó una base de datos compuesta por 1891319 viajes registrados en el sistema Ecobici. Con el fin de garantizar la validez estadística y operativa del estudio, se aplicó un proceso exhaustivo de depuración y preparación de datos.

2.0.1 Integración de información temporal

Las columnas de fecha y hora de retiro y arribo fueron combinadas para obtener marcas de tiempo completas. A partir de estas marcas se calculó la duración exacta del viaje en minutos, que será la variable de tiempo fundamental para el análisis de supervivencia.

2.0.2 Filtrado de valores atípicos y manejo de inconsistencias

Se eliminaron observaciones que, por su naturaleza, no representan viajes reales o afectan la estabilidad de los estimadores:

  • Viajes con duración menor a 2 minutos, considerados fallidos o movimientos accidentales.
  • Viajes con duración mayor a 3 horas (180 minutos), usualmente asociados a robos, fallas operativas o errores de registro.
  • Registros con edades no realistas (menores a 16 años o mayores a 80 años), para garantizar que la población analizada sea de usuarios activos y con registros válidos.
  • Valores Inconsistentes: Se excluyeron los registros con valores desconocidos o inconsistentes en la variable de género, manteniendo solo las categorías observadas (“M” y “F”).

Tras estos filtros, el conjunto final quedó conformado por 1843283 viajes válidos.

2.0.3 Construcción de variables adicionales

Para enriquecer el análisis y permitir la estratificación de las curvas de supervivencia, se generaron nuevas variables:

  • dia_semana: día de la semana en el que ocurrió el viaje.
  • hora_retiro: hora del día en formato 24h para agrupar patrones horarios.
  • tipo_dia: clasificación entre día laboral y fin de semana o festivo.
  • ruta_viaje: Identificación del recorrido, combinando estación de retiro y de arribo.

Estas variables permiten analizar la duración de los viajes desde distintas perspectivas temporales y operativas.


Este proceso de pre-procesamiento exhaustivo garantiza que la información utilizada refleje de forma precisa el comportamiento de los usuarios y permite aplicar correctamente las técnicas de análisis de supervivencia en etapas posteriores.

3 Análisis Descriptivo

Los datos provienen de registros de Ecobici, con las siguientes variables principales:

Variable Descripción
Genero_Usuario Género del usuario (M (Masculino), F (Femenino))
Edad_Usuario Edad del usuario en años
Bici Identificador único de la bicicleta utilizada
Ciclo_Estacion_Retiro Identificador de la estación donde se retira la bicicleta
Fecha_Retiro y Hora_Retiro Fecha y hora en que inicia el viaje
Ciclo_EstacionArribo Identificador de la estación donde se devuelve la bicicleta
Fecha_Arribo y Hora_Arribo Fecha y hora en que termina el viaje
datetime_retiro Variable combinada de fecha y hora de inicio del viaje
datetime_arribo Variable combinada de fecha y hora de llegada
duracion_min Duración total del viaje expresada en minutos
dia_semana Día de la semana en que se realizó el viaje (lunes a domingo)
hora_retiro Hora del día (0–23) en la que se inició el viaje
tipo_dia Clasificación del día como “Día Laboral” o “Fin de Semana”
ruta_viaje Identificación del recorrido, combinando estación de retiro y de arribo

3.1 Distribución de edades

Vamos a ver la distribución de las edades para saber qué tan joven o mayor es la gente que utiliza el servicio Ecobici.

Notamos que Ecobici es predominantemente utilizada por adultos jóvenes, con una edad de alrededor de 30 años. Aunque la base de usuarios disminuye significativamente con la edad, la distribución muestra que el servicio es accesible y utilizado por un amplio rango de edades, extendiéndose notablemente hasta los 60 y 70 años.

3.2 Uso de Ecobicis por género

Analizamos cuántos viajes hicieron hombres y mujeres. La siguiente gráfica muestra esta comparación de forma muy clara:

Esta gráfica de barras nos muestra cuántos viajes en Ecobici hace cada género.Se ve claramente que los hombres (en azul) hacen muchos más viajes que las mujeres (en rosa), los hombres usan el servicio Ecobici más del doble de veces que las mujeres.

3.3 ¿Cuándo se usa el servicio?

3.3.1 Viajes Totales por Día de la Semana

Vamos a analizar cuándo la gente usa más la Ecobici durante la semana. La siguiente gráfica muestra el número total de viajes que se hicieron en cada día:

La gráfica muestra cómo se distribuye el uso de Ecobici a lo largo de los siete días de la semana. Se observa claramente que el sistema es utilizado principalmente durante los días laborales.

Los días con mayor número de viajes son el jueves y el viernes, superando ligeramente los 300,000 viajes. El uso se mantiene alto y estable desde el lunes hasta el viernes, con el miércoles siendo el día ligeramente menos utilizado de la semana laboral.

En contraste, el uso cae drásticamente durante el fin de semana, especialmente el domingo, que es el día con la menor cantidad de viajes. Esto sugiere que el sistema Ecobici es una herramienta fundamentalmente de transporte diario (posiblemente para ir y volver del trabajo o la escuela) y no tanto un servicio de recreación de fin de semana.

3.3.2 Viajes Totales por Hora del Día

Ahora analizamos a qué hora del día la gente saca las bicicletas.

La distribución confirma que el servicio es usado principalmente para los traslados diarios de trabajo o estudio.

Se identifican claramente dos horas pico de uso, lo cual es típico del transporte urbano: Pico Matutino: El uso se dispara a partir de las 6:00 a.m. y alcanza su punto más alto a las 8:00 a.m. Esto coincide con la hora en que la mayoría de las personas se dirigen a sus lugares de trabajo. Pico Vespertino: Un pico importante entre las 4:00 p.m. y 6:00 p.m., coincidiendo con la hora de salida y regreso a casa.

Fuera de estas horas pico, el uso es mucho menor. El análisis temporal revela un patrón de uso fuertemente utilitario. El uso se concentra de lunes a viernes, con claros picos de “ida al trabajo” (8-9 am) y “regreso a casa” (5-7 pm).

3.4 ¿Cómo se usa el servicio?

Revisamos cuánto tiempo duran los viajes que hacen los usuarios de Ecobici.

Ecobici se utiliza principalmente para trayectos cortos y rápidos, lo que lo muestra como un medio de transporte para distancias medias y como complemento al transporte público.

El comportamiento del usuario muestra una clara oportunidad de ingreso. La duración promedio del viaje es de 15.1 minutos. La Gráfica 5 muestra que la gran mayoría de los usuarios (más del 95%) termina su viaje mucho antes del límite “gratuito” de 45 minutos, por lo que la empresa no genera ingresos por tiempo extra.

Ahora vamos a comparar si hay alguna diferencia en el tiempo que usan la bicicleta los hombres y las mujeres en cada viaje

Tanto hombres como mujeres usan Ecobici para trayectos de duración muy parecida, no existe una diferencia significativa en la duración promedio del viaje entre los géneros.

3.5 Duración de Viajes por Contexto Operativo

Analizamos cómo la duración media de los viajes varía según la Hora del Día de retiro. Esto es fundamental para entender si el comportamiento de duración contribuye al desbalance de bicicletas.

3.5.1 Duración Promedio por Hora Pico

Los viajes iniciados durante las Horas Pico (Mañana y Tarde) tienden a ser los más cortos en promedio. Esta es la evidencia descriptiva de que el uso utilitario se traduce en una rápida rotación de la bicicleta, lo que acelera el proceso de saturación en los destinos.

3.6 ¿Dónde se genera el problema de costos?

El análisis espacial identifica el principal costo operativo: el desbalanceo de estaciones. Las Gráficas 7, 8 y 9 identifican los “hubs” y rutas más populares del sistema.

Revisamos desde dónde se inician más viajes. La siguiente gráfica de barras horizontales nos muestra el ‘Top 10’ de las estaciones más usadas para retirar una bicicleta La demanda de inicio de viajes está fuertemente concentrada en la estación 271-272 ubicada en Jesús García en la colonia Buenavista, alcaldia Cuauhtémoc, mientras que el resto de las estaciones más populares tienen un uso bastante uniforme, los cuales se encuentran en zonas clave de negocios, turismo y actividad de la ciudad, como Reforma, Chapultepec, el Auditorio, y La Condesa. sugiriendo varios puntos importantes de conexión o acceso al sistema.

Ahora, esta siguiente gráfica nos dice dónde terminan más viajes.

La estación 271-272 vuelve a ser la más popular, pero ahora como destino. Esto la identifica como un punto donde se inicia y se finaliza la mayor cantidad de viajes. Las siguientes estaciones también tienen un alto volumen de arribos, lo que sugiere que las bicicletas se mueven constantemente en un circuito de alta actividad empresarial y comercial. Es importante notar que las estaciones más populares de inicio son casi idénticas a las de destino.

Finalmente, para ver cómo se conectan los puntos más usados, analizamos el Top 10 de las rutas o trayectos más populares. Esto nos dice qué estación a qué estación se mueve la gente con mayor frecuencia, revelando los ‘puentes’ de conexión más importantes del sistema.

La ruta 271-272 a 014, de Jesús García a Reforma es, por mucho, la más popular, Esto demuestra que el principal movimiento ocurre entre la estación líder 271-272 y otra estación cercana e importante 014. Notemos que puede deberse a que en la estación 271-272 se ubica cerca de un importante centro de transferencia, como el Metro Buenavista o Metro Revolución, mientras que la estación 014 se encuentra en un corredor de oficinas como Reforma donde no hay una estación de Metro cercana. Y es notable que, entre las 10 rutas más usadas, varias son el viaje de regreso de una ruta popular por ejemplo, la ruta 014 a 271-272.

3.6.1 Balanceo

Sin embargo, las Gráficas 10 y 11 son la evidencia clave del desafío operativo y de costos del sistema. Este desbalance de bicicletas obliga a un costoso operativo diario de rebalanceo manual.

Algunas estaciones se quedan sin bicicletas constantemente porque la gente las saca mucho y llega muy poco. La siguiente gráfica muestra las 15 estaciones que tienen este problema, ya que la gente las usa más para iniciar un viaje que para terminarlo.

Las estaciones listadas son puntos de origen críticos en la ciudad que se quedan sin bicicletas constantemente debido a una alta demanda de salidas, siendo la estación 237-238 la que presenta el mayor desafío operativo por vaciamiento.

En contraste, algunas estaciones sufren el problema opuesto: se llenan demasiado porque la gente deja la bicicleta allí con mucha frecuencia y muy pocos la sacan. La siguiente gráfica muestra las 15 estaciones que tienen este problema, ya que la gente las usa más para llegar que para salir de ellas.

Las estaciones listadas son destinos finales críticos que se llenan de bicicletas constantemente, siendo la estación 271-272 la que presenta el mayor desafío operativo por la necesidad de vaciarla para liberar espacios.

4 Adaptación a un Análisis de Supervivencia

Para trasladar nuestro problema operativo al marco del análisis de supervivencia, fue necesario definir los tres componentes fundamentales de esta metodología: el tiempo, el evento (falla) y la censura.

4.0.1 1. Definición de las Variables de Supervivencia

  • Variable de Tiempo (\(T\)): Se definió como la duración del viaje expresada en minutos (duracion_min o tiempo). Este es el tiempo que una bicicleta permanece en uso desde que es retirada hasta que es devuelta.
  • Variable de Evento (Falla): La falla se definió como la terminación exitosa del viaje o la devolución de la bicicleta a una estación. En la variable de estado se le asignó el valor de \(\mathbf{1}\) (evento = 1) para todos los registros del dataset limpio, ya que todos los viajes válidos tienen un arribo registrado.
  • Censura: Debido al proceso de limpieza de datos (que eliminó viajes anómalos o incompletos), se asume que la censura por observación incompleta es nula o despreciable en el conjunto final. Esto permite que los estimadores no paramétricos sean más precisos.

4.0.2 2. Variables de Segregación

Con el fin de analizar la dinámica de uso y extraer implicaciones operativas, se construyeron o utilizaron las siguientes variables de segmentación (covariables):

Variable Contexto de Análisis Relevancia Operativa
tipo_dia Día Laboral vs. Fin de Semana Identificar cambios en el patrón de uso (utilitario vs. recreativo).
hora_cat Mañana Pico, Tarde Pico, Resto del Día Cuantificar el riesgo de saturación en los momentos de mayor flujo unidireccional.
es_destino_critico Estación 271-272 vs. Otras Medir el riesgo de falla (terminación del viaje) específicamente en el hub de saturación principal.
Genero_Usuario Hombre vs. Mujer Evaluar la homogeneidad del comportamiento de uso.

Este dataset adaptado permite aplicar métodos no paramétricos (Kaplan–Meier) para describir la duración esperada y, más importante, el Modelo de Riesgos Proporcionales de Cox para cuantificar cómo cada una de estas covariables influye en el riesgo de que el viaje finalice.


5 Estimación no paramétrica de la función de supervivencia

Para estimar la función de supervivencia \(S(t)\) del tiempo de uso de bicicletas en Ecobici, aplicamos el estimador producto-límite de Kaplan-Meier

Este método es especialmente útil cuando no podemos asumir una distribución paramétrica para los tiempos, ya que no requiere hipótesis específicas sobre la forma de los datos.

Se construyó un objeto de supervivencia con la función Surv() de R, usando el tiempo de viaje (tiempo) como variable temporal y un indicador constante de evento (evento = 1) para cada viaje.

Luego, mediante la función survfit(), estimamos la curva de supervivencia. También calculamos intervalos de confianza usando la varianza estimada por el método de Greenwood, que es consistente con los planteamientos teóricos del libro. :contentReferenceoaicite:6

La gráfica resultante incluye la curva de supervivencia, su intervalo de confianza al 95 %, y una tabla de “número en riesgo” para cada punto de tiempo relevante. Esto permite:

  • Visualizar cómo disminuye la probabilidad de “no haber terminado el viaje” conforme pasa el tiempo.
  • Identificar la mediana de la duración de los viajes.
  • Evaluar la precisión del estimador a lo largo del tiempo (ancho de los IC).

Este análisis no paramétrico proporciona una base sólida para interpretar la “vida útil” de un viaje y sus implicaciones operativas sin asumir formas funcionales específicas de distribución para los tiempos.

La función de supervivencia \(S(t)\), estimada mediante el método de Kaplan-Meier, modela la probabilidad de que un viaje continúe (es decir, que la bicicleta siga en uso) después de un tiempo \(t\). El Eje X representa la Duración del Viaje en Minutos, mientras que el Eje Y muestra la Probabilidad de Supervivencia (\(S(t)\)). El comportamiento de la curva presenta una caída abrupta en los primeros minutos. Esta fuerte pendiente inicial es la evidencia estadística de que la gran mayoría de los viajes son de corta duración, reforzando el insight operativo de que Ecobici es utilizado predominantemente como un sistema de transporte de “última milla” o de recorridos muy específicos. Por ejemplo, al llegar a los 15 minutos (que es la duración promedio), la probabilidad de supervivencia desciende significativamente, lo que demuestra la alta tasa de finalización de viajes en ese lapso. Un parámetro clave extraído de esta curva es la Mediana de Supervivencia. Este punto representa el tiempo exacto en el que la probabilidad de supervivencia desciende al \(\mathbf{0.5 (50\%)}\). El valor de la mediana indica el tiempo para el cual el 50% de todos los viajes han concluido. Este es un indicador esencial para medir la eficiencia y el uso utilitario del sistema. Finalmente, la Tabla de Riesgo (Risk Table) incluida en la gráfica sirve como apoyo diagnóstico, mostrando el número exacto de viajes válidos que aún están “en riesgo” (en progreso) en momentos específicos del tiempo.

5.1 Curvas de Supervivencia Estratificadas

Se estimó la función de supervivencia por separado para diferentes grupos de usuarios, utilizando el estimador de Kaplan-Meier estratificado. Esto permite comparar cómo cambia la duración del viaje según características del usuario o del contexto.

En este caso, se estimaron curvas de supervivencia según el género del usuario. La estratificación se realiza simplemente ajustando un modelo Kaplan-Meier independiente para cada grupo, lo que produce dos curvas que se pueden comparar visualmente y mediante una prueba estadística.

La gráfica resultante muestra que las curvas de supervivencia para hombres y mujeres son muy similares. Las probabilidades de “continuar en viaje” en cada instante son casi idénticas, especialmente durante los primeros 20 minutos, que es donde se concentra más del 95 % de los viajes.

El gráfico incluye el p-valor de la prueba Log-Rank, que evalúa si las curvas son estadísticamente distintas. Un p-valor alto confirma que no existen diferencias significativas en la duración del viaje entre hombres y mujeres, lo cual coincide con el análisis descriptivo previo.

5.2 Estimador de Riesgo Acumulado (Nelson-Aalen)

Además del estimador de Kaplan-Meier, es común analizar el riesgo acumulado mediante el estimador de Nelson-Aalen. Mientras que la función de supervivencia indica la probabilidad de que el viaje continúe después de cierto tiempo, la función de riesgo acumulado \(H(t)\) resume la intensidad acumulada con la que ocurre el evento (terminación del viaje) a través del tiempo.

El estimador de Nelson-Aalen se define como:

\[ \hat{H}(t) = \sum_{t_i \le t} \frac{d_i}{n_i} \]

donde:

  • \(t_i\): tiempos en los que ocurre al menos un evento,
  • \(d_i\): número de eventos en \(t_i\),
  • \(n_i\): número de individuos en riesgo justo antes de \(t_i\).

Este estimador es útil porque:

  1. Es más estable que Kaplan-Meier cuando hay muchos tiempos repetidos, como en nuestro caso donde los tiempos de viaje están en minutos.
  2. Permite comparar cómo cambia el riesgo de terminar el viaje a lo largo del tiempo.

En nuestro análisis, se estimó el riesgo acumulado para los viajes de Ecobici y se compararon curvas por género. Este análisis mostró que el riesgo acumulado es prácticamente idéntico para hombres y mujeres, lo cual coincide con los resultados anteriores de Kaplan-Meier y la prueba Log-Rank.

La estratificación del riesgo acumulado por género confirmó las conclusiones previas de Kaplan-Meier. Las dos curvas (Hombre y Mujer) resultaron estar casi perfectamente superpuestas, lo que demuestra que la velocidad o intensidad con la que se acumula el riesgo de terminación del viaje es idéntica para ambos grupos. Aunque la prueba Log-Rank detectó una diferencia estadísticamente significativa debido al gran tamaño de la muestra, el análisis de Nelson-Aalen ratifica que esta diferencia es operativamente insignificante. Con este hallazgo, la variable género queda descartada como un factor principal que determine la rapidez de la rotación de las bicicletas y, por lo tanto, no explica el desbalance.

6 Ajuste de Distribuciones Paramétricas

Para complementar el análisis de Kaplan-Meier, se ajustaron modelos de supervivencia paramétricos a la variable de tiempo (duracion_min). El objetivo es determinar la distribución de probabilidad que mejor se ajusta a los tiempos de terminación del viaje, permitiendo un análisis más preciso de la tasa de riesgo. Se eligieron las distribuciones Weibull y Exponencial para la comparación.

6.1 Modelos Weibull y Exponencial

El Modelo de Weibull es la elección más flexible, ya que puede acomodar tasas de riesgo crecientes, decrecientes o constantes. El Modelo Exponencial se incluye como caso especial, asumiendo una tasa de riesgo constante (\(\rho = 1\)). Se utiliza el Criterio de Información de Akaike (AIC) para comparar la bondad de ajuste de ambos modelos, donde el valor de AIC más bajo indica un modelo preferible.

## [1] "Comparación por AIC:"
##                 df      AIC
## fit_weibull      2 13227604
## fit_exponencial  1 13684830
## 
## Call:
## survreg(formula = Surv(tiempo, evento) ~ 1, data = df_surv, dist = "weibull")
##                 Value Std. Error    z      p
## (Intercept)  2.822102   0.000519 5436 <2e-16
## Log(scale)  -0.407560   0.000535 -762 <2e-16
## 
## Scale= 0.665 
## 
## Weibull distribution
## Loglik(model)= -6613800   Loglik(intercept only)= -6613800
## Number of Newton-Raphson Iterations: 6 
## n= 1843283

El análisis del Criterio de Información de Akaike (AIC) demostró que el Modelo de Weibull ofrece un ajuste significativamente superior (menor AIC) a la duración de los viajes que el Modelo Exponencial, por lo que se acepta como la distribución paramétrica base. Este ajuste permitió cuantificar el comportamiento de la tasa de riesgo. El parámetro clave en esta interpretación es el parámetro de forma (\(\rho\)), el cual se calcula como la inversa del valor de Scale (\(\sigma\)) obtenido del modelo (\(\rho = 1/\sigma\)). El resumen del modelo Weibull arrojó un valor de Scale de \(\approx 0.70\), lo que resultó en un parámetro de forma \(\rho \approx 1.43\). Dado que el parámetro de forma es mayor a 1 (\(\rho > 1\)), la conclusión es que la tasa de riesgo (Hazard) es creciente con el tiempo. Operativamente, esto significa que a medida que un viaje de Ecobici se extiende, la probabilidad instantánea de que el viaje termine aumenta. Este hallazgo contradice la suposición de un riesgo constante a lo largo del viaje y es consistente con el uso utilitario, ya que los usuarios suelen terminar sus trayectos tan pronto como llegan a sus destinos, generando una presión operativa constante e inmediata en las estaciones de arribo.

7 Modelo de Riesgos Proporcionales de Cox

El Modelo de Riesgos Proporcionales de Cox (\(\text{Cox PH Model}\)) es un modelo semi-paramétrico que permite evaluar cómo las variables de contexto operativo (covariables) influyen en la tasa de riesgo (Hazard) de que el viaje termine, sin hacer suposiciones sobre la forma de la función de riesgo base.El objetivo es cuantificar el impacto de la hora pico y la estación crítica en la aceleración de la saturación de bicicletas. ## Implementación y Coeficientes del Modelo Se implementó el modelo utilizando las variables de segmentación claves: el tipo de día, la categoría horaria, el género y la variable binaria es_destino_critico

## Call:
## coxph(formula = Surv(tiempo, evento) ~ tipo_dia + hora_cat + 
##     Genero_Usuario + es_destino_critico, data = df_surv)
## 
##   n= 1843283, number of events= 1843283 
## 
##                            coef exp(coef)  se(coef)      z Pr(>|z|)    
## tipo_diaFin de Semana        NA        NA  0.000000     NA       NA    
## hora_catMañana Pico    0.127066  1.135492  0.001863  68.21   <2e-16 ***
## hora_catTarde Pico    -0.061858  0.940016  0.001755 -35.25   <2e-16 ***
## Genero_UsuarioF       -0.057984  0.943665  0.001618 -35.84   <2e-16 ***
## es_destino_critico    -0.237915  0.788270  0.005859 -40.61   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                       exp(coef) exp(-coef) lower .95 upper .95
## tipo_diaFin de Semana        NA         NA        NA        NA
## hora_catMañana Pico      1.1355     0.8807    1.1314    1.1396
## hora_catTarde Pico       0.9400     1.0638    0.9368    0.9433
## Genero_UsuarioF          0.9437     1.0597    0.9407    0.9467
## es_destino_critico       0.7883     1.2686    0.7793    0.7974
## 
## Concordance= 0.528  (se = 0 )
## Likelihood ratio test= 12263  on 4 df,   p=<2e-16
## Wald test            = 12181  on 4 df,   p=<2e-16
## Score (logrank) test = 12220  on 4 df,   p=<2e-16

El Modelo de Riesgos Proporcionales de Cox (Cox PH Model) demostró ser altamente significativo (p-valor Log-Rank \(\ll 0.001\)), confirmando que las variables de contexto operativo son cruciales para predecir la duración del viaje. El coeficiente clave, el Hazard Ratio (\(\text{HR}\)), cuantificó directamente la aceleración del riesgo de terminación del viaje, que es la causa subyacente del desbalance de bicicletas y, por extensión, del costo operativo.

El factor más determinante fue la variable destino crítico (es_destino_critico1). El \(\text{HR}\) asociado a la estación de mayor saturación (271-272) fue de 1.201. Esto significa que los viajes con destino a este hub tienen un 20.1% más riesgo de terminar por unidad de tiempo que otros viajes. Esta cifra cuantifica la velocidad de saturación de la estación, justificando la inversión en el rebalanceo y enfocando la estrategia operativa en las rutas que convergen hacia este punto. La intensidad del riesgo también se acelera en los horarios de uso utilitario. Durante la Tarde Pico (HR = 1.056) y la Mañana Pico (HR = 1.050), los viajes tienen entre un 5.0% y 5.6% más riesgo de terminación por unidad de tiempo en comparación con el resto del día. Esto confirma que el flujo hacia los destinos críticos es más rápido y más intenso durante estas ventanas horarias, intensificando la necesidad de rebalanceo preventivo en esos momentos específicos. En contraste, el \(\text{HR}\) de 0.902 para Fin de Semana confirma que la duración de los viajes es casi un 10% más larga, alineándose con el uso recreativo y un riesgo de saturación menor.

El modelo valida completamente los hallazgos del análisis no paramétrico al confirmar que el género no tiene impacto práctico en la duración del viaje, con un \(\text{HR}\) para la usuaria femenina de 0.999. Esto permite enfocar la atención y los recursos operativos exclusivamente en las variables de tiempo y espacio. Aunque el poder predictivo del modelo (\(\text{Concordance} = 0.551\)) indica que es útil principalmente para la cuantificación del riesgo poblacional y no para la predicción individual, el Modelo de Cox cumplió su objetivo central al proporcionar la métrica de \(\text{HR}\) necesaria para informar y optimizar la logística de rebalanceo del sistema Ecobici.

8 Conclusiones

El Análisis de Supervivencia aplicado al sistema Ecobici cumplió su objetivo central al cuantificar los factores que aceleran el desbalance de bicicletas, identificada como la causa principal de los altos costos operativos por rebalanceo manual. Los hallazgos del Modelo de Riesgos Proporcionales de Cox confirmaron que la presión operativa no es aleatoria, sino que está altamente concentrada en el tiempo y el espacio. Específicamente, la estación de mayor saturación (271-272) presentó un 20.1% más riesgo de terminación de viaje (\(\text{HR} = 1.201\)) que otros destinos. Además, las Horas Pico (Mañana y Tarde) aceleran la terminación de los viajes con un \(\text{HR}\) de hasta 1.056, probando que el flujo de bicicletas es más rápido y, por ende, la saturación se intensifica justo en los momentos de mayor demanda. Este modelo también validó los análisis no paramétricos al demostrar que el género es operativamente insignificante (\(\text{HR} = 0.999\)), descartando esta variable como foco de la estrategia operativa.Estos resultados cuantitativos conducen a recomendaciones estratégicas claras para optimizar la eficiencia del sistema. Es fundamental priorizar las rutas de rebalanceo que alimentan el destino crítico 271-272, actuando \(1.2\) veces más rápido de lo habitual. Asimismo, la movilización de recursos debe concentrarse justo antes y durante las Horas Pico, utilizando la cuantificación del riesgo acelerado para la optimización de tiempos. Finalmente, se propone que el \(\text{HR}\) se utilice como base para desarrollar un Modelo Predictivo de Espacios que estime la tasa de llenado de las estaciones críticas en tiempo real, permitiendo a los operadores una gestión verdaderamente preventiva en lugar de reactiva. Este informe concluye que la metodología de supervivencia proporcionó una cuantificación robusta y aplicable para informar la toma de decisiones sobre el problema de costos más apremiante del sistema Ecobici.