Introducción

Desde su fundación en 2009, Uber Technologies Inc. ha redefinido el paisaje del transporte urbano a nivel mundial (Cenizo, 2020). Como pionera en la economía colaborativa, Uber ha democratizado el acceso al transporte privado, ofreciendo a los usuarios una alternativa conveniente a los servicios de taxi tradicionales (Doménech, 2015). La continua expansión y diversificación de sus servicios reflejan su compromiso con la innovación y la adaptación a las cambiantes demandas del mercado (Aliaga, 2018). Entre estas innovaciones, Express POOL, lanzado en 2018, se destaca como un ejemplo clave de cómo Uber busca optimizar la eficiencia de su plataforma y mejorar la accesibilidad del transporte compartido (Cenizo, 2020).

Express POOL, una extensión del servicio POOL existente, ofrece una solución más económica y eficiente para el transporte compartido, incentivando a los usuarios a caminar una corta distancia para sus puntos de recogida y entrega (Hemel, 2017). Esta modalidad no solo reduce los tiempos de espera y viaje, sino que también contribuye a disminuir la congestión del tráfico y la huella de carbono (Suberviola). Sin embargo, la implementación de tales innovaciones no está exenta de desafíos, especialmente en lo que respecta a la aceptación por parte de los usuarios y la logística operativa (Jehano, 2019).

El análisis de datos juega un papel crucial en la evaluación y el desarrollo de servicios como Express POOL. Utilizando datos detallados de viajes, cancelaciones y pagos a conductores, Uber puede obtener insights valiosos sobre el comportamiento del usuario y la eficiencia del servicio (Kim & park, 2021). Este estudio se enfoca en un experimento realizado en Boston, donde se modificaron los tiempos de espera del servicio Express POOL. A través de un análisis cuidadoso de estas variables, se busca entender el impacto de estos cambios en la experiencia del usuario y en la rentabilidad del servicio (Lo & Morseman , 2018).

En este contexto, el presente estudio tiene como objetivo analizar el efecto de ampliar los tiempos de espera de 2 a 5 minutos en el servicio Express POOL, considerando variables como las horas pico, la cantidad de viajes, las cancelaciones de los usuarios y los pagos a los conductores. Al examinar estos aspectos, el estudio no solo contribuye al entendimiento específico de la dinámica de Express POOL, sino que también ofrece insights relevantes para la toma de decisiones estratégicas en servicios de transporte compartido (Nguyen, 2018).

La relevancia de este análisis radica en su capacidad para guiar la evolución de los servicios de Uber hacia una mayor eficiencia operativa y satisfacción del cliente. Al comprender mejor cómo las variaciones en los tiempos de espera afectan el comportamiento de los usuarios y los costos operativos, Uber puede ajustar sus estrategias para maximizar tanto la rentabilidad como la calidad del servicio (Lopez 2019). Además, los resultados de este estudio tienen el potencial de informar decisiones políticas y de planificación urbana relacionadas con el transporte compartido y la movilidad en ciudades densamente pobladas (Sabino, 2020).

En resumen, este estudio no solo aborda un componente específico de la estrategia de innovación de Uber, sino que también se alinea con una serie de cuestiones más amplias relacionadas con la sostenibilidad, la eficiencia y la experiencia del usuario en el sector del transporte. Al hacerlo, proporciona una valiosa contribución al cuerpo de conocimiento sobre la economía colaborativa y la movilidad urbana en la era digital (Vasquez & Ramos, 2022).

Operacionalización

  1. city_id: Identificador de la ciudad. En este caso, todas las entradas deben ser “Boston”.

  2. period_start: Marca temporal que indica el inicio del período analizado. Se utiliza para identificar y separar los datos en diferentes franjas horarias, días o semanas, permitiendo análisis temporal como tendencias diarias o diferencias entre días laborales y fines de semana.

  3. wait_time: Tiempo de espera para el usuario en minutos. Es una variable clave que se utiliza para distinguir entre el grupo de control (2 minutos) y el grupo de tratamiento (5 minutos).

  4. treat: Variable booleana que indica si el dato pertenece al grupo de tratamiento (TRUE) o al grupo de control (FALSE). Es fundamental para comparar los efectos de las diferentes condiciones de tiempo de espera.

  5. commute: Indica si el viaje ocurrió durante horas pico (TRUE) o no pico (FALSE). Esta variable permite separar los datos en categorías de alta y baja demanda, lo cual es crucial para entender cómo las diferentes condiciones afectan los viajes durante diferentes periodos del día.

  6. trips_pool: Cantidad de viajes realizados bajo la modalidad POOL. Esta variable se puede utilizar para evaluar la popularidad de este servicio y cómo los cambios en las condiciones (como el tiempo de espera) afectan su uso.

  7. trips_express: Cantidad de viajes realizados bajo la modalidad Express. Similar a trips_pool, se usa para evaluar la demanda y cómo las condiciones experimentales afectan este servicio específico.

  8. rider_cancellations: Número de viajes cancelados por los usuarios. Es un indicador importante de la satisfacción del cliente y la eficiencia del servicio. Puede ser analizado en relación con las variables de tiempo de espera y tipo de servicio.

  9. total_driver_payout: Total pagado a los conductores. Esta variable es crucial para calcular la rentabilidad y los costos operativos asociados con cada tipo de viaje y condiciones de espera.

  10. total_matches: Número total de viajes donde los pasajeros fueron emparejados exitosamente en un viaje POOL. Es un indicador de la eficiencia del sistema de emparejamiento y cómo este se ve afectado por las condiciones experimentales.

  11. total_double_matches: Número de viajes donde se emparejaron exitosamente al menos dos pasajeros en un viaje POOL. Similar a total_matches, pero enfocado en la eficiencia de emparejar múltiples pasajeros.

  12. beneficio_pool: Beneficio por viaje POOL, calculado como la diferencia entre el precio promedio pagado por el usuario y el costo (pago al conductor) por viaje. Esta variable es esencial para analizar la rentabilidad de los viajes POOL.

  13. beneficio_express: Beneficio por viaje Express, calculado de manera similar a beneficio_pool. Se utiliza para evaluar la rentabilidad de los viajes Express bajo diferentes condiciones.

Análisis estadístico

Se realiza la lectura de datos

library(readxl)
datos <- read_excel("Datos caso Harvard Uber.xlsx", 
    sheet = "Switchbacks")
head(datos)
## # A tibble: 6 × 11
##   city_id period_start        wait_time treat commute trips_pool trips_express
##   <chr>   <dttm>              <chr>     <lgl> <lgl>        <dbl>         <dbl>
## 1 Boston  2018-02-19 07:00:00 2 mins    FALSE TRUE          1415          3245
## 2 Boston  2018-02-19 09:40:00 5 mins    TRUE  FALSE         1461          2363
## 3 Boston  2018-02-19 12:20:00 2 mins    FALSE FALSE         1362          2184
## 4 Boston  2018-02-19 15:00:00 5 mins    TRUE  TRUE          1984          3584
## 5 Boston  2018-02-19 17:40:00 2 mins    FALSE FALSE         1371          2580
## 6 Boston  2018-02-19 20:20:00 5 mins    TRUE  FALSE         1401          2022
## # ℹ 4 more variables: rider_cancellations <dbl>, total_driver_payout <dbl>,
## #   total_matches <dbl>, total_double_matches <dbl>
nrow(datos)
## [1] 126

En total la base de datos tiene 126 filas

ncol(datos)
## [1] 11

y un total de 11 variables

En primer lugar se realiza un análisis exploratorio de las variables cuantitativas

datos %>% 
  select(trips_pool, trips_express, rider_cancellations, total_driver_payout, total_matches, total_double_matches) %>%
  sapply(function(x) {
    c(
      mean = mean(x, na.rm = TRUE),
      median = median(x, na.rm = TRUE),
      min = min(x, na.rm = TRUE),
      max = max(x, na.rm = TRUE),
      Q1 = quantile(x, 0.25, na.rm = TRUE),
      Q3 = quantile(x, 0.75, na.rm = TRUE),
      sd = sd(x, na.rm = TRUE),
      cv = sd(x, na.rm = TRUE) / mean(x, na.rm = TRUE),
      skewness = skewness(x, na.rm = TRUE),
      kurtosis = kurtosis(x, na.rm = TRUE)
    )
  }) %>%
  t() %>%
  as.data.frame() 
##                            mean   median      min      max   Q1.25%   Q3.75%
## trips_pool            1408.0079  1397.00   771.00  2241.00  1248.25  1580.25
## trips_express         2515.5238  2427.50  1638.00  4507.00  2225.00  2661.75
## rider_cancellations    177.7381   166.00    95.00   355.00   147.75   187.25
## total_driver_payout  28237.2207 27352.84 18769.99 48600.42 24721.89 30586.11
## total_matches         2535.7540  2361.00  1588.00  5005.00  2171.75  2714.50
## total_double_matches  1322.4444  1282.50   728.00  2739.00  1059.75  1481.75
##                             sd        cv  skewness kurtosis
## trips_pool            257.9291 0.1831873 0.2786959 3.156785
## trips_express         497.6936 0.1978489 1.3189253 4.918509
## rider_cancellations    51.6318 0.2904937 1.5221064 5.219552
## total_driver_payout  5450.9540 0.1930414 1.3226826 5.148090
## total_matches         607.5725 0.2396023 1.5090901 5.323529
## total_double_matches  350.3249 0.2649071 1.0163147 4.818838

De acuerdo a los estadísticos se aprecia una tendencia clara en la preferencia y utilización de los distintos tipos de servicios. Los viajes Express, con una media de 2515.52 y una mediana de 2427.50, muestran una demanda significativamente más alta que los viajes POOL, cuya media es de 1408.01 y la mediana de 1397.00. Esta mayor preferencia por los viajes Express se refleja también en su mayor variabilidad, indicada por una desviación estándar de 497.69, en comparación con la desviación estándar de 257.93 en los viajes POOL. Esto sugiere que los viajes Express están sujetos a una mayor fluctuación en la demanda, posiblemente debido a factores como la conveniencia, el precio, o las condiciones del tráfico. En cuanto a la respuesta de los usuarios y la eficiencia operativa, las cancelaciones de los usuarios (rider cancellations) presentan una media de 177.74 y una mediana de 166.00, con una desviación estándar de 51.63, indicando una variabilidad considerable en la frecuencia de cancelaciones. Esto podría reflejar la sensibilidad de los usuarios a factores como el tiempo de espera o la disponibilidad de los vehículos. Por otro lado, el total pagado a los conductores (total driver payout) muestra una media de 28237.22 y una mediana de 27352.84, con una desviación estándar de 5450.95, lo que refleja la relación directa entre la demanda de viajes y los costos operativos. La eficiencia del emparejamiento en viajes POOL, indicada por total matches y total double matches, con medias de 2535.75 y 1322.44 respectivamente, también destaca como un factor crucial en la operatividad y rentabilidad del servicio.

Las distribuciones se presentan en los histogramas.

library(ggplot2)
library(dplyr)

# Tu código original
datos_long <- datos %>%
  select(trips_pool, trips_express, rider_cancellations, total_driver_payout, total_matches, total_double_matches) %>%
  pivot_longer(cols = everything(), names_to = "variable", values_to = "value")

# Nuevas opciones para colores
ggplot(datos_long, aes(x = value, fill = variable)) +
  geom_histogram(bins = 30, color = "white", position = "identity", alpha = 0.7) +
  facet_wrap(~variable, scales = "free_x") +
  theme_minimal() +  # Puedes cambiar el tema según tus preferencias
  labs(title = "Histograma de Variables",
       x = "Valor",
       y = "Frecuencia",
       fill = "Variable")

Posteriormente se calculó las correlaciones entre las variables obteniéndose:

correlaciones <- cor(datos %>% select(trips_pool, trips_express, rider_cancellations, total_driver_payout, total_matches, total_double_matches))
print(correlaciones)
##                      trips_pool trips_express rider_cancellations
## trips_pool           1.00000000    0.05770326           0.3720034
## trips_express        0.05770326    1.00000000           0.7174599
## rider_cancellations  0.37200343    0.71745987           1.0000000
## total_driver_payout  0.44996734    0.79574054           0.7242861
## total_matches        0.08505001    0.96149682           0.7431480
## total_double_matches 0.13448707    0.75788920           0.6672253
##                      total_driver_payout total_matches total_double_matches
## trips_pool                     0.4499673    0.08505001            0.1344871
## trips_express                  0.7957405    0.96149682            0.7578892
## rider_cancellations            0.7242861    0.74314796            0.6672253
## total_driver_payout            1.0000000    0.79638317            0.6390062
## total_matches                  0.7963832    1.00000000            0.7348328
## total_double_matches           0.6390062    0.73483277            1.0000000

La matriz de correlación revela relaciones significativas entre diversas variables. Una correlación baja entre trips_pool y trips_express (0.0577) indica que estas dos modalidades de viaje operan bastante independientemente una de la otra. Sin embargo, se observa una correlación mucho más fuerte entre trips_express y total_driver_payout (0.7957), así como con total_matches (0.9615), lo que sugiere que los viajes Express son un factor importante en la determinación de los ingresos de los conductores y la eficiencia del emparejamiento. Por otro lado, rider_cancellations muestra correlaciones significativas con trips_express (0.7175), total_driver_payout (0.7243), y total_matches (0.7431), lo que indica que las cancelaciones están estrechamente ligadas a la demanda y operación de viajes Express, así como a la rentabilidad general y la eficiencia del emparejamiento. Esto sugiere que los patrones de cancelación podrían ser un indicador clave de la satisfacción del usuario y la eficiencia operativa, particularmente en relación con los viajes Express. Además, la correlación entre total_matches y total_double_matches (0.7348) resalta la importancia de los emparejamientos exitosos en la generación de viajes dobles, un aspecto relevante para la eficiencia del servicio POOL.

library(ggcorrplot)
correlaciones <- cor(datos %>% select(trips_pool, trips_express, rider_cancellations, total_driver_payout, total_matches, total_double_matches))
ggcorrplot(correlaciones, method = "circle")

Para analizar el efecto de ampliar los tiempos de espera de Uber de 2 a 5 minutos, es crucial examinar cómo esta variación impacta el número total de viajes, distinguiendo entre horas pico y no pico. Este análisis proporcionará una comprensión detallada de las dinámicas del comportamiento del usuario y la eficiencia operativa bajo diferentes condiciones de tiempo de espera.

En primer lugar se realiza un filtro de los datos:

datos <- datos %>%
  mutate(
    group = ifelse(wait_time == "5 mins", "Tratamiento", "Control"),
    hour_type = ifelse(commute, "Pico", "No Pico")
  )

y posteriormente se calculan descriptivos:

# Comparar métricas número de viajes

datos <- datos %>%
  mutate(hour_type = ifelse(commute, "Pico", "No Pico"))
resultado_agregado <- aggregate(cbind(trips_pool) ~ wait_time + hour_type, data = datos, mean)
resultado_agregado
##   wait_time hour_type trips_pool
## 1    2 mins   No Pico   1324.528
## 2    5 mins   No Pico   1445.755
## 3    2 mins      Pico   1518.500
## 4    5 mins      Pico   1539.900

Por último se representa visualmente los resultados

library(dplyr)
library(ggplot2)

# Crea una nueva variable que indique si es hora pico o no
datos <- datos %>%
  mutate(hour_type = ifelse(commute, "Pico", "No Pico"))

# Ahora crea el gráfico de caja combinado para trips_pool
ggplot(datos, aes(x = wait_time, y = trips_pool, fill = hour_type)) +
  geom_boxplot() +
  facet_wrap(~hour_type) +
  labs(x = "Grupo de Tratamiento", y = "Viajes POOL", fill = "Tipo de Hora") +
  theme_minimal()


Al analizar el impacto de los tiempos de espera en la cantidad de viajes POOL durante diferentes periodos del día, se observan que en horas no pico, el cambio de un tiempo de espera de 2 minutos (grupo de control) a 5 minutos (grupo de tratamiento) se asocia con un aumento en la cantidad de viajes, de 1324.528 a 1445.755 respectivamente. Este incremento sugiere que un tiempo de espera más largo no disuade significativamente a los usuarios durante estas horas menos congestionadas, y podría incluso indicar una mayor tolerancia o flexibilidad en sus horarios.

Durante las horas pico, esta tendencia se mantiene. El grupo de control, con un tiempo de espera de 2 minutos, registra 1518.500 viajes, mientras que el grupo de tratamiento, con un tiempo de espera de 5 minutos, muestra un leve aumento a 1539.900 viajes. Este incremento, aunque modesto, es notable, ya que sugiere que incluso en períodos de alta demanda, los usuarios pueden estar dispuestos a aceptar tiempos de espera más largos sin una reducción significativa en el uso del servicio.

Este análisis sugiere que la ampliación de los tiempos de espera hasta 5 minutos, tanto en horas pico como no pico, podría ser una estrategia viable sin impactar negativamente la demanda del servicio de viajes POOL. La respuesta positiva de los usuarios a tiempos de espera más largos, especialmente en horas pico, indica una posible flexibilidad en sus expectativas y una oportunidad para optimizar las operaciones sin sacrificar la demanda.

Para validar estas afirmaciones se corre una prueba t. Las hipótesis asociadas son:

# Para horas no pico
t.test(trips_pool ~ wait_time, data = filter(datos, hour_type == "No Pico"))
## 
##  Welch Two Sample t-test
## 
## data:  trips_pool by wait_time
## t = -2.5242, df = 101.97, p-value = 0.01314
## alternative hypothesis: true difference in means between group 2 mins and group 5 mins is not equal to 0
## 95 percent confidence interval:
##  -216.48472  -25.96811
## sample estimates:
## mean in group 2 mins mean in group 5 mins 
##             1324.528             1445.755
# Para horas pico
t.test(trips_pool ~ wait_time, data = filter(datos, hour_type == "Pico"))
## 
##  Welch Two Sample t-test
## 
## data:  trips_pool by wait_time
## t = -0.18392, df = 15.434, p-value = 0.8565
## alternative hypothesis: true difference in means between group 2 mins and group 5 mins is not equal to 0
## 95 percent confidence interval:
##  -268.8019  226.0019
## sample estimates:
## mean in group 2 mins mean in group 5 mins 
##               1518.5               1539.9


La aplicación de la prueba t de Student para comparar los promedios de viajes POOL entre los grupos de 2 minutos (control) y 5 minutos (tratamiento) revela resultados distintos para las horas pico y no pico. En las horas no pico, la prueba arroja un valor t de -2.5242 y un valor p de 0.01314, indicando una diferencia estadísticamente significativa entre los grupos. El promedio de viajes en el grupo de control es de 1324.528, mientras que en el grupo de tratamiento es mayor, con 1445.755.

Por otro lado, en las horas pico, la prueba muestra un valor t de -0.18392 y un valor p de 0.8565, lo que sugiere que no hay una diferencia estadísticamente significativa en el número de viajes entre los dos grupos. Los promedios para el grupo de control y el de tratamiento son 1518.5 y 1539.9 respectivamente, lo que indica una similitud en la cantidad de viajes POOL realizados durante estas horas.

Para comprender mejor la rentabilidad de los servicios de transporte compartido de Uber, especialmente bajo las condiciones variadas de las horas pico y no pico, es esencial analizar los beneficios por trayecto. Esta evaluación se centra en discernir la diferencia en la rentabilidad de los viajes POOL y Express, considerando los precios promedio que los usuarios pagan y los costos asociados con cada servicio.

El objetivo de este análisis es, por lo tanto, determinar la diferencia en los beneficios por trayecto entre las horas pico y no pico. Al integrar el precio promedio de los viajes con el total pagado a los conductores y el número de viajes realizados, podemos obtener una visión clara de la rentabilidad de cada tipo de servicio en diferentes condiciones de demanda. Este enfoque nos permitirá no solo comprender la dinámica actual de los beneficios, sino también proporcionar insights estratégicos para la toma de decisiones en cuanto a la operación y gestión de estos servicios.

# Se realiza el Cálculo de beneficios
datos <- datos %>%
  mutate(beneficio_pool = 12.5 - total_driver_payout / trips_pool,
         beneficio_express = 10 - total_driver_payout / trips_express)

# Prueba t para beneficio POOL en horas pico vs. no pico
t.test(beneficio_pool ~ commute, data = datos)
## 
##  Welch Two Sample t-test
## 
## data:  beneficio_pool by commute
## t = 5.8779, df = 24.668, p-value = 4.136e-06
## alternative hypothesis: true difference in means between group FALSE and group TRUE is not equal to 0
## 95 percent confidence interval:
##  3.532086 7.346308
## sample estimates:
## mean in group FALSE  mean in group TRUE 
##           -7.061857          -12.501054
# Crea un diagrama de caja para el beneficio POOL
ggplot(datos, aes(x = as.factor(commute), y = beneficio_pool, fill = as.factor(commute))) +
  geom_boxplot() +
  labs(title = "Beneficio POOL por Hora Pico vs. No Pico",
       x = "Hora Pico (TRUE) vs. No Pico (FALSE)",
       y = "Beneficio POOL",
       fill = "Tipo de Hora") +
  theme_minimal()

La prueba t de Student para los beneficios del servicio POOL en Uber muestra una diferencia estadísticamente significativa en los beneficios entre las horas pico y no pico. El valor t de 5.8779 y un valor p extremadamente bajo (4.136e-06) indican una diferencia significativa en las medias de beneficios entre los dos grupos, con un beneficio promedio más bajo durante las horas pico (-12.501054) en comparación con las no pico (-7.061857). Esto sugiere que el servicio POOL es menos rentable durante las horas pico.


# Prueba t para beneficio Express en horas pico vs. no pico
t.test(beneficio_express ~ commute, data = datos)
## 
##  Welch Two Sample t-test
## 
## data:  beneficio_express by commute
## t = -0.05692, df = 28.125, p-value = 0.955
## alternative hypothesis: true difference in means between group FALSE and group TRUE is not equal to 0
## 95 percent confidence interval:
##  -0.6914399  0.6540450
## sample estimates:
## mean in group FALSE  mean in group TRUE 
##           -1.325015           -1.306318
# Crea un diagrama de caja para el beneficio Express
ggplot(datos, aes(x = as.factor(commute), y = beneficio_express, fill = as.factor(commute))) +
  geom_boxplot() +
  labs(title = "Beneficio Express por Hora Pico vs. No Pico",
       x = "Hora Pico (TRUE) vs. No Pico (FALSE)",
       y = "Beneficio Express",
       fill = "Tipo de Hora") +
  theme_minimal()

Por otro lado, para el servicio Express, la prueba t arroja un valor t de -0.05692 y un valor p de 0.955, lo que indica que no hay una diferencia estadísticamente significativa en los beneficios entre las horas pico y no pico. Los intervalos de confianza cercanos a cero y los valores medios de beneficio casi idénticos en ambos grupos (-1.325015 vs. -1.306318) refuerzan esta conclusión. Estos hallazgos sugieren que el servicio Express mantiene una rentabilidad consistente independientemente de la hora del día, a diferencia del servicio POOL, que muestra variabilidad en su rentabilidad dependiendo de si es hora pico o no.

Una faceta crucial de la eficiencia en movilidad se encuentra en la gestión y optimización de los tiempos de espera. Con el servicio Express POOL de Uber, los tiempos de espera se han configurado estratégicamente para maximizar la eficacia del emparejamiento de pasajeros y la rentabilidad de los viajes. En este análisis, nos enfocamos en evaluar el impacto de dos regímenes de tiempo de espera - 2 minutos para el grupo de control y 5 minutos para el grupo de tratamiento - en la experiencia global del servicio y su rentabilidad.

# Cargar la librería ggplot2
library(ggplot2)


# Para beneficio POOL - Comparación entre tiempos de espera de 2 y 5 minutos
t.test(beneficio_pool ~ wait_time, data = datos)
## 
##  Welch Two Sample t-test
## 
## data:  beneficio_pool by wait_time
## t = -4.363, df = 123.78, p-value = 2.674e-05
## alternative hypothesis: true difference in means between group 2 mins and group 5 mins is not equal to 0
## 95 percent confidence interval:
##  -4.187568 -1.573864
## sample estimates:
## mean in group 2 mins mean in group 5 mins 
##            -9.365580            -6.484864
# Diagrama de caja para beneficio POOL por tiempo de espera
ggplot(datos, aes(x =as.factor(wait_time), y = beneficio_pool,fill = as.factor(wait_time))) +
  geom_boxplot() +
  labs(title = "Beneficio POOL por Tiempo de Espera",
       x = "Tiempo de Espera",
       y = "Beneficio POOL")

La prueba t de Student aplicada a los beneficios generados por el servicio POOL en relación con los tiempos de espera muestra diferencias estadísticamente significativas entre los grupos de control (2 minutos) y tratamiento (5 minutos). Con un valor t de -4.363 y un valor p extremadamente bajo (2.674e-05), la prueba indica una diferencia notable en los beneficios medios entre los dos grupos. El beneficio promedio para el grupo con un tiempo de espera de 2 minutos es de -9.365580, mientras que para el grupo con un tiempo de espera de 5 minutos es de -6.484864. Este resultado sugiere que incrementar el tiempo de espera de 2 a 5 minutos está asociado con una mejora en la rentabilidad del servicio POOL. La mejora en los beneficios con tiempos de espera más largos podría deberse a una variedad de factores operativos y de comportamiento del usuario, como una mejor eficiencia en el emparejamiento de los viajes o una mayor disposición de los usuarios a pagar tarifas más altas por esperas más largas. Estos resultados son críticos para la estrategia operativa del servicio, ya que sugieren que ajustar los tiempos de espera puede ser una herramienta efectiva para optimizar la rentabilidad sin comprometer significativamente la demanda o la satisfacción del cliente.

# Prueba t para beneficio Express en horas pico vs. no pico
t.test(beneficio_express ~ wait_time, data = datos)
## 
##  Welch Two Sample t-test
## 
## data:  beneficio_express by wait_time
## t = 0.10426, df = 123.71, p-value = 0.9171
## alternative hypothesis: true difference in means between group 2 mins and group 5 mins is not equal to 0
## 95 percent confidence interval:
##  -0.4760588  0.5289972
## sample estimates:
## mean in group 2 mins mean in group 5 mins 
##            -1.308813            -1.335282
# Crea un diagrama de caja para el beneficio Express
ggplot(datos, aes(x = as.factor(wait_time), y = beneficio_express, fill = as.factor(wait_time))) +
  geom_boxplot() +
  labs(title = "Beneficio Express por Hora Pico vs. No Pico",
       x = "Hora Pico (TRUE) vs. No Pico (FALSE)",
       y = "Beneficio Express",
       fill = "Tipo de Hora") +
  theme_minimal()

La prueba t de Student aplicada a los beneficios generados por el servicio Express en relación con los tiempos de espera indica que no hay una diferencia estadísticamente significativa entre los grupos de control (2 minutos) y tratamiento (5 minutos). Con un valor t de solo 0.10426 y un valor p alto de 0.9171, no se observan diferencias significativas en los beneficios medios entre los dos grupos. Los beneficios promedio son de -1.308813 para el grupo con un tiempo de espera de 2 minutos y de -1.335282 para el grupo con un tiempo de espera de 5 minutos, lo que sugiere que los cambios en el tiempo de espera no tienen un impacto considerable en la rentabilidad del servicio Express. Lo anterior implica que, a diferencia del servicio POOL, los beneficios del servicio Express no se ven afectados por ajustes en los tiempos de espera. Por lo tanto, desde la perspectiva de la rentabilidad, el tiempo de espera no parece ser un factor crítico en la eficiencia operativa o la satisfacción del cliente en el servicio Express. Estos hallazgos pueden orientar decisiones estratégicas en la gestión del servicio, sugiriendo que otras áreas, aparte del tiempo de espera, podrían ser más relevantes para mejorar la rentabilidad y la eficiencia del servicio Express.

En este análisis, nos centraremos en desentrañar los patrones y causas subyacentes de las cancelaciones en un servicio de transporte popular. Examinaremos cómo diferentes factores, como los tiempos de esper y las horas pico y no pico, pueden influir en la decisión de los usuarios de cancelar sus viajes. Esta comprensión no solo proporcionará una visión valiosa para mejorar la experiencia del cliente, sino que también ayudará a optimizar la gestión de recursos y a aumentar la eficiencia operacional. Con un enfoque basado en datos, buscaremos identificar áreas clave para la intervención estratégica y el mejoramiento del servicio.

datos <- datos %>%
  mutate(hour_type = ifelse(commute, "Pico", "No Pico"))
resultado_agregado <- aggregate(cbind(rider_cancellations) ~ treat + hour_type, data = datos, mean)
resultado_agregado
##   treat hour_type rider_cancellations
## 1 FALSE   No Pico            149.9623
## 2  TRUE   No Pico            168.7925
## 3 FALSE      Pico            246.9000
## 4  TRUE      Pico            303.2000

Posteriormente se realiza diagramas de barras para analizar las diferencias

library(dplyr)
library(ggplot2)

# Ahora crea el gráfico de caja combinado
ggplot(datos, aes(x = wait_time, y = rider_cancellations, fill = hour_type)) +
  geom_boxplot() +
  facet_wrap(~wait_time) +
  labs(x = "Grupo de Tratamiento", y = "Cancelaciones de Viaje", fill = "Tipo de Hora") +
  theme_minimal()

Al analizar cómo los tiempos de espera afectan las cancelaciones de viajes en diferentes períodos del día, emergen patrones reveladores. En las horas no pico, el incremento del tiempo de espera de 2 minutos (grupo de control) a 5 minutos (grupo de tratamiento) se asocia con un aumento en las cancelaciones, de 149.9623 a 168.7925 respectivamente. Este aumento puede sugerir que aunque los usuarios están dispuestos a esperar más tiempo durante estas horas menos congestionadas, también son ligeramente más propensos a cancelar sus viajes, posiblemente debido a una mayor disponibilidad de alternativas o una menor urgencia en sus desplazamientos.

Durante las horas pico, la tendencia hacia un aumento en las cancelaciones es más pronunciada. En el grupo de control, con tiempos de espera de 2 minutos, se observan 246.9000 cancelaciones, mientras que en el grupo de tratamiento, con tiempos de espera de 5 minutos, las cancelaciones ascienden a 303.2000. Este incremento más marcado podría indicar que en horas de alta demanda, los usuarios son menos tolerantes a esperas más prolongadas, lo que se refleja en una mayor tasa de cancelaciones. Esto sugiere que, aunque los usuarios pueden estar dispuestos a aceptar tiempos de espera más largos en general, su paciencia se ve reducida durante períodos de alta actividad, donde la eficiencia y rapidez del servicio se vuelven más críticas.

Posteriormente,para validar estas afirmaciones, se corrió una prueba t. Las hipótesis asociadas son:

# Para horas no pico
t.test(rider_cancellations ~ wait_time, data = filter(datos, hour_type == "No Pico"))
## 
##  Welch Two Sample t-test
## 
## data:  rider_cancellations by wait_time
## t = -4.2183, df = 99.849, p-value = 5.424e-05
## alternative hypothesis: true difference in means between group 2 mins and group 5 mins is not equal to 0
## 95 percent confidence interval:
##  -27.686722  -9.973656
## sample estimates:
## mean in group 2 mins mean in group 5 mins 
##             149.9623             168.7925
# Para horas pico
t.test(rider_cancellations ~ wait_time, data = filter(datos, hour_type == "Pico"))
## 
##  Welch Two Sample t-test
## 
## data:  rider_cancellations by wait_time
## t = -3.1953, df = 13.399, p-value = 0.006799
## alternative hypothesis: true difference in means between group 2 mins and group 5 mins is not equal to 0
## 95 percent confidence interval:
##  -94.24996 -18.35004
## sample estimates:
## mean in group 2 mins mean in group 5 mins 
##                246.9                303.2

Los resultados de las pruebas t de Student aplicadas a la variable `rider_cancellations (cancelaciones de viajes) en el contexto de los servicios de Uber revelan una tendencia consistente y estadísticamente significativa que indica que los tiempos de espera prolongados están correlacionados con un aumento en las cancelaciones de viajes, tanto en horas pico como no pico. En las horas no pico, la diferencia notable en las medias (149.9623 en el grupo de control frente a 168.7925 en el de tratamiento) junto con un valor t de -4.2183 y un valor p extremadamente bajo (5.424e-05) sugiere una relación significativa entre tiempos de espera más largos y un aumento en la tasa de cancelaciones. Esta tendencia se ve amplificada en las horas pico, donde, a pesar de un menor tamaño de muestra y grados de libertad (df = 13.399), se observa una diferencia aún más marcada en las cancelaciones (246.9 en el grupo de control frente a 303.2 en el grupo de tratamiento) con un valor t de -3.1953 y un valor p de 0.006799. El intervalo de confianza en ambos casos subraya la robustez de estos hallazgos. Estos resultados enfatizan cómo la percepción del usuario y la tolerancia hacia el tiempo de espera varían significativamente en función de las condiciones del servicio, resaltando la importancia crítica de optimizar los tiempos de espera para minimizar las cancelaciones y mejorar la eficiencia operativa en diferentes horarios, especialmente durante las horas de mayor demanda.

Este informe presenta un análisis detallado del impacto de extender los tiempos de espera en el servicio Uber Express POOL en Boston, examinando cómo esta variación afecta la demanda de viajes, las cancelaciones de usuarios y la rentabilidad. Utilizando técnicas estadísticas avanzadas, se analizan datos de viajes, cancelaciones y pagos a conductores para evaluar el comportamiento del usuario y la eficiencia del servicio bajo diferentes condiciones de tiempo de espera.

Impacto en la Demanda de Viajes:

Viajes POOL: Durante las horas no pico, se observó un incremento significativo en la cantidad de viajes POOL al aumentar el tiempo de espera de 2 a 5 minutos (de 1324.528 a 1445.755). Sin embargo, en horas pico, no hubo diferencias significativas en la demanda entre los grupos de control y tratamiento.

Viajes Express: No se detectaron cambios significativos en la demanda de viajes Express con la variación de los tiempos de espera. Rentabilidad:

Beneficio POOL: Se encontró un aumento significativo en la rentabilidad del servicio POOL al extender el tiempo de espera (de -9.365580 a -6.484864). Esto sugiere que tiempos de espera más largos pueden mejorar la eficiencia operativa y la rentabilidad del servicio POOL.

Beneficio Express: Los tiempos de espera extendidos no tuvieron un impacto significativo en la rentabilidad del servicio Express.

Se observó un aumento significativo en las cancelaciones de usuarios con tiempos de espera más largos, tanto en horas pico como no pico. Esto indica que los usuarios son menos tolerantes a esperas prolongadas, especialmente durante las horas de alta demanda. Discusión

Los resultados sugieren que la extensión de los tiempos de espera en el servicio POOL puede aumentar la demanda durante horas no pico y mejorar la rentabilidad general. Sin embargo, esta estrategia conlleva un aumento en las cancelaciones de usuarios, lo que puede afectar negativamente la satisfacción del cliente y la percepción del servicio.

En el caso del servicio Express, los tiempos de espera extendidos no parecen influir significativamente en la demanda ni en la rentabilidad, lo que sugiere que los usuarios de este servicio tienen diferentes expectativas o tolerancias en cuanto a los tiempos de espera.

Suberviola, E. V. (2017). Ciudad y transporte: transformación urbanística e impacto ambiental. Biblio3W Revista Bibliográfica de Geografía y Ciencias Sociales.

Jehanno, A., Niang, H., Ortiz, J., Laborde, P., & López Camacho, P. (2019). Desafíos para la integración de sistemas de transporte masivo: Manual de Buenas Prácticas.

Doménech Pascual, G. (2015). La regulación de la economía colaborativa. El caso Uber contra el taxi. Ceflegal. Revista práctica de Derecho., 2015, vol. 175-176, p. 61-104.

Vázquez, J. J., Alonso, S. L. N., & Ramos, F. S. LA ECONOMÍA COLABORATIVA EN EL SECTOR DE LA MOVILIDAD Y EL TRANSPORTE: HACIA LA CONFIGURACIÓN DE UN MODELO SOSTENIBLE.

Aliaga Paredez, C. P., Coronado Vásquez, P., & Díaz Quiroz, S. (2018). Plan estratégico Uber Technologies Inc.

Lo, J., & Morseman, S. (2018, October). The Perfect uberPOOL: A Case Study on Trade‐Offs. In Ethnographic Praxis in Industry Conference Proceedings (Vol. 2018, No. 1, pp. 195-223).

Hemel, D. J. (2017). Pooling and unpooling in the Uber economy. U. Chi. Legal F., 265.

Nguyen, H. (2018). Trust in the sharing economy: the case of Uber & self-driving cars.

López Calderón, R. M. (2019). Propuesta de negocio:” Shared Ride”: red social de coches compartidos.

Cenizo Romero, A. (2020). Irrupción de Uber y Cabify en el mercado taxista.

Kim, J. H., Nan, D., Kim, Y., & Park, M. H. (2021). Computing the user experience via big data analysis: a case of Uber services. CMC-Computers Materials & Continua, 67(3), 2819-2829.

Sabino, A. B., Reis-Martins, P., & Carranza-Infante, M. (2020). Experiencias y retos del uso de datos de aplicaciones móviles para la movilidad urbana. Revista de Arquitectura (Bogotá), 22(1), 82-93.