A continuación se presenta un análisis descriptivo de los datos recolectados por el Sistema Inteligente de Movilidad de Medellín - SIMM relacionado con la velocidad a la que se pueden recorrer algunos tramos de los corredores viales de la ciudad (visitar enlace).

La base de datos incluye la hora (franja_horaria), el tipo de flujo (flujo_tipo), el tramo del corredor (tramo_corredor), la longitud del tramo (longitud_km), la velocidad (velocidad_km_h) y el tiempo de viaje en minutos (tv_minutos).

Los datos a analizar comprenden registros diarios entre el miércoles 1 de febrero de 2017 y el lunes 15 de junio de 2020, y comprende datos entre las 6 am y las 8 pm.

Con esta base de datos se presente caracterizar los corredores de flujo continuo de la ciudad en tres franjas horarias. A modo de ejemplo, se presentan los primeros registros de la base de datos.

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

La base de datos tiene un total de 622112 registros y 6 variables:

dim(datos)
## [1] 622112      6

Las variables cualitativas de interés son: flujo_tipo, tramo_corredor. A continuación se presentan los valores que puede tomar cada variable y la cantidad de registros que hay en la base de datos.

flujo_tipo=factor(flujo_tipo)
tramo_corredor=factor(tramo_corredor)
summary(flujo_tipo) 
##     Continuo Interrumpido 
##       177119       444993
summary(tramo_corredor)
##   Autopista Sur -Avenida 80    Avenida 80-Autopista Sur 
##                       29249                       29236 
## Avenida 80-Avenida Regional     Avenida 80-Industriales 
##                       29149                       28574 
## Avenida Regional-Avenida 80      Barranquilla -San Juan 
##                       29142                       28500 
##        Calle 12Sur-Calle 30        Calle 30-Calle 12Sur 
##                       57955                       58003 
##           Calle 30-Calle 60          Calle 30 -Calle 65 
##                          19                       28822 
##           Calle 60-Calle 30           Calle 65-Calle 30 
##                          19                       28868 
##         Chuscalito-Sandiego                CTI-Calle 10 
##                       29385                       29593 
##     Industriales-Avenida 80            Punto Cero-Solla 
##                       28554                       29541 
##       San Juan-Barranquilla         San Juan-Villanueva 
##                       28472                       20231 
##         Sandiego-Chuscalito            Solla-Punto Cero 
##                       29410                       29558 
##               Tugo-San Juan         Villanueva-San Juan 
##                       29632                       20200

Un diagrama de barras es una forma gráfica alternativa para presentar la cantidad de registros que tiene cada corredor. Observe que la cantidad de datos es aproximadamente similar excepto por los corredores Calle 30-Calle 12Sur y Calle 12Sur-Calle 30 que tienen registros por encima de 55.000, y los corredores Calle 30-Calle 60 y Calle 60-Calle 30 que tienen registros por debajo de 20.

conteo=(table(tramo_corredor))
diagrama=barplot(conteo,col=heat.colors(5),main="Cantidad de registros por tramo de corredor", las=2,cex.names=0.7,ylim=c(0,60000))

Las variables cuantitativas de interés son: velocidad_km_h, tv_minutos. Las medidas de tendencia central y de posición se presentan a continuación:

sapply(datos[,5:6],summary)
##         velocidad_km_h tv_minutos
## Min.           3.00000   3.300000
## 1st Qu.       19.00000   6.400000
## Median        26.00000   7.800000
## Mean          29.23533   8.922309
## 3rd Qu.       38.00000  10.600000
## Max.          77.60000  76.500000

Dado que la movilidad depende de la hora del día, el análisis se realizará por franjas horarias de la siguiente manera

Considerando que la base de datos involucra tramos de corredores que tienen flujo continuo y flujo interrumpido, se analizarán solamente los tramos que tienen flujo continuo, los cuales se listan a continuación con la distancia que tiene cada uno de ellos:

La siguiente imagen muestra el mapa de Medellín y los puntos donde inician o terminan los corredores de interés.

Mapa de Medellín


1. Primera franja horaria: entre las 6 am y las 8 am

1.1 Análisis con respecto a velocidad

A continuación se presentan las medidas descriptivas de la velocidad, en esta franja horaria, sin considerar corredores específicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00   40.00   47.00   46.78   54.00   77.60
sd(datos1$velocidad_km_h)#Desviación estándar
## [1] 11.37376

Una representación gráfica de las medidas descriptivas anteriores, que permite identificar además datos atípicos, es el diagrama de cajas y bigotes. Se consideran velocidades atípicas las que están por debajo de 19 km/hora y las que están por encima de 75 km/hora.En este caso, hay presencia de más datos atípicos por debajo que por encima. En todos los casos, la velocidad máxima no supera los 80 km/hora.

El promedio y la desviación de la velocidad (km/hora) en esta franja horaria por corredor de flujo continuo se presenta a continuación:

De acuerdo con los datos anteriores, la velocidad promedio más alta corresponde al corredor Punto Cero - Solla y la velocidad promedio más bája al corredor Sandiego - Chuscalito. El corredor que presenta más dispersión con respecto a la media es CTI - Calle 10 y el menos disperso es Chuscalito-Sandiego.

En todos los casos, el promedio es representativo del conjunto de datos, así que se puede decir que cada conjunto de datos, relacionado con la velocidad de cada recorrido, es homogéneo.

A continuación se presentan los diagramas boxplot de velocidad (km/hora) para cada corredor de interés. Todos los corredores presentan puntos atípicos, excepto CTI - Calle 10 y Solla- Punto Cero.

boxplot(velocidad_km_h~tramo_corredor,data=datos1,col = "blue",las=2,xlab="",cex.axis=0.6,main="Boxplot comparativo Velocidad en corredores de flujo continuo (6 am - 8 am) ",cex.main=0.8,cex.lab=0.8)

A continuación se presentan los histogramas de velocidad (km/hora) para cada corredor de interés. Todos los corredores presentan colas a la izquierda excepto Solla-Punto Cero y CTI-Calle 10, que presentan histogramas aparentemente simétricos.

En coherencia con lo anterior, el coeficiente de Asimetría para todos los recorridos es menor que -0.37, y por lo tanto tienen sesgo hacia la izquierda, excepto para los recorridos Solla-Punto Cero y CTI-Calle 10 que están entre -0.37 y 0.37, por lo que pueden considerarse simétricos. Al observar la curtosis, no hay distribuciones mesocúrticas, la única distribución leptocúrtica es la del recorrido Punto Cero-Solla y las restantes son platicúrticas.

1.2 Análisis con respecto al tiempo de viaje

A continuación se presentan las medidas descriptivas del tiempo de viaje (min), en esta franja horaria, sin considerar corredores específicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.500   6.400   7.500   8.189   8.900  42.000
sd(datos1$tv_minutos)
## [1] 2.735808

A continuación se presenta el diagrama de cajas y bigotes. Se consideran tiempos atípicos los que están por encima de 12.65 minutos. El tiempo máximo que tarda recorrer cualquiera de estos corredores no supera los 42 minutos.

Las medidas descriptivas del tiempo de viaje (min) en esta franja horaria por corredor de flujo continuo se presenta a continuación. El recorrido que más tiempo tarda en recorrerse es CTI-Calle 10, a pesar de que no es el que tiene más distancia de los recorridos analizados. El que menos tiempo promedio tarda es el recorrido Punto Cero-Solla. El tiempo del recorrdio CTI-Calle 10 es el más disperso.

En todos los casos, el promedio es representativo del conjunto de datos, así que se puede decir que cada conjunto de datos, relacionado con el tiempo de cada recorrido, es homogéneo.

A continuación se presentan los diagramas boxplot del tiempo de viaje (min) para cada corredor de interés. En este caso se presentan datos atípicos por encima en todos los diagramas. En este gráfico se puede observar que hay sesgo a la derecha en todas las distribuciones, siendo la más pronunciada en el tiempo del recorrido Tugo - San Juan.

A continuación se presentan los histogramas del tiempo de viaje (min) para cada corredor de interés. El tiempo de viaje, para todos los recorridos, tiene un comportamiento sesgado a la derecha.

Lo anterior se corrobora observando que, en todos los casos, el coeficiente de asimetría es mayor que 0.37. Se identifica además que todas las distribuciones son leptocúrticas.


2. Segunda franja horaria: entre las 12 pm y las 2 pm

2.1 Análisis con respecto a velocidad

A continuación se presentan las medidas descriptivas de la velocidad, en esta franja horaria, sin considerar corredores específicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   41.00   46.80   46.49   52.00   74.00
sd(datos2$velocidad_km_h)#Desviación estándar
## [1] 10.00022

A continuación se presenta el diagrama de cajas y bigotes. Se consideran velocidades atípicas las que están por debajo de 24.5 km/hora y las que están por encima de 68.5 km/hora.En este caso, hay presencia de más datos atípicos por debajo que por encima. En todos los casos, la velocidad máxima no supera los 80 km/hora.

El promedio y la desviación de la velocidad (km/hora) en esta franja horaria por corredor de flujo continuo se presenta a continuación. La mayor velocidad promedio corresponde al recorrido Tugo-San Juan, pero también es la más dispersa. El que menor velocidad promedio reporta es Sandiego-Chuscalito, que es además el menos disperso.

En todos los casos, el promedio es representativo del conjunto de datos, así que se puede decir que cada conjunto de datos, relacionado con la velocidad de cada recorrido, es homogéneo.

A continuación se presentan los diagramas boxplot de velocidad (km/hora) para cada corredor de interés. Solamente el recorrido CTI-Calle 10 no reporta datos atípicos. En los otros recorridos, la mayor cantidad de datos atípicos son inferiores.

A continuación se presentan los histogramas de velocidad (km/hora) para cada corredor de interés. En este caso, todos los histogramas exhiben un comportamiento sesgado a la izquierda.

Si se analiza el coeficiente de asimetría, todas las distribuciones son asimétricas con cola a la izquierda, excepto para el recorrido CTI-Calle 10 que presenta un coeficiente entre -0.37 y 0.37. De acuerdo con el coeficiente de curtosis, no hay distribuciones mesocúrticas, los recorridos Sandiego-Chuscalito y Solla-Punto Cero son leptocúrticos y los restantes se consideran platicúrticos.

2.2 Análisis con respecto al tiempo de viaje

A continuación se presentan las medidas descriptivas del tiempo de viaje (min), en esta franja horaria, sin considerar corredores específicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.700   6.500   7.600   8.133   8.700  55.600
sd(datos2$tv_minutos)
## [1] 2.588182

En el siguiente diagrama de cajas y bigotes se observa una gran cantidad de datos atípicos por encima de 12 minutos. Recorrer cualquiera de los corredores con flujo continuo a medio día no tarda más de 55.6 minutos.

Las medidas descriptivas del tiempo de viaje (min) en esta franja horaria por corredor de flujo continuo se presenta a continuación. El mayor tiempo promedio de viaje corresponde al recorrido CTI-Calle 10 y el más disperso corresponde a Tugo-San Juan.

En todos los casos, el promedio es representativo del conjunto de datos, así que se puede decir que cada conjunto de datos, relacionado con el tiempo de cada recorrido, es homogéneo.

A continuación se presentan los diagramas boxplot del tiempo de viaje (min) para cada corredor de interés. En todos los recorridos hay datos atípicos por encima, excepto en el recorrido Solla- Punto Cero, que hay tanto por encima como por debajo.

A continuación se presentan los histogramas del tiempo de viaje (min) para cada corredor de interés. El tiempo de viaje, en todos los recorridos, presenta un comportamiento con sesgo a la derecha.

Observando los coeficientes de asimetría y curtosis, todas las distribuciones presentan asimetría a la derecha y son leptocúrticas.


3. Segunda franja horaria: entre las 5 pm y las 7 pm

3.1 Análisis con respecto a velocidad

A continuación se presentan las medidas descriptivas de la velocidad, en esta franja horaria, sin considerar corredores específicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.20   31.00   43.00   41.37   51.20   75.40
sd(datos3$velocidad_km_h)#Desviación estándar
## [1] 12.86088

A continuación se presenta el diagrama de cajas y bigotes. En esta franja horaria no se presentan datos atípicos, y la velocidad varía entre 5.2 km/h y 74.5 km/hora.

El promedio y la desviación de la velocidad (km/hora) en esta franja horaria por corredor de flujo continuo se presenta a continuación. El recorrido que más velocidad promedio reporta es Solla-Punto Cero y el que menos velocidad promedio reporta es Punto Cero-Solla. El recorrido que reporta una velocidad más dispersa es Tugo-San Juan.

En todos los casos, el promedio es representativo del conjunto de datos, así que se puede decir que cada conjunto de datos, relacionado con la velocidad de cada recorrido, es homogéneo.

A continuación se presentan los diagramas boxplot de velocidad (km/hora) para cada corredor de interés. Solamente los recorridos Chuscalito-Sandiego y Solla-Punto Cero presentan datos atípicos.

A continuación se presentan los histogramas de velocidad (km/hora) para cada corredor de interés. La velocidad promedio de los recorridos Chuscalito-Sandiego y Solla-Punto Cero muestran un comportamiento sesgado a la izquierda. El recorrido Tgo - San Juan parece seguir una distribución bimodal, y posiblemente Sandiego-Chuscalito y CTI-Calle 10 también. El recorrido Punto Cero-Solla parece tener un comportamiento sesgado a la derecha.

Al estudiar los coeficientes de asimetría, la distribución de la velocidad del recorrido Punto Cero-Solla se considera simétrica, y las restantes tienen asimetría hacia la izquierda. Con respecto al coeficiente de curtosis, la única distribución leptocúrtica es la relacionada con el recorrido Solla-Punto Cero, las restantes son platicúrticas.

3.2 Análisis con respecto al tiempo de viaje

A continuación se presentan las medidas descriptivas del tiempo de viaje (min), en esta franja horaria, sin considerar corredores específicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.700   6.800   8.400   9.805  11.300  76.500
sd(datos3$tv_minutos)
## [1] 4.469204

En el siguiente boxplot se identifican datos atípicos solamente por encima de 18.05 minutos de viaje. Recorrer estos corredores entre las 5 de la tarde y las 7 de la noche tarda máximo 76.5 minutos.

Las medidas descriptivas del tiempo de viaje (min) en esta franja horaria por corredor de flujo continuo se presenta a continuación. El recorrido que toma más tiempo promedio es Tugo-San Juan y también es el más disperso. El que toma menos tiempo promedio es Solla-Punto Cero, recorrido que también es el menos disperso.

En todos los casos, el promedio es representativo del conjunto de datos, así que se puede decir que cada conjunto de datos, relacionado con el tiempo de cada recorrido, es homogéneo.

A continuación se presentan los diagramas boxplot del tiempo de viaje (min) para cada corredor de interés. En todos los casos hay presencia de datos atípicos.

A continuación se presentan los histogramas del tiempo de viaje (min) para cada corredor de interés. Todos los histogramas exhiben un comportamiento con simetría a la derecha.

La anterior afirmación se confirma analizando los coeficientes de asimetría, pues para todos los recorridos los coeficientes son mayores que 0.37. Con respecto a la curtosis, no hay distribuciones mesocúrtícas, hay dos platicúrticas que obedecen a los recorridos Punto Cero-Solla y Sandiego-Chuscalito, las restantes son leptocúrticas.


Entre las 6 y las 8 de la mañana, el recorrido que se puede hacer a mayor velocidad es Tugo - San Juan. El de menor velocidad es Sandiego - Chuscalito.

Entre las 12 y las 2 de la tarde, el recorrido que se puede hacer a mayor velocidad es Tugo - San Juan. El de menor velocidad es Sandiego - Chuscalito.

Entre las 5 de la tarde y las 7 de la noche, el recorrido que se puede hacer a mayor velocidad es Solla- Punto Cero. El de menor velocidad es Punto Cero - Solla.

Estos análisis también pueden ser realizados para los corredores con flujo interrumpido. Con la base de datos completa, es posible hacer un análisis por día para identificar la velocidad y el tiempo de viaje de cada uno de los corredores, y permite además hacer análisis de esas dos variables hora a hora.