Duplicidad en la base de roturas y fugas: Existencia de sobreregistros basados en aspectos de conexión, tipo de rotura o corte y fecha de registro.
## CONEXION CDESTIPSER fecha_inicio
## Min. : 24 Length:722 Min. :2025-01-01 00:00:00
## 1st Qu.: 2581 Class :character 1st Qu.:2025-03-18 00:00:00
## Median : 5140 Mode :character Median :2025-06-17 00:00:00
## Mean : 5177 Mean :2025-06-23 20:54:30
## 3rd Qu.: 8108 3rd Qu.:2025-09-22 18:00:00
## Max. :10329 Max. :2025-12-31 00:00:00
## CONEXION CDESTIPSER fecha_inicio
## Min. : 1 Length:10860 Min. :2025-01-01 00:00:00
## 1st Qu.: 2537 Class :character 1st Qu.:2025-03-21 00:00:00
## Median : 5138 Mode :character Median :2025-06-21 00:00:00
## Mean : 5135 Mean :2025-06-26 03:46:28
## 3rd Qu.: 7709 3rd Qu.:2025-09-28 00:00:00
## Max. :10340 Max. :2025-12-31 00:00:00
En la descripción de los datos se observa que se realizaron correccipon de duplicidad. Eliminando para el caso de “Roturas” 4 observaciones y para el caso de fugas 299 observaciones.
Se ha detectado que ciertos registros presentan una anomalía en sus coordenadas que los ubica en una posición incorrecta o incluso fuera del área de servicio.
Latitudes correctas en Junín: entre -11 y -13
Se observan los datos de altitud y longitud, para ver si existen anomalías que den resultados incorrectos.
Teniendo en cuenta que las latitudes correctas en Junín: estan entre -11 y -13.
Base casos de roturas
## latitud longitud
## Min. :-75.25 Min. :-75.31
## 1st Qu.:-12.11 1st Qu.:-75.22
## Median :-12.07 Median :-75.21
## Mean :-18.45 Mean :-68.83
## 3rd Qu.:-12.04 3rd Qu.:-75.19
## Max. :-11.96 Max. :-12.02
Base caso de fugas
## latitud longitud
## Min. :-75.31 Min. :-75.31
## 1st Qu.:-12.11 1st Qu.:-75.22
## Median :-12.07 Median :-75.21
## Mean :-18.14 Mean :-69.14
## 3rd Qu.:-12.04 3rd Qu.:-75.20
## Max. :-11.96 Max. :-11.96
Se oberva como existen datos de latitud alejados del rango “normal”.
Corrección de los datos
# ROTURAS
roturas_limpia <- roturas_limpia %>%
mutate(coord_invertida = latitud < -13,
latitud_ok = ifelse(coord_invertida, longitud, latitud),
longitud_ok = ifelse(coord_invertida, latitud, longitud)
)
# FUGAs
fugas_limpia <- fugas_limpia %>%
mutate(coord_invertida = latitud < -13,
latitud_ok = ifelse(coord_invertida, longitud, latitud),
longitud_ok = ifelse(coord_invertida, latitud, longitud)
)
Despues de haber corregidos los datos se vuelve a revisar el detalle, donde se observa la corrección de la anomalía para ambas casos registrados.
Roturas
## latitud_ok longitud_ok
## Min. :-12.18 Min. :-75.31
## 1st Qu.:-12.10 1st Qu.:-75.23
## Median :-12.06 Median :-75.21
## Mean :-12.07 Mean :-75.22
## 3rd Qu.:-12.04 3rd Qu.:-75.20
## Max. :-11.96 Max. :-75.18
Fugas
## latitud_ok longitud_ok
## Min. :-12.18 Min. :-75.31
## 1st Qu.:-12.10 1st Qu.:-75.23
## Median :-12.07 Median :-75.21
## Mean :-12.07 Mean :-75.21
## 3rd Qu.:-12.04 3rd Qu.:-75.20
## Max. :-11.96 Max. :-75.18
Se procede a consolidar las distintas bases de datos en una sola a nivel de sector, lo que facilitará la construcción de indicadores operativos que permitan diagnosticar el estado real de la red y orientar la toma de decisiones de la empresa prestadora de servicios.
Ranking de roturas y fugas por sector
Se determinan los sectores con mayor número de roturas y fugas por red principal y secundarias, para identificar de forma directa los sectores con mayor presión operativa.
show(ranking_roturas)
## # A tibble: 73 × 2
## SECTOR total_roturas
## <chr> <int>
## 1 S84 39
## 2 S80 35
## 3 S77 24
## 4 S59 23
## 5 S66 23
## 6 S75 22
## 7 S74 21
## 8 S51 19
## 9 S57 19
## 10 S81 19
## # ℹ 63 more rows
show(ranking_fugas)
## # A tibble: 82 × 2
## SECTOR total_fugas
## <chr> <int>
## 1 S84 606
## 2 S83 420
## 3 S82 408
## 4 S80 399
## 5 S77 369
## 6 S81 362
## 7 S76 309
## 8 S79 301
## 9 S70 299
## 10 S59 254
## # ℹ 72 more rows
TIEMPO PROMEDIO DE REPARACIÓN POR SECTOR
Con el fin de evaluar la capacidad de respuesta de una EPS ante eventos de roturas y fugas, se debe evalua el tiempo en el cual se toman para restablecer el servicio.
TIEMPO PROMEDIO DE ROTURAS
PROMEDIO TOTAL: 60.44
## # A tibble: 73 × 3
## SECTOR tiempo_promedio_horas total_roturas
## <chr> <dbl> <int>
## 1 S24 91.5 1
## 2 S7 82.4 4
## 3 S4 81.0 4
## 4 S15 76.2 1
## 5 S31 72.8 10
## 6 S35 71.4 7
## 7 S41 71.2 13
## 8 S47 70.4 4
## 9 S81 69.4 19
## 10 S34 69.1 6
## # ℹ 63 more rows
TIEMPO PROMEDIO DE FUGAS
PROMEDIO TOTAL: 44.97
## # A tibble: 82 × 3
## SECTOR tiempo_promedio_horas total_fugas
## <chr> <dbl> <int>
## 1 S5 37.8 3
## 2 S10 34.6 12
## 3 S16 29.8 42
## 4 S23 29.0 38
## 5 S37 28.2 51
## 6 S8 28.1 24
## 7 S9 27.8 30
## 8 S14 27.7 22
## 9 S52 27.4 149
## 10 S2 27.3 34
## # ℹ 72 more rows
NORMALIZACIÓN DE CASOS
Se procede a calcular del número de roturas de redes principales por km de red y número de roturas de redes secundarias por conexiones.
## # A tibble: 73 × 5
## SECTOR total_roturas roturas_x_km total_fugas fugas_x_conexion
## <chr> <int> <dbl> <int> <dbl>
## 1 S10 3 0.285 12 0.0133
## 2 S11 13 1.17 30 0.0331
## 3 S12 1 0.126 72 0.0681
## 4 S14 3 0.362 22 0.0203
## 5 S15 1 0.0465 3 0.0028
## 6 S16 5 0.356 42 0.035
## 7 S17 2 0.139 37 0.0305
## 8 S2 4 1.09 34 0.0937
## 9 S20 17 1.94 59 0.0401
## 10 S22 9 0.604 71 0.0454
## # ℹ 63 more rows
Además se busca la correlación entre ambos tipos a nivel de sector.
Correlación = 0.3073
##
## Correlación entre roturas/km y fugas/conexión: 0.3074
ANÁLISIS DE AGRUPAMIENTO
Sabemos que no todos los sectores presentan el mismo nivel de criticidad, por lo queresulta necesario clasificarlos en grupos homogéneos que permitan orientar la toma de decisiones de manera diferenciada.
A partir del cuadro y del gráfico vemos que el grupo clasificado “2” presenta mayor número de roturas y fugas tanto por km y por conexiones. Por lo cual es uno de los sectores con mayor preocupación.
Para la construcción del gráfico se clasificó los sectores en grupos internamente similares y externamente distintos, utilizando el promedio de roturas/km de red de distribución y el promedio de fugas/conexión, con el fin de clasificar los datos en 4 grupos (del 1 al 4) para caracterizarlos e identificando cuales son los sectores que se deben atender prioritariamente.
## Warning: package 'ggplot2' was built under R version 4.5.3
Con el objetivo de minimizar costos de operación, es necesario determinar la senda óptima que permita minimizar la distancia recorrida por los trabajadores desde la sede principal hasta el lugar donde se reportó la falla.
PUNTO DE PARTIDA (sede EPS Junín)
EPS_LAT <- -12.0736422
EPS_LON <- -75.2111365
Además se inserto una columno de orden para dar una idea del orden para acudir a atender el problema.
Tambien se muestra graficamente.