La electricidad en el país comienza generándose en los generadores, para luego ser transportada tanto a grandes consumidores (grandes minas y fabricas) como a empresas distribuidoras. Es en las empresas distribuidoras, desde donde se “distribuye” la electricidad a los clientes regulados, es decir, hogares y fabricas medianas o pequeñas.
El propósito de este análisis es medir la demanda energética de las empresas distribuidoras, organizando por departamento.
La demanda de las empresas distribuidoras nos da un indicador de cual es la demanda de pequeñas y medianas empresas, así como de hogares.
Los hogares consumen electricidad de forma constante en el tiempo, así que las variaciones se deberían a fluctuaciones en la demanda de pequeñas y medianas fábricas/minas/otras.
El mapa eléctrico del Perú esta disponible en la pagina web del COES.
La distribución de electricidad en el Perú toma la forma de un sistema circulatorio, en el cual las últimas ramas se expanden como un árbol. Esto es debido a que usualmente las últimas ramas utilizan un sistema de distribución radial.
Existen varios sistemas de distribución, uno de ellos es el radial
En el sistema radial, toda la electricidad demandada por la zona ingresa por un solo punto.
Por ejemplo, se puede ver que en el caso de Tumbes, todas las lineas parten de la sub-estación Zorritos, y distribuyen a las subestaciones Zarumilla, Tumbes, Zorritos y Mancora.
Mapa del SEIN. Fuente: COES.
Como podrían adivinar, esto nos puede dar el problema de que la información se registre más de una vez. Esto lo veremos más adelante.
Utilizaremos como data la demanda de los agentes (distribuidoras) colgadas por el COES: http://www.coes.org.pe/Portal/DemandaBarras/consulta/index?tipo=2#.
Esta data muestra la demanda de las empresas distribuidoras, medida en cada punto disponible (que puede ser subestaciones, lineas de transmisión, etc.).
La información obtenida de del COES consta de dos partes:
La descripción de los puntos de medición, la cual incluye:
| PUNTO.DE.MEDICIÓN | 21577 | 22202 | 21558 | 22208 |
|---|---|---|---|---|
| NA | ELECTRO CENTRO | ELECTRO CENTRO | ELECTRO CENTRO | ELECTRO CENTRO |
| NA | 4TP-410 | CELDA-22.9KV-AUCAYACU | 4TP-202 | CELDA - 33KV - EJE MANTARO |
| NA | 22.90 | 0 | 69 | 33 |
| NA | ANDAYCHAGUA ELC | AUCAYACU | AYACUCHO | CAMPO ARMIÑO |
| PUNTO.DE.MEDICIÓN | 21577 | 22202 | 21558 | 22208 |
|---|---|---|---|---|
| 2020-02-15 00:30:00 | 0.833 | 0.96 | 9.1 | 0.487 |
| 2020-02-15 01:00:00 | 0.842 | 0.918 | 8.61 | 0.469 |
| 2020-02-15 01:30:00 | 0.771 | 0.906 | 8.37 | 0.463 |
| 2020-02-15 02:00:00 | 0.747 | 0.89 | 8.17 | 0.459 |
| 2020-02-15 02:30:00 | 0.725 | 0.884 | 8.15 | 0.462 |
Finalmente, asigno cada subestación a un departamento. Esta es una clasificación personal, bajo la cual considero que cada empresa de distribución tiene una región asignada sobre la cual distribuye energía. Por ejemplo, Luz del Sur solo distribuye energía en Lima.
Otras empresas tienen asignados varios departamentos, por lo que también ubico en Google Maps (y en OSINERMING) el nombre de la subestación.
| PUNTO.DE.MEDICIÓN | DEPARTAMENTO | FECHA.HORA./.SUBESTACIÓN | EMPRESA |
|---|---|---|---|
| 22464 | LIMA | JICAMARCA | ENEL DISTRIBUCION PERU |
| 21568 | JUNÍN | CONCEPCIÓN | ELECTRO CENTRO |
| 21520 | ANCASH | PALLASCA | HIDRANDINA |
| 41395 | ANCASH | CHIMBOTE SUR | HIDRANDINA |
| 22441 | LIMA | NEYRA | LUZ DEL SUR |
La organización por departamentos que hice puede ser descargada de aquí.
Una problema de sumar estos datos por departamento es que pueden ser redundantes. Como mencionamos anteriormente, algunos puntos de medición parten de otro, por ende, la información se registra dos o más veces.
Fuente: COES
Una forma más práctica de observar este problema, es utilizando el diagrama unifilar que muestra las conexiones directas. Este mapa también puede ser descargado de la pagina web del COES. La información solo es contada más de una vez en sistemas radiales.
Diagrama Unifilar. Fuente: COES
En el mapa podemos observar como la demanda de las subestaciones Tumbes, Puerto Pizarro y Mancora son medidas en su totalidad por la linea LT-6665A hacia la subestación Zorritos - Tumbes 60KV.
Podemos confirmarlo en la siguiente tabla:
## Joining, by = "PUNTO.DE.MEDICIÓN"
## Joining, by = c("PUNTO.DE.MEDICIÓN", "DEPARTAMENTO", "FECHA.HORA./.SUBESTACIÓN", "EMPRESA")
| PUNTO.DE.MEDICIÓN | 21588 | 21585 | 21586 | 21589 | 21590 | 21614 | suma |
|---|---|---|---|---|---|---|---|
| NA | ELECTRO NOR OESTE | ELECTRO NOR OESTE | ELECTRO NOR OESTE | ELECTRO NOR OESTE | ELECTRO NOR OESTE | ELECTRO NOR OESTE | NA |
| NA | TR-60/22.9/10kV | TR-60/33/10kV | TR-60/33/10kV | TR-60/22.9/10kV | TR-60/22.9/10kV | LT-6665A | NA |
| NA | 22.90 | 10 | 33 | 10 | 22.90 | 60 | NA |
| NA | PUERTO PIZARRO | TUMBES | TUMBES | ZARUMILLA | ZARUMILLA | ZORRITOS - TUMBES | NA |
| 2020-02-15 00:00:00 | 6.07 | 9.82 | 5.62 | 3.11 | 1.98 | 26.6 | 26.60 |
| 2020-02-15 00:30:00 | 4.86 | 0.31 | 5.92 | 2.97 | 1.86 | 15.92 | 15.92 |
| 2020-02-15 01:00:00 | 4.57 | 9.1 | 5.85 | 2.88 | 1.77 | 24.17 | 24.17 |
| 2020-02-15 01:30:00 | 3.65 | 9.12 | 5.83 | 2.87 | 1.71 | 23.18 | 23.18 |
| 2020-02-15 02:00:00 | 3.68 | 9.59 | 5.65 | 2.57 | 1.42 | 22.91 | 22.91 |
Como se puede apreciar tanto en la tabla e como en las imágenes mostradas arriba, el punto de medición en la linea de tensión Zorritos-Tumbes - LT6665A ya contiene la suma de los puntos en Tumbes, Puerto Pizarro y Zarumilla.
Para esta presentación, analizaré dos intervalos de tiempo: 29 días antes del inicio de la cuarentena por el coronavirus (16 de marzo del 2020), y los 29 días siguientes.
Puedes descargar los datos que utilizo desde la pagina web del COES, o directamente desde aquí.
La información puede presentar un sinfín de problemas:
Como un ejemplo de como tratar con el primer tipo de error (valores omitidos) voy a utilizar los datos disponibles en Tumbes según mi categorización, en los cuales se pueden observar valores omitidos.
Visualmente se aprecia que las series tienen distinta estacionalidad: hay horas durante el día en las que se consume más electricidad y hay días en los que se consume menos electricidad (como los fines de semana).
Para poder imputar (llenar los valores ausentes) de la serie, primero debemos encontrar la frecuencia de estos efectos estacionales, para luego proceder a imputar en cada estacionalidad (por ejemplo, esta serie tiene una estacionalidad de 24 horas y otra de 7 días). El paquete ImputeR nos permite hacer esto con la función na_seasplit. La teoría detrás de éste proceso no es el objetivo del análisis, sin embargo, recomiendo el libro “Forecasting: Principles and practice” de Rob Hyndman, así como su curso en Data Camp si es que se quiere investigar más.
Como se observa en el gráfico, los valores omitidos han sido sustituidos tomando en cuenta la estacionalidad diaria y semanal de la serie.
Una opción más rápida sería la de sumar la data por día, e imputar considerando solo la estacionalidad diaria. Esta forma será la que utilizaremos en adelante, dado que nos permite evitar errores.
Para evitar este tipo de error, utilizo dos filtros:
Primero, elimino cualquier valor que supere un consumo racional en el intervalo de medición de 30 minutos (por ejemplo, 300 MWh).
Segundo, elimino aquel valor que supere 4 veces la desviación estándar de cada serie. De esta forma, busco eliminar valores atípicos no recurrentes.
Se puede apreciar en la siguiente imagen, como los valores atípicos en CAYALTI fueron eliminados, y posteriormente se ha hecho una imputación del valor omitido para rellenar la serie.
Sin embargo, en el punto TUMÁN todavía existe un tercer tipo de error, es decir, un día arbitrariamente la data comenzó a registrarse en una escala errónea (multiplicada por 100).La única forma de corregir este tipo de errores es revisar visualmente las series y corregirlas manualmente. Este tipo de valores atípicos puede afectar la interpretación de nuestra data. Por ejemplo, al analizar la demanda por departamento, el error de medición de Lambayeque nos puede conducir a una interpretación errónea.
Una forma efectiva de solucionar este problema, es no tomar en cuenta cada punto de medición, sino aquel punto de medición que suma a la mayoría de puntos de medición por departamento (así como el punto Zorritos - Tumbes en el ejemplo anterior).
Mucha información que se mide en el sistema es redundante, es decir, se repite. A medida que se tengan más puntos de medición, la información redundante en cada departamento aumenta exponencialmente. Si se suman la demanda por departamento sin realizar ningún filtro, algunos departamentos pueden mostrar un consumo mayor al real. Este es el caso de Lima en nuestra data.## Joining, by = "PUNTO.DE.MEDICIÓN"
Como se mencionó antes, la mejor manera de evitar este tipo de problemas es considerar únicamente los puntos de medición que agrupan a la mayor cantidad de puntos de medición (como el punto Zorritos - Tumbes).
Para realizar esto se requiere un conocimiento por región de cuales son los puntos que agrupan a los demás. Esto se puede hacer revisando el mapa unifilar del COES.
Se debe identificar cuales son los puntos de medición relevantes (que eviten redundancias) en cada Región.
Este es un trabajo pendiente y que permitiría realizar un análisis confiable por departamento.
Cabe resaltar que el COES ya publica la información compiladas de 3 zonas del Perú (Norte, Centro y Sur) en su Informe de Evaluación diaria (IEOD) en la hoja “Demanda por zona”. Por lo tanto, si lo que se busca es la información compilada por esas zonas, es más fácil descargarlo de la página del COES.
Al contrario, si el interés es tener la información por departamento, el acercamiento visto en este análisis sería el correcto.
Todos los archivos en este análisis puede ser descargados del siguiente enlace: https://github.com/luis-zapata-b/Datos/archive/master.zip