2024-05-22

—- {# Sección 1.}

El Proceso en Moriche

Contexto

El proceso de ablandamiento de agua desempeña un papel crucial en las operaciones de producción de petróleo, especialmente en campos que emplean la inyección cíclica de vapor para la recuperación mejorada de petróleo. Estas son las generalidades del proceso:

  • Utilización de Agua Ablandada: Para la inyección de vapor, reduciendo la viscosidad del crudo y aumentando la producción.
  • Capacidad del Sistema: Plantas de ablandamiento con capacidad total de 1,300 gpm.
  • Características del Agua de Alimentación: TDS 184 ppm, dureza total 20 ppm CaCO3, pH 8.28, conductividad 382 μΩ/cm y turbidez <1 NTU.
  • Proceso de Tratamiento: Filtración con arena, antracita y carbón activado.
  • Proceso de Ablandamiento: Resinas de intercambio catiónico para eliminar calcio y magnesio.
  • Almacenamiento y Distribución: Tanque de 10,000 bbl (TK-ETR-003) con sistema de inertización.
  • Sistema de Control: Monitorización y control de la operación del sistema.
  • Transferencia de Agua: Seis bombas, controladas mediante un lazo de control de flujo y una válvula de control.

—- {# Sección 2.}

El Dataset

Resumen del dataset

El dataset “OUT SUAVIZADA” está conformado por 2316 registros y 15 variables.

##   id      fecha            datetime       muestra o.w tss ph Cl conductance
## 1    2022-02-10 2022-02-10 03:00:00 OUT SUAVIZADA  NA  NA  8 71         109
## 2    2022-02-10 2022-02-10 09:00:00 OUT SUAVIZADA  NA  NA  8 35         106
## 3    2022-02-10 2022-02-10 18:00:00 OUT SUAVIZADA  NA  NA  8 62         130
##   CaCO3 Fe Ba SO4 analista observaciones
## 1    NA NA NA  NA              J. OSORIO
## 2    NA NA NA  NA                  MERLY
## 3    NA NA NA  NA                A. PIÑA
##             id      fecha            datetime       muestra o.w tss ph Cl
## 2314 IND 21986 2024-04-21 2024-04-21 01:00:00 OUT SUAVIZADA  NA  NA  8 26
## 2315 IND 21999 2024-04-21 2024-04-21 09:00:00 OUT SUAVIZADA  NA  NA NA NA
## 2316 IND 22010 2024-04-21 2024-04-21 17:00:00 OUT SUAVIZADA  NA  NA  8  4
##      conductance CaCO3 Fe Ba SO4 analista observaciones
## 2314          78    NA  0  6  NA                       
## 2315          NA     0  1 NA  NA                    LHH
## 2316          82    NA  0  2  NA

NA’s of ‘OUT SUAVIZADA’

Con base en los NA’s se infiere que CaCO3, SO4, OW, TSS no son variables de interés para el proceso de suavizado que se obtiene al filtrar los 28032 registros del dataset ‘dataqa’ por ‘muestra’ == “OUT SUAVIZADA”. Estas variables se omitirán del análisis.

##   Cl pH   ow  tss CaCO3 Fe  Ba  SO4 Condunctance
## 1 49 70 2314 2311  2080 74 369 2195          218

Resumen del subset de trabajo: ‘out_suavizada’

Este subset intermedio, consta de los 2316 registros mencionados con 6 variables de interés para el proceso de suavizado de agua.

## # A tibble: 3 × 6
## # Rowwise: 
##   fecha         ph    Cl conductance    Fe    Ba
##   <date>     <dbl> <dbl>       <dbl> <dbl> <dbl>
## 1 2022-02-10     8    71         109    NA    NA
## 2 2022-02-10     8    35         106    NA    NA
## 3 2022-02-10     8    62         130    NA    NA
## # A tibble: 3 × 6
## # Rowwise: 
##   fecha         ph    Cl conductance    Fe    Ba
##   <date>     <dbl> <dbl>       <dbl> <dbl> <dbl>
## 1 2024-04-21     8    26          78     0     6
## 2 2024-04-21    NA    NA          NA     1    NA
## 3 2024-04-21     8     4          82     0     2

Correlación en el subset

Observamos correlaciones bajas en su mayoría, con Cl y Fe (0.309) y conductance y Ba (0.184) como las más destacadas. Esto sugiere que cada variable aporta información única, evitando problemas de multicolinealidad y facilitando la interpretación de los modelos.

Dispersión del subset

Se visualiza la presencia de outliers en la variable ‘conductance’ y ‘ph’ junto con valores atípicos en la variable ‘Cl’. Evidencia necesidad de gestionar outliers.

Histograma del dataset

Los histogramas revelan que las variables ‘ph’, ‘Cl’, ‘conductance’ y ‘Fe’ tienen distribuciones asimétricas y sesgadas a la derecha, con la mayoría de los valores concentrados en rangos bajos y presencia de outliers. La variable ‘Ba’ muestra una distribución más equilibrada pero también sesgada.

Criterios para Validación de Serie de Tiempo

Calidad de los Datos

Aspecto Criterio Validación Estado
Completitud Ausencia de valores faltantes Verificar y manejar valores NA mediante imputación o eliminación según la naturaleza de los datos COMPLETE
Consistencia Coherencia en los registros Identificar y corregir inconsistencias (e.g., valores fuera de rango, errores de formato) COMPLETE
Precisión Exactitud de los valores registrados Comparar con datos de referencia o validar mediante inspección técnica del proceso de captura NOT STARTED

Estabilidad y Estacionariedad

Aspecto Criterio Validación Estado
Estacionariedad Las propiedades estadísticas (media, varianza) son constantes a lo largo del tiempo Realizar pruebas como ADF (Augmented Dickey-Fuller) o KPSS (Kwiatkowski-Phillips-Schmidt-Shin) COMPLETE
Estabilidad La serie no presenta cambios estructurales significativos Detectar rupturas en la tendencia con pruebas de cambio estructural (e.g., prueba de Chow) NOT STARTED

Componentes de la Serie

Aspecto Criterio Validación Estado
Tendencia Comportamiento general de aumento o disminución a lo largo del tiempo Identificar y modelar la tendencia utilizando métodos de suavizado o regresión IN PROGRESS
Estacionalidad Patrones que se repiten en intervalos regulares Descomposición de la serie (e.g., STL: Seasonal-Trend decomposition using LOESS) COMPLETE
Ciclos Fluctuaciones irregulares a largo plazo Análisis espectral o de Fourier COMPLETE

Ruido y Anomalías

Aspecto Criterio Validación Estado
Ruido Blanco La componente de ruido no muestra autocorrelación Verificar mediante la función de autocorrelación (ACF) y pruebas Ljung-Box COMPLETE
Anomalías Presencia de valores atípicos Detectar y manejar outliers con métodos robustos o de imputación NOT STARTED

Modelado y Pronóstico

Aspecto Criterio Validación Estado
Adecuación del Modelo El modelo seleccionado se ajusta adecuadamente a los datos históricos Usar criterios de información (AIC, BIC) y diagnóstico de residuos NOT STARTED
Capacidad Predictiva El modelo puede predecir con precisión valores futuros Evaluar el desempeño predictivo mediante técnicas de validación cruzada y análisis de error (e.g., RMSE, MAE) NOT STARTED

Ajuste a la Realidad Operacional

Aspecto Criterio Validación Estado
Relevancia La serie de tiempo refleja correctamente las condiciones operacionales Validar con expertos del dominio y comparar con registros operacionales NOT STARTED
Acción Los resultados del análisis permiten la toma de decisiones prácticas Implementar un sistema de feedback para ajustar y mejorar continuamente el proceso de captura y análisis NOT STARTED

—- # Sección

Hipótesis y Pruebas para Validación de Serie de Tiempo

Hipótesis

Hipótesis Prueba Criterio de Confirmación/Rechazo
La serie de tiempo es estacionaria Prueba de Dickey-Fuller Aumentada (ADF) p-value < 0.05 para rechazar la hipótesis nula de no estacionariedad.
La serie no tiene cambios estructurales Prueba de Chow p-value < 0.05 indica un cambio estructural significativo.
Los residuos del modelo son ruido blanco Prueba de Ljung-Box p-value < 0.05 para rechazar la hipótesis nula de no autocorrelación en los residuos.
No hay correlación serial en la serie Prueba de Breusch-Godfrey p-value < 0.05 para rechazar la hipótesis nula de no autocorrelación.
La varianza es constante en el tiempo Prueba de Breusch-Pagan p-value < 0.05 para rechazar la hipótesis nula de homocedasticidad.
Los datos siguen una distribución normal Prueba de Shapiro-Wilk p-value < 0.05 para rechazar la hipótesis nula de normalidad.
No hay efectos de estacionalidad significativos Prueba de Estacionalidad de Canova-Hansen p-value < 0.05 indica la presencia de estacionalidad significativa.
No hay efectos ARCH (heterocedasticidad condicional autorregresiva) Prueba ARCH p-value < 0.05 indica la presencia de efectos ARCH.
Los outliers no afectan significativamente el modelo Análisis de outliers Número de outliers identificados y su impacto en las métricas del modelo.

Descripción de las pruebas

Prueba Descripción Detallada
Prueba de Dickey-Fuller Aumentada (ADF) La prueba ADF evalúa la hipótesis nula de que una unidad de raíz está presente en una serie de tiempo. La presencia de una raíz unitaria indica no estacionariedad.
Prueba de Chow La prueba de Chow se utiliza para identificar puntos de cambio estructural en una serie de tiempo, lo que puede indicar diferentes regímenes operacionales.
Prueba de Ljung-Box La prueba Ljung-Box evalúa la hipótesis nula de que las autocorrelaciones de los residuos de un modelo hasta un determinado lag son cero.
Prueba de Breusch-Godfrey La prueba de Breusch-Godfrey verifica la presencia de autocorrelación en los residuos de un modelo de regresión, lo que indica posibles problemas en el modelo.
Prueba de Breusch-Pagan La prueba de Breusch-Pagan evalúa la presencia de heterocedasticidad, verificando si la variabilidad de los errores de un modelo de regresión es constante.
Prueba de Shapiro-Wilk La prueba de Shapiro-Wilk es una prueba de normalidad que evalúa la hipótesis nula de que una muestra proviene de una distribución normal.
Prueba de Estacionalidad de Canova-Hansen La prueba de Canova-Hansen detecta estacionalidad en una serie de tiempo, lo que puede ser crucial para ajustar modelos apropiados.
Prueba ARCH La prueba ARCH verifica la presencia de heterocedasticidad condicional en una serie de tiempo, importante para modelos financieros y econométricos.
Análisis de outliers El análisis de outliers identifica valores atípicos en los datos y evalúa su impacto en el modelo, permitiendo ajustes o imputaciones necesarias.

—- # Sección

La Serie de Tiempo

Descripción

  • Origen de la data: Los datos provienen de parámetros operacionales del proceso de suavizado de agua utilizado para la generación de vapor en las instalaciones de producción del Campo Moriche.
  • Composición del dataset: El conjunto de datos está compuesto por lecturas de la concentración de cloruros (Cl) realizadas cada 8 horas como parte del monitoreo de la calidad del agua, abarcando el periodo comprendido entre febrero de 2022 y abril de 2024.
  • Resumen del data set:
##  Time-Series [1:2316] from 2022 to 2024: 71 35 62 58 14 ...

Completitud

Se identificaron 815 valores faltantes en el conjunto de datos de trabajo. Los valores atípicos se detectaron utilizando el algoritmo de Isolation Forest y se convirtieron en NA para evitar la reducción del conjunto de datos y permitir un análisis fluido de las series de tiempo.

##   fecha Cl pH Fe  Ba Condunctance
## 1    35 49 70 74 369          218
## [1] 815

Consistencia

Se identificaron 815 valores faltantes en el conjunto de datos. Los valores atípicos se detectaron utilizando el algoritmo de Isolation Forest y se convirtieron en NA para evitar la reducción del conjunto de datos y permitir un análisis fluido de las series de tiempo. Finalmente, todos los NA resultantes se imputaron utilizando Multivariate Imputation by Chained Equations (MICE).

## NULL

—- # Sección

Estabilidad y Estacionariedad

Prueba de Dickey-Fuller Aumentada (ADF)

  • Propósito: Evaluar si una serie temporal es estacionaria.

  • Criterio de Aceptación: Si el p-valor < 0.05, se rechaza la hipótesis nula de que la serie tiene una raíz unitaria (no estacionaria).

  • Resultado:

## 
##  Augmented Dickey-Fuller Test
## 
## data:  Cl_ts
## Dickey-Fuller = -8.9766, Lag order = 13, p-value = 0.01
## alternative hypothesis: stationary

Prueba KPSS (Kwiatkowski - Phillips - Schmidt - Shin)

  • Propósito: Verificar si una serie temporal es estacionaria en torno a un nivel (media constante).

  • Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de que la serie es estacionaria.

  • Resultado:

## 
##  KPSS Test for Level Stationarity
## 
## data:  Cl_ts
## KPSS Level = 3.6836, Truncation lag parameter = 8, p-value = 0.01

Prueba de Breusch-Pagan

  • Propósito: Evaluar si las lecturas de un modelo de regresión tienen varianza constante (homocedasticidad).
  • Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de homocedasticidad.
  • Resultado:
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 44.138, df = 1, p-value = 3.06e-11

—- # Sección

Evaluación de Consistencia

Coeficiente de Variación (CV)

  • Propósito: Evaluar la consistencia relativa de las mediciones.

  • Criterio de Aceptación: Un CV < 0.10 (10%) generalmente indica una alta consistencia de las mediciones.

  • Resultado:

## [1] 0.7789116

—- # Sección

Representatividad

Análisis de Varianza (ANOVA)

  • Propósito: Evaluar si las diferencias entre grupos de datos son significativas.
  • Criterio de Aceptación: Si el p-valor < 0.05, se concluye que existen diferencias significativas entre los grupos.
  • Resultados:

—- # Sección

Componentes de la Serie

Seasonal Decomposition of Time Series by Loess (STL)

Extración de residuos

—- # Sección

Ruido y Anomalías

Prueba de Shapiro-Wilk

  • Propósito: Verificar si los datos siguen una distribución normal.

  • Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de que los datos siguen una distribución normal.

  • Resultados:

## 
##  Shapiro-Wilk normality test
## 
## data:  Cl_ts
## W = 0.91374, p-value < 2.2e-16

Prueba de Kolmogorov-Smirnov

  • Propósito: Comparar la distribución de los datos con una distribución normal.

  • Criterio de Aceptación: Si el p-valor > 0.05, los datos no difieren significativamente de una distribución normal.

  • Resultados:

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  Cl_ts
## D = 0.99995, p-value < 2.2e-16
## alternative hypothesis: two-sided

Prueba de Ljung-Box a residuos

  • Propósito: Verificar si los registros de una serie temporal son independientes (no autocorrelacionados).

  • Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de no autocorrelación en los residuos.

  • Resultados:

## 
##  Box-Ljung test
## 
## data:  residuos
## X-squared = 731.44, df = 20, p-value < 2.2e-16

Prueba de Jarque-Bera en los residuos

  • Propósito: Evaluar si los residuos de un modelo siguen una distribución normal.

  • Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de que los residuos son normalmente distribuidos.

  • Resultado:

## 
##  Jarque Bera Test
## 
## data:  residuos
## X-squared = 4983.6, df = 2, p-value < 2.2e-16

Pruebas de homocedasticidad en los residuos

  • Propósito: Evaluar si las lecturas de un modelo de regresión tienen varianza constante (homocedasticidad).
  • Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de homocedasticidad.
  • Resultado:
## 
##  studentized Breusch-Pagan test
## 
## data:  x ~ z
## BP = 0.42316, df = 1, p-value = 0.5154

—- # Sección

Modelado y Pronóstico

Prueba de McLeod-Li

  • Propósito: Verificar la presencia de no linealidad en una serie temporal.
  • Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de no linealidad.
  • Resultado:

## List of 1
##  $ p.values: num [1:33] 0 0 0 0 0 0 0 0 0 0 ...