2024-05-22
JR ENGINEERING COMPANY | Capital Facilities Performance Improvement Programme
—- {# Sección 1.}
El proceso de ablandamiento de agua desempeña un papel crucial en las operaciones de producción de petróleo, especialmente en campos que emplean la inyección cíclica de vapor para la recuperación mejorada de petróleo. Estas son las generalidades del proceso:
—- {# Sección 2.}
El dataset “OUT SUAVIZADA” está conformado por 2316 registros y 15 variables.
## id fecha datetime muestra o.w tss ph Cl conductance ## 1 2022-02-10 2022-02-10 03:00:00 OUT SUAVIZADA NA NA 8 71 109 ## 2 2022-02-10 2022-02-10 09:00:00 OUT SUAVIZADA NA NA 8 35 106 ## 3 2022-02-10 2022-02-10 18:00:00 OUT SUAVIZADA NA NA 8 62 130 ## CaCO3 Fe Ba SO4 analista observaciones ## 1 NA NA NA NA J. OSORIO ## 2 NA NA NA NA MERLY ## 3 NA NA NA NA A. PIÑA
## id fecha datetime muestra o.w tss ph Cl ## 2314 IND 21986 2024-04-21 2024-04-21 01:00:00 OUT SUAVIZADA NA NA 8 26 ## 2315 IND 21999 2024-04-21 2024-04-21 09:00:00 OUT SUAVIZADA NA NA NA NA ## 2316 IND 22010 2024-04-21 2024-04-21 17:00:00 OUT SUAVIZADA NA NA 8 4 ## conductance CaCO3 Fe Ba SO4 analista observaciones ## 2314 78 NA 0 6 NA ## 2315 NA 0 1 NA NA LHH ## 2316 82 NA 0 2 NA
Con base en los NA’s se infiere que CaCO3, SO4, OW, TSS no son variables de interés para el proceso de suavizado que se obtiene al filtrar los 28032 registros del dataset ‘dataqa’ por ‘muestra’ == “OUT SUAVIZADA”. Estas variables se omitirán del análisis.
## Cl pH ow tss CaCO3 Fe Ba SO4 Condunctance ## 1 49 70 2314 2311 2080 74 369 2195 218
Este subset intermedio, consta de los 2316 registros mencionados con 6 variables de interés para el proceso de suavizado de agua.
## # A tibble: 3 × 6 ## # Rowwise: ## fecha ph Cl conductance Fe Ba ## <date> <dbl> <dbl> <dbl> <dbl> <dbl> ## 1 2022-02-10 8 71 109 NA NA ## 2 2022-02-10 8 35 106 NA NA ## 3 2022-02-10 8 62 130 NA NA
## # A tibble: 3 × 6 ## # Rowwise: ## fecha ph Cl conductance Fe Ba ## <date> <dbl> <dbl> <dbl> <dbl> <dbl> ## 1 2024-04-21 8 26 78 0 6 ## 2 2024-04-21 NA NA NA 1 NA ## 3 2024-04-21 8 4 82 0 2
Observamos correlaciones bajas en su mayoría, con Cl y Fe (0.309) y conductance y Ba (0.184) como las más destacadas. Esto sugiere que cada variable aporta información única, evitando problemas de multicolinealidad y facilitando la interpretación de los modelos.
Se visualiza la presencia de outliers en la variable ‘conductance’ y ‘ph’ junto con valores atípicos en la variable ‘Cl’. Evidencia necesidad de gestionar outliers.
Los histogramas revelan que las variables ‘ph’, ‘Cl’, ‘conductance’ y ‘Fe’ tienen distribuciones asimétricas y sesgadas a la derecha, con la mayoría de los valores concentrados en rangos bajos y presencia de outliers. La variable ‘Ba’ muestra una distribución más equilibrada pero también sesgada.
Aspecto | Criterio | Validación | Estado |
---|---|---|---|
Completitud | Ausencia de valores faltantes | Verificar y manejar valores NA mediante imputación o eliminación según la naturaleza de los datos | COMPLETE |
Consistencia | Coherencia en los registros | Identificar y corregir inconsistencias (e.g., valores fuera de rango, errores de formato) | COMPLETE |
Precisión | Exactitud de los valores registrados | Comparar con datos de referencia o validar mediante inspección técnica del proceso de captura | NOT STARTED |
Aspecto | Criterio | Validación | Estado |
---|---|---|---|
Estacionariedad | Las propiedades estadísticas (media, varianza) son constantes a lo largo del tiempo | Realizar pruebas como ADF (Augmented Dickey-Fuller) o KPSS (Kwiatkowski-Phillips-Schmidt-Shin) | COMPLETE |
Estabilidad | La serie no presenta cambios estructurales significativos | Detectar rupturas en la tendencia con pruebas de cambio estructural (e.g., prueba de Chow) | NOT STARTED |
Aspecto | Criterio | Validación | Estado |
---|---|---|---|
Tendencia | Comportamiento general de aumento o disminución a lo largo del tiempo | Identificar y modelar la tendencia utilizando métodos de suavizado o regresión | IN PROGRESS |
Estacionalidad | Patrones que se repiten en intervalos regulares | Descomposición de la serie (e.g., STL: Seasonal-Trend decomposition using LOESS) | COMPLETE |
Ciclos | Fluctuaciones irregulares a largo plazo | Análisis espectral o de Fourier | COMPLETE |
Aspecto | Criterio | Validación | Estado |
---|---|---|---|
Ruido Blanco | La componente de ruido no muestra autocorrelación | Verificar mediante la función de autocorrelación (ACF) y pruebas Ljung-Box | COMPLETE |
Anomalías | Presencia de valores atípicos | Detectar y manejar outliers con métodos robustos o de imputación | NOT STARTED |
Aspecto | Criterio | Validación | Estado |
---|---|---|---|
Adecuación del Modelo | El modelo seleccionado se ajusta adecuadamente a los datos históricos | Usar criterios de información (AIC, BIC) y diagnóstico de residuos | NOT STARTED |
Capacidad Predictiva | El modelo puede predecir con precisión valores futuros | Evaluar el desempeño predictivo mediante técnicas de validación cruzada y análisis de error (e.g., RMSE, MAE) | NOT STARTED |
Aspecto | Criterio | Validación | Estado |
---|---|---|---|
Relevancia | La serie de tiempo refleja correctamente las condiciones operacionales | Validar con expertos del dominio y comparar con registros operacionales | NOT STARTED |
Acción | Los resultados del análisis permiten la toma de decisiones prácticas | Implementar un sistema de feedback para ajustar y mejorar continuamente el proceso de captura y análisis | NOT STARTED |
—- # Sección
Hipótesis | Prueba | Criterio de Confirmación/Rechazo |
---|---|---|
La serie de tiempo es estacionaria | Prueba de Dickey-Fuller Aumentada (ADF) | p-value < 0.05 para rechazar la hipótesis nula de no estacionariedad. |
La serie no tiene cambios estructurales | Prueba de Chow | p-value < 0.05 indica un cambio estructural significativo. |
Los residuos del modelo son ruido blanco | Prueba de Ljung-Box | p-value < 0.05 para rechazar la hipótesis nula de no autocorrelación en los residuos. |
No hay correlación serial en la serie | Prueba de Breusch-Godfrey | p-value < 0.05 para rechazar la hipótesis nula de no autocorrelación. |
La varianza es constante en el tiempo | Prueba de Breusch-Pagan | p-value < 0.05 para rechazar la hipótesis nula de homocedasticidad. |
Los datos siguen una distribución normal | Prueba de Shapiro-Wilk | p-value < 0.05 para rechazar la hipótesis nula de normalidad. |
No hay efectos de estacionalidad significativos | Prueba de Estacionalidad de Canova-Hansen | p-value < 0.05 indica la presencia de estacionalidad significativa. |
No hay efectos ARCH (heterocedasticidad condicional autorregresiva) | Prueba ARCH | p-value < 0.05 indica la presencia de efectos ARCH. |
Los outliers no afectan significativamente el modelo | Análisis de outliers | Número de outliers identificados y su impacto en las métricas del modelo. |
Prueba | Descripción Detallada |
---|---|
Prueba de Dickey-Fuller Aumentada (ADF) | La prueba ADF evalúa la hipótesis nula de que una unidad de raíz está presente en una serie de tiempo. La presencia de una raíz unitaria indica no estacionariedad. |
Prueba de Chow | La prueba de Chow se utiliza para identificar puntos de cambio estructural en una serie de tiempo, lo que puede indicar diferentes regímenes operacionales. |
Prueba de Ljung-Box | La prueba Ljung-Box evalúa la hipótesis nula de que las autocorrelaciones de los residuos de un modelo hasta un determinado lag son cero. |
Prueba de Breusch-Godfrey | La prueba de Breusch-Godfrey verifica la presencia de autocorrelación en los residuos de un modelo de regresión, lo que indica posibles problemas en el modelo. |
Prueba de Breusch-Pagan | La prueba de Breusch-Pagan evalúa la presencia de heterocedasticidad, verificando si la variabilidad de los errores de un modelo de regresión es constante. |
Prueba de Shapiro-Wilk | La prueba de Shapiro-Wilk es una prueba de normalidad que evalúa la hipótesis nula de que una muestra proviene de una distribución normal. |
Prueba de Estacionalidad de Canova-Hansen | La prueba de Canova-Hansen detecta estacionalidad en una serie de tiempo, lo que puede ser crucial para ajustar modelos apropiados. |
Prueba ARCH | La prueba ARCH verifica la presencia de heterocedasticidad condicional en una serie de tiempo, importante para modelos financieros y econométricos. |
Análisis de outliers | El análisis de outliers identifica valores atípicos en los datos y evalúa su impacto en el modelo, permitiendo ajustes o imputaciones necesarias. |
—- # Sección
## Time-Series [1:2316] from 2022 to 2024: 71 35 62 58 14 ...
Se identificaron 815 valores faltantes en el conjunto de datos de trabajo. Los valores atípicos se detectaron utilizando el algoritmo de Isolation Forest y se convirtieron en NA para evitar la reducción del conjunto de datos y permitir un análisis fluido de las series de tiempo.
## fecha Cl pH Fe Ba Condunctance ## 1 35 49 70 74 369 218
## [1] 815
Se identificaron 815 valores faltantes en el conjunto de datos. Los valores atípicos se detectaron utilizando el algoritmo de Isolation Forest y se convirtieron en NA para evitar la reducción del conjunto de datos y permitir un análisis fluido de las series de tiempo. Finalmente, todos los NA resultantes se imputaron utilizando Multivariate Imputation by Chained Equations (MICE).
## NULL
—- # Sección
Propósito: Evaluar si una serie temporal es estacionaria.
Criterio de Aceptación: Si el p-valor < 0.05, se rechaza la hipótesis nula de que la serie tiene una raíz unitaria (no estacionaria).
Resultado:
## ## Augmented Dickey-Fuller Test ## ## data: Cl_ts ## Dickey-Fuller = -8.9766, Lag order = 13, p-value = 0.01 ## alternative hypothesis: stationary
Propósito: Verificar si una serie temporal es estacionaria en torno a un nivel (media constante).
Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de que la serie es estacionaria.
Resultado:
## ## KPSS Test for Level Stationarity ## ## data: Cl_ts ## KPSS Level = 3.6836, Truncation lag parameter = 8, p-value = 0.01
## ## studentized Breusch-Pagan test ## ## data: modelo ## BP = 44.138, df = 1, p-value = 3.06e-11
—- # Sección
Propósito: Evaluar la consistencia relativa de las mediciones.
Criterio de Aceptación: Un CV < 0.10 (10%) generalmente indica una alta consistencia de las mediciones.
Resultado:
## [1] 0.7789116
—- # Sección
—- # Sección
—- # Sección
Propósito: Verificar si los datos siguen una distribución normal.
Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de que los datos siguen una distribución normal.
Resultados:
## ## Shapiro-Wilk normality test ## ## data: Cl_ts ## W = 0.91374, p-value < 2.2e-16
Propósito: Comparar la distribución de los datos con una distribución normal.
Criterio de Aceptación: Si el p-valor > 0.05, los datos no difieren significativamente de una distribución normal.
Resultados:
## ## Asymptotic one-sample Kolmogorov-Smirnov test ## ## data: Cl_ts ## D = 0.99995, p-value < 2.2e-16 ## alternative hypothesis: two-sided
Propósito: Verificar si los registros de una serie temporal son independientes (no autocorrelacionados).
Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de no autocorrelación en los residuos.
Resultados:
## ## Box-Ljung test ## ## data: residuos ## X-squared = 731.44, df = 20, p-value < 2.2e-16
Propósito: Evaluar si los residuos de un modelo siguen una distribución normal.
Criterio de Aceptación: Si el p-valor > 0.05, se acepta la hipótesis nula de que los residuos son normalmente distribuidos.
Resultado:
## ## Jarque Bera Test ## ## data: residuos ## X-squared = 4983.6, df = 2, p-value < 2.2e-16
## ## studentized Breusch-Pagan test ## ## data: x ~ z ## BP = 0.42316, df = 1, p-value = 0.5154
—- # Sección
## List of 1 ## $ p.values: num [1:33] 0 0 0 0 0 0 0 0 0 0 ...