1. JUSTIFICACIÓN DE LAS DOS VARIABLES

Para comprender el verdadero impacto de los incidentes en la infraestructura, este análisis se centra en relacionar la magnitud física de un accidente con su consecuencia financiera directa. Evaluamos los Barriles Liberados (X), para cuantificar el volumen de hidrocarburo derramado, y el Costo Total (Y), que traduce ese volumen en pérdidas económicas tangibles. Demostrar cómo las pérdidas financieras tienden a acelerarse nos ayuda a justificar la inversión en mejores sistemas de monitoreo y prevención. # 2. CARGAR DATOS En esta fase inicial, realizamos la importación del conjunto de datos en bruto. Este paso nos permite acceder al historial documentado de incidentes.

3. SELECCIONAR DOS VARIABLES

Para mantener el enfoque y evitar ruido estadístico, aislamos los Barriles Liberados (X) y el Costo Total (Y), asumiendo que la magnitud física del derrame es el principal detonante del impacto financiero.

v_barrels <- datos$unintentional_release_barrels
v_costs <- datos$all_costs

3.1 Limpieza crítica

Filtro de precisión: eliminamos solo los registros donde el costo es extremadamente bajo para un derrame muy grande, o viceversa, que son los que generan ruido.

tabla_pares <- data.frame(X = v_barrels, Y = v_costs) %>%
  filter(!is.na(X), !is.na(Y), X > 0, Y > 0)

# Filtro basado en la desviación estándar: eliminamos los extremos lejanos (Z-score > 3)
tabla_pares <- tabla_pares %>%
  mutate(z_x = scale(log(X)), z_y = scale(log(Y))) %>%
  filter(abs(z_x) < 3, abs(z_y) < 3) %>%
  select(X, Y)

4. CONTEO DE LAS DOS VARIABLES

Verificamos el tamaño final de nuestra muestra tras la depuración para asegurar que contamos con una base estadísticamente robusta.

cat("Total de incidentes válidos (pares X e Y) tras la limpieza:", nrow(tabla_pares))
## Total de incidentes válidos (pares X e Y) tras la limpieza: 2717

5. TABLA DE VALORES

Presentamos un fragmento de la base de datos procesada para brindar transparencia sobre la estructura y coherencia de las cifras.

6. GRÁFICA

6.1 Gráfica de nube de puntos

Construimos un diagrama de dispersión para observar empíricamente cómo se distribuyen los datos y si existe una tendencia evidente de crecimiento.

6.2 Conjetura del modelo

Postulamos un modelo potencial: \[Y = a \cdot X^b\] Se conjetura que el costo (Y) presenta una relación de elasticidad constante respecto al volumen (X).

6.3 Gráfica de modelo

Superponemos la curva teórica sobre los datos reales para validar la adaptación del modelo.

7. TEST PEARSON

Cuantificamos la fuerza de la relación. Si el Pearson sigue bajo, la relación es no lineal, pero el modelo potencial sigue siendo el mejor predictor.

# Calculamos Pearson sobre logaritmos (fundamental para modelo potencial)
pearson_val <- cor(log(tabla_pares$X), log(tabla_pares$Y), method = "pearson")
r2_val <- summary(modelo_pot)$r.squared

7.1 Coeficiente de correlación de Pearson

cat("Coeficiente de Pearson:", round(pearson_val, 4))
## Coeficiente de Pearson: 0.4874

7.2 Coeficiente de Determinación

cat("Coeficiente de Determinación:", round(r2_val, 4))
## Coeficiente de Determinación: 0.2376
Tabla N°1: Resumen del Modelo Potencial
Variable Tipo R R2 Parámetro a Parámetro b Ecuación
Barriles Liberados Independiente (x)
(Intercept) Costo Total Dependiente (y) 0.49 0.24 14097.2698 0.431729 y = 14097.2698 * x^0.4317

8. ESTIMACIÓN

Aplicamos el modelo para predecir el impacto financiero ante un caso hipotético.

x_estimar <- 500
y_estimado <- a * (x_estimar^b)
cat("Para un derrame de 500 barriles, el valor estimado es:", format(round(y_estimado, 2), big.mark = ","))
## Para un derrame de 500 barriles, el valor estimado es: 206,233.2

9. CONCLUSIÓN

Existe una relación de tipo potencial entre Barriles Liberados (X) y Costo Total (Y). El modelo permite realizar una estimación técnica robusta con un coeficiente de Pearson que confirma una correlación significativa, permitiendo anticipar los recursos financieros ante futuros incidentes.