El presente informe estadístico analiza la variable Fecha de Conclusión (CONCLUSAO) de los pozos petroleros de Brasil. El objetivo es evaluar la eficiencia y el ritmo de culminación de proyectos extractivos, aplicando técnicas descriptivas e inferenciales sobre los años de finalización.
Agrupamos los datos en décadas (intervalos de 10 años) para visualizar la tendencia estructural de la finalización de pozos y facilitar el cálculo de probabilidades.
breaks_dec <- seq(1920, 2020, by = 10)
h_total <- hist(X, breaks = breaks_dec, right = FALSE, plot = FALSE)
TDF_General <- data.frame(
Decada = paste(head(breaks_dec, -1), tail(breaks_dec, -1), sep = "-"),
ni = h_total$counts,
hi = round((h_total$counts / sum(h_total$counts)) * 100, 2)
)
totales_simplificados <- c("TOTAL", sum(TDF_General$ni), round(sum(TDF_General$hi), 2))
TDF_Inferencial <- TDF_General %>%
mutate(across(everything(), as.character))
TDF_Show_Simple <- rbind(TDF_Inferencial, totales_simplificados)
TDF_Show_Simple %>%
gt() %>%
tab_header(
title = md("TABLA DE FRECUENCIAS: INFERENCIA ESTATÍSTICA"),
subtitle = md("Variable: **Año de Conclusión**")
) %>%
tab_source_note(source_note = "Fuente: Tabela de Poços 2018") %>%
cols_label(
Decada = "Periodo (Década)",
ni = "Frecuencia Absoluta (ni)",
hi = "Frecuencia Relativa (hi%)"
) %>%
cols_align(align = "center", columns = everything()) %>%
tab_style(
style = list(cell_fill(color = "#1B4F72"), cell_text(color = "white", weight = "bold")),
locations = cells_title()
) %>%
tab_style(
style = list(cell_fill(color = "#EBF5FB"), cell_text(weight = "bold", color = "#1B4F72")),
locations = cells_column_labels()
)| TABLA DE FRECUENCIAS: INFERENCIA ESTATÍSTICA | ||
| Variable: Año de Conclusión | ||
| Periodo (Década) | Frecuencia Absoluta (ni) | Frecuencia Relativa (hi%) |
|---|---|---|
| 1920-1930 | 2 | 0.01 |
| 1930-1940 | 4 | 0.01 |
| 1940-1950 | 189 | 0.64 |
| 1950-1960 | 818 | 2.79 |
| 1960-1970 | 2427 | 8.28 |
| 1970-1980 | 2523 | 8.61 |
| 1980-1990 | 9533 | 32.52 |
| 1990-2000 | 3662 | 12.49 |
| 2000-2010 | 5480 | 18.7 |
| 2010-2020 | 4673 | 15.94 |
| TOTAL | 29311 | 99.99 |
| Fuente: Tabela de Poços 2018 | ||
A continuación, presentamos el histograma de frecuencias
col_gris_azulado <- "#5D6D7E"
col_ejes <- "#2E4053"
par(mar = c(10, 5, 4, 2))
vals_x <- TDF_General$Decada
vals_y <- TDF_General$ni
ylim_max <- max(vals_y) * 1.1
bp <- barplot(vals_y,
main = "Gráfica No.1: Distribución de Fecha de Conclusión de Pozos",
cex.main = 1,
ylab = "Cantidad de Pozos Concluidos",
col = col_gris_azulado,
border = "white",
axes = FALSE,
ylim = c(0, ylim_max),
axisnames = FALSE)
axis(2, col = col_ejes, col.axis = col_ejes)
axis(1, at = bp, labels = vals_x, col = col_ejes, col.axis = col_ejes, las=2, cex.axis=0.9)
title(xlab = "Década", line = 8)
grid(nx=NA, ny=NULL, col="#D7DBDD", lty="dotted")
box(bty="l", col=col_ejes)Al observar la gráfica corregida, validamos los dos comportamientos:
1920-1980: Crecimiento lento.
1980-2020: Comportamiento dinámico con un pico máximo en los 80 (r TDF_General$ni[7] pozos), una caída en los 90 y una recuperación en el 2000. Analizaremos este bloque completo (4 décadas) bajo el modelo Gamma para capturar su variabilidad.
Analizamos si la finalización de pozos en la primera mitad del siglo XX sigue un comportamiento normal.
# NUEVA SEGMENTACIÓN: Hasta antes del 2000
X1 <- X[X >= 1920 & X < 2000]
hist(
X1,
breaks = seq(1920, 2000, by = 10),
right = FALSE,
col = "skyblue",
main = "Histograma Sección 1 (1920–2000)",
xlab = "Año de Conclusión", ylab = "Frecuencia"
)Calculamos los parámetros fundamentales de la distribución normal: la Media (\(\mu\)) y la Desviación Estándar (\(\sigma\)).
mu1 <- mean(X1)
sd1 <- sd(X1)
# Generamos frecuencias esperadas Normales
h1 <- hist(X1, breaks = seq(1920, 2000, by = 10), plot = FALSE, right = FALSE)
Fo1 <- h1$counts / sum(h1$counts)
Fe1 <- diff(pnorm(seq(1920, 2000, by = 10), mean = mu1, sd = sd1))
barplot(rbind(Fo1, Fe1), beside = TRUE, col = c("skyblue", "blue"),
names.arg = h1$breaks[-length(h1$breaks)],
main = "Modelo de Probabilidad Normal de la Fecha de Conclusión (1920-2000)", legend = c("Real", "Modelo"))Medimos la correlación entre la frecuencia observada y la esperada por el modelo Normal.
## [1] 83.39266
Realizamos la prueba de bondad de ajuste.
tabla_1 <- data.frame(
Periodo = "1920 - 1999",
Modelo = "Normal (Décadas)",
Pearson_Pct = round(cor1, 2),
Chi_Cuadrado = round(x2_1, 4),
Umbral_Critico = round(vc1, 4),
Decision = ifelse(x2_1 < vc1, "Se Acepta Modelo", "Se Rechaza")
)
kable(tabla_1, caption = "Tabla N°2: Resumen Bondad de Ajuste - Siglo XX")| Periodo | Modelo | Pearson_Pct | Chi_Cuadrado | Umbral_Critico | Decision |
|---|---|---|---|---|---|
| 1920 - 1999 | Normal (Décadas) | 83.39 | 0.2241 | 11.0705 | Se Acepta Modelo |
Análisis del Siglo XXI (Quinquenios). Para ganar resolución y precisión estadística, subdividimos este periodo en intervalos de 5 años.
# SEGMENTACIÓN 2: Desde el 2000
X2 <- X[X >= 2000 & X <= 2020]
# --- CAMBIO CLAVE: breaks cada 5 años ---
hist(
X2,
breaks = seq(2000, 2020, by = 5),
right = FALSE,
col = "lightgreen",
main = "Histograma Sección 2 (2000-2020)",
xlab = "Año de Conclusión", ylab = "Frecuencia"
)Analizamos la era moderna. Aunque visualmente se observan fluctuaciones (auge en los 80, bajada en los 90, repunte en los 2000), utilizamos el modelo Gamma para describir la distribución de probabilidad de todo el periodo, ya que dividirlo en sub-secciones de solo 20 años nos dejaría sin suficientes datos para pruebas estadísticas válidas
Debido al “boom” inicial de los 80 y la asimetría positiva, conjeturamos que los datos siguen una Distribución Gamma. Estimamos los parámetros de Forma (\(\alpha\)) y Tasa (\(\beta\)).
# Ajuste Gamma: Restamos 1999 para iniciar la serie en 1
fit_gamma <- fitdistr(X2 - 1999, "gamma")
alpha <- fit_gamma$estimate["shape"]
beta <- fit_gamma$estimate["rate"]
# Histograma con cortes de 5 en 5
h2 <- hist(X2, breaks = seq(2000, 2020, by = 5), plot = FALSE, right = FALSE)
Fo2 <- h2$counts / sum(h2$counts)
# Probabilidades teóricas para intervalos de 5 años
limites_adj <- seq(2000, 2020, by = 5) - 1999
Fe2 <- diff(pgamma(limites_adj, shape = alpha, rate = beta))
# Nombres de las barras (Quinquenios)
nombres_quin <- c("2000-04", "2005-09", "2010-14", "2015-19")
barplot(rbind(Fo2, Fe2), beside = TRUE, col = c("lightgreen", "darkgreen"),
names.arg = nombres_quin,
main = "Modelo de Probabilidad Gamma de la Fecha de Conclusión (2000-2020)", legend = c("Real", "Gamma"))Evaluamos la correlación para confirmar que la curva Gamma captura la asimetría del periodo moderno.
plot(Fo2, Fe2,
main = "Gráfica N°6: Correlación Pearson (Sección 2)",
xlab = "Frecuencia Observada", ylab = "Frecuencia Esperada", pch = 19, col="darkgreen")
abline(lm(Fe2 ~ Fo2), col = "red", lwd = 2)La correlación es del 64.48%.
Validamos estadísticamente el modelo Gamma.
tabla_2 <- data.frame(
Periodo = "2000 - 2020",
Modelo = "Gamma (Quinquenios)", # <--- Aquí está la diferencia clave
Pearson_Pct = round(cor2, 2),
Chi_Cuadrado = round(x2_2, 4),
Umbral_Critico = round(vc2, 4),
Decision = ifelse(x2_2 < vc2, "Se Acepta Modelo", "Se Rechaza")
)
kable(tabla_2, caption = "Tabla N°3: Resumen Bondad de Ajuste ")| Periodo | Modelo | Pearson_Pct | Chi_Cuadrado | Umbral_Critico | Decision |
|---|---|---|---|---|---|
| 2000 - 2020 | Gamma (Quinquenios) | 64.48 | 0.1298 | 3.8415 | Se Acepta Modelo |
Pregunta: Según el comportamiento de la era moderna, ¿cuál fue la probabilidad de finalizar un pozo entre 2000 y 2010?
# Año 2010 es el 31 en la escala ajustada, 2000 es el 21
p_2000_10 <- pgamma(31, alpha, beta) - pgamma(21, alpha, beta)
p_2000_10## [1] 0.04074374
La probabilidad estimada para ese periodo fue del 4.07%.
El análisis de la variable Fecha de Conclusión confirma que la industria petrolera brasileña presenta dos comportamientos estadísticos distintos:
Periodo 1920-1979: Ajuste al modelo Normal con una correlación de 83.39%.
Periodo 1980-2019: Ajuste al modelo Gamma con una correlación de 64.48%. Este modelo logra describir eficazmente la alta variabilidad de la era moderna (auge, caída y recuperación).