1.Introducción y Metodología

El presente informe estadístico analiza la variable Fecha de Conclusión (CONCLUSAO) de los pozos petroleros de Brasil. El objetivo es evaluar la eficiencia y el ritmo de culminación de proyectos extractivos, aplicando técnicas descriptivas e inferenciales sobre los años de finalización.

2. Tabla de distribución de frecuencia

Agrupamos los datos en décadas (intervalos de 10 años) para visualizar la tendencia estructural de la finalización de pozos y facilitar el cálculo de probabilidades.

breaks_dec <- seq(1920, 2020, by = 10)
h_total <- hist(X, breaks = breaks_dec, right = FALSE, plot = FALSE)

TDF_General <- data.frame(
  Decada = paste(head(breaks_dec, -1), tail(breaks_dec, -1), sep = "-"),
  ni = h_total$counts,
  hi = round((h_total$counts / sum(h_total$counts)) * 100, 2)
)

totales_simplificados <- c("TOTAL", sum(TDF_General$ni), round(sum(TDF_General$hi), 2))

TDF_Inferencial <- TDF_General %>% 
  mutate(across(everything(), as.character))

TDF_Show_Simple <- rbind(TDF_Inferencial, totales_simplificados)

TDF_Show_Simple %>%
  gt() %>%
  tab_header(
    title = md("TABLA DE FRECUENCIAS: INFERENCIA ESTATÍSTICA"),
    subtitle = md("Variable: **Año de Conclusión**")
  ) %>%
  tab_source_note(source_note = "Fuente: Tabela de Poços 2018") %>%
  cols_label(
    Decada = "Periodo (Década)", 
    ni = "Frecuencia Absoluta (ni)", 
    hi = "Frecuencia Relativa (hi%)"
  ) %>%
  cols_align(align = "center", columns = everything()) %>%
  tab_style(
    style = list(cell_fill(color = "#1B4F72"), cell_text(color = "white", weight = "bold")),
    locations = cells_title()
  ) %>%
  tab_style(
    style = list(cell_fill(color = "#EBF5FB"), cell_text(weight = "bold", color = "#1B4F72")),
    locations = cells_column_labels()
  )
TABLA DE FRECUENCIAS: INFERENCIA ESTATÍSTICA
Variable: Año de Conclusión
Periodo (Década) Frecuencia Absoluta (ni) Frecuencia Relativa (hi%)
1920-1930 2 0.01
1930-1940 4 0.01
1940-1950 189 0.64
1950-1960 818 2.79
1960-1970 2427 8.28
1970-1980 2523 8.61
1980-1990 9533 32.52
1990-2000 3662 12.49
2000-2010 5480 18.7
2010-2020 4673 15.94
TOTAL 29311 99.99
Fuente: Tabela de Poços 2018

3. Gráficas

3.1 Diagrama de barras local

A continuación, presentamos el histograma de frecuencias

col_gris_azulado <- "#5D6D7E"
col_ejes <- "#2E4053"

par(mar = c(10, 5, 4, 2)) 

vals_x <- TDF_General$Decada
vals_y <- TDF_General$ni
ylim_max <- max(vals_y) * 1.1

bp <- barplot(vals_y,
         main = "Gráfica No.1: Distribución de Fecha de Conclusión de Pozos",
         cex.main = 1,          
         ylab = "Cantidad de Pozos Concluidos",
         col = col_gris_azulado, 
         border = "white",      
         axes = FALSE,          
         ylim = c(0, ylim_max),
         axisnames = FALSE)     

axis(2, col = col_ejes, col.axis = col_ejes)
axis(1, at = bp, labels = vals_x, col = col_ejes, col.axis = col_ejes, las=2, cex.axis=0.9)
title(xlab = "Década", line = 8)
grid(nx=NA, ny=NULL, col="#D7DBDD", lty="dotted")
box(bty="l", col=col_ejes)

Al observar la gráfica corregida, validamos los dos comportamientos:

1920-1980: Crecimiento lento.

1980-2020: Comportamiento dinámico con un pico máximo en los 80 (r TDF_General$ni[7] pozos), una caída en los 90 y una recuperación en el 2000. Analizaremos este bloque completo (4 décadas) bajo el modelo Gamma para capturar su variabilidad.

4. Agrupación 1 (1920 a 1980)

Analizamos si la finalización de pozos en la primera mitad del siglo XX sigue un comportamiento normal.

# NUEVA SEGMENTACIÓN: Hasta antes del 2000
X1 <- X[X >= 1920 & X < 2000]

hist(
  X1,
  breaks = seq(1920, 2000, by = 10),
  right = FALSE, 
  col = "skyblue",
  main = "Histograma Sección 1 (1920–2000)",
  xlab = "Año de Conclusión", ylab = "Frecuencia"
)

4.1 Conjetura del modelo

Calculamos los parámetros fundamentales de la distribución normal: la Media (\(\mu\)) y la Desviación Estándar (\(\sigma\)).

mu1 <- mean(X1)
sd1 <- sd(X1)

# Generamos frecuencias esperadas Normales
h1 <- hist(X1, breaks = seq(1920, 2000, by = 10), plot = FALSE, right = FALSE)
Fo1 <- h1$counts / sum(h1$counts)
Fe1 <- diff(pnorm(seq(1920, 2000, by = 10), mean = mu1, sd = sd1))

barplot(rbind(Fo1, Fe1), beside = TRUE, col = c("skyblue", "blue"),
        names.arg = h1$breaks[-length(h1$breaks)],
        main = "Modelo de Probabilidad Normal de la Fecha de Conclusión (1920-2000)", legend = c("Real", "Modelo"))

4.2 Test de Pearson

Medimos la correlación entre la frecuencia observada y la esperada por el modelo Normal.

plot(Fo1, Fe1, main="Correlación Pearson - S1", pch=19, col="blue")
abline(lm(Fe1~Fo1), col="red")

cor1 <- cor(Fo1, Fe1) * 100
cor1
## [1] 83.39266

4.3 Test de Chi-cuadrado

Realizamos la prueba de bondad de ajuste.

x2_1 <- sum((Fo1 - Fe1)^2 / Fe1)
df1 <- length(Fo1) - 1 - 2 
vc1 <- qchisq(0.95, df1)

4.4 Tabla resumen de test

tabla_1 <- data.frame(
  Periodo = "1920 - 1999",
  Modelo = "Normal (Décadas)",
  Pearson_Pct = round(cor1, 2),
  Chi_Cuadrado = round(x2_1, 4),
  Umbral_Critico = round(vc1, 4),
  Decision = ifelse(x2_1 < vc1, "Se Acepta Modelo", "Se Rechaza")
)

kable(tabla_1, caption = "Tabla N°2: Resumen Bondad de Ajuste - Siglo XX")
Tabla N°2: Resumen Bondad de Ajuste - Siglo XX
Periodo Modelo Pearson_Pct Chi_Cuadrado Umbral_Critico Decision
1920 - 1999 Normal (Décadas) 83.39 0.2241 11.0705 Se Acepta Modelo

4.5 Cálculo de Probabilidades

Pregunta: Basándonos en esta etapa histórica, ¿cuál fue la probabilidad de que un pozo concluyera antes de 1950?

p_1950 <- pnorm(1950, mu1, sd1)
p_1950
## [1] 0.00274214

La probabilidad histórica fue del 0.27%.

5. Agrupación 2 (1980 a 2020)

Análisis del Siglo XXI (Quinquenios). Para ganar resolución y precisión estadística, subdividimos este periodo en intervalos de 5 años.

# SEGMENTACIÓN 2: Desde el 2000
X2 <- X[X >= 2000 & X <= 2020]

# --- CAMBIO CLAVE: breaks cada 5 años ---
hist(
  X2,
  breaks = seq(2000, 2020, by = 5), 
  right = FALSE,
  col = "lightgreen",
  main = "Histograma Sección 2 (2000-2020)",
  xlab = "Año de Conclusión", ylab = "Frecuencia"
)

Analizamos la era moderna. Aunque visualmente se observan fluctuaciones (auge en los 80, bajada en los 90, repunte en los 2000), utilizamos el modelo Gamma para describir la distribución de probabilidad de todo el periodo, ya que dividirlo en sub-secciones de solo 20 años nos dejaría sin suficientes datos para pruebas estadísticas válidas

5.1 Conjetura del modelo

Debido al “boom” inicial de los 80 y la asimetría positiva, conjeturamos que los datos siguen una Distribución Gamma. Estimamos los parámetros de Forma (\(\alpha\)) y Tasa (\(\beta\)).

# Ajuste Gamma: Restamos 1999 para iniciar la serie en 1
fit_gamma <- fitdistr(X2 - 1999, "gamma") 
alpha <- fit_gamma$estimate["shape"]
beta  <- fit_gamma$estimate["rate"]

# Histograma con cortes de 5 en 5
h2 <- hist(X2, breaks = seq(2000, 2020, by = 5), plot = FALSE, right = FALSE)
Fo2 <- h2$counts / sum(h2$counts)

# Probabilidades teóricas para intervalos de 5 años
limites_adj <- seq(2000, 2020, by = 5) - 1999
Fe2 <- diff(pgamma(limites_adj, shape = alpha, rate = beta))

# Nombres de las barras (Quinquenios)
nombres_quin <- c("2000-04", "2005-09", "2010-14", "2015-19")

barplot(rbind(Fo2, Fe2), beside = TRUE, col = c("lightgreen", "darkgreen"),
        names.arg = nombres_quin,
        main = "Modelo de Probabilidad Gamma de la Fecha de Conclusión (2000-2020)", legend = c("Real", "Gamma"))

5.2 Test de Pearson

Evaluamos la correlación para confirmar que la curva Gamma captura la asimetría del periodo moderno.

plot(Fo2, Fe2, 
     main = "Gráfica N°6: Correlación Pearson (Sección 2)",
     xlab = "Frecuencia Observada", ylab = "Frecuencia Esperada", pch = 19, col="darkgreen")
abline(lm(Fe2 ~ Fo2), col = "red", lwd = 2)

cor2 <- cor(Fo2, Fe2) * 100

La correlación es del 64.48%.

5.3 Test de Chi-cuadrado

Validamos estadísticamente el modelo Gamma.

x2_2 <- sum((Fo2 - Fe2)^2 / Fe2)
vc2 <- qchisq(0.95, length(Fo2) - 1 - 2)

5.4 Tabla resumen de test

tabla_2 <- data.frame(
  Periodo = "2000 - 2020",
  Modelo = "Gamma (Quinquenios)", # <--- Aquí está la diferencia clave
  Pearson_Pct = round(cor2, 2),
  Chi_Cuadrado = round(x2_2, 4),
  Umbral_Critico = round(vc2, 4),
  Decision = ifelse(x2_2 < vc2, "Se Acepta Modelo", "Se Rechaza")
)

kable(tabla_2, caption = "Tabla N°3: Resumen Bondad de Ajuste ")
Tabla N°3: Resumen Bondad de Ajuste
Periodo Modelo Pearson_Pct Chi_Cuadrado Umbral_Critico Decision
2000 - 2020 Gamma (Quinquenios) 64.48 0.1298 3.8415 Se Acepta Modelo

5.5 Cálculo de probabilidades

Pregunta: Según el comportamiento de la era moderna, ¿cuál fue la probabilidad de finalizar un pozo entre 2000 y 2010?

# Año 2010 es el 31 en la escala ajustada, 2000 es el 21
p_2000_10 <- pgamma(31, alpha, beta) - pgamma(21, alpha, beta)
p_2000_10
## [1] 0.04074374

La probabilidad estimada para ese periodo fue del 4.07%.

6 Conclusiones

El análisis de la variable Fecha de Conclusión confirma que la industria petrolera brasileña presenta dos comportamientos estadísticos distintos:

Periodo 1920-1979: Ajuste al modelo Normal con una correlación de 83.39%.

Periodo 1980-2019: Ajuste al modelo Gamma con una correlación de 64.48%. Este modelo logra describir eficazmente la alta variabilidad de la era moderna (auge, caída y recuperación).