1.Introducción y Metodología

El presente informe estadístico analiza la variable Fecha de Finalización (TERMINO) de los pozos petroleros de Brasil. El objetivo es evaluar la eficiencia y el ritmo de culminación de proyectos extractivos. Se ha extraído el año de la fecha registrada, permitiendo observar la evolución temporal mediante un enfoque descriptivo e inferencial.

2. Tabla de distribución de frecuencia

Se presenta la tabla de frecuencias agrupada por décadas completas de 10 años. Se aplica la lógica técnica de intervalos donde el año límite (ej. 1980, 2010) marca el inicio de la década siguiente, lo que permite observar con precisión el crecimiento de la actividad industrial en cada periodo.

breaks_dec <- seq(1920, 2020, by = 10)

# 2. Contar datos con 'right = FALSE' para que el año límite (ej. 2010) 
# pase a la barra de la derecha y esta se vea más alta.
h_total <- hist(X, breaks = breaks_dec, plot = FALSE, right = FALSE)

# 3. Crear etiquetas con la década completa (ej. 1920-1930)
TDF_Decadas <- data.frame(
  Periodo = paste(head(breaks_dec, -1), tail(breaks_dec, -1), sep = "-"),
  ni = h_total$counts,
  hi = round((h_total$counts / sum(h_total$counts)) * 100, 2)
)

# 4. Cálculo de Totales
totales <- c("TOTAL", sum(TDF_Decadas$ni), round(sum(TDF_Decadas$hi), 2))

# 5. Generar Tabla Estética
TDF_Show <- rbind(mutate(TDF_Decadas, across(everything(), as.character)), totales)

TDF_Show %>%
  gt() %>%
  tab_header(
    title = md("TABLA DE FRECUENCIAS: INFERENCIA ESTATÍSTICA"),
    subtitle = md("Variable: **Término de Perforación**")
  ) %>%
  cols_label(
    Periodo = "Periodo (Década)", 
    ni = "Frecuencia Absoluta (ni)", 
    hi = "Frecuencia Relativa (hi%)"
  ) %>%
  cols_align(align = "center", columns = everything())
TABLA DE FRECUENCIAS: INFERENCIA ESTATÍSTICA
Variable: Término de Perforación
Periodo (Década) Frecuencia Absoluta (ni) Frecuencia Relativa (hi%)
1920-1930 2 0.01
1930-1940 4 0.01
1940-1950 188 0.68
1950-1960 818 2.95
1960-1970 2427 8.75
1970-1980 2523 9.1
1980-1990 9538 34.4
1990-2000 3663 13.21
2000-2010 3941 14.21
2010-2020 4625 16.68
TOTAL 27729 100

3. Gráficas

3.1 Diagrama de barras local

A continuación, presentamos el histograma de frecuencias

col_gris_azulado <- "#5D6D7E"
col_ejes <- "#2E4053"

# Ajuste de márgenes para las etiquetas verticales
par(mar = c(10, 5, 4, 2)) 

# Usamos los datos de la tabla (con el conteo corregido)
vals_x <- TDF_Decadas$Periodo
vals_y <- TDF_Decadas$ni
ylim_max <- max(vals_y) * 1.1

# Generar el gráfico de barras sólido
bp <- barplot(vals_y,
         main = "Gráfica No.1: Distribucion de Fecha de Finalizacion(Termino) de Pozos Petroleros de Brazil",
         cex.main = 1,          
         ylab = "Cantidad de Pozos Finalizados",
         col = col_gris_azulado, 
         border = NA,           # Sin bordes para un diseño limpio
         axes = FALSE,           
         ylim = c(0, ylim_max),
         axisnames = FALSE)     

# Ejes personalizados
axis(2, col = col_ejes, col.axis = col_ejes, las = 1)

# Eje X con etiquetas "1920-1930" verticales y centradas
axis(1, at = bp, labels = vals_x, col = col_ejes, col.axis = col_ejes, las = 2, cex.axis = 0.9)

# Cuadrícula y marco
grid(nx = NA, ny = NULL, col = "#D7DBDD", lty = "dotted")
box(bty = "l", col = col_ejes)

Visualización completa de la distribución de pozos petroleros finalizados en Brasil. El gráfico utiliza un diseño sólido en gris azulado con etiquetas verticales para facilitar la lectura de la evolución histórica, destacando el pico de actividad registrado entre 1980 y 1990.

4. Agrupación 1 (1920 a 2000)

Este periodo, que abarca la mayor parte del siglo XX, se analiza bajo el modelo de la Distribución Normal. La curva de Gauss permite representar el ciclo de maduración de la industria en esta etapa, caracterizado por un ascenso y descenso simétrico de la actividad. Se incluyen pruebas de bondad de ajuste para validar la precisión del modelo.

X1 <- X[X < 2000]

hist(
  X1,
  breaks = seq(1920, 2000, by = 10),
  col = "skyblue",
  main = "Gráfica N°2: Histograma Sección 1 (1920–2000)",
  xlab = "Año",
  ylab = "Frecuencia"
)

4.1 Conjetura del modelo

Para esta primera etapa histórica (1920-1980), el histograma sugiere un comportamiento más simétrico y estabilizado en torno a una década central.

Por esta razón, conjeturamos que los datos siguen una Distribución Normal (Gaussiana). * Justificación: La distribución Normal es el modelo estándar para describir procesos que crecen de manera orgánica y paulatina, donde la mayoría de los datos se agrupan alrededor del promedio (Media) y disminuyen suavemente hacia los extremos. * Hipótesis: Asumimos que la actividad de perforación en estos años no sufrió “shocks” externos extremos, comportándose de manera predecible dentro de una desviación estándar calculable.

mu1 <- mean(X1)
sd1 <- sd(X1)

# Frecuencias
h1 <- hist(X1, breaks = seq(1920, 2000, by = 10), plot = FALSE)
Fo1 <- h1$counts / sum(h1$counts)
Fe1 <- diff(pnorm(seq(1920, 2000, by = 10), mean = mu1, sd = sd1))

# Gráfico Comparativo
barplot(rbind(Fo1, Fe1), beside = TRUE, 
        col = c("skyblue", "blue"),
        names.arg = paste(head(seq(1920, 2000, by = 10), -1), "s", sep=""),
        main = "Gráfica N°3: Análisis Estadístico del Periodo 1920-2000 mediante la Distribución Normal",
        ylab = "Probabilidad")
legend("topleft", legend = c("Real", "Modelo Normal"), fill = c("skyblue", "blue"))

4.2 Test de Pearson

Aplicamos el coeficiente de correlación para medir qué tan fuerte es la relación lineal entre la frecuencia observada (realidad) y la esperada (modelo normal). Un valor alto indicará que el modelo describe bien la tendencia.

plot(Fo1, Fe1, 
     main = "Gráfica N°4: Correlación Pearson (Sección 1)",
     xlab = "Frecuencia Observada", ylab = "Frecuencia Esperada", pch = 19, col="darkblue")
abline(lm(Fe1 ~ Fo1), col = "red", lwd = 2)

cor1 <- cor(Fo1, Fe1) * 100

4.3 Test de Chi-cuadrado

Realizamos la prueba de bondad de ajuste de Chi-Cuadrado (\(\chi^2\)). Esta prueba nos dirá matemáticamente si las diferencias entre nuestro modelo y la realidad son aceptables (Error bajo) o si el modelo debe ser rechazado

x2_1 <- sum((Fo1 - Fe1)^2 / Fe1)
vc1 <- qchisq(0.95, length(Fo1) - 1)

4.4 Tabla resumen de test

tabla_1 <- data.frame(
  Variable = "Término (S1)",
  Pearson_Pct = round(cor1, 2),
  Chi_Cuadrado = round(x2_1, 4),
  Umbral = round(vc1, 4)
)
kable(tabla_1, caption = "Tabla N°2: Resumen Bondad de Ajuste Sección 1")
Tabla N°2: Resumen Bondad de Ajuste Sección 1
Variable Pearson_Pct Chi_Cuadrado Umbral
Término (S1) 85.36 0.2176 14.0671

4.5 Cálculo de Probabilidades

Pregunta: ¿Cuál es la probabilidad de que un pozo finalice antes de 1980 ?

p_1980 <- pnorm(1980, mu1, sd1)
p_1980
## [1] 0.4640521

La probabilidad es del r round(p_1980 * 100, 2)%.

5. Agrupación 2 (2000 a 2020)

Para el siglo XXI se aplica la Distribución Gamma, modelo ideal para capturar la asimetría del crecimiento tecnológico reciente. Para obtener mayor resolución, se divide el periodo en intervalos de 5 años (lustros), permitiendo observar detalladamente la tendencia actual. El eje X se presenta con marcas específicas en los años 2000, 2010 y 2020 para una interpretación cronológica clara.

X2 <- X[X >= 2000]

# 2. Definir cortes cada 5 años para obtener exactamente 4 barras
# (2000-2005, 2005-2010, 2010-2015, 2015-2020)
breaks_s2 <- seq(2000, 2020, by = 5)

# 3. Configuración del color de los ejes
col_ejes <- "#2E4053"

# 4. Histograma con 4 barras, sin cuadrícula
hist(X2, 
     breaks = breaks_s2, 
     right = FALSE,      # El año límite inicia la siguiente barra
     col = "lightgreen", 
     border = col_ejes, 
     main = "Gráfica N°4: Histograma Sección 2 (2000–2020)", 
     xlab = "Año", 
     ylab = "Frecuencia",
     col.axis = col_ejes,
     col.lab = col_ejes)

# Dibujamos solo la caja exterior en forma de L para que se vea limpio
box(bty = "l", col = col_ejes)

5.1 Conjetura del modelo

Para el siglo XXI se aplica la Distribución Gamma, modelo ideal para capturar la asimetría del crecimiento tecnológico reciente. Para obtener mayor resolución, se divide el periodo en intervalos de 5 años (lustros), permitiendo observar detalladamente la tendencia actual. El eje X se presenta con marcas específicas en los años 2000, 2010 y 2020 para una interpretación cronológica clara.

# 1. Filtrar los datos
X2 <- X[X >= 2000]

# 2. Estimación de parámetros Gamma
fit_gamma <- fitdistr(X2, "gamma")
alpha <- fit_gamma$estimate["shape"]
beta  <- fit_gamma$estimate["rate"]

# 3. Frecuencias (4 barras de 5 años)
breaks_s2 <- seq(2000, 2020, by = 5)
h2 <- hist(X2, breaks = breaks_s2, plot = FALSE, right = FALSE)
Fo2 <- h2$counts / sum(h2$counts)
Fe2 <- diff(pgamma(breaks_s2, shape = alpha, rate = beta))

# 4. Gráfico Comparativo
barplot(rbind(Fo2, Fe2), beside = TRUE, 
        col = c("#A9DFBF", "#196F3D"),
        names.arg = c("2000-2005", "2005-2010", "2010-2015", "2015-2020"),
        main = "Gráfica N°5: Análisis Estadístico del Periodo 2000-2020 mediante la Distribución Gamma",
        ylab = "Probabilidad")
legend("topright", legend = c("Real", "Modelo Gamma"), fill = c("#A9DFBF", "#196F3D"), bty = "n")

5.2 Test de Pearson

Evaluamos la Correlación de Pearson para cuantificar la relación lineal entre las frecuencias observadas en las décadas recientes y las probabilidades teóricas generadas por la distribución Gamma. Un coeficiente cercano al 100% confirmará que la curva del modelo Gamma logra capturar fielmente la tendencia asimétrica (el ‘boom’ y posterior estabilización) de la actividad petrolera .

plot(Fo2, Fe2, 
     main = "Gráfica N°6: Correlación Pearson (Sección 2 - Gamma)",
     xlab = "Frecuencia Observada", ylab = "Frecuencia Esperada", pch = 19, col="#196F3D")
abline(lm(Fe2 ~ Fo2), col = "red", lwd = 2)

cor2 <- cor(Fo2, Fe2) * 100

5.3 Test de Chi-cuadrado

Aplicamos la prueba de bondad de ajuste Chi-Cuadrado (\(\chi^2\)) para validar estadísticamente el modelo. Calculamos la discrepancia entre los datos reales y el modelo Gamma y la comparamos con un valor crítico (umbral) con un 95% de confianza. Si el estadístico calculado es menor al umbral, tendremos evidencia suficiente para aceptar que el inicio de perforaciones en este periodo sigue una distribución Gamma.

x2_2 <- sum((Fo2 - Fe2)^2 / Fe2)
vc2 <- qchisq(0.95, length(Fo2) - 1)

5.4 Tabla resumen de test

tabla_2 <- data.frame(
  Variable = "Término (S2)",
  Pearson_Pct = round(cor2, 2),
  Chi_Cuadrado = round(x2_2, 4),
  Umbral = round(vc2, 4)
)
kable(tabla_2, caption = "Tabla N°3: Resumen Bondad de Ajuste Sección 2 (Gamma)")
Tabla N°3: Resumen Bondad de Ajuste Sección 2 (Gamma)
Variable Pearson_Pct Chi_Cuadrado Umbral
Término (S2) 87.5 0.0562 7.8147

5.5 Cálculo de probabilidades

Pregunta: ¿Cuál es la probabilidad de que un pozo finalice en el último periodo analizado (2015-2020)?

p_2015_20 <- pgamma(2020, alpha, beta) - pgamma(2015, alpha, beta)

p_2015_20
## [1] 0.09716141

La probabilidad de que un pozo finalice en el periodo 2015-2020, bajo el modelo Gamma, es del9.72%.

6 Conclusiones

El análisis demuestra que la actividad de finalización de pozos en Brasil se divide en dos periodos estadísticos claramente diferenciados, reflejando el cambio en la dinámica industrial del país:

  • Periodo 1920-1999: Se analizó bajo un modelo Normal, obteniendo una correlación de 85.36%. Este periodo refleja un ciclo de ascenso y descenso típico de la industria en el siglo XX.

  • Periodo 2000-2020: Se ajusta a un modelo Gamma, con una correlación de 87.5%. Este modelo captura con precisión el crecimiento asimétrico y la expansión tecnológica de las últimas dos décadas.

Ambos modelos permiten describir con alta fiabilidad la evolución histórica y realizar predicciones probabilísticas para sus respectivos intervalos.