Exploración y producción de los pozos petrolíferos en Brasil

Modelo de Probabilidad de las Cuencas Petrolíferas en Brasil

setwd("C:/Users/Usuario/Desktop/Nueva carpeta")
library(readxl)
library(dplyr)
library(gt)
datos <- read_excel("tabela_de_pocos_janeiro_2018.xlsx")

1 Carga de datos y exploración inicial

Se importa la base de datos de pozos petrolíferos de Brasil y se verifica la estructura de las variables para asegurar su correcta lectura.

2 Tabla de distribución de frecuencia por cuenca

Se calcula la frecuencia absoluta de los pozos según la cuenca petrolífera registrada.

3 Agrupación de cuencas por regiones

Clasificación de las cuencas petrolíferas en macro-regiones.

library(dplyr)

TDFCuencas$CUENCAS <- ifelse(TDFCuencas$Cuenca %in% c("Acre", "Amazonas", "Solimões", "Foz do Amazonas", "Marajó", "Tacutu", "Parecis - Alto Xingu"), "Cuencas del Norte",
                                 ifelse(TDFCuencas$Cuenca %in% c("Alagoas", "Araripe", "Barreirinhas", "Bragança - Vizeu", "Camamu", "Ceará", "Cumuruxatiba", "Jatobá", "Parnaíba", "Pernambuco - Paraíba", "Potiguar", "Recôncavo", "Rio do Peixe", "Sergipe", "São Francisco", "São Luís", "Tucano Central", "Tucano Norte", "Tucano Sul"),"Cuencas del Nordeste",
                                        ifelse(TDFCuencas$Cuenca %in% c("Campos", "Espírito Santo", "Santos"), "Cuencas del Sudeste",
                                               ifelse(TDFCuencas$Cuenca %in% c("Paraná", "Pelotas"), "Cuencas del Sur",
                                                      ifelse(TDFCuencas$Cuenca %in% c("Pantanal", "Almada", "Mucuri", "Jequitinhonha", "Pará - Maranhão"),"Cuencas del Centro-Oeste", "Otros")))))
head(TDFCuencas$CUENCAS)

## [1] "Otros" "Otros" "Otros" "Otros" "Otros" "Otros"

4 Cálculo de frecuencias absolutas y relativas

Se obtienen las frecuencias absolutas (ni) y relativas (hi) por macrozona de cuencas como base del modelo probabilístico.

TDFCuencas$Freq <- as.numeric(as.character(TDFCuencas$Freq))
library(dplyr)
TDFCuencas1 <- Datos$TDFCuencas
TDFCuencas1 <- TDFCuencas %>%
  group_by(CUENCAS) %>%
  summarise( 
    ni = sum(Freq),
    hi = round(sum(Freq) / sum(TDFCuencas$Freq)*100, 5))

TDFCuencas1 <- data.frame(TDFCuencas1)

5 Construcción del cuadro con totales

Incorporación de la fila total al cuadro de frecuencias.

TDFCuencas1 <- TDFCuencas1 [, c("CUENCAS", "ni", "hi")]
TDFCuencas1$fi <- TDFCuencas1$ni / sum(TDFCuencas1$ni)
total_ni <- sum(TDFCuencas1$ni) 
total_hi <- sum(TDFCuencas1$hi)
total_fi <- sum(TDFCuencas1$fi)
TDFCuencas1.1 <- rbind(TDFCuencas1, data.frame( CUENCAS = "Total",
                                                         ni = total_ni,
                                                         hi = total_hi,
                                                         fi = total_fi))
print(TDFCuencas1.1)

##                    CUENCAS    ni       hi           fi
## 1 Cuencas del Centro-Oeste   133  0.44970 0.0044970414
## 2     Cuencas del Nordeste 15257 51.58749 0.5158748943
## 3        Cuencas del Norte   332  1.12257 0.0112256974
## 4      Cuencas del Sudeste  4124 13.94421 0.1394420964
## 5          Cuencas del Sur    20  0.06762 0.0006762468
## 6                    Otros  9709 32.82840 0.3282840237
## 7                    Total 29575 99.99999 1.0000000000

6 Presentación del cuadro estadístico

Visualización del cuadro de distribución mediante tabla formal.

library(gt)
gt(TDFCuencas1.1) %>%
  tab_header( 
    title = md("**Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL**"), 
    subtitle = "Cuencas Petrolíferas en Brasil") %>%  
    tab_spanner(
    label   = md("**Frecuencia Relativa**"),
    columns = c(hi, fi)
  ) %>%
    cols_label(
    ni = md("**ni**"),
    hi = md("Porcentual (%)"),
    fi = md("Fracción")
  ) %>%
  fmt_number(columns = hi, decimals = 2) %>%
  fmt_number(columns = fi, decimals = 4) %>%
  cols_align(align = "center", columns = everything()) %>%
  tab_style(
    style     = list(cell_fill(color = "#2E4053"),
                     cell_text(color = "white", weight = "bold")),
    locations = cells_title()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#F2F3F4"),
                     cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#2E4053"),
                     cell_text(color = "white", weight = "bold")),
    locations = cells_column_spanners()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#D5D8DC"),
                     cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_body(rows = nrow(TDFCuencas1.1))
  ) %>%
  tab_options(
    table.border.top.color          = "#2E4053",
    table.border.bottom.color       = "#2E4053",
    column_labels.border.bottom.color = "#2E4053",
    data_row.padding                = px(6),
    table.font.size                 = px(13)
  )

CUENCAS	ni	Frecuencia Relativa
Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL
Cuencas Petrolíferas en Brasil
CUENCAS	ni	Porcentual (%)	Fracción
Cuencas del Centro-Oeste	133	0.45	0.0045
Cuencas del Nordeste	15257	51.59	0.5159
Cuencas del Norte	332	1.12	0.0112
Cuencas del Sudeste	4124	13.94	0.1394
Cuencas del Sur	20	0.07	0.0007
Otros	9709	32.83	0.3283
Total	29575	100.00	1.0000

7 Gráficas

7.1 Histograma de frecuencia absoluta local

Distribución en cantidad considerando la escala total.

TDFCuencas1.1 <- TDFCuencas1.1[TDFCuencas1.1$CUENCAS != "Total", ]
par(mar = c(9, 4, 4, 2))
barplot(TDFCuencas1.1$ni,
        main = "Gráfica N°1: Distribución en cantidad de cuencas por región",
        ylab = "Cantidad",
        col = "#2E4053", names.arg = TDFCuencas1.1$CUENCAS,
        las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
mtext("Cuencas", side = 1, line = 7)

7.2 Histograma de frecuencia relativa local

Distribución porcentual sin ajuste de escala global.

par(mar = c(9, 4, 4, 2))
barplot(TDFCuencas1.1$hi,
        main = "Gráfica N°3: Distribución porcentual de cuencas por región",
        ylab = "Porcentaje",
        col = "#2E4053", names.arg = TDFCuencas1.1$CUENCAS,
        las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
mtext("Cuencas", side = 1, line = 7)

8 Modelo de probabilidad

Se construye un modelo empírico de probabilidad a partir de las frecuencias relativas por macrozona de cuencas.

P_Ubicación <- TDFCuencas1.1$ni / sum(TDFCuencas1.1$ni)

par(mar = c(9, 4, 4, 2))
barplot(P_Ubicación,
        main = "Gráfica N°3: Distribución de Probabilidad de la Ubicación de los pozos",
        ylab = "Probabilidad",
        col = "#2E4053", names.arg = TDFCuencas1.1$CUENCAS,
        las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
mtext("Cuencas", side = 1, line = 7)

8.1 Probabilidad

¿Cuál es la probabilidad de que las cuencas se encuentren en el Sudeste?

x <- round(
  (TDFCuencas1.1$ni[TDFCuencas1.1$CUENCAS == "Cuencas del Sudeste"] /
   sum(TDFCuencas1.1$ni)) * 100, 1)

print(paste("La probabilidad es de:", x, "%"))

## [1] "La probabilidad es de: 13.9 %"

La probabilidad obtenida indica que aproximadamente el 20.7% de las cuencas estan ubicadas en el Sudeste.

¿Cuántas cuencas pueden estar situadas en el Sudeste?.

p <- x / 100

n <- 1000

cantidad_esperada <- n * p
Cuenca_objetivo <- "Cuencas del Sudeste"

cat("Para n =", n, "cuencas, cantidad esperada en", Cuenca_objetivo, "=", round(cantidad_esperada, 2), "\n")

## Para n = 1000 cuencas, cantidad esperada en Cuencas del Sudeste = 139

Se espera que aproximadamente 207 de las cuencas estén ubicadas en el Sudeste, por cada 1000 pozos considerados