Modelo de Probabilidad de las Cuencas Petrolíferas en Brasil
setwd("C:/Users/Usuario/Desktop/Nueva carpeta")
library(readxl)
library(dplyr)
library(gt)
datos <- read_excel("tabela_de_pocos_janeiro_2018.xlsx")
Se importa la base de datos de pozos petrolíferos de Brasil y se verifica la estructura de las variables para asegurar su correcta lectura.
Se calcula la frecuencia absoluta de los pozos según la cuenca petrolífera registrada.
Clasificación de las cuencas petrolíferas en macro-regiones.
library(dplyr)
TDFCuencas$CUENCAS <- ifelse(TDFCuencas$Cuenca %in% c("Acre", "Amazonas", "Solimões", "Foz do Amazonas", "Marajó", "Tacutu", "Parecis - Alto Xingu"), "Cuencas del Norte",
ifelse(TDFCuencas$Cuenca %in% c("Alagoas", "Araripe", "Barreirinhas", "Bragança - Vizeu", "Camamu", "Ceará", "Cumuruxatiba", "Jatobá", "Parnaíba", "Pernambuco - Paraíba", "Potiguar", "Recôncavo", "Rio do Peixe", "Sergipe", "São Francisco", "São Luís", "Tucano Central", "Tucano Norte", "Tucano Sul"),"Cuencas del Nordeste",
ifelse(TDFCuencas$Cuenca %in% c("Campos", "Espírito Santo", "Santos"), "Cuencas del Sudeste",
ifelse(TDFCuencas$Cuenca %in% c("Paraná", "Pelotas"), "Cuencas del Sur",
ifelse(TDFCuencas$Cuenca %in% c("Pantanal", "Almada", "Mucuri", "Jequitinhonha", "Pará - Maranhão"),"Cuencas del Centro-Oeste", "Otros")))))
head(TDFCuencas$CUENCAS)
## [1] "Otros" "Otros" "Otros" "Otros" "Otros" "Otros"
Se obtienen las frecuencias absolutas (ni) y relativas (hi) por macrozona de cuencas como base del modelo probabilístico.
TDFCuencas$Freq <- as.numeric(as.character(TDFCuencas$Freq))
library(dplyr)
TDFCuencas1 <- Datos$TDFCuencas
TDFCuencas1 <- TDFCuencas %>%
group_by(CUENCAS) %>%
summarise(
ni = sum(Freq),
hi = round(sum(Freq) / sum(TDFCuencas$Freq)*100, 5))
TDFCuencas1 <- data.frame(TDFCuencas1)
Incorporación de la fila total al cuadro de frecuencias.
TDFCuencas1 <- TDFCuencas1 [, c("CUENCAS", "ni", "hi")]
TDFCuencas1$fi <- TDFCuencas1$ni / sum(TDFCuencas1$ni)
total_ni <- sum(TDFCuencas1$ni)
total_hi <- sum(TDFCuencas1$hi)
total_fi <- sum(TDFCuencas1$fi)
TDFCuencas1.1 <- rbind(TDFCuencas1, data.frame( CUENCAS = "Total",
ni = total_ni,
hi = total_hi,
fi = total_fi))
print(TDFCuencas1.1)
## CUENCAS ni hi fi
## 1 Cuencas del Centro-Oeste 133 0.44970 0.0044970414
## 2 Cuencas del Nordeste 15257 51.58749 0.5158748943
## 3 Cuencas del Norte 332 1.12257 0.0112256974
## 4 Cuencas del Sudeste 4124 13.94421 0.1394420964
## 5 Cuencas del Sur 20 0.06762 0.0006762468
## 6 Otros 9709 32.82840 0.3282840237
## 7 Total 29575 99.99999 1.0000000000
Visualización del cuadro de distribución mediante tabla formal.
library(gt)
gt(TDFCuencas1.1) %>%
tab_header(
title = md("**Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL**"),
subtitle = "Cuencas Petrolíferas en Brasil") %>%
tab_spanner(
label = md("**Frecuencia Relativa**"),
columns = c(hi, fi)
) %>%
cols_label(
ni = md("**ni**"),
hi = md("Porcentual (%)"),
fi = md("Fracción")
) %>%
fmt_number(columns = hi, decimals = 2) %>%
fmt_number(columns = fi, decimals = 4) %>%
cols_align(align = "center", columns = everything()) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"),
cell_text(color = "white", weight = "bold")),
locations = cells_title()
) %>%
tab_style(
style = list(cell_fill(color = "#F2F3F4"),
cell_text(weight = "bold", color = "#2E4053")),
locations = cells_column_labels()
) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"),
cell_text(color = "white", weight = "bold")),
locations = cells_column_spanners()
) %>%
tab_style(
style = list(cell_fill(color = "#D5D8DC"),
cell_text(weight = "bold", color = "#2E4053")),
locations = cells_body(rows = nrow(TDFCuencas1.1))
) %>%
tab_options(
table.border.top.color = "#2E4053",
table.border.bottom.color = "#2E4053",
column_labels.border.bottom.color = "#2E4053",
data_row.padding = px(6),
table.font.size = px(13)
)
| Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL | |||
| Cuencas Petrolíferas en Brasil | |||
| CUENCAS | ni |
Frecuencia Relativa
|
|
|---|---|---|---|
| Porcentual (%) | Fracción | ||
| Cuencas del Centro-Oeste | 133 | 0.45 | 0.0045 |
| Cuencas del Nordeste | 15257 | 51.59 | 0.5159 |
| Cuencas del Norte | 332 | 1.12 | 0.0112 |
| Cuencas del Sudeste | 4124 | 13.94 | 0.1394 |
| Cuencas del Sur | 20 | 0.07 | 0.0007 |
| Otros | 9709 | 32.83 | 0.3283 |
| Total | 29575 | 100.00 | 1.0000 |
Distribución en cantidad considerando la escala total.
TDFCuencas1.1 <- TDFCuencas1.1[TDFCuencas1.1$CUENCAS != "Total", ]
par(mar = c(9, 4, 4, 2))
barplot(TDFCuencas1.1$ni,
main = "Gráfica N°1: Distribución en cantidad de cuencas por región",
ylab = "Cantidad",
col = "#2E4053", names.arg = TDFCuencas1.1$CUENCAS,
las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
mtext("Cuencas", side = 1, line = 7)
Distribución porcentual sin ajuste de escala global.
par(mar = c(9, 4, 4, 2))
barplot(TDFCuencas1.1$hi,
main = "Gráfica N°3: Distribución porcentual de cuencas por región",
ylab = "Porcentaje",
col = "#2E4053", names.arg = TDFCuencas1.1$CUENCAS,
las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
mtext("Cuencas", side = 1, line = 7)
Se construye un modelo empírico de probabilidad a partir de las frecuencias relativas por macrozona de cuencas.
P_Ubicación <- TDFCuencas1.1$ni / sum(TDFCuencas1.1$ni)
par(mar = c(9, 4, 4, 2))
barplot(P_Ubicación,
main = "Gráfica N°3: Distribución de Probabilidad de la Ubicación de los pozos",
ylab = "Probabilidad",
col = "#2E4053", names.arg = TDFCuencas1.1$CUENCAS,
las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
mtext("Cuencas", side = 1, line = 7)
¿Cuál es la probabilidad de que las cuencas se encuentren en el Sudeste?
x <- round(
(TDFCuencas1.1$ni[TDFCuencas1.1$CUENCAS == "Cuencas del Sudeste"] /
sum(TDFCuencas1.1$ni)) * 100, 1)
print(paste("La probabilidad es de:", x, "%"))
## [1] "La probabilidad es de: 13.9 %"
La probabilidad obtenida indica que aproximadamente el 20.7% de las cuencas estan ubicadas en el Sudeste.
¿Cuántas cuencas pueden estar situadas en el Sudeste?.
p <- x / 100
n <- 1000
cantidad_esperada <- n * p
Cuenca_objetivo <- "Cuencas del Sudeste"
cat("Para n =", n, "cuencas, cantidad esperada en", Cuenca_objetivo, "=", round(cantidad_esperada, 2), "\n")
## Para n = 1000 cuencas, cantidad esperada en Cuencas del Sudeste = 139
Se espera que aproximadamente 207 de las cuencas estén ubicadas en el Sudeste, por cada 1000 pozos considerados