Modelo de Probabilidad de la Ubicación de los pozos petrolíferos en las regiones de Brasil
Se importa la base de datos de pozos petrolíferos y se verifica la estructura de variables para confirmar su correcta lectura.
setwd("C:/Users/majke/Downloads/Proyecto Estadistica/RMARKDOWN")
Datos <- read.csv("Pozos brasil 2.csv", header = TRUE, sep = ";", dec = ",")
str(Datos)
## 'data.frame': 29575 obs. of 59 variables:
## $ POCO : chr "7-RO-123HP-RJS" "1-BP-7-RJS" "7-ARGO-4H-ESS" "7-ARGO-5H-ESS" ...
## $ CADASTRO : num 7.43e+10 7.43e+10 3.43e+10 3.43e+10 3.43e+10 ...
## $ OPERADOR : chr "Petrobras" "BP Energy" "Shell Brasil" "Shell Brasil" ...
## $ POCO_OPERADOR : chr "7RO123HPRJS" "ANU" "7ARGO4HESS" "7ARGO5HESS" ...
## $ ESTADO : chr "RJ" "RJ" "ES" "ES" ...
## $ BACIA : chr "Campos" "Campos" "Campos" "Campos" ...
## $ BLOCO : chr "" "C-M-473" "" "" ...
## $ SIG_CAMPO : chr "RO " "" "ARGO " "ARGO " ...
## $ CAMPO : chr "RONCADOR" "" "ARGONAUTA" "ARGONAUTA" ...
## $ TERRA_MAR : chr "M" "M" "M" "M" ...
## $ POCO_POS_ANP : chr "S" "S" "S" "S" ...
## $ TIPO : chr "Explotat\xf3rio" "Explorat\xf3rio" "Explotat\xf3rio" "Explotat\xf3rio" ...
## $ CATEGORIA : chr "Desenvolvimento" "Pioneiro" "Desenvolvimento" "Desenvolvimento" ...
## $ RECLASSIFICACAO : chr "PRODUTOR COMERCIAL DE PETR\xd3LEO" "PORTADOR DE PETR\xd3LEO" "ABANDONADO POR OUTRAS RAZ\xd5ES" "INDEFINIDO" ...
## $ SITUACAO : chr "PRODUTOR" "ABANDONADO POR LOG\xcdSTICA EXPLORAT\xd3RIA" "ABANDONADO DEFINITIVAMENTE" "PRODUTOR" ...
## $ INICIO : chr "03/03/2012" "14/03/2012" "12/04/2012" "14/04/2012" ...
## $ TERMINO : chr "10/03/2013" "20/09/2012" "19/09/2012" "02/05/2013" ...
## $ CONCLUSAO : chr "10/03/2013" "19/10/2012" "28/09/2012" "13/05/2013" ...
## $ TITULARIDADE : chr "P\xfablico" "P\xfablico" "P\xfablico" "P\xfablico" ...
## $ LATITUDE_BASE_4C : chr "-21:57:45,630" "-23:06:09,622" "-21:08:06,801" "-21:08:12,535" ...
## $ LONGITUDE_BASE_4C : chr "-39:44:01,130" "-40:00:41,295" "-39:46:53,226" "-39:46:49,296" ...
## $ LATITUDE_BASE_DD : num -22 -23.1 -21.1 -21.1 -21.1 ...
## $ LONGITUDE_BASE_DD : num -39.7 -40 -39.8 -39.8 -39.8 ...
## $ DATUM_HORIZONTAL : chr "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" ...
## $ TIPO_DE_COORDENADA_DE_BASE: chr "Definitiva" "Definitiva" "Definitiva" "Definitiva" ...
## $ DIRECAO : chr "Horizontal" "Vertical" "Horizontal" "Horizontal" ...
## $ PROFUNDIDADE_VERTICAL_M : num -3145 6900 2937 2934 2953 ...
## $ PROFUNDIDADE_SONDADOR_M : num 4050 6925 3809 4575 4570 ...
## $ PROFUNDIDADE_MEDIDA_M : num 4050 6925 3809 4575 4570 ...
## $ REFERENCIA_DE_PROFUNDIDADE: chr "MR" "MR" "MR" "MR" ...
## $ MESA_ROTATIVA : num 24 25 24.2 24.2 24.2 ...
## $ COTA_ALTIMETRICA_M : num 0 0 0 0 0 ...
## $ LAMINA_D_AGUA_M : num 1827 2730 1706 1705 1654 ...
## $ DATUM_VERTICAL : chr "NM" "NM" "NM" "NM" ...
## $ UNIDADE_ESTRATIGRAFICA : chr "" "" "" "" ...
## $ GEOLOGIA_GRUPO_FINAL : chr "Campos" "Lagoa Feia" "Campos" "Campos" ...
## $ GEOLOGIA_FORMACAO_FINAL : chr "Carapebus" "Macabu" "Ubatuba" "Ubatuba" ...
## $ GEOLOGIA_MEMBRO_FINAL : chr "" "" "" "" ...
## $ CDPE : chr "Existe" "Existe" "Existe" "" ...
## $ AGP : chr "" "" "" "" ...
## $ PC : chr "" "Existe" "" "" ...
## $ PAG : chr "" "" "" "" ...
## $ PERFIS_CONVENCIONAIS : chr "" "Existe" "" "" ...
## $ DURANTE_PERFURACAO : chr "Existe" "Existe" "Existe" "Existe" ...
## $ PERFIS_DIGITAIS : chr "" "" "" "" ...
## $ PERFIS_PROCESSADOS : chr "" "" "" "" ...
## $ PERFIS_ESPECIAIS : chr "" "" "" "" ...
## $ AMOSTRA_LATERAL : chr "" "Existe" "" "" ...
## $ SISMICA : chr "" "Existe" "" "" ...
## $ TABELA_TEMPO_PROFUNDIDADE : chr "" "" "" "" ...
## $ DADOS_DIRECIONAIS : chr "Existe" "Existe" "Existe" "Existe" ...
## $ TESTE_A_CABO : chr "Existe" "Existe" "" "" ...
## $ TESTE_DE_FORMACAO : chr "" "" "" "" ...
## $ CANHONEIO : chr "" "" "" "" ...
## $ TESTEMUNHO : chr "" "" "" "" ...
## $ GEOQUIMICA : chr "" "" "" "" ...
## $ SIG_SONDA : chr "SS-49" "DS4" "NB2" "NB2" ...
## $ NOM_SONDA : chr "SEDCO 707" "Deep Ocean Clarion" "Bully 2" "Bully 2" ...
## $ DHA_ATUALIZACAO : chr "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" ...
Se calcula la frecuencia absoluta de pozos por estado para construir la base del análisis regional.
Estados <- Datos$ESTADO
TDFEstados <- as.data.frame(table(Estados))
TDFEstados
## Estados Freq
## 1 AC 6
## 2 AL 969
## 3 AM 533
## 4 AP 84
## 5 BA 7118
## 6 CE 1273
## 7 ES 2249
## 8 GO 2
## 9 MA 316
## 10 MG 56
## 11 MS 19
## 12 MT 12
## 13 PA 102
## 14 PB 5
## 15 PE 6
## 16 PI 6
## 17 PR 75
## 18 RJ 3555
## 19 RN 8143
## 20 RR 2
## 21 RS 25
## 22 SC 55
## 23 SE 4672
## 24 SP 292
Agrupación
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
TDFEstados$Regiones <- ifelse(TDFEstados$Estados %in% c("AC", "AP", "AM", "TO", "PA", "RR"), "Norte",
ifelse(TDFEstados$Estados %in% c("AL", "BA", "CE", "MA", "PB", "PI", "PE", "SE", "PR", "RN"), "Nordeste",
ifelse(TDFEstados$Estados %in% c("ES", "MG", "RJ", "SP", "SC", "RS"), "Sudeste",
ifelse(TDFEstados$Estados %in% c("DF", "GO", "MS", "MT"), "Centro-Oeste", "otros"))))
TDFEstados <- TDFEstados [, c("Estados", "Freq", "Regiones")]
head(TDFEstados)
## Estados Freq Regiones
## 1 AC 6 Norte
## 2 AL 969 Nordeste
## 3 AM 533 Norte
## 4 AP 84 Norte
## 5 BA 7118 Nordeste
## 6 CE 1273 Nordeste
Se obtienen frecuencias absolutas (ni) y relativas (hi) por región, como insumo para el modelo empírico de probabilidad.
TDFEstados$Freq <- as.numeric(as.character(TDFEstados$Freq))
library(dplyr)
TDFEstadosfinal1 <- Datos$TDFEstados
TDFEstadosfinal1 <- TDFEstados %>%
group_by(Regiones) %>%
summarise(
ni = sum(Freq),
hi = round(sum(Freq) / sum(TDFEstados$Freq)*100, 2))
TDFEstadosfinal1 <- data.frame(TDFEstadosfinal1)
Agregar Totales
TDFEstadosfinal1 <- TDFEstadosfinal1 [, c("Regiones", "ni", "hi")]
total_ni <- sum(TDFEstadosfinal1$ni)
total_hi <- 100
TDFEstadoscompleta <- rbind(TDFEstadosfinal1, data.frame( Regiones = "Total",
ni = total_ni,
hi = total_hi))
print(TDFEstadoscompleta)
## Regiones ni hi
## 1 Centro-Oeste 33 0.11
## 2 Nordeste 22583 76.36
## 3 Norte 727 2.46
## 4 Sudeste 6232 21.07
## 5 Total 29575 100.00
library(gt)
gt(TDFEstadoscompleta) %>%
tab_header(
title = md("**Cuadro No.1**"),
subtitle = "Distibución de pozos petroliferos en las regiones de Brasil") %>%
cols_align(align = "center", columns = everything()) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"), cell_text(color = "white", weight = "bold")),
locations = cells_title()
) %>%
tab_style(
style = list(cell_fill(color = "#F2F3F4"), cell_text(weight = "bold", color = "#2E4053")),
locations = cells_column_labels()
) %>%
tab_options(
table.border.top.color = "#2E4053",
table.border.bottom.color = "#2E4053",
column_labels.border.bottom.color = "#2E4053",
data_row.padding = px(6))
| Cuadro No.1 | ||
| Distibución de pozos petroliferos en las regiones de Brasil | ||
| Regiones | ni | hi |
|---|---|---|
| Centro-Oeste | 33 | 0.11 |
| Nordeste | 22583 | 76.36 |
| Norte | 727 | 2.46 |
| Sudeste | 6232 | 21.07 |
| Total | 29575 | 100.00 |
Muestra la cantidad de pozos por región (sin incluir el total) para comparar magnitudes.
##Histograma de frecuencia absoluta local (ni)
TDFEstadoscompleta_ <- TDFEstadoscompleta[TDFEstadoscompleta$Regiones != "Total", ]
barplot(TDFEstadoscompleta_$ni,
main = "Gráfica N°1: Distribución de pozos petroliferos segun su región en Brasil",
xlab = "Regiones", ylab = "Cantidad",
col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)
Presenta el porcentaje de pozos por región, útil para interpretación probabilística.
barplot(TDFEstadoscompleta_$hi,
main = "Gráfica N°2: Distribución en porcentaje según su región en Brasil",
xlab = "Regiones", ylab = "Porcentaje",
col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)
Se construye un modelo empírico de probabilidad a partir de las frecuencias relativas por región.
P_Estados <- TDFEstadoscompleta_$ni / sum(TDFEstadoscompleta_$ni)
par(mar = c(9, 4, 4, 2))
barplot(P_Estados,
main = "Gráfica N°3: Distribución de Probabilidad de la Ubicación de los Pozos en Brasil",
xlab = "Regiones", ylab = "Probabilidad",
col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
¿Cuál es la probabilidad de que un pozo petrolero se encuentre en la región Norte?
x <- round(
(TDFEstadoscompleta_$ni[TDFEstadoscompleta_$Regiones == "Norte"] /
sum(TDFEstadoscompleta_$ni)) * 100, 1)
print(paste("La probabilidad es de:", x, "%"))
## [1] "La probabilidad es de: 2.5 %"
La probabilidad obtenida indica que aproximadamente 2.5 % de los pozos petrolíferos en Brasil se encuentran en la región Norte
¿Cuántos pozos petroleros pueden estar en la región Norte?.
p <- x / 100
n <- 1000
cantidad_esperada <- n * p
region_objetivo <- "Norte"
cat("Para n =", n, "pozos, cantidad esperada en la región", region_objetivo, "=", round(cantidad_esperada, 2), "\n")
## Para n = 1000 pozos, cantidad esperada en la región Norte = 25
Se espera que aproximadamente 25 pozos se localicen en la región Norte, por cada 1000 pozos considerados.