Modelo de la Probabilidad de la clasificación oficial de la posición del pozo según la ANP

setwd("C:/Users/Usuario/Desktop/Nueva carpeta")
library(readxl)
library(dplyr)
library(gt)
datos <- read_excel("tabela_de_pocos_janeiro_2018.xlsx")

1 Carga y exploración inicial de los datos

Se establece el directorio de trabajo, se importa la base de datos y se revisa su estructura general.

2 Tabla de distribución de frecuencia

Se construye la tabla de frecuencia para la variable hemisferio.

HEMISFERIO <- Datos$POCO_POS_ANP
TDFHEMISFERIO <- as.data.frame(table(HEMISFERIO))
TDFHEMISFERIO
##   HEMISFERIO  Freq
## 1          N 19297
## 2          S 10278

3 Agrupación por hemisferio

Se reclasifican los datos en dos categorías generales: Norte y Sur.

library(stringi)
Grupo_S <- stri_startswith_fixed(
  str = TDFHEMISFERIO$HEMISFERIO,
  pattern = "S"
)
TDFHEMISFERIO$HEMISFERIO <- ifelse(Grupo_S, "SUR", "NORTE")
head(TDFHEMISFERIO$HEMISFERIO)
## [1] "NORTE" "SUR"

4 Cálculo de frecuencias por categorías

Se calculan las frecuencias absolutas (ni) y relativas porcentuales (hi).

TDFHEMISFERIO$Freq <- as.numeric(as.character(TDFHEMISFERIO$Freq))
library(dplyr)
TDF_ANP_s_n <- Datos$TDFHEMISFERIO
TDF_ANP_s_n <- TDFHEMISFERIO %>%
  group_by(HEMISFERIO) %>%
  summarise( 
    ni = sum(Freq),
    hi = round(sum(Freq) / sum(TDFHEMISFERIO$Freq)*100, 2))

TDF_ANP_s_n <- data.frame(TDF_ANP_s_n)

5 Inclusión de totales

Se agregan los totales generales de frecuencia absoluta y relativa.

TDF_ANP_s_n$fi <- TDF_ANP_s_n$ni / sum(TDF_ANP_s_n$ni)
TDF_ANP_s_n <- TDF_ANP_s_n [, c("HEMISFERIO", "ni", "hi","fi")]
total_ni <- sum(TDF_ANP_s_n$ni)
total_hi <- sum(TDF_ANP_s_n$hi)
total_fi <- sum(TDF_ANP_s_n$fi)
TDFANPCOMPLETA <- rbind(TDF_ANP_s_n, data.frame(HEMISFERIO = "Total",
                                                ni = total_ni, 
                                                hi = total_hi,
                                                fi = total_fi))
print(TDFANPCOMPLETA)
##   HEMISFERIO    ni     hi        fi
## 1      NORTE 19297  65.25 0.6524768
## 2        SUR 10278  34.75 0.3475232
## 3      Total 29575 100.00 1.0000000

6 Presentación tabular con gt

Se presenta la tabla final en un formato estadístico formal.

library(gt)
gt(TDFANPCOMPLETA) %>%
  tab_header( 
    title = md("**Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL**"), 
    subtitle = "Hemisferio de los pozos petrolíferos en Brasil") %>%  
    tab_spanner(
    label   = md("**Frecuencia Relativa**"),
    columns = c(hi, fi)
  ) %>%
    cols_label(
    ni = md("**ni**"),
    hi = md("Porcentual (%)"),
    fi = md("Fracción")
  ) %>%
  fmt_number(columns = hi, decimals = 2) %>%
  fmt_number(columns = fi, decimals = 4) %>%
  cols_align(align = "center", columns = everything()) %>%
  tab_style(
    style     = list(cell_fill(color = "#2E4053"),
                     cell_text(color = "white", weight = "bold")),
    locations = cells_title()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#F2F3F4"),
                     cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#2E4053"),
                     cell_text(color = "white", weight = "bold")),
    locations = cells_column_spanners()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#D5D8DC"),
                     cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_body(rows = nrow(TDFANPCOMPLETA))
  ) %>%
  tab_options(
    table.border.top.color          = "#2E4053",
    table.border.bottom.color       = "#2E4053",
    column_labels.border.bottom.color = "#2E4053",
    data_row.padding                = px(6),
    table.font.size                 = px(13)
  )
Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL
Hemisferio de los pozos petrolíferos en Brasil
HEMISFERIO ni
Frecuencia Relativa
Porcentual (%) Fracción
NORTE 19297 65.25 0.6525
SUR 10278 34.75 0.3475
Total 29575 100.00 1.0000

7 Gráficas

7.1 Histograma de frecuencia absoluta local

Se visualiza la distribución absoluta de los pozos por hemisferio.

TDFANPCOMPLETA<- TDFANPCOMPLETA[TDFANPCOMPLETA$HEMISFERIO != "Total", ]
par(mar = c(9, 4, 4, 2))
barplot(TDFANPCOMPLETA$ni,
        main = "Gráfica N°1: Distribución de pozos segun su hemisferio",
        ylab = "Cantidad",
        col = "#2E4053", names.arg = TDFANPCOMPLETA$HEMISFERIO,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)
mtext("HEMISFERIO", side = 1, line = 3, adj = 0.5, cex = 1)

7.2 Histograma de frecuencia relativa local

Se representa la distribución porcentual local.

par(mar = c(9, 4, 4, 2))
barplot(TDFANPCOMPLETA$hi,
        main = "Gráfica N°3: Distribución en porcentaje de pozos segun su hemisferio",
        ylab = "Porcentaje",
        col = "#2E4053", names.arg = TDFANPCOMPLETA$HEMISFERIO,
        las = 1, cex.names = 1, cex.axis = 0.7, cex.main = 1)
mtext("HEMISFERIO", side = 1, line = 3, adj = 0.5, cex = 1)

8 Modelo de Probabilidad

P_HEMISFERIO <- TDFANPCOMPLETA$ni / sum(TDFANPCOMPLETA$ni)

par(mar = c(9, 4, 4, 2))
barplot(P_HEMISFERIO,
        main = "Gráfica N°3: Distribución de Probabilidad según el Hemisferio de los pozos",
        ylab = "Probabilidad",
        col = "#2E4053", names.arg = TDFANPCOMPLETA$HEMISFERIO,
        las = 1, cex.names = 1, cex.axis = 0.9, cex.main = 1)
mtext("HEMISFERIO", side = 1, line = 3, adj = 0.5, cex = 1)

8.1 Probabilidad

¿Cuál es la probalidad de qué un pozo se encuentre en el Hemisferio Sur?

x <- round(
  (TDFANPCOMPLETA$ni[TDFANPCOMPLETA$HEMISFERIO == "SUR"] /
   sum(TDFANPCOMPLETA$ni)) * 100, 1)

print(paste("La probabilidad es de:", x, "%"))
## [1] "La probabilidad es de: 34.8 %"

La probabilidad de que un pozo se encuentre en el Hemisferio Sur es del 34,8 %, lo que indica que aproximadamente 35 de cada 100 pozos registrados están ubicados en esta zona geográfica.

¿Cuántos pozos petroleros pueden encontrarse en el Hemisferio Sur?

p <- x / 100

n <- 10000

cantidad_esperada <- n * p
Operador_objetivo <- "SUR"

cat("Para n =", n, "pozos, la cantidad esperada por Hemisferio", Operador_objetivo, "=", round(cantidad_esperada, 2), "\n")
## Para n = 10000 pozos, la cantidad esperada por Hemisferio SUR = 3480

Con una probabilidad del 34,8 %, se espera que de un total de 10 000 pozos petroleros aproximadamente 3 480 se encuentren ubicados en el Hemisferio Sur.