Modelo de la Probabilidad de la clasificación oficial de la posición del pozo según la ANP
setwd("C:/Users/Usuario/Desktop/Nueva carpeta")
library(readxl)
library(dplyr)
library(gt)
datos <- read_excel("tabela_de_pocos_janeiro_2018.xlsx")
Se establece el directorio de trabajo, se importa la base de datos y se revisa su estructura general.
Se construye la tabla de frecuencia para la variable hemisferio.
HEMISFERIO <- Datos$POCO_POS_ANP
TDFHEMISFERIO <- as.data.frame(table(HEMISFERIO))
TDFHEMISFERIO
## HEMISFERIO Freq
## 1 N 19297
## 2 S 10278
Se reclasifican los datos en dos categorías generales: Norte y Sur.
library(stringi)
Grupo_S <- stri_startswith_fixed(
str = TDFHEMISFERIO$HEMISFERIO,
pattern = "S"
)
TDFHEMISFERIO$HEMISFERIO <- ifelse(Grupo_S, "SUR", "NORTE")
head(TDFHEMISFERIO$HEMISFERIO)
## [1] "NORTE" "SUR"
Se calculan las frecuencias absolutas (ni) y relativas porcentuales (hi).
TDFHEMISFERIO$Freq <- as.numeric(as.character(TDFHEMISFERIO$Freq))
library(dplyr)
TDF_ANP_s_n <- Datos$TDFHEMISFERIO
TDF_ANP_s_n <- TDFHEMISFERIO %>%
group_by(HEMISFERIO) %>%
summarise(
ni = sum(Freq),
hi = round(sum(Freq) / sum(TDFHEMISFERIO$Freq)*100, 2))
TDF_ANP_s_n <- data.frame(TDF_ANP_s_n)
Se agregan los totales generales de frecuencia absoluta y relativa.
TDF_ANP_s_n$fi <- TDF_ANP_s_n$ni / sum(TDF_ANP_s_n$ni)
TDF_ANP_s_n <- TDF_ANP_s_n [, c("HEMISFERIO", "ni", "hi","fi")]
total_ni <- sum(TDF_ANP_s_n$ni)
total_hi <- sum(TDF_ANP_s_n$hi)
total_fi <- sum(TDF_ANP_s_n$fi)
TDFANPCOMPLETA <- rbind(TDF_ANP_s_n, data.frame(HEMISFERIO = "Total",
ni = total_ni,
hi = total_hi,
fi = total_fi))
print(TDFANPCOMPLETA)
## HEMISFERIO ni hi fi
## 1 NORTE 19297 65.25 0.6524768
## 2 SUR 10278 34.75 0.3475232
## 3 Total 29575 100.00 1.0000000
Se presenta la tabla final en un formato estadístico formal.
library(gt)
gt(TDFANPCOMPLETA) %>%
tab_header(
title = md("**Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL**"),
subtitle = "Hemisferio de los pozos petrolíferos en Brasil") %>%
tab_spanner(
label = md("**Frecuencia Relativa**"),
columns = c(hi, fi)
) %>%
cols_label(
ni = md("**ni**"),
hi = md("Porcentual (%)"),
fi = md("Fracción")
) %>%
fmt_number(columns = hi, decimals = 2) %>%
fmt_number(columns = fi, decimals = 4) %>%
cols_align(align = "center", columns = everything()) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"),
cell_text(color = "white", weight = "bold")),
locations = cells_title()
) %>%
tab_style(
style = list(cell_fill(color = "#F2F3F4"),
cell_text(weight = "bold", color = "#2E4053")),
locations = cells_column_labels()
) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"),
cell_text(color = "white", weight = "bold")),
locations = cells_column_spanners()
) %>%
tab_style(
style = list(cell_fill(color = "#D5D8DC"),
cell_text(weight = "bold", color = "#2E4053")),
locations = cells_body(rows = nrow(TDFANPCOMPLETA))
) %>%
tab_options(
table.border.top.color = "#2E4053",
table.border.bottom.color = "#2E4053",
column_labels.border.bottom.color = "#2E4053",
data_row.padding = px(6),
table.font.size = px(13)
)
| Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL | |||
| Hemisferio de los pozos petrolíferos en Brasil | |||
| HEMISFERIO | ni |
Frecuencia Relativa
|
|
|---|---|---|---|
| Porcentual (%) | Fracción | ||
| NORTE | 19297 | 65.25 | 0.6525 |
| SUR | 10278 | 34.75 | 0.3475 |
| Total | 29575 | 100.00 | 1.0000 |
Se visualiza la distribución absoluta de los pozos por hemisferio.
TDFANPCOMPLETA<- TDFANPCOMPLETA[TDFANPCOMPLETA$HEMISFERIO != "Total", ]
par(mar = c(9, 4, 4, 2))
barplot(TDFANPCOMPLETA$ni,
main = "Gráfica N°1: Distribución de pozos segun su hemisferio",
ylab = "Cantidad",
col = "#2E4053", names.arg = TDFANPCOMPLETA$HEMISFERIO,
las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)
mtext("HEMISFERIO", side = 1, line = 3, adj = 0.5, cex = 1)
Se representa la distribución porcentual local.
par(mar = c(9, 4, 4, 2))
barplot(TDFANPCOMPLETA$hi,
main = "Gráfica N°3: Distribución en porcentaje de pozos segun su hemisferio",
ylab = "Porcentaje",
col = "#2E4053", names.arg = TDFANPCOMPLETA$HEMISFERIO,
las = 1, cex.names = 1, cex.axis = 0.7, cex.main = 1)
mtext("HEMISFERIO", side = 1, line = 3, adj = 0.5, cex = 1)
P_HEMISFERIO <- TDFANPCOMPLETA$ni / sum(TDFANPCOMPLETA$ni)
par(mar = c(9, 4, 4, 2))
barplot(P_HEMISFERIO,
main = "Gráfica N°3: Distribución de Probabilidad según el Hemisferio de los pozos",
ylab = "Probabilidad",
col = "#2E4053", names.arg = TDFANPCOMPLETA$HEMISFERIO,
las = 1, cex.names = 1, cex.axis = 0.9, cex.main = 1)
mtext("HEMISFERIO", side = 1, line = 3, adj = 0.5, cex = 1)
¿Cuál es la probalidad de qué un pozo se encuentre en el Hemisferio Sur?
x <- round(
(TDFANPCOMPLETA$ni[TDFANPCOMPLETA$HEMISFERIO == "SUR"] /
sum(TDFANPCOMPLETA$ni)) * 100, 1)
print(paste("La probabilidad es de:", x, "%"))
## [1] "La probabilidad es de: 34.8 %"
La probabilidad de que un pozo se encuentre en el Hemisferio Sur es del 34,8 %, lo que indica que aproximadamente 35 de cada 100 pozos registrados están ubicados en esta zona geográfica.
¿Cuántos pozos petroleros pueden encontrarse en el Hemisferio Sur?
p <- x / 100
n <- 10000
cantidad_esperada <- n * p
Operador_objetivo <- "SUR"
cat("Para n =", n, "pozos, la cantidad esperada por Hemisferio", Operador_objetivo, "=", round(cantidad_esperada, 2), "\n")
## Para n = 10000 pozos, la cantidad esperada por Hemisferio SUR = 3480
Con una probabilidad del 34,8 %, se espera que de un total de 10 000 pozos petroleros aproximadamente 3 480 se encuentren ubicados en el Hemisferio Sur.