Análisis de la coordenada base de los pozos petrolíferos en Brasil

1 Carga y exploración de los datos

En este bloque se establece el directorio de trabajo, se importan los datos desde un archivo CSV y se revisa la estructura del conjunto de datos para identificar variables y tipos de información.

setwd("C:/Users/Usuario/Desktop/TRABAJO DE ESTADISTICA/PDF-EXCEL-QGIS")
Datos <- read.csv("Pozos brasil 2.csv", header = TRUE, sep = ";", dec = ".", fileEncoding = "Latin1")
str(Datos)
## 'data.frame':    29575 obs. of  59 variables:
##  $ POCO                      : chr  "7-RO-123HP-RJS" "1-BP-7-RJS" "7-ARGO-4H-ESS" "7-ARGO-5H-ESS" ...
##  $ CADASTRO                  : num  7.43e+10 7.43e+10 3.43e+10 3.43e+10 3.43e+10 ...
##  $ OPERADOR                  : chr  "Petrobras" "BP Energy" "Shell Brasil" "Shell Brasil" ...
##  $ POCO_OPERADOR             : chr  "7RO123HPRJS" "ANU" "7ARGO4HESS" "7ARGO5HESS" ...
##  $ ESTADO                    : chr  "RJ" "RJ" "ES" "ES" ...
##  $ BACIA                     : chr  "Campos" "Campos" "Campos" "Campos" ...
##  $ BLOCO                     : chr  "" "C-M-473" "" "" ...
##  $ SIG_CAMPO                 : chr  "RO   " "" "ARGO " "ARGO " ...
##  $ CAMPO                     : chr  "RONCADOR" "" "ARGONAUTA" "ARGONAUTA" ...
##  $ TERRA_MAR                 : chr  "M" "M" "M" "M" ...
##  $ POCO_POS_ANP              : chr  "S" "S" "S" "S" ...
##  $ TIPO                      : chr  "Explotatório" "Exploratório" "Explotatório" "Explotatório" ...
##  $ CATEGORIA                 : chr  "Desenvolvimento" "Pioneiro" "Desenvolvimento" "Desenvolvimento" ...
##  $ RECLASSIFICACAO           : chr  "PRODUTOR COMERCIAL DE PETRÓLEO" "PORTADOR DE PETRÓLEO" "ABANDONADO POR OUTRAS RAZÕES" "INDEFINIDO" ...
##  $ SITUACAO                  : chr  "PRODUTOR" "ABANDONADO POR LOGÍSTICA EXPLORATÓRIA" "ABANDONADO DEFINITIVAMENTE" "PRODUTOR" ...
##  $ INICIO                    : chr  "03/03/2012" "14/03/2012" "12/04/2012" "14/04/2012" ...
##  $ TERMINO                   : chr  "10/03/2013" "20/09/2012" "19/09/2012" "02/05/2013" ...
##  $ CONCLUSAO                 : chr  "10/03/2013" "19/10/2012" "28/09/2012" "13/05/2013" ...
##  $ TITULARIDADE              : chr  "Público" "Público" "Público" "Público" ...
##  $ LATITUDE_BASE_4C          : chr  "-21:57:45,630" "-23:06:09,622" "-21:08:06,801" "-21:08:12,535" ...
##  $ LONGITUDE_BASE_4C         : chr  "-39:44:01,130" "-40:00:41,295" "-39:46:53,226" "-39:46:49,296" ...
##  $ LATITUDE_BASE_DD          : chr  "-21,962675" "-23,1026727777" "-21,1352225" "-21,1368152777" ...
##  $ LONGITUDE_BASE_DD         : chr  "-39,7336472222" "-40,0114708333" "-39,7814516666" "-39,78036" ...
##  $ DATUM_HORIZONTAL          : chr  "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" ...
##  $ TIPO_DE_COORDENADA_DE_BASE: chr  "Definitiva" "Definitiva" "Definitiva" "Definitiva" ...
##  $ DIRECAO                   : chr  "Horizontal" "Vertical" "Horizontal" "Horizontal" ...
##  $ PROFUNDIDADE_VERTICAL_M   : chr  "-3145,4" "6900" "2936,99" "2934,18" ...
##  $ PROFUNDIDADE_SONDADOR_M   : chr  "4050" "6925" "3809" "4575" ...
##  $ PROFUNDIDADE_MEDIDA_M     : chr  "4050" "6925" "3809" "4575" ...
##  $ REFERENCIA_DE_PROFUNDIDADE: chr  "MR" "MR" "MR" "MR" ...
##  $ MESA_ROTATIVA             : chr  "24" "25" "24,24" "24,24" ...
##  $ COTA_ALTIMETRICA_M        : chr  "0" "0" "0" "0" ...
##  $ LAMINA_D_AGUA_M           : chr  "1827" "2730" "1705,84" "1705,35" ...
##  $ DATUM_VERTICAL            : chr  "NM" "NM" "NM" "NM" ...
##  $ UNIDADE_ESTRATIGRAFICA    : chr  "" "" "" "" ...
##  $ GEOLOGIA_GRUPO_FINAL      : chr  "Campos" "Lagoa Feia" "Campos" "Campos" ...
##  $ GEOLOGIA_FORMACAO_FINAL   : chr  "Carapebus" "Macabu" "Ubatuba" "Ubatuba" ...
##  $ GEOLOGIA_MEMBRO_FINAL     : chr  "" "" "" "" ...
##  $ CDPE                      : chr  "Existe" "Existe" "Existe" "" ...
##  $ AGP                       : chr  "" "" "" "" ...
##  $ PC                        : chr  "" "Existe" "" "" ...
##  $ PAG                       : chr  "" "" "" "" ...
##  $ PERFIS_CONVENCIONAIS      : chr  "" "Existe" "" "" ...
##  $ DURANTE_PERFURACAO        : chr  "Existe" "Existe" "Existe" "Existe" ...
##  $ PERFIS_DIGITAIS           : chr  "" "" "" "" ...
##  $ PERFIS_PROCESSADOS        : chr  "" "" "" "" ...
##  $ PERFIS_ESPECIAIS          : chr  "" "" "" "" ...
##  $ AMOSTRA_LATERAL           : chr  "" "Existe" "" "" ...
##  $ SISMICA                   : chr  "" "Existe" "" "" ...
##  $ TABELA_TEMPO_PROFUNDIDADE : chr  "" "" "" "" ...
##  $ DADOS_DIRECIONAIS         : chr  "Existe" "Existe" "Existe" "Existe" ...
##  $ TESTE_A_CABO              : chr  "Existe" "Existe" "" "" ...
##  $ TESTE_DE_FORMACAO         : chr  "" "" "" "" ...
##  $ CANHONEIO                 : chr  "" "" "" "" ...
##  $ TESTEMUNHO                : chr  "" "" "" "" ...
##  $ GEOQUIMICA                : chr  "" "" "" "" ...
##  $ SIG_SONDA                 : chr  "SS-49" "DS4" "NB2" "NB2" ...
##  $ NOM_SONDA                 : chr  "SEDCO 707" "Deep Ocean Clarion" "Bully 2" "Bully 2" ...
##  $ DHA_ATUALIZACAO           : chr  "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" ...

2 Construcción de la tabla de frecuencias

Se extrae la variable correspondiente al tipo de coordenada base y se construye una tabla de frecuencias absolutas inicial.

Coordenada_base <- Datos$TIPO_DE_COORDENADA_DE_BASE
TDFCoordenada_base <- as.data.frame(table(Coordenada_base))
TDFCoordenada_base
##   Coordenada_base  Freq
## 1      Definitiva 29535
## 2      Provisória    40

3 Estandarización de categorías

Se renombran las categorías originales para presentarlas en español, facilitando su interpretación y análisis.

español <- c("Definitiva", "Provisional")
levels(TDFCoordenada_base$Coordenada_base) <- español
head(TDFCoordenada_base$Coordenada_base)
## [1] Definitiva  Provisional
## Levels: Definitiva Provisional

4 Cálculo de frecuencias absolutas y relativas

Se calculan la frecuencia absoluta (ni) y la frecuencia relativa porcentual (hi) para cada tipo de coordenada base.

TDFCoordenada_base$Freq <- as.numeric(as.character(TDFCoordenada_base$Freq))
library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
TDFCoordenada_base1 <- Datos$TDFCoordenada_base
TDFCoordenada_base1 <- TDFCoordenada_base %>%
  group_by(Coordenada_base) %>%
  summarise( 
    ni = sum(Freq),
    hi = round(sum(Freq) / sum(TDFCoordenada_base$Freq)*100, 2))

TDFCoordenada_base1 <- data.frame(TDFCoordenada_base1)

5 Tabla final con totales

Se añade una fila con el total general para facilitar la verificación de la distribución completa de los datos.

library(dplyr)
TDFCoordenada_base1 <- TDFCoordenada_base1[, c("Coordenada_base", "ni", "hi")]
orden_importancia <- c("Definitiva", "Provisional")

TDFCoordenada_base1$Coordenada_base <- factor(
TDFCoordenada_base1$Coordenada_base,
levels = orden_importancia)

TDFCoordenada_base1 <- TDFCoordenada_base1 %>%
arrange(Coordenada_base)

fila_total <- data.frame(
Coordenada_base = "Total",
ni = sum(TDFCoordenada_base1$ni),
hi = round(sum(TDFCoordenada_base1$hi), 2))

TDFCoordenada_base1.1 <- rbind(
TDFCoordenada_base1,
fila_total)

print(TDFCoordenada_base1.1)
##   Coordenada_base    ni     hi
## 1      Definitiva 29535  99.86
## 2     Provisional    40   0.14
## 3           Total 29575 100.00

6 Presentación tabular

Se presenta la tabla de frecuencias con formato profesional, adecuada para informes académicos.

library(gt)
gt(TDFCoordenada_base1.1) %>%
  tab_header( 
    title = md("**DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL**"), 
    subtitle = "Coordenada base de los Pozos Petrolíferos en Brasil") %>% 
   cols_align(align = "center", columns = everything()) %>%
  tab_style(
    style = list(cell_fill(color = "#2E4053"), cell_text(color = "white", weight = "bold")),
    locations = cells_title()
  ) %>%
  tab_style(
    style = list(cell_fill(color = "#F2F3F4"), cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_column_labels()
  ) %>%
  tab_options(
    table.border.top.color = "#2E4053",
    table.border.bottom.color = "#2E4053",
    column_labels.border.bottom.color = "#2E4053",
    data_row.padding = px(6))
DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL
Coordenada base de los Pozos Petrolíferos en Brasil
Coordenada_base ni hi
Definitiva 29535 99.86
Provisional 40 0.14
Total 29575 100.00

7 Gráficas

7.1 Histograma de frecuencia absoluta local

Este gráfico muestra la cantidad de pozos según el tipo de coordenada base, permitiendo comparar visualmente su distribución absoluta.

TDFCoordenada_base2 <- TDFCoordenada_base1.1[TDFCoordenada_base1.1$Coordenada_base != "Total", ]
par(mar = c(9, 4, 4, 2))
barplot(TDFCoordenada_base2$ni,
        main = "Gráfico No. 1. Distribución en cantidad de las coordenadas de los pozos",
        xlab = "Coordenadas" , ylab = "Cantidad",
        col = "#2E4053", names.arg = TDFCoordenada_base2$Coordenada_base,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)

7.2 Histograma de frecuencia absoluta global

Representa la misma información absoluta, pero ajustando la escala vertical para una mejor visualización del total de pozos.

par(mar = c(9, 4, 4, 2))
barplot(TDFCoordenada_base2$ni,
        main = "Gráfico No. 2. Distribución en cantidad de las coordenadas de los pozos",
        xlab = "Coordenadas" , ylab = "Cantidad",
        col = "#2E4053", names.arg = TDFCoordenada_base2$Coordenada_base,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1, 
        ylim = c(0,30000))

7.3 Histograma de frecuencia relativa local

Este gráfico presenta el porcentaje que representa cada tipo de coordenada base respecto al total de pozos analizados.

par(mar = c(9, 4, 4, 2))
barplot(TDFCoordenada_base2$hi,
        main = "Gráfico No. 3. Distribución porcentual de las coordenadas de los pozos",
        xlab = "Coordenadas" , ylab = "Porcentaje",
        col = "#2E4053", names.arg = TDFCoordenada_base2$Coordenada_base,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)

7.4 Histograma de frecuencia relativa global

Permite observar la proporción porcentual de cada categoría en una escala uniforme, facilitando la comparación entre tipos de coordenadas.

par(mar = c(9, 4, 4, 2))
barplot(TDFCoordenada_base2$hi,
        main = "Gráfico No. 4. Distribución porcentual de las coordenadas de los pozos",
        xlab = "Coordenadas" , ylab = "Porcentaje",
        col = "#2E4053", names.arg = TDFCoordenada_base2$Coordenada_base,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)

7.5 Diagrama circular

Muestra la composición porcentual de las coordenadas.

par(mar = c(6, 4, 8, 4))
pie(TDFCoordenada_base2$hi, 
    main = "Gráfico No. 5. Distribución porcentual de las coordenadas de los pozos en Brasil", 
    radius = 1,
    labels = paste0(round(TDFCoordenada_base2$hi,2), "%"),
    col = c("#F2F3F4", "#2E4053"),
    cex.main = 0.95,
    init.angle = 90)

legend(x = -2.7, y =1,
  legend = TDFCoordenada_base2$Coordenada_base,
  fill = c("#F2F3F4", "#2E4053"),
  cex = 0.9,
  title = "Coordenada",
  xpd = TRUE)

8 Resumen Estadístico

El presente resumen sintetiza los indicadores descriptivos de la variable coordenada base de los pozos, la cual es de naturaleza cualitativa nominal, por lo que únicamente se identifica una medida de tendencia central válida.

Conclusiones <- data.frame(
Variable = "Coordenada base de los pozos",
`Rango [Min; Max]` = "N/A",
`Media (X̄)` = "N/A",
`Mediana (Me)` = "N/A",
`Moda (Mo)` = "Definitiva",
`Varianza (S²)` = "N/A",
`Desv. Est. (S)` = "N/A",
`C.V. (%)` = "N/A",
`Asimetría (As)` = "N/A",
`Curtosis (K)` = "N/A",
`Valores Atípicos` = "N/A",
check.names = FALSE
)
library(gt)

gt(Conclusiones) %>%
tab_header(
title = md("**CONCLUSIONES Y ESTADÍSTICOS**"),
subtitle = "Resumen de Indicadores de las Coordenadas de Pozos Petrolíferos en Brasil") %>%
tab_source_note(source_note = "Autor: Anahi Macias") %>%
  cols_align(align = "center", columns = everything()) %>%
  tab_style(
    style = list(cell_fill(color = "#2E4053"), cell_text(color = "white", weight = "bold")),
    locations = cells_title()
  ) %>%
  tab_style(
    style = list(cell_fill(color = "#F2F3F4"), cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_column_labels()
  ) %>%
  tab_options(
    table.border.top.color = "#2E4053",
    table.border.bottom.color = "#2E4053",
    column_labels.border.bottom.color = "#2E4053",
    data_row.padding = px(6))
CONCLUSIONES Y ESTADÍSTICOS
Resumen de Indicadores de las Coordenadas de Pozos Petrolíferos en Brasil
Variable Rango [Min; Max] Media (X̄) Mediana (Me) Moda (Mo) Varianza (S²) Desv. Est. (S) C.V. (%) Asimetría (As) Curtosis (K) Valores Atípicos
Coordenada base de los pozos N/A N/A N/A Definitiva N/A N/A N/A N/A N/A N/A
Autor: Anahi Macias

8.1 Conclusiones

8.1.1 Análisis Descriptivo

La moda corresponde a la categoría Definitiva, lo que indica que la mayoría de los pozos petrolíferos en Brasil cuentan con coordenadas geoespaciales consolidadas y de mayor confiabilidad técnica.