Cargar datos

Este bloque importa la base original de pozos y verifica su estructura.

setwd("C:/Users/Usuario/Desktop/TRABAJO DE ESTADISTICA")
Datos <- read.csv("Pozos brasil 2.csv", header = TRUE, sep = ";", dec = ",")
str(Datos)
## 'data.frame':    29575 obs. of  59 variables:
##  $ POCO                      : chr  "7-RO-123HP-RJS" "1-BP-7-RJS" "7-ARGO-4H-ESS" "7-ARGO-5H-ESS" ...
##  $ CADASTRO                  : num  7.43e+10 7.43e+10 3.43e+10 3.43e+10 3.43e+10 ...
##  $ OPERADOR                  : chr  "Petrobras" "BP Energy" "Shell Brasil" "Shell Brasil" ...
##  $ POCO_OPERADOR             : chr  "7RO123HPRJS" "ANU" "7ARGO4HESS" "7ARGO5HESS" ...
##  $ ESTADO                    : chr  "RJ" "RJ" "ES" "ES" ...
##  $ BACIA                     : chr  "Campos" "Campos" "Campos" "Campos" ...
##  $ BLOCO                     : chr  "" "C-M-473" "" "" ...
##  $ SIG_CAMPO                 : chr  "RO   " "" "ARGO " "ARGO " ...
##  $ CAMPO                     : chr  "RONCADOR" "" "ARGONAUTA" "ARGONAUTA" ...
##  $ TERRA_MAR                 : chr  "M" "M" "M" "M" ...
##  $ POCO_POS_ANP              : chr  "S" "S" "S" "S" ...
##  $ TIPO                      : chr  "Explotat\xf3rio" "Explorat\xf3rio" "Explotat\xf3rio" "Explotat\xf3rio" ...
##  $ CATEGORIA                 : chr  "Desenvolvimento" "Pioneiro" "Desenvolvimento" "Desenvolvimento" ...
##  $ RECLASSIFICACAO           : chr  "PRODUTOR COMERCIAL DE PETR\xd3LEO" "PORTADOR DE PETR\xd3LEO" "ABANDONADO POR OUTRAS RAZ\xd5ES" "INDEFINIDO" ...
##  $ SITUACAO                  : chr  "PRODUTOR" "ABANDONADO POR LOG\xcdSTICA EXPLORAT\xd3RIA" "ABANDONADO DEFINITIVAMENTE" "PRODUTOR" ...
##  $ INICIO                    : chr  "03/03/2012" "14/03/2012" "12/04/2012" "14/04/2012" ...
##  $ TERMINO                   : chr  "10/03/2013" "20/09/2012" "19/09/2012" "02/05/2013" ...
##  $ CONCLUSAO                 : chr  "10/03/2013" "19/10/2012" "28/09/2012" "13/05/2013" ...
##  $ TITULARIDADE              : chr  "P\xfablico" "P\xfablico" "P\xfablico" "P\xfablico" ...
##  $ LATITUDE_BASE_4C          : chr  "-21:57:45,630" "-23:06:09,622" "-21:08:06,801" "-21:08:12,535" ...
##  $ LONGITUDE_BASE_4C         : chr  "-39:44:01,130" "-40:00:41,295" "-39:46:53,226" "-39:46:49,296" ...
##  $ LATITUDE_BASE_DD          : num  -22 -23.1 -21.1 -21.1 -21.1 ...
##  $ LONGITUDE_BASE_DD         : num  -39.7 -40 -39.8 -39.8 -39.8 ...
##  $ DATUM_HORIZONTAL          : chr  "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" ...
##  $ TIPO_DE_COORDENADA_DE_BASE: chr  "Definitiva" "Definitiva" "Definitiva" "Definitiva" ...
##  $ DIRECAO                   : chr  "Horizontal" "Vertical" "Horizontal" "Horizontal" ...
##  $ PROFUNDIDADE_VERTICAL_M   : num  -3145 6900 2937 2934 2953 ...
##  $ PROFUNDIDADE_SONDADOR_M   : num  4050 6925 3809 4575 4570 ...
##  $ PROFUNDIDADE_MEDIDA_M     : num  4050 6925 3809 4575 4570 ...
##  $ REFERENCIA_DE_PROFUNDIDADE: chr  "MR" "MR" "MR" "MR" ...
##  $ MESA_ROTATIVA             : num  24 25 24.2 24.2 24.2 ...
##  $ COTA_ALTIMETRICA_M        : num  0 0 0 0 0 ...
##  $ LAMINA_D_AGUA_M           : num  1827 2730 1706 1705 1654 ...
##  $ DATUM_VERTICAL            : chr  "NM" "NM" "NM" "NM" ...
##  $ UNIDADE_ESTRATIGRAFICA    : chr  "" "" "" "" ...
##  $ GEOLOGIA_GRUPO_FINAL      : chr  "Campos" "Lagoa Feia" "Campos" "Campos" ...
##  $ GEOLOGIA_FORMACAO_FINAL   : chr  "Carapebus" "Macabu" "Ubatuba" "Ubatuba" ...
##  $ GEOLOGIA_MEMBRO_FINAL     : chr  "" "" "" "" ...
##  $ CDPE                      : chr  "Existe" "Existe" "Existe" "" ...
##  $ AGP                       : chr  "" "" "" "" ...
##  $ PC                        : chr  "" "Existe" "" "" ...
##  $ PAG                       : chr  "" "" "" "" ...
##  $ PERFIS_CONVENCIONAIS      : chr  "" "Existe" "" "" ...
##  $ DURANTE_PERFURACAO        : chr  "Existe" "Existe" "Existe" "Existe" ...
##  $ PERFIS_DIGITAIS           : chr  "" "" "" "" ...
##  $ PERFIS_PROCESSADOS        : chr  "" "" "" "" ...
##  $ PERFIS_ESPECIAIS          : chr  "" "" "" "" ...
##  $ AMOSTRA_LATERAL           : chr  "" "Existe" "" "" ...
##  $ SISMICA                   : chr  "" "Existe" "" "" ...
##  $ TABELA_TEMPO_PROFUNDIDADE : chr  "" "" "" "" ...
##  $ DADOS_DIRECIONAIS         : chr  "Existe" "Existe" "Existe" "Existe" ...
##  $ TESTE_A_CABO              : chr  "Existe" "Existe" "" "" ...
##  $ TESTE_DE_FORMACAO         : chr  "" "" "" "" ...
##  $ CANHONEIO                 : chr  "" "" "" "" ...
##  $ TESTEMUNHO                : chr  "" "" "" "" ...
##  $ GEOQUIMICA                : chr  "" "" "" "" ...
##  $ SIG_SONDA                 : chr  "SS-49" "DS4" "NB2" "NB2" ...
##  $ NOM_SONDA                 : chr  "SEDCO 707" "Deep Ocean Clarion" "Bully 2" "Bully 2" ...
##  $ DHA_ATUALIZACAO           : chr  "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" ...

Tabla de distribuciòn de frecuencia

Aquí se obtiene la frecuencia absoluta de pozos perforados por estado.

Estados <- Datos$ESTADO
TDFEstados <- as.data.frame(table(Estados))
TDFEstados
##    Estados Freq
## 1       AC    6
## 2       AL  969
## 3       AM  533
## 4       AP   84
## 5       BA 7118
## 6       CE 1273
## 7       ES 2249
## 8       GO    2
## 9       MA  316
## 10      MG   56
## 11      MS   19
## 12      MT   12
## 13      PA  102
## 14      PB    5
## 15      PE    6
## 16      PI    6
## 17      PR   75
## 18      RJ 3555
## 19      RN 8143
## 20      RR    2
## 21      RS   25
## 22      SC   55
## 23      SE 4672
## 24      SP  292

Asignación de regiones

Este bloque clasifica cada estado en su respectiva región geográfica del Brasil.

library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
TDFEstados$Regiones <- ifelse(TDFEstados$Estados %in% c("AC", "AP", "AM", "TO", "PA", "RR"), "Norte",
                              ifelse(TDFEstados$Estados %in% c("AL", "BA", "CE", "MA", "PB", "PI", "PE", "SE", "PR", "RN"), "Nordeste",
                                     ifelse(TDFEstados$Estados %in% c("ES", "MG", "RJ", "SP"), "Sudeste",
                                            ifelse(TDFEstados$Estados %in% c("DF", "GO", "MS", "MT"), "Centro-Oeste",
                                                   ifelse(TDFEstados$Estados %in% c("SC", "RS"), "Sur", "otros")))))
TDFEstados <- TDFEstados [, c("Estados", "Freq", "Regiones")]
head(TDFEstados)
##   Estados Freq Regiones
## 1      AC    6    Norte
## 2      AL  969 Nordeste
## 3      AM  533    Norte
## 4      AP   84    Norte
## 5      BA 7118 Nordeste
## 6      CE 1273 Nordeste

Cálculo de frecuencias por región

En este bloque se obtiene la frecuencia absoluta y relativa de pozos por región.

TDFEstados$Freq <- as.numeric(as.character(TDFEstados$Freq))
library(dplyr)
TDFEstadosfinal1 <- Datos$TDFEstados
TDFEstadosfinal1 <- TDFEstados %>%
  group_by(Regiones) %>%
  
  summarise( 
    ni = sum(Freq),
    hi = round(sum(Freq) / sum(TDFEstados$Freq)*100, 2))

TDFEstadosfinal1 <- data.frame(TDFEstadosfinal1)

Construcción del cuadro con totales

Este bloque adiciona la fila acumulada y organiza la tabla final.

TDFEstadosfinal1 <- TDFEstadosfinal1 [, c("Regiones", "ni", "hi")]
total_ni <- sum(TDFEstadosfinal1$ni) 
total_hi <- 100
TDFEstadoscompleta <- rbind(TDFEstadosfinal1, data.frame( Regiones = "Total",
                                                          ni = total_ni,
                                                          hi = total_hi))
print(TDFEstadoscompleta)
##       Regiones    ni     hi
## 1 Centro-Oeste    33   0.11
## 2     Nordeste 22583  76.36
## 3        Norte   727   2.46
## 4      Sudeste  6152  20.80
## 5          Sur    80   0.27
## 6        Total 29575 100.00

Presentación tabular con formato

Se genera una tabla formal utilizando el paquete gt.

library(gt)
gt(TDFEstadoscompleta) %>%
  tab_header( 
    title = md("**Cuadro No.1**"), 
    subtitle = "Distibución de pozos petroliferos en las regiones de Brasil") %>% 
  tab_style(style = list(cell_text(align = "center")), locations = list()) 
Cuadro No.1
Distibución de pozos petroliferos en las regiones de Brasil
Regiones ni hi
Centro-Oeste 33 0.11
Nordeste 22583 76.36
Norte 727 2.46
Sudeste 6152 20.80
Sur 80 0.27
Total 29575 100.00

Histograma de frecuencia absoluta local (ni)

Este gráfico muestra la cantidad de pozos por región sin incluir el total general.

##Histograma de frecuencia absoluta local (ni)
TDFEstadoscompleta_ <- TDFEstadoscompleta[TDFEstadoscompleta$Regiones != "Total", ]

barplot(TDFEstadoscompleta_$ni,
        main = "Gráfica N°1: Distribución de pozos petroliferos segun su región en Brasil",
        xlab = "Regiones", ylab = "Cantidad",
        col = "darkseagreen1", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)

Histograma de frecuencia absoluta global (ni)

barplot(TDFEstadoscompleta_$ni,
        main = "Gráfica N°2: Distribución de cantidad depozos petroliferos segun su región en Brasil",
        xlab = "Regiones", ylab = "Cantidad",
        col = "darkseagreen1", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 0.99,
        ylim = c(0,30000)) 

Histograma de frecuencia relativa local (hi)

barplot(TDFEstadoscompleta_$hi,
        main = "Gráfica N°3: Distribución en porcentaje según su región en Brasil",
        xlab = "Regiones", ylab = "Porcentaje",
        col = "darkseagreen1", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)

Histograma de frecuencia relativa global (hi)

barplot(TDFEstadoscompleta_$hi,
        main = "Gráfica N°4: Distribución en porcentaje según su región en Brasil",
        xlab = "Regiones", ylab = "Porcentaje",
        col = "darkseagreen1", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1,
        ylim = c(0,100))

Diagrama circular

pie(TDFEstadoscompleta_$hi, 
    main = "Gráfica N°5: Distribución porcentual de regiones con pozos petroliferos en Brasil", 
    radius = 0.9,
    labels = paste0(round(TDFEstadoscompleta_$hi,2)),
    col = c("#FFFFE5", "#F7FCB9", "#D9F0A3", "#ADDD8E", "#006837"),
    cex = 1, cex.main = 1,
    init.angle = 90)

legend(x = -1.95, y =1,
       legend = TDFEstadoscompleta_$Regiones,
       fill = c("#FFFFE5", "#F7FCB9", "#D9F0A3", "#ADDD8E", "#006837"),
       cex = 1,
       title = "Regiones de Brasil")