setwd("C:/Users/luna2/OneDrive/Datos Brasil")
#View(Pozos_brasil_2)
Datos <- read.csv("Pozos brasil 2.csv", header = TRUE, sep = ";", dec = ",")
str(Datos)
## 'data.frame':    29575 obs. of  59 variables:
##  $ POCO                      : chr  "7-RO-123HP-RJS" "1-BP-7-RJS" "7-ARGO-4H-ESS" "7-ARGO-5H-ESS" ...
##  $ CADASTRO                  : num  7.43e+10 7.43e+10 3.43e+10 3.43e+10 3.43e+10 ...
##  $ OPERADOR                  : chr  "Petrobras" "BP Energy" "Shell Brasil" "Shell Brasil" ...
##  $ POCO_OPERADOR             : chr  "7RO123HPRJS" "ANU" "7ARGO4HESS" "7ARGO5HESS" ...
##  $ ESTADO                    : chr  "RJ" "RJ" "ES" "ES" ...
##  $ BACIA                     : chr  "Campos" "Campos" "Campos" "Campos" ...
##  $ BLOCO                     : chr  "" "C-M-473" "" "" ...
##  $ SIG_CAMPO                 : chr  "RO   " "" "ARGO " "ARGO " ...
##  $ CAMPO                     : chr  "RONCADOR" "" "ARGONAUTA" "ARGONAUTA" ...
##  $ TERRA_MAR                 : chr  "M" "M" "M" "M" ...
##  $ POCO_POS_ANP              : chr  "S" "S" "S" "S" ...
##  $ TIPO                      : chr  "Explotat\xf3rio" "Explorat\xf3rio" "Explotat\xf3rio" "Explotat\xf3rio" ...
##  $ CATEGORIA                 : chr  "Desenvolvimento" "Pioneiro" "Desenvolvimento" "Desenvolvimento" ...
##  $ RECLASSIFICACAO           : chr  "PRODUTOR COMERCIAL DE PETR\xd3LEO" "PORTADOR DE PETR\xd3LEO" "ABANDONADO POR OUTRAS RAZ\xd5ES" "INDEFINIDO" ...
##  $ SITUACAO                  : chr  "PRODUTOR" "ABANDONADO POR LOG\xcdSTICA EXPLORAT\xd3RIA" "ABANDONADO DEFINITIVAMENTE" "PRODUTOR" ...
##  $ INICIO                    : chr  "03/03/2012" "14/03/2012" "12/04/2012" "14/04/2012" ...
##  $ TERMINO                   : chr  "10/03/2013" "20/09/2012" "19/09/2012" "02/05/2013" ...
##  $ CONCLUSAO                 : chr  "10/03/2013" "19/10/2012" "28/09/2012" "13/05/2013" ...
##  $ TITULARIDADE              : chr  "P\xfablico" "P\xfablico" "P\xfablico" "P\xfablico" ...
##  $ LATITUDE_BASE_4C          : chr  "-21:57:45,630" "-23:06:09,622" "-21:08:06,801" "-21:08:12,535" ...
##  $ LONGITUDE_BASE_4C         : chr  "-39:44:01,130" "-40:00:41,295" "-39:46:53,226" "-39:46:49,296" ...
##  $ LATITUDE_BASE_DD          : num  -22 -23.1 -21.1 -21.1 -21.1 ...
##  $ LONGITUDE_BASE_DD         : num  -39.7 -40 -39.8 -39.8 -39.8 ...
##  $ DATUM_HORIZONTAL          : chr  "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" ...
##  $ TIPO_DE_COORDENADA_DE_BASE: chr  "Definitiva" "Definitiva" "Definitiva" "Definitiva" ...
##  $ DIRECAO                   : chr  "Horizontal" "Vertical" "Horizontal" "Horizontal" ...
##  $ PROFUNDIDADE_VERTICAL_M   : num  -3145 6900 2937 2934 2953 ...
##  $ PROFUNDIDADE_SONDADOR_M   : num  4050 6925 3809 4575 4570 ...
##  $ PROFUNDIDADE_MEDIDA_M     : num  4050 6925 3809 4575 4570 ...
##  $ REFERENCIA_DE_PROFUNDIDADE: chr  "MR" "MR" "MR" "MR" ...
##  $ MESA_ROTATIVA             : num  24 25 24.2 24.2 24.2 ...
##  $ COTA_ALTIMETRICA_M        : num  0 0 0 0 0 ...
##  $ LAMINA_D_AGUA_M           : num  1827 2730 1706 1705 1654 ...
##  $ DATUM_VERTICAL            : chr  "NM" "NM" "NM" "NM" ...
##  $ UNIDADE_ESTRATIGRAFICA    : chr  "" "" "" "" ...
##  $ GEOLOGIA_GRUPO_FINAL      : chr  "Campos" "Lagoa Feia" "Campos" "Campos" ...
##  $ GEOLOGIA_FORMACAO_FINAL   : chr  "Carapebus" "Macabu" "Ubatuba" "Ubatuba" ...
##  $ GEOLOGIA_MEMBRO_FINAL     : chr  "" "" "" "" ...
##  $ CDPE                      : chr  "Existe" "Existe" "Existe" "" ...
##  $ AGP                       : chr  "" "" "" "" ...
##  $ PC                        : chr  "" "Existe" "" "" ...
##  $ PAG                       : chr  "" "" "" "" ...
##  $ PERFIS_CONVENCIONAIS      : chr  "" "Existe" "" "" ...
##  $ DURANTE_PERFURACAO        : chr  "Existe" "Existe" "Existe" "Existe" ...
##  $ PERFIS_DIGITAIS           : chr  "" "" "" "" ...
##  $ PERFIS_PROCESSADOS        : chr  "" "" "" "" ...
##  $ PERFIS_ESPECIAIS          : chr  "" "" "" "" ...
##  $ AMOSTRA_LATERAL           : chr  "" "Existe" "" "" ...
##  $ SISMICA                   : chr  "" "Existe" "" "" ...
##  $ TABELA_TEMPO_PROFUNDIDADE : chr  "" "" "" "" ...
##  $ DADOS_DIRECIONAIS         : chr  "Existe" "Existe" "Existe" "Existe" ...
##  $ TESTE_A_CABO              : chr  "Existe" "Existe" "" "" ...
##  $ TESTE_DE_FORMACAO         : chr  "" "" "" "" ...
##  $ CANHONEIO                 : chr  "" "" "" "" ...
##  $ TESTEMUNHO                : chr  "" "" "" "" ...
##  $ GEOQUIMICA                : chr  "" "" "" "" ...
##  $ SIG_SONDA                 : chr  "SS-49" "DS4" "NB2" "NB2" ...
##  $ NOM_SONDA                 : chr  "SEDCO 707" "Deep Ocean Clarion" "Bully 2" "Bully 2" ...
##  $ DHA_ATUALIZACAO           : chr  "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" ...
###Tabla de distribuciòn de frecuencia
Estados <- Datos$ESTADO
TDFEstados <- as.data.frame(table(Estados))
TDFEstados
##    Estados Freq
## 1       AC    6
## 2       AL  969
## 3       AM  533
## 4       AP   84
## 5       BA 7118
## 6       CE 1273
## 7       ES 2249
## 8       GO    2
## 9       MA  316
## 10      MG   56
## 11      MS   19
## 12      MT   12
## 13      PA  102
## 14      PB    5
## 15      PE    6
## 16      PI    6
## 17      PR   75
## 18      RJ 3555
## 19      RN 8143
## 20      RR    2
## 21      RS   25
## 22      SC   55
## 23      SE 4672
## 24      SP  292
##Agrupaciòn 
library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
#### Adjuntando el paquete: 'dplyr'

###The following objects are masked from ‘package:stats’:
#  
##  filter, lag

###The following objects are masked from ‘package:base’:
  
##  intersect, setdiff, setequal, union

TDFEstados$Regiones <- ifelse(TDFEstados$Estados %in% c("AC", "AP", "AM", "TO", "PA", "RR"), "Norte",
                              ifelse(TDFEstados$Estados %in% c("AL", "BA", "CE", "MA", "PB", "PI", "PE", "SE", "PR", "RN"), "Nordeste",
                                     ifelse(TDFEstados$Estados %in% c("ES", "MG", "RJ", "SP"), "Sudeste",
                                            ifelse(TDFEstados$Estados %in% c("DF", "GO", "MS", "MT"), "Centro-Oeste",
                                                   ifelse(TDFEstados$Estados %in% c("SC", "RS"), "Sur", "otros")))))
TDFEstados <- TDFEstados [, c("Estados", "Freq", "Regiones")]
head(TDFEstados)
##   Estados Freq Regiones
## 1      AC    6    Norte
## 2      AL  969 Nordeste
## 3      AM  533    Norte
## 4      AP   84    Norte
## 5      BA 7118 Nordeste
## 6      CE 1273 Nordeste
## 
TDFEstados$Freq <- as.numeric(as.character(TDFEstados$Freq))
library(dplyr)
TDFEstadosfinal1 <- Datos$TDFEstados
TDFEstadosfinal1 <- TDFEstados %>%
  group_by(Regiones) %>%

  summarise( 
    ni = sum(Freq),
    hi = round(sum(Freq) / sum(TDFEstados$Freq)*100, 2))

TDFEstadosfinal1 <- data.frame(TDFEstadosfinal1)

### Agregar totales:
TDFEstadosfinal1 <- TDFEstadosfinal1 [, c("Regiones", "ni", "hi")]
total_ni <- sum(TDFEstadosfinal1$ni) 
total_hi <- 100
TDFEstadoscompleta <- rbind(TDFEstadosfinal1, data.frame( Regiones = "Total",
                                                          ni = total_ni,
                                                          hi = total_hi))
print(TDFEstadoscompleta)
##       Regiones    ni     hi
## 1 Centro-Oeste    33   0.11
## 2     Nordeste 22583  76.36
## 3        Norte   727   2.46
## 4      Sudeste  6152  20.80
## 5          Sur    80   0.27
## 6        Total 29575 100.00
library(gt)
gt(TDFEstadoscompleta) %>%
tab_header( 
  title = md("**Cuadro No.1**"), 
  subtitle = "Distibución de pozos petroliferos en las regiones de Brasil") %>% 
tab_style(style = list(cell_text(align = "center")), locations = list()) 
Cuadro No.1
Distibución de pozos petroliferos en las regiones de Brasil
Regiones ni hi
Centro-Oeste 33 0.11
Nordeste 22583 76.36
Norte 727 2.46
Sudeste 6152 20.80
Sur 80 0.27
Total 29575 100.00
##Histograma de frecuencia absoluta local (ni)
TDFEstadoscompleta_ <- TDFEstadoscompleta[TDFEstadoscompleta$Regiones != "Total", ]

barplot(TDFEstadoscompleta_$ni,
main = "Gráfica N°1: Distribución de pozos petroliferos segun su región en Brasil",
xlab = "Regiones", ylab = "Cantidad",
col = "darkseagreen1", names.arg = TDFEstadoscompleta_$Regiones,
las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)

##Histograma de frecuencia absoluta global (ni)
barplot(TDFEstadoscompleta_$ni,
main = "Gráfica N°2: Distribución de cantidad depozos petroliferos segun su región en Brasil",
        xlab = "Regiones", ylab = "Cantidad",
        col = "darkseagreen1", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1,
        ylim = c(0,30000)) 

##Histograma de frecuencia relativa local (hi)
barplot(TDFEstadoscompleta_$hi,
main = "Gráfica N°3: Distribución en porcentaje según su región en Brasil",
        xlab = "Regiones", ylab = "Porcentaje",
        col = "darkseagreen1", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)

##Histograma de frecuencia relativa global (hi)
barplot(TDFEstadoscompleta_$hi,
main = "Gráfica N°4: Distribución en porcentaje según su región en Brasil",
        xlab = "Regiones", ylab = "Porcentaje",
        col = "darkseagreen1", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1,
        ylim = c(0,100))

##Diagrama circular
pie(TDFEstadoscompleta_$hi, 
main = "Gráfica N°5: Distribución porcentual de regiones con pozos petroliferos en Brasil", 
    radius = 1,
    labels = paste0(round(TDFEstadoscompleta_$hi,2)),
    col = c("#FFFFE5", "#F7FCB9", "#D9F0A3", "#ADDD8E", "#006837"),
    cex = 1, cex.main = 1,
    init.angle = 90)

legend(x = -2.5, y =0.2,
       legend = TDFEstadoscompleta_$Regiones,
       fill = c("#FFFFE5", "#F7FCB9", "#D9F0A3", "#ADDD8E", "#006837"),
       cex = 1,
       title = "Regiones de Brasil")