Análisis estadístico de las cuencas petrolíferas
Importación del archivo y revisión de la estructura del conjunto de datos.
setwd("C:/Users/Usuario/Desktop/TRABAJO DE ESTADISTICA/PDF-EXCEL-QGIS")
Datos <- read.csv("Pozos brasil 2.csv", header = TRUE, sep = ";", dec = ",")
str(Datos)
## 'data.frame': 29575 obs. of 59 variables:
## $ POCO : chr "7-RO-123HP-RJS" "1-BP-7-RJS" "7-ARGO-4H-ESS" "7-ARGO-5H-ESS" ...
## $ CADASTRO : num 7.43e+10 7.43e+10 3.43e+10 3.43e+10 3.43e+10 ...
## $ OPERADOR : chr "Petrobras" "BP Energy" "Shell Brasil" "Shell Brasil" ...
## $ POCO_OPERADOR : chr "7RO123HPRJS" "ANU" "7ARGO4HESS" "7ARGO5HESS" ...
## $ ESTADO : chr "RJ" "RJ" "ES" "ES" ...
## $ BACIA : chr "Campos" "Campos" "Campos" "Campos" ...
## $ BLOCO : chr "" "C-M-473" "" "" ...
## $ SIG_CAMPO : chr "RO " "" "ARGO " "ARGO " ...
## $ CAMPO : chr "RONCADOR" "" "ARGONAUTA" "ARGONAUTA" ...
## $ TERRA_MAR : chr "M" "M" "M" "M" ...
## $ POCO_POS_ANP : chr "S" "S" "S" "S" ...
## $ TIPO : chr "Explotat\xf3rio" "Explorat\xf3rio" "Explotat\xf3rio" "Explotat\xf3rio" ...
## $ CATEGORIA : chr "Desenvolvimento" "Pioneiro" "Desenvolvimento" "Desenvolvimento" ...
## $ RECLASSIFICACAO : chr "PRODUTOR COMERCIAL DE PETR\xd3LEO" "PORTADOR DE PETR\xd3LEO" "ABANDONADO POR OUTRAS RAZ\xd5ES" "INDEFINIDO" ...
## $ SITUACAO : chr "PRODUTOR" "ABANDONADO POR LOG\xcdSTICA EXPLORAT\xd3RIA" "ABANDONADO DEFINITIVAMENTE" "PRODUTOR" ...
## $ INICIO : chr "03/03/2012" "14/03/2012" "12/04/2012" "14/04/2012" ...
## $ TERMINO : chr "10/03/2013" "20/09/2012" "19/09/2012" "02/05/2013" ...
## $ CONCLUSAO : chr "10/03/2013" "19/10/2012" "28/09/2012" "13/05/2013" ...
## $ TITULARIDADE : chr "P\xfablico" "P\xfablico" "P\xfablico" "P\xfablico" ...
## $ LATITUDE_BASE_4C : chr "-21:57:45,630" "-23:06:09,622" "-21:08:06,801" "-21:08:12,535" ...
## $ LONGITUDE_BASE_4C : chr "-39:44:01,130" "-40:00:41,295" "-39:46:53,226" "-39:46:49,296" ...
## $ LATITUDE_BASE_DD : num -22 -23.1 -21.1 -21.1 -21.1 ...
## $ LONGITUDE_BASE_DD : num -39.7 -40 -39.8 -39.8 -39.8 ...
## $ DATUM_HORIZONTAL : chr "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" "SIRGAS2000" ...
## $ TIPO_DE_COORDENADA_DE_BASE: chr "Definitiva" "Definitiva" "Definitiva" "Definitiva" ...
## $ DIRECAO : chr "Horizontal" "Vertical" "Horizontal" "Horizontal" ...
## $ PROFUNDIDADE_VERTICAL_M : num -3145 6900 2937 2934 2953 ...
## $ PROFUNDIDADE_SONDADOR_M : num 4050 6925 3809 4575 4570 ...
## $ PROFUNDIDADE_MEDIDA_M : num 4050 6925 3809 4575 4570 ...
## $ REFERENCIA_DE_PROFUNDIDADE: chr "MR" "MR" "MR" "MR" ...
## $ MESA_ROTATIVA : num 24 25 24.2 24.2 24.2 ...
## $ COTA_ALTIMETRICA_M : num 0 0 0 0 0 ...
## $ LAMINA_D_AGUA_M : num 1827 2730 1706 1705 1654 ...
## $ DATUM_VERTICAL : chr "NM" "NM" "NM" "NM" ...
## $ UNIDADE_ESTRATIGRAFICA : chr "" "" "" "" ...
## $ GEOLOGIA_GRUPO_FINAL : chr "Campos" "Lagoa Feia" "Campos" "Campos" ...
## $ GEOLOGIA_FORMACAO_FINAL : chr "Carapebus" "Macabu" "Ubatuba" "Ubatuba" ...
## $ GEOLOGIA_MEMBRO_FINAL : chr "" "" "" "" ...
## $ CDPE : chr "Existe" "Existe" "Existe" "" ...
## $ AGP : chr "" "" "" "" ...
## $ PC : chr "" "Existe" "" "" ...
## $ PAG : chr "" "" "" "" ...
## $ PERFIS_CONVENCIONAIS : chr "" "Existe" "" "" ...
## $ DURANTE_PERFURACAO : chr "Existe" "Existe" "Existe" "Existe" ...
## $ PERFIS_DIGITAIS : chr "" "" "" "" ...
## $ PERFIS_PROCESSADOS : chr "" "" "" "" ...
## $ PERFIS_ESPECIAIS : chr "" "" "" "" ...
## $ AMOSTRA_LATERAL : chr "" "Existe" "" "" ...
## $ SISMICA : chr "" "Existe" "" "" ...
## $ TABELA_TEMPO_PROFUNDIDADE : chr "" "" "" "" ...
## $ DADOS_DIRECIONAIS : chr "Existe" "Existe" "Existe" "Existe" ...
## $ TESTE_A_CABO : chr "Existe" "Existe" "" "" ...
## $ TESTE_DE_FORMACAO : chr "" "" "" "" ...
## $ CANHONEIO : chr "" "" "" "" ...
## $ TESTEMUNHO : chr "" "" "" "" ...
## $ GEOQUIMICA : chr "" "" "" "" ...
## $ SIG_SONDA : chr "SS-49" "DS4" "NB2" "NB2" ...
## $ NOM_SONDA : chr "SEDCO 707" "Deep Ocean Clarion" "Bully 2" "Bully 2" ...
## $ DHA_ATUALIZACAO : chr "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" "28/1/18 5:00" ...
Construcción de la tabla de frecuencias absolutas.
Cuencas <- Datos$BACIA
TDFCuencas <- as.data.frame(table(Cuencas))
TDFCuencas
## Cuencas Freq
## 1 S\xe3o Lu\xeds 19
## 2 Paran\xe1 125
## 3 Maraj\xf3 18
## 4 Pernambuco - Para\xedba 3
## 5 Jacu\xedpe 1
## 6 Bragan\xe7a - Vizeu 2
## 7 Parna\xedba 163
## 8 S\xe3o Francisco 59
## 9 Acre 11
## 10 Alagoas 935
## 11 Almada 24
## 12 Amazonas 218
## 13 Araripe 2
## 14 Barreirinhas 123
## 15 Cear\xe1 228
## 16 Par\xe1 - Maranh\xe3o 34
## 17 Esp\xedrito Santo 1997
## 18 Solim\xf5es 364
## 19 Jatob\xe1 2
## 20 Camamu 96
## 21 Campos 3418
## 22 Cumuruxatiba 48
## 23 Foz do Amazonas 95
## 24 Jequitinhonha 40
## 25 Mucuri 56
## 26 Pantanal 13
## 27 Parecis - Alto Xingu 6
## 28 Pelotas 20
## 29 Potiguar 9187
## 30 Rio do Peixe 5
## 31 Santos 706
## 32 Sergipe 4707
## 33 Tacutu 2
## 34 Tucano Central 13
## 35 Tucano Norte 5
## 36 Tucano Sul 136
## 37 Rec\xf4ncavo 6694
Clasificación de las cuencas petrolíferas en macro-regiones.
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
TDFCuencas$CUENCAS <- ifelse(TDFCuencas$Cuenca %in% c("Acre", "Amazonas", "Solimões", "Foz do Amazonas", "Marajó", "Tacutu", "Parecis - Alto Xingu"), "Cuencas del Norte",
ifelse(TDFCuencas$Cuenca %in% c("Alagoas", "Araripe", "Barreirinhas", "Bragança - Vizeu", "Camamu", "Ceará", "Cumuruxatiba", "Jatobá", "Parnaíba", "Pernambuco - Paraíba", "Potiguar", "Recôncavo", "Rio do Peixe", "Sergipe", "São Francisco", "São Luís", "Tucano Central", "Tucano Norte", "Tucano Sul"),"Cuencas del Nordeste",
ifelse(TDFCuencas$Cuenca %in% c("Campos", "Espírito Santo", "Santos"), "Cuencas del Sudeste",
ifelse(TDFCuencas$Cuenca %in% c("Paraná", "Pelotas"), "Cuencas del Sur",
ifelse(TDFCuencas$Cuenca %in% c("Pantanal", "Almada", "Mucuri", "Jequitinhonha", "Pará - Maranhão"),"Cuencas del Centro-Oeste", "Otros")))))
head(TDFCuencas$CUENCAS)
## [1] "Otros" "Otros" "Otros" "Otros" "Otros" "Otros"
Obtención de ni y hi por grupo de cuencas.
TDFCuencas$Freq <- as.numeric(as.character(TDFCuencas$Freq))
library(dplyr)
TDFCuencas1 <- Datos$TDFCuencas
TDFCuencas1 <- TDFCuencas %>%
group_by(CUENCAS) %>%
summarise(
ni = sum(Freq),
hi = round(sum(Freq) / sum(TDFCuencas$Freq)*100, 5))
TDFCuencas1 <- data.frame(TDFCuencas1)
Incorporación de la fila total al cuadro de frecuencias.
TDFCuencas1 <- TDFCuencas1 [, c("CUENCAS", "ni", "hi")]
total_ni <- sum(TDFCuencas1$ni)
total_hi <- sum(TDFCuencas1$hi)
TDFCuencas1.1 <- rbind(TDFCuencas1, data.frame( CUENCAS = "Total",
ni = total_ni,
hi = total_hi))
print(TDFCuencas1.1)
## CUENCAS ni hi
## 1 Cuencas del Centro-Oeste 133 0.44970
## 2 Cuencas del Nordeste 15257 51.58749
## 3 Cuencas del Norte 332 1.12257
## 4 Cuencas del Sudeste 4124 13.94421
## 5 Cuencas del Sur 20 0.06762
## 6 Otros 9709 32.82840
## 7 Total 29575 99.99999
Visualización del cuadro de distribución mediante tabla formal.
library(gt)
gt(TDFCuencas1.1) %>%
tab_header(
title = md("**DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL**"),
subtitle = "Cuencas Petrolíferas en Brasil") %>%
fmt_number(
columns = hi,
decimals = 2) %>%
cols_align(align = "center", columns = everything()) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"), cell_text(color = "white", weight = "bold")),
locations = cells_title()
) %>%
tab_style(
style = list(cell_fill(color = "#F2F3F4"), cell_text(weight = "bold", color = "#2E4053")),
locations = cells_column_labels()
) %>%
tab_options(
table.border.top.color = "#2E4053",
table.border.bottom.color = "#2E4053",
column_labels.border.bottom.color = "#2E4053",
data_row.padding = px(6))
| DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL | ||
| Cuencas Petrolíferas en Brasil | ||
| CUENCAS | ni | hi |
|---|---|---|
| Cuencas del Centro-Oeste | 133 | 0.45 |
| Cuencas del Nordeste | 15257 | 51.59 |
| Cuencas del Norte | 332 | 1.12 |
| Cuencas del Sudeste | 4124 | 13.94 |
| Cuencas del Sur | 20 | 0.07 |
| Otros | 9709 | 32.83 |
| Total | 29575 | 100.00 |
Distribución en cantidad sin incluir el total.
TDFCuencas1.1 <- TDFCuencas1.1[TDFCuencas1.1$CUENCAS != "Total", ]
par(mar = c(9, 4, 4, 2))
barplot(TDFCuencas1.1$ni,
main = "Gráfica N°1: Distribución en cantidad de cuencas por región",
ylab = "Cantidad",
col = "#B0B8C1", names.arg = TDFCuencas1.1$CUENCAS,
las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
mtext("Cuencas", side = 1, line = 7)
Distribución en cantidad considerando la escala total.
par(mar = c(9, 4, 4, 2))
barplot(TDFCuencas1.1$ni,
main = "Gráfica N°1: Distribución en cantidad de cuencas por región",
ylab = "Cantidad",
col = "#B0B8C1", names.arg = TDFCuencas1.1$CUENCAS,
las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1,
ylim = c(0,30000))
mtext("Cuencas", side = 1, line = 7)
Distribución porcentual sin ajuste de escala global.
par(mar = c(9, 4, 4, 2))
barplot(TDFCuencas1.1$hi,
main = "Gráfica N°3: Distribución porcentual de cuencas por región",
ylab = "Porcentaje",
col = "#B0B8C1", names.arg = TDFCuencas1.1$CUENCAS,
las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1)
mtext("Cuencas", side = 1, line = 7)
Distribución porcentual con escala total.
par(mar = c(9, 4, 4, 2))
barplot(TDFCuencas1.1$hi,
main = "Gráfica N°3: Distribución porcentual de cuencas por región",
ylab = "Porcentaje",
col = "#B0B8C1", names.arg = TDFCuencas1.1$CUENCAS,
las = 2, cex.names = 0.8, cex.axis = 0.8, cex.main = 1,
ylim = c(0,100))
mtext("Cuencas", side = 1, line = 7)
Representación porcentual de las cuencas por región.
library(ggplot2)
library(ggrepel)
TDFCuencas1.1 <- TDFCuencas1.1[TDFCuencas1.1$CUENCAS != "Otros", ]
datos_plot <- TDFCuencas1.1
datos_plot$ymax <- cumsum(datos_plot$hi)
datos_plot$ymin <- c(0, head(datos_plot$ymax, n=-1))
datos_plot$posicion_label <- (datos_plot$ymax + datos_plot$ymin) / 2
mis_colores <- c("#B0B8C1", "#D9E0E6", "#1F3B6E", "#4C6BA7", "#7D9BC8")
ggplot(datos_plot, aes(ymax=ymax, ymin=ymin, xmax=4, xmin=2, fill=CUENCAS)) +
geom_rect(color = "black") +
coord_polar(theta="y") +
geom_label_repel(aes(y = posicion_label, x = 4, label = paste0(round(hi, 2))),
size = 4,
nudge_x = 0.5,
show.legend = FALSE) +
scale_fill_manual(values = mis_colores) +
ggtitle("Gráfica N°5: Distribución porcentual de cuencas por región en Brasil") +
theme_void() +
theme(legend.position = "right",
plot.title = element_text(hjust = 0),
legend.background = element_rect(color = "black",
fill = "white",
linewidth = 0.5,
linetype = "solid"),
legend.margin = margin(t = 10, r = 10, b = 10, l = 10))
El presente resumen sintetiza los indicadores descriptivos de la distribución de las cuencas petrolíferas por regiones de Brasil. Dado que la variable es cualitativa nominal, la única medida de tendencia central aplicable es la moda.
Conclusiones <- data.frame(
Variable = "Cuencas por regiones de Brasil",
`Rango [Min; Max]` = "N/A",
`Media (X̄)` = "N/A",
`Mediana (Me)` = "N/A",
`Moda (Mo)` = "Cuencas del Nordeste",
`Varianza (S²)` = "N/A",
`Desv. Est. (S)` = "N/A",
`C.V. (%)` = "N/A",
`Asimetría (As)` = "N/A",
`Curtosis (K)` = "N/A",
`Valores Atípicos` = "N/A",
check.names = FALSE
)
library(gt)
gt(Conclusiones) %>%
tab_header(
title = md("**CONCLUSIONES Y ESTADÍSTICOS**"),
subtitle = "Resumen de Indicadores de las Cuencas de los Pozos Petrolíferos en Brasil") %>%
tab_source_note(source_note = "Autor: Anahi Macias") %>%
cols_align(align = "center", columns = everything()) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"), cell_text(color = "white", weight = "bold")),
locations = cells_title()
) %>%
tab_style(
style = list(cell_fill(color = "#F2F3F4"), cell_text(weight = "bold", color = "#2E4053")),
locations = cells_column_labels()
) %>%
tab_options(
table.border.top.color = "#2E4053",
table.border.bottom.color = "#2E4053",
column_labels.border.bottom.color = "#2E4053",
data_row.padding = px(6))
| CONCLUSIONES Y ESTADÍSTICOS | ||||||||||
| Resumen de Indicadores de las Cuencas de los Pozos Petrolíferos en Brasil | ||||||||||
| Variable | Rango [Min; Max] | Media (X̄) | Mediana (Me) | Moda (Mo) | Varianza (S²) | Desv. Est. (S) | C.V. (%) | Asimetría (As) | Curtosis (K) | Valores Atípicos |
|---|---|---|---|---|---|---|---|---|---|---|
| Cuencas por regiones de Brasil | N/A | N/A | N/A | Cuencas del Nordeste | N/A | N/A | N/A | N/A | N/A | N/A |
| Autor: Anahi Macias | ||||||||||
La moda corresponde a las Cuencas del Nordeste, lo que evidencia que esta región concentra la mayor cantidad de cuencas petrolíferas del país. Este resultado refleja la relevancia geológica y energética del Nordeste dentro de la distribución regional de los recursos petroleros en Brasil.