Análisis Estadístico de la Distribucion de los Pozos Petroleros en Brasil
setwd("C:/Users/Usuario/Desktop/Nueva carpeta")
library(readxl)
library(dplyr)
library(gt)
datos <- read_excel("tabela_de_pocos_janeiro_2018.xlsx")
Este bloque carga la base de datos original de pozos y revisa la estructura de los datos.
Se determina la frecuencia absoluta de los pozos perforados según el estado.
Estados <- datos$ESTADO
TDFEstados <- as.data.frame(table(Estados))
colnames(TDFEstados) <- c("Estados", "Freq")
En esta sección se agrupan los estados de acuerdo con su región geográfica en Brasil.
library(dplyr)
TDFEstados$Regiones <- ifelse(TDFEstados$Estados %in% c("AC", "AP", "AM", "TO", "PA", "RR"), "Norte",
ifelse(TDFEstados$Estados %in% c("AL", "BA", "CE", "MA", "PB", "PI", "PE", "SE", "PR", "RN"), "Nordeste",
ifelse(TDFEstados$Estados %in% c("ES", "MG", "RJ", "SP", "SC", "RS"), "Sudeste",
ifelse(TDFEstados$Estados %in% c("DF", "GO", "MS", "MT"), "Centro-Oeste", "otros"))))
TDFEstados <- TDFEstados [, c("Estados", "Freq", "Regiones")]
head(TDFEstados)
## Estados Freq Regiones
## 1 AC 6 Norte
## 2 AL 969 Nordeste
## 3 AM 533 Norte
## 4 AP 84 Norte
## 5 BA 7118 Nordeste
## 6 CE 1273 Nordeste
A continuación, se calculan las frecuencias absolutas y relativas con el objetivo de cuantificar la concentración y el peso porcentual de las perforaciones en cada región analizada.
TDFEstados$Freq <- as.numeric(as.character(TDFEstados$Freq))
library(dplyr)
TDFEstadosfinal1 <- TDFEstados %>%
group_by(Regiones) %>%
summarise(
ni = sum(Freq),
hi = round(sum(Freq) / sum(TDFEstados$Freq)*100, 5))
TDFEstadosfinal1 <- data.frame(TDFEstadosfinal1)
En este bloque se añade la fila acumulada y se ordena la tabla final.
TDFEstadosfinal1$fi<-TDFEstadosfinal1$ni/sum(TDFEstadosfinal1$ni)
TDFEstadosfinal1 <- TDFEstadosfinal1 [, c("Regiones", "ni", "hi","fi")]
total_ni <- sum(TDFEstadosfinal1$ni)
total_hi <- sum(TDFEstadosfinal1$hi)
total_fi<-sum(TDFEstadosfinal1$fi)
TDFEstadoscompleta <- rbind(TDFEstadosfinal1, data.frame( Regiones = "Total",
ni = total_ni,
hi = total_hi,
fi = total_fi))
print(TDFEstadoscompleta)
## Regiones ni hi fi
## 1 Centro-Oeste 33 0.11158 0.001115807
## 2 Nordeste 22583 76.35841 0.763584108
## 3 Norte 727 2.45816 0.024581572
## 4 Sudeste 6232 21.07185 0.210718512
## 5 Total 29575 100.00000 1.000000000
Se presenta la información en una tabla formal mediante el paquete gt.
library(gt)
gt(TDFEstadoscompleta) %>%
tab_header(
title = md("**Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL**"),
subtitle = "Distibución de pozos petroliferos en las regiones de Brasil") %>%
tab_spanner(
label = md("**Frecuencia Relativa**"),
columns = c(hi, fi)
) %>%
cols_label(
ni = md("**ni**"),
hi = md("Porcentual (%)"),
fi = md("Fracción")
) %>%
fmt_number(columns = hi, decimals = 2) %>%
fmt_number(columns = fi, decimals = 4) %>%
cols_align(align = "center", columns = everything()) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"),
cell_text(color = "white", weight = "bold")),
locations = cells_title()
) %>%
tab_style(
style = list(cell_fill(color = "#F2F3F4"),
cell_text(weight = "bold", color = "#2E4053")),
locations = cells_column_labels()
) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"),
cell_text(color = "white", weight = "bold")),
locations = cells_column_spanners()
) %>%
tab_style(
style = list(cell_fill(color = "#D5D8DC"),
cell_text(weight = "bold", color = "#2E4053")),
locations = cells_body(rows = nrow(TDFEstadoscompleta))
) %>%
tab_options(
table.border.top.color = "#2E4053",
table.border.bottom.color = "#2E4053",
column_labels.border.bottom.color = "#2E4053",
data_row.padding = px(6),
table.font.size = px(13)
)
| Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL | |||
| Distibución de pozos petroliferos en las regiones de Brasil | |||
| Regiones | ni |
Frecuencia Relativa
|
|
|---|---|---|---|
| Porcentual (%) | Fracción | ||
| Centro-Oeste | 33 | 0.11 | 0.0011 |
| Nordeste | 22583 | 76.36 | 0.7636 |
| Norte | 727 | 2.46 | 0.0246 |
| Sudeste | 6232 | 21.07 | 0.2107 |
| Total | 29575 | 100.00 | 1.0000 |
TDFEstadoscompleta_<-TDFEstadoscompleta[TDFEstadoscompleta$Regiones !="Total"]
barplot(TDFEstadoscompleta_$ni,
main = "Gráfica N°2: Distribución de cantidad depozos petroliferos segun su región en Brasil",
xlab = "Regiones", ylab = "Cantidad",
col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 0.99,
ylim = c(0,30000))
barplot(TDFEstadoscompleta_$hi,
main = "Gráfica N°3: Distribución en porcentaje según su región en Brasil",
xlab = "Regiones", ylab = "Porcentaje",
col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)
barplot(TDFEstadoscompleta_$hi,
main = "Gráfica N°4: Distribución en porcentaje según su región en Brasil",
xlab = "Regiones", ylab = "Porcentaje",
col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1,
ylim = c(0,100))
pie(TDFEstadoscompleta_$hi,
main = "Gráfica N°5: Distribución porcentual de regiones con pozos petroliferos en Brasil",
radius = 0.9,
labels = paste0(round(TDFEstadoscompleta_$hi,2)),
col = c("#264653", "#FFFFE5", "#F7FCB9", "#F4A261", "#D9E0E6"),
cex = 1, cex.main = 1,
init.angle = 90)
legend(x = -1.95, y =1,
legend = TDFEstadoscompleta_$Regiones,
fill = c("#264653", "#FFFFE5", "#F7FCB9", "#F4A261", "#D9E0E6"),
cex = 1,
title = "Regiones de Brasil")
Conclusiones <- data.frame(
Variable = "Ubicación en las regiones",
`Rango [Min; Max]` = "N/A",
`Media (X̄)` = "N/A",
`Mediana (Me)` = "N/A",
`Moda (Mo)` = "Nordeste",
`Varianza (S²)` = "N/A",
`Desv. Est. (S)` = "N/A",
`C.V. (%)` = "N/A",
`Asimetría (As)` = "N/A",
`Curtosis (K)` = "N/A",
`Valores Atípicos` = "N/A",
check.names = FALSE
)
library(gt)
gt(Conclusiones) %>%
tab_header(
title = md("**CONCLUSIONES Y ESTADÍSTICOS**"),
subtitle = "Resumen de Indicadores de Ubicación de los Pozos en las Regiones de Brasil") %>%
tab_source_note(source_note = "Autor: Caleb Yanez ") %>%
cols_align(align = "center", columns = everything()) %>%
tab_style(
style = list(cell_fill(color = "#2E4053"), cell_text(color = "white", weight = "bold")),
locations = cells_title()
) %>%
tab_style(
style = list(cell_fill(color = "#F2F3F4"), cell_text(weight = "bold", color = "#2E4053")),
locations = cells_column_labels()
) %>%
tab_options(
table.border.top.color = "#2E4053",
table.border.bottom.color = "#2E4053",
column_labels.border.bottom.color = "#2E4053",
data_row.padding = px(6))
| CONCLUSIONES Y ESTADÍSTICOS | ||||||||||
| Resumen de Indicadores de Ubicación de los Pozos en las Regiones de Brasil | ||||||||||
| Variable | Rango [Min; Max] | Media (X̄) | Mediana (Me) | Moda (Mo) | Varianza (S²) | Desv. Est. (S) | C.V. (%) | Asimetría (As) | Curtosis (K) | Valores Atípicos |
|---|---|---|---|---|---|---|---|---|---|---|
| Ubicación en las regiones | N/A | N/A | N/A | Nordeste | N/A | N/A | N/A | N/A | N/A | N/A |
| Autor: Caleb Yanez | ||||||||||
La región Nordeste presenta la moda de la distribución, lo que significa que es la región con mayor concentración de pozos petrolíferos en el país, reflejando su relevancia histórica y geográfica en el desarrollo de la industria petrolera brasileña.