Análisis Estadístico de la Distribucion de los Pozos Petroleros en Brasil

setwd("C:/Users/Usuario/Desktop/Nueva carpeta")
library(readxl)
library(dplyr)
library(gt)
datos <- read_excel("tabela_de_pocos_janeiro_2018.xlsx")

1 Cargar datos

Este bloque carga la base de datos original de pozos y revisa la estructura de los datos.

2 Tabla de distribuciòn de frecuencia

Se determina la frecuencia absoluta de los pozos perforados según el estado.

Estados <- datos$ESTADO
TDFEstados <- as.data.frame(table(Estados))
colnames(TDFEstados) <- c("Estados", "Freq")

3 Asignación de regiones

En esta sección se agrupan los estados de acuerdo con su región geográfica en Brasil.

library(dplyr)
TDFEstados$Regiones <- ifelse(TDFEstados$Estados %in% c("AC", "AP", "AM", "TO", "PA", "RR"), "Norte",
                              ifelse(TDFEstados$Estados %in% c("AL", "BA", "CE", "MA", "PB", "PI", "PE", "SE", "PR", "RN"), "Nordeste",
                                     ifelse(TDFEstados$Estados %in% c("ES", "MG", "RJ", "SP", "SC", "RS"), "Sudeste",
                                            ifelse(TDFEstados$Estados %in% c("DF", "GO", "MS", "MT"), "Centro-Oeste", "otros"))))
TDFEstados <- TDFEstados [, c("Estados", "Freq", "Regiones")]
head(TDFEstados)
##   Estados Freq Regiones
## 1      AC    6    Norte
## 2      AL  969 Nordeste
## 3      AM  533    Norte
## 4      AP   84    Norte
## 5      BA 7118 Nordeste
## 6      CE 1273 Nordeste

4 Cálculo de frecuencias por región

A continuación, se calculan las frecuencias absolutas y relativas con el objetivo de cuantificar la concentración y el peso porcentual de las perforaciones en cada región analizada.

TDFEstados$Freq <- as.numeric(as.character(TDFEstados$Freq))
library(dplyr)
TDFEstadosfinal1 <- TDFEstados %>%
  group_by(Regiones) %>%
  
  summarise( 
    ni = sum(Freq),
    hi = round(sum(Freq) / sum(TDFEstados$Freq)*100, 5))

TDFEstadosfinal1 <- data.frame(TDFEstadosfinal1)

5 Construcción del cuadro con totales

En este bloque se añade la fila acumulada y se ordena la tabla final.

TDFEstadosfinal1$fi<-TDFEstadosfinal1$ni/sum(TDFEstadosfinal1$ni)
TDFEstadosfinal1 <- TDFEstadosfinal1 [, c("Regiones", "ni", "hi","fi")]
total_ni <- sum(TDFEstadosfinal1$ni) 
total_hi <- sum(TDFEstadosfinal1$hi)
total_fi<-sum(TDFEstadosfinal1$fi)
TDFEstadoscompleta <- rbind(TDFEstadosfinal1, data.frame( Regiones = "Total",
                                                          ni = total_ni,
                                                          hi = total_hi,
                                                          fi = total_fi))
print(TDFEstadoscompleta)
##       Regiones    ni        hi          fi
## 1 Centro-Oeste    33   0.11158 0.001115807
## 2     Nordeste 22583  76.35841 0.763584108
## 3        Norte   727   2.45816 0.024581572
## 4      Sudeste  6232  21.07185 0.210718512
## 5        Total 29575 100.00000 1.000000000

6 Presentación tabular con formato

Se presenta la información en una tabla formal mediante el paquete gt.

library(gt)
gt(TDFEstadoscompleta) %>%
  tab_header( 
    title = md("**Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL**"), 
    subtitle = "Distibución de pozos petroliferos en las regiones de Brasil") %>%  
    tab_spanner(
    label   = md("**Frecuencia Relativa**"),
    columns = c(hi, fi)
  ) %>%
    cols_label(
    ni = md("**ni**"),
    hi = md("Porcentual (%)"),
    fi = md("Fracción")
  ) %>%
  fmt_number(columns = hi, decimals = 2) %>%
  fmt_number(columns = fi, decimals = 4) %>%
  cols_align(align = "center", columns = everything()) %>%
  tab_style(
    style     = list(cell_fill(color = "#2E4053"),
                     cell_text(color = "white", weight = "bold")),
    locations = cells_title()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#F2F3F4"),
                     cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#2E4053"),
                     cell_text(color = "white", weight = "bold")),
    locations = cells_column_spanners()
  ) %>%
  tab_style(
    style     = list(cell_fill(color = "#D5D8DC"),
                     cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_body(rows = nrow(TDFEstadoscompleta))
  ) %>%
  tab_options(
    table.border.top.color          = "#2E4053",
    table.border.bottom.color       = "#2E4053",
    column_labels.border.bottom.color = "#2E4053",
    data_row.padding                = px(6),
    table.font.size                 = px(13)
  )
Tabla N°1: DISTRIBUCIÓN DE FRECUENCIAS DE POZOS PETROLEROS DE BRASIL
Distibución de pozos petroliferos en las regiones de Brasil
Regiones ni
Frecuencia Relativa
Porcentual (%) Fracción
Centro-Oeste 33 0.11 0.0011
Nordeste 22583 76.36 0.7636
Norte 727 2.46 0.0246
Sudeste 6232 21.07 0.2107
Total 29575 100.00 1.0000

6.1 Histograma de frecuencia absoluta global

TDFEstadoscompleta_<-TDFEstadoscompleta[TDFEstadoscompleta$Regiones !="Total"]
barplot(TDFEstadoscompleta_$ni,
        main = "Gráfica N°2: Distribución de cantidad depozos petroliferos segun su región en Brasil",
        xlab = "Regiones", ylab = "Cantidad",
        col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 0.99,
        ylim = c(0,30000)) 

6.2 Histograma de frecuencia relativa local

barplot(TDFEstadoscompleta_$hi,
        main = "Gráfica N°3: Distribución en porcentaje según su región en Brasil",
        xlab = "Regiones", ylab = "Porcentaje",
        col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1)

6.3 Histograma de frecuencia relativa global

barplot(TDFEstadoscompleta_$hi,
        main = "Gráfica N°4: Distribución en porcentaje según su región en Brasil",
        xlab = "Regiones", ylab = "Porcentaje",
        col = "#2E4053", names.arg = TDFEstadoscompleta_$Regiones,
        las = 1, cex.names = 1, cex.axis = 0.8, cex.main = 1,
        ylim = c(0,100))

6.4 Diagrama circular

pie(TDFEstadoscompleta_$hi, 
    main = "Gráfica N°5: Distribución porcentual de regiones con pozos petroliferos en Brasil", 
    radius = 0.9,
    labels = paste0(round(TDFEstadoscompleta_$hi,2)),
    col = c("#264653", "#FFFFE5", "#F7FCB9", "#F4A261", "#D9E0E6"),
    cex = 1, cex.main = 1,
    init.angle = 90)

legend(x = -1.95, y =1,
       legend = TDFEstadoscompleta_$Regiones,
       fill = c("#264653", "#FFFFE5", "#F7FCB9", "#F4A261", "#D9E0E6"),
       cex = 1,
       title = "Regiones de Brasil")

7 Resumen Estadístico

Conclusiones <- data.frame(
Variable = "Ubicación en las regiones",
`Rango [Min; Max]` = "N/A",
`Media (X̄)` = "N/A",
`Mediana (Me)` = "N/A",
`Moda (Mo)` = "Nordeste",
`Varianza (S²)` = "N/A",
`Desv. Est. (S)` = "N/A",
`C.V. (%)` = "N/A",
`Asimetría (As)` = "N/A",
`Curtosis (K)` = "N/A",
`Valores Atípicos` = "N/A",
check.names = FALSE
)

library(gt)

gt(Conclusiones) %>%
tab_header(
title = md("**CONCLUSIONES Y ESTADÍSTICOS**"),
subtitle = "Resumen de Indicadores de Ubicación de los Pozos en las Regiones de Brasil") %>%
tab_source_note(source_note = "Autor: Caleb Yanez ") %>%
  cols_align(align = "center", columns = everything()) %>%
  tab_style(
    style = list(cell_fill(color = "#2E4053"), cell_text(color = "white", weight = "bold")),
    locations = cells_title()
  ) %>%
  tab_style(
    style = list(cell_fill(color = "#F2F3F4"), cell_text(weight = "bold", color = "#2E4053")),
    locations = cells_column_labels()
  ) %>%
  tab_options(
    table.border.top.color = "#2E4053",
    table.border.bottom.color = "#2E4053",
    column_labels.border.bottom.color = "#2E4053",
    data_row.padding = px(6))
CONCLUSIONES Y ESTADÍSTICOS
Resumen de Indicadores de Ubicación de los Pozos en las Regiones de Brasil
Variable Rango [Min; Max] Media (X̄) Mediana (Me) Moda (Mo) Varianza (S²) Desv. Est. (S) C.V. (%) Asimetría (As) Curtosis (K) Valores Atípicos
Ubicación en las regiones N/A N/A N/A Nordeste N/A N/A N/A N/A N/A N/A
Autor: Caleb Yanez

7.1 Conclusiones

7.2 Análisis Descriptivo

La región Nordeste presenta la moda de la distribución, lo que significa que es la región con mayor concentración de pozos petrolíferos en el país, reflejando su relevancia histórica y geográfica en el desarrollo de la industria petrolera brasileña.