ANÁLISIS ESTADÍSTICO

1. CARGA DE DATOS Y LIBRERÍAS

#==============================ENCABEZADO================================
# TEMA: ESTADÍSTICA DESCRIPTIVA - CUENCA
# AUTOR: GRUPO 2
# FECHA: 04-2026
#========================================================================
library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(gt)
library(knitr)
setwd("C:/Users/HP/Documents/PROYECTO ESTADISTICA/RStudio")
datos <- read.csv("tablap.csv", header = TRUE, dec = ",", sep = ";")

2. TABLA DE DISTRIBUCION

cuenca_var <- datos$Basin 
ni <- table(cuenca_var)
hi <- round(prop.table(ni) * 100, 2) 
tabla_base <- data.frame(Cuenca = names(ni), ni = as.numeric(ni), hi = as.numeric(hi))
fila_total <- data.frame(Cuenca = "TOTAL", ni = sum(tabla_base$ni), hi = round(sum(tabla_base$hi)))
tabla_final_c <- rbind(tabla_base, fila_total)

tabla_gt <- tabla_final_c %>% 
  gt() %>%
  cols_label(
    Cuenca = "Cuenca",
    ni = "ni",
    hi = "hi (%)"
  ) %>%
  tab_header(
    title = md("Tabla N° 1. Distribución por Cuenca de los pozos de gas natural")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "lightgray"),
      cell_text(weight = "bold")
    ),
    locations = cells_body(
      rows = Cuenca == "TOTAL"
    )
  ) %>%
  cols_align(
    align = "center",
    columns = c(ni, hi)
  ) %>%
  tab_options(
    table.width = pct(80),
    heading.title.font.size = px(20),
    heading.title.font.weight = "bold",
    table.font.names = "Open Sans",
    column_labels.font.weight = "bold"
  )
tabla_gt
Tabla N° 1. Distribución por Cuenca de los pozos de gas natural
Cuenca ni hi (%)
Permian 3277 26.09
Rotan Ski 655 5.21
San Juan 8629 68.70
TOTAL 12561 100.00

3. GRAFICAS DE DISTRIBUCION

color_barras_abs <- "#76D7C4" 
color_barras_rel <- "#F1948A"

barplot(ni, 
        main = "Gráfica Nº 1: Distribución de cantidad de las cuencas",
        xlab = "Cuenca", ylab = "Cantidad (ni)", 
        col = color_barras_abs, border = "white",
        ylim = c(0, max(ni)))

barplot(ni, 
        main = "Gráfica Nº 2: Distribución de cantidad de las cuencas",
        xlab = "Cuenca", ylab = "Cantidad (ni)", 
        col = color_barras_abs, border = "white",
        ylim = c(0, 12561))

hi_local <- as.numeric(tabla_final_c$hi[1:(nrow(tabla_final_c)-1)])
barplot(hi_local, 
        main = "Gráfica Nº 3: Distribución de cantidad en porcentaje de las cuencas",
        xlab = "Cuenca", ylab = "Porcentaje (%)", 
        col = color_barras_rel, border = "white",
        names.arg = tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)])

barplot(hi_local, 
        main = "Gráfica Nº 4: Distribución de cantidad en porcentaje de las cuencas",
        xlab = "Cuenca", ylab = "Porcentaje (%)", 
        col = color_barras_rel, border = "white",
        names.arg = tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)],
        ylim = c(0, 100))

hi_TD <- as.numeric(tabla_final_c$hi[1:(nrow(tabla_final_c)-1)])
TD <- tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)]

Colores <- colorRampPalette(c("#82E0AA", "#F8C471", "#BB8FCE"))
etiquetas <- paste0(round(hi_TD), "%")
pie(
  hi_TD,
  radius = 1.0,
  col = Colores(length(hi_TD)),
  labels = etiquetas,
  main = "Gráfica Nº 5: Distribución de cantidad en porcentaje de las cuencas",
  cex.main = 1.1,
  border = "white"
)

legend(
  "bottomright",
  title = "Cuencas",
  legend = TD,
  fill = Colores(length(hi_TD)),
  cex = 1.2,
  bty = "n"
)

4. TABLA DE INDICADORES ESTADISTICOS

cuenca_limpia <- as.character(cuenca_var)
cuenca_limpia <- cuenca_limpia[!is.na(cuenca_limpia)]
tabla_cuenca <- table(cuenca_limpia)
moda_c <- names(tabla_cuenca)[which.max(as.numeric(tabla_cuenca))]

Variable <- c("Cuenca")
TablaIndicadores <- data.frame(Variable, Moda = moda_c)

tabla_indicadores_gt <- TablaIndicadores %>%
  gt() %>%
  tab_header(
    title = md("Tabla N° 2. Indicadores estadísticos de la variable cuenca")
  ) %>%
  cols_align(
    align = "center",
    columns = everything()
  ) %>%
  tab_options(
    table.width = pct(60), 
    column_labels.font.weight = "bold",
    table.font.names = "Open Sans"
  )

tabla_indicadores_gt
Tabla N° 2. Indicadores estadísticos de la variable cuenca
Variable Moda
Cuenca San Juan

5. CONCLUSIÓN

cat("La variable Cuenca tiene como valor más frecuente", moda_c, ". Lo cual resulta favorable para el análisis de operatividad, ya que permite concentrar los esfuerzos de optimización y modelos predictivos en la zona con mayor densidad de pozos, maximizando la representatividad de los datos en la región.")
## La variable Cuenca tiene como valor más frecuente San Juan . Lo cual resulta favorable para el análisis de operatividad, ya que permite concentrar los esfuerzos de optimización y modelos predictivos en la zona con mayor densidad de pozos, maximizando la representatividad de los datos en la región.