ANÁLISIS ESTADÍSTICO

1. CARGA DE DATOS Y LIBRERÍAS

                    #==============================ENCABEZADO================================
                    # TEMA: ESTADÍSTICA DESCRIPTIVA - CUENCA
                    # AUTOR: GRUPO 3
                    # FECHA: 03-2026
                    #========================================================================
library(dplyr)
library(gt)
library(knitr)
setwd("C:/Users/HP/Documents/PROYECTO ESTADISTICA/RStudio")
datos <- read.csv("tablap.csv", header = TRUE, dec = ",", sep = ";")

2. TABLA DE DISTRIBUCION

cuenca_var <- datos$Basin 
ni <- table(cuenca_var)
hi <- round(prop.table(ni) * 100, 2) 
tabla_base <- data.frame(Cuenca = names(ni), ni = as.numeric(ni), hi = as.numeric(hi))
fila_total <- data.frame(Cuenca = "TOTAL", ni = sum(tabla_base$ni), hi = round(sum(tabla_base$hi)))
tabla_final_c <- rbind(tabla_base, fila_total)


tabla_gt <- tabla_final_c %>% 
  gt() %>%
  cols_label(
    Cuenca = "Cuenca",
    ni = "ni",
    hi = "hi (%)"
  ) %>%
  tab_header(
    title = md("Tabla N° 1. Distribución por Cuenca de los pozos de gas natural en Nuevo Mexico")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "lightgray"),
      cell_text(weight = "bold")
    ),
    locations = list(
      cells_body(rows = Cuenca == "TOTAL"),
      cells_title(groups = "title")
    )
  ) %>%
  cols_align(
    align = "center",
    columns = c(ni, hi)
  ) %>%
  tab_options(
    table.width = pct(80),
    heading.title.font.size = px(20),
    heading.title.font.weight = "bold",
    table.font.names = "Open Sans",
    column_labels.font.weight = "bold"
  )
tabla_gt
Tabla N° 1. Distribución por Cuenca de los pozos de gas natural en Nuevo Mexico
Cuenca ni hi (%)
Permian 3277 26.09
Rotan Ski 655 5.21
San Juan 8629 68.70
TOTAL 12561 100.00

3. GRAFICAS DE DISTRIBUCION

par(oma = c(1, 1, 1, 1))
color_barras_abs <- "#76D7C4" 
color_barras_rel <- "#F1948A"

barplot(ni, 
        main = "Gráfica Nº 1: Distribucion de cantidad de las Cuencas 
        de  pozos de gas natural en Nuevo Mexico",
        xlab = "Cuenca", ylab = "Cantidad (ni)", 
        col = color_barras_abs, border = "white",
        ylim = c(0, max(ni)))
box(which = "outer", col = "black")

barplot(ni, 
        main = "Gráfica Nº 2: Distribución de cantidad de las Cuencas 
        de  pozos de gas natural en Nuevo Mexico",
        xlab = "Cuenca", ylab = "Cantidad (ni)", 
        col = color_barras_abs, border = "white",
        ylim = c(0, 12561))
box(which = "outer", col = "black")

hi_local <- as.numeric(tabla_final_c$hi[1:(nrow(tabla_final_c)-1)])
barplot(hi_local, 
        main = "Gráfica Nº 3: Distribución de cantidad en porcentaje 
        de las Cuencas de  pozos de gas natural en Nuevo Mexico",
        xlab = "Cuenca", ylab = "Porcentaje (%)", 
        col = color_barras_rel, border = "white",
        names.arg = tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)])
box(which = "outer", col = "black")

barplot(hi_local, 
        main = "Gráfica Nº 4: Distribución de cantidad en porcentaje 
        de las Cuencas de  pozos de gas natural en Nuevo Mexico",
        xlab = "Cuenca", ylab = "Porcentaje (%)", 
        col = color_barras_rel, border = "white",
        names.arg = tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)],
        ylim = c(0, 100))
box(which = "outer", col = "black")

hi_TD <- as.numeric(tabla_final_c$hi[1:(nrow(tabla_final_c)-1)])
TD <- tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)]

Colores <- colorRampPalette(c("#82E0AA", "#F8C471", "#BB8FCE"))
etiquetas <- paste0(round(hi_TD), "%")
pie(
  hi_TD,
  radius = 1.0,
  col = Colores(length(hi_TD)),
  labels = etiquetas,
  main = "Gráfica Nº 5: Distribución de cantidad en porcentaje de las 
  Cuencas de  pozos de gas natural en Nuevo Mexico",
  cex.main = 1.1,
  border = "white"
)

legend(
  "bottomright",
  title = "Cuencas",
  legend = TD,
  fill = Colores(length(hi_TD)),
  cex = 1.2,
  bty = "n"
)
box(which = "outer", col = "black")

4. TABLA DE INDICADORES ESTADISTICOS

cuenca_limpia <- as.character(cuenca_var)
cuenca_limpia <- cuenca_limpia[!is.na(cuenca_limpia)]
tabla_cuenca <- table(cuenca_limpia)
moda_c <- names(tabla_cuenca)[which.max(as.numeric(tabla_cuenca))]
moda_c
## [1] "San Juan"
Variable <- c("Cuenca")
TablaIndicadores <- data.frame(Variable, Moda = moda_c)

tabla_indicadores_gt <- TablaIndicadores %>%
  gt() %>%
  tab_header(
    title = md("Tabla N° 2. Indicadores estadísticos de la variable Cuenca")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "lightgray"),
      cell_text(weight = "bold")
    ),
    locations = cells_title(groups = "title")
  ) %>%
  cols_align(
    align = "center",
    columns = everything()
  ) %>%
  tab_options(
    table.width = pct(60), 
    column_labels.font.weight = "bold",
    table.font.names = "Open Sans"
  )

tabla_indicadores_gt
Tabla N° 2. Indicadores estadísticos de la variable Cuenca
Variable Moda
Cuenca San Juan

5. CONCLUSIÓN

La variable Cuenca tiene como valor más frecuente, San Juan. Lo cual resulta favorable para el análisis de operatividad, ya que permite concentrar los esfuerzos de optimización y modelos predictivos en la zona con mayor densidad de pozos, maximizando la representatividad de los datos en la región.