ANÁLISIS ESTADÍSTICO
1. CARGA DE DATOS Y LIBRERÍAS
#==============================ENCABEZADO================================
# TEMA: ESTADÍSTICA DESCRIPTIVA - CUENCA
# AUTOR: GRUPO 2
# FECHA: 04-2026
#========================================================================
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(gt)
library(knitr)
setwd("C:/Users/HP/Documents/PROYECTO ESTADISTICA/RStudio")
datos <- read.csv("tablap.csv", header = TRUE, dec = ",", sep = ";")
2. TABLA DE DISTRIBUCION
cuenca_var <- datos$Basin
ni <- table(cuenca_var)
hi <- round(prop.table(ni) * 100, 2)
tabla_base <- data.frame(Cuenca = names(ni), ni = as.numeric(ni), hi = as.numeric(hi))
fila_total <- data.frame(Cuenca = "TOTAL", ni = sum(tabla_base$ni), hi = round(sum(tabla_base$hi)))
tabla_final_c <- rbind(tabla_base, fila_total)
tabla_gt <- tabla_final_c %>%
gt() %>%
cols_label(
Cuenca = "Cuenca",
ni = "ni",
hi = "hi (%)"
) %>%
tab_header(
title = md("Tabla N° 1. Distribución por Cuenca de los pozos de gas natural")
) %>%
tab_style(
style = list(
cell_fill(color = "lightgray"),
cell_text(weight = "bold")
),
locations = cells_body(
rows = Cuenca == "TOTAL"
)
) %>%
cols_align(
align = "center",
columns = c(ni, hi)
) %>%
tab_options(
table.width = pct(80),
heading.title.font.size = px(20),
heading.title.font.weight = "bold",
table.font.names = "Open Sans",
column_labels.font.weight = "bold"
)
tabla_gt
| Tabla N° 1. Distribución por Cuenca de los pozos de gas natural |
| Cuenca |
ni |
hi (%) |
| Permian |
3277 |
26.09 |
| Rotan Ski |
655 |
5.21 |
| San Juan |
8629 |
68.70 |
| TOTAL |
12561 |
100.00 |
3. GRAFICAS DE DISTRIBUCION
color_barras_abs <- "#76D7C4"
color_barras_rel <- "#F1948A"
barplot(ni,
main = "Gráfica Nº 1: Distribución de cantidad de las cuencas",
xlab = "Cuenca", ylab = "Cantidad (ni)",
col = color_barras_abs, border = "white",
ylim = c(0, max(ni)))

barplot(ni,
main = "Gráfica Nº 2: Distribución de cantidad de las cuencas",
xlab = "Cuenca", ylab = "Cantidad (ni)",
col = color_barras_abs, border = "white",
ylim = c(0, 12561))

hi_local <- as.numeric(tabla_final_c$hi[1:(nrow(tabla_final_c)-1)])
barplot(hi_local,
main = "Gráfica Nº 3: Distribución de cantidad en porcentaje de las cuencas",
xlab = "Cuenca", ylab = "Porcentaje (%)",
col = color_barras_rel, border = "white",
names.arg = tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)])

barplot(hi_local,
main = "Gráfica Nº 4: Distribución de cantidad en porcentaje de las cuencas",
xlab = "Cuenca", ylab = "Porcentaje (%)",
col = color_barras_rel, border = "white",
names.arg = tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)],
ylim = c(0, 100))

hi_TD <- as.numeric(tabla_final_c$hi[1:(nrow(tabla_final_c)-1)])
TD <- tabla_final_c$Cuenca[1:(nrow(tabla_final_c)-1)]
Colores <- colorRampPalette(c("#82E0AA", "#F8C471", "#BB8FCE"))
etiquetas <- paste0(round(hi_TD), "%")
pie(
hi_TD,
radius = 1.0,
col = Colores(length(hi_TD)),
labels = etiquetas,
main = "Gráfica Nº 5: Distribución de cantidad en porcentaje de las cuencas",
cex.main = 1.1,
border = "white"
)
legend(
"bottomright",
title = "Cuencas",
legend = TD,
fill = Colores(length(hi_TD)),
cex = 1.2,
bty = "n"
)

4. TABLA DE INDICADORES ESTADISTICOS
cuenca_limpia <- as.character(cuenca_var)
cuenca_limpia <- cuenca_limpia[!is.na(cuenca_limpia)]
tabla_cuenca <- table(cuenca_limpia)
moda_c <- names(tabla_cuenca)[which.max(as.numeric(tabla_cuenca))]
Variable <- c("Cuenca")
TablaIndicadores <- data.frame(Variable, Moda = moda_c)
tabla_indicadores_gt <- TablaIndicadores %>%
gt() %>%
tab_header(
title = md("Tabla N° 2. Indicadores estadísticos de la variable cuenca")
) %>%
cols_align(
align = "center",
columns = everything()
) %>%
tab_options(
table.width = pct(60),
column_labels.font.weight = "bold",
table.font.names = "Open Sans"
)
tabla_indicadores_gt
| Tabla N° 2. Indicadores estadísticos de la variable cuenca |
| Variable |
Moda |
| Cuenca |
San Juan |
5. CONCLUSIÓN
cat("La variable Cuenca tiene como valor más frecuente", moda_c, ". Lo cual resulta favorable para el análisis de operatividad, ya que permite concentrar los esfuerzos de optimización y modelos predictivos en la zona con mayor densidad de pozos, maximizando la representatividad de los datos en la región.")
## La variable Cuenca tiene como valor más frecuente San Juan . Lo cual resulta favorable para el análisis de operatividad, ya que permite concentrar los esfuerzos de optimización y modelos predictivos en la zona con mayor densidad de pozos, maximizando la representatividad de los datos en la región.