ANÁLISIS ESTADÍSTICO

1. CARGA DE DATOS Y LIBRERÍAS

# 1. CARGA DE DATOS Y LIBRERÍAS
library(knitr)
library(dplyr)

setwd("C:/Users/HP/Documents/PROYECTO ESTADISTICA/RStudio")
datos <- read.csv("tablap.csv", header = TRUE, dec = ",", sep = ";")

2. TABLA DE DISTRIBUCION DE PROBABILIDAD

Cuenca_Raw <- datos$Basin
Cuenca_Limpia <- ifelse(
  is.na(Cuenca_Raw) | trimws(Cuenca_Raw) == "",
  "Sin Registro",
  trimws(Cuenca_Raw)
)
CUENCA <- factor(Cuenca_Limpia)

TablaCUENCA <- as.data.frame(table(CUENCA))
colnames(TablaCUENCA) <- c("CUENCA", "ni")
TablaCUENCA$hi <- round(TablaCUENCA$ni / sum(TablaCUENCA$ni), 4)
TablaCUENCA$P  <- round(TablaCUENCA$hi * 100, 2)
Total <- data.frame(
  CUENCA = "TOTAL",
  ni = sum(TablaCUENCA$ni),
  hi = sum(TablaCUENCA$hi),
  P  = sum(TablaCUENCA$P)
)

# Tabla final
TablaFinalC <- rbind(TablaCUENCA, Total)
kable(TablaFinalC, format = "markdown", 
      caption = "Tabla N° 1: Distribución de probabilidad por Cuenca")
Tabla N° 1: Distribución de probabilidad por Cuenca
CUENCA ni hi P
Permian 3277 0.2609 26.09
Rotan Ski 655 0.0521 5.21
San Juan 8629 0.6870 68.70
TOTAL 12561 1.0000 100.00

3. GRAFICO DE DISTRIBUCION DE PROBABILIDAD

P_global <- as.numeric(TablaFinalC$P[1:(nrow(TablaFinalC)-1)])
Nombres_C <- TablaFinalC$CUENCA[1:(nrow(TablaFinalC)-1)]

color_barras_abs <- "#76D7C4" 

barplot(
  P_global,
  main = "Gráfica Nº1: Distribución de probabilidad de las cuencas de gas natural",
  cex.main = 0.9,
  xlab = "Cuenca",
  ylab = "Probabilidad (%)",
  col = color_barras_abs,
  names.arg = Nombres_C,
  cex.names = 0.7,
  ylim = c(0, 100),
  las = 1
)

4. CALCULO DE PROBABILIDAD

5. CONCLUSION

## Los resultados muestran que la cuenca San Juan presenta la mayor probabilidad de actividad de pozos, 
## con un 68.7%.