#==============================ENCABEZADO===================================
# TEMA: EI Variables Nominal - CUENCA
# AUTOR: GRUPO 4
# FECHA: 08-02-2026


#======VARIABLE NOMINAL - CUENCA=======

library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
setwd("C:/Users/HP/Documents/PROYECTO ESTADISTICA/RStudio")
datos <- read.csv("tablap.csv", header = TRUE, dec = ",", sep = ";")
#--- PREPARACI??N DE DATOS ---
cuenca_data <- datos$Basin
df_cuenca <- as.data.frame(table(cuenca_data))
names(df_cuenca) <- c("Variable", "ni")

# 1. JUSTIFICACI??N (Se redacta en el informe)

# 2. REALIZAMOS LA TDF (ni, hi)
df_cuenca$hi <- df_cuenca$ni / sum(df_cuenca$ni)
cat("\n--- TABLA DE DISTRIBUCI??N DE FRECUENCIAS ---\n")
## 
## --- TABLA DE DISTRIBUCI??N DE FRECUENCIAS ---
print(df_cuenca)
##    Variable   ni         hi
## 1   Permian 3277 0.26088687
## 2 Rotan Ski  655 0.05214553
## 3  San Juan 8629 0.68696760
# 3. GRAFICA 1: REALIDAD (hi)
barplot(df_cuenca$hi, names.arg = df_cuenca$Variable, col = "darkgreen", 
        main = "Grafica Nro. 1: Distribucion de Cuencas",
        las = 2, cex.names = 0.7, ylim = c(0, max(df_cuenca$hi) + 0.1))

# 4. CONJETURA (Se asocia con el Modelo UNIFORME)

# 5. MODELO Y COMPARACI??N
n_categorias <- nrow(df_cuenca)
p_unif <- rep(1 / n_categorias, n_categorias)

#--- GRAFICA 2: MODELO TEORICO ---
barplot(p_unif, names.arg = df_cuenca$Variable, col = "gold", 
        main = "Grafica Nro. 2: Distribucion de Cuencas",
        las = 2, cex.names = 0.7, ylim = c(0, max(p_unif) + 0.1))

#--- GRAFICA 3: COMPARACI??N REALIDAD VS MODELO ---
max_p <- max(max(df_cuenca$hi), max(p_unif)) + 0.1
barplot(rbind(df_cuenca$hi, p_unif), beside = TRUE, col = c("darkgreen", "gold"),
        main = "Grafica Nro. 3: Distribucion de Cuencas",
        names.arg = df_cuenca$Variable, las = 2, cex.names = 0.7, ylim = c(0, max_p))
legend("topright", legend = c("Realidad", "Modelo"), fill = c("darkgreen", "gold"), bty = "n")

#--- VEREDICTO-----
r_val <- cor(df_cuenca$hi, p_unif)
## Warning in cor(df_cuenca$hi, p_unif): La desviación estándar es cero
chi_calc <- sum(((df_cuenca$hi - p_unif)^2) / p_unif)
valor_critico <- qchisq(0.85, df = n_categorias - 1)

veredicto_tabla <- data.frame(
  Prueba = c("Pearson (r)", "Chi-Cuadrado (X^2)"),
  Valor = c(round(r_val, 4), round(chi_calc, 6)),
  Criterio = c("r >= 0.70", paste("X^2 <", round(valor_critico, 2))),
  Resultado = c(ifelse(!is.na(r_val) && r_val >= 0.7, "APROBADO", "REPROBADO"),
                ifelse(chi_calc < valor_critico, "APROBADO", "REPROBADO"))
)

cat("\n--- VEREDICTO FINAL DEL MODELO ---\n")
## 
## --- VEREDICTO FINAL DEL MODELO ---
print(veredicto_tabla, row.names = FALSE)
##              Prueba    Valor   Criterio Resultado
##         Pearson (r)       NA  r >= 0.70 REPROBADO
##  Chi-Cuadrado (X^2) 0.628117 X^2 < 3.79  APROBADO
# 6. C??LCULO DE PROBABILIDADES
cuenca_ejemplo <- df_cuenca$Variable[1] 
prob_individual <- (1 / n_categorias) * 100

cat("\n--- 6. CALCULO DE PROBABILIDADES ---")
## 
## --- 6. CALCULO DE PROBABILIDADES ---
cat("\nPREGUNTA 1: Si se registra un nuevo pozo, ??cual es la probabilidad de que pertenezca a la cuenca:", as.character(cuenca_ejemplo), "?")
## 
## PREGUNTA 1: Si se registra un nuevo pozo, ??cual es la probabilidad de que pertenezca a la cuenca: Permian ?
cat("\nRESPUESTA: La probabilidad es del", round(prob_individual, 2), "%")
## 
## RESPUESTA: La probabilidad es del 33.33 %
cat("\n\nPREGUNTA 2: ??Cual es la probabilidad de que el pozo NO sea en esa cuenca?")
## 
## 
## PREGUNTA 2: ??Cual es la probabilidad de que el pozo NO sea en esa cuenca?
cat("\nRESPUESTA: La probabilidad es del", round(100 - prob_individual, 2), "%\n")
## 
## RESPUESTA: La probabilidad es del 66.67 %