#==============================ENCABEZADO===================================
# TEMA: EI Variables Nominal - CUENCA
# AUTOR: GRUPO 4
# FECHA: 08-02-2026
#======VARIABLE NOMINAL - CUENCA=======
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
setwd("C:/Users/HP/Documents/PROYECTO ESTADISTICA/RStudio")
datos <- read.csv("tablap.csv", header = TRUE, dec = ",", sep = ";")
#--- PREPARACI??N DE DATOS ---
cuenca_data <- datos$Basin
df_cuenca <- as.data.frame(table(cuenca_data))
names(df_cuenca) <- c("Variable", "ni")
# 1. JUSTIFICACI??N (Se redacta en el informe)
# 2. REALIZAMOS LA TDF (ni, hi)
df_cuenca$hi <- df_cuenca$ni / sum(df_cuenca$ni)
cat("\n--- TABLA DE DISTRIBUCI??N DE FRECUENCIAS ---\n")
##
## --- TABLA DE DISTRIBUCI??N DE FRECUENCIAS ---
print(df_cuenca)
## Variable ni hi
## 1 Permian 3277 0.26088687
## 2 Rotan Ski 655 0.05214553
## 3 San Juan 8629 0.68696760
# 3. GRAFICA 1: REALIDAD (hi)
barplot(df_cuenca$hi, names.arg = df_cuenca$Variable, col = "darkgreen",
main = "Grafica Nro. 1: Distribucion de Cuencas",
las = 2, cex.names = 0.7, ylim = c(0, max(df_cuenca$hi) + 0.1))

# 4. CONJETURA (Se asocia con el Modelo UNIFORME)
# 5. MODELO Y COMPARACI??N
n_categorias <- nrow(df_cuenca)
p_unif <- rep(1 / n_categorias, n_categorias)
#--- GRAFICA 2: MODELO TEORICO ---
barplot(p_unif, names.arg = df_cuenca$Variable, col = "gold",
main = "Grafica Nro. 2: Distribucion de Cuencas",
las = 2, cex.names = 0.7, ylim = c(0, max(p_unif) + 0.1))

#--- GRAFICA 3: COMPARACI??N REALIDAD VS MODELO ---
max_p <- max(max(df_cuenca$hi), max(p_unif)) + 0.1
barplot(rbind(df_cuenca$hi, p_unif), beside = TRUE, col = c("darkgreen", "gold"),
main = "Grafica Nro. 3: Distribucion de Cuencas",
names.arg = df_cuenca$Variable, las = 2, cex.names = 0.7, ylim = c(0, max_p))
legend("topright", legend = c("Realidad", "Modelo"), fill = c("darkgreen", "gold"), bty = "n")

#--- VEREDICTO-----
r_val <- cor(df_cuenca$hi, p_unif)
## Warning in cor(df_cuenca$hi, p_unif): La desviación estándar es cero
chi_calc <- sum(((df_cuenca$hi - p_unif)^2) / p_unif)
valor_critico <- qchisq(0.85, df = n_categorias - 1)
veredicto_tabla <- data.frame(
Prueba = c("Pearson (r)", "Chi-Cuadrado (X^2)"),
Valor = c(round(r_val, 4), round(chi_calc, 6)),
Criterio = c("r >= 0.70", paste("X^2 <", round(valor_critico, 2))),
Resultado = c(ifelse(!is.na(r_val) && r_val >= 0.7, "APROBADO", "REPROBADO"),
ifelse(chi_calc < valor_critico, "APROBADO", "REPROBADO"))
)
cat("\n--- VEREDICTO FINAL DEL MODELO ---\n")
##
## --- VEREDICTO FINAL DEL MODELO ---
print(veredicto_tabla, row.names = FALSE)
## Prueba Valor Criterio Resultado
## Pearson (r) NA r >= 0.70 REPROBADO
## Chi-Cuadrado (X^2) 0.628117 X^2 < 3.79 APROBADO
# 6. C??LCULO DE PROBABILIDADES
cuenca_ejemplo <- df_cuenca$Variable[1]
prob_individual <- (1 / n_categorias) * 100
cat("\n--- 6. CALCULO DE PROBABILIDADES ---")
##
## --- 6. CALCULO DE PROBABILIDADES ---
cat("\nPREGUNTA 1: Si se registra un nuevo pozo, ??cual es la probabilidad de que pertenezca a la cuenca:", as.character(cuenca_ejemplo), "?")
##
## PREGUNTA 1: Si se registra un nuevo pozo, ??cual es la probabilidad de que pertenezca a la cuenca: Permian ?
cat("\nRESPUESTA: La probabilidad es del", round(prob_individual, 2), "%")
##
## RESPUESTA: La probabilidad es del 33.33 %
cat("\n\nPREGUNTA 2: ??Cual es la probabilidad de que el pozo NO sea en esa cuenca?")
##
##
## PREGUNTA 2: ??Cual es la probabilidad de que el pozo NO sea en esa cuenca?
cat("\nRESPUESTA: La probabilidad es del", round(100 - prob_individual, 2), "%\n")
##
## RESPUESTA: La probabilidad es del 66.67 %