#REGRESION LINEAL 
setwd("~/") 
# CARGA DE DATOS
datos <- read.csv("DATOS.csv", header = TRUE, sep = ";", dec = ".")

# EXTRAER VARIABLES
recuperacion_agua_producida <- datos$Edicion_Recuperacion_agua_producida
liberacion_agua_producida <- datos$Liberacion_agua_de_produccion_edicion

# COMBINAR Y LIMPIAR VALORES NA
df <- data.frame(recuperacion_agua_producida, liberacion_agua_producida)
df <- na.omit(df)

# --- PASO: ELIMINAR FILAS CON VALORES CERO EN LAS VARIABLES DE INTERÉS ---
df_filtrado <- df[df$recuperacion_agua_producida > 0 & df$liberacion_agua_producida > 0, ]


# DEFINIR VARIABLES YA FILTRADAS 
x <- df_filtrado$recuperacion_agua_producida
y <- df_filtrado$liberacion_agua_producida

# MODELO DE REGRESIÓN LINEAL (con variables originales pero filtradas)
modelo <- lm(y ~ x)
summary(modelo)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -120733   -2883   -2684   -1851  475788 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.836e+03  2.139e+02   13.26   <2e-16 ***
## x           1.035e+00  3.943e-03  262.41   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16830 on 6481 degrees of freedom
## Multiple R-squared:  0.914,  Adjusted R-squared:  0.914 
## F-statistic: 6.886e+04 on 1 and 6481 DF,  p-value: < 2.2e-16
# GRÁFICO DE DISPERSIÓN + LÍNEA DE REGRESIÓN (con variables originales filtradas)
plot(x, y,
     col = 4,
     pch = 7,
     main = "Gráfica: Regresión Lineal",
     xlab = "Recuperación de Agua Producida",
     ylab = "Liberación de Agua de Producción",
     xlim = c(0, 1500000),
     ylim = c(0, 1500000))

abline(modelo, col = "red", lwd = 2)

# R Y R^2 MANUAL (con variables originales filtradas)
r <- cor(x, y)
r2 <- r^2 * 100
cat("\n--- R² (%)  ---\n")
## 
## --- R² (%)  ---
print(r2)
## [1] 91.39784
#FÓRMULA DEL MODELO DE REGRESION ES: y=2836+1.035x

x <- 15000
y = 2836+1.035*x
y
## [1] 18361
#Esto nos muestra que si se recuperan 15,000 unidades de agua producida, se esperaría una Liberación de Agua de Producción de aproximadamente 18,361 unidades.



#CONCLUSIÓN
#El coeficiente de determinación (R^2) del 91.40% indica que este modelo lineal explica una muy alta proporción de la variabilidad en la liberación de agua producida.
#Este modelo proporciona una representación clara y altamente predictiva de cómo la Recuperación de Agua Producida se relaciona con la cantidad de Liberación de Agua de Producción.