#REGRESION LINEAL
setwd("~/")
# CARGA DE DATOS
datos <- read.csv("DATOS.csv", header = TRUE, sep = ";", dec = ".")
# EXTRAER VARIABLES
recuperacion_agua_producida <- datos$Edicion_Recuperacion_agua_producida
liberacion_agua_producida <- datos$Liberacion_agua_de_produccion_edicion
# COMBINAR Y LIMPIAR VALORES NA
df <- data.frame(recuperacion_agua_producida, liberacion_agua_producida)
df <- na.omit(df)
# --- PASO: ELIMINAR FILAS CON VALORES CERO EN LAS VARIABLES DE INTERÉS ---
df_filtrado <- df[df$recuperacion_agua_producida > 0 & df$liberacion_agua_producida > 0, ]
# DEFINIR VARIABLES YA FILTRADAS
x <- df_filtrado$recuperacion_agua_producida
y <- df_filtrado$liberacion_agua_producida
# MODELO DE REGRESIÓN LINEAL (con variables originales pero filtradas)
modelo <- lm(y ~ x)
summary(modelo)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -120733 -2883 -2684 -1851 475788
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.836e+03 2.139e+02 13.26 <2e-16 ***
## x 1.035e+00 3.943e-03 262.41 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16830 on 6481 degrees of freedom
## Multiple R-squared: 0.914, Adjusted R-squared: 0.914
## F-statistic: 6.886e+04 on 1 and 6481 DF, p-value: < 2.2e-16
# GRÁFICO DE DISPERSIÓN + LÍNEA DE REGRESIÓN (con variables originales filtradas)
plot(x, y,
col = 4,
pch = 7,
main = "Gráfica: Regresión Lineal",
xlab = "Recuperación de Agua Producida",
ylab = "Liberación de Agua de Producción",
xlim = c(0, 1500000),
ylim = c(0, 1500000))
abline(modelo, col = "red", lwd = 2)

# R Y R^2 MANUAL (con variables originales filtradas)
r <- cor(x, y)
r2 <- r^2 * 100
cat("\n--- R² (%) ---\n")
##
## --- R² (%) ---
print(r2)
## [1] 91.39784
#FÓRMULA DEL MODELO DE REGRESION ES: y=2836+1.035x
x <- 15000
y = 2836+1.035*x
y
## [1] 18361
#Esto nos muestra que si se recuperan 15,000 unidades de agua producida, se esperaría una Liberación de Agua de Producción de aproximadamente 18,361 unidades.
#CONCLUSIÓN
#El coeficiente de determinación (R^2) del 91.40% indica que este modelo lineal explica una muy alta proporción de la variabilidad en la liberación de agua producida.
#Este modelo proporciona una representación clara y altamente predictiva de cómo la Recuperación de Agua Producida se relaciona con la cantidad de Liberación de Agua de Producción.