#------------------ UNIVERSIDAD CENTRAL DEL ECUADOR
##-----Facultad de Ingeniería en Geología, Minas, Petróleo y Ambiental 
###-----------------Carrera de Ingeniería Ambiental

# Proyecto: Estudio de Residuos y Reciclaje en la India
# Etapa: Estadistica Inferencial
# Integrantes: Jazmin Guañuna, Nayely Perugachi, Helen Taipe, Gabriela Usiña
# Fecha: 12/7/2025

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
datos <- read.csv("Residuos (1).csv", header = TRUE, sep = ";", dec = ".")

# Filtrar año 2023
datos_2023 <- datos %>% 
  filter(Year == 2023)

# 1. Selección de 2 variables 
# Calcular promedios por ciudad
promedios_ciudad <- datos_2023 %>%
  group_by(City.District) %>%
  summarise(
    x = mean(Waste.Generated..Tons.Day., na.rm = TRUE),      # x: residuos
    y = mean(Population.Density..People.km.., na.rm = TRUE)  # y: densidad
  )

# Verificar
head(promedios_ciudad)
## # A tibble: 6 × 3
##   City.District     x     y
##   <chr>         <dbl> <dbl>
## 1 Agra          4630.  4629
## 2 Ahmedabad     6563.  9464
## 3 Allahabad     6150. 19181
## 4 Amritsar      5326. 12612
## 5 Bengaluru     5826. 18195
## 6 Bhopal        5846.  4071
# 4. Gráfica
plot(promedios_ciudad$x, promedios_ciudad$y,
     main = "Gráfica No.125: Diagrama de Dispersión entre Residuos Generados y 
     Densidad Poblacional en el 2023",
     xlab = "Residuos Generados (Tons/Día)",
     ylab = "Densidad Poblacional (habitantes/km²)",
     pch = 19, col = "blue")

datos_exp <- promedios_ciudad %>%
  filter(x > 2000, x < 4000)

datos_exp <- datos_exp %>%
  filter(y > 0)

# 6. Cálculo de parámetros
regresionExponencial <- lm(log(y) ~ x, data = datos_exp)
regresionExponencial
## 
## Call:
## lm(formula = log(y) ~ x, data = datos_exp)
## 
## Coefficients:
## (Intercept)            x  
##   7.4158090    0.0005541
summary(regresionExponencial)
## 
## Call:
## lm(formula = log(y) ~ x, data = datos_exp)
## 
## Residuals:
##       1       2       3       4 
## -0.2556 -0.2183  0.2138  0.2601 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 7.4158090  0.9085735   8.162   0.0147 *
## x           0.0005541  0.0002871   1.930   0.1933  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3365 on 2 degrees of freedom
## Multiple R-squared:  0.6507, Adjusted R-squared:  0.4761 
## F-statistic: 3.726 on 1 and 2 DF,  p-value: 0.1933
b <- coef(regresionExponencial)[2]
log_a <- coef(regresionExponencial)[1]
a <- exp(log_a)
a
## (Intercept) 
##    1662.053
# Ecuación 
cat("Modelo exponencial: y =", round(a, 3), "* e^(", round(b, 6), "* x)\n")
## Modelo exponencial: y = 1662.053 * e^( 0.000554 * x)
plot(datos_exp$x, datos_exp$y,
     main = "Gráfica No.126: Dispersión de Pares de Puntos en el Intervalo 
     Definido entre Residuos Generados y Densidad Poblacional ",
     xlab = "Residuos Generados (Tons/Día)",
     ylab = "Densidad Poblacional (hab/km²)",
     pch = 19, col = "blue", ylim = c(4000, 20000),
     xlim=c(1500,4200))

# 7. Graficar la curva
plot(datos_exp$x, datos_exp$y,
     main = "Gráfica No.127: Modelo y Realidad en el Intervalo Definido entre 
     Residuos Generados y Densidad Poblacional",
     xlab = "Residuos Generados (Tons/Día)",
     ylab = "Densidad Poblacional (hab/km²)",
     pch = 19, col = "blue", ylim = c(4000, 20000),
     xlim=c(1500,4200))
curve(a*exp(b*x), add= T, col="red")

# 8. Tests - Pearson
r <- cor(datos_exp$x, datos_exp$y, method = "pearson")
cat("Coeficiente de correlación de Pearson:", round(r, 4), "\n")
## Coeficiente de correlación de Pearson: 0.8209
# 9. Restricciones
#El modelo solo funciona para valores de x entre 2000 y 4000 (Ton/día)
#Dentro del intervalo no existen restricciones

# 11. Estimaciones
yEst <- 1662.053*exp(0.000554*1000)
yEst
## [1] 2892.304
# 12. Conclusión
# En el intervalo entre los residuos generados y la densidad poblacional de 
# la India existe una relación de tipo exponencial, representado por:

#         ŷ = 1662.053 * e^(0.000554 * x) 

# Siendo x los residuos generados en toneladas al día y ŷ la densidad poblacional 
# en personas por km^2, dentro del intervalo seleccionado no existe restricciones.

# Se espera que, cuando se tengan 1000 toneladas/día se obtenga una densidad 
# poblacional de 2892.304 personas/km^2.")