#------------------ UNIVERSIDAD CENTRAL DEL ECUADOR
##-----Facultad de Ingeniería en Geología, Minas, Petróleo y Ambiental 
###-----------------Carrera de Ingeniería Ambiental

# Proyecto: Estudio de Residuos y Reciclaje en la India
# Etapa: Estadística Inferencial
# Integrantes: Jazmin Guañuna, Nayely Perugachi, Helen Taipe, Gabriela Usiña
# Fecha: 12/7/2025

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
datos <- read.csv("Residuos (1).csv",header = TRUE, sep = ";", dec = ".")

# Filtrar año 2023
datos_2023 <- datos %>% 
  filter(Year == 2023)

# 1. Selección de 2 variables 
# Calcular promedios por ciudad
promedios_ciudad <- datos_2023 %>%
  group_by(City.District) %>%
  summarise(
    x = mean(Waste.Generated..Tons.Day., na.rm = TRUE),
    y = mean(Population.Density..People.km.., na.rm = TRUE)
  )

# 4. Gráfica
plot(promedios_ciudad$x, promedios_ciudad$y,
     main = "Gráfica No.128: Diagrama de Dispersión entre Residuos Generados y 
     Densidad Poblacional en el 2023",
     xlab = "Residuos Generados (Tons/Día)",
     ylab = "Densidad Poblacional (habitantes/km²)",
     pch = 19, col = "gray60")

subset_intervalo <- promedios_ciudad %>%
  filter(x >= 5800, x <= 7000, y > 15000)

# 6. Cálculo de parámetros
regresionLogaritmica <- lm(y ~ log(x), data = subset_intervalo)
regresionLogaritmica
## 
## Call:
## lm(formula = y ~ log(x), data = subset_intervalo)
## 
## Coefficients:
## (Intercept)       log(x)  
##     -314629        38400
summary(regresionLogaritmica)
## 
## Call:
## lm(formula = y ~ log(x), data = subset_intervalo)
## 
## Residuals:
##       1       2       3       4       5 
## -1202.6  -114.2  -939.1  1741.8   514.1 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  -314629      94383  -3.334   0.0446 *
## log(x)         38400      10778   3.563   0.0377 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1371 on 3 degrees of freedom
## Multiple R-squared:  0.8088, Adjusted R-squared:  0.7451 
## F-statistic: 12.69 on 1 and 3 DF,  p-value: 0.03775
a <- regresionLogaritmica$coefficients[1]
b <- regresionLogaritmica$coefficients[2]

# Ecuación
cat("Modelo logarítmico: y =", round(a, 3), "+", round(b, 3), "* ln(x)\n")
## Modelo logarítmico: y = -314629 + 38400.49 * ln(x)
plot(subset_intervalo$x, subset_intervalo$y,
     main = "Gráfica No. 129: Dispersión de Pares de Puntos en el Intervalo 
     Definido entre Residuos Generados y Densidad Poblacional",
     xlab = "Residuos Generados (Tons/Día)",
     ylab = "Densidad Poblacional (hab/km²)",
     pch = 19, col = "blue",ylim =c(17000,25000), xlim =c(5500,8000))

# 7. Graficar la curva
plot(subset_intervalo$x, subset_intervalo$y,
     main = "Gráfica No. 130: Modelo y Realidad en el Intervalo Definido entre 
     Residuos Generados y Densidad Poblacional",
     xlab = "Residuos Generados (Tons/Día)",
     ylab = "Densidad Poblacional (hab/km²)",
     pch = 19, col = "blue",ylim =c(17000,25000), xlim =c(5500,8000))
curve(a+b*log(x), add= T, col="red")

# 8. Tests - Pearson
r <- cor(subset_intervalo$x, subset_intervalo$y, method = "pearson")
cat("Coeficiente de correlación de Pearson:", round(r, 4), "\n")
## Coeficiente de correlación de Pearson: 0.8949
# 10. Restricciones
# 314629/38400=ln(x)
# 8,19=ln(x)
x=exp(8.19)
x
## [1] 3604.722
# Pero no aplica por estar solo en el intervalo de 5500 a 8000.


# 11. Estimaciones
Pestidmada <- -314629+(38400*log(5000))
Pestidmada
## [1] 12431.22
# 12. Conclusión
# En el intervalo entre los residuos generados y la densidad poblacional de 
# la India existe una relación de tipo logarítmica, representado por:

#        ŷ = -314629 + 38400.49 * ln(x)

# Siendo x los residuos generados en toneladas al día y ŷ la densidad poblacional 
# en personas por km^2. 
# Dentro del intervalo seleccionado no existen restricciones.
# Se espera que cuando se tengan 1000 toneladas/día se obtenga una densidad 
# poblacional de 12431.22 personas/km^2.")