UNIVERSIDAD CENTRAL DEL ECUADOR

FIGEMPA- Ingeniería Ambiental

#Estadística multivariable
#Lorien Arcentales 
#31-01-2026
# Carga de datos y paquetes 

library(gt)
library(dplyr)
datos<-read.csv("city_day.csv", header = TRUE, dec = ".",
                sep = ",")

# 1. Seleccionar dos variables
#Quitar valores atipicos
datos$PM10[datos$PM10 == "-"] <- NA
datos$PM2.5[datos$PM2.5 == "-"] <- NA
datos$PM10 <- as.numeric(datos$PM10)
datos$PM2.5 <- as.numeric(datos$PM2.5)
datos <- datos[complete.cases(datos$PM10, datos$PM2.5), ]
Q1_PM10 <- quantile(datos$PM10, 0.25)
Q3_PM10 <- quantile(datos$PM10, 0.75)
IQR_PM10 <- Q3_PM10 - Q1_PM10

Q1_PM25 <- quantile(datos$PM2.5, 0.25)
Q3_PM25 <- quantile(datos$PM2.5, 0.75)
IQR_PM25 <- Q3_PM25 - Q1_PM25

lim_inf_PM10 <- Q1_PM10 - 1.5 * IQR_PM10
lim_sup_PM10 <- Q3_PM10 + 1.5 * IQR_PM10

lim_inf_PM25 <- Q1_PM25 - 1.5 * IQR_PM25
lim_sup_PM25 <- Q3_PM25 + 1.5 * IQR_PM25
datos_filtrados <- datos[
  datos$PM10 >= lim_inf_PM10 & datos$PM10 <= lim_sup_PM10 &
    datos$PM2.5 >= lim_inf_PM25 & datos$PM2.5 <= lim_sup_PM25,
]
# Calculó el valor promedio de PM10 para cada PM2.5, con el fin de reducir la dispersión y analizar la tendencia media de la relación entre ambas variables.

datos_prom <- aggregate(PM10 ~ PM2.5, data = datos_filtrados, mean)

# Causa y efecto: El PM10 representa partículas más grandes que provienen de fuentes como polvo resuspendido, tráfico y actividades industriales; cuando estas partículas se fragmentan por procesos físicos y químicos en la atmósfera, o cuando comparten las mismas fuentes de emisión, se genera un aumento en las partículas más finas (PM2.5). Por ello, un incremento en PM10 suele provocar un incremento en PM2.5, lo que explica que su relación sea más directa y que la gráfica muestre una tendencia más ordenada y cercana a una recta.

y<-datos_prom$PM2.5
x<-datos_prom$PM10

# 2. Tabla pares de valores (TVP)

TVP <-data.frame(x,y)

# 3. Gráfica de dispersión 
plot(x, y,
     main = "Gráfica No1: Diagrama de dispersión entre PM10 y PM2.5 en el
     estudio calidad del aire en la India entre 2015-2020",
     xlab = "PM 10 (µg/m3)",      # Nombre eje X
     ylab = "PM 2.5 (µg/m3)",     # Nombre eje Y
     col = "skyblue",                        # Color de los puntos
     pch = 16,                              # Tipo de punto sólido
     cex = 1.2,                             # Tamaño de los puntos
     cex.main = 1,                          # Tamaño del título
     cex.lab = 1,                           # Tamaño de los ejes
     cex.axis = 0.9,
     xlim = c(0, max(x)*1.05),   
     ylim = c(0, max(y)*1.05))                        

# 4. Conjetura

#La distribución de los puntos sugiere un modelo lineal, ya que a medida que PM10 aumenta, EL PM2.5 también aumenta, mostrando una relación directamente proporcional.Los puntos tienden a alinearse siguiendo una pendiente positiva. Esto indica que se puede ajustar una recta de regresión lineal para describir la relación causa-efecto entre PM10 y PM2.5.

# 5. Cálculo de parámetros modelo lineal
regresionlineal<- lm(y~x)
# Ver los coeficientes (intercepto y pendiente)
intercepto <- coef(regresionlineal)[1]
pendiente  <- coef(regresionlineal)[2]
intercepto
## (Intercept) 
##    1.629971
pendiente
##        x 
## 0.465208
# 6. Gráfica de dispersión modelo-realidad
plot(x, y,
     main = " Gráfica No2:  Regresión lineal entre la PM10 y PM2.5 en el estudio
     calidad del aire en la India entre 2015-2020",
     xlab = "PM 10 (µg/m3)",      # Nombre eje X
     ylab = " PM 2.5 (µg/m3)",     # Nombre eje Y
     col = "skyblue",                        # Color de los puntos
     pch = 16,                              # Tipo de punto sólido
     cex = 1.2,                             # Tamaño de los puntos
     cex.main = 1,                          # Tamaño del título
     cex.lab = 1,                           # Tamaño de los ejes
     cex.axis = 0.9,
     xlim = c(0, max(x)*1.05),   
     ylim = c(0, max(y)*1.05))                        

abline(lm(y ~ x), col = "red", lwd = 2)

# 7. Test de bondad
#Test de Pearson, coeficiente de correlación
r<- cor(x,y)*100
r
## [1] 88.4203
# 8. Coeficiente de determinación muestral
r2<- r^2/100
r2
## [1] 78.1815
# 9. Restricciones
#Dominio [x]: D= {R+^0}
#Dominio [y]: D= {R+^0}
# ¿Existe algún valor en dominio de x que sustituido en el modelo matemático genere un valor en y fuera de su dominio?
#No, no existe un valor del dominio de x (PM10) que, al sustituirse en el modelo matemático, genere un valor de y (PM2.5) fuera de su dominio, siempre que el modelo sea físicamente coherente. Esto se debe a que las concentraciones de material particulado no pueden ser negativas. Un modelo adecuado (por ejemplo, lineal del tipo PM2.5 = a·PM10 + b, con a ≥ 0 y b ≥ 0) garantiza que para cualquier PM10 ≥ 0, el valor estimado de PM2.5 también será ≥ 0, permaneciendo dentro de su dominio. Por tanto, el modelo respeta las restricciones físicas y estadísticas.

# 10. Aplicaciones del modelo
# El material particulado (PM2.5) esperado cuando el material particulado (PM10) es de 100 (µg/m3)
PM2.5_esperado<- 0.465208*100+1.63
PM2.5_esperado
## [1] 48.1508
# 11. Conclusión 
# Entre PM10 (µg/m3) y PM 2.5 (µg/m3) existe la relación tipo lineal cuya ecuación es y=1.629+0.465x siendo y= PM2.5 (µg/m3), x= PM10 (µg/m3); donde el PM2.5 depende en un 78.18% del PM10 y el 21.82% se debe a otros factores.