REGRESIÓN MÚLTIPLE

UNIVERSIDAD CENTRAL DEL ECUADOR

FIGEMPA-Ingeniería Ambiental

#Estadística multivariable
#Autor: Lorien Arcentales
#Fecha: 01/02/2026
#Carga de paquetes
library(scatterplot3d)
library(gt)
library(dplyr)
# 1. Seleccionar tres variables

datos<-read.csv("city_day.csv", header = TRUE, dec = ".",
                sep = ",")
limpiar_columna <- function(df, cols) {
  for (col in cols) {
    df[[col]] <- na_if(df[[col]], "-")
    df[[col]] <- as.numeric(df[[col]])
  }
  return(df)
}
datos <- limpiar_columna(datos, c("PM2.5", "PM10", "NO2"))
# Filtrar filas completas
datos_limpios <- datos %>% filter(!is.na(PM2.5) & !is.na(PM10) & !is.na(NO2))

# Asignar variables y=c+bx2+ax1
y  <- datos_limpios$PM2.5
x1 <- datos_limpios$PM10
x2 <- datos_limpios$NO2



#Causa y efecto: En este análisis, PM10 y NO2 actúan como factores que influyen en la concentración de PM2.5 en el aire. Es decir, el aumento de PM10 o NO2 tiende a incrementar los niveles de PM2.5, mostrando que estas partículas y gases contaminantes son causas que determinan el efecto en la contaminación por PM2.5.

# 2. Tabla de tripleta de valores (TTP)

TTP<-data.frame(x1,x2,y)

# 3. Gráfica de dispersión 
regresion<- scatterplot3d(x1,x2,y, main = "Gráfica No1: Diagrama de disperción entre el PM10, PM2.5 y 
 el NO2, en el estudio calidad del aire en la India entre 2015 y 2020",
                          xlab = "PM10 (µg/m3)",ylab = "NO2 (µg/m3)",zlab = " PM2.5 (µg/m3)",
                          color = "blue",pch = 7)

# 4. Conjetura

#La distribución de los puntos muestra un modelo de plano (tipo rampa) porque que el PM2.5 depende simultáneamente del PM10 y el NO2

# 5. Ajuste del modelo
regresionmultiple<- lm(y~x1+x2)
regresionmultiple

## 
## Call:
## lm(formula = y ~ x1 + x2)
## 
## Coefficients:
## (Intercept)           x1           x2  
##     -4.2330       0.4896       0.1362

#Coeficientes
a<-regresionmultiple$coefficients[2]
a

##        x1 
## 0.4896459

b<-regresionmultiple$coefficients[3]
b

##        x2 
## 0.1361545

c<- regresionmultiple$coefficients[1]
c

## (Intercept) 
##   -4.232989

# 6. Gráfica de dispersión modelo-realidad

regresion<- scatterplot3d(x1,x2,y,angle = 225, main = "Gráfica No2: Regresión lineal entre el PM10, PM2.5 y 
 el NO2, en el estudio calidad del aire en la India entre 2015 y 2020 ",
                          xlab = "PM10 (µg/m3)",ylab = "NO2 (µg/m3)",zlab = " PM2.5 (µg/m3)",
                          color = "blue",pch = 7)     

regresion$plane3d(regresionmultiple)

# 7. Test de bondad
#Test de Pearson, coeficiente de correlación
r<- cor(y,x1+x2)*100
r

## [1] 84.72939

# 8. Coeficiente de determinación muestral
r2<- r^2/100
r2

## [1] 71.7907

# 9. Restricciones
#Dominio [x1]: D= {R+^0}
#Dominio [y]: D= {R+^0}
#Dominio [x2]: D= {R+^0} 
# ¿Existe algún valor en dominio de x1,x2 que sustituido en el modelo matemático genere un valor en y fuera de su dominio?
#Si, si existe debido a que el modelo de regresión múltiple para PM2.5 tiene un intercepto negativo, por lo que solo es válido para combinaciones de PM10 y NO2 que cumplan 0.489x1+0.1361x2 >= 4.233 (µg/m3),l modelo no da resultados físicos (negativos) para valores muy bajos de PM10 y NO2, y solo sirve cuando los contaminantes tienen niveles suficientemente altos para que PM2.5 sea positiva.

# 10. Aplicaciones del modelo
# Que PM2.5 espero cuando tenemos un PM10 de 100(µg/m3) y una concentración de 200 (µg/m3) de NO2
PM2.5_esperado<- -4.232989+0.4896459*200+0.1361545*100
PM2.5_esperado

## [1] 107.3116

# 11. Conclusión 
# Entre el PM2.5 (µg/m3), PM10 (µg/m3) y NO2 (µg/m3) existe la relación tipo lineal cuya ecuación es y=  -4.232989 +0.1361545x2+0.4896x1 siendo y= PM2.5 (µg/m3), x2= NO2 (µg/m3) y x1= PM10 (µg/m3),donde existe restricciones y  podemos afirmar que EL PM2.5 esta influenciada en un 84.72% de la concentración de NO2 y PM10, el 15.28% se debe a otros factores. Por ejemplo cuando el PM10 vale 100 (µg/m3) y NO2 200 (µg/m3) obtenemos un PM2.5 de  107.31 (µg/m3), lo  que en si significa muy contaminado pero no extremo