file.exists("~/INGENIERÍA AMBIENTAL/Semestre 3/Estadística y Probabilidad/Proyecto Eficiencia Energética Aragón/1.Datos")[1] TRUE
Modelos de regresión
file.exists("~/INGENIERÍA AMBIENTAL/Semestre 3/Estadística y Probabilidad/Proyecto Eficiencia Energética Aragón/1.Datos")[1] TRUE
Regresión múltiple lineal
Ahora conoceremos la correlación existente entre una variable dependiente y otro par de variable independientes mediante modelos de regresión, en este caso, es un plano en las tres dimesiones.
Buscamos el directorio de trabajo y cargamos la tabla de datos o el dataset:
setwd("~/INGENIERÍA AMBIENTAL/Semestre 3/Estadística y Probabilidad/Proyecto Eficiencia Energética Aragón/1.Datos")
library(readr)
datos <- read.csv("Edificios_Reales.csv", sep = ";", dec = ".")Verificamos que rstudio nos lea correctamente los datos
nuevo <- data.frame(subset(datos, Superficie_m2 <= 5000 & Superficie_m2 >= 1000 &
Emision_CO2 <= 300 & Emision_CO2 >= 0 & Demanda_energética<500,
select = c(Superficie_m2, Emision_CO2,Demanda_energética)))
str(nuevo)'data.frame': 19317 obs. of 3 variables:
$ Superficie_m2 : num 1893 1893 1893 1893 1893 ...
$ Emision_CO2 : num 35.7 35.7 35.7 35.7 35.7 35.7 35.7 35.7 35.7 35.7 ...
$ Demanda_energética: num 190 190 190 190 190 ...
Depuración realizamos la depuración de los datos para poder observar el conportamiento de las variables en cierto intervalo y poder conjeturar el modelo. En este caso, solo tomamos los valores enteros de la variable independiente y tomamos los valores medios de la variable dependiente para cada valor de la variable independiente. En el último paso, para que se vea de mejor manera la relación de la nube de puntos con el modelo, escogemos un número dado de filas de manera aleatoria para evitar la acumulación de puntos en una sola zona.
library(dplyr)Warning: package 'dplyr' was built under R version 4.4.2
Adjuntando el paquete: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
nuevo <- nuevo %>%
filter(Superficie_m2 == as.integer(Superficie_m2))
######################## Obtener la media de Emision_CO2 por Superficie_m2 #####################################
# Instalar y cargar el paquete dplyr
library(dplyr)
# Usar dplyr para obtener la media de la variable dependiente para cada valor de la variable independiente
datos_media <- nuevo %>%
group_by(Superficie_m2, Demanda_energética) %>% # Se agrega Anio_construccion
summarise(Emision_CO2_media = mean(Emision_CO2, na.rm = TRUE))`summarise()` has grouped output by 'Superficie_m2'. You can override using the
`.groups` argument.
# Filtrar los datos para que Superficie_m2 sea un valor entero y obtener las medias
nuevo <- datos_media %>%
filter(Superficie_m2 == as.integer(Superficie_m2))Verificamos los nuevos intervalos y el tamaño muestral
min<-min(nuevo$Superficie_m2)
max<-max(nuevo$Superficie_m2)
minx<-min(nuevo$Demanda_energética)
maxx<-max(nuevo$Demanda_energética)
miny<-min(nuevo$Emision_CO2_media)
maxy<-max(nuevo$Emision_CO2_media)
n<-length(nuevo$Superficie_m2)
tabla_intervalos<-data.frame(min,max,minx,maxx,miny,maxy,n)
colnames(tabla_intervalos)<-c("Min. X","Máx. X","Min. X2","Máx. X2","Min. Y","Máx.Y","Tamaño muestral")
library(knitr)Warning: package 'knitr' was built under R version 4.4.2
kable(tabla_intervalos, format = "markdown", caption = "Tabla 1. Resumen de depuración")| Min. X | Máx. X | Min. X2 | Máx. X2 | Min. Y | Máx.Y | Tamaño muestral |
|---|---|---|---|---|---|---|
| 1000 | 4980 | 3.62 | 493.8 | 2.72 | 231.5 | 871 |
1) Identificamos la variable dependiente y la independiente y relizamos diagrama de disperción.
y <- nuevo$Emision_CO2_media
x1 <- nuevo$Superficie_m2
x2 <- nuevo$Demanda_energética
length(y)[1] 871
#4. sobreponer el modelo con la realidad
library(scatterplot3d)
regxyz <- scatterplot3d::scatterplot3d(x1,x2,y,main="Gráfica 3.6. Emisiones de CO2 en relación a la Superficie
y la demanda energética",
xlab="Superficie (m2)",
ylab="Demanda energética (KWh/m2*año)",
zlab="Emisión de CO2 (kg)",angle=310,color ="red",
zlim=c(0,150))2)Conjeturamos el modelo de regresión en este caso es un plano en las tres dimensiones, asi que realizamos la regresión para obtener los coeficiente de la ecuación de tipo:
y=ax1+bx2+c
#Parametros
y <- nuevo$Emision_CO2_media
x1 <- nuevo$Superficie_m2
x2 <- nuevo$Demanda_energética
#3.ajuste del modelo y cálculo de parámetros
regresionmultiple <- lm(y~x1+x2)
#4. sobreponer el modelo con la realidad
library(scatterplot3d)
regxyz <- scatterplot3d::scatterplot3d(x1,x2,y,main="Gráfica 3.6. Emisiones de CO2 en relación a la Superficie
y la demanda energética",
xlab="Superficie (m2)",
ylab="Demanda energética (KWh/m2*año)",
zlab="Emisión de CO2 (kg)",angle=310,color ="red",
zlim=c(0,150))
#4. sobreponer el modelo con la realidad
regxyz$plane3d(regresionmultiple) library(scatterplot3d)
regxyz <- scatterplot3d::scatterplot3d(x1,x2,y,main="Gráfica 3.6. Emisiones de CO2 en relación a la Superficie
y la demanda energética",
xlab="Superficie (m2)",
ylab="Demanda energética (KWh/m2*año)",
zlab="Emisión de CO2 (kg)",angle=210,color ="red",
zlim=c(0,150))
#4. sobreponer el modelo con la realidad
regxyz$plane3d(regresionmultiple)library(scatterplot3d)
regxyz <- scatterplot3d::scatterplot3d(x1,x2,y,main="Gráfica 3.6. Emisiones de CO2 en relación a la Superficie
y la demanda energética",
xlab="Superficie (m2)",
ylab="Demanda energética (KWh/m2*año)",
zlab="Emisión de CO2 (kg)",angle=350,color ="red",
zlim=c(0,150))
#4. sobreponer el modelo con la realidad
regxyz$plane3d(regresionmultiple)3) Test de Pearson
Ahora debemos saber la correlación entre las variables de manera lineal:
r <- cor(y,x1+x2)*100
r[1] 1.78733
Como el valor nos da muy bajo, y en la gráfica 3.6. vemos que es una buena regresión para la nube de puntos, entonces analizamos la correlación de las variables por separado:
r1 <- cor(y,x1)*100
r1[1] -6.421967
r_2<-cor(y,x1)^2
r_2[1] 0.004124166
r2 <- cor(y,x2)*100
r2[1] 87.6354
r_3<-cor(y,x2)^2*100
r_3[1] 76.79964
Tabla de resumen
Variables<-c("Superficie", "Consumo Energético","Emisión de CO2")
Unidades<-c("m2","Kwh/m2*año","Kg")
Tipo<-c("Independiente","Independiente","Dependiente")
Test<-c(round(r1,2),round(r2,2)," ")
Correlación<-c(round(r_2,2),round(r_3,2)," ")
Tabla_resumen<-data.frame(Variables,Unidades,Tipo,Test,Correlación)
library(knitr)
kable(Tabla_resumen, format = "markdown", caption = "Tabla 2. Resumen de variables")| Variables | Unidades | Tipo | Test | Correlación |
|---|---|---|---|---|
| Superficie | m2 | Independiente | -6.42 | 0 |
| Consumo Energético | Kwh/m2*año | Independiente | 87.64 | 76.8 |
| Emisión de CO2 | Kg | Dependiente |
4)Restricciones: en este tipo de variables, el dominio de ambas es todos los reales positivos unidos al cero, por lo que no presenta restricciones.
Restricciones=0
5)Cálculo de probabilidades
a<-regresionmultiple$coefficients[2]
a x1
-0.0001005316
b<-regresionmultiple$coefficients[3]
b x2
0.2112165
c<-regresionmultiple$coefficients[1]
c(Intercept)
0.6609215
La ecuación de la regresión es:
y=0.66-0.0001005x1+0.2112165x2
x1<-256.46
x2<-112.23
y<-a*x1+b*x2+c
y x1
24.33997
Entre la Superficie en (m2), el Consumo Energético en (KWh/m2 año) y las Emisiones de CO2 en (Kg) existe una relación de tipo múltiple lineal y su ecuacion es y=0.66-0.0001005x1+0.2112165x2, donde Emisiones de CO2 es mi variable dependiente, la superficie y el consumo energético son mis variables independientes, no presenta restricciones en el conjunto de los reales, y entonces, por ejemplo, si tenemos una superficie de 256.46 m2 y un consumo energético de 112.23(KWh/m2*año), tenemos una emisión de 24.34 Kg de CO2.