R notebooks (Cuadernos de R)

Este es un cuaderno [R Markdown] (http://rmarkdown.rstudio.com). Cuando ejecuta código dentro del cuaderno, los resultados aparecen debajo del código.

Intente ejecutar este fragmento haciendo clic en el botón Run dentro del fragmento o colocando el cursor dentro de él y presionando Ctrl+ Mayús +Enter.

5 + 3

Agregue un nuevo fragmento haciendo clic en el botón Insert chunk en la barra de herramientas o presionando Ctrl+Alt+I.

Cuando guarde el cuaderno, un archivo HTML que contiene el código y la salida se guardará junto a él (haga clic en el botón Preview o presione Ctrl + Mayús + K para obtener una vista previa del archivo HTML).

La vista previa muestra una copia HTML renderizada del contenido del editor. En consecuencia, a diferencia de Knit, Preview no ejecuta ningún fragmento de código R. En su lugar, se muestra la salida del fragmento cuando se ejecutó por última vez en el editor.

Ahora, resolvamos el caso de estudio.

Paquetes Requeridos

Antes de correr estos paquetes, instalelos por favor:

library(dplyr)
library(readxl)
library(ggplot2)
library(Hmisc)
library(RcmdrMisc)

Ahora, establecemos el tema clásico:

theme_set(theme_classic())

Introducción

Contexto del problema

La sostenibilidad es la capacidad de la humanidad para convivir con la naturaleza sin alterar su homeostasis. Una acción que contribuye enormemente a lograrlo es el ahorro energético. Por esta razón, el rendimiento energético de los edificios es un campo de investigación activo. Algunos informes oficiales sugieren que el consumo de energía al alza ha aumentado en los últimos años debido al uso de calefacción, refrigeración y ventilación en interiores.

Contexto analítico

Suponga que es contratado como ingeniero en una empresa consultora para una Oficina de Urbanismo y su cliente está interesado en estudiar el impacto de la geometría del edificio en el consumo de energía para el aire acondicionado en interiores. Con este resultado, redactarían políticas y regulaciones para gobernar la construcción de nuevos edificios.

Estás a cargo de la EDA. Tu objetivo será:

  1. Extraer y la información relevante de los datos. Deberá manipular varios conjuntos de datos para obtener información útil para el caso.

  2. Realizar análisis de datos exploratorios. Tendrá que crear gráficos significativos y estudiar la relación entre varias características de los edificios existentes.

Los datos

El conjunto de datos se obtiene de una simulación de edificios de 771,75 \(m^3\). Este contiene ocho características y dos variables de respuesta (resultados), indicadas por (outcomes), y1ey2`, como sigue:

En los datos se encuentran cinco escenarios de distribución diferentes para cada área de acristalamiento: (1) uniforme: con un 25% de acristalamiento en cada lado, (2) norte: 55% en el lado norte y 15% en cada uno de los otros lados, (3) este: 55% en el lado este y 15% en cada uno de los otros lados, (4) sur: 55% en el lado sur y 15% en cada uno de los otros lados, y (5) oeste: 55% en el oeste lado y 15% en cada uno de los otros lados. (0) parece ser para edificios sin vidrios.

Echemos un vistazo al marco de datos:

buildings <- read_xlsx(path='ENB2012_data.xlsx', sheet=1)
head(buildings)

y también mira dentro:

str(buildings)
buildings$X2

Además, podemos ver que se utilizaron tres tipos de áreas de acristalamiento, que se expresan como porcentajes del área del piso: 10%, 25% y 40%.

Ejercicio 0

Hay algunas características categóricas que R ha interpretado como numéricas. Conviértelos en categóricos usando la función factor() y guárdelos en nuevas columnas.

# Code here
buildings$X6_f <- factor(buildings$X6)
buildings$X7_f <- factor(buildings$X7)
buildings$X8_f <- factor(buildings$X8)
head(buildings)

Ejercicio 1

Un conjunto de datos está equilibrado (balanceado) si tiene el mismo (al menos, similar) número de muestras para cada valor de una variable categórica. Examine los datos y determine cuántos puntos de datos hay para cada orientación, cada área de acristalamiento y la distribución de cada área de acristalamiento.

¿Está balanceado el conjunto de datos para la variable área de acristalamiento?

Sugerencia: Utilice la función count () del paquete ** dplyr ** .

# Code here

Eiercicio 2

Utilice el resultado del ejercicio 1 para trazar los resultados para el área de acristalamiento variable. Sugerencia: debes identificar qué gráfico realizar.

# Code here

Ahora, hagamos un análisis marginal, es decir, comparación por parejas.

Eiercicio 3

¿Qué distribución de la superficie acristalada es mejor? Calcule estadísticas resumidas de respuestas por grupos. Tome la característica X8, filtre los marcos de datos para cada valor y calcule las estadísticas de resumen para cada caso. Utilice la función numSummary () de RcmdrMisc.

# Code here

Bonificación (opcional): también puede usar describe () de ** Hmisc ** para calcular estadísticas resumidas. Sugerencia: Para obtener más información sobre describe (), ejecute ?describe después de cargar el paquete ** Hmisc ** .

# Code here

Eiercicio 4

¿Cómo influye la orientación y el área de acristalamiento en el consumo de energía? Utilice diagramas de caja para responder a esta pregunta.

# Code here

Ahora, use otras gráficas para responder a esta pregunta. Sugerencia: en las notas de clase exploramos gráficos básicos. Por favor, sea creativo. Tal vez sea más fácil probar ggplots.

Eiercicio 5

¿Cuál de las características (geométricas) tiene poca influencia en las respuestas? Sugerencia: use la comparación por pares entre las características y las respuestas para dar la respuesta.

# Code here
plot(select(buildings, c(X1:X3,Y1:Y2)))
plot(select(buildings, c(X4:X6,Y1:Y2)))
plot(select(buildings, c(X7:X8,Y1:Y2)))

Conclusión

En base a su análisis, proporcione una respuesta breve: ¿qué configuración permite obtener un edificio más eficiente?

