Tarea 4: Visualizaciones con ggplot2+ rmarkdown

Este control tiene como finalidad evaluar la generación de informes con rmarkdown y visualización de datos con ggplot2. Se evaluará la correcta ejecución del código y el uso eficiente de las herramientas de codificación entregadas.

Formato de rmarkdown

El formato de respuesta es el siguiente:

  1. Antes de la respuesta debes agregar un encabezado de tercer nivel (###) con P y el número de pregunta.
  2. Abajo del encabezado, debe estar escrita la pregunta.
  3. Agregar la línea de código.
  4. Agregar el output de ser necesario.
  5. Si requieres agregar alguna respuesta analítica, agregar al final de la pregunta (después del output).
  6. El título del informe debe tener un encabezado de primer nivel (#) y debe ser: Tarea 4.
  7. En el encabezado YAML deben estar presentes todos los integrantes del grupo.

El formato tiene un puntaje asignado dentro de la nota.

Importante: Deben ser suprimidos los mensajes y warnings del informe.

Ejemplo:

Tarea 4 - Alegría

P1

Graficar la función cuadrática

f2<-data.table(x=c(0:10)^2,y=c(0:10))

ggplot(data=f2,aes(x=x,y=y))+
  geom_line()

Reglas de Envío

  1. Este trabajo debe ser publicado en el rpubs personal de todos los integrantes del grupo.
  2. Se habilitará en webcursos un apartado para que envíen el link de la actividad publicado en su rpubs y el archivo .rmd con el que trabajaron.
  3. El plazo para enviar el link de su actividad es hasta el martes 20 de octubre a las 23:59 hrs.

Local de Hamburguesas V región

Considere un restaurante de hamburguesas que desea abrir un nuevo local en la V región. Para esto, deciden contratarlo/a para hacer un análisis de mercado en la zona y ver cuál es el mejor lugar para inaugurar el local. Por lo tanto, su análisis se basará en visualizaciones de las distintas comunas y macrozonas para poder identificar la localización más conveniente de la nueva sucursal.

P1

Cargue los paquetes necesarios para realizar visualizaciones y trabajar con DT. Además cargue la base hogares de la Encuesta Origen y Destino en formato data.table. (2 puntos)

Pista: utilice encoding Latin-1 para poder leer los tíldes.

library(data.table)
library(ggplot2)

hogares<-fread("Base_Hogares.csv", encoding = "Latin-1")

P2

Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000. (8 puntos)

Bonus: Considere Factorhg como el factor de expansión de los hogares.

ggplot(data=hogares[IngresoHogar<2000000], aes(x=IngresoHogar,weights=Factorhg)) + geom_histogram() + facet_wrap(facets = "Macrozonahg") + theme(axis.text.x = element_text(angle=75, vjust=0.6))

P3

  1. Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona. (5 puntos)

Bonus: Considere Factorhg como el factor de expansión de los hogares.

ingprom<-hogares[,weighted.mean(IngresoHogar,w=Factorhg,na.rm=T),by=Macrozonahg]
  1. Realice un gráfico que permita ver el ingreso promedio de los hogares por macro-zona. (10 puntos)
ggplot(data=ingprom,aes(x=Macrozonahg, y = V1))+
   geom_col()

  1. Agregar etiquetas a los ejes, título, subtítulo y fuente al gráfico anterior. Además, deje de manera legible las categorías del eje x. (7 puntos)
ggplot(data=ingprom,aes(x=Macrozonahg, y = V1))+
  geom_col()+
  labs(x="Zonas", y="Ingresos", title = "Ingresos promedio", subtitle = "Por zona", caption = "Fuente: Encuesta Origen y Destino - Gran Valparaíso 2014" )+
  theme(axis.text.x = element_text(angle=85, vjust=0.6))

P4

Cargue la base de datos de locales hamburguesas para analizar donde se encuentra la competencia. (2 puntos)

local<-fread("restaurantes.csv")

P5

Cree un scatter-plot con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y). (10 puntos)

ggplot(data=local, aes(x=reviews, y=rating)) + geom_point()

P6

Ahora queremos analizar el nivel de competencia que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como \[I_{competencia}= \bar{\frac{(reviews*rating)}{1000}}\] para cada macrozona. (4 puntos)

Pista: Considere que el indicador debe ser el promedio para cada macrozona y que debe remover los NA en caso de que existan.

local[,mean(reviews*rating,na.rm = T)/1000, by=MacrozonaOrigen1]
##     MacrozonaOrigen1        V1
##  1:        Plan Vina 2.4707909
##  2:  Plan Valparaiso 1.9452714
##  3:  Valparaiso Alto 2.1717750
##  4:      Marga-Marga 1.6290000
##  5:  Concon Poniente 2.1308500
##  6:           Renaca 1.3645000
##  7: Quilpue Poniente 0.3294000
##  8:      Playa Ancha 0.0300000
##  9:           Recreo 0.2409333
## 10:      Santa Julia 1.8814000
## 11: Placilla-Curauma 0.0090000
## 12:       El Belloto 0.0070000

P7

  1. Dado este primer análisis exploratorio, ¿dónde es más conveniente abrir el nuevo local de hamburguesas? Justifique su respuesta. (6 puntos)

  2. ¿Qué agregaría/modificaría a este análisis para poder dar una respuesta más robusta? (6 puntos)