title: “Tarea 3” author: “Valentina Keyer, Trinidad Castro, Andrea Fernandez” date: “29/4/2021” output: html_document —

1.Limpie el environment y cargue los paquetes necesarios para trabajar.

rm(list=ls())



install.packages("ggplot2") 
install.packages("plotly") 
install.packages("RColorBrewer")
install.packages("janitor") 
install.packages("tidyverse")
install.packages("contrib.url Execution halted")
library(data.table)
library(ggplot2)
library(janitor)
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test
library(plotly)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
library(RColorBrewer)
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ tibble  3.1.0     ✓ dplyr   1.0.5
## ✓ tidyr   1.1.3     ✓ stringr 1.4.0
## ✓ readr   1.4.0     ✓ forcats 0.5.1
## ✓ purrr   0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::between()   masks data.table::between()
## x dplyr::filter()    masks plotly::filter(), stats::filter()
## x dplyr::first()     masks data.table::first()
## x dplyr::lag()       masks stats::lag()
## x dplyr::last()      masks data.table::last()
## x purrr::transpose() masks data.table::transpose()

2.Cargue la base de datos de hogares de la Encuesta Origen y Destino. Debe utilizar el encoding Latin-1 para que se lean los tílde.

Hogares<- fread('Base_Hogares.csv',encoding = 'Latin-1')

3.Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000.

Hogares_ingreso_menor<- Hogares [IngresoHogar<2000000]
 ggplot(data= Hogares_ingreso_menor,aes(x=IngresoHogar))+geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

4.Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona.

ingprom<- Hogares[,mean(IngresoHogar), by='Macrozona']

5.Realice un gráfico que permita ver el ingreso promedio de los hogares por macro-zona.

ggplot(data=ingprom,aes(x=Macrozona, y=V1))+ geom_point()

6.Agregar etiquetas a los ejes, título, subtítulo y fuente al gráfico anterior. Además, deje de manera legible las categorías del eje x.

ggplot(data=ingprom,aes(x=Macrozona, y=V1,text=paste('Macrozona:',Macrozona)))+ geom_point()+ labs(x='Ingreso promedio',y='Macrozona',title='Ingreso promedio de los hogares', subtitle='Por Macrozona', caption= 'Fuente: Encuesta origen y destino')

7.Cargue la base de datos de locales hamburguesas para analizar donde se encuentra la competencia.

Hamburguesas<- fread('restaurantes.csv',encoding = 'Latin-1')

8.Cree un scatter-plot (gráfico de puntos) con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y), de manera de que los puntos de cada comuna tomen un color distinto.

ggplot(data = Hamburguesas, aes(x=reviews,y=rating, color=COMUNA))+geom_point()

9.Ahora queremos analizar el nivel de competencia que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como: reviews∗rating1000 para cada macrozona. Pista: Considere que el indicador debe ser el promedio para cada macrozona y que debe remover los NA en caso de que existan.

Hamburguesas[,identificador:=reviews*rating/1000]
tabla<- Hamburguesas[,mean(identificador,na.rm=T),by='MacrozonaOrigen1']
Hamburguesas2<-merge(x=Hamburguesas, y=tabla, by='MacrozonaOrigen1')
ggplot(data = Hamburguesas2, aes(x=MacrozonaOrigen1, y=Indicador, color=MacrozonaOrigen1))+ geom_bar(stat ='identity')
names(Hamburguesas2)[11]<-'Indicador'

10.Dado este primer análisis exploratorio, ¿Dónde es más conveniente abrir el nuevo local de hamburguesas? Justifique su respuesta. ¿Qué agregaría/modificaría a este análisis para poder dar una respuesta más robusta?

Dado el primer análisis exploratorio, es más conveniente abrir el nuevo local en Marga Marga o en Playa Ancha puesto que, mientras menor sea el indicador menor debiese ser la competencia ya que, o es menor la competencia por sus bajos raitings o porque hay muy pocos reviews o ambos. A este análisis le agregaría los precios y la cantidad de restaurantes por zona puesto que, con estos datos podemos analizar otors factores que afectan la competencia y de esta manera el estudio de mercado sería más completo y haría que la decisión de donde abrir un nuevo local sea mucho más informada.