Tarea 3

Pregunta 1) Limpie el environment y cargue los paquetes necesarios para trabajar. (2 puntos)

rm(list=ls())
library(data.table)
library(ggplot2)
library(janitor)

## 
## Attaching package: 'janitor'

## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test

library(plotly)

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

library(RColorBrewer)
library(tidyverse)

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──

## ✓ tibble  3.1.0     ✓ dplyr   1.0.5
## ✓ tidyr   1.1.3     ✓ stringr 1.4.0
## ✓ readr   1.4.0     ✓ forcats 0.5.1
## ✓ purrr   0.3.4

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::between()   masks data.table::between()
## x dplyr::filter()    masks plotly::filter(), stats::filter()
## x dplyr::first()     masks data.table::first()
## x dplyr::lag()       masks stats::lag()
## x dplyr::last()      masks data.table::last()
## x purrr::transpose() masks data.table::transpose()

Pregunta 2) Cargue la base de datos de hogares de la Encuesta Origen y Destino. Debe utilizar el encoding Latin-1 para que se lean los tílde.

Hogares = fread("/Users/hassansantiago/Desktop/uai/data science/Tarea 3/Base_Hogares.csv", encoding = "Latin-1")

Pregunta 3) Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000

ggplot(Hogares[IngresoHogar<2000000], aes(x=IngresoHogar, fill=Macrozonahg)) + 
  geom_histogram(bins=120, ) +
  labs( x="Ingresos por hogar", y="Cantidad", title="Ingresos de Hogar por Macrozonas", caption = "Fuente: Encuesta Origen y Destino") +
  facet_wrap(facets = "comunahg")

Pregunta 4) Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona. (5 puntos)

ingprom = Hogares[,mean(IngresoHogar), by= Macrozonahg]
show(ingprom)

##                Macrozonahg        V1
##  1:            Playa Ancha  519674.1
##  2:   Viña del Mar Oriente  579780.9
##  3:        Concón Poniente 1154565.8
##  4:        Plan Valparaíso  681613.8
##  5:        Valparaíso Alto  517233.5
##  6:         Barón-Placeres  551315.7
##  7:                 Recreo  930907.6
##  8:             Miraflores  775608.6
##  9:                 Reñaca 1903325.6
## 10:       Quilpué Poniente  697141.0
## 11:            Quilpué Sur  732888.1
## 12:             El Belloto  678679.7
## 13: Villa Alemana Poniente  535134.2
## 14:    Villa Alemana Norte  582355.2
## 15:       El Belloto Norte  577247.3
## 16:       Placilla-Curauma  908328.8
## 17:              Rodelillo  520192.5
## 18:            Marga-Marga 1328764.2
## 19:               Forestal  693756.1
## 20:              Plan Viña  915722.5
## 21:            Santa Julia  680298.9
## 22:         Concón Oriente  974574.7
## 23:          Quilpué Norte  891992.3
## 24:             Peñablanca  856103.4
##                Macrozonahg        V1

Pregunta 5) Realice un gráfico que permita ver el ingreso promedio de los hogares por macro-zona. (10 puntos)

ggplot(data=ingprom, aes(x=Macrozonahg, y=V1)) + geom_col()

Pregunta 6) Agregar etiquetas a los ejes, título, subtítulo y fuente al gráfico anterior. Además, deje de manera legible las categorías del eje x. (7 puntos)

ggplot(data=ingprom, aes(x=Macrozonahg, y=V1)) + geom_col() + labs(x= "zonas", y="promedios de ingreso", title = "promedio de ingresos", subtitle = "por macrozonas del gran Valparaiso", caption = "fuente: csv de la clase")

Pregunta 7) Cargue la base de datos de locales hamburguesas para analizar donde se encuentra la competencia. (2 puntos)

restaurantes <- fread("/Users/hassansantiago/Desktop/uai/data science/Tarea 3/restaurantes.csv", encoding = "Latin-1")

Pregunta 8) Cree un scatter-plot (gráfico de puntos) con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y), de manera de que los puntos de cada comuna tomen un color distinto. (10 puntos)

ggplot(data= restaurantes,aes(x= reviews, y= rating, color= COMUNA)) +geom_point() +scale_color_brewer(palette = "Paired")

Pregunta 9) Ahora queremos analizar el nivel de competencia que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como:

indicador= (restaurantes[, (reviews*rating)/1000, by= MacrozonaOrigen1])
indicador2 = (indicador[,mean(V1), by=MacrozonaOrigen1 ])
show(indicador2)

##     MacrozonaOrigen1        V1
##  1:        Plan Vina 2.4707909
##  2:  Plan Valparaiso 1.9452714
##  3:  Valparaiso Alto 2.1717750
##  4:      Marga-Marga 1.6290000
##  5:  Concon Poniente 2.1308500
##  6:           Renaca 1.3645000
##  7: Quilpue Poniente 0.3294000
##  8:      Playa Ancha 0.0300000
##  9:           Recreo 0.2409333
## 10:      Santa Julia 1.8814000
## 11: Placilla-Curauma 0.0090000
## 12:       El Belloto 0.0070000

pregunta 10) Dado este primer análisis exploratorio,

¿Dónde es más conveniente abrir el nuevo local de hamburguesas? Justifique su respuesta. (6 puntos)

Según el indicador hecho en la pregunta 9, los mejores lugares para poner nuevos restaurantes son los lugares que tienen el indicador mas alto puesto que este ve la incidencia del rating con el numero de reviews es decir que en donde el indicador es mas alto se puede supponer que estan los mejores restaurantes.

¿Qué agregaría/modificaría a este análisis para poder dar una respuesta más robusta? (6 puntos)

A este analisis le faltaria para ser un analisis mas eficaz y robusto diversas variables que harian que el analisis sea mas concreto como por ejemplo, numero de personas que viven en cada zona, cuan cerca esta cada restaurante el uno del otro, entre otros.