rm(list=ls())
library(data.table)
library(ggplot2)
library(janitor)
##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
library(plotly)
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
library(RColorBrewer)
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ tibble 3.1.0 ✓ dplyr 1.0.5
## ✓ tidyr 1.1.3 ✓ stringr 1.4.0
## ✓ readr 1.4.0 ✓ forcats 0.5.1
## ✓ purrr 0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::between() masks data.table::between()
## x dplyr::filter() masks plotly::filter(), stats::filter()
## x dplyr::first() masks data.table::first()
## x dplyr::lag() masks stats::lag()
## x dplyr::last() masks data.table::last()
## x purrr::transpose() masks data.table::transpose()
Hogares = fread("/Users/hassansantiago/Desktop/uai/data science/Tarea 3/Base_Hogares.csv", encoding = "Latin-1")
ggplot(Hogares[IngresoHogar<2000000], aes(x=IngresoHogar, fill=Macrozonahg)) +
geom_histogram(bins=120, ) +
labs( x="Ingresos por hogar", y="Cantidad", title="Ingresos de Hogar por Macrozonas", caption = "Fuente: Encuesta Origen y Destino") +
facet_wrap(facets = "comunahg")
ingprom = Hogares[,mean(IngresoHogar), by= Macrozonahg]
show(ingprom)
## Macrozonahg V1
## 1: Playa Ancha 519674.1
## 2: Viña del Mar Oriente 579780.9
## 3: Concón Poniente 1154565.8
## 4: Plan Valparaíso 681613.8
## 5: Valparaíso Alto 517233.5
## 6: Barón-Placeres 551315.7
## 7: Recreo 930907.6
## 8: Miraflores 775608.6
## 9: Reñaca 1903325.6
## 10: Quilpué Poniente 697141.0
## 11: Quilpué Sur 732888.1
## 12: El Belloto 678679.7
## 13: Villa Alemana Poniente 535134.2
## 14: Villa Alemana Norte 582355.2
## 15: El Belloto Norte 577247.3
## 16: Placilla-Curauma 908328.8
## 17: Rodelillo 520192.5
## 18: Marga-Marga 1328764.2
## 19: Forestal 693756.1
## 20: Plan Viña 915722.5
## 21: Santa Julia 680298.9
## 22: Concón Oriente 974574.7
## 23: Quilpué Norte 891992.3
## 24: Peñablanca 856103.4
## Macrozonahg V1
ggplot(data=ingprom, aes(x=Macrozonahg, y=V1)) + geom_col()
ggplot(data=ingprom, aes(x=Macrozonahg, y=V1)) + geom_col() + labs(x= "zonas", y="promedios de ingreso", title = "promedio de ingresos", subtitle = "por macrozonas del gran Valparaiso", caption = "fuente: csv de la clase")
restaurantes <- fread("/Users/hassansantiago/Desktop/uai/data science/Tarea 3/restaurantes.csv", encoding = "Latin-1")
ggplot(data= restaurantes,aes(x= reviews, y= rating, color= COMUNA)) +geom_point() +scale_color_brewer(palette = "Paired")
indicador= (restaurantes[, (reviews*rating)/1000, by= MacrozonaOrigen1])
indicador2 = (indicador[,mean(V1), by=MacrozonaOrigen1 ])
show(indicador2)
## MacrozonaOrigen1 V1
## 1: Plan Vina 2.4707909
## 2: Plan Valparaiso 1.9452714
## 3: Valparaiso Alto 2.1717750
## 4: Marga-Marga 1.6290000
## 5: Concon Poniente 2.1308500
## 6: Renaca 1.3645000
## 7: Quilpue Poniente 0.3294000
## 8: Playa Ancha 0.0300000
## 9: Recreo 0.2409333
## 10: Santa Julia 1.8814000
## 11: Placilla-Curauma 0.0090000
## 12: El Belloto 0.0070000
Según el indicador hecho en la pregunta 9, los mejores lugares para poner nuevos restaurantes son los lugares que tienen el indicador mas alto puesto que este ve la incidencia del rating con el numero de reviews es decir que en donde el indicador es mas alto se puede supponer que estan los mejores restaurantes.
A este analisis le faltaria para ser un analisis mas eficaz y robusto diversas variables que harian que el analisis sea mas concreto como por ejemplo, numero de personas que viven en cada zona, cuan cerca esta cada restaurante el uno del otro, entre otros.