A Airbnb é uma empresa norte-americana que opera um mercado on-line e um serviço de hospitalidade para que as pessoas possam ofertar e contratar acomodações de curto prazo, que inclui chalés, apartamentos, casas de família, camas de albergues ou quartos de hotel, para participar ou facilitar experiências relacionadas ao turismo, como caminhadas, passeios e fazer reservas em restaurantes. A empresa não possui imóveis ou realiza passeios; é um corretor que recebe taxas de serviço percentuais em conjunto com todas as reservas. Como todos os serviços de hospitalidade, o Airbnb é um exemplo de consumo e compartilhamento de colaboração. A empresa possui mais de 4 milhões de listagens de hospedagem em 65.000 cidades e 191 países e facilitou mais de 260 milhões de check-ins.
O Airbnb pode ser acessado através de seus sites ou aplicativos móveis para iOS, Apple Watch e Android. O registro e a criação da conta são gratuitos. Em cada reserva, a empresa cobra dos hóspedes uma taxa de serviços de hospedagem de 6 a 12% e cobra de uma taxa de serviço de hospedagem de 3 a 5%. Os anfitriões também podem oferecer “experiências”, como excursões, aos hóspedes por uma taxa adicional, da qual o Airbnb recebe 20% como comissão. Os usuários podem procurar hospedagem usando uma variedade de filtros, incluindo tipo, datas, local e preço. Antes da reserva, os usuários devem fornecer um nome válido, endereço de e-mail, número de telefone, foto, informações de pagamento e, se exigido pelo host, uma verificação de um ID emitido pelo governo.
Este projeto está relacionado a cidade de Nova York, que bateu em 2018, pelo oitavo ano consecutivo, o recorde do número de turistas. Pelo nono ano consecutivo, a cidade de Nova York registrou seu maior número de turistas recebidos em 2018. No total, foram 65,2 milhões de visitantes contra 62,8 milhões de visitantes.
Analisaremos um conjunto de dados (arquivo airbnb.csv) com 49.075 observações e 15 variáveis, a saber:
Você pode usar o método de quatro etapas para orientar sua análise exploratória de dados, com as quatro perguntas a seguir para orientar sua análise:
Como posso “ver” os dados?
Como posso resumir os dados para melhor entendê-los?
Existe alguma relação entre variáveis?
As relações são significativas?
Estude a página estados_unidos.html, que descreve um conjunto de maneiras para descrição de dados, utilizando alguns pacotes bastante úteis.
Leia e tentem fazer alguns exercícios (até onde conseguirem) do livro R for Data Science. Este livro apresenta o universo tidyverse, que é um pacote guarda-chuva que consolida uma série de ferramentas que fazem pa rte o ciclo da ciência de dados. Há uma linguagem R antes e outra depois do tidyverse. É difícil se tornar um bom usuário do R e não conhecer o tidyverse, ainda que haja vários pacotes excelentes que não utilizam esse modelo.
Para importar o arquivo utilize airbnb <- read.csv(“Dados/airbnb.csv”, na.strings = c(‘NA’, ’’), stringsAsFactors = FALSE).
Transforme a variável last para o formato date utilizando
airbnb$last <- as.Date(airbnb$last, format = "%Y-%m-%d")
Visualise os dados com summary(airbnb).
Verifique:
price possui valor bem acima do terceiro quartil.nights também possui valores bem acima do terceiro quartil.reviews e mrev idem (mrev tambem possui NA’s).host_listing ibdem.data possui NA’s.Analise a variável preço em função dos outros atrubutos e conclua quais são os fatores que mais influenciam o preço.
Um brinde (instale os pacotes mencionados (ggplot2 e leaflet) antes de carregá-los com o comando library:
airbnb <- read.csv("Dados/airbnb.csv", na.strings = c('NA', ''), stringsAsFactors = FALSE)
airbnb$last <- as.Date(airbnb$last, format = "%Y-%m-%d")
library(ggplot2)
ggplot(data = airbnb) +
geom_point(aes(x = longitude, y = latitude), col = 'blue')
## Warning: Removed 7532 rows containing missing values (geom_point).
lat_mediana <- median(airbnb$latitude, na.rm = TRUE)
lon_mediana <- median(airbnb$longitude, na.rm = TRUE)
lat_media <- mean(airbnb$latitude, na.rm = TRUE)
lon_media <- mean(airbnb$longitude, na.rm = TRUE)
library(leaflet)
geo <- leaflet() %>%
addTiles() %>% # usa o mapa default
addMarkers(c(lon_mediana, lon_media),
c(lat_mediana, lat_media),
popup = c('Posição Mediana', 'Posição Média'))
geo