AIRBNB 2019 – cidade de Nova York com o uso do pacote: tidyverse

Introdução:

A Airbnb é uma empresa norte-americana que opera um mercado on-line e um serviço de hospitalidade para que as pessoas possam ofertar e contratar acomodações de curto prazo, que inclui chalés, apartamentos, casas de família, camas de albergues ou quartos de hotel, para participar ou facilitar experiências relacionadas ao turismo, como caminhadas, passeios e fazer reservas em restaurantes. A empresa não possui imóveis ou realiza passeios; é um corretor que recebe taxas de serviço percentuais em conjunto com todas as reservas. Como todos os serviços de hospitalidade, o Airbnb é um exemplo de consumo e compartilhamento de colaboração. A empresa possui mais de 4 milhões de listagens de hospedagem em 65.000 cidades e 191 países e facilitou mais de 260 milhões de check-ins.

O Airbnb pode ser acessado através de seus sites ou aplicativos móveis para iOS, Apple Watch e Android. O registro e a criação da conta são gratuitos. Em cada reserva, a empresa cobra dos hóspedes uma taxa de serviços de hospedagem de 6 a 12% e cobra de uma taxa de serviço de hospedagem de 3 a 5%. Os anfitriões também podem oferecer “experiências”, como excursões, aos hóspedes por uma taxa adicional, da qual o Airbnb recebe 20% como comissão. Os usuários podem procurar hospedagem usando uma variedade de filtros, incluindo tipo, datas, local e preço. Antes da reserva, os usuários devem fornecer um nome válido, endereço de e-mail, número de telefone, foto, informações de pagamento e, se exigido pelo host, uma verificação de um ID emitido pelo governo.

Este projeto está relacionado a cidade de Nova York, que bateu em 2018, pelo oitavo ano consecutivo, o recorde do número de turistas. Pelo nono ano consecutivo, a cidade de Nova York registrou seu maior número de turistas recebidos em 2018. No total, foram 65,2 milhões de visitantes contra 62,8 milhões de visitantes.

Analisaremos um conjunto de dados (arquivo airbnb.csv) com 49.075 observações e 15 variáveis, a saber:

  1. cont: sequência (não é necessário)
  2. number: identificação de cadastramento
  3. host: nome do cliente
  4. area: distrito na cidade
  5. location: bairro
  6. latitude: coordenadas de latitude
  7. longitude: coordenadas de longitude
  8. room: tipo de espaço ofertado (“Entire home/apt”, “Private room”, or “Shared room”)
  9. price: preço (em US$) da diária. Nas pesquisas anteriores, pode haver alguns valores registrados por mês.
  10. nights: estadia máxima, conforme publicado pelo host.
  11. reviews: número de pessoas comentaram o espaço ofertado
  12. mrev: número de comentários por mês
  13. last: data do último contrato
  14. host_listing: O número de listagens para um host específico
  15. availability: número de dias em que a listagem está disponível para reserva em 365 dias

A análise exploratória de dados:

Você pode usar o método de quatro etapas para orientar sua análise exploratória de dados, com as quatro perguntas a seguir para orientar sua análise:

  • Como posso “ver” os dados?

  • Como posso resumir os dados para melhor entendê-los?

  • Existe alguma relação entre variáveis?

  • As relações são significativas?

Um guia para o estudo

  1. Estude a página estados_unidos.html, que descreve um conjunto de maneiras para descrição de dados, utilizando alguns pacotes bastante úteis.

  2. Leia e tentem fazer alguns exercícios (até onde conseguirem) do livro R for Data Science. Este livro apresenta o universo tidyverse, que é um pacote guarda-chuva que consolida uma série de ferramentas que fazem pa rte o ciclo da ciência de dados. Há uma linguagem R antes e outra depois do tidyverse. É difícil se tornar um bom usuário do R e não conhecer o tidyverse, ainda que haja vários pacotes excelentes que não utilizam esse modelo.

  3. Para importar o arquivo utilize airbnb <- read.csv(“Dados/airbnb.csv”, na.strings = c(‘NA’, ’’), stringsAsFactors = FALSE).

  4. Transforme a variável last para o formato date utilizando

airbnb$last <- as.Date(airbnb$last, format = "%Y-%m-%d")
  1. Visualise os dados com summary(airbnb).

  2. Verifique:

  • price possui valor bem acima do terceiro quartil.
  • nights também possui valores bem acima do terceiro quartil.
  • reviews e mrev idem (mrev tambem possui NA’s).
  • host_listing ibdem.
  • data possui NA’s.
  1. Analise a variável preço em função dos outros atrubutos e conclua quais são os fatores que mais influenciam o preço.

  2. Um brinde (instale os pacotes mencionados (ggplot2 e leaflet) antes de carregá-los com o comando library:

    airbnb <- read.csv("Dados/airbnb.csv", na.strings = c('NA', ''), stringsAsFactors = FALSE)
    airbnb$last <- as.Date(airbnb$last, format = "%Y-%m-%d")
    library(ggplot2)
    
    ggplot(data = airbnb) +
      geom_point(aes(x = longitude, y = latitude), col = 'blue')
    ## Warning: Removed 7532 rows containing missing values (geom_point).

    lat_mediana  <-  median(airbnb$latitude, na.rm = TRUE)
    lon_mediana  <-  median(airbnb$longitude, na.rm = TRUE)
    lat_media <- mean(airbnb$latitude, na.rm = TRUE)
    lon_media <- mean(airbnb$longitude, na.rm = TRUE)
    
    
    library(leaflet)
    
    geo <- leaflet() %>%
      addTiles() %>%  # usa o mapa default 
      addMarkers(c(lon_mediana, lon_media),
                 c(lat_mediana, lat_media),
                 popup = c('Posição Mediana', 'Posição Média'))
    geo

Bom trabalho