Projeto de Computação para Análise de Dados
Airbnb em Nova York
Análise exploratória dos anúncios cadastrados em 2019

Aluno: Brenno Leite
Base de dados: New York City Airbnb Open Data — 2019
Objetivo: Investigar padrões de preço, localização, tipo de acomodação, disponibilidade e avaliações dos anúncios do Airbnb em Nova York.

1 Introdução

O Airbnb é uma plataforma de hospedagem que permite o anúncio de imóveis, quartos privados e quartos compartilhados para estadias de curta ou média duração. Em cidades turísticas e altamente urbanizadas, como Nova York, esse tipo de serviço pode revelar padrões interessantes sobre localização, preços, disponibilidade e comportamento dos anfitriões.

Este projeto utiliza o conjunto de dados New York City Airbnb Open Data — 2019, que reúne informações sobre anúncios cadastrados na cidade de Nova York. A análise proposta é exploratória, ou seja, busca compreender os dados por meio de estatísticas descritivas, tabelas e visualizações gráficas.

1.1 Objetivos do projeto

A análise foi orientada pelas seguintes perguntas:

  • Como os anúncios estão distribuídos entre as regiões de Nova York?
  • Quais tipos de acomodação são mais frequentes?
  • Como os preços variam conforme região e tipo de acomodação?
  • Quais bairros concentram mais anúncios?
  • Existem anfitriões com muitos imóveis cadastrados?
  • Como se comportam a disponibilidade e as avaliações dos anúncios?
Indicador Valor
Anúncios analisados 48,895
Variáveis disponíveis 16
Bairros registrados 221
Preço mediano da diária $105

2 Metodologia

2.1 Estratégia de análise

2.1.1 Base de dados

O conjunto de dados utilizado contém informações sobre anúncios do Airbnb em Nova York no ano de 2019. Entre as variáveis disponíveis estão: região, bairro, latitude, longitude, tipo de acomodação, preço, número mínimo de noites, número de avaliações, avaliações por mês e disponibilidade anual.

2.1.2 Ferramentas utilizadas

A análise foi desenvolvida no RStudio, utilizando RMarkdown para combinar texto, código, tabelas e gráficos em um único relatório HTML. Foram utilizados pacotes como tidyverse, janitor, DT, skimr e corrplot.

2.1.3 Procedimentos

Foram realizadas etapas de importação dos dados, padronização dos nomes das variáveis, tratamento de valores ausentes, filtragem de preços extremos e produção de análises descritivas. Para os gráficos de preço, foram removidos valores iguais a zero e valores acima do percentil 99, com o objetivo de reduzir distorções visuais.

3 Conhecendo os dados

3.1 Visualização inicial da base

id name host_id host_name neighbourhood_group neighbourhood latitude longitude room_type price minimum_nights number_of_reviews last_review reviews_per_month calculated_host_listings_count availability_365
2539 Clean & quiet apt home by the park 2787 John Brooklyn Kensington 40.64749 -73.97237 Private room 149 1 9 2018-10-19 0.21 6 365
2595 Skylit Midtown Castle 2845 Jennifer Manhattan Midtown 40.75362 -73.98377 Entire home/apt 225 1 45 2019-05-21 0.38 2 355
3647 THE VILLAGE OF HARLEM….NEW YORK ! 4632 Elisabeth Manhattan Harlem 40.80902 -73.94190 Private room 150 3 0 NA 0.00 1 365
3831 Cozy Entire Floor of Brownstone 4869 LisaRoxanne Brooklyn Clinton Hill 40.68514 -73.95976 Entire home/apt 89 1 270 2019-07-05 4.64 1 194
5022 Entire Apt: Spacious Studio/Loft by central park 7192 Laura Manhattan East Harlem 40.79851 -73.94399 Entire home/apt 80 10 9 2018-11-19 0.10 1 0
5099 Large Cozy 1 BR Apartment In Midtown East 7322 Chris Manhattan Murray Hill 40.74767 -73.97500 Entire home/apt 200 3 74 2019-06-22 0.59 1 129
5121 BlissArtsSpace! 7356 Garon Brooklyn Bedford-Stuyvesant 40.68688 -73.95596 Private room 60 45 49 2017-10-05 0.40 1 0
5178 Large Furnished Room Near B’way 8967 Shunichi Manhattan Hell’s Kitchen 40.76489 -73.98493 Private room 79 2 430 2019-06-24 3.47 1 220
5203 Cozy Clean Guest Room - Family Apt 7490 MaryEllen Manhattan Upper West Side 40.80178 -73.96723 Private room 79 2 118 2017-07-21 0.99 1 0
5238 Cute & Cozy Lower East Side 1 bdrm 7549 Ben Manhattan Chinatown 40.71344 -73.99037 Entire home/apt 150 1 160 2019-06-09 1.33 4 188

3.2 Dimensões da base

Indicador Valor
Quantidade de registros 48,895
Quantidade de variáveis 16
Quantidade de regiões principais 5
Quantidade de bairros 221

3.3 Dicionário resumido das variáveis

Variavel Descricao
id Identificador único do anúncio
name Nome do anúncio
host_id Identificador do anfitrião
host_name Nome do anfitrião
neighbourhood_group Grande região de Nova York
neighbourhood Bairro específico
latitude Latitude do anúncio
longitude Longitude do anúncio
room_type Tipo de acomodação
price Preço da diária em dólares
minimum_nights Número mínimo de noites exigidas
number_of_reviews Quantidade total de avaliações
last_review Data da última avaliação
reviews_per_month Média de avaliações por mês
calculated_host_listings_count Quantidade de anúncios do mesmo anfitrião
availability_365 Quantidade de dias disponíveis no ano

4 Preparação dos dados

4.1 Tratamentos realizados

4.1.1 Valores ausentes

Variavel Quantidade_Ausente
last_review 10052
id 0
name 0
host_id 0
host_name 0
neighbourhood_group 0
neighbourhood 0
latitude 0
longitude 0
room_type 0
price 0
minimum_nights 0
number_of_reviews 0
reviews_per_month 0
calculated_host_listings_count 0
availability_365 0

4.1.2 Preços extremos

Os preços dos anúncios possuem valores muito altos em alguns registros. Para evitar que esses valores extremos distorcessem os gráficos, foi criada uma base auxiliar chamada airbnb_preco, considerando apenas anúncios com preço maior que zero e menor ou igual ao percentil 99 da variável price.

Indicador Valor
Menor preço considerado $10
Maior preço considerado $799
Preço médio $137.58
Preço mediano $105

4.1.3 Estatísticas descritivas

Data summary
Name Piped data
Number of rows 48895
Number of columns 6
_______________________
Column type frequency:
numeric 6
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
price 0 1 152.72 240.15 0 69.00 106.00 175.00 10000.0 ▇▁▁▁▁
minimum_nights 0 1 7.03 20.51 1 1.00 3.00 5.00 1250.0 ▇▁▁▁▁
number_of_reviews 0 1 23.27 44.55 0 1.00 5.00 24.00 629.0 ▇▁▁▁▁
reviews_per_month 0 1 1.09 1.60 0 0.04 0.37 1.58 58.5 ▇▁▁▁▁
calculated_host_listings_count 0 1 7.14 32.95 1 1.00 1.00 2.00 327.0 ▇▁▁▁▁
availability_365 0 1 112.78 131.62 0 0.00 45.00 227.00 365.0 ▇▂▁▁▂

5 Análise exploratória

5.1 Distribuição dos anúncios por região

5.2 Tipos de acomodação

5.3 Preço mediano por região

neighbourhood_group quantidade preco_medio preco_mediano preco_minimo preco_maximo
Manhattan 21312 $172.90 $149 $10 $799
Brooklyn 19992 $115.92 $90 $10 $795
Queens 5650 $94.10 $75 $10 $750
Staten Island 369 $94.24 $75 $13 $700
Bronx 1087 $83.86 $65 $10 $680

5.4 Preço por tipo de acomodação

5.5 Região, tipo de quarto e preço

5.6 Top 10 bairros com mais anúncios

5.7 Top 10 anfitriões com mais anúncios

5.8 Disponibilidade anual

5.9 Avaliações por região

neighbourhood_group media_avaliacoes mediana_avaliacoes media_reviews_mes
Bronx 26.00 9 1.48
Brooklyn 24.20 6 1.05
Manhattan 20.99 4 0.98
Queens 27.70 7 1.57
Staten Island 30.94 12 1.58

5.10 Preço e número de avaliações

5.11 Mapa de dispersão geográfica

5.12 Correlação entre variáveis numéricas

6 Conclusões

A análise exploratória dos anúncios do Airbnb em Nova York em 2019 revelou padrões importantes sobre localização, preço, tipo de acomodação e disponibilidade.

Os resultados mostraram que os anúncios não estão distribuídos de forma uniforme pela cidade, havendo forte concentração em determinadas regiões e bairros. Também foi possível observar que o tipo de acomodação influencia diretamente os preços, sendo os imóveis inteiros, em geral, mais caros do que quartos privados ou compartilhados.

Além disso, a análise dos anfitriões indicou a existência de perfis com muitos anúncios, o que pode sugerir uso mais comercial da plataforma. Variáveis como disponibilidade e avaliações também ajudaram a compreender o comportamento dos anúncios.

Como limitação, é importante destacar que a base representa apenas um recorte de 2019. Para trabalhos futuros, seria interessante comparar os dados com anos posteriores, analisar mudanças no comportamento do mercado e aplicar modelos preditivos para estimar preços.

7 Referência

Dataset utilizado: New York City Airbnb Open Data — 2019, disponível na plataforma Kaggle.