Projeto de Computação para Análise de Dados
Airbnb em Nova York
Análise exploratória dos anúncios cadastrados em 2019

Aluno: Brenno Leite
Base de dados: New York City Airbnb Open Data — 2019
Objetivo: Investigar padrões de preço, localização, tipo de acomodação, disponibilidade e avaliações dos anúncios do Airbnb em Nova York.

1 Introdução

O mercado de hospedagens de curta duração em grandes centros urbanos pode influenciar turistas, moradores, anfitriões e até a dinâmica dos bairros. Em uma cidade como Nova York, onde há grande circulação turística e alto custo de moradia, entender como os anúncios do Airbnb se distribuem ajuda a observar quais regiões concentram mais oferta, quais tipos de acomodação são predominantes e como os preços variam de acordo com localização e características dos imóveis.

O problema abordado neste relatório é: como os anúncios do Airbnb em Nova York estavam distribuídos em 2019 e quais fatores parecem estar associados aos preços, à disponibilidade e à movimentação dos imóveis? Essa questão é relevante porque clientes interessados em hospedagem podem usar esse tipo de análise para comparar regiões, avaliar faixas de preço e entender quais tipos de acomodação são mais comuns. Da mesma forma, anfitriões e gestores podem identificar padrões de concorrência e oportunidades de posicionamento.

Para abordar esse problema, será utilizada a base New York City Airbnb Open Data — 2019, obtida na plataforma Kaggle. A metodologia adotada envolve importação, limpeza, criação de variáveis auxiliares, estatísticas descritivas e visualizações exploratórias. A proposta é construir uma narrativa dos dados, mostrando não apenas gráficos isolados, mas também os principais insights que eles revelam.

1.1 Objetivos do projeto

A análise busca responder às seguintes questões:

  • Quais regiões de Nova York concentram mais anúncios?
  • Quais tipos de acomodação são mais frequentes?
  • Como os preços variam por região e por tipo de acomodação?
  • Quais bairros e anfitriões aparecem com maior concentração de anúncios?
  • Como disponibilidade e avaliações ajudam a interpretar a movimentação da plataforma?
  • Como essas descobertas podem ajudar clientes a escolher hospedagens e anfitriões a entender o mercado?
Indicador Valor Leitura
Anúncios na base original 48,895 Total de registros antes dos filtros de preço.
Anúncios após limpeza para análise de preço 48,410 Base utilizada nas análises de preço e gráficos principais.
Variáveis originais 16 Quantidade de colunas existentes no arquivo original.
Bairros registrados 221 Diversidade geográfica disponível no conjunto de dados.
Preço mediano da diária $105 Valor central usado para resumir o preço típico sem sofrer tanto com extremos.

2 Pacotes requeridos

Todos os pacotes foram carregados no início do relatório para permitir a reprodução da análise. A tabela abaixo resume o papel de cada pacote utilizado.

Pacote Uso_no_projeto Por_que_foi_necessario
tidyverse Importação, transformação, resumo e visualização dos dados. Concentra funções centrais como read_csv(), mutate(), group_by(), summarise() e ggplot().
janitor Padronização dos nomes das colunas. Evita problemas com nomes de colunas com maiúsculas, espaços ou padrões diferentes.
lubridate Conversão e tratamento da variável de data da última avaliação. Permite que datas sejam interpretadas corretamente pelo R.
scales Formatação de valores monetários, números e escalas dos gráficos. Deixa valores como preço e quantidades mais fáceis de ler.
skimr Resumo estatístico das variáveis numéricas. Ajuda a descrever rapidamente preço, avaliações, disponibilidade e noites mínimas.
knitr Criação de tabelas organizadas no relatório HTML. Permite apresentar resultados em tabelas limpas, sem expor código ao leitor.
corrplot Construção da matriz de correlação entre variáveis numéricas. Facilita observar associações iniciais entre preço, avaliações e disponibilidade.

3 Preparação dos dados

3.1 Fonte dos dados

A base utilizada foi obtida na plataforma Kaggle, no conjunto de dados New York City Airbnb Open Data — 2019. O arquivo usado no projeto foi o AB_NYC_2019.csv.

Segundo a descrição da base, os dados reúnem anúncios do Airbnb em Nova York em 2019. O conjunto contém informações sobre identificação do anúncio, anfitrião, região, bairro, latitude, longitude, tipo de acomodação, preço, número mínimo de noites, avaliações e disponibilidade anual.

3.2 Explicação da base original

A base original possui 48,895 registros e 16 variáveis. Ela combina diferentes tipos de dados: variáveis numéricas, como price, minimum_nights, number_of_reviews e availability_365; variáveis textuais, como name, host_name, neighbourhood_group e room_type; e variável de data, como last_review.

Algumas peculiaridades precisaram ser observadas. As variáveis name, host_name, last_review e reviews_per_month possuem valores ausentes. Além disso, a variável price contém valores iguais a zero e valores extremamente altos, o que poderia distorcer gráficos e médias. Por isso, a análise de preços foi feita com uma base filtrada, removendo valores iguais a zero e preços acima do percentil 99.

3.3 Limpeza realizada

As etapas de limpeza seguiram uma ordem lógica:

  1. Os nomes das colunas foram padronizados com clean_names(), facilitando o uso das variáveis no código.
  2. A variável last_review foi convertida para formato de data.
  3. Valores ausentes em reviews_per_month foram substituídos por zero, pois anúncios sem avaliações mensais registradas não apresentavam movimentação nesse campo.
  4. Valores ausentes em name e host_name foram substituídos por “Não informado”, preservando os registros.
  5. Para análises de preço, foram removidos anúncios com preço igual a zero e valores acima do percentil 99.
  6. Foram criadas variáveis derivadas de faixa de preço, faixa de disponibilidade e faixa de avaliações, permitindo observar padrões que não estavam explícitos na base original.
Variável Valores ausentes % da base Situação
last_review 10052 20.56% Exige tratamento/interpretação
id 0 0.00% Sem ausência
name 0 0.00% Sem ausência
host_id 0 0.00% Sem ausência
host_name 0 0.00% Sem ausência
neighbourhood_group 0 0.00% Sem ausência
neighbourhood 0 0.00% Sem ausência
latitude 0 0.00% Sem ausência
longitude 0 0.00% Sem ausência
room_type 0 0.00% Sem ausência
price 0 0.00% Sem ausência
minimum_nights 0 0.00% Sem ausência
number_of_reviews 0 0.00% Sem ausência
reviews_per_month 0 0.00% Sem ausência
calculated_host_listings_count 0 0.00% Sem ausência
availability_365 0 0.00% Sem ausência

3.4 Dados limpos

A tabela abaixo mostra uma amostra do conjunto de dados após a limpeza e criação de variáveis auxiliares. Para evitar uma tabela muito extensa, são exibidas apenas as primeiras linhas e as variáveis mais importantes para a análise.

Região Bairro Tipo de acomodação Preço Faixa de preço Noites mínimas
Brooklyn Kensington Private room $149 Intermediário 1
Manhattan Midtown Entire home/apt $225 Alto 1
Manhattan Harlem Private room $150 Intermediário 3
Brooklyn Clinton Hill Entire home/apt $89 Intermediário 1
Manhattan East Harlem Entire home/apt $80 Intermediário 10
Manhattan Murray Hill Entire home/apt $200 Alto 3
Brooklyn Bedford-Stuyvesant Private room $60 Baixo custo 45
Manhattan Hell’s Kitchen Private room $79 Intermediário 2
Manhattan Upper West Side Private room $79 Intermediário 2
Manhattan Chinatown Entire home/apt $150 Intermediário 1
Primeira parte da amostra limpa: localização, tipo de acomodação e preço.
Região Bairro Avaliações Faixa de avaliações Avaliações/mês Disponibilidade anual Faixa de disponibilidade
Brooklyn Kensington 9 Poucas avaliações 0.21 365 Quase sempre disponível
Manhattan Midtown 45 Movimento moderado 0.38 355 Quase sempre disponível
Manhattan Harlem 0 Sem avaliações 0.00 365 Quase sempre disponível
Brooklyn Clinton Hill 270 Muito avaliado 4.64 194 Alta disponibilidade
Manhattan East Harlem 9 Poucas avaliações 0.10 0 Indisponível
Manhattan Murray Hill 74 Muito avaliado 0.59 129 Disponibilidade média
Brooklyn Bedford-Stuyvesant 49 Movimento moderado 0.40 0 Indisponível
Manhattan Hell’s Kitchen 430 Muito avaliado 3.47 220 Alta disponibilidade
Manhattan Upper West Side 118 Muito avaliado 0.99 0 Indisponível
Manhattan Chinatown 160 Muito avaliado 1.33 188 Alta disponibilidade
Segunda parte da mesma amostra: avaliações e disponibilidade.

```

3.5 Resumo das variáveis de interesse

Variavel Tipo Resumo Interpretacao
Preço Numérica monetária Média: $137.58 | Mediana: $105 Usada para comparar custo entre regiões e tipos de acomodação.
Noites mínimas Numérica discreta Mediana: 3 noites Ajuda a identificar restrições de estadia impostas pelos anfitriões.
Número de avaliações Numérica discreta Mediana: 5 avaliações Funciona como indicador acumulado de movimentação e reputação.
Avaliações por mês Numérica contínua Média: 1.1 avaliações/mês Ajuda a observar movimentação mensal aproximada dos anúncios.
Disponibilidade anual Numérica discreta Média: 112.1 dias/ano Indica se o imóvel fica disponível durante boa parte do ano.

De forma resumida, a base limpa permite analisar o mercado por localização, preço, tipo de acomodação, movimentação por avaliações e disponibilidade anual. A mediana foi priorizada em várias análises de preço porque ela sofre menos influência de valores extremos do que a média.

4 Análise exploratória

4.1 Distribuição dos anúncios por região

Insight: a região com maior concentração de anúncios é Manhattan. Isso indica que a oferta do Airbnb não estava distribuída de forma uniforme pela cidade. Para clientes, essa concentração sugere maior variedade de hospedagens nessas regiões; para anfitriões, indica também maior concorrência.

4.2 Tipos de acomodação

Insight: o tipo de acomodação mais frequente é Entire home/apt. Essa informação ajuda clientes a entenderem qual tipo de hospedagem é mais comum na plataforma e ajuda anfitriões a compararem seu imóvel com o padrão de oferta mais recorrente.

4.3 Preço mediano por região

Região Anúncios Preço médio Preço mediano Preço mínimo Preço máximo
Manhattan 21,312 $172.90 $149 $10 $799
Brooklyn 19,992 $115.92 $90 $10 $795
Queens 5,650 $94.10 $75 $10 $750
Staten Island 369 $94.24 $75 $13 $700
Bronx 1,087 $83.86 $65 $10 $680

Insight: a região com maior preço mediano é Manhattan. Isso sugere que a localização exerce papel importante na definição do preço. Para clientes, essa informação ajuda a comparar custo-benefício; para anfitriões, ajuda a posicionar preços de acordo com o mercado local.

4.4 Preço por tipo de acomodação

Insight: imóveis inteiros tendem a apresentar preços mais elevados do que quartos privados ou compartilhados. Isso ocorre porque o cliente paga por maior privacidade e uso exclusivo do espaço. O boxplot também mostra que há maior dispersão nos preços de algumas categorias, indicando variedade de perfis de imóveis dentro do mesmo tipo de acomodação.

4.5 Região, tipo de quarto e preço

Insight: a combinação entre localização e tipo de acomodação é mais informativa do que observar apenas uma variável isolada. A comparação mostra que o preço de um imóvel inteiro em uma região valorizada pode ser muito diferente do preço de um quarto privado em outra região. Para o cliente, isso facilita a escolha entre pagar mais por privacidade/localização ou economizar escolhendo outro tipo de acomodação.

4.6 Bairros com mais anúncios

Insight: o bairro com maior número de anúncios é Williamsburg. Esse tipo de concentração pode indicar áreas com maior atratividade turística, melhor acesso a transporte ou maior presença de imóveis voltados para hospedagem temporária.

4.7 Anfitriões com mais anúncios

Insight: o anfitrião com mais anúncios é Michael. A presença de anfitriões com muitos imóveis sugere que parte da plataforma pode funcionar com perfil mais comercial, e não apenas com usuários alugando um único espaço ocasionalmente.

4.8 Disponibilidade anual

Insight: a disponibilidade anual ajuda a diferenciar anúncios ocasionais de anúncios possivelmente voltados para aluguel frequente. Imóveis com alta disponibilidade podem indicar uso mais constante da plataforma, enquanto imóveis indisponíveis ou com baixa disponibilidade podem representar anúncios pausados, já ocupados ou usados apenas em períodos específicos.

4.9 Avaliações por região

Região Média de avaliações Mediana de avaliações Média de avaliações por mês
Bronx 26.05 9 1.48
Brooklyn 24.27 6 1.05
Manhattan 21.19 4 0.98
Queens 27.75 7 1.57
Staten Island 31.28 12 1.59

Insight: avaliações mensais funcionam como um indicador aproximado de movimentação dos anúncios. Regiões com maior média de avaliações mensais podem indicar maior rotatividade ou maior procura. Para clientes, avaliações ajudam a reduzir incerteza na escolha; para anfitriões, representam reputação e visibilidade.

4.10 Preço e número de avaliações

Insight: o gráfico indica que anúncios com muitas avaliações não estão necessariamente entre os mais caros. Isso sugere que preço alto não garante maior movimentação. Muitos anúncios movimentados aparecem em faixas de preço mais moderadas, o que pode indicar maior procura por hospedagens com custo-benefício mais acessível.

4.11 Mapa de dispersão geográfica

Insight: o mapa mostra visualmente a concentração espacial dos anúncios. A distribuição reforça que a oferta do Airbnb está ligada à geografia urbana da cidade, com maior densidade em áreas específicas. Esse tipo de visualização é útil para clientes que desejam comparar localização e para anfitriões que querem entender a concorrência em sua região.

4.12 Correlação entre variáveis numéricas

Insight: a matriz de correlação resume relações lineares entre variáveis numéricas. Ela não prova causalidade, mas ajuda a identificar associações iniciais. Correlações fracas indicam que preço, avaliações e disponibilidade provavelmente dependem de múltiplos fatores combinados, e não de uma única variável isolada.

5 Conclusões

O problema abordado foi compreender como os anúncios do Airbnb em Nova York estavam distribuídos em 2019 e quais características ajudam a explicar diferenças de preço, disponibilidade e movimentação.

A abordagem utilizada combinou limpeza de dados, criação de variáveis auxiliares e análise exploratória por meio de tabelas e gráficos. A base foi obtida no Kaggle e analisada considerando localização, tipo de acomodação, preço, anfitriões, disponibilidade e avaliações.

Os principais insights indicam que os anúncios se concentram em determinadas regiões e bairros, que o tipo de acomodação influencia fortemente o preço e que alguns anfitriões possuem muitos anúncios, sugerindo uso mais comercial da plataforma. Também foi observado que disponibilidade e avaliações oferecem pistas sobre a movimentação dos imóveis.

Para clientes, a análise ajuda a comparar regiões, entender faixas de preço e avaliar alternativas de hospedagem com melhor custo-benefício. Para anfitriões, os resultados ajudam a compreender concorrência, posicionamento de preço e padrões de oferta.

Como limitação, a base representa apenas um recorte de 2019 e não permite afirmar causalidade entre variáveis. Além disso, as avaliações são usadas apenas como aproximação de movimentação, pois nem toda estadia gera avaliação. Para trabalhos futuros, seria interessante comparar anos diferentes, incorporar dados externos sobre turismo e transporte e aplicar modelos preditivos para estimar preços.

6 Referência

Dataset utilizado: New York City Airbnb Open Data — 2019, disponível na plataforma Kaggle.