O mercado de hospedagens de curta duração em grandes centros urbanos pode influenciar turistas, moradores, anfitriões e até a dinâmica dos bairros. Em uma cidade como Nova York, onde há grande circulação turística e alto custo de moradia, entender como os anúncios do Airbnb se distribuem ajuda a observar quais regiões concentram mais oferta, quais tipos de acomodação são predominantes e como os preços variam de acordo com localização e características dos imóveis.
O problema abordado neste relatório é: como os anúncios do Airbnb em Nova York estavam distribuídos em 2019 e quais fatores parecem estar associados aos preços, à disponibilidade e à movimentação dos imóveis? Essa questão é relevante porque clientes interessados em hospedagem podem usar esse tipo de análise para comparar regiões, avaliar faixas de preço e entender quais tipos de acomodação são mais comuns. Da mesma forma, anfitriões e gestores podem identificar padrões de concorrência e oportunidades de posicionamento.
Para abordar esse problema, será utilizada a base New York City Airbnb Open Data — 2019, obtida na plataforma Kaggle. A metodologia adotada envolve importação, limpeza, criação de variáveis auxiliares, estatísticas descritivas e visualizações exploratórias. A proposta é construir uma narrativa dos dados, mostrando não apenas gráficos isolados, mas também os principais insights que eles revelam.
A análise busca responder às seguintes questões:
| Indicador | Valor | Leitura |
|---|---|---|
| Anúncios na base original | 48,895 | Total de registros antes dos filtros de preço. |
| Anúncios após limpeza para análise de preço | 48,410 | Base utilizada nas análises de preço e gráficos principais. |
| Variáveis originais | 16 | Quantidade de colunas existentes no arquivo original. |
| Bairros registrados | 221 | Diversidade geográfica disponível no conjunto de dados. |
| Preço mediano da diária | $105 | Valor central usado para resumir o preço típico sem sofrer tanto com extremos. |
Todos os pacotes foram carregados no início do relatório para permitir a reprodução da análise. A tabela abaixo resume o papel de cada pacote utilizado.
| Pacote | Uso_no_projeto | Por_que_foi_necessario |
|---|---|---|
| tidyverse | Importação, transformação, resumo e visualização dos dados. | Concentra funções centrais como read_csv(), mutate(), group_by(), summarise() e ggplot(). |
| janitor | Padronização dos nomes das colunas. | Evita problemas com nomes de colunas com maiúsculas, espaços ou padrões diferentes. |
| lubridate | Conversão e tratamento da variável de data da última avaliação. | Permite que datas sejam interpretadas corretamente pelo R. |
| scales | Formatação de valores monetários, números e escalas dos gráficos. | Deixa valores como preço e quantidades mais fáceis de ler. |
| skimr | Resumo estatístico das variáveis numéricas. | Ajuda a descrever rapidamente preço, avaliações, disponibilidade e noites mínimas. |
| knitr | Criação de tabelas organizadas no relatório HTML. | Permite apresentar resultados em tabelas limpas, sem expor código ao leitor. |
| corrplot | Construção da matriz de correlação entre variáveis numéricas. | Facilita observar associações iniciais entre preço, avaliações e disponibilidade. |
A base utilizada foi obtida na plataforma Kaggle, no conjunto de dados New York City Airbnb Open Data — 2019. O arquivo usado no projeto foi o AB_NYC_2019.csv.
Segundo a descrição da base, os dados reúnem anúncios do Airbnb em Nova York em 2019. O conjunto contém informações sobre identificação do anúncio, anfitrião, região, bairro, latitude, longitude, tipo de acomodação, preço, número mínimo de noites, avaliações e disponibilidade anual.
A base original possui 48,895 registros e 16 variáveis. Ela combina
diferentes tipos de dados: variáveis numéricas, como price,
minimum_nights, number_of_reviews e
availability_365; variáveis textuais, como
name, host_name,
neighbourhood_group e room_type; e variável de
data, como last_review.
Algumas peculiaridades precisaram ser observadas. As variáveis
name, host_name, last_review e
reviews_per_month possuem valores ausentes. Além disso, a
variável price contém valores iguais a zero e valores
extremamente altos, o que poderia distorcer gráficos e médias. Por isso,
a análise de preços foi feita com uma base filtrada, removendo valores
iguais a zero e preços acima do percentil 99.
As etapas de limpeza seguiram uma ordem lógica:
clean_names(), facilitando o uso das variáveis no
código.last_review foi convertida para formato de
data.reviews_per_month foram
substituídos por zero, pois anúncios sem avaliações mensais registradas
não apresentavam movimentação nesse campo.name e host_name foram
substituídos por “Não informado”, preservando os registros.| Variável | Valores ausentes | % da base | Situação |
|---|---|---|---|
| last_review | 10052 | 20.56% | Exige tratamento/interpretação |
| id | 0 | 0.00% | Sem ausência |
| name | 0 | 0.00% | Sem ausência |
| host_id | 0 | 0.00% | Sem ausência |
| host_name | 0 | 0.00% | Sem ausência |
| neighbourhood_group | 0 | 0.00% | Sem ausência |
| neighbourhood | 0 | 0.00% | Sem ausência |
| latitude | 0 | 0.00% | Sem ausência |
| longitude | 0 | 0.00% | Sem ausência |
| room_type | 0 | 0.00% | Sem ausência |
| price | 0 | 0.00% | Sem ausência |
| minimum_nights | 0 | 0.00% | Sem ausência |
| number_of_reviews | 0 | 0.00% | Sem ausência |
| reviews_per_month | 0 | 0.00% | Sem ausência |
| calculated_host_listings_count | 0 | 0.00% | Sem ausência |
| availability_365 | 0 | 0.00% | Sem ausência |
A tabela abaixo mostra uma amostra do conjunto de dados após a limpeza e criação de variáveis auxiliares. Para evitar uma tabela muito extensa, são exibidas apenas as primeiras linhas e as variáveis mais importantes para a análise.
| Região | Bairro | Tipo de acomodação | Preço | Faixa de preço | Noites mínimas |
|---|---|---|---|---|---|
| Brooklyn | Kensington | Private room | $149 | Intermediário | 1 |
| Manhattan | Midtown | Entire home/apt | $225 | Alto | 1 |
| Manhattan | Harlem | Private room | $150 | Intermediário | 3 |
| Brooklyn | Clinton Hill | Entire home/apt | $89 | Intermediário | 1 |
| Manhattan | East Harlem | Entire home/apt | $80 | Intermediário | 10 |
| Manhattan | Murray Hill | Entire home/apt | $200 | Alto | 3 |
| Brooklyn | Bedford-Stuyvesant | Private room | $60 | Baixo custo | 45 |
| Manhattan | Hell’s Kitchen | Private room | $79 | Intermediário | 2 |
| Manhattan | Upper West Side | Private room | $79 | Intermediário | 2 |
| Manhattan | Chinatown | Entire home/apt | $150 | Intermediário | 1 |
| Região | Bairro | Avaliações | Faixa de avaliações | Avaliações/mês | Disponibilidade anual | Faixa de disponibilidade |
|---|---|---|---|---|---|---|
| Brooklyn | Kensington | 9 | Poucas avaliações | 0.21 | 365 | Quase sempre disponível |
| Manhattan | Midtown | 45 | Movimento moderado | 0.38 | 355 | Quase sempre disponível |
| Manhattan | Harlem | 0 | Sem avaliações | 0.00 | 365 | Quase sempre disponível |
| Brooklyn | Clinton Hill | 270 | Muito avaliado | 4.64 | 194 | Alta disponibilidade |
| Manhattan | East Harlem | 9 | Poucas avaliações | 0.10 | 0 | Indisponível |
| Manhattan | Murray Hill | 74 | Muito avaliado | 0.59 | 129 | Disponibilidade média |
| Brooklyn | Bedford-Stuyvesant | 49 | Movimento moderado | 0.40 | 0 | Indisponível |
| Manhattan | Hell’s Kitchen | 430 | Muito avaliado | 3.47 | 220 | Alta disponibilidade |
| Manhattan | Upper West Side | 118 | Muito avaliado | 0.99 | 0 | Indisponível |
| Manhattan | Chinatown | 160 | Muito avaliado | 1.33 | 188 | Alta disponibilidade |
```
| Variavel | Tipo | Resumo | Interpretacao |
|---|---|---|---|
| Preço | Numérica monetária | Média: $137.58 | Mediana: $105 | Usada para comparar custo entre regiões e tipos de acomodação. |
| Noites mínimas | Numérica discreta | Mediana: 3 noites | Ajuda a identificar restrições de estadia impostas pelos anfitriões. |
| Número de avaliações | Numérica discreta | Mediana: 5 avaliações | Funciona como indicador acumulado de movimentação e reputação. |
| Avaliações por mês | Numérica contínua | Média: 1.1 avaliações/mês | Ajuda a observar movimentação mensal aproximada dos anúncios. |
| Disponibilidade anual | Numérica discreta | Média: 112.1 dias/ano | Indica se o imóvel fica disponível durante boa parte do ano. |
De forma resumida, a base limpa permite analisar o mercado por localização, preço, tipo de acomodação, movimentação por avaliações e disponibilidade anual. A mediana foi priorizada em várias análises de preço porque ela sofre menos influência de valores extremos do que a média.
Insight: a região com maior concentração de anúncios é Manhattan. Isso indica que a oferta do Airbnb não estava distribuída de forma uniforme pela cidade. Para clientes, essa concentração sugere maior variedade de hospedagens nessas regiões; para anfitriões, indica também maior concorrência.
Insight: o tipo de acomodação mais frequente é Entire home/apt. Essa informação ajuda clientes a entenderem qual tipo de hospedagem é mais comum na plataforma e ajuda anfitriões a compararem seu imóvel com o padrão de oferta mais recorrente.
| Região | Anúncios | Preço médio | Preço mediano | Preço mínimo | Preço máximo |
|---|---|---|---|---|---|
| Manhattan | 21,312 | $172.90 | $149 | $10 | $799 |
| Brooklyn | 19,992 | $115.92 | $90 | $10 | $795 |
| Queens | 5,650 | $94.10 | $75 | $10 | $750 |
| Staten Island | 369 | $94.24 | $75 | $13 | $700 |
| Bronx | 1,087 | $83.86 | $65 | $10 | $680 |
Insight: a região com maior preço mediano é Manhattan. Isso sugere que a localização exerce papel importante na definição do preço. Para clientes, essa informação ajuda a comparar custo-benefício; para anfitriões, ajuda a posicionar preços de acordo com o mercado local.
Insight: imóveis inteiros tendem a apresentar preços mais elevados do que quartos privados ou compartilhados. Isso ocorre porque o cliente paga por maior privacidade e uso exclusivo do espaço. O boxplot também mostra que há maior dispersão nos preços de algumas categorias, indicando variedade de perfis de imóveis dentro do mesmo tipo de acomodação.
Insight: a combinação entre localização e tipo de acomodação é mais informativa do que observar apenas uma variável isolada. A comparação mostra que o preço de um imóvel inteiro em uma região valorizada pode ser muito diferente do preço de um quarto privado em outra região. Para o cliente, isso facilita a escolha entre pagar mais por privacidade/localização ou economizar escolhendo outro tipo de acomodação.
Insight: o bairro com maior número de anúncios é Williamsburg. Esse tipo de concentração pode indicar áreas com maior atratividade turística, melhor acesso a transporte ou maior presença de imóveis voltados para hospedagem temporária.
Insight: o anfitrião com mais anúncios é Michael. A presença de anfitriões com muitos imóveis sugere que parte da plataforma pode funcionar com perfil mais comercial, e não apenas com usuários alugando um único espaço ocasionalmente.
Insight: a disponibilidade anual ajuda a diferenciar anúncios ocasionais de anúncios possivelmente voltados para aluguel frequente. Imóveis com alta disponibilidade podem indicar uso mais constante da plataforma, enquanto imóveis indisponíveis ou com baixa disponibilidade podem representar anúncios pausados, já ocupados ou usados apenas em períodos específicos.
| Região | Média de avaliações | Mediana de avaliações | Média de avaliações por mês |
|---|---|---|---|
| Bronx | 26.05 | 9 | 1.48 |
| Brooklyn | 24.27 | 6 | 1.05 |
| Manhattan | 21.19 | 4 | 0.98 |
| Queens | 27.75 | 7 | 1.57 |
| Staten Island | 31.28 | 12 | 1.59 |
Insight: avaliações mensais funcionam como um indicador aproximado de movimentação dos anúncios. Regiões com maior média de avaliações mensais podem indicar maior rotatividade ou maior procura. Para clientes, avaliações ajudam a reduzir incerteza na escolha; para anfitriões, representam reputação e visibilidade.
Insight: o gráfico indica que anúncios com muitas avaliações não estão necessariamente entre os mais caros. Isso sugere que preço alto não garante maior movimentação. Muitos anúncios movimentados aparecem em faixas de preço mais moderadas, o que pode indicar maior procura por hospedagens com custo-benefício mais acessível.
Insight: o mapa mostra visualmente a concentração espacial dos anúncios. A distribuição reforça que a oferta do Airbnb está ligada à geografia urbana da cidade, com maior densidade em áreas específicas. Esse tipo de visualização é útil para clientes que desejam comparar localização e para anfitriões que querem entender a concorrência em sua região.
Insight: a matriz de correlação resume relações lineares entre variáveis numéricas. Ela não prova causalidade, mas ajuda a identificar associações iniciais. Correlações fracas indicam que preço, avaliações e disponibilidade provavelmente dependem de múltiplos fatores combinados, e não de uma única variável isolada.
O problema abordado foi compreender como os anúncios do Airbnb em Nova York estavam distribuídos em 2019 e quais características ajudam a explicar diferenças de preço, disponibilidade e movimentação.
A abordagem utilizada combinou limpeza de dados, criação de variáveis auxiliares e análise exploratória por meio de tabelas e gráficos. A base foi obtida no Kaggle e analisada considerando localização, tipo de acomodação, preço, anfitriões, disponibilidade e avaliações.
Os principais insights indicam que os anúncios se concentram em determinadas regiões e bairros, que o tipo de acomodação influencia fortemente o preço e que alguns anfitriões possuem muitos anúncios, sugerindo uso mais comercial da plataforma. Também foi observado que disponibilidade e avaliações oferecem pistas sobre a movimentação dos imóveis.
Para clientes, a análise ajuda a comparar regiões, entender faixas de preço e avaliar alternativas de hospedagem com melhor custo-benefício. Para anfitriões, os resultados ajudam a compreender concorrência, posicionamento de preço e padrões de oferta.
Como limitação, a base representa apenas um recorte de 2019 e não permite afirmar causalidade entre variáveis. Além disso, as avaliações são usadas apenas como aproximação de movimentação, pois nem toda estadia gera avaliação. Para trabalhos futuros, seria interessante comparar anos diferentes, incorporar dados externos sobre turismo e transporte e aplicar modelos preditivos para estimar preços.
Dataset utilizado: New York City Airbnb Open Data — 2019, disponível na plataforma Kaggle.