O Airbnb é um site de hospedagem no qual as pessoas podem alugar uma acomodação para outros viajantes. Os “hosts”, como são chamados os que detém o imóvel ou parte dele, se cadastram no site e fornecem informações da sua acomodação, como o endereço, experiências oferecidas, tipo de propriedade, fotos do local, dentre outras informações pertinentes para que um anúncio seja gerado com as informações e o preço. Assim, os “guests”, que são os hóspedes, podem esolher a acomodação que mais lhe agrada e, ao final da experiência, avaliam o ambiente e o dono ou funcionários da hospedagem. Existem vários tipos de imóveis, que vão desde um quarto em uma casa ou apartamento, até uma residência inteira em bairros de luxo. Os anfitriões estabelecem o preço de sua acomodação a partir de uma análise comparativa com outras hospedagens de mesmo padrão e eles podem fazer algumas exigências ou concessões, como cobrar uma taxa extra para limpeza, definir preços diferentes para determinados períodos do ano, dar descontos para estadias mais longas, limitar o tempo de hospedagem, entre outros. A plataforma online conta com mais de 400 milhões de pessoas cadastradas no mundo todo e mais de 7 milhões de acomodações. Em 2016, o Rio de Janeiro foi o quarto destino em número de anúncios do Airbnb no mundo, ficando atrás somente de Paris, Londres e Nova Iorque (Ramos, 2017). Neste trabalho, iremos analisar uma base de dados do airbnb do Rio de Janeiro no ano de 2019 e extrair algumas dessas informações para entender quais características são mais valorizadas pelos hospedes, verificar a relação entre preço e localização do imóvel, os períodos mais caros para se hospedar no RJ, qual a influência da reputação dos anfitriões no preço, quais são as características mais valorizadas pelos clientes, e diversas outras verificações que são pertinentes para um estudo economico e social desse tipo de plataforma. Esta análise pode fornecer insights valiosos sobre a dinâmica do mercado de hospedagem e seu impacto na sociedade.
Os dados aqui apresentados foram coletados da plataforma Kaggle [inserir link aqui] . O arquivo é composto por 25 planilhas, sendo cada uma pertencente a um determinado mês dos anos de 2018 a 2020, sendo 2019 o único que possui planilhas de todos os meses. Cada planilha conta com cerca de 98 colunas e mais de 89000 linhas.
Por ser uma base de dados extensa e com muitas informações desnecessárias para o projeto, foi feita uma análise de cada arquivo e selecionado apenas os mais importantes para esta aplicação. Para a análise deste trabalho, filtramos apenas aqruivos dos meses referentes ao ano de 2019. Todos os arquivos de 2019 foram reunidos em apenas uma planilha e colunas que não agregariam ao projeto fora excluídas, reduzindo para 55 o número de colunas e 422036 o número de linhas. Além disso, as colunas que continham os preços estavam como tipo String, o que dificultaria uma análise posterior e, por isso, as transformamos em valores Float. O resultado está mostrado na tabela abaixo.
MOSTRAR TABELA AQUI!!!!
Segue a tabela com os pacotes que foram utilizados para o projeto e suas respectivas aplicações.
INSERIR TABELA AQUI!!!
Iremos agora explorar os dados já obtidos e tratados anteriormente. Veremos que, a partir deles, é possível realizar diversas análises que podem proporcionar uma melhoria no atendimento ao cliente, aumento do lucro ou redução de desperdício, e outras características que vão depender do tipo de dados que são recolhidos. Para os dados aqui coletados, vamos analisar:
As respostas dessas perguntas podem ajudar um host a se tornar um superhost ou realizar cobranças devidas pelos serviços oferecidos, de modo que ele poderá aumentar seu lucro e fazer novos negócios que sejam interessantes para os hospedes.
Para se tornar um superhost, o dono da hospedagem precisa atender a critérios como excelência do serviço confirmada pela avaliação dos hospedes; baixa taxa de cancelamento; alta taxa de resposta; e ter realizado mais de 10 estadias ou completado 100 noites em pelo menos 3 reservas nos últimos 12 meses. Os superhosts possuem algumas vantagens na plataforma, como maior visibilidade com um destaque nas pesquisas que aumentam a chance de uma nova reserva; distintivo de superhost, que aparece em seu perfil e sinaliza aos clientes que aquele anfitrião é de confiança; suporte prioritário na plataforma, o ajudando a resolver problemas mais rápido e facilmente; convite para eventos exclusivos do Airbnb; entre outras vantagens. Sendo assim, é de grande interesse para quem está oferecendo o serviço, se tornar um superhost e aqui analisaremos os dados que podem ajudar quem está na busca de se tornar um superhos na plataforma Airbnb.
Tempo de Resposta
library(dplyr)
library(ggplot2)
library(readr)
library(gridExtra)
caminho_arquivo <- "C:/Users/Clariele/Desktop/Mestrado UFRPE/Computação para Análise de Dados/Projeto2VA/arquivo_combinado.csv"
base_airbnb <- read_csv(caminho_arquivo)
#Gráfico em barras com a média da taxa de resposta para os superhosts
dados_superhost <- base_airbnb %>% filter(host_is_superhost == TRUE) %>% filter(host_response_time != "N/A")
plot1 <- ggplot(dados_superhost, aes(x = host_response_time)) +
geom_bar(fill = 'darkorange') +
theme_minimal() +
labs(title = "Superhosts", x = "Tempo de Resposta", y = "Quantidade") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
#Gráfico em barras com a média da taxa de resposta para os não-superhosts
dados_nao_superhost <- base_airbnb %>% filter(host_is_superhost == FALSE)
dados_nao_superhost <- dados_nao_superhost %>% filter(host_response_time != "N/A")
plot2 <- ggplot(dados_nao_superhost, aes(x = host_response_time)) +
geom_bar(fill = "steelblue") +
theme_minimal() +
labs(title = "Não Superhosts", x = "Tempo de Resposta", y = "Quantidade") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
grid.arrange(plot1, plot2, nrow=1, ncol=2)
A partir dos gráficos, podemos perceber que aproximadamente 70% dos Superhosts respondem as solicitações dos seus clientes em menos de 1h e nenhum deles demora mais de um dia para responder. Os anfitriões que não são superhosts, por sua vez, costumam demorar mais para responder, embora aproximadamente 30% deles responda em menos de 1h, existe uma taxa significativa que deixa seus clientes esperando resposta por mais de um dia. Essa espera pode fazer com que o hóspede desista da reserva e procure um outro anfitrião, levando a perda de receita e possíveis comentários negativos que dificulta futuras reservas. Também é possível notar que, apesar de ser um fator importante, não é a única característica que leva um anfitrião a se tornar um Superhost, visto que mais de 60000 anfitriões responde rapidamente, mas não possuem o selo. Portanto, veremos outras características que são importantes para essa validação.
Alguns hosts costumam oferecer um desconto na hospedagem caso a reserva seja de pelo menos uma semana. Esse desconto facilita para quem precisa de hospedar por mais tempo e, ao mesmo tempo, reduz o esforço de busca de novo hóspede para quem oferece a estadia. Nem todos os anfitriões oferecem esse desconto, então estes foram retirados da análise.
#```{r grafico2, echo=TRUE, warning=FALSE, message=FALSE}
#Calculando a porcentagem de desconto na reserva semanal:
base_airbnb_filtered <- base_airbnb %>% filter(!is.na(price) & !is.na(weekly_price)) base_airbnb_filtered <- base_airbnb_filtered %>% mutate(difference_week_percent = (((price * 7) - weekly_price)/(price * 7))*100) base_airbnb_filtered <- base_airbnb_filtered %>% filter(difference_week_percent >= 0)
#Contando quantas vezes cada faixa de valor de desconto aparece na base de dados:
count_m5 <- base_airbnb_filtered %>% filter(difference_week_percent <= 5) %>% summarize(count = n())
count_m10 <- base_airbnb_filtered %>% filter(difference_week_percent > 5 & difference_week_percent <= 10) %>% summarize(count = n())
count_m15 <- base_airbnb_filtered %>% filter(difference_week_percent > 10 & difference_week_percent <= 15) %>% summarize(count = n())
count_m20 <- base_airbnb_filtered %>% filter(difference_week_percent > 15 & difference_week_percent <= 20) %>% summarize(count = n())
#Fazendo um gráfico de pizza para mostrar qual faixa de valor é mais recorrente: counts <- data.frame( category = c(“<= 5%”, “> 5% & <= 10%”, “> 10% & <= 15%”, “> 15% & <= 20%”), count = c(count_m5\(count, count_m10\)count, count_m15\(count, count_m20\)count) )
ggplot(counts, aes(x = ““, y = count, fill = category)) + geom_bar(width = 1, stat =”identity”) + coord_polar(“y”, start = 0) + theme_void() + labs(title = “Quantidade de hosts que oferece desconto na hospedagem semanal”, fill = “Faixa de Desconto”) + theme(legend.title = element_text(face = “bold”, size = 12)) + geom_text(aes(label = count), position = position_stack(vjust = 0.5))
#```
Taxa de Limpeza Alguns hosts costumam cobrar uma taxa extra para a limpeza do local de hospedagem. Esse valor costuma variar de acordo com o tipo de hospedagem, seja hotel, quarto compartilhado, casa ou apartamento. Nesta seção, vamos mostrar o preço médio que cada tipo de hospedagem costuma cobrar por essa taxa de limpeza. Nesse momento, não estamos levando em consideração outros fatores que tambem impactam nesse valor, como a localização da hospedagem, por exemplo. O gráfico foi gerado levando em consideração apenas a média do preço de cada tipo de hospedagem, conforme o código a seguir.
caminho_arquivo <- "C:/Users/Clariele/Desktop/Mestrado UFRPE/Computação para Análise de Dados/Projeto2VA/arquivo_combinado.csv"
base_airbnb <- read_csv(caminho_arquivo)
#Excluindo transformando a coluna de cleaning_fee em valores numéricos e excluido valores NA
base_airbnb$cleaning_fee <- as.numeric(gsub("[\\$,]", "", base_airbnb$cleaning_fee))
base_airbnb_fee <- base_airbnb %>% filter(cleaning_fee != "NA") %>% filter(room_type != "NA")
# Cálculo do preço preço médio por tipo de quarto
average_cleaning_fee <- aggregate(cleaning_fee ~ room_type, base_airbnb, mean)
# Gráfico em barras do preço médio da taxa de limpeza por tipo de quarto
ggplot(average_cleaning_fee, aes(x = room_type, y = cleaning_fee)) +
geom_bar(stat = "identity", fill = "skyblue") +
labs(title = "Preço Médio da Taxa de Limpeza por Tipo de Quarto",
x = "Tipo de Quarto",
y = "Preço Médio ($)") +
theme_minimal()
A partir do gráfico, é possível perceber que a taxa de limpeza cobrada pelo quarto de hotel e pelo quarto privado em casa/apartamento são similares, enquanto os quartos compartilhados costumam cobrar menos por esse serviço. Essa relação, no entanto, não é proporcional a quantidade de pessoas que podem se hospedar no quarto, visto que a diferença de preço da taxa do quarto privado e compartilhado não chega a 1/3 do seu valor. Já para o espaço completo individual (casa ou apartamento), a taxa costuma ser bem mais alta do que as demais, custando em média mais de R$175.
Taxa por Pessoa Extra
As hospedagens costumam limitar a quantidade de pessoas que pode pernoitar no local. Caso o cliente necessite colocar uma pessoa a mais, alguns locais permitem esse feito desde que pague um valor a mais por esse novo hóspede. Vamos calcular a média de valor que cada tipo de hospedagem costuma cobrar por isso. Novamente, não vamos levar em consideração nenhum outro fator além do preço e tipo de quarto.
base_airbnb$extra_people <- as.numeric(gsub("[\\$,]", "", base_airbnb$extra_people))
base_airbnb_fee <- base_airbnb %>% filter(extra_people != "NA") %>% filter(room_type != "NA")
# Cálculo do preço preço médio por tipo de quarto
average_extra_people <- aggregate(extra_people ~ room_type, base_airbnb, mean)
# Gráfico em barras do preço médio por pessoa extra por tipo de quarto
ggplot(average_extra_people, aes(x = room_type, y = extra_people)) +
geom_bar(stat = "identity", fill = "purple") +
labs(title = "Preço Médio por Pessoa Extra por Tipo de Quarto",
x = "Tipo de Quarto",
y = "Preço Médio ($)") +
theme_minimal()
## Conclusão