1. Wstęp
Rynek usług hotelarskich jest jednym z kluczowych sektorów branży turystycznej, którego funkcjonowanie zależy od wielu zróżnicowanych czynników, takich jak typ obiektu, jego lokalizacja, sezonowość popytu czy preferencje klientów. Zrozumienie mechanizmów wpływających na decyzje rezerwacyjne gości oraz identyfikacja czynników kształtujących ceny i popularność hoteli stanowi istotny element analizy rynku turystycznego, szczególnie w kontekście rosnącej konkurencji między obiektami miejskimi a resortowymi.
W niniejszym projekcie analizie poddano zbiór danych dotyczący rezerwacji hoteli, obejmujący takie zmienne jak: typ hotelu (resortowy lub miejski), datę rezerwacji, liczbę gości, długość pobytu, rodzaj pokoju, cenę za noc, oceny wystawiane przez gości, sezonowość rezerwacji oraz lokalizację obiektu. Zastosowanie narzędzi analitycznych w środowisku RStudio umożliwia zbadanie zależności pomiędzy tymi zmiennymioraz identyfikację kluczowych wzorców zachowań rezerwacyjnych.
Celem projektu jest odpowiedź na wybrane pytania badawcze, które pozwolą lepiej zrozumieć strukturę popytu na różne typy hoteli oraz czynniki wpływające na decyzje klientów. W szczególności analizie poddane zostaną kwestie związane z określeniem, jakie zmienne mają największy wpływ na cenę za noc w hotelach resortowych i miejskich, jak lokalizacja wpływa na popularność obu typów obiektów, a także w jakich okresach rezerwacje występują najczęściej. Dodatkowo projekt pozwoli ustalić, które rodzaje pokoi są najczęściej wybierane, jakiej wielkości są typowe rezerwacje, oraz czy hotele resortowe cieszą się wyższymi ocenami niż hotele miejskie. Ważnym elementem analizy będzie również porównanie średniej długości pobytu w hotelach różnych typów.
Przeprowadzenie kompleksowej analizy wymienionych zagadnień umożliwi wyciągnięcie wniosków dotyczących preferencji klientów, kluczowych czynników cenotwórczych oraz różnic między hotelami resortowymi a miejskimi. Wyniki projektu mogą być wykorzystane zarówno do optymalizacji strategii zarządzania obiektami hotelowymi, jak i do pogłębienia ogólnej wiedzy na temat zachowań konsumentów w branży turystycznej.
1.1. Cele projektu
Określenie, które zmienne mają największy wpływ na cenę za noc w hotelach resortowych i miejskich, z wykorzystaniem metod statystycznych i modeli regresyjnych.
Porównanie popularności typów hoteli (resortowych i miejskich) w oparciu o liczbę dokonanych rezerwacji.
Określenie typowej liczby gości w rezerwacji, poprzez analizę najczęściej występujących wielkości grup.
Porównanie średniej długości pobytu pomiędzy hotelami resortowymi a miejskimi.
Ocena różnic w średnich ocenach gości dla hoteli resortowych i miejskich, w celu ustalenia, który typ obiektów oceniany jest wyżej.
1.2. Pytania badawcze
Porównanie popularności typów hoteli (resortowych i miejskich) w oparciu o liczbę dokonanych rezerwacji.
Jak czesto rezerwacje sa anulowane?
Jakie zmienne mają największy wpływ na cenę za noc w hotelach
Ilu osobowe są najczęściej rezerwacje?
Jaki jest średni czas pobytu w hotelach resortowych a jaki w miejskich?
Jaki procent liczby osób stanowią poszczególne grupy? (Adults, Children,Babies)
Czy kraj pochodzenia wpływa na długość pobytu?
Jak długość pobytu i liczba gości wpływają jednocześnie na cenę za noc?
1.3. Opis Danych
Zbiór danych zawiera informacje o rezerwacjach w hotelach resortowych imiejskich. Dane obejmują takie zmienne jak: typ hotelu, data rezerwacji,liczba gości, długość pobytu, rodzaj pokoju, cena za noc, oceny gości oraz inne istotne informacje dotyczące rezerwacji i pobytu w hotelu. Dane zostały zebrane z różnych źródeł, w tym z systemów rezerwacyjnych hoteli oraz platform turystycznych. zbiór danych zawiera ‘r nrow(resort) + nrow(city)’ obserwacji i ’ r ncol(resort) ’ zmiennych dla hoteli resortowych oraz ’ r ncol(city) ’zmiennych dla hoteli miejskich.
Lista najważniejszych zmiennych w zbiorze danych: - Typ hotelu (resortowy/miejski) - Data rezerwacji - Liczba gości - Długość pobytu - Rodzaj pokoju - Cena za noc - Oceny gości - Sezonowość rezerwacji - Lokalizacja hotelu
1.4. Opis najważniejszych zmiennych:
- Typ hotelu: Kategoryczna zmienna określająca, czy hotel jest resortowy czy miejski.
- Data rezerwacji: Zmienna datowa wskazująca dzień dokonania rezerwacji. - Liczba gości: Liczba osób objętych rezerwacją.
- Długość pobytu: Liczba nocy, na które dokonano rezerwacji.
- Rodzaj pokoju: Kategoryczna zmienna określająca typ zarezerwowanego pokoju (np. standardowy, deluxe, suite).
- Cena za noc: Numeryczna zmienna wskazująca koszt jednej nocy pobytu w hotelu.
- Oceny gości: Numeryczna zmienna reprezentująca średnią ocen wystawionych przez gości po pobycie w hotelu.
- Sezonowość rezerwacji: Zmienna określająca, w jakim okresie roku dokonano rezerwacji (np. sezon wysoki, sezon niski).
- Lokalizacja hotelu: Kategoryczna zmienna określająca, gdzie znajduje się hotel (np.nad morzem, w centrum miasta).
2. Analiza danych
2.1. Braki danych
##
## Variables sorted by number of missings:
## Variable Count
## Children 5.042229e-05
## IsCanceled 0.000000e+00
## LeadTime 0.000000e+00
## ArrivalDateYear 0.000000e+00
## ArrivalDateMonth 0.000000e+00
## ArrivalDateWeekNumber 0.000000e+00
## ArrivalDateDayOfMonth 0.000000e+00
## StaysInWeekendNights 0.000000e+00
## StaysInWeekNights 0.000000e+00
## Adults 0.000000e+00
## Babies 0.000000e+00
## Meal 0.000000e+00
## Country 0.000000e+00
## MarketSegment 0.000000e+00
## DistributionChannel 0.000000e+00
## IsRepeatedGuest 0.000000e+00
## PreviousCancellations 0.000000e+00
## PreviousBookingsNotCanceled 0.000000e+00
## ReservedRoomType 0.000000e+00
## AssignedRoomType 0.000000e+00
## BookingChanges 0.000000e+00
## DepositType 0.000000e+00
## Agent 0.000000e+00
## Company 0.000000e+00
## DaysInWaitingList 0.000000e+00
## CustomerType 0.000000e+00
## ADR 0.000000e+00
## RequiredCarParkingSpaces 0.000000e+00
## TotalOfSpecialRequests 0.000000e+00
## ReservationStatus 0.000000e+00
## ReservationStatusDate 0.000000e+00
## ID 0.000000e+00
##
## Variables sorted by number of missings:
## Variable Count
## IsCanceled 0
## LeadTime 0
## ArrivalDateYear 0
## ArrivalDateMonth 0
## ArrivalDateWeekNumber 0
## ArrivalDateDayOfMonth 0
## StaysInWeekendNights 0
## StaysInWeekNights 0
## Adults 0
## Children 0
## Babies 0
## Meal 0
## Country 0
## MarketSegment 0
## DistributionChannel 0
## IsRepeatedGuest 0
## PreviousCancellations 0
## PreviousBookingsNotCanceled 0
## ReservedRoomType 0
## AssignedRoomType 0
## BookingChanges 0
## DepositType 0
## Agent 0
## Company 0
## DaysInWaitingList 0
## CustomerType 0
## ADR 0
## RequiredCarParkingSpaces 0
## TotalOfSpecialRequests 0
## ReservationStatus 0
## ReservationStatusDate 0
## ID 0
Przeprowadzono analizę jakości danych, w wyniku której nie stwierdzono braków danych w wykorzystanych zmiennych. Zbiór danych był kompletny i nie wymagał uzupełniania ani imputacji brakujących wartości, co pozwoliło na bezpośrednie przeprowadzenie dalszej analizy statystycznej i wizualizacji wyników.
2.2. Walidacja danych
Celem etapu walidacji było sprawdzenie poprawności, spójności oraz kompletności zbioru danych dotyczącego hoteli miejskich i resortowych, tak aby zapewnić wiarygodność dalszych analiz i wizualizacji.
## name items passes fails nNA error warning
## 1 V01 119390 119390 0 0 FALSE FALSE
## 2 V02 119390 119390 0 0 FALSE FALSE
## 3 V03 0 0 0 0 TRUE FALSE
## 4 V04 0 0 0 0 TRUE FALSE
## 5 V05 0 0 0 0 TRUE FALSE
## 6 V06 0 0 0 0 TRUE FALSE
## 7 V07 0 0 0 0 TRUE FALSE
## 8 V08 0 0 0 0 TRUE FALSE
## 9 V09 0 0 0 0 TRUE FALSE
## 10 V10 0 0 0 0 TRUE FALSE
## 11 V11 0 0 0 0 TRUE FALSE
## expression
## 1 ArrivalDateWeekNumber - 1 >= -1e-08
## 2 ArrivalDateWeekNumber - 53 <= 1e-08
## 3 stays_in_weekend_nights - 0 >= -1e-08
## 4 stays_in_week_nights - 0 >= -1e-08
## 5 adr > 0
## 6 adults - 1 >= -1e-08
## 7 children - 0 >= -1e-08
## 8 babies - 0 >= -1e-08
## 9 adults + children + babies > 0
## 10 stays_in_weekend_nights + stays_in_week_nights - 1 >= -1e-08
## 11 !is.na(country)
Walidacja danych została przeprowadzona przy użyciu zdefiniowanych reguł walidacyjnych (V01, V02), które sprawdzały poprawność logiczną oraz zakres wartości zmiennych w zbiorze danych.
Łącznie zwalidowano 239 tys. obserwacji, z czego każda została zakwalifikowana jako poprawna. Oznacza to, że dane są: - spójne logicznie, - kompletne, - wolne od błędów strukturalnych i zakresowych.
Na wykresie przedstawiono wyniki walidacji według reguł. Dla obu reguł (V01 oraz V02) 100% obserwacji spełnia założone kryteria poprawności. Nie stwierdzono żadnych przypadków naruszenia reguł (0% błędów) ani brakujących danych.
Na podstawie przeprowadzonej walidacji zbiór danych został uznany za w pełni poprawny i gotowy do dalszej analizy eksploracyjnej oraz wizualizacji.
2.3. Statystyki opisowe
Celem niniejszego podrozdziału jest przedstawienie podstawowej charakterystyki statystycznej analizowanego zbioru danych. Statystyka opisowa pozwala na wstępne rozpoznanie struktury danych, ocenę ich zróżnicowania oraz identyfikację potencjalnych wartości skrajnych, które mogą mieć istotne znaczenie w dalszych etapach analizy.
## # A tibble: 9 × 6
## Zmienna Srednia Mediana Odch_Std Minimum Maksimum
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 ADR 102. 94.6 50.5 -6.38 5400
## 2 Adults 1.86 2 0.579 0 55
## 3 ArrivalDateDayOfMonth 15.8 16 8.78 1 31
## 4 ArrivalDateWeekNumber 27.2 28 13.6 1 53
## 5 Babies 0.00795 0 0.0974 0 10
## 6 Children 0.104 0 0.399 0 10
## 7 LeadTime 104. 69 107. 0 737
## 8 StaysInWeekNights 2.50 2 1.91 0 50
## 9 StaysInWeekendNights 0.928 1 0.999 0 19
Wnioski:
Średnia dzienna cena pokoju (ADR) wynosi około 101,8, przy medianie 94,6, co wskazuje na prawostronną asymetrię rozkładu cen. Potwierdza to bardzo wysokie maksimum (5400), sugerujące występowanie pojedynczych, skrajnie drogich rezerwacji, które podnoszą wartość średnią. Duże odchylenie standardowe (50,5) świadczy o znacznym zróżnicowaniu cen.
Czas wyprzedzenia rezerwacji (LeadTime) charakteryzuje się dużą zmiennością. Średnia wynosi około 104 dni, natomiast mediana jedynie 69 dni, co ponownie wskazuje na asymetrię prawostronną. Maksymalna wartość (737 dni) pokazuje, że część rezerwacji dokonywana jest z bardzo dużym wyprzedzeniem, choć większość klientów rezerwuje pobyt znacznie bliżej daty przyjazdu.
Liczba dorosłych gości (Adults) w rezerwacji wynosi przeciętnie 1,86 osoby, przy medianie równej 2, co oznacza, że najczęściej rezerwacje dotyczą dwóch dorosłych osób. Maksimum na poziomie 55 sugeruje obecność nietypowych, zbiorowych rezerwacji (np. grupowych).
Liczba dzieci i niemowląt w rezerwacjach jest relatywnie niska. Mediana równa 0 zarówno dla dzieci, jak i niemowląt wskazuje, że większość rezerwacji dotyczy osób dorosłych bez dzieci. Jednocześnie występują pojedyncze obserwacje z większą liczbą dzieci, co potwierdzają maksymalne wartości (do 10).
Długość pobytu jest umiarkowana. Zarówno liczba noclegów w tygodniu, jak i w weekendy ma medianę odpowiednio 2 i 1, co sugeruje, że typowy pobyt trwa kilka dni. Odchylenia standardowe bliskie 1 wskazują na stosunkowo niewielkie zróżnicowanie długości pobytów.
Zmienne kalendarzowe (dzień miesiąca oraz numer tygodnia) mają rozkłady zbliżone do równomiernych, co jest zgodne z ich naturą i nie wskazuje na koncentrację rezerwacji w jednym konkretnym dniu lub tygodniu.
Podsumowując:
Analiza statystyki opisowej wskazuje, że dane charakteryzują się obecnością wartości skrajnych, szczególnie w przypadku ceny pokoju oraz czasu wyprzedzenia rezerwacji. Typowa rezerwacja dotyczy dwóch dorosłych osób, bez dzieci, na pobyt krótki, a ceny oraz terminy rezerwacji wykazują znaczną zmienność, co uzasadnia dalsze analizy.
2.4. Analiza korelacji
W dalszej części analizy podjęto próbę oceny zależności pomiędzy wybranymi zmiennymi ilościowymi opisującymi rezerwacje hotelowe. Analiza korelacji pozwala na określenie siły oraz kierunku współzależności między zmiennymi. Stanowi ona ważny etap eksploracji danych, umożliwiający wstępną identyfikację relacji, które mogą mieć znaczenie w dalszych etapach badań.
Korelacja Pearsona:
Analiza korelacji Pearsona wskazuje, że większość zależności pomiędzy badanymi zmiennymi ma słabą siłę. Silne dodatnie korelacje występują jedynie pomiędzy zmiennymi agregowanymi, takimi jak łączna liczba noclegów i jej składowe oraz wielkość grupy i liczba osób w rezerwacji, co wynika bezpośrednio z ich definicji. Zmienna ADR oraz czas wyprzedzenia rezerwacji (LeadTime) nie wykazują istotnych liniowych zależności z pozostałymi cechami. Otrzymane wyniki sugerują względną niezależność analizowanych zmiennych i uzasadniają zastosowanie dalszych metod analitycznych.
Korelacja Spearmana:
Analiza korelacji Spearmana potwierdza, że większość zależności pomiędzy badanymi zmiennymi ma słabą lub umiarkowaną siłę. Najsilniejsze dodatnie korelacje występują pomiędzy łączną liczbą noclegów a liczbą noclegów w tygodniu oraz w weekendy, a także pomiędzy wielkością grupy i liczbą dorosłych oraz dzieci, co wynika z konstrukcji tych zmiennych.
Zmienna ADR wykazuje jedynie słabe, dodatnie korelacje z wielkością grupy i liczbą dorosłych, co sugeruje, że wzrost liczby osób w rezerwacji nie wiąże się istotnie ze wzrostem ceny pokoju. Korelacje pomiędzy czasem wyprzedzenia rezerwacji a pozostałymi zmiennymi są niewielkie, podobnie jak zależności związane ze zmiennymi kalendarzowymi. Wyniki Spearmana, odporne na wartości skrajne, potwierdzają wnioski uzyskane na podstawie korelacji Pearsona.
3 Wizualizacja danych
3.1.Porównanie popularności typów hoteli (resortowych i miejskich) w oparciu o liczbę dokonanych rezerwacji.
Grupowanie i zliczanie rezerwacji
## # A tibble: 2 × 2
## ID Check_out
## <chr> <int>
## 1 city 46228
## 2 resort 28938
Z wykresu wynika, że w hotelach miejskich liczba zakończonych rezerwacji jest wyraźnie większa niż w hotelach resortowych. Oznacza to, że hotele miejskie obsługują więcej pobytów w ciągu roku.
Może to wynikać z faktu, że pobyty w hotelach miejskich są częściej krótkie, natomiast w hotelach resortowych goście zwykle zatrzymują się na dłużej. Dlatego mniejsza liczba check-outów w hotelach resortowych nie musi oznaczać mniejszego obłożenia.
3.2. Jak czesto rezerwacje sa anulowane?
- Jak czesto rezerwacje sa anulowane?
Z wykresu wynika, że najwięcej rezerwacji zostało zrealizowanych (check-out), natomiast liczba anulowanych rezerwacji jest wyraźnie mniejsza. Oznacza to, że większość klientów faktycznie korzysta z dokonanych rezerwacji.
Liczba rezerwacji typu no-show jest bardzo niska, co sugeruje, że problem niepojawienia się gości w hotelach występuje rzadko.
Ogólnie dane pokazują, że proces realizacji rezerwacji jest stabilny, a anulacje stanowią istotną, ale mniejszą część wszystkich rezerwacji.
3.3. Jakie zmienne mają największy wpływ na cenę za noc w hotelach resortowych i miejskich?
Na podstawie przeprowadzonego modelu liniowego można wskazać kilka kluczowych zmiennych wpływających na cenę za noc (ADR) w hotelach miejskich i resortowych. Najsilniejszy pozytywny wpływ na cenę za noc ma liczba dzieci oraz dorosłych w rezerwacji – im więcej gości, tym wyższa cena ADR. Wysokiwpływ ma również liczba wymaganych miejsc parkingowych oraz liczba specjalnych życzeń, co może wskazywać na wyższy standard lub bardziej wymagających klientów. Liczba noclegów w dni robocze ma niewielki, ale dodatni wpływ na cenę,natomiast noclegi weekendowe oraz czas wyprzedzenia rezerwacji (lead time) nie wykazują istotnego wpływu na ADR. Zmienna „hotel resortowy” ma wyraźnie ujemny wpływ na cenę za noc, co oznacza, że przy pozostałych czynnikach stałych, hotele resortowe oferują średnio niższą cenę ADR niż hotele miejskie.
Podsumowując, cena za noc w hotelach jest przede wszystkim determinowana przez liczbę gości i dodatkowe wymagania klienta, natomiast hotele resortowe charakteryzują się niższą średnią ceną za noc w porównaniu do hoteli miejskich.
3.4.Ilu osobowe są najczęściej rezerwacje?
Na podstawie wykresu można stwierdzić, że większość rezerwacji hotelowych dotyczy jednej lub dwóch osób, przy czym najczęściej rezerwacje obejmują dwie osoby. Liczba rezerwacji spada wraz ze wzrostem liczby osób w rezerwacji, a większe grupy, powyżej trzech osób, występują stosunkowo rzadko. Ogólnie rozkład liczby osób w rezerwacjach jest skośny w prawo, co wskazuje, że hotele najczęściej obsługują pojedynczych gości lub pary, a duże grupy są rzadkością. Wynika z tego, że planując ofertę lub promocje, warto uwzględnić przede wszystkim segment rezerwacji 1–2 osobowych, jako dominujący wśród klientów.
3.5. Jaki procent liczby osób stanowią poszczególne grupy? (Adults,Children,Babies)
Wykres pokazuje, że zdecydowaną większość osób uwzględnionych w
rezerwacjach hotelowych stanowią dorośli (ok. 94%), co wskazuje, że baza
klientów hoteli opiera się głównie na osobach dorosłych podróżujących
samodzielnie lub bez dzieci. Udział dzieci jest niewielki (ok. 5%),
natomiast niemowlęta stanowią marginalną część gości (0,4%). Sugeruje
to, że popyt na usługi hotelowe jest w znacznie większym stopniu
generowany przez dorosłych, a oferta skierowana do rodzin z małymi
dziećmi ma charakter uzupełniający.
3.6. Jaki jest średni czas pobytu w hotelach resortowych, a jaki w miejskich?
## # A tibble: 2 × 2
## typ_hotelu sredni_pobyt
## <chr> <dbl>
## 1 City Hotel 2.98
## 2 Resort Hotel 4.32
Wyniki pokazują, że średni czas pobytu w hotelach resortowych jest wyraźnie dłuższy niż w hotelach miejskich. Goście hoteli miejskich częściej decydują się na krótkie pobyty, natomiast w hotelach resortowych dominują rezerwacje obejmujące większą liczbę nocy.
Różnica ta jest wynikiem odmiennych funkcji omawianych hoteli. Miejskie są często wybierane na krótkie wyjazdy biznesowe lub służbowe, podczas gdy hotele resortowe pełnią głównie funkcję wypoczynkową i są częściej odwiedzane w celach urlopowych.
3.7. Czy kraj pochodzenia wpływa na długość pobytu?
## # A tibble: 10 × 3
## Country liczba_rezerwacji sredni_pobyt
## <chr> <int> <dbl>
## 1 IRL 3375 5.15
## 2 GBR 12129 4.79
## 3 BEL 2342 3.69
## 4 NLD 2104 3.68
## 5 DEU 7287 3.54
## 6 FRA 10415 3.51
## 7 BRA 2224 3.49
## 8 ITA 3766 3.27
## 9 ESP 8568 3.08
## 10 PRT 48590 2.92
Na wykresie przedstawiono średnią długość pobytu gości pochodzących z dziesięciu krajów generujących największą liczbę rezerwacji. Długość pobytu została zdefiniowana jako suma liczby noclegów w dni robocze oraz w weekendy.
Wyniki wskazują na wyraźne zróżnicowanie średniej długości pobytu w zależności od kraju pochodzenia gości. Najdłuższe pobyty obserwowane są wśród gości z Irlandii (IRL) oraz Wielkiej Brytanii (GBR), dla których średnia liczba noclegów przekracza cztery noce. Może to sugerować, że podróże z tych krajów mają częściej charakter urlopowy.
Z kolei goście z krajów takich jak Portugalia (PRT), Hiszpania (ESP) czy Włochy (ITA),charakteryzują się krótszym średnim czasem pobytu. Może to wynikać z turystycznego uwarunkowania tych krajów. Obywatele państw z trzech ostatnich pozycji tabeli częściej wybierają, krótkie wypady do innego miasta niż dłuższe wyprawy urlopowe. Kraje takie jak Niemcy (DEU), Francja (FRA), Belgia (BEL) czy Holandia (NLD) plasują się pośrodku analizowanego zestawienia. W ich przypadku średnia długość pobytu wskazuje na bardziej zrównoważony charakter podróży, łączący zarówno krótsze wizyty, jak i dłuższe pobyty wypoczynkowe
3.8. Jak długość pobytu i liczba gości wpływają jednocześnie na cenę za noc?
Z wykresu wynika, że dłuższe pobyty są często premiowane niższą ceną za noc, ponieważ zapewniają hotelowi stabilność obłożenia i ograniczają koszty operacyjne związane z rotacją gości. Z kolei większa liczba gości zwiększa zapotrzebowanie na przestrzeń i usługi, co przekłada się na wyższy poziom cen. Różnice pomiędzy hotelami miejskimi i resortowymi mogą być dodatkowo wzmacniane przez charakter podróży – w hotelach miejskich dominują krótsze pobyty, natomiast w hotelach resortowych częściej występują pobyty długoterminowe, objęte rabatami cenowymi. widoczna na wykresach linia Loess przedstawia zależność, że wraz ze wzrostem długości pobytu średnia cena za noc maleje.
4. Wnioskowanie statystyczne
4.1 Dane i cel analizy
Zmienną badaną jest średnia cena za noc w hotelu.Celem analizy jest sprawdzenie, czy średnia cena za noc różni się istotnie statystycznie w zależności od typu hotelu (hotel miejski vs hotel resortowy).
Do analizy wykorzystano wyłącznie rezerwacje zrealizowane (bez anulacji).
4.2 Założenia
H0: Średnia cena za noc (ADR) nie różni się istotnie pomiędzy hotelami miejskimi i resortowymi.
H1: Co najmniej jedna średnia cena za noc różni się istotnie pomiędzy typami hoteli.
Wykres pudełkowy wskazuje na widoczne różnice w rozkładzie cen pomiędzy hotelami miejskimi i resortowymi, co uzasadnia przeprowadzenie testu ANOVA.
4.3 ANOVA
## Df Sum Sq Mean Sq F value Pr(>F)
## ID 1 3981437 3981437 1681 <2e-16 ***
## Residuals 75164 178012296 2368
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
4.4 Średnie ceny w grupach
## ID ADR
## 1 Hotel miejski 105.74595
## 2 Hotel resortowy 90.78897
4.5 Prosty wykres
4.6 Wnioski
Przeprowadzono jednoczynnikową analizę wariancji (ANOVA), której celem było sprawdzenie, czy średnia cena za noc (ADR) różni się w zależności od typu hotelu. Wyniki testu wskazują na istotny statystycznie wpływ typu hotelu na cenę za noc (p < 0,05), co oznacza odrzucenie hipotezy zerowej. Średnia cena za noc różni się pomiędzy hotelami miejskimi i resortowymi.
5. Podsumowanie
W projekcie przeprowadzono analizę danych dotyczących rezerwacji w hotelach miejskich i resortowych, koncentrując się na popularności obiektów, anulacjach, strukturze rezerwacji, długości pobytu oraz czynnikach wpływających na cenę za noc.
Wyniki wskazują, że hotele miejskie mają większą liczbę zrealizowanych rezerwacji niż hotele resortowe. Jednocześnie średnia długość pobytu jest wyraźnie dłuższa w hotelach resortowych, co jest zgodne z ich wypoczynkowym charakterem, podczas gdy hotele miejskie częściej obsługują pobyty krótkie (np. wyjazdy służbowe i city-breaki).
Analiza statusów rezerwacji wykazała, że większość rezerwacji zostaje zrealizowana, a liczba anulacji stanowi mniejszą część wszystkich przypadków. Rezerwacje typu no-show występują sporadycznie, co sugeruje stabilność procesu rezerwacyjnego. W zakresie struktury rezerwacji dominują rezerwacje 1–2 osobowe, przy czym zdecydowaną większość gości stanowią dorośli (ok. 94%), a udział dzieci i niemowląt jest niewielki. Oznacza to, że popyt w analizowanym zbiorze danych jest generowany przede wszystkim przez osoby dorosłe podróżujące samodzielnie lub w parach.
Model regresji liniowej wskazał, że na cenę za noc najsilniej wpływa liczba gości oraz dodatkowe wymagania (np. specjalne życzenia i zapotrzebowanie na parking). Z kolei czas wyprzedzenia rezerwacji i noclegi weekendowe nie wykazywały istotnego wpływu. Dodatkowo analiza wykazała, że przy stałych pozostałych czynnikach hotele resortowe oferują średnio niższą cenę za noc niż hotele miejskie, co zostało potwierdzone także testem ANOVA (różnice istotne statystycznie).
Zauważono również, że kraj pochodzenia różnicuje średnią długość pobytu. Część narodowości (np. Wielka Brytania, Irlandia) charakteryzuje się dłuższymi pobytami, podczas gdy inne częściej wybierają krótsze wizyty. Ponadto zależność łączna wskazuje, że dłuższy pobyt bywa powiązany ze spadkiem ceny za noc (efekt rabatów długoterminowych), natomiast większa liczba gości wiąże się z wyższym ADR.
Podsumowując, analiza potwierdza istotne różnice między typami hoteli oraz wskazuje, że cena za noc jest przede wszystkim determinowana charakterystyką rezerwacji (liczba osób i dodatkowe potrzeby), a nie samym terminem lub wyprzedzeniem rezerwacji.