Wprowadzenie

Rynek nieruchomości mieszkaniowych w dużych miastach charakteryzuje się wysokim stopniem złożoności oraz znacznym zróżnicowaniem cen i cech oferowanych lokali. Na poziom cen mieszkań wpływają jednocześnie czynniki lokalizacyjne, strukturalne oraz związane ze standardem technicznym nieruchomości, a ich oddziaływanie często ma charakter nieliniowy i wzajemnie powiązany. W konsekwencji analiza rynku mieszkaniowego wymaga zastosowania zarówno metod eksploracyjnych, jak i narzędzi analizy statystycznej oraz ekonometrycznej.

Miasto Gdańsk, jako jeden z głównych ośrodków miejskich w Polsce, stanowi interesujący obszar badań ze względu na dynamiczny rozwój urbanistyczny, zróżnicowaną strukturę przestrzenną oraz silne kontrasty pomiędzy centralnymi i peryferyjnymi lokalizacjami. Istotną rolę w kształtowaniu cen mieszkań odgrywa tu dostępność infrastruktury miejskiej, bliskość centrum, zagęszczenie punktów usługowych oraz standard techniczny budynków i lokali. Celem niniejszego projektu jest empiryczna analiza rynku mieszkań w Gdańsku z wykorzystaniem metod analizy danych dostępnych w środowisku R. Badanie obejmuje eksploracyjną analizę danych, ocenę rozkładów kluczowych zmiennych, identyfikację zależności korelacyjnych oraz zastosowanie testów nieparametrycznych i modeli regresji hedonicznej. Szczególny nacisk położono na ocenę wpływu lokalizacji (mierzonej m.in. odległością od centrum miasta) oraz standardu technicznego mieszkań na poziom cen, zarówno całkowitych, jak i cen za metr kwadratowy.

Cel analizy

Celem analizy jest ocena wpływu lokalizacji oraz standardu technicznego mieszkań na poziom cen na rynku mieszkaniowym w Gdańsku. W szczególności badanie koncentruje się na relacji pomiędzy odległością mieszkania od centrum miasta a ceną oraz na sprawdzeniu, czy wybrane cechy standardu technicznego modyfikują tę zależność. W związku z tym sformułowano następujące pytania badawcze i odpowiadające im hipotezy:

H1. Wzrost odległości mieszkania od centrum miasta wiąże się ze spadkiem cen mieszkań oraz cen za metr kwadratowy. Hipoteza ta odzwierciedla klasyczne podejście ekonomiczne, zgodnie z którym atrakcyjność lokalizacji centralnych znajduje odzwierciedlenie w wyższych cenach nieruchomości.

H2. Mieszkania posiadające wybrane cechy wyższego standardu technicznego (takie jak winda, ochrona, miejsce parkingowe, balkon czy komórka lokatorska) osiągają istotnie wyższe ceny za metr kwadratowy niż mieszkania pozbawione tych udogodnień. Hipoteza ta testowana jest z wykorzystaniem nieparametrycznych testów porównawczych, ze względu na skośne rozkłady cen.

H3. Siła i kierunek zależności pomiędzy odległością od centrum a ceną za metr kwadratowy różnią się w zależności od standardu technicznego mieszkania. Hipoteza ta zakłada, że standard techniczny może modyfikować znaczenie lokalizacji, co badane jest poprzez porównanie korelacji w grupach mieszkań o różnym standardzie oraz poprzez zastosowanie interakcji w modelu regresji hedonicznej.

H4. Metraż mieszkania jest dodatnio związany z ceną całkowitą oraz jednocześnie ujemnie związany z ceną za metr kwadratowy. Hipoteza ta odzwierciedla efekt skali, zgodnie z którym większe mieszkania są droższe w ujęciu bezwzględnym, lecz tańsze w przeliczeniu na jednostkę powierzchni.

Przygotowywanie danych do analizy

W pierwszym kroku wczytano zbiór danych , a następnie ograniczono obserwacje wyłącznie do mieszkań zlokalizowanych w mieście Gdańsk. Następnie sprawdzono występowanie duplikatów rekordów przy użyciu funkcji. W analizowanym podzbiorze nie stwierdzono duplikatów, co oznacza, że każda obserwacja odpowiada unikalnej ofercie.

Kolejnym etapem było wstępne uporządkowanie struktury danych poprzez usunięcie zmiennych, które nie są wykorzystywane w dalszej analizie (id, condition, buildingMaterial, city). Dodatkowo wszystkie zmienne zapisane jako tekst (character) zostały przekonwertowane do typu faktor , co ułatwia późniejszą analizę zmiennych jakościowych oraz modelowanie z wykorzystaniem zmiennych kategorycznych.

Na końcu utworzono zmienną pochodną price_m2, definiowaną jako cena mieszkania w przeliczeniu na metr kwadratowy (price / squareMeters). Dzięki temu w analizie możliwe jest równoległe badanie cen w ujęciu całkowitym (price) oraz w ujęciu jednostkowym (price_m2), co jest szczególnie istotne w kontekście porównań mieszkań o różnej powierzchni.

Kontrola jakości danych i reguły walidacyjne

Przed przeprowadzeniem dalszych analiz statystycznych i ekonometrycznych dokonano oceny jakości danych oraz identyfikacji potencjalnych niespójności logicznych w zbiorze. W pierwszym kroku przeanalizowano występowanie braków danych dla poszczególnych zmiennych. Pozwoliło to określić, w których zmiennych brakujące obserwacje występują i powinny zostać dopuszczone w regułach walidacyjnych.

Reguły twarde

Reguły twarde opisują warunki, które muszą być spełnione, aby obserwacja była uznana za logicznie poprawną. Obejmują one przede wszystkim ograniczenia zakresów wartości zmiennych oraz podstawowe zależności pomiędzy cechami mieszkań. Dla zmiennych, w których stwierdzono występowanie braków danych, reguły zostały skonstruowane w taki sposób, aby wartości NA były traktowane jako dopuszczalne.

W ramach reguł twardych zweryfikowano m.in.:

  • powierzchnię mieszkania, ograniczając ją do realistycznego zakresu (0–250 m²),

  • liczbę pokoi, przyjmując wartości od 1 do 8,

  • spójność metrażu i liczby pokoi, zakładając minimalną i maksymalną powierzchnię przypadającą na jeden pokój,

  • relacje pomiędzy piętrem a liczbą kondygnacji w budynku,

  • rok budowy budynku, ograniczony do lat 1850–2025,

  • odległości od punktów usługowych i centrum miasta, wykluczając wartości ujemne oraz skrajnie wysokie,

  • liczbę punktów POI w otoczeniu mieszkania,

  • poprawność kategorii zmiennych jakościowych, takich jak typ budynku, forma własności oraz obecność udogodnień,

  • realistyczny zakres cen za metr kwadratowy, ograniczony do przedziału 8 000–35 000 PLN/m².

Zastosowanie reguł twardych pozwoliło na identyfikację obserwacji naruszających podstawowe założenia logiczne lub ekonomiczne.

Reguły miękkie

Oprócz reguł twardych zdefiniowano również reguły miękkie, które nie dyskwalifikują obserwacji, lecz wskazują na potencjalnie nietypowe lub mało prawdopodobne kombinacje cech. Reguły te mają charakter heurystyczny i opierają się na wiedzy domenowej dotyczącej rynku nieruchomości.

Do reguł miękkich zaliczono m.in.:

  • budynki sprzed 1945 roku o bardzo dużej liczbie kondygnacji,

  • brak windy w wysokich budynkach wybudowanych po 1995 roku,

  • nietypowe relacje pomiędzy metrażem a liczbą pokoi (np. bardzo małe mieszkania z dużą liczbą pokoi lub bardzo duże mieszkania jednopokojowe).

Reguły miękkie służą wyłącznie do sygnalizowania obserwacji odstających pod względem logicznym i nie są podstawą do automatycznego usuwania danych. Ich celem jest wsparcie decyzji analitycznych na dalszych etapach analizy.

W kolejnym etapie analizy przeprowadzono identyfikację wartości odstających dla zmiennych numerycznych z wykorzystaniem metody opartej na rozstępie międzykwartylowym (IQR). Do analizy wybrano wyłącznie zmienne o charakterze liczbowym, co pozwoliło na jednolite zastosowanie kryterium statystycznego.

Dla każdej zmiennej obliczono pierwszy kwartyl (Q1), trzeci kwartyl (Q3) oraz wartość IQR, a następnie określono odsetek obserwacji wykraczających poza przedział \[Q1 - 1.5 \cdot IQR\] \[Q3 + 1.5 \cdot IQR\] Wynik przedstawiono jako procent obserwacji odstających w danej zmiennej.

Identyfikacja wartości odstających (IQR)
Zmienna % obserwacji odstających
Liczba kondygnacji w budynku 13.83
Liczba punktów POI w pobliżu 9.97
Odległość do szkoły [km] 8.07
Odległość do poczty [km] 7.93
Cena całkowita [PLN] 6.65
Piętro 5.08
Odległość do restauracji [km] 3.99
Odległość do przedszkola [km] 3.89
Powierzchnia mieszkania [m²] 3.37
Liczba pokoi 3.12
Odległość do przychodni [km] 2.93
Rok budowy 2.84
Odległość do apteki [km] 2.73
Cena za metr kwadratowy [PLN/m²] 1.01
Długość geograficzna 0.50

Najwięcej wartości odstających dotyczy zmiennych przestrzennych i strukturalnych (liczba kondygnacji, POI, odległości), co wynika z naturalnego zróżnicowania zabudowy i lokalizacji w Gdańsku. Zmienne cenowe, zwłaszcza cena za m², charakteryzują się niskim udziałem outlierów, co potwierdza ich stabilność analityczną. Wartości odstające mają charakter merytoryczny, dlatego nie zostały usunięte z analizy.

Analiza braków danych i imputacja

W niniejszym podrozdziale przeprowadzono analizę występowania braków danych w zbiorze ofert mieszkaniowych zlokalizowanych w Gdańsku. Celem tego etapu było określenie zakresu i struktury braków danych oraz ocena ich potencjalnego wpływu na dalszą analizę statystyczną.

Występowanie braków danych
Podsumowanie dla zmiennych w zbiorze danych (niezaznaczone zmienne nie posiadają braków danych)
Zmienna Liczba braków Udział braków [%]
type 503 25.3
floor 371 18.7
buildYear 225 11.3
hasElevator 88 4.43
collegeDistance 69 3.47
clinicDistance 7 0.352
postOfficeDistance 7 0.352
kindergartenDistance 7 0.352
restaurantDistance 7 0.352
pharmacyDistance 7 0.352
floorCount 5 0.252
schoolDistance 4 0.201
Wyniki testu MCAR (Little’a)
Statystyka χ² Stopnie swobody Wartość p Liczba wzorców braków danych
3314.3 659 0 31

Wynik testu MCAR (Little’a) wskazuje na odrzucenie hipotezy o całkowicie losowym mechanizmie braków danych (p < 0,001).

Wizualizacja braków danych potwierdza, że braki występują jedynie w wybranych zmiennych i mają ograniczony zakres. Rozkład braków danych jest spójny z wynikami analizy tabelarycznej i nie wskazuje na koncentrację braków w jednej lub kilku kluczowych zmiennych.

Ze względu na nielosowy charakter braków oraz ich koncentrację w wybranych zmiennych, do uzupełnienia danych zastosowano metodę imputacji wielokrotnej MICE. Metoda ta pozwala odtworzyć brakujące wartości w sposób zgodny z zależnościami występującymi w zbiorze, ograniczając ryzyko zniekształcenia wyników dalszej analizy. Zmienne o minimalnej liczbie braków pozostawiono bez imputacji, gdyż ich wpływ na modele jest pomijalny. Dzięki przeprowadzonej imputacji uzyskano kompletny i spójny zbiór danych, odpowiedni do kolejnych etapów modelowania.

Braki danych uzupełniono metodą wielokrotnej imputacji MICE, dobierając modele imputacji do charakteru zmiennych (PMM dla zmiennych liczbowych, regresja logistyczna dla binarnej zmiennej hasElevator). Macierz predyktorów ograniczono wyłącznie do zmiennych merytorycznie uzasadnionych, aby uniknąć sztucznych zależności i nadmiernego przeuczenia imputacji. Zmienna type została celowo wyłączona z procesu imputacji. Ostateczny zbiór danych uzyskano po pięciu imputacjach, wybierając jedną kompletną realizację do dalszej analizy.

Wykres przedstawia porównanie rozkładów wartości obserwowanych i imputowanych zmiennej piętro. Rozkłady po imputacji zachowują strukturę danych pierwotnych, bez widocznej koncentracji imputowanych wartości w pojedynczych punktach ani przesunięcia zakresu zmienności.

Wykres gęstości dla zmiennej rok budowy wskazuje, że imputowane wartości są zgodne z rozkładem obserwowanych danych. Nie zaobserwowano sztucznego wygładzenia ani generowania nierealistycznych wartości, co świadczy o poprawnym dopasowaniu procedury imputacji.

Porównanie rozkładów zmiennej odległość do uczelni pokazuje, że imputacja nie zniekształca charakteru danych przestrzennych. Rozkłady wartości imputowanych mieszczą się w zakresie danych obserwowanych i odzwierciedlają ich rzeczywistą zmienność.

Analiza eksploracyjna danych

W niniejszym rozdziale przeprowadzono analizę eksploracyjną danych, koncentrując się na wizualizacji zależności pomiędzy ceną mieszkań a ich cechami ilościowymi, jakościowymi oraz lokalizacyjnymi, w tym rozmieszczeniu przestrzennym ofert.

Wizualizacje

Ceny mieszkań rosną wraz z przechodzeniem do wyższych przedziałów metrażu, przy czym rozkłady w poszczególnych grupach wykazują rosnącą zmienność. Największe zróżnicowanie cen obserwowane jest dla mieszkań o dużej powierzchni.

Wykres pokazuje wyraźny spadek mediany ceny za metr kwadratowy wraz ze wzrostem odległości od centrum miasta. Jednocześnie bliższe lokalizacje charakteryzują się większym rozrzutem cen, co sugeruje większą heterogeniczność ofert w centralnych obszarach.

Cena za metr kwadratowy rośnie wraz z numerem piętra, szczególnie w budynkach wyposażonych w windę. Różnice pomiędzy lokalami z windą i bez windy stają się bardziej widoczne na wyższych kondygnacjach.

Mieszkania z balkonem charakteryzują się wyższą medianą ceny za metr kwadratowy w porównaniu do lokali bez balkonu. Rozkłady wskazują również na większą zmienność cen w grupie mieszkań z balkonem. Różnice cen za m² pomiędzy mieszkaniami z balkonem i bez balkonu są relatywnie niewielkie w porównaniu z innymi czynnikami

Zastosowanie mechanizmu klastrowania markerów umożliwia czytelne przedstawienie rozmieszczenia ofert w obszarach o dużym zagęszczeniu punktów. Wizualizacja ta pozwala na łatwiejszą identyfikację rejonów o wysokiej liczbie ogłoszeń oraz ocenę, czy wysokie i niskie ceny występują w sposób przestrzennie skupiony.

Analiza opisowa zmiennych jakościowych

W niniejszym podrozdziale przeprowadzono analizę zmiennych jakościowych opisujących cechy techniczne mieszkań oraz elementy ich wyposażenia. Celem tej części analizy eksploracyjnej jest ocena kompletności danych, liczby kategorii oraz struktury częstości występowania poszczególnych cech, a także identyfikacja podstawowych zależności pomiędzy wybranymi zmiennymi jakościowymi.

Statystyki opisowe zmiennych jakościowych
Zmienna Liczba obserwacji Liczba braków % kompletności Liczba kategorii
Balkon 1986 0 100.0 2
Winda 1986 0 100.0 2
Miejsce parkingowe 1986 0 100.0 2
Ochrona 1986 0 100.0 2
Komórka lokatorska 1986 0 100.0 2
Forma własności 1986 0 100.0 2
Typ budynku 1986 503 74.7 3

Tabela przedstawia liczbę obserwacji, braki danych, poziom kompletności oraz liczbę kategorii dla zmiennych jakościowych. Zmienne cechują się wysoką kompletnością, a liczba kategorii jest zgodna z ich charakterem, co wskazuje na dobrą jakość danych.

Struktura zmiennych binarnych – udział odpowiedzi „tak”
Zmienna Liczba obserwacji Liczba „tak” % „tak”
hasBalcony 1986 1160 58.4
hasElevator 1986 1053 53.0
hasParkingSpace 1986 239 12.0
hasSecurity 1986 275 13.8
hasStorageRoom 1986 681 34.3

Zestawienie prezentuje udział odpowiedzi pozytywnych w zmiennych binarnych opisujących wyposażenie mieszkań. Widoczne zróżnicowanie częstości występowania poszczególnych udogodnień wskazuje na ich potencjalną rolę w dalszej analizie ofert.

Analiza opisowa zmiennych ilościowych i dyskretnych

W niniejszym podrozdziale przedstawiono analizę opisową zmiennych ilościowych i dyskretnych wykorzystanych w dalszych etapach badania. Zaprezentowano podstawowe miary położenia, zróżnicowania oraz zakresy zmienności, co pozwala scharakteryzować strukturę danych przed przejściem do analizy wizualnej i wnioskowania statystycznego.

Statystyki opisowe (zmienne dyscretne)
Zmienna % kompletności Średnia Odch. std. Min Q1 Mediana Q3 Max
Liczba pokoi 100.0 2.72 0.91 1 2 3 3 6
Piętro 99.7 2.99 2.49 1 1 2 4 18
Liczba kondygnacji w budynku 99.7 5.06 3.39 1 3 4 5 20
Rok budowy 99.9 1995.84 33.48 1870 1976 2012 2021 2024
Liczba punktów POI w pobliżu 100.0 18.18 25.85 0 5 10 19 148

Tabela prezentuje statystyki opisowe zmiennych dyskretnych, które cechują się niemal pełną kompletnością danych. Liczba pokoi i piętro mają niewielką zmienność i skoncentrowane rozkłady wokół wartości typowych dla mieszkań miejskich. Liczba kondygnacji oraz rok budowy wykazują większe zróżnicowanie, co odzwierciedla heterogeniczność zabudowy. Zmienna opisująca liczbę punktów POI w pobliżu charakteryzuje się bardzo dużym rozrzutem i prawostronną asymetrią, wskazując na silne zróżnicowanie lokalizacyjne ofert.

Statystyki opisowe (zmienne numeryczne)
Zmienna % kompletności Średnia Odch. std. Min Q1 Mediana Q3 Max
Powierzchnia mieszkania [m²] 100 58.63 20.14 25.00 44.48 54.90 68.75 147.80
Cena całkowita [PLN] 100 891338.46 390898.19 415000.00 629000.00 765000.00 1024798.25 2499000.00
Cena za metr kwadratowy [PLN/m²] 100 15402.31 4373.61 9035.55 12024.63 14053.57 18386.03 29893.16

Tabela przedstawia statystyki opisowe zmiennych ilościowych i dyskretnych, dla których nie występują braki danych. Rozkład powierzchni mieszkań jest umiarkowanie zróżnicowany i prawostronnie asymetryczny. Ceny całkowite oraz ceny za metr kwadratowy charakteryzują się dużą zmiennością i wyraźną prawostronną asymetrią, co wskazuje na istotny wpływ drogich ofert na wartości średnie i uzasadnia dalszą analizę z wykorzystaniem miar pozycyjnych.

Statystyki opisowe (zmienne odlegościowe)
Zmienna % kompletności Średnia Odch. std. Min Q1 Mediana Q3 Max
Odległość od centrum [km] 100.0 4.78 2.75 0.03 2.37 5.25 6.65 11.54
Odległość do szkoły [km] 99.8 0.46 0.38 0.02 0.22 0.37 0.55 4.82
Odległość do przychodni [km] 99.6 1.15 0.89 0.00 0.50 0.92 1.61 4.50
Odległość do poczty [km] 99.6 0.47 0.36 0.00 0.22 0.37 0.58 2.29
Odległość do przedszkola [km] 99.6 0.40 0.32 0.00 0.19 0.33 0.53 2.71
Odległość do restauracji [km] 99.6 0.33 0.29 0.00 0.13 0.23 0.45 1.86
Odległość do uczelni [km] 100.0 1.90 1.12 0.01 0.95 1.76 2.82 4.92
Odległość do apteki [km] 99.6 0.37 0.28 0.00 0.17 0.31 0.51 2.45

Tabela przedstawia statystyki opisowe zmiennych odległościowych, które charakteryzują się niemal pełną kompletnością danych. Odległość od centrum wykazuje największe zróżnicowanie spośród analizowanych zmiennych, co odzwierciedla przestrzenne rozproszenie ofert. Odległości do podstawowych usług i obiektów użyteczności publicznej są relatywnie niewielkie i skoncentrowane wokół niskich wartości, jednak w większości przypadków widoczna jest prawostronna asymetria rozkładów, wskazująca na obecność ofert położonych znacznie dalej od infrastruktury.

Wnioskowanie statystyczne

W celu formalnej weryfikacji postawionych hipotez badawczych przeprowadzono wnioskowanie statystyczne z wykorzystaniem metod nieparametrycznych, adekwatnych do charakteru danych oraz obserwowanych rozkładów zmiennych. Analiza obejmuje ocenę zależności pomiędzy kluczowymi cechami mieszkań a ceną całkowitą oraz ceną za metr kwadratowy, a także porównanie poziomu cen pomiędzy grupami mieszkań różniącymi się standardem technicznym.

Zastosowano współczynnik korelacji rang Spearmana do badania zależności pomiędzy zmiennymi ilościowymi, takimi jak odległość od centrum oraz metraż mieszkania, a poziomem cen. Dodatkowo, w celu oceny różnic cenowych pomiędzy mieszkaniami z określonymi udogodnieniami a mieszkaniami ich pozbawionymi, wykorzystano test U Manna–Whitneya. Wyniki analiz zaprezentowano zarówno w formie tabelarycznej, jak i graficznej, co umożliwia ocenę siły, kierunku oraz istotności statystycznej badanych zależności.

Odległość od centrum jest słabo, ale jednoznacznie ujemnie skorelowana z ceną całkowitą i ceną za m², natomiast metraż jest silnie dodatnio skorelowany z ceną całkowitą i ujemnie z ceną za m². Potwierdza to klasyczne mechanizmy rynkowe i uzasadnia dalsze modelowanie log-cen.

Rysunek przedstawia rozkład cen za m² mieszkań z windą i bez windy wraz z wynikami testu U Manna–Whitneya, ilustrując istotną statystycznie różnicę pomiędzy grupami

H2: Porównanie ceny za m² między mieszkaniami z cechą standardu i bez (test U Manna–Whitneya)
Cecha Ilość (bez) Ilość (z) Mediana (bez) Mediana (z) W p-value r Wielkość efektu
Balkon 826 1160 14498.62 13916.44 511905.5 0.01 ** 0.06 small
Winda 933 1053 13192.04 15436.01 344623.5 0.00 **** 0.26 small
Miejsce parkingowe 1747 239 14108.70 13963.96 210615.5 0.82 ns 0.00 small
Ochrona 1711 275 13946.70 16157.89 189189.0 0.00 **** 0.12 small
Komórka lokatorska 1305 681 15187.22 13258.06 563937.0 0.00 **** 0.22 small

Mieszkania wyposażone w wybrane elementy standardu (winda, ochrona, komórka lokatorska) osiągają istotnie wyższe ceny za m² niż mieszkania bez tych udogodnień. Wielkości efektu są niewielkie, ale statystycznie istotne, co wskazuje na systematyczny, choć umiarkowany wpływ standardu.

H3: H3: Zależność odległości od centrum i ceny za m² w grupach standardu (korelacja Spearmana)
Cecha ρ (bez cechy) ρ (z cechą) Δρ p (bez cechy) p (z cechą)
Balkon -0.16 -0.14 0.02 <0.001 <0.001
Winda -0.15 -0.22 -0.07 <0.001 <0.001
Miejsce parkingowe -0.15 -0.18 -0.03 <0.001 5.15e-03
Ochrona -0.15 -0.17 -0.02 <0.001 5.30e-03
Komórka lokatorska -0.21 -0.04 0.17 <0.001 3.35e-01

Siła zależności między odległością od centrum a ceną za m² różni się pomiędzy grupami standardu, jednak różnice te są niewielkie i nie zawsze istotne statystycznie. Sugeruje to, że standard techniczny wpływa głównie na poziom ceny, a nie na siłę efektu lokalizacji.

Modele regresji

Regresja liniowa stanowi jedno z podstawowych narzędzi analizy ekonometrycznej wykorzystywanych do badania zależności pomiędzy cechami nieruchomości a ich ceną. W kontekście rynku mieszkaniowego modele regresji hedonicznej pozwalają na dekompozycję ceny mieszkania na wkłady poszczególnych atrybutów, takich jak lokalizacja, cechy strukturalne lokalu oraz elementy standardu technicznego.

Proces budowy modeli regresji w niniejszym badaniu ma charakter sekwencyjny. W pierwszym kroku estymowany jest model bazowy, uwzględniający wyłącznie kluczowy czynnik lokalizacyjny – odległość mieszkania od centrum miasta. Następnie specyfikacja modelu jest stopniowo rozszerzana o zmienne strukturalne (m.in. metraż, liczba pokoi, rok budowy, piętro), zmienne opisujące otoczenie oraz cechy standardu technicznego. Takie podejście umożliwia ocenę przyrostu dopasowania modelu oraz zmian istotności poszczególnych parametrów wraz z rozszerzaniem zbioru zmiennych objaśniających.

Ze względu na obserwowaną skośność rozkładów cen oraz części zmiennych objaśniających, zastosowano transformacje logarytmiczne, co pozwala na stabilizację wariancji reszt oraz interpretację współczynników w kategoriach elastyczności. Dodatkowo, w wybranych specyfikacjach uwzględniono składniki interakcyjne, których celem było sprawdzenie, czy standard techniczny mieszkań modyfikuje siłę wpływu lokalizacji na poziom cen.

Ocena jakości modeli opiera się na analizie miar dopasowania (R² i skorygowanego R²), błędu standardowego reszt, kryteriów informacyjnych oraz diagnostyce założeń modelu, w tym współliniowości i heteroskedastyczności. Na tej podstawie wybrano końcową specyfikację modelu, która łączy dobrą interpretowalność z satysfakcjonującym poziomem dopasowania do danych empirycznych.

Regresja hedoniczna – konstrukcja modeli i interpretacja wyników

Celem analizy było oszacowanie wpływu lokalizacji, cech fizycznych mieszkania oraz elementów standardu technicznego na cenę mieszkań w Gdańsku, a także sprawdzenie, czy wybrane cechy standardu modyfikują zależność między odległością od centrum a ceną mieszkania. W tym celu zastosowano regresję hedoniczną, która jest standardowym narzędziem w badaniach rynku nieruchomości.

Zmienną objaśnianą we wszystkich modelach była logarytmiczna cena za metr kwadratowy mieszkania . Zastosowanie transformacji logarytmicznej pozwala ograniczyć problem heteroskedastyczności oraz umożliwia interpretację współczynników w kategoriach przybliżonych zmian procentowych.

Model 1 – efekt lokalizacji (model bazowy)

Pierwszy model uwzględniał wyłącznie odległość mieszkania od centrum miasta, zapisaną w postaci logarytmu:

\[ \\ln({price\_m^2}) = \beta_0 + \beta_1ln(\text{centreDistance}) + \varepsilon \]

Wyniki wskazują na istotny statystycznie i ujemny wpływ odległości od centrum na cenę za metr kwadratowy. Oznacza to, że wzrost odległości od centrum o 1% wiąże się średnio ze spadkiem ceny za m² o około 0,12%. Rezultat ten jest zgodny z teorią renty gruntowej oraz wcześniejszymi badaniami empirycznymi dotyczącymi rynków mieszkaniowych.

Niska wartość współczynnika determinacji (R² ≈ 7%) nie stanowi wady modelu, lecz potwierdza, że sama lokalizacja nie jest wystarczająca do wyjaśnienia zróżnicowania cen mieszkań.

Model 2 – cechy fizyczne i strukturalne mieszkania

W kolejnym kroku do modelu dodano zmienne opisujące cechy fizyczne i techniczne budynku: metraż mieszkania (w postaci logarytmu), liczbę pokoi, rok budowy oraz położenie mieszkania w budynku (piętro i liczba kondygnacji).

Dodanie tych zmiennych istotnie poprawiło dopasowanie modelu (R² ≈ 20%). Efekt odległości od centrum pozostał stabilny i istotny statystycznie, co świadczy o jego niezależnym wpływie na ceny mieszkań.

Wyniki pokazują, że:

  • liczba pokoi ma ujemny wpływ na cenę za m² – mieszkania z większą liczbą pokoi są przeciętnie tańsze w przeliczeniu na metr kwadratowy,
  • rok budowy ma dodatni i silny wpływ na cenę – nowsze budynki są wyżej wyceniane,
  • wpływ samego metrażu po uwzględnieniu liczby pokoi okazał się statystycznie nieistotny, co sugeruje częściowe dublowanie informacji zawartej w obu zmiennych.

Model 3 – otoczenie i dostępność usług

Trzeci model rozszerzono o zmienne opisujące dostępność usług i infrastruktury miejskiej. Zastosowano zagregowaną miarę liczby punktów użyteczności publicznej (POI) w otoczeniu mieszkania oraz wybrane odległości do usług.

Liczba punktów POI, po transformacji logarytmicznej, okazała się silnie dodatnio skorelowana z ceną mieszkań. Oznacza to, że większa dostępność usług i infrastruktury miejskiej podnosi atrakcyjność lokalizacji i znajduje odzwierciedlenie w wyższych cenach.

Jednocześnie zauważono, że poszczególne miary odległości do usług są ze sobą silnie skorelowane, co prowadzi do problemu współliniowości. W dalszych etapach analizy zdecydowano się pozostawić jedynie odległość od centrum oraz zagregowaną miarę POI jako reprezentatywne zmienne lokalizacyjne.

Model 4 – standard techniczny mieszkania

Czwarty model uwzględniał binarne zmienne opisujące standard techniczny mieszkania, takie jak obecność windy, ochrony czy komórki lokatorskiej.

Wyniki wskazują, że:

  • obecność windy oraz ochrony istotnie podnosi cenę za m²,
  • efekt komórki lokatorskiej jest ujemny, co może wynikać z jej częstszego występowania w starszych budynkach o niższym standardzie,
  • balkon i miejsce parkingowe nie wykazały istotnego wpływu po uwzględnieniu pozostałych cech.

Oznacza to, że nie wszystkie elementy standardu są niezależnie wyceniane przez rynek.

Model 5 – interakcje (test hipotezy głównej)

Ostatni model miał na celu bezpośrednie przetestowanie hipotezy głównej poprzez wprowadzenie interakcji pomiędzy odległością od centrum a wybranymi cechami standardu technicznego (winda, komórka lokatorska). \[ \begin{aligned} \\ln({price\_m^2}) =\;& \beta_0 + \beta_1 \ln(\text{centre}) + \beta_2 \ln(\text{area}) + \beta_3 \text{buildYear} + \beta_4 \text{floor} \\ &+ \beta_5 \ln(\text{poi}) + \beta_6 \text{hasElevator} + \beta_7 \text{hasStorageRoom} \\ &+ \beta_8 \bigl(\ln(\text{centre}) \cdot \text{hasElevator}\bigr) + \beta_9 \bigl(\ln(\text{centre}) \cdot \text{hasStorageRoom}\bigr) + \varepsilon \end{aligned} \]

Choć znaki współczynników interakcji były zgodne z intuicją ekonomiczną, nie uzyskano jednoznacznej istotności statystycznej. Oznacza to, że standard techniczny nie zmienia w sposób istotny siły zależności między lokalizacją a ceną mieszkania, lecz wpływa głównie na poziom ceny.

Podsumowanie wyników regresji – różne modele
Model R² (adj) Błąd standardowy AIC BIC Log-Likelihood Liczba obserwacji Liczba zmiennych VIF > 5
Model 0 0.073 0.258 263.39869 280.17276 -128.69934 1981 2 NA
Model 1 0.201 0.240 -21.97855 45.11774 22.98927 1981 11 0
Model 2 0.318 0.221 -341.17554 -257.35828 185.58777 1974 14 0
Model 3 0.362 0.214 -466.36346 -354.60711 253.18173 1974 19 0
Model 4 0.361 0.214 -464.95400 -353.19766 252.47700 1974 19 4
Model Final 0.319 0.221 -339.92941 -278.42449 180.96471 1981 10 4

Przeprowadzona analiza potwierdziła istnienie silnej i stabilnej zależności między odległością od centrum miasta a ceną mieszkań w Gdańsku. Lokalizacja pozostaje jednym z kluczowych czynników kształtujących ceny, nawet po uwzględnieniu cech fizycznych, otoczenia oraz standardu technicznego.

Cechy standardu technicznego, takie jak winda czy ochrona, istotnie podnoszą poziom cen mieszkań, jednak nie modyfikują w sposób istotny wpływu odległości od centrum. Oznacza to, że standard działa głównie jako premia cenowa, a nie jako czynnik kompensujący gorszą lokalizację.

Hipoteza główna zakładająca łagodzenie negatywnego wpływu odległości od centrum przez standard techniczny nie została jednoznacznie potwierdzona. Jednocześnie hipotezy pomocnicze dotyczące wpływu lokalizacji, dostępności usług oraz cech technicznych na poziom cen znalazły potwierdzenie w wynikach empirycznych.

Uzyskane rezultaty wskazują, że dalsze badania mogłyby uwzględniać segmentację rynku (np. nowe i stare budownictwo) lub analizę dynamiczną opartą na danych z różnych okresów, co umożliwiłoby konstrukcję indeksu hedonicznego cen mieszkań.

Podsumowanie

Celem pracy była analiza czynników wpływających na ceny mieszkań w mieście Gdańsk, ze szczególnym uwzględnieniem roli lokalizacji oraz wybranych cech standardu technicznego. Badanie przeprowadzono na podstawie danych ofertowych z wykorzystaniem metod eksploracyjnych, wnioskowania statystycznego oraz regresji hedonicznej w środowisku R.

W pierwszym etapie dokonano przygotowania danych, obejmującego walidację logiczną obserwacji, identyfikację wartości odstających oraz imputację braków danych metodą MICE. Zastosowane procedury zapewniły spójność i jakość zbioru danych wykorzystywanego w dalszych analizach.

Analiza korelacji rang Spearmana wykazała istotną, ujemną zależność pomiędzy odległością mieszkania od centrum miasta a ceną całkowitą oraz ceną za metr kwadratowy. Potwierdzono również dodatnią zależność pomiędzy metrażem a ceną całkowitą oraz słabszą, ujemną zależność pomiędzy metrażem a ceną jednostkową. Wyniki te są zgodne z intuicją ekonomiczną oraz obserwacjami rynku nieruchomości.

Testy U Manna–Whitneya potwierdziły, że mieszkania wyposażone w wybrane udogodnienia techniczne, takie jak winda czy miejsce parkingowe, osiągają istotnie wyższe ceny za metr kwadratowy niż lokale ich pozbawione. Jednocześnie analiza korelacji w grupach standardu nie dostarczyła jednoznacznych dowodów na to, że cechy techniczne istotnie modyfikują zależność pomiędzy odległością od centrum a ceną.

W końcowym etapie zbudowano modele regresji hedonicznej, stopniowo rozszerzając ich specyfikację o zmienne strukturalne, lokalizacyjne oraz cechy standardu technicznego. Wraz z rozbudową modeli obserwowano poprawę dopasowania, jednak interakcje pomiędzy odległością od centrum a cechami standardu nie wykazały jednoznacznej istotności statystycznej. Ostateczny model charakteryzuje się dobrą interpretowalnością i stabilnością estymacji, potwierdzając dominującą rolę lokalizacji w kształtowaniu cen mieszkań w Gdańsku.

Uzyskane wyniki wskazują, że standard techniczny mieszkań wpływa głównie na poziom cen, natomiast nie zmienia istotnie siły oddziaływania lokalizacji. Przeprowadzona analiza stanowi solidną podstawę do dalszych badań ekonometrycznych i predykcyjnych rynku nieruchomości.