Cel projektu

Celem naszego projektu jest analiza cen mieszkań w największych miastach Polski, uwzględniając różnorodne czynniki, które mogą wpływać na wartość nieruchomości. Wykorzystamy metody analizy danych, aby odpowiedzieć na kluczowe pytania, takie jak:

  • Od czego zależy cena mieszkań?

  • Jakie różnice w cenach występują pomiędzy miastami?

  • Czy odległość od centrum lub interesujących miejsc (POI) ma znaczenie dla wartości nieruchomości?

  • Które cechy mieszkań (np. liczba pokoi, stan, udogodnienia) są najbardziej cenione?

Analizy w projekcie

Planujemy zastosowanie narzędzi analizy danych oraz wizualizacji, aby lepiej zrozumieć rynek nieruchomości w Polsce. Nasze analizy obejmą:

  • Badanie zależności między cechami mieszkań (takimi jak lokalizacja, powierzchnia, liczba pokoi) a ich ceną.

  • Porównanie cen nieruchomości pomiędzy największymi polskimi miastami, w celu wykazania kluczowych różnic regionalnych.

  • Modelowanie predykcyjne, które pozwoli oszacować cenę mieszkań na podstawie wybranych zmiennych, takich jak odległość od centrum czy stan mieszkania.

  • Wykorzystanie interaktywnych wizualizacji, takich jak mapy i wykresy, aby przedstawić wyniki w przystępny sposób.

Hipotezy i oczekiwane wyniki

  1. Odległość od centrum miasta: Zakładamy, że im bliżej centrum, tym wyższa cena mieszkań, choć siła tego wpływu może różnić się w zależności od miasta.

  2. Cechy nieruchomości: Udogodnienia takie jak balkon, winda czy miejsce parkingowe znacząco podnoszą wartość mieszkań, zwłaszcza w dużych miastach.

  3. Różnice regionalne: Miasta o wyższym poziomie urbanizacji i rozwiniętej infrastrukturze (np. Warszawa, Kraków, Wrocław) mają wyższe ceny mieszkań w porównaniu do mniejszych miejscowości.

  4. Rok budowy: Starsze mieszkania, wymagające remontu, są z reguły tańsze, chyba że znajdują się w prestiżowych lokalizacjach.

Podsumowując, oczekujemy, że nasze analizy wskażą najważniejsze czynniki wpływające na ceny mieszkań oraz umożliwią stworzenie użytecznych modeli predykcyjnych, które mogą wspierać decyzje zakupowe lub inwestycyjne.

Opis danych

Zbiór danych pochodzi z ofert sprzedaży i wynajmu mieszkań z 15 największych polskich miast, zgromadzonych w czerwcu 2024 roku. Dane te obejmują szerokie spektrum cech nieruchomości oraz dodatkowe informacje z Open Street Map, które pozwalają uwzględnić kontekst sąsiedztwa mieszkań.

Miasta w zbiorze danych: Warszawa, Łódź, Kraków, Wrocław, Poznań, Gdańsk, Szczecin, Bydgoszcz, Lublin, Katowice, Białystok, Częstochowa.

Główne pola w zbiorze danych:

  • Lokalizacja i charakterystyka nieruchomości:

    • Miasto, typ budynku, wielkość w metrach kwadratowych, liczba pokoi, piętro, rok budowy.
  • Informacje kontekstowe:

    • Odległość od centrum miasta, liczba interesujących punktów w promieniu 500 metrów (np. szkoły, apteki, restauracje) oraz odległość do najbliższego punktu.
  • Cechy nieruchomości:

    • Stan mieszkania, rodzaj własności, obecność udogodnień (np. winda, balkon, miejsce parkingowe, ochrona).
  • Cena ofertowa:

    • Cena sprzedaży lub miesięczny czynsz.

Dane dodatkowe

W celu wykonania bardziej szczegółowej analizy zdecydowaliśmy się wzbogacić nasz zbiór o granice administracyjne województw oraz dane dotyczące wynagrodzeń. Dane te zostały pobrane z pliku ms_A01_Granice_wojewodztw oraz wynagrodzenia_pl_2024 - na podstawie bazy danych lokalnych GUS, co umożliwiło przypisanie każdego miasta do odpowiedniego województwa oraz analizę wpływu średniej pensji na ceny nieruchomości. Dzięki temu możliwe jest badanie, czy wysokość wynagrodzeń ma związek z cenami nieruchomości w poszczególnych regionach Polski.

Cel dodania danych:

  • Przypisanie lokalizacji mieszkań do województw,
  • Przeprowadzenie analiz regionalnych, aby lepiej zrozumieć różnice w cenach i cechach mieszkań w różnych częściach Polski,
  • Analiza zależności między średnimi wynagrodzeniami a cenami nieruchomości, aby sprawdzić, czy wyższe wynagrodzenia są powiązane z wyższymi cenami mieszkań.

Dzięki temu możliwe jest nie tylko szczegółowe badanie rynku nieruchomości na poziomie miast, ale także porównanie wyników w kontekście regionalnym oraz uwzględnienie czynników ekonomicznych, takich jak wynagrodzenia, które mogą wpływać na ceny mieszkań.

Znaczenie projektu

Rynek nieruchomości jest dynamiczny i podlega wpływowi wielu czynników, takich jak lokalizacja, liczba pokoi, dostępność udogodnień czy bliskość kluczowych miejsc. Analiza tych danych pozwoli lepiej zrozumieć mechanizmy kształtowania się cen mieszkań oraz stworzyć narzędzia wspomagające decyzje zakupowe i inwestycyjne.

Brudne dane i ich znaczenie w analizie

Czym są brudne dane?

Brudne dane to dane, które są niekompletne, nieprawidłowe, niespójne lub w inny sposób niezgodne z wymaganiami jakościowymi potrzebnymi do ich analizy. Przykłady brudnych danych obejmują:

  • Braki danych (NA): Puste komórki w zestawie danych, które mogą być spowodowane błędami w zbieraniu danych lub brakiem odpowiednich informacji.
  • Niepoprawne wartości: Dane, które są logicznie sprzeczne, np. liczba pięter większa niż całkowita liczba kondygnacji.
  • Niespójne formaty: Dane zapisane w różnych formatach, np. różne sposoby zapisu nazw miast.
  • Duplikaty: Powtarzające się rekordy w zbiorze danych.

Dlaczego należy walczyć z brudnymi danymi?

Analiza danych oparta na brudnych danych prowadzi do błędnych wniosków i modeli. Wysoka jakość danych jest kluczowa, ponieważ:

  1. Zapewnia wiarygodność wyników: Poprawne dane umożliwiają uzyskanie rzetelnych wniosków.
  2. Ułatwia analizę: Dane uporządkowane i spójne są łatwiejsze do przetwarzania i modelowania.
  3. Ogranicza błędy w analizach: Niespójności w danych mogą prowadzić do błędnych wyników statystycznych.

Działania naprawcze dla brudnych danych

W naszym projekcie podjęliśmy działania w celu naprawy brudnych danych, obejmujące:

  1. Ujednolicenie nazw miast: Naprawimy niezgodności w zapisie nazw, aby zapewnić spójność.
  2. Poprawa nazw kolumn: Nazwy kolumn zostaną zmienione na bardziej opisowe, co ułatwi zrozumienie danych. Planowane zmiany to np.:
    • squareMeterssquare_meters
    • floorCounttotal_floors
    • clinic_distancedistance_to_clinic
  3. Uzupełnienie brakujących danych:
    • Metodami statystycznymi: Użyjemy mediany dla wartości liczbowych oraz najczęściej występujących wartości dla zmiennych kategorycznych.
    • Regułami logicznymi: Uzupełnimy dane na podstawie zależności między zmiennymi.
  4. Eliminacja błędów logicznych: Skorygujemy przypadki, gdzie np. piętro jest większe niż liczba kondygnacji.

Planowane działania techniczne

Przegląd kolumn w poszukiwaniu braków, niezgodności oraz błędów logicznych. Transformacja danych, aby były zgodne z wymaganiami do analizy i modelowania. Sprawdzenie zgodności z przyjętymi regułami walidacyjnymi oraz weryfikacja efektów imputacji i transformacji danych.

Zmiana nazw kolumn Poniżej znajduje się tabela z przekształconymi nazwami kolumn:

Zmiana nazw kolumn: Oryginalne i nowe nazwy
Original_Name New_Name
id id
city city
type building_type
squareMeters square_meters
rooms rooms
floor floor
floorCount floor_count
buildYear build_year
latitude latitude
longitude longitude
centreDistance centre_distance
poiCount poi_count
schoolDistance school_distance
clinicDistance clinic_distance
postOfficeDistance post_office_distance
kindergartenDistance kindergarten_distance
restaurantDistance restaurant_distance
collegeDistance college_distance
pharmacyDistance pharmacy_distance
ownership ownership
buildingMaterial building_material
condition condition
hasParkingSpace has_parking
hasBalcony has_balcony
hasElevator has_elevator
hasSecurity has_security
hasStorageRoom has_storage_room
price price

Standaryzacja danych

W celu ujednolicenia danych i zapewnienia ich spójności, dokonano następujących zmian:

Zmiany nazw miast

Standaryzacja nazw miast w kolumnie city polegała na poprawie pisowni, m.in. zamianie nazw pisanych małymi literami na wersje z wielką literą oraz wprowadzeniu poprawnych form polskich nazw. Dzięki temu dane są bardziej czytelne i gotowe do dalszych analiz.

Poprzednia nazwa Nowa nazwa
szczecin Szczecin
gdynia Gdynia
krakow Kraków
poznan Poznań
bialystok Białystok
gdansk Gdańsk
wroclaw Wrocław
radom Radom
rzeszow Rzeszów
lodz Łódź
katowice Katowice
lublin Lublin
czestochowa Częstochowa
warszawa Warszawa
bydgoszcz Bydgoszcz

Zmiany nazw w kolumnie building_type

Ujednolicono nazewnictwo typów budynków. Różne nazwy odnoszące się do tego samego typu budynku zostały sprowadzone do jednej wartości, co upraszcza interpretację i analizę.

Poprzednia nazwa Nowa nazwa
blockOfFlats block_of_flats
apartmentBuilding block_of_flats
tenement tenement

Zmiany nazw w kolumnie ownership

Poprawiono i ujednolicono nazwy dotyczące formy własności nieruchomości. Różne terminy określające tę samą formę własności zostały scalone.

Poprzednia nazwa Nowa nazwa
condominium condominium
udział condominium
cooperative cooperative

Zmiany nazw w kolumnie building_material

Dostosowano nazewnictwo materiałów budowlanych, ujednolicając zapis oraz wprowadzając format z podkreśleniami (snake_case).

Poprzednia nazwa Nowa nazwa
concreteSlab concrete_slab
brick brick

Cel zmian

  1. Poprawa jakości danych: Eliminacja niespójności w nazewnictwie.
  2. Ułatwienie analizy: Ujednolicone dane umożliwiają prostsze grupowanie i wyciąganie wniosków.
  3. Czytelność i przejrzystość: Dzięki standaryzacji dane są bardziej intuicyjne i gotowe do prezentacji w raportach.

Zmiany te zapewniają, że wszystkie dane są zgodne ze standardami i umożliwiają łatwiejsze ich przetwarzanie w kolejnych krokach analizy.

Walidacja danych

Walidacja danych to kluczowy etap przygotowania zbioru, który następuje po wstępnym oczyszczeniu danych. Jej celem jest sprawdzenie zgodności danych z określonymi regułami logicznymi i jakościowymi, aby upewnić się, że dane są kompletne, spójne i gotowe do dalszej analizy oraz modelowania.

Proces ten polega na weryfikacji, czy dane spełniają określone kryteria, zapewniając ich poprawność, spójność oraz integralność. Szczególną uwagę zwraca się na typy danych i analizę unikalnych wartości w poszczególnych kolumnach. Każda kolumna powinna mieć odpowiedni typ danych (np.numeryczny, tekstowy, całkowity), a liczba unikalnych wartości powinna być zgodna z oczekiwaniami.

Dzięki takiej analizie można wykryć potencjalne błędy w strukturze danych, takie jak niewłaściwe przypisanie typu do kolumny czy nieoczekiwane wartości. Zapewnia to odpowiednie przygotowanie danych do dalszych etapów analizy i modelowania.

Typy danych oraz ich charakterystyka

Typy danych oraz ich ilość
Kolumna Typ Liczba_unikalnych
id integer 21501
city character 15
building_type character 3
square_meters numeric 4618
rooms numeric 6
floor numeric 26
floor_count numeric 30
build_year numeric 155
latitude numeric 15010
longitude numeric 15284
centre_distance numeric 1281
poi_count numeric 179
school_distance numeric 1672
clinic_distance numeric 3187
post_office_distance numeric 1825
kindergarten_distance numeric 1462
restaurant_distance numeric 1499
college_distance numeric 3924
pharmacy_distance numeric 1496
ownership character 2
building_material character 3
condition character 3
has_parking character 2
has_balcony character 2
has_elevator character 3
has_security character 2
has_storage_room character 2
price integer 2979
Typy danych
Typ Liczba_kolumn
Numeric 16
Character 10
Factor 0
Integer 2
Logical 0

Zbiór danych składa się z 28 kolumn, które charakteryzują się następującymi typami: 18 zmiennych numerycznych (typ numeric), 6zmiennych tekstowych (typ character), 3 zmiennymi kategorycznymi (typ factor), 2 zmiennymi całkowitymi (typ integer) oraz brakiem zmiennych logicznych.

  • Zmienne numeryczne, takie jak square_meters, price czy centre_distance, mają dużą liczbę unikalnych wartości, co sugeruje, że są to dane ciągłe, które będą odpowiednie do analizy regresyjnej.

  • Zmienne kategoryczne, takie jak building_type, ownership czy building_material, mogą być traktowane jako zmienne typu factor i wykorzystane w analizach klasyfikacyjnych.

  • Kolumny z typem integer, jak np. price mogą być również używane w analizach numerycznych.

Dzięki tej weryfikacji możemy odpowiednio przygotować dane do dalszej analizy i modelowania. Zmienne numeryczne będą wykorzystywane w analizach regresyjnych, zmienne typu factor w klasyfikacyjnych, a zmienne character mogą wymagać kodowania na typ factor, aby mogły być wykorzystane w dalszej analizie.

Na podstawie tej analizy możemy przejść do przygotowania danych do modelowania, dobierając odpowiednie metody przetwarzania, takie jak kodowanie zmiennych kategorycznych, normalizację zmiennych numerycznych czy tworzenie nowych zmiennych,w zależności od typu danych i celu analizy.

Kolejnym krokiem w procesie walidacji jest zastosowanie określonych reguł logicznych, które zapewniają spójność danych.

W projekcie zastosowano następujące reguły walidacyjne:

  1. Piętro (Floor) nie może być większe niż liczba kondygnacji (FloorCount).
  2. Rok budowy (Build Year) nie może być późniejszy niż bieżący rok (2024).
  3. Rok budowy (Build Year) musi być późniejszy niż 1600.
  4. Piętro (Floor) i liczba kondygnacji (Floor Count) muszą być większe lub równe 0.
  5. Liczba pokoi (Rooms) musi być większa niż 0 i nie może przekraczać
  6. Jeżeli liczba kondygnacji (Floor Count) wynosi 0, to w takim budynku nie powinno być windy (Has Elevator).

Dzięki weryfikacji typów danych oraz zastosowaniu reguł walidacyjnych, upewniamy się, że dane są zgodne z określonymi kryteriami logicznymi i są gotowe do dalszej analizy.

W wyniku przeprowadzonej walidacji zauważono, że w zbiorze danych występuje znaczna liczba wartości brakujących (NA),
w niektórych kolumnach.

W dalszej części analizy planuje się ich imputację, przy czym wartości te zostaną zastąpione:

  • medianą dla zmiennych o charakterze numerycznym,
  • modą dla zmiennych o charakterze kategorycznym.

Data wrangling

Proces data wrangling umożliwia przekształcenie surowego zbioru danych w uporządkowaną i spójną strukturę gotową do dalszych badań. W ramach tego etapu skoncentrowaliśmy się na dwóch głównych aspektach: analizie wartości brakujących oraz obserwacji odstających.

W tej części projektu podjęliśmy działania mające na celu: - zrozumienie i klasyfikację braków danych (MCAR, MAR, MNAR), - wybór odpowiednich strategii imputacji brakujących wartości, - wykrycie i obsługę obserwacji odstających, które mogą zaburzać statystyczne wnioski.

Dzięki zastosowaniu odpowiednich metod wizualizacji (np. wykresów pudełkowych i macierzy braków) oraz technik statystycznych (np. Z-score) możliwe było zarówno dokładne zrozumienie problemów związanych z danymi, jak i zaplanowanie działań korygujących. Tak przygotowany zbiór danych stanowi podstawę do przeprowadzenia dalszych analiz i modelowania.

W kolejnych sekcjach przedstawimy szczegółowe kroki przeprowadzone w ramach tego etapu, w tym wyniki analizy braków danych oraz identyfikacji wartości odstających, a także opis zastosowanych metod ich obsługi.

Obserwacje brakujące

Do analizy brakujących danych zdecydowaliśmy się wykorzystać zarówno wizualizacje które pozwolą zrozumieć skalę oraz potencjalne przyczyny braków w zbiorze danych. Wizualizacje, takie jak wykresy słupkowe prezentujące procent brakujących wartości w poszczególnych zmiennych oraz graficzne przedstawienie wzorców braków, umożliwiają szybkie zidentyfikowanie kolumn najbardziej dotkniętych problemem brakujących danych. Dodatkowo zastosowanie macierzy braków pozwala na analizę współwystępowania braków pomiędzy zmiennymi, co może wskazać na możliwe zależności w danych.

Na podstawie klasyfikacji braków danych (MCAR, MAR, MNAR) możemy lepiej zrozumieć przyczyny ich występowania.

  • MCAR (Missing Completely At Random): Braki w kolumnach takich jak has_elevator i college_distance są losowe i wynikają z technicznych pominięć w zbieraniu danych.

  • MAR (Missing At Random): Braki w kolumnach condition, building_material, oraz floor wynikają z powiązań między zmiennymi, np. building_type i floor_count.

  • MNAR (Missing Not At Random): Braki w building_type mogą wynikać z mechanizmu niechęci podawania wartości (np. dla mieszkań luksusowych).

Dzięki tym wstępnym analizom możliwe jest odpowiednie dobranie metod imputacji (np. medianą, modą lub bardziej zaawansowanymi metodami), a także ewentualne usunięcie zmiennych, w których braki są zbyt liczne i niemożliwe do uzupełnienia bez znaczącej utraty jakości danych.

Podsumowanie brakujących danych
Zmienna Liczba braków Procent braków Zmienna Liczba braków Procent braków
condition 15921 74.0% id 0 0.0%
building_material 8792 40.9% city 0 0.0%
building_type 4397 20.5% square_meters 0 0.0%
floor 3573 16.6% rooms 0 0.0%
build_year 3380 15.7% latitude 0 0.0%
has_elevator 960 4.5% longitude 0 0.0%
college_distance 584 2.7% centre_distance 0 0.0%
floor_count 209 1.0% poi_count 0 0.0%
clinic_distance 63 0.3% ownership 0 0.0%
restaurant_distance 31 0.1% has_parking 0 0.0%
pharmacy_distance 30 0.1% has_balcony 0 0.0%
post_office_distance 20 0.1% has_security 0 0.0%
kindergarten_distance 19 0.1% has_storage_room 0 0.0%
school_distance 11 0.1% price 0 0.0%

Analiza brakujących danych wskazuje, że kolumny w zbiorze można podzielić na kilka grup pod względem liczby braków:

  • Bardzo duża liczba braków: condition (74.0%) i building_material (40.9%). Ze względu na ich wysoką niekompletność zdecydowaliśmy się usunąć kolumnę condition, a dla building_material zastosujemy imputację najczęstszą wartością.

  • Umiarkowana liczba braków: building_type (20.5%), floor (16.6%), build_year (15.7%). Uzupełnimy brakujące wartości odpowiednio metodą najczęstszej wartości dla zmiennych kategorycznych (building_type) oraz medianą dla zmiennych liczbowych (floor, build_year).

  • Niewielka liczba braków: Kolumny takie jak has_elevator (4.46%) czy college_distance (2.72%) zostaną uzupełnione odpowiednio modą i medianą.

  • Bardzo mała liczba braków: Pozostałe kolumny z mniej niż 1% braków zostaną imputowane prostymi metodami (medianą lub najczęstszą wartością).

  • Kolumny bez braków: Pozostałe zmienne, takie jak price, square_meters czy rooms, są kompletne i nie wymagają dodatkowych działań.

Obserwacje odstające

Do analizy obserwacji odstających decydowaliśmy się użyć wykresów pudełkowych, ponieważ są one prostym i skutecznym narzędziem wizualizacyjnym, które pozwala szybko zidentyfikować wartości odstające. Dzięki nim poznamy wartości minimalne, maksymalne, mediane, kwartyle oraz ewentualne wartości wykraczające poza tzw. wąsy, czyli zakres między pierwszym a trzecim kwartylem powiększony. Każda z analizowanych zmiennych została przedstawiona na osobnym wykresie pudełkowym, co pozwala dokładnie przyjrzeć się rozkładowi poszczególnych cech, takich jak powierzchnia mieszkania, cena, cena za metr kwadratowy czy odległości od różnych punktów użyteczności publicznej. Dzięki temu można szybko zidentyfikować zmienne, które mogą zawierać nietypowe wartości i potencjalnie wpłynąć na dalsze analizy lub modelowanie danych.

Dodatkowo, aby potwierdzić statystycznie obecność obserwacji odstających zastosowaliśmy metodę Z-score oraz zbadaliśmy czy rozkład danych jest zbliżony do rozkładu normalnego.

Metoda Z-score, polega na identyfikowaniu obserwacji odstających na podstawie odchylenia standardowego od średniej. Wyraża się wzorem: \[ Z = \frac{x - \bar{x}}{\sigma} \] \(x\): wartość obserwacji
\(\overline{x}\): średnia dla danej zmiennej
\(\sigma\): odchylenie standardowe.

Skośność jest statystyką umożliwiającą porównanie rozkładu analizowanej zmiennej z hipotetycznym rozkładem normalnym. Wskazuje na rozbieżności pomiędzy wartością średnią, a centrum danego rozkładu. Wyraża się wzorem:

\[\tilde{\mu}_3 = \frac{\sum_{i}^{N} (X_i - \bar{X})^3}{(N - 1) \cdot \sigma^3}\]

  • \(\tilde{\mu}_3\) = skośność
  • \(N\) = liczba zmiennych w rozkładzie
  • \(X_i\) = losowa zmienna
  • \(\bar{X}\) = średnia rozkładu
  • \(\sigma\) = odchylenie standardowe.

Interpretacja jest następująca:

  • Rozkład prawoskośny – skośność jest dodatnia, prawe ramię rozkładu jest wydłużone, wyniki poniżej średniej są przeważające w badanej próbce.

  • Rozkład symetryczny – skośność wynosi 0, ogony rozkładu są identyczne w obu kierunkach. Jeśli znormalizowana kurtoza wynosi 0, rozkład jest zbliżony do rozkładu normalnego.

  • Rozkład lewoskośny – skośność jest ujemna, lewe ramię rozkładu jest wydłużone, większość obserwacji w próbie ma wartości powyżej średniej.

Rozkład normalny nazywany również rozkładem Gaussa lub rozkładem Gaussowskim, jest jednym z najważniejszych i najczęściej stosowanych rozkładów w statystyce. Jego wykres przyjmuje charakterystyczny kształt dzwonu, dlatego często określa się go mianem krzywej dzwonowej.

Właściwości rozkładu normalnego:

  1. Symetria: Rozkład normalny jest symetryczny względem swojej średniej. Oznacza to, że wartości po obu stronach średniej są równomiernie rozłożone.

  2. Średnia, mediana i dominanta: W rozkładzie normalnym średnia, mediana i dominanta (wartość modalna) są równe i znajdują się w centrum rozkładu.

  3. Kształt: Krzywa rozkładu normalnego ma jeden szczyt (jest jednoszczytowa), a jej ogony asymptotycznie zbliżają się do osi poziomej, co oznacza, że prawdopodobieństwo wartości bardzo odległych od średniej nigdy nie wynosi dokładnie 0, ale jest bardzo małe.

  4. Funkcja gęstości: Matematyczny wzór funkcji gęstości rozkładu normalnego: \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] gdzie:

    • \(\mu\) – średnia,
    • \(\sigma\) – odchylenie standardowe,
    • \(x\) – wartość zmiennej losowej.

Rozkład normalny jest fundamentem wielu metod statystycznych, np. testów hipotez, regresji czy analizy wariancji.

Wykresy pudełkowe

Interpretacja wyników wykresów pudełkowych

Przeprowadzona analiza wykresów pudełkowych pozwoliła na dokładne przyjrzenie się rozkładom badanych cech mieszkań, takich jak powierzchnia, cena, liczba pokoi oraz odległości do punktów użyteczności publicznej. Wykresy te umożliwiły identyfikację wartości typowych (mediana, kwartyle) oraz wartości odstających, które wykraczają poza zakres wyznaczony przez wąsy.

Wartości odstające są szczególnie istotne, ponieważ mogą wskazywać na specyficzne obserwacje, takie jak:

  • Nieruchomości luksusowe lub o nietypowej wielkości i cenie,
  • Mieszkania położone w trudno dostępnych lokalizacjach,
  • Nieruchomości w starszych budynkach lub obszarach o słabo rozwiniętej infrastrukturze.

Poniżej przedstawiono szczegółową interpretację wyników dla każdej z analizowanych zmiennych.

square_meters - Mediana powierzchni wynosi około 50-60 m².
- Większość mieszkań mieści się w zakresie 40-80 m².
- Wartości odstające powyżej 100 m² wskazują na większe apartamenty lub luksusowe nieruchomości.

price
- Mediana ceny mieszkań wynosi około 750 tys. zł.
- Typowe wartości mieszczą się w przedziale 500 tys. – 1 mln zł.
- Liczne wartości odstające powyżej 2,5 mln zł sugerują obecność luksusowych nieruchomości w analizowanym zbiorze.

price_per_square_meter - Mediana wynosi około 15 000 zł/m², a większość wartości mieści się w zakresie 10 000 – 20 000 zł/m².
- Wartości odstające przekraczające 30 000 zł/m² mogą wynikać z mieszkań położonych w bardzo prestiżowych lokalizacjach.

rooms
- Typowe mieszkania mają 2-3 pokoje, co potwierdza mediana.
- Wartości odstające (4-6 pokoi) mogą wskazywać na większe mieszkania lub apartamenty rodzinne.

floor
- Mediana piętra to około 2.
- Większość mieszkań znajduje się na 1-5 piętrze.
- Wartości odstające powyżej 15 piętra sugerują obecność mieszkań w wieżowcach.

floor_count
- Typowe budynki mają 4-6 pięter.
- Wartości odstające powyżej 15 pięter wskazują na obecność wysokich budynków mieszkalnych.

building_age
- Mediana wieku budynków wynosi około 50 lat.
- Budynki mające więcej niż 100 lat to wartości odstające, co sugeruje obecność starszych, często zabytkowych nieruchomości.

centre_distance - Typowa odległość to 2-8 km.
- Wartości odstające powyżej 15 km wskazują na nieruchomości położone na przedmieściach lub w odległych lokalizacjach.

school_distance - Większość szkół znajduje się w odległości do 1 km.
- Wartości odstające powyżej 4 km mogą świadczyć o gorszej dostępności edukacji w analizowanych lokalizacjach.

clinic_distance
- Kliniki są najczęściej położone do 1 km od mieszkań.
- Wartości odstające powyżej 3 km wskazują na obszary o niższym dostępie do opieki zdrowotnej.

post_office_distance
- Typowa odległość wynosi 0-1 km.
- Wartości odstające powyżej 4 km mogą wynikać z mniej zurbanizowanych obszarów.

kindergarten_distance - Przedszkola znajdują się głównie do 1 km od mieszkań.
- Wartości odstające powyżej 3 km sugerują problemy z dostępem do usług dla rodzin z dziećmi.

restaurant_distance
- Restauracje znajdują się typowo do 1 km od mieszkań.
- Wartości odstające powyżej 5 km wskazują na peryferyjne lokalizacje z ograniczoną ofertą gastronomiczną.

college_distance - Typowa odległość wynosi 1-2 km.
- Wartości odstające do 5 km sugerują lokalizacje mniej centralne pod względem infrastruktury edukacyjnej.

pharmacy_distance - Apteki znajdują się zazwyczaj do 1 km od mieszkań.
- Wartości odstające powyżej 4 km wskazują na obszary o ograniczonym dostępie do usług farmaceutycznych.

Analiza wykresów pudełkowych potwierdziła występowanie wartości odstających w każdej z badanych zmiennych. Są one szczególnie istotne, ponieważ mogą wskazywać na specyficzne segmenty rynku nieruchomości – luksusowe mieszkania, nieruchomości historyczne lub obszary z ograniczoną infrastrukturą.

Zidentyfikowane wartości odstające będą miały istotne znaczenie w dalszym modelowaniu oraz analizach statystycznych. Warto w kolejnych krokach rozważyć, czy te obserwacje powinny zostać zachowane jako istotne dla analizy, czy też przekształcone lub usunięte w zależności od kontekstu biznesowego i analitycznego.

Skośność

Interpretacja wyników histogramów

Przeprowadzona analiza histogramów pozwoliła na dokładne przyjrzenie się rozkładom badanych cech mieszkań, takich jak powierzchnia, cena, liczba pięter oraz odległości do punktów użyteczności publicznej. Wykresy te umożliwiły identyfikację wartości typowych (dominanty, gęstość wartości) oraz wartości odstających, które znajdują się na krańcach rozkładów.

Linie rozkładu normalnego, nałożone na histogramy, stanowią dodatkowy punkt odniesienia do oceny kształtu rozkładów. Pozwalają one zidentyfikować:

  • Odstępstwa od normalności, takie jak skośność czy wielomodalność,
  • Stopień zgodności rozkładów empirycznych z teoretycznym rozkładem normalnym,
  • Przesunięcia względem środka rozkładu sugerujące koncentrację danych.

centre_distance: - Rozkład jest prawoskośny z koncentracją wartości w zakresie 2-8 km.
- Linia rozkładu normalnego pokazuje, że rozkład empiryczny jest odchylony w prawo.
- Wartości powyżej 10 km stanowią odstępstwa, które wskazują na nieruchomości w peryferyjnych lokalizacjach, co jest nietypowe dla większości analizowanych danych.

poi_count - Histogram pokazuje wysoce prawoskośny rozkład, gdzie większość obserwacji znajduje się poniżej 50.
- Linia rozkładu normalnego podkreśla duże odchylenie od symetrii, co sugeruje, że większość lokalizacji ma ograniczoną liczbę punktów użyteczności publicznej, natomiast pojedyncze przypadki z bardzo dużymi wartościami (powyżej 100) są wyjątkami.

school_distance
- Rozkład odległości jest prawoskośny, z dominacją wartości 0-1 km.
- Linia normalna nie pasuje do rozkładu, co wskazuje na silną koncentrację danych blisko 0 km.
- Wartości odstające powyżej 3 km sugerują lokalizacje z ograniczonym dostępem do szkół.

clinic_distance
- Histogram pokazuje prawoskośny rozkład, z większością wartości w przedziale do 1 km.
- Linia rozkładu normalnego wyraźnie nie oddaje koncentracji danych w niższych wartościach.
- Wartości powyżej 3 km sugerują trudniejszy dostęp do opieki zdrowotnej w mniej zurbanizowanych obszarach.

post_office_distance
- Rozkład jest prawoskośny, z typowymi wartościami 0,5–1 km.
- Linia rozkładu normalnego wskazuje na istotne odchylenie od normalności, co podkreśla silne skupienie danych w niższych przedziałach.

restaurant_distance
- Histogram ujawnia koncentrację wartości w zakresie do 1 km z pojedynczymi przypadkami powyżej 3 km.
- Przesunięcie względem linii normalnej podkreśla ograniczoną liczbę nieruchomości o znacznej odległości od restauracji.

college_distance
- Wartości typowe mieszczą się w przedziale 1–2 km, natomiast histogram jest lekko prawoskośny.
- Linia rozkładu normalnego dobrze przybliża dane w środkowej części, jednak widać odchylenia w wyższych wartościach (powyżej 4 km).

pharmacy_distance - Histogram jest silnie prawoskośny, z wartościami typowymi do 1 km.
- Linia normalna nie jest dopasowana, co sugeruje, że rozkład empiryczny jest skupiony na jednym krańcu.


square_meters - Rozkład powierzchni mieszkań jest prawoskośny, z wartościami dominującymi w przedziale 40–80 m².
- Linia rozkładu normalnego sugeruje większą symetrię niż istnieje w danych.
- Wartości odstające powyżej 100 m² wskazują na duże apartamenty, które są nietypowe.

price - Histogram jest wysoce prawoskośny, z typowymi cenami 500 tys. – 1 mln zł.
- Rozkład empiryczny jest znacznie przesunięty względem linii normalnej, co podkreśla nierównomierną strukturę cen na rynku.

floor - Większość mieszkań znajduje się na 1-5 piętrze.
- Linia rozkładu normalnego odbiega od rzeczywistego kształtu, który jest skośny, z kilkoma wartościami odstającymi powyżej 15 piętra.

floor_count - Rozkład pokazuje, że typowe budynki mają 4-6 pięter.
- Linia normalna nie oddaje koncentracji w niskich wartościach oraz odstępstw w wysokich budynkach.

building_age - Histogram wskazuje, że większość budynków ma mniej niż 50 lat.
- Rozkład jest prawoskośny, a linia normalna sugeruje większą symetrię niż rzeczywiście istnieje.

build_year - Rozkład pokazuje koncentrację budynków wybudowanych po 1950 roku.
- Linia normalna dobrze dopasowuje się do danych, jednak rozkład jest lekko przesunięty ku nowszym budynkom.


Analiza histogramów, w połączeniu z linią rozkładu normalnego, dostarczyła następujących wniosków:

  • Większość rozkładów jest prawoskośna, co sugeruje koncentrację wartości w niższych przedziałach oraz obecność kilku wartości odstających.
  • Linie normalne pozwoliły zidentyfikować rozbieżności między rozkładami empirycznymi a teoretycznym rozkładem normalnym.
  • Wartości odstające są widoczne w wielu zmiennych, zwłaszcza w powierzchni mieszkań, cenach oraz odległościach do punktów użyteczności publicznej.

Wyniki te potwierdzają specyfikę rynku nieruchomości, gdzie typowe wartości są skoncentrowane w określonych zakresach, a odstępstwa wskazują na szczególne przypadki, które mogą być analizowane osobno.

Test Andersona-Darlinga

Test Andersona-Darlinga jest statystycznym testem zgodności, który ocenia, jak dobrze dane pasują do określonego rozkładu teoretycznego. Zwykle stosuje się go do sprawdzenia zgodności z rozkładem normalnym. Jest modyfikacją testu Craméra-von Misesa dokonaną w celu poprawy jego czułości w „ogonach” testowanego rozkładu.

Hipotezy

Test Andersona-Darlinga przeprowadza się w celu sprawdzenia hipotez:

  • Hipoteza zerowa (\(H_0\)): Dane pochodzą z określonego rozkładu (np. normalnego, wykładniczego).

  • Hipoteza alternatywna (\(H_1\)): Dane nie pochodzą z tego rozkładu.

Funkcja testowa

Test Andersona-Darlinga oblicza statystykę testową \(A^2\), która jest zdefiniowana jako:

\[ A^2 = -n - \sum_{i=1}^n \frac{2i - 1}{n} \left[ \ln(F(X_i)) + \ln(1 - F(X_{n+1-i})) \right] \]

gdzie: - \(n\) – liczba obserwacji w próbie, - \(F(x)\) - dystrybuanta rozkładu wzorcowego, - \(X_{(i)}\) - i-ta zaobserwowana wartość w próbie uporządkowanej rosnąco

Test Anderson-Darling przyjmuje zasadę, że jeżeli wartość p jest bardzo niska, niższa niż 0,05, wtedy przyjmuje się, że rozkład danych nie jest zgodny z rozkładem normalnym. Przyjmuje się takie założenie, jeżeli został przyjęty poziom istotności 0,05.

Wyniki testu Andersona-Darlinga
Zmienne Wartości_p_value
price 3.7e-24
square_meters 3.7e-24
centre_distance 3.7e-24
floor 3.7e-24
floor_count 3.7e-24
poi_count 3.7e-24
school_distance 3.7e-24
kindergarten_distance 3.7e-24
clinic_distance 3.7e-24
post_office_distance 3.7e-24
restaurant_distance 3.7e-24
college_distance 3.7e-24
pharmacy_distance 3.7e-24
building_age 3.7e-24

Wyniki testu Andersona-Darlinga wskazują na ekstremalnie małe wartości \(p\)-value (\(3.7 \times 10^{-24}\)) dla wszystkich analizowanych zmiennych, co oznacza, że należy odrzucić hipotezę zerową zakładającą normalność rozkładu. Dane dla zmiennych takich jak price, square_meters, centre_distance i pozostałych znacząco odbiegają od rozkładu normalnego, co jest również widoczne na powyższych histogamach.

Z-score

Wyniki Z-Score
Zmienna Wartość
build_year 1.321569e-15
price 9.155718e-17
square_meters 3.0552e-17
price_per_square_meter -5.888089e-17
rooms -1.961117e-16
floor -3.274304e-17
floor_count -9.234339e-17
centre_distance -1.348539e-16
building_age 8.221441e-17
school_distance 1.247826e-17
clinic_distance 2.77439e-17
post_office_distance 9.446714e-17
kindergarten_distance -4.220434e-17
restaurant_distance 5.62074e-17
college_distance -2.656712e-17
pharmacy_distance -1.519166e-17
poi_count -2.97876e-17

Standaryzacja przy użyciu z-score umożliwia identyfikację wartości odstających. Wartości, które są znacznie większe lub mniejsze niż 3 odchylenia standardowe, mogą być traktowane jako odstające. Zastosowanie z-score zapewniło, że wszystkie analizowane zmienne są zbalansowane wokół średniej, co stanowi podstawę do dalszych, bardziej szczegółowych analiz. Większość wartości w danych jest symetrycznie rozłożona wokół średniej i nie dominuje żaden zbiór ekstremalnych wartości.

Transformacje

Transformacja zmiennej price oraz poi_count

Powody przeprowadzenia transformacji logarytmicznej:
  1. Zmniejszenie wpływu wartości odstających:
    • W zmiennych takich jak price i poi_count występują duże wartości odstające. Dla ceny może to być kilka luksusowych apartamentów o bardzo wysokiej cenie, a dla liczby punktów zainteresowania miejsca z wyjątkowo dużą liczbą udogodnień w okolicy. Transformacja logarytmiczna zmniejsza wpływ tych skrajnych wartości na analizy.
  2. Poprawa rozkładu zmiennych:
    • Cena mieszkań oraz liczba punktów zainteresowania często mają rozkład prawoskośny, co oznacza, że większość wartości jest skupiona przy niższych wartościach, ale pojawiają się też wyższe, rzadkie wartości. Logarytm zmniejsza tę asymetrię, zbliżając dane do rozkładu normalnego, co ułatwia interpretację i modelowanie statystyczne.
Interpretacja:

Po transformacji: - Rozkład zmiennej price jest bardziej symetryczny, co ułatwi modelowanie zależności między ceną a innymi zmiennymi. - Rozkład zmiennej poi_count jest mniej skośny, co pozwoli lepiej zrozumieć wpływ liczby punktów zainteresowania na analizowane wyniki.

Uzasadnienie braku transformacji dla poszczególnych kolumn

  1. square_meters
    • Uzasadnienie: Duże wartości tej zmiennej (np. powyżej 200 m²) mogą odnosić się do apartamentów luksusowych lub przestronnych domów, co jest zrozumiałe w kontekście rynku nieruchomości. Asymetria rozkładu wynika z faktu, że małe mieszkania są bardziej powszechne, ale większe jednostki wciąż mają naturalne uzasadnienie.
  2. rooms
    • Uzasadnienie: Liczba pokoi w mieszkaniach czy domach jest zwykle niewielka i wynika z ich przeznaczenia. Duże liczby (np. 7–10 pokoi) mogą odnosić się do dużych domów jednorodzinnych lub luksusowych apartamentów. Każda wartość zmiennej ma swoje logiczne wyjaśnienie.
  3. floor oraz floor_count
    • Uzasadnienie: Wysokie wartości (np. powyżej 10. piętra) zazwyczaj odnoszą się do mieszkań w wieżowcach, co jest typowe w dużych miastach. Rozkład zmiennej jest zgodny z różnorodnością rynku.
  4. build_year
    • Uzasadnienie: Starsze budynki (np. przedwojenne) mają swoje unikalne cechy (np. kamienice), a nowe budynki charakteryzują nowoczesne technologie i standardy. Każda wartość zmiennej niesie ze sobą istotny kontekst historyczny i architektoniczny.
  5. centre_distance
    • Uzasadnienie: Duże odległości (np. >20 km) zwykle oznaczają mieszkania na przedmieściach lub w miejscowościach satelickich, co jest naturalne w kontekście urbanistycznym. Mniejsze wartości wskazują na nieruchomości w centrum miasta, co również ma sens.
  6. school_distance
    • Uzasadnienie: Krótsze odległości są typowe dla osiedli mieszkaniowych, gdzie szkoły są blisko mieszkańców. Większe odległości mogą dotyczyć obszarów wiejskich lub mniej zurbanizowanych.
  7. clinic_distance
    • Uzasadnienie: Podobnie jak w przypadku szkół, krótsze odległości charakteryzują gęsto zabudowane obszary, a większe – mniej rozwinięte okolice. Rozkład zmiennej jest zgodny z rzeczywistością.
  8. post_office_distance
    • Uzasadnienie: Odległości te odzwierciedlają rzeczywisty dostęp do infrastruktury. Krótsze odległości oznaczają bardziej zurbanizowane tereny, a dłuższe – obszary mniej zaludnione.
  9. kindergarten_distance
    • Uzasadnienie: Podobnie jak w przypadku szkół, odległości mają naturalne wyjaśnienie w charakterystyce lokalizacji.
  10. restaurant_distance
    • Uzasadnienie: Krótsze odległości są typowe dla centrów miast, a większe – dla terenów podmiejskich i wiejskich. Zmienna w swojej formie jest wystarczająco zrozumiała.
  11. college_distance
    • Uzasadnienie: Podobnie jak inne odległości, wartości tej zmiennej mają naturalne uzasadnienie w zależności od lokalizacji nieruchomości względem centrów edukacyjnych.
  12. pharmacy_distance
    • Uzasadnienie: Odległości te są intuicyjne i w pełni odpowiadają rzeczywistości. Apteki są zlokalizowane bliżej mieszkańców w gęsto zaludnionych obszarach, co tłumaczy krótsze wartości.
  13. building_age
    • Uzasadnienie: Starsze budynki (np. >50 lat) są często kamienicami lub historycznymi budynkami, a nowe (np. <10 lat) to inwestycje deweloperskie. Wiek budynku jest intuicyjny i łatwy do zrozumienia bez transformacji.

Podsumowanie: Brak transformacji dla większości zmiennych wynika z ich naturalnego znaczenia w kontekście rynku nieruchomości. Transformacje stosujemy wyłącznie w sytuacjach, gdy poprawiają one analizę, bez utraty interpretowalności. W przypadku tych zmiennych, zachowanie ich w pierwotnej formie pozwala na lepsze oddanie rzeczywistości i kontekstu analizy.

Ponowna walidacja danych

Po przeprowadzeniu pierwszej, wstępnej walidacji, która ujawniła znaczną liczbę brakujących danych (NA) w zbiorze, zdecydowano się na przeprowadzenie kolejnej, bardziej szczegółowej analizy, aby upewnić się, że dokonana imputacja została prawidłowo wykonana, a dane są spójne i gotowe do dalszej obróbki. Celem ponownej walidacji jest weryfikacja skuteczności uzupełniania brakujących wartości oraz sprawdzenie, czy po tej operacji dane są spójne z przyjętymi regułami.

W ramach tej walidacji sprawdzono czy wartości imputowane dla zmiennych numerycznych i kategorycznych (mediana i moda) zostały odpowiednio dobrane, a także czy nie wprowadziły nowych niezgodności w danych. Ponadto zweryfikowano, czy po przeprowadzonej imputacji i innych korektach, dane są logicznie spójne, a reguły dotyczące relacji między zmiennymi, takie jak zgodność zmiennych floor i floor_count, zostały właściwie zastosowane.

Druga walidacja ma na celu zapewnienie, że dane są w pełni spójne i zgodne z wymaganiami, eliminując ryzyko wystąpienia problemów, które mogłyby wpływać na jakość dalszej analizy. Dzięki tym czynnościom dane będą gotowe do kolejnych etapów analizy i przetwarzania.

W procesie walidacji danych większość reguł została spełniona, jednak w przypadku jednej reguły, dotyczącej zgodności zmiennych floor i floor_count, wykryto 545 nieprawidłowych obserwacji, które wymagają dalszej analizy i korekty. Zgodnie z regułą, wartości floor nie powinny przekraczać wartości floor_count, co jest kluczowe dla spójności danych. Pozostałe reguły zostały prawidłowo zastosowane i nie wykryto żadnych innych istotnych problemów w analizowanych danych.

Przed rozpoczęciem walidacji brakujące wartości (NA) zostały uzupełnione, co pozwoliło na przeprowadzenie pełnej analizy zgodności z regułami. Imputacja brakujących danych była kluczowym krokiem, umożliwiającym dalsze etapy weryfikacji danych.

Błędy w danych floor i floor_count mogą wynikać z błędnie uzupełnionych wartości lub nieaktualnych danych (budynki mogły zmienić liczbę kondygnacji po modernizacji). Aby poprawić te błędy, przyjęto zasadę, że w takich sytuacjach wartość liczby kondygnacji (floor_count) zostanie ustawiona na wartość piętra (floor). Jeśli wartość liczby kondygnacji była równa lub większa od wartości piętra, dane pozostały niezmienione. Taka korekta zapewnia spójność danych i eliminuje przypadki, w których piętro przewyższa liczbę kondygnacji w budynku.Nie znaleziono duplikatów wierszy w danych.

Analiza średnich cen mieszkań według województw

Celem analizy regionalnej cen mieszkań jest zrozumienie zróżnicowania poziomu cen nieruchomości w Polsce. Wykorzystanie mapy województw pozwala zobrazować różnice w średnich cenach za metr kwadratowy w poszczególnych regionach kraju. Tego rodzaju wizualizacja umożliwia identyfikację obszarów o najwyższych oraz najniższych cenach, co może stanowić punkt wyjścia do dalszej analizy rynku nieruchomości, uwzględniającej czynniki wpływające na cenę, takie jak urbanizacja, poziom dochodów czy lokalna infrastruktura.

Poszczególne statystyki dla miast
Miasto Średnia powierzchnia mieszkania Średnia cena za \(m^2\) Najczęstsza liczba pokoi
Warszawa 57.27 18503.96 2
Kraków 55.37 17135.48 2
Gdańsk 58.63 15402.31 2
Gdynia 63.24 14020.05 3
Wrocław 56.34 13562.28 2
Poznań 57.84 11472.10 2
Rzeszów 60.07 10803.55 3
Białystok 51.73 10089.06 3
Lublin 59.05 10060.79 3
Szczecin 63.52 9529.45 2
Katowice 60.05 9038.26 3
Łódź 52.70 8536.00 2
Bydgoszcz 54.13 8194.03 2
Częstochowa 54.28 7034.63 2
Radom 55.47 6929.92 3

Interpretacja wyników

  1. Województwo mazowieckie jako lider cenowy

    Z wykresu wynika, że województwo mazowieckie, w szczególności Warszawa, dominuje pod względem średnich cen za metr kwadratowy, osiągając wartości powyżej 18 000 PLN/m². Jest to odzwierciedleniem centralnej roli stolicy w gospodarce, jej rozwiniętego rynku pracy oraz wysokiego popytu na mieszkania.

  2. Regiony o najniższych cenach

    Województwa takie jak podkarpackie, lubelskie i podlaskie charakteryzują się znacznie niższymi cenami, oscylującymi wokół 10 000 PLN/m². Są to regiony o mniejszym stopniu urbanizacji oraz niższym popycie na nieruchomości w porównaniu do dużych miast.

  3. Regiony o średnich cenach

    Województwa dolnośląskie, pomorskie i wielkopolskie znajdują się w średnim przedziale cenowym, wynoszącym od 12 000 PLN/m² do 16 000 PLN/m². Obejmują one dynamicznie rozwijające się miasta, takie jak Wrocław, Gdańsk czy Poznań, które są istotnymi ośrodkami akademickimi i biznesowymi.

  4. Różnice między regionami

    Mapa podkreśla wyraźne różnice w rozwoju regionalnym. Województwa takie jak opolskie czy świętokrzyskie należą do najtańszych, co może być związane z niższym stopniem urbanizacji, mniejszym popytem oraz ograniczoną dostępnością pracy w tych regionach.

Wnioski

Wykres średnich cen mieszkań za metr kwadratowy w podziale na województwa jasno pokazuje istotne różnice regionalne. Najwyższe ceny dominują w centralnej i północno-zachodniej części Polski, szczególnie w miastach takich jak Warszawa, Wrocław, Gdańsk i Kraków. Natomiast regiony wschodnie oraz mniej zurbanizowane województwa charakteryzują się niższymi cenami, co wskazuje na ich mniejszy potencjał rynkowy. Wyniki te sugerują, że dalsze badania powinny uwzględnić czynniki demograficzne, ekonomiczne i infrastrukturalne, które kształtują rynek nieruchomości w Polsce.

Wybór miast do dalszej analizy

W ramach dalszej analizy postanowiliśmy skupić się na szczegółowym porównaniu miast w naszym zbiorze danych pod kątem cen mieszkań za metr kwadratowy. W tym celu wybraliśmy po dwa miasta z trzech grup cenowych:

  1. Miasta z najwyższymi cenami za \(m^2\) – są to lokalizacje charakteryzujące się wyjątkowo wysokim poziomem cen, które mogą być związane z prestiżem, dostępem do wyjątkowych udogodnień, czy lokalizacją w centralnych dzielnicach dużych miast. Analiza tych miast jakimi są Warszawa oraz Kraków pozwoli zrozumieć, jakie czynniki najbardziej wpływają na tak wysokie ceny.

  2. Miasta o średnich cenach za \(m^2\) – wybraliśmy dwa miasta znajdujące się w średniej półce cenowej tj Rzeszów i Białystok. Analiza tej grupy pozwoli na identyfikację, jak różnią się te lokalizacje od najdroższych i najtańszych pod względem dostępności mieszkań, udogodnień oraz charakterystyki demograficznej.

  3. Miasta z najniższymi cenami za \(m^2\) – dwa miasta o najniższych cenach za metr kwadratowy (Radom, Częstochowa) zostały wybrane w celu zbadania, czy niższe ceny wynikają z lokalizacji, ograniczonej liczby udogodnień, czy może innych czynników, takich jak mniejsze zainteresowanie rynkiem nieruchomości.

Uzasadnienie wyboru

Decyzja o podziale miast na trzy grupy wynika z chęci uchwycenia zróżnicowania na polskim rynku nieruchomości. Taki podział pozwala:

  • Lepiej zrozumieć czynniki wpływające na ceny mieszkań w skrajnie różnych lokalizacjach.
  • Zidentyfikować potencjalne różnice w charakterystyce mieszkań (np. powierzchnia, liczba pokoi, stan techniczny) pomiędzy miastami.
  • Opracować bardziej uniwersalne wnioski, które mogą być przydatne zarówno dla inwestorów, jak i osób zainteresowanych zakupem mieszkań.

Dzięki temu podziałowi możemy porównać, jakie cechy i trendy są unikalne dla różnych segmentów cenowych, oraz czy istnieją wspólne wzorce, które łączą te grupy.

Zależności cenowe w wybranych miastach przedstawione zostały na poniższym wykresie

Wykres graficznie przedstawia wcześniej omówione różnice w cenach mieszkań za metr kwadratowy w wybranych miastach. Wizualizacja potwierdza podział na trzy grupy cenowe, ukazując wyraźne różnice między najdroższymi, średnimi i najtańszymi lokalizacjami.

Analiza udogodnień w nieruchomościach

Wykonamy analizę, aby sprawdzić, w jaki sposób różne udogodnienia, takie jak balkon, winda, parking, ochrona czy komórka lokatorska, wpływają na ceny mieszkań w wybranych miastach. Za pomocą wykresów pudełkowych ocenimy, czy obecność tych udogodnień ma znaczący wpływ na wartość nieruchomości oraz jak różnice te kształtują się w zależności od lokalizacji.

Wykresy pudełkowe udogodnień

Wpływ balkonu na cenę mieszkań

Balkon jest jednym z kluczowych elementów wpływających na wartość mieszkania, zwłaszcza w dużych miastach.

  • W Warszawie i Krakowie, mieszkania z balkonem mają wyraźnie wyższe mediany cen w porównaniu do mieszkań bez tego udogodnienia. Może to wynikać z zapotrzebowania na przestrzeń zewnętrzną w dużych aglomeracjach, gdzie dostęp do terenów zielonych bywa ograniczony.
  • W miastach takich jak Radom, Rzeszów i Częstochowa, różnice w medianach cen są mniej wyraźne, co wskazuje, że balkon w tych lokalizacjach jest czynnikiem mniej istotnym.
  • Warto zauważyć, że rozrzut cen w grupie mieszkań z balkonem jest mniejszy, co może świadczyć o większej standaryzacji tej grupy mieszkań pod względem ceny.

Wpływ windy na cenę mieszkań

Obecność windy ma istotne znaczenie dla wartości mieszkań, szczególnie w nowoczesnych budynkach i wyższych kondygnacjach.

  • Warszawa, Kraków i Rzeszów charakteryzują się znaczącą różnicą w medianach cen mieszkań z i bez windy, co wskazuje na preferencje kupujących związane z wygodą użytkowania. Winda może być szczególnie istotna w budynkach wielopiętrowych.
  • W mniejszych miastach, takich jak Radom i Częstochowa, różnice w medianach są mniej zauważalne, co może sugerować, że winda nie jest tam równie cenionym udogodnieniem.
  • Rozrzut cen mieszkań bez windy jest większy, co może świadczyć o różnorodności oferty mieszkań w tej grupie.

Wpływ parkingu na cenę mieszkań

Analiza wskazuje, że obecność parkingu jest istotnym czynnikiem wpływającym na medianę cen mieszkań, szczególnie w większych aglomeracjach.

  • Warszawa wykazuje najwyższą medianę cen dla mieszkań z parkingiem, co może sugerować, że dostępność parkingu w stolicy jest szczególnie pożądana przez nabywców.
  • W miastach takich jak Kraków i Rzeszów, różnica między cenami mieszkań z parkingiem i bez jest również wyraźna, choć nie tak wysoka jak w Warszawie. Może to wynikać z urbanistycznych potrzeb mieszkańców.
  • Częstochowa i Radom charakteryzują się stosunkowo niewielką różnicą w medianach cen, co wskazuje na mniejsze znaczenie parkingu jako czynnika wpływającego na decyzje zakupowe.
  • Rozrzut cen (odchylenie) w grupie mieszkań bez parkingu jest większy, co może wskazywać na większą różnorodność mieszkań w tej grupie pod względem lokalizacji, standardu i powierzchni.

Wpływ ochrony na cenę mieszkań

Obecność ochrony na terenie nieruchomości jest silnym czynnikiem zwiększającym wartość mieszkań w dużych i dynamicznie rozwijających się miastach.

  • W takich lokalizacjach jak Warszawa i Kraków, mieszkania z ochroną osiągają zauważalnie wyższe ceny, co świadczy o znaczeniu bezpieczeństwa w decyzjach zakupowych.
  • Radom i Częstochowa wykazują niewielkie różnice w medianach cen mieszkań z i bez ochrony, co sugeruje, że w mniejszych miastach czynniki takie jak lokalizacja i stan techniczny nieruchomości mogą być ważniejsze niż bezpieczeństwo.
  • Analiza rozrzutu cen pokazuje, że mieszkania z ochroną charakteryzują się mniejszym odchyleniem standardowym, co oznacza większą stabilność cenową w tej grupie.

Wpływ komórki lokatorskiej na cenę mieszkań

Komórka lokatorska stanowi ważny element funkcjonalności nieruchomości, szczególnie w bardziej zatłoczonych miastach, gdzie przestrzeń dodatkowa ma istotne znaczenie.

  • Warszawa, Kraków i Rzeszów wykazują wyraźne różnice w medianach cen mieszkań z i bez komórki lokatorskiej. W tych miastach komórka lokatorska może być postrzegana jako istotne udogodnienie, które podnosi wartość użytkową mieszkania.
  • W miastach takich jak Radom i Częstochowa, różnice w medianach są mniej wyraźne, co sugeruje, że lokalne preferencje zakupowe mogą nie uwzględniać tego udogodnienia jako kluczowego.
  • Rozrzut cen mieszkań bez komórki lokatorskiej jest większy, co może sugerować większą różnorodność w tej grupie pod względem lokalizacji i standardu nieruchomości.

Podsumowanie

1.Balkon: Istotny czynnik w Warszawie i Krakowie, gdzie dostęp do przestrzeni zewnętrznej jest ograniczony.
2.Winda: Znaczący wpływ na wartość mieszkań, szczególnie w dużych miastach z nowoczesną zabudową.
3.Parking: Kluczowy czynnik w dużych miastach, zwłaszcza w Warszawie, gdzie dostępność miejsc parkingowych jest ograniczona.
4.Ochrona: Wysoko cenione w dużych aglomeracjach, szczególnie tam, gdzie bezpieczeństwo jest priorytetem.
5.Komórka lokatorska: Ważna w miastach o wysokim zagęszczeniu, gdzie przestrzeń przechowywania ma istotne znaczenie.

Test Chi-kwadrat

Wstęp do analizy testem Chi-kwadrat

W ramach analizy projektu zdecydowaliśmy się zbadać zależności pomiędzy zmiennymi kategorycznymi opisującymi cechy mieszkań. W tym celu zastosowaliśmy test Chi-kwadrat, który jest jedną z najpopularniejszych metod analizy zależności pomiędzy dwiema zmiennymi jakościowymi (kategorycznymi).

Opis metody

Test Chi-kwadrat służy do sprawdzania, czy istnieje statystycznie istotna zależność pomiędzy dwiema zmiennymi kategorycznymi. Wykorzystuje tablicę kontyngencji (czyli tabelę krzyżową) do porównania rzeczywistych obserwacji w danych z wartościami oczekiwanymi, które wystąpiłyby w przypadku braku zależności.

Test ten opiera się na statystyce Chi-kwadrat: \[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \] gdzie: - \(O_i\) to zaobserwowane wartości, - \(E_i\) to oczekiwane wartości przy założeniu niezależności.

Hipotezy testu

  • Hipoteza zerowa (\(H_0\)): Nie ma zależności między badanymi zmiennymi.
  • Hipoteza alternatywna (\(H_1\)): Istnieje zależność między badanymi zmiennymi.

Założenia testu

  1. Dane są w postaci nominalnej (kategorycznej).
  2. Wartości oczekiwane w każdej komórce tabeli kontyngencji powinny wynosić co najmniej 5 (dla mniejszych próbek można użyć dokładnego testu Fishera).

Analiza zależności dla wielu zmiennych kategorycznych

Ogólne wnioski:

Na podstawie przeprowadzonych testów Chi-kwadrat oraz wykresów możemy sformułować następujące wnioski:

  1. Silne powiązania:
    • Najsilniejsze zależności występują między zmiennymi związanymi z windą i pomieszczeniem gospodarczym. To sugeruje, że obecność windy jest ściśle związana z dostępem do pomieszczenia gospodarczego, co może wynikać z układu budynków lub preferencji klientów.
    • Również zmienne parking i pomieszczenie gospodarcze oraz parking i winda wykazują silną zależność.
  2. Umiarkowane zależności:
    • Istnieje umiarkowana zależność między zmiennymi związanymi z balkonem i ochroną, co może wskazywać na określone standardy bezpieczeństwa w mieszkaniach z balkonem.
  3. Brak istotnych zależności:
    • Nie stwierdzono istotnej zależności między posiadaniem balkonu a windą, co oznacza, że te cechy nie są powiązane w badanej próbie.
  4. Wpływ niskich wartości p:
    • Bardzo niskie wartości p dla większości porównań sugerują, że wykryte zależności nie są przypadkowe i wynikają z faktycznych powiązań między cechami mieszkań.

Podsumowanie: W analizie ujawniono liczne istotne korelacje między cechami mieszkań. Najsilniejsze zależności dotyczą cech związanych z infrastrukturą budynku (winda, pomieszczenie gospodarcze) oraz dostępnością (parking). Wyniki te mogą być wykorzystane do przewidywania preferencji klientów lub optymalizacji oferty deweloperów.

Testowanie normalności i jednorodności wariancji

Postanowiliśmy zbadać, czy wariancje wyników w różnych grupach badawczych są jednorodne. Jednorodność wariancji, czyli homoskedastyczność, jest kluczowym założeniem w wielu testach statystycznych, takich jak analiza wariancji (ANOVA) czy test t-Studenta. Jeśli wariancje nie są równe, wyniki tych analiz mogą być niewiarygodne, co może prowadzić do błędnych wniosków.

Aby zweryfikować jednorodność wariancji w badanych grupach, zastosujemy test Levene’a. Jest to popularna i odporna metoda, która pozwala porównać wariancje w dwóch lub więcej grupach, nawet gdy dane nie spełniają założeń normalności rozkładu. Test ten będzie kluczowym krokiem w naszej analizie statystycznej, ponieważ od jego wyniku zależy, czy możemy zastosować klasyczne metody parametryczne, czy też konieczne będzie użycie metod alternatywnych.

W dalszej części przedstawimy sposób przeprowadzenia testu Levene’a oraz omówimy uzyskane wyniki.

Test Levene’a

Test Levene’a jest statystycznym testem służącym do sprawdzenia jednorodności wariancji (homoskedastyczności) w dwóch lub więcej grupach. Jest szczególnie użyteczny w analizach, które wymagają równości wariancji jako jednego z założeń, np. analiza wariancji (ANOVA) czy test t-Studenta.

Hipotezy testu:

  • Hipoteza zerowa (H₀): Wariancje w każdej grupie są równe.
  • Hipoteza alternatywna (H₁): Istnieją różnice w wariancjach pomiędzy grupami.

Mechanizm działania:

Test Levene’a porównuje odchylenia wartości w każdej grupie od mediany lub średniej. W wersji klasycznej test bazuje na średniej, natomiast modyfikacja Browna-Forsythe’a stosuje medianę, co czyni test bardziej odpornym na wartości odstające.

Podsumowanie wyników testów Levene’a dla zmiennej price.
Zmienna F_Statistic p_value Interpretacja
has_parking 0.0245752 0.8754317 Wariancje są jednorodne
has_balcony 46.0675741 0.0000000 Wariancje różnią się istotnie
has_elevator 7.3013191 0.0068958 Wariancje różnią się istotnie
has_security 1.0000373 0.3173127 Wariancje są jednorodne
has_storage_room 26.2591182 0.0000003 Wariancje różnią się istotnie

Interpretacja

  • has_parking (p = 0.8754) – nie ma podstaw do odrzucenia hipotezy zerowej o jednorodności wariancji, dlatego wariancje są jednorodne.

  • has_balcony (p < 0.0001) – występują istotne statystycznie różnice w wariancjach grup,
    czyli wariancje różnią się istotnie.

  • has_elevator (p = 0.0069) – p < 0.05, co również wskazuje na istotną różnicę wariancji,
    a zatem wariancje różnią się istotnie.

  • has_security (p = 0.3173) – brak podstaw do odrzucenia hipotezy zerowej, wariancje są jednorodne.

  • has_storage_room (p < 0.0001) – wariancje w poszczególnych grupach różnią się istotnie, czyli wariancje różnią się istotnie.

Na podstawie tych wyników widać, że jednorodność wariancji została zachowana wyłącznie w przypadku zmiennych has_parking i has_security, natomiast dla has_balcony, has_elevator oraz has_storage_room stwierdzamy istotne różnice w wariancjach między grupami.

Wprowadzenie

Na podstawie wyników testu Andersona-Darlinga (brak rozkładu normalnego) i testu Levene’a (różnice w wariancjach dla niektórych zmiennych), testy parametryczne, takie jak analiza wariancji (ANOVA) czy test t-Studenta, nie są odpowiednie. Zamiast tego zastosujemy test Manna-Whitneya (dla dwóch grup).

Test Mann-Whitneya (Wilcoxona)

Cel testu Mann-Whitneya

Test Manna-Whitneya, znany również jako test U Manna-Whitneya, jest nieparametrycznym testem statystycznym stosowanym do porównania median dwóch niezależnych grup. Jest użyteczny, gdy dane nie spełniają założeń testów parametrycznych, takich jak normalność rozkładu czy jednorodności wariancji.

Założenia testu:

  1. Obie grupy są niezależne.
  2. Dane są mierzalne w skali porządkowej, interwałowej lub ilorazowej.
  3. Rozkłady w obu grupach mogą być różne, ale test jest najbardziej efektywny, gdy kształty rozkładów są podobne.

Hipotezy:

  • Hipoteza zerowa (H₀): Rozkłady obu grup są identyczne, a ich mediany są równe.
  • Hipoteza alternatywna (H₁): Rozkłady obu grup różnią się, co może wskazywać na różnicę median.

Wynik testu:

  • Statystyka U: Miara różnicy rang w obu grupach.
  • Wartość p: Ocenia, czy różnica między grupami jest statystycznie istotna. Jeśli wartość p jest mniejsza od przyjętego poziomu istotności (np. 0.05), odrzucamy H₀.
Podsumowanie wyników testów Manna-Whitneya dla miast i zmiennych kategorycznych.
Miasto Zmienna W_Statistic p_value Interpretacja
Kraków has_elevator 1223201.5 2.47e-04 Istotna różnica
Kraków has_parking 969775.0 1.26e-09 Istotna różnica
Kraków has_balcony 986463.5 7.37e-18 Istotna różnica
Kraków has_security 355282.0 1.24e-01 Brak istotnej różnicy
Kraków has_storage_room 1449880.5 1.00e+00 Brak istotnej różnicy
Warszawa has_elevator 4621028.0 1.71e-11 Istotna różnica
Warszawa has_parking 3973642.0 9.57e-59 Istotna różnica
Warszawa has_balcony 5317059.5 1.14e-15 Istotna różnica
Warszawa has_security 3051055.0 1.02e-20 Istotna różnica
Warszawa has_storage_room 6676707.5 1.00e+00 Brak istotnej różnicy
Radom has_elevator 4702.0 9.88e-01 Brak istotnej różnicy
Radom has_parking 1246.5 2.91e-08 Istotna różnica
Radom has_balcony 3567.5 2.13e-01 Brak istotnej różnicy
Radom has_security 672.5 5.41e-01 Brak istotnej różnicy
Radom has_storage_room 3719.0 8.86e-01 Brak istotnej różnicy
Częstochowa has_elevator 11185.0 5.76e-01 Brak istotnej różnicy
Częstochowa has_parking 2800.0 3.06e-06 Istotna różnica
Częstochowa has_balcony 12011.0 4.77e-04 Istotna różnica
Częstochowa has_security 449.5 7.94e-02 Brak istotnej różnicy
Częstochowa has_storage_room 23435.5 1.00e+00 Brak istotnej różnicy
Rzeszów has_elevator 3098.0 2.88e-01 Brak istotnej różnicy
Rzeszów has_parking 2502.0 7.19e-02 Brak istotnej różnicy
Rzeszów has_balcony 2596.5 5.84e-01 Brak istotnej różnicy
Rzeszów has_security 669.0 1.35e-01 Brak istotnej różnicy
Rzeszów has_storage_room 3753.5 9.69e-01 Brak istotnej różnicy
Białystok has_elevator 5051.5 3.47e-03 Istotna różnica
Białystok has_parking 3045.5 3.33e-02 Istotna różnica
Białystok has_balcony 4775.5 2.19e-02 Istotna różnica
Białystok has_security 469.0 5.47e-01 Brak istotnej różnicy
Białystok has_storage_room 6423.5 8.68e-01 Brak istotnej różnicy

Interpretacja wyników testu Mann-Whitneya

W przeprowadzonych testach Manna–Whitneya (z alternatywą less) sprawdzano istotność statystyczną różnic w medianach ceny mieszkań (zmienna price) w zależności od pięciu cech (zmiennych kategorycznych):

  • has_elevator (czy mieszkanie ma windę),

  • has_parking (czy mieszkanie ma parking),

  • has_balcony (czy mieszkanie ma balkon),

  • has_security (czy w budynku jest ochrona),

  • has_storage_room (czy mieszkanie/dyspozycji jest pomieszczenie gospodarcze).

Test przeprowadzono osobno dla każdej z wybranych miejscowości. W poniższej interpretacji „istotna różnica” oznacza odrzucenie hipotezy zerowej (p < 0.05), natomiast „brak istotnej różnicy” – brak podstaw do jej odrzucenia (p ≥ 0.05).

Kraków

  • has_elevator, has_parking, has_balcony: stwierdzono istotne różnice w rozkładach cen (p < 0.05).

  • has_security, has_storage_room: brak istotnych różnic (p ≥ 0.05).

W Krakowie cechy takie jak winda, parking czy balkon mogą więc wiązać się z innym poziomem mediany ceny niż w przypadku mieszkań bez tych udogodnień. Natomiast ochrona i pomieszczenie gospodarcze nie wykazały statystycznie istotnego wpływu na rozkład cen.

Warszawa

  • has_elevator, has_parking, has_balcony, has_security: istotna różnica (p < 0.05).

  • has_storage_room: brak istotnej różnicy (p ≥ 0.05).

W stolicy niemal wszystkie uwzględniane udogodnienia (poza pomieszczeniem gospodarczym) istotnie różnicują medianę ceny.

Radom

  • has_parking: istotna różnica (p < 0.05).

  • has_elevator, has_balcony, has_security, has_storage_room: brak istotnej różnicy (p ≥ 0.05).

Dla mieszkań w Radomiu tylko parking istotnie wpływa na ceny w ujęciu statystycznym.

Częstochowa

  • has_parking, has_balcony: istotna różnica (p < 0.05).

  • has_elevator, has_security, has_storage_room: brak istotnej różnicy (p ≥ 0.05).

Tutaj ważnymi czynnikami wpływającymi na ceny (w sensie statystycznym) okazały się posiadanie parkingu oraz balkonu.

Rzeszów

  • Dla wszystkich pięciu analizowanych cech (winda, parking, balkon, ochrona, pom. gospodarcze) brak istotnej różnicy (p ≥ 0.05).

W Rzeszowie nie stwierdzono wpływu żadnej z badanych zmiennych kategorycznych na rozkład cen w testach Manna–Whitneya.

Białystok

  • has_elevator, has_parking, has_balcony: istotna różnica (p < 0.05).

  • has_security, has_storage_room: brak istotnej różnicy (p ≥ 0.05).

W Białymstoku posiadanie windy, parkingu oraz balkonu różnicowało medianę cen, natomiast ochrona i pomieszczenie gospodarcze nie miały takiego istotnego efektu.

Podsumowując, w większości miast zaobserwowano istotne statystycznie różnice w medianach cen przy uwzględnieniu co najmniej jednej z wybranych cech. Szczególnie często wyłaniającymi się zmiennymi okazały się:

  • has_parking (istotne m.in. w Krakowie, Warszawie, Radomiu, Częstochowie, Białymstoku),

  • has_balcony (istotne m.in. w Krakowie, Warszawie, Częstochowie, Białymstoku).

Dane te sugerują, że w większości analizowanych lokalizacji obecność parkingu czy balkonu może wpływać na kształtowanie się cen mieszkań, podczas gdy ochrona i pomieszczenie gospodarcze rzadziej dawały statystycznie istotne różnice – wyjątkiem był Radom, gdzie jedynie parking się wyróżnił. W Rzeszowie z kolei żaden z badanych czynników nie wpłynął istotnie na medianę cen.

Test ANCOVA

Cel

Zdecydowaliśmy się na przeprowadzenie testu Ancova na podstawie zmiennych: has_balcony, has_elevator, has_parking, has_security oraz has_storage_room ze względu na to, że w naszych poprzednich analizach okazały się one być najbardziej kluczowe w kształtowaniu się cen nieruchomości.

Test ANCOVA pozwoli zbadać, w jakim stopniu te czynniki oddziałują na ceny nieruchomości po uwzględnieniu efektu zmiennej price_per_square_meter, czyli ceny za metr kwadratowy. Dzięki temu możliwe będzie kontrolowanie wpływu tej zmiennej oraz ocena, czy pozostałe cechy mają istotne znaczenie w modelowaniu cen mieszkań. Dodatkowo test umożliwi określenie, czy wpływ analizowanych czynników jest statystycznie potwierdzony.

Definicja Testu ANCOVA

Test ANCOVA to statystyczna metoda łącząca analizę wariancji z analizą regresji. Pozwala na ocenę różnic między średnimi wartościami w różnych grupach, jednocześnie kontrolując wpływ jednej lub więcej zmiennych ciągłych (kowariantów).

  • Hipoteza zerowa (H₀): Po uwzględnieniu wpływu kowariantu nie ma istotnych różnic między grupami.
  • Hipoteza alternatywna (H₁): Po uwzględnieniu wpływu kowariantu istnieją istotne różnice między grupami.


Statystyka testu F wyrażana jest wzorem:

\[ F = \frac{\text{MS}_{\text{effect}}}{\text{MS}_{\text{error}}} \]

gdzie:
- \(\text{MS}_{\text{effect}} = \frac{\text{SS}_{\text{effect}}}{df_{\text {effect}}}\) – średni kwadrat efektu,
- \(\text{MS}_{\text{error}} = \frac{\text{SS}_{\text{error}}}{df_{\text {error}}}\) – średni kwadrat błędu,
- \(\text{SS}_{\text{effect}}\) – suma kwadratów związana z efektem czynnika,
- \(\text{SS}_{\text{error}}\) – suma kwadratów błędu resztowego,
- \(df_{\text{effect}}\) i \(df_{\text{error}}\) – liczby stopni swobody odpowiednio dla efektu czynnika i błędu resztowego.

Wymagania Testu ANCOVA

  1. Zmienne w grupach są niezależne.
  2. Rozkład wyników w każdej grupie jest normalny.
  3. Wariancje w grupach są homogeniczne (jednakowe).
  4. Kowariant jest niezależny od czynnika.
  5. Kowariat powinien wykazywać liniową relację ze zmienną zależną.

Wyniki testu

Podsumowanie wyników testów ANCOVA
Miasto Zmienna F_value p_value
Białystok has_balcony 4.803 0.0294
Białystok has_elevator 5.029 0.0259
Białystok has_parking 0.707 0.4013
Białystok price_per_square_meter:has_balcony 0.597 0.4404
Białystok price_per_square_meter:has_elevator 0.547 0.4604
Białystok price_per_square_meter:has_parking 11.364 0.000883
Częstochowa has_balcony 6.374 0.01198
Częstochowa has_parking 10.701 0.00117
Częstochowa price_per_square_meter:has_balcony 1.344 0.2471
Częstochowa price_per_square_meter:has_parking 5.567 0.01881
Radom has_parking 37.252 0.00000000567
Radom price_per_square_meter:has_parking 1.231 0.269
Kraków has_balcony 90.922 2e-16
Kraków has_elevator 18.968 0.0000137
Kraków has_parking 26.005 0.00000036
Kraków has_security 0.032 0.8549
Kraków has_storage_room 3.548 0.0597
Kraków price_per_square_meter:has_balcony 0.351 0.5536
Kraków price_per_square_meter:has_elevator 6.220 0.0127
Kraków price_per_square_meter:has_parking 0.097 0.7558
Kraków price_per_square_meter:has_security 2.619 0.1057
Kraków price_per_square_meter:has_storage_room 4.951 0.0261
Warszawa has_balcony 129.058 2e-16
Warszawa has_elevator 1.031 0.3099
Warszawa has_parking 222.922 2e-16
Warszawa has_security 37.599 9.17e-10
Warszawa has_storage_room 31.739 1.83e-08
Warszawa price_per_square_meter:has_balcony 5.165 0.0231
Warszawa price_per_square_meter:has_elevator 1.278 0.2584
Warszawa price_per_square_meter:has_parking 17.210 3.39e-05
Warszawa price_per_square_meter:has_security 1.677 0.1954
Warszawa price_per_square_meter:has_storage_room 15.797 7.12e-05
Rzeszów has_elevator 0.228 0.63387
Rzeszów has_storage_room 3.553 0.06127
Rzeszów price_per_square_meter:has_elevator 0.504 0.4788
Rzeszów price_per_square_meter:has_storage_room 0.002 0.96371

Interpretacja wyników testu ANCOVA

Miasto Główne wnioski Interakcje
Białystok - Balkon (p=0.0294) i winda (p=0.0259) znacząco podnoszą cenę
- Parking (p=0.4013) nie ma istotnego wpływu
- Interakcja cena/m² × parking (p=0.000883) jest istotna – wpływ ceny/m² na cenę zależy od obecności parkingu
Częstochowa - Balkon (p=0.01198) i parking (p=0.00117) istotnie podnoszą cenę - Interakcja cena/m² × parking (p=0.01881) jest istotna
Radom - Parking (p=5.67e-09) ma bardzo silny wpływ na cenę - Interakcja cena/m² × parking (p=0.269) nieistotna
Kraków - Balkon (p<2e-16), winda (p=1.37e-05) i parking (p=3.60e-07) mocno wpływają na cenę
- Ochrona (p=0.8549) nie ma wpływu
- Pomieszczenie gospodarcze (p=0.0597) – efekt graniczny
- Istotne interakcje z windą (p=0.0127) i pomieszczeniem gosp. (p=0.0261) – wpływ ceny/m² różni się w zależności od obecności tych udogodnień
Warszawa - Balkon (p<2e-16), parking (p<2e-16), ochrona (p=9.17e-10) i pomieszczenie gospodarcze (p=1.83e-08) wyraźnie zwiększają cenę
- Winda (p=0.3099) nie jest istotna
- Istotne interakcje z balkonem (p=0.0231), parkingiem (p=3.39e-05) i pomieszczeniem gosp. (p=7.12e-05)
Rzeszów - Winda (p=0.63387) nie ma wpływu
- Pomieszczenie gospodarcze (p=0.06127) – marginalne znaczenie
- Brak istotnych interakcji

Główne obserwacje:

  • Balkon i parking często najmocniej podwyższają cenę (np. Warszawa, Kraków, Radom, Częstochowa, Białystok).

  • Winda ma znaczenie w niektórych miastach (Kraków, Białystok), ale bywa nieistotna w innych (Warszawa, Rzeszów).

  • Ochrona i pomieszczenie gospodarcze wyraźnie działają zwłaszcza w Warszawie i Krakowie; gdzie indziej są mniej ważne lub nieistotne.

  • Interakcje (czyli wpływ danej cechy w zależności od ceny za m²) są czasem istotne, głównie w przypadku parkingu (Białystok, Częstochowa, Warszawa), a także balkonu (Warszawa) oraz windy i pomieszczenia gosp. (Kraków).

W praktyce oznacza to, że znaczenie konkretnych udogodnień (balkon, parking, winda, ochrona, pomieszczenie gospodarcze) różni się w zależności od miasta. Inwestorzy powinni więc zwrócić szczególną uwagę na te cechy, które w danej lokalizacji najmocniej wpływają na wycenę nieruchomości.

Analiza czynników geograficznych wpływających na ceny mieszkań

Odległość od centrum

Ogólne wnioski:

  1. Warszawa i Kraków:
    • W obu miastach widać wyraźny spadek cen mieszkań wraz z rosnącą odległością od centrum (linia regresji jest nachylona w dół). To może świadczyć o tym, że w tych dużych miastach lokalizacja bliżej centrum jest kluczowym czynnikiem wpływającym na cenę.
  2. Częstochowa, Radom:
    • W tych miastach linie regresji są prawie płaskie lub lekko nachylone w górę, co sugeruje brak wyraźnej zależności między odległością od centrum a ceną. Może to wskazywać, że w mniejszych miastach czynniki takie jak standard mieszkania lub lokalne preferencje mogą odgrywać większą rolę niż sama odległość od centrum.
  3. Białystok, Rzeszów:
    • W przypadku Rzeszowa widzimy, że linia jest nachylona w górę, oznacza to, że wraz ze wzrostem odległości od centrum miasta, ceny mieszkań rosną. Białystok również cechuje się linią nachyloną w górę jednak w mniejszym stopniu w przeciwieństwie do Rzeszowa.
  4. Rozrzut danych:
    • W miastach takich jak Warszawa czy Kraków widać większy rozrzut cen (punkty są bardziej rozproszone), co oznacza, że mieszkania w tych miastach mają znacznie większe zróżnicowanie cen.

Interpretacja:

W miastach takich jak Warszawa i Kraków bliskość centrum jest istotnym czynnikiem wpływającym na ceny mieszkań – im bliżej centrum, tym ceny są wyższe. W mniejszych miastach, takich jak Radom czy Białystok, odległość od centrum nie ma tak dużego wpływu na ceny mieszkań, a inne czynniki mogą dominować w kształtowaniu wartości nieruchomości.


Współczynniki korelacji między odległością od centrum miasta a ceną mieszkań
Miasto Wynik korelacji
Białystok 0.1812080
Częstochowa 0.1052754
Kraków -0.4516062
Radom -0.0102774
Rzeszów 0.2788925
Warszawa -0.1410103

Tabela przedstawia współczynniki korelacji między odległością od centrum miasta a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

  1. Białystok:
    • Występuje niewielka dodatnia korelacja. Oznacza to, że wraz ze wzrostem odległości od centrum ceny mieszkań delikatnie rosną, choć zależność nie jest silna.
  2. Rzeszów:
    • Średnia dodatnia korelacja. W Rzeszowie obserwujemy wyraźniejszą tendencję wzrostu cen mieszkań w miarę oddalania się od centrum, choć zależność nie jest bardzo silna.
  3. Częstochowa:
    • Podobnie jak w Białymstoku, korelacja jest dodatnia, ale bardzo słaba. Oznacza to, że odległość od centrum ma niewielki wpływ na ceny mieszkań, z tendencją do ich wzrostu na obrzeżach miasta.
  4. Kraków:
    • Silna ujemna korelacja wskazuje, że w Krakowie im dalej od centrum, tym ceny mieszkań wyraźnie maleją. Centrum miasta wydaje się być znacznie bardziej atrakcyjne cenowo niż obrzeża.
  5. Warszawa:
    • Słaba ujemna korelacja wskazuje, że w Warszawie ceny mieszkań nieznacznie spadają wraz z oddalaniem się od centrum, ale zależność nie jest silna.
  6. Radom:
    • Praktycznie brak korelacji. Oznacza to, że w Radomiu odległość od centrum nie ma znaczącego wpływu na ceny mieszkań.

Odległość od szkoły

Ogólne wnioski:

  1. Warszawa i Kraków:
    • W Krakowie możemy zauważyć, że linia jest lekko nachylona w dół co sugeruje nam, że lokalizacja bliżej szkół jest kluczowym czynnikiem wpływającym na cenę. W przypadku Warszawy linia jest nachylona w górę co może świadczyć że wraz ze wzrostem odległości od szkół, ceny mieszkań rosną.
  2. Częstochowa, Radom, Białystok, Rzeszów:
    • W mniejszych miastach, takich jak Radom, Rzeszów czy Częstochowa, linie regresji są nachylone w górę, co sugeruje zależność – ceny mieszkań mogą nieco rosnąć wraz z odległością od szkół. To może wynikać z preferencji mieszkańców, którzy wolą spokojniejsze rejony z dala od szkół.
  3. Rozrzut danych:
    • Warszawa i Kraków charakteryzują się większym rozproszeniem cen mieszkań w stosunku do odległości od szkół, co może wskazywać na różnorodność lokalnych czynników wpływających na ceny. W mniejszych miastach rozrzut jest mniejszy, a ceny są bardziej przewidywalne.

Interpretacja:

Bliskość szkół wydaje się wpływać na wyższe ceny mieszkań w Warszawie i Krakowie, co sugeruje, że dla mieszkańców tych miast istotna jest łatwość dostępu do placówek edukacyjnych, zwłaszcza dla rodzin z dziećmi. W mniejszych miastach, takich jak Radom, Rzeszów czy Białystok, wpływ odległości od szkół na ceny mieszkań jest mniej wyraźny lub odwrotny. W tych lokalizacjach mieszkańcy mogą preferować spokojniejsze rejony z dala od szkół, co może sugerować lekkie wzrosty cen wraz z oddaleniem od placówek edukacyjnych.


Współczynniki korelacji między odległością od szkół a ceną mieszkań
Miasto Wynik korelacji
Białystok 0.1512009
Częstochowa 0.4381307
Kraków -0.0694751
Radom 0.1257768
Rzeszów 0.1485620
Warszawa 0.0344552

Tabela przedstawia współczynniki korelacji między odległością od szkół a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

  1. Białystok
    • Słaba, ale pozytywna korelacja oznacza, że wraz ze wzrostem odległości od uczelni ceny mieszkań nieznacznie rosną. Preferencja dla spokojniejszych lokalizacji oddalonych od uczelni, choć efekt jest minimalny.
  2. Częstochowa
    • Umiarkowanie pozytywna korelacja wskazuje, że mieszkania dalej od uczelni są wyraźnie droższe. Cichsze lokalizacje są bardziej pożądane niż te blisko uczelni.
  3. Kraków
    • Korelacja jest negatywna i bliska zeru, co oznacza, że mieszkania bliżej uczelni są nieco droższe. W mieście akademickim, jak Kraków, bliskość uczelni jest ważnym atutem.
  4. Radom
    • Słaba pozytywna korelacja wskazuje, że ceny mieszkań lekko rosną z odległością od uczelni. Bliskość uczelni nie jest kluczowym czynnikiem wpływającym na ceny.
  5. Rzeszów
    • Słaba pozytywna korelacja oznacza, że ceny mieszkań lekko rosną z odległością od uczelni. Preferencje mogą skłaniać się ku lokalizacjom oddalonym od uczelni, choć różnice są niewielkie.
  6. Warszawa
    • Korelacja jest bliska zeru, co oznacza, że odległość od uczelni praktycznie nie wpływa na ceny mieszkań. W dużym rynku warszawskim ważniejsze są inne czynniki, np. lokalizacja dzielnicy czy standard mieszkania.

Odległość od kliniki

Ogólne wnioski:

  1. Warszawa i Kraków:
    • W tych dużych miastach widoczny jest wyraźny spadek cen mieszkań wraz ze wzrostem odległości od klinik (nachylenie linii regresji jest ujemne). Może to sugerować, że w Warszawie i Krakowie bliskość do placówek medycznych jest ważnym czynnikiem podnoszącym wartość mieszkań.
  2. Częstochowa, Radom, Białystok i Rzeszów:
    • W mniejszych miastach (np. Radom, Rzeszów, Częstochowa) linie regresji są lekko nachylone w górę, co oznacza, że w tych lokalizacjach ceny mieszkań mogą wzrastać wraz z odległością od klinik. Warto jednak zauważyć, że wpływ ten jest minimalny, co może wskazywać na brak wyraźnej zależności.
  3. Rozrzut danych:
    • W większych miastach (np. Warszawa, Kraków) dane są bardziej rozproszone, co świadczy o większej różnorodności cen mieszkań w zależności od odległości. W mniejszych miastach punkty są bardziej skupione, co oznacza mniej zróżnicowane ceny mieszkań.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od klinik ma wyraźny wpływ na ceny mieszkań – im bliżej klinik, tym wyższe ceny. Wskazuje to na duże znaczenie bliskości do placówek medycznych w kształtowaniu wartości nieruchomości w tych aglomeracjach. W mniejszych miastach, takich jak Radom, Częstochowa czy Białystok, ta zależność jest mniej widoczna lub wręcz odwrotna. Ceny mieszkań mogą tam wzrastać wraz z odległością od klinik, choć wpływ ten jest słaby. Może to wynikać z mniejszego nacisku na dostępność medyczną w tych lokalizacjach.


Współczynniki korelacji między odległością od klinik a ceną mieszkań
Miasto Wynik korelacji
Białystok 0.0498567
Częstochowa 0.3834959
Kraków -0.2014158
Radom 0.2207426
Rzeszów 0.2764591
Warszawa -0.0971739

Tabela przedstawia współczynniki korelacji między odległością od klinik a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

  1. Białystok
    • Bardzo słaba pozytywna korelacja. Odległość od klinik praktycznie nie wpływa na ceny mieszkań. Może to wynikać z równej dostępności usług medycznych w całym mieście.
  2. Częstochowa
    • Umiarkowana pozytywna korelacja. Mieszkania w większej odległości od klinik są droższe, co może sugerować, że mieszkańcy preferują lokalizacje w cichszych i spokojniejszych rejonach miasta, z dala od klinik.
  3. Kraków
    • Słaba negatywna korelacja. Wraz ze wzrostem odległości od klinik ceny mieszkań spadają, co może wskazywać, że bliskość do placówek medycznych jest ceniona przez mieszkańców Krakowa.
  4. Radom
    • Słaba pozytywna korelacja.Mieszkania w większej odległości od klinik są nieco droższe. Podobnie jak w przypadku Częstochowy, może to wynikać z preferencji dla spokojniejszych rejonów.
  5. Rzeszów
    • Umiarkowana pozytywna korelacja. Ceny mieszkań rosną wraz z odległością od klinik, co sugeruje, że bliskość do klinik nie jest kluczowym czynnikiem wpływającym na wartość mieszkań w Rzeszowie.
  6. Warszawa
    • Bardzo słaba negatywna korelacja. Mieszkania bliżej klinik są nieco droższe, co może wskazywać na większą wartość lokalizacji z łatwym dostępem do opieki medycznej, ale efekt ten jest minimalny.

Odległość od poczty

Ogólne wnioski:

  1. Warszawa i Kraków:
    • W tych dużych miastach linie regresji są prawie poziome, co wskazuje na brak istotnego wpływu odległości od poczty na ceny mieszkań. Wynik ten sugeruje, że bliskość placówek pocztowych nie jest istotnym czynnikiem w kształtowaniu wartości nieruchomości w dużych miastach.
  2. Częstochowa, Radom, Białystok i Rzeszów:
    • W mniejszych miastach (np. Radom, Rzeszów, Częstochowa) linie regresji są lekko nachylone w górę, co oznacza, że w tych lokalizacjach ceny mieszkań mogą wzrastać wraz z odległością od klinik. Warto jednak zauważyć, że wpływ ten jest minimalny, co może wskazywać na brak wyraźnej zależności.
  3. Rozrzut danych:
    • W większych miastach (np. Warszawa, Kraków) dane są bardziej rozproszone, co świadczy o większej różnorodności cen mieszkań w zależności od odległości. W mniejszych miastach punkty są bardziej skupione, co oznacza mniej zróżnicowane ceny mieszkań.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od placówek pocztowych nie ma wyraźnego wpływu na ceny mieszkań. Linie regresji są niemal poziome, co wskazuje na brak istotnej zależności. W tych aglomeracjach bliskość do poczty nie jest czynnikiem wpływającym na wartość nieruchomości, co może wynikać z szerokiej dostępności placówek pocztowych oraz dominacji innych czynników, takich jak prestiż lokalizacji czy dostępność usług miejskich. Rozrzut danych w tych miastach jest znaczący, co odzwierciedla duże zróżnicowanie cen nieruchomości.

W mniejszych miastach, takich jak Częstochowa, Radom, Białystok i Rzeszów, zauważalny jest lekki wzrost cen mieszkań wraz z odległością od placówek pocztowych. Linie regresji są delikatnie nachylone w górę, co sugeruje, że mieszkania w większej odległości od poczty mogą być bardziej cenione. Może to wynikać z preferencji mieszkańców dla spokojniejszych lokalizacji lub mniejszego znaczenia bliskości do usług pocztowych w codziennym życiu. Niemniej jednak, wpływ ten jest minimalny i nie wskazuje na silną zależność.

Rozrzut danych w mniejszych miastach jest znacznie mniejszy niż w dużych aglomeracjach. Punkty na wykresach są bardziej skupione, co oznacza mniejsze zróżnicowanie cen mieszkań w tych lokalizacjach. Sugeruje to bardziej jednorodny rynek nieruchomości, gdzie ceny są mniej podatne na czynniki takie jak odległość od placówek pocztowych.

Współczynniki korelacji między odległością od poczty a ceną mieszkań
Miasto Wynik korelacji
Białystok 0.1352474
Częstochowa 0.2135046
Kraków 0.0304596
Radom 0.0990788
Rzeszów 0.2357461
Warszawa -0.0311410

Tabela przedstawia współczynniki korelacji między odległością od poczty a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

  1. Białystok
    • Słaba pozytywna korelacja.Mieszkania w większej odległości od poczty są nieco droższe. Może to wynikać z faktu, że poczty znajdują się głównie w centralnych, tańszych rejonach miasta.
  2. Częstochowa
    • Słaba, ale wyraźniejsza pozytywna korelacja. Ceny mieszkań wzrastają wraz z odległością od poczty. Może to oznaczać, że bardziej prestiżowe lokalizacje znajdują się poza obszarami intensywnie zabudowanymi, gdzie zlokalizowane są poczty.
  3. Kraków
    • Bardzo słaba pozytywna korelacja. Odległość od poczty ma praktycznie żaden wpływ na ceny mieszkań. Dostępność tej infrastruktury jest prawdopodobnie wyrównana w całym mieście.
  4. Radom
    • Słaba pozytywna korelacja. Mieszkania w dalszej odległości od poczty są nieznacznie droższe, ale wpływ odległości na cenę mieszkań jest bardzo niewielki.
  5. Rzeszów
    • Umiarkowana pozytywna korelacja. Ceny mieszkań rosną wraz z odległością od poczty. Może to świadczyć o większej atrakcyjności osiedli oddalonych od gęsto zabudowanych obszarów z infrastrukturą miejską.
  6. Warszawa
    • Bardzo słaba negatywna korelacja. Odległość od poczty praktycznie nie wpływa na ceny mieszkań, choć mieszkania bliżej poczty mogą być nieznacznie droższe. W dużym mieście, jak Warszawa, bliskość poczty jest mało istotnym czynnikiem.

Odległość od przedszkoli

Ogólne wnioski:

  1. Warszawa i Kraków:
    • W obu miastach widać, że linia regresji jest nachylona w górę, jednak w przypadku Krakowa nachylenie to jest zdecydowanie większę niż w Warszawie. Sugeruje to, że wraz ze wzrostem odległości od przedszkoli ceny mieszkań delikatnie rosną, choć zależność nie jest silna.
  2. Częstochowa, Radom:
    • W tych miastach linie regresji są prawie płaskie lub lekko nachylone w górę, co sugeruje brak wyraźnej zależności między odległością od centrum a ceną. Może to wskazywać, że w mniejszych miastach czynniki takie jak standard mieszkania lub lokalne preferencje mogą odgrywać większą rolę niż sama odległość od centrum.
  3. Białystok, Rzeszów:
    • W przypadku Rzeszowa widzimy, że linia jest nachylona w górę, oznacza to, że wraz ze wzrostem odległości od przedszkoli, ceny mieszkań rosną. Białystok również cechuje się linią praktycznie poziomą co oznacza, że nie jest to kluczowy czynnik wpływający na cenę mieszkań.
  4. Rozrzut danych:
    • Dane są gęsto skupione blisko początku osi X (odległość do 0,5–2 km). To sugeruje, że większość mieszkań znajduje się blisko przedszkoli. W miastach takich jak Kraków i Warszawa dane są bardziej rozproszone w porównaniu z mniejszymi miastami.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od przedszkoli wykazuje delikatny wpływ na ceny mieszkań. W Krakowie linia regresji jest bardziej nachylona w górę niż w Warszawie, co sugeruje, że w tym mieście mieszkania w większej odległości od przedszkoli mogą być nieco droższe. Możliwe, że w Krakowie, jako mieście z licznymi starymi dzielnicami, bliskość przedszkoli nie jest kluczowym czynnikiem wpływającym na wartość nieruchomości. W Warszawie zależność ta jest słabsza, a różnorodność innych czynników, takich jak dostępność komunikacji czy prestiż lokalizacji, zdaje się odgrywać większą rolę.

W mniejszych miastach, takich jak Częstochowa i Radom, linie regresji są niemal płaskie lub lekko nachylone w górę. Oznacza to, że odległość od przedszkoli nie ma wyraźnego wpływu na ceny mieszkań. W tych miastach inne czynniki, takie jak standard mieszkań, dostępność infrastruktury lub lokalne preferencje, mogą mieć większe znaczenie niż bliskość do przedszkoli.

W Rzeszowie widoczny jest wzrost cen mieszkań wraz ze wzrostem odległości od przedszkoli, co wskazuje na możliwą preferencję dla spokojniejszych lokalizacji, oddalonych od intensywnie uczęszczanych miejsc. Z kolei w Białymstoku linia regresji jest praktycznie płaska, co oznacza, że bliskość przedszkoli nie jest czynnikiem determinującym wartość mieszkań.

Rozrzut danych pokazuje, że większość mieszkań znajduje się w odległości od 0,5 do 2 km od przedszkoli, co sugeruje wysoką dostępność tych placówek w analizowanych miastach. W większych miastach, takich jak Kraków i Warszawa, rozrzut cen mieszkań jest większy, co świadczy o większej różnorodności rynku nieruchomości. W mniejszych miastach, takich jak Radom czy Białystok, punkty są bardziej skupione, co odzwierciedla bardziej jednorodny rynek mieszkań.


Współczynniki korelacji między odległością od przedszkoli a ceną mieszkań
Miasto Wynik korelacji
Białystok 0.0523985
Częstochowa 0.0642097
Kraków 0.1154202
Radom 0.1347670
Rzeszów 0.1689304
Warszawa 0.0214355

Tabela przedstawia współczynniki korelacji między odległością od przedszkoli a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

  1. Białystok
    • Bardzo słaba pozytywna korelacja. Odległość od przedszkoli praktycznie nie wpływa na ceny mieszkań. Dostępność przedszkoli wydaje się być równomierna w różnych rejonach miasta.
  2. Częstochowa
    • Bardzo słaba pozytywna korelacja. Odległość od przedszkoli ma minimalny wpływ na ceny mieszkań. Bliskość przedszkoli nie jest istotnym czynnikiem w tym mieście.
  3. Kraków
    • Słaba pozytywna korelacja. Mieszkania w większej odległości od przedszkoli są nieco droższe, ale wpływ ten jest niewielki. Może to wynikać z tego, że bardziej prestiżowe lokalizacje są dalej od typowych osiedli z przedszkolami.
  4. Radom
    • Słaba pozytywna korelacja. Ceny mieszkań rosną wraz z odległością od przedszkoli, choć wpływ jest niewielki. Może to oznaczać, że mieszkańcy cenią spokój i wolą lokalizacje oddalone od instytucji dla dzieci.
  5. Rzeszów
    • Słaba, ale wyraźniejsza pozytywna korelacja. Mieszkania w większej odległości od przedszkoli są droższe. Może to sugerować, że droższe dzielnice są mniej gęsto zabudowane i znajdują się dalej od takich instytucji.
  6. Warszawa
    • Bardzo słaba pozytywna korelacja. Odległość od przedszkoli ma praktycznie żaden wpływ na ceny mieszkań. W Warszawie bliskość przedszkoli nie jest kluczowym czynnikiem dla wartości nieruchomości.

Odległość od restauracji

Ogólne wnioski:

  1. Warszawa i Kraków
    • W Warszawie i Krakowie zauważalne jest, że odległość od restauracji ma delikatnie ujemny wpływ na ceny mieszkań – im dalej restauracji, tym ceny mieszkań są niższe To może sugerować, że bliskość restauracji jest postrzegana jako atut przez mieszkańców i inwestorów. W obu miastach skupisko punktów w bliskiej odległości od restauracji sugeruje dużą gęstość ofert mieszkań w pobliżu gastronomii.
  2. Rzeszów i Białystok
    • W obu miastach wpływ odległości od restauracji na ceny mieszkań jest praktycznie neutralny (linia trendu jest lekko nachylona). To sugeruje, że bliskość gastronomii nie jest istotnym czynnikiem wpływającym na ceny. Widać skupisko punktów w okolicach niewielkich odległości od restauracji, co może wynikać z niewielkich odległości w tych miastach.
  3. Częstochowa i Radom
    • Radom cechuje się linią nachyloną ku górze co świadczy o tym, że wraz ze wzrostem odległości od restauracji. W Częstochowie linia jet niemalże pozioma. To sugeruje, że bliskość gastronomii nie jest istotnym czynnikiem wpływającym na ceny.
  4. Rozrzut danych:
    • W miastach takich jak Warszawa, Rzeszów, Częstochowa, Kraków widać większy rozrzut cen (punkty są bardziej rozproszone), co oznacza, że mieszkania w tych miastach mają znacznie większe zróżnicowanie cen.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od restauracji ma delikatny ujemny wpływ na ceny mieszkań – bliżej restauracji mieszkania są droższe. W Krakowie efekt ten jest bardziej zauważalny niż w Warszawie, co może wynikać z większego znaczenia gastronomii w mieście turystycznym. W Warszawie bliskość restauracji ma mniejsze znaczenie, a inne czynniki, jak prestiż lokalizacji, odgrywają większą rolę.

W mniejszych miastach, takich jak Częstochowa i Radom, wpływ odległości od restauracji na ceny mieszkań jest znikomy. W Radomiu widoczny jest lekki wzrost cen mieszkań wraz z odległością, co może wynikać z preferencji dla spokojniejszych lokalizacji. W Częstochowie brak wyraźnej zależności.

W Rzeszowie i Białymstoku odległość od restauracji nie ma istotnego wpływu na ceny mieszkań – linie regresji są niemal poziome. Może to wynikać z dobrej dostępności restauracji i niewielkich odległości w tych miastach.

Rozrzut danych w dużych miastach, takich jak Warszawa i Kraków, jest większy, co odzwierciedla większe zróżnicowanie cen. W mniejszych miastach, takich jak Radom i Białystok, dane są bardziej skupione, wskazując na bardziej jednorodny rynek.


Współczynniki korelacji między odległością od restauracji a ceną mieszkań
Miasto Wynik korelacji
Białystok 0.0624702
Częstochowa -0.0173048
Kraków -0.1538666
Radom 0.1339995
Rzeszów 0.0920299
Warszawa -0.1372778

Tabela przedstawia współczynniki korelacji między odległością od restauracji a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

  1. Białystok
    • Bardzo słaba pozytywna korelacja. Odległość od restauracji ma minimalny wpływ na ceny mieszkań, sugerując, że dostępność restauracji nie jest istotnym czynnikiem przy wycenie nieruchomości w tym mieście.
  2. Częstochowa
    • Bardzo słaba negatywna korelacja. W praktyce odległość od restauracji nie wpływa na ceny mieszkań. Może to wynikać z równomiernego rozmieszczenia restauracji w całym mieście.
  3. Kraków
    • Słaba negatywna korelacja. Mieszkania bliżej restauracji są nieco droższe. Może to oznaczać, że lokale gastronomiczne znajdują się głównie w centralnych, droższych dzielnicach miasta, co wpływa na wartość nieruchomości.
  4. Radom
    • Słaba pozytywna korelacja. Mieszkania oddalone od restauracji są nieco droższe, co może sugerować, że bardziej prestiżowe lub spokojne lokalizacje znajdują się dalej od stref z gastronomią.
  5. Rzeszów
    • Bardzo słaba pozytywna korelacja. Odległość od restauracji ma niewielki wpływ na ceny mieszkań. Może to wynikać z preferencji mieszkańców lub rozmieszczenia restauracji w mieście.
  6. Warszawa
    • Słaba negatywna korelacja. Mieszkania bliżej restauracji są nieco droższe. Może to oznaczać, że restauracje są zlokalizowane głównie w bardziej atrakcyjnych dzielnicach, co podnosi wartość nieruchomości w ich pobliżu.

Odległość od uczelni

Ogólne wnioski:

  1. Warszawa i Kraków
    • W obu miastach (szczególnie w Warszawie) odległość od uczelni również wykazuje lekki ujemny wpływ – mieszkania bliżej uczelni są droższe. W Krakowie efekt jest bardziej widoczny, co może wynikać z charakteru miasta akademickiego, gdzie bliskość uczelni jest silnym czynnikiem wpływającym na rynek nieruchomości.
  2. Rzeszów i Białystok
    • W przypadku obu miast odległość od uczelni również nie ma wyraźnego wpływu na ceny mieszkań (trend jest lekko skierowany ku górze). Oznacza to, że w tych miastach bliskość uczelni nie jest kluczowym czynnikiem. Możliwe, że mniejsza liczba studentów lub rozłożenie uczelni na różne obszary powoduje brak zauważalnego trendu.
  3. Częstochowa i Radom
    • Zarówno w Częstochowie, jak i w Radomiu, linia trendu sugeruje nieznaczny pozytywny wpływ. Możliwe, że bliskość uczelni w tych miastach nie jest atutem, a bardziej liczą się spokojniejsze lokalizacje.
  4. Rozrzut danych:
    • W miastach takich jak Warszawa czy Kraków widać większy rozrzut cen (punkty są bardziej rozproszone), co oznacza, że mieszkania w tych miastach mają znacznie większe zróżnicowanie cen.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od uczelni ma lekki ujemny wpływ na ceny mieszkań – bliżej uczelni mieszkania są droższe. W Krakowie efekt ten jest bardziej widoczny, co może wynikać z charakteru miasta akademickiego, gdzie bliskość uczelni silnie wpływa na wartość nieruchomości. W Warszawie wpływ ten jest słabszy, co może być związane z większą rolą innych czynników, takich jak prestiż lokalizacji.

W Rzeszowie i Białymstoku odległość od uczelni nie ma wyraźnego wpływu na ceny mieszkań. Linie regresji są lekko nachylone w górę, co sugeruje, że bliskość uczelni nie jest kluczowym czynnikiem determinującym ceny nieruchomości. Może to wynikać z mniejszej liczby studentów lub rozproszenia uczelni na różne obszary miasta.

W Częstochowie i Radomiu linie trendu wykazują niewielki wzrost cen wraz z odległością od uczelni. Sugeruje to, że spokojniejsze lokalizacje, oddalone od centrów akademickich, mogą być bardziej cenione przez mieszkańców tych miast.

Rozrzut danych wskazuje, że w Warszawie i Krakowie ceny mieszkań są bardziej zróżnicowane, podczas gdy w mniejszych miastach, takich jak Radom i Białystok, ceny są bardziej jednorodne.


Współczynniki korelacji między odległością od uczelni a ceną mieszkań
Miasto Wynik korelacji
Białystok 0.1503009
Częstochowa 0.2328164
Kraków -0.2231753
Radom 0.0476282
Rzeszów 0.1730937
Warszawa -0.0838757

Tabela przedstawia współczynniki korelacji między odległością od uczelni a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

  1. Białystok
    • Bardzo słaba pozytywna korelacja. Ceny mieszkań nieznacznie rosną wraz z odległością od uczelni, co może wskazywać, że bliżej uczelni znajdują się tańsze mieszkania, być może skierowane do studentów.
  2. Częstochowa
    • Umiarkowana pozytywna korelacja. Mieszkania dalej od uczelni są wyraźnie droższe. Może to sugerować, że bardziej prestiżowe lub rodzinne lokalizacje są zlokalizowane poza strefami akademickimi.
  3. Kraków
    • Umiarkowana negatywna korelacja. Ceny mieszkań spadają wraz ze wzrostem odległości od uczelni. Bliskość uczelni jest ważnym czynnikiem wpływającym na ceny, co może wynikać z dużego popytu na mieszkania wśród studentów i pracowników akademickich.
  4. Radom
    • Bardzo słaba pozytywna korelacja. Odległość od uczelni ma minimalny wpływ na ceny mieszkań, co może świadczyć o tym, że uczelnie w Radomiu są równomiernie rozmieszczone lub mniej istotne dla rynku nieruchomości.
  5. Rzeszów
    • Słaba pozytywna korelacja. Mieszkania w większej odległości od uczelni są nieco droższe, co sugeruje, że strefy mieszkalne o wyższej wartości mogą znajdować się poza rejonami akademickimi.
  6. Warszawa
    • Bardzo słaba negatywna korelacja. Mieszkania bliżej uczelni są nieznacznie droższe, ale wpływ ten jest słaby. Wysoka liczba uczelni i różnorodność dzielnic zmniejsza znaczenie tego czynnika w skali całego miasta.

Odległość od aptek

Ogólne wnioski:

  1. Warszawa i Kraków
    • W obu dużych miastach odległość od aptek nie ma istotnego wpływu na ceny mieszkań, o czym świadczy niemal pozioma linia trendu. W Warszawie ceny mieszkań wydają się niezależne od bliskości aptek, a rozrzut danych jest duży, co wskazuje na zróżnicowanie cen nieruchomości w stolicy. W Krakowie podobnie jak w Warszawie, brak zauważalnej zależności między odległością od aptek a cenami mieszkań. Mimo to, punkty są nieco bardziej skupione niż w Warszawie.
  2. Rzeszów i Białystok
    • W obu miastach widać bardzo subtelny trend wzrostu cen mieszkań wraz ze wzrostem odległości od aptek, jednak wpływ ten jest minimalny. W Rzeszowie ceny mieszkań są stabilne niezależnie od odległości od aptek, z niewielkim rozrzutem danych. W Białymstoku również brak wyraźnego wpływu odległości od aptek na ceny mieszkań. Punkty są bardziej skupione, co świadczy o mniejszym zróżnicowaniu cen.
  3. Częstochowa i Radom
    • W tych mniejszych miastach widać lekki wzrost cen mieszkań wraz ze wzrostem odległości od aptek, co może sugerować preferencję dla spokojniejszych lokalizacji. W Częstochowie linia trendu jest wyraźnie skierowana ku górze, co może oznaczać, że mieszkania w większej odległości od aptek są bardziej cenione. W Radomiu podobny lekko dodatni trend, jednak mniej wyraźny niż w Częstochowie
  4. Rozrzut danych:
    • W większych miastach, takich jak Warszawa i Kraków, rozrzut danych jest wyraźnie większy, co wskazuje na znaczne zróżnicowanie cen mieszkań niezależnie od odległości od aptek.
    • W mniejszych miastach (np. Częstochowa, Radom, Rzeszów) dane są bardziej skupione, co oznacza mniejsze różnice cenowe na rynku nieruchomości.

Interpretacja

W dużych miastach, takich jak Warszawa i Kraków, odległość od aptek nie wykazuje wyraźnego wpływu na ceny mieszkań. Linia trendu jest niemal pozioma, co oznacza, że bliskość aptek nie jest czynnikiem kluczowym w kształtowaniu wartości nieruchomości. Jednak w tych aglomeracjach widać duży rozrzut danych, który wskazuje na znaczną różnorodność cen nieruchomości wynikającą z innych czynników, takich jak prestiż lokalizacji czy dostępność infrastruktury.

W mniejszych miastach, takich jak Częstochowa i Radom, można zauważyć lekki wzrost cen mieszkań wraz z odległością od aptek. Sugeruje to, że spokojniejsze lokalizacje, oddalone od ruchliwych obszarów, mogą być bardziej cenione przez mieszkańców. Mimo to, wpływ ten jest niewielki i ma charakter lokalny.

Z kolei w miastach takich jak Rzeszów i Białystok, zależność jest również minimalna, z delikatnym trendem wzrostowym. Wskazuje to na niewielkie znaczenie bliskości aptek w tych lokalizacjach. Punkty na wykresie są bardziej skupione, co odzwierciedla mniejszą zmienność cen mieszkań w mniejszych ośrodkach miejskich.

Współczynniki korelacji między odległością od aptek a ceną mieszkań
Miasto Wynik korelacji
Białystok 0.1048127
Częstochowa 0.2912980
Kraków -0.0040424
Radom 0.0746363
Rzeszów 0.1538395
Warszawa -0.0382882

Tabela przedstawia współczynniki korelacji między odległością od aptek a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

  1. Białystok
    • Słaba pozytywna korelacja. Ceny mieszkań rosną nieznacznie wraz z odległością od aptek. Może to oznaczać, że apteki znajdują się głównie w bardziej dostępnych, ale mniej prestiżowych lokalizacjach.
  2. Częstochowa
    • Umiarkowana pozytywna korelacja. Mieszkania w większej odległości od aptek są wyraźnie droższe, co może sugerować, że apteki są zlokalizowane w bardziej gęsto zabudowanych obszarach, które mogą być mniej prestiżowe.
  3. Kraków
    • Bardzo słaba negatywna korelacja. W praktyce odległość od aptek nie wpływa na ceny mieszkań. Apteki mogą być równomiernie rozmieszczone w mieście, a ich bliskość nie jest istotnym czynnikiem dla wyceny nieruchomości.
  4. Radom
    • Bardzo słaba pozytywna korelacja. Odległość od aptek ma niewielki wpływ na ceny mieszkań. Wartość nieruchomości w Radomiu jest prawdopodobnie bardziej uzależniona od innych czynników niż dostępność aptek.
  5. Rzeszów
    • Słaba pozytywna korelacja. Mieszkania oddalone od aptek są nieco droższe. Może to oznaczać, że apteki znajdują się w gęściej zabudowanych, mniej prestiżowych dzielnicach miasta.
  6. Warszawa
    • Bardzo słaba negatywna korelacja. W praktyce odległość od aptek nie wpływa znacząco na ceny mieszkań, choć mieszkania bliżej aptek mogą być minimalnie droższe. Wynika to prawdopodobnie z ich dostępności w bardziej prestiżowych dzielnicach.

Podsumowanie

Podsumowanie siły i kierunku zależności odległości od obiektów a cen mieszkań
Zmienne Warszawa Kraków Białystok Rzeszów Częstochowa Radom Kategoria
school_distance Słaba, dodatnia: 0.0344552 Słaba, ujemna: -0.0694751 Słaba, dodatnia: 0.1512009 Słaba, dodatnia: 0.1485620 Silna, dodatnia: 0.4381307 Słaba, dodatnia: 0.1257768 Edukacja
kindergarten_distance Słaba, dodatnia: 0.0214355 Słaba, dodatnia: 0.1154202 Słaba, dodatnia: 0.0523985 Słaba, dodatnia: 0.1689304 Słaba, dodatnia: 0.0642097 Słaba, dodatnia: 0.1347670 Edukacja
college_distance Słaba, ujemna: -0.0838757 Umiarkowana, ujemna: -0.2231753 Słaba, dodatnia: 0.1503009 Słaba, dodatnia: 0.1730937 Umiarkowana, dodatnia: 0.2328164 Słaba, dodatnia: 0.0476282 Edukacja
restaurant_distance Słaba, ujemna: -0.1372778 Słaba, ujemna: -0.1538666 Słaba, dodatnia: 0.0624702 Słaba, dodatnia: 0.0920299 Słaba, ujemna: -0.0173048 Słaba, dodatnia: 0.1339995 Rozrywka
centre_distance Słaba, ujemna: -0.1410103 Silna, ujemna: -0.4516062 Słaba, dodatnia: 0.1812080 Umiarkowana, dodatnia: 0.2788925 Słaba, dodatnia: 0.1052754 Słaba, ujemna: -0.0102774 Usługi
post_office_distance Słaba, ujemna: -0.0311410 Słaba, dodatnia: 0.0304596 Słaba, dodatnia: 0.1352474 Umiarkowana, dodatnia: 0.2357461 Umiarkowana, dodatnia: 0.2135046 Słaba, dodatnia: 0.0990788 Usługi
clinic_distance Słaba, ujemna: -0.0971739 Umiarkowana, ujemna: -0.2014158 Słaba, dodatnia: 0.0498567 Umiarkowana, dodatnia: 0.2764591 Umiarkowana, dodatnia: 0.3834959 Słaba, dodatnia: 0.2207426 Zdrowie
pharmacy_distance Słaba, ujemna: -0.0382882 Słaba, ujemna: -0.0040424 Słaba, dodatnia: 0.1048127 Słaba, dodatnia: 0.1538395 Umiarkowana, dodatnia: 0.2912980 Słaba, dodatnia: 0.0746363 Zdrowie

W analizie wpływu odległości do różnych instytucji na ceny nieruchomości w polskich miastach, zauważamy pewne ogólne tendencje.

  1. W Warszawie, wpływ odległości na ceny jest stosunkowo niewielki. Jedynie większa odległość od centrum oraz resatauracji może prowadzić do minimalnego spadku cen nieruchomości. Warto jednak zauważyć, że zmienne takie jak odległość do szkół, przedszkoli czy aptek mają bardzo mały wpływ na ceny.

  2. W Krakowie zauważamy silniejszy wpływ odległości, szczególnie w przypadku centrum miasta, gdzie silna ujemna korelacja (-0.451) wskazuje, że większa odległość od centrum wyraźnie obniża ceny nieruchomości. Ponadto, większa odległość od uczelni i klinik również obniża ceny. W Krakowie więc odległość od kluczowych punktów, jak centrum czy uczelnie, ma istotny wpływ na ceny.

  3. W Białymstoku natomiast widoczna jest tendencja, w której większa odległość do instytucji takich jak szkoły, uczelnie czy centrum, w niewielkim stopniu podnosi ceny nieruchomości. Chociaż wpływ tych zmiennych jest stosunkowo mały, są to czynniki, które warto wziąć pod uwagę w dalszej analizie.

  4. W Rzeszowie, podobnie jak w Białymstoku, zauważamy pozytywny wpływ większej odległości od centrum, poczty i kliniki na ceny nieruchomości.

  5. W Częstochowie natomiast, odległość od szkoły ma wyraźny wpływ na ceny, z silną dodatnią korelacją (0.438). Zwiększenie odległości do szkoły może więc prowadzić do wyższych cen nieruchomości. Dodatkowo, podobny wpływ mają odległość od kliniki i uczelni, które także mogą podnieść ceny.

  6. W Radomiu wpływ odległości na ceny jest ogólnie niewielki. Tylko w przypadku odległości do szkół, poczty i kliniki zauważamy mały pozytywny wpływ na ceny. Jednak ogólnie rzecz biorąc, zmienne związane z odległością mają w Radomiu raczej marginalny wpływ na ceny nieruchomości.

Warto skupić się na kilku kluczowych zmiennych z poszczególnych miast, które wykazują silniejsze zależności z cenami nieruchomości. Zmienne te mogą dać cenne informacje o dynamice rynku i kierunkach, w których ceny mogą się rozwijać. Oto, które zmienne warto dalej analizować:

  • Analiza odległości do centrum, szkół i uczelni powinna być kontynuowana, szczególnie w miastach takich jak Kraków czy Częstochowa, gdzie te czynniki mają silny wpływ na ceny.
  • Kliniki i opieka zdrowotna to również istotny aspekt, który warto badać, zwłaszcza w miastach o rosnącej liczbie osób starszych, jak Rzeszów czy Częstochowa.
  • Poczta i usługi publiczne, choć mają mniejszy wpływ na ceny z wyjątkiem Częstochowy i Rzeszowa, nadal mogą pomóc zrozumieć preferencje mieszkańców.

Warto także podkreślić, że ceny nieruchomości mogą różnić się w zależności od typu budynku (mieszkania, domy) oraz jego lokalizacji. Warto podzielić dane na różne kategorie nieruchomości i sprawdzić, czy zależności między odległością a ceną różnią się w zależności od rodzaju nieruchomości.

Porównanie średnich wynagrodzeń z cenami mieszkań

Aby lepiej zrozumieć dostępność mieszkaniową w Polsce, przeanalizowano średnie wynagrodzenia i ceny mieszkań w sześciu wybranych miastach: Gdańsku, Warszawie, Krakowie, Częstochowie, Rzeszowie oraz Białymstoku. Analiza obejmuje wyliczenie liczby metrów kwadratowych mieszkania, jakie można zakupić za średnie miesięczne wynagrodzenie w każdym z tych miast. Porównanie uwzględnia średnie ceny za metr kwadratowy oraz specyfikę lokalnych rynków nieruchomości.

Porównanie wynagrodzeń z cenami mieszkań w 6 miastach
Miasto Średnie wynagrodzenie (PLN) Cena za m² (PLN) Liczba m² za wynagrodzenie Wskaźnik dostępności
Białystok 6806.05 10089.06 0.67 1.48
Częstochowa 8380.28 7034.63 1.19 0.84
Kraków 10173.41 17135.48 0.59 1.68
Radom 7368.00 6929.92 1.06 0.94
Rzeszów 7187.74 10803.55 0.67 1.50
Warszawa 9673.42 18503.96 0.52 1.91

Interpretacja

  1. Średnie wynagrodzenie a cena mieszkań:

    • Najwyższe średnie wynagrodzenie jest w Krakowie (10 173,41 PLN), a najniższe w Białymstoku (6 806,05 PLN).

    • Najdroższy m² mieszkania znajduje się w Warszawie (18 503,96 PLN), natomiast najtańszy w Radomiu (6 929,92 PLN).

  2. Liczba m² możliwa do zakupu za średnie wynagrodzenie:

    • Najwięcej m² można kupić w Częstochowie (1,19 m²), gdzie stosunek wynagrodzenia do ceny za m² jest najkorzystniejszy.

    • Najmniej m² można kupić w Warszawie (0,52 m²) i Krakowie (0,59 m²), co wskazuje na wysokie ceny mieszkań w tych miastach.

  3. Wskaźnik dostępności (liczba miesięcy pracy na zakup 1 m²):

    • Wskaźnik pokazuje, ile miesięcy pracy potrzeba, aby kupić 1 m² mieszkania.

      • Najlepszy wskaźnik dostępności (najmniej miesięcy pracy): Częstochowa (0.84) i Radom (0.94), co oznacza, że 1 m² można kupić po około 1 miesiąca pracy.

      • Najgorszy wskaźnik dostępności (najwięcej miesięcy pracy): Warszawa (1,91) i Kraków (1,68), co wskazuje, że zakup 1 m² mieszkania wymaga prawie 2 miesięcy wynagrodzenia.

Wnioski

  1. Warszawa i Kraków jako najmniej dostępne rynki mieszkaniowe:

    • Wysokie ceny mieszkań oraz wysoki wskaźnik dostępności (1,91 dla Warszawy i 1,68 dla Krakowa) oznaczają, że zakup mieszkania w tych miastach wymaga największego wysiłku finansowego.
  2. Białystok i Rzeszów jako bardziej dostępne rynki:

    • Relatywnie niski wskaźnik dostępności (1,48 dla Białegostoku i 1,50 dla Rzeszowa) sprawia, że zakup mieszkania w tych miastach wymaga krótszego czasu pracy w porównaniu z innymi lokalizacjami.
  3. Częstochowa i Radom – dobre kompromisy:

    • Wysoka liczba m² za średnie wynagrodzenie (1,19 dla Częstochowy i 1,06 dla Radomia) oraz umiarkowane wskaźniki dostępności (0,84 dla Częstochowy i 0,94 dla Radomia) wskazują na stosunkowo przystępne rynki.
  4. Znaczenie wskaźnika dostępności dla planowania zakupu:

    • Osoby planujące zakup mieszkania powinny brać pod uwagę nie tylko cenę za m², ale także wskaźnik dostępności. Im niższy wskaźnik, tym szybciej można sfinansować zakup mieszkania.

Interpretacja wykresu

Wykres punktowy przedstawia czas (w miesiącach) potrzebny na zakup mieszkania w sześciu miastach Polski przy uwzględnieniu cen minimalnych, średnich i maksymalnych. Oto kluczowe obserwacje:

1. Różnice między miastami

  • Najkrótszy czas zakupu (Częstochowa):

    • Czas zakupu mieszkania przy minimalnej cenie wynosi mniej niż 50 miesięcy.
    • Nawet przy maksymalnej cenie mieszkania czas nie przekracza 150 miesięcy.

    • To świadczy o relatywnie przystępnych cenach mieszkań w stosunku do wynagrodzeń w Częstochowie.

  • Najdłuższy czas zakupu (Warszawa):

    • Czas zakupu mieszkania w maksymalnej cenie wynosi ponad 300 miesięcy (ponad 25 lat), co wskazuje na bardzo wysokie ceny mieszkań w stolicy.
    • Nawet przy minimalnej cenie mieszkania czas zakupu wynosi powyżej 100 miesięcy.

    • To sprawia, że Warszawa jest najmniej przystępnym miastem pod względem zakupu nieruchomości.

2. Rozkład czasu w ramach miast

Stosunkowo stabilne wartości w Częstochowie i Białymstoku:

  • W obu miastach różnice między czasem dla minimalnej, średniej i maksymalnej ceny są najmniejsze.

  • Sugeruje to bardziej jednorodne ceny mieszkań oraz niższe ryzyko związane z wahaniami rynku.

Duże różnice w Warszawie i Krakowie:

  • W miastach o wysokich cenach mieszkań różnice między czasem zakupu w zależności od przedziału cenowego są znaczące.

  • Wskazuje to na dużą rozpiętość cenową na rynku nieruchomości, szczególnie w segmencie luksusowym.

3. Trendy regionalne

Miasta centralne i południowe (Warszawa, Kraków):

  • Miasta te cechują się najwyższymi wskaźnikami czasu zakupu, szczególnie w przypadku maksymalnych cen mieszkań.

  • Kraków oferuje nieco większą dostępność niż Warszawa, ale nadal wymaga znacznego wysiłku finansowego.

Miasta mniejsze (Radom, Rzeszów, Białystok):

  • Oferują większą dostępność mieszkań, szczególnie w przypadku cen minimalnych i średnich.

  • Przy maksymalnych cenach czas zakupu oscyluje wokół 200 miesięcy, co jest wartością umiarkowaną w porównaniu z miastami centralnymi.

Wnioski

  1. Warszawa:

    • Najmniej przystępny rynek mieszkań. Wysoka rozpiętość między czasem dla minimalnej i maksymalnej ceny wskazuje na wyzwania dla nabywców mieszkań.
  2. Częstochowa:

    • Najbardziej przystępny rynek mieszkań. Możliwość zakupu mieszkań w krótkim czasie, nawet przy niższych wynagrodzeniach.
  3. Potencjalne działania:

    • W miastach takich jak Warszawa i Kraków warto rozważyć programy wsparcia dla nabywców mieszkań.

    • Częstochowa i Białystok mogą być atrakcyjnymi lokalizacjami dla inwestorów ze względu na przystępne ceny mieszkań.

Analiza cen mieszkań per dzielnica na przykładzie Gdańska

Gdańsk, jedno z najstarszych miast Polski, charakteryzuje się nie tylko bogatą historią i malowniczym położeniem nad Bałtykiem, ale również dynamicznie rozwijającym się rynkiem nieruchomości. W ramach tej analizy dokonaliśmy podziału miasta na 35 dzielnic, aby dokładniej przyjrzeć sięzróżnicowaniu średnich cen mieszkań za metr kwadratowy.

Mapa wizualizuje ceny mieszkań w różnych obszarach, uwzględniając zarówno centralne, historyczne części miasta, jak Śródmieście, jak i peryferyjne, bardziej spokojne dzielnice. Zaznaczenie Śródmieścia jako centrum miasta pozwala łatwiej interpretować wyniki i lokalizować najważniejsze obszary urbanistyczne Gdańska.

Legenda: Numery dzielnic w Gdańsku
Numer Dzielnica Numer Dzielnica
1 Aniołki 19 Przymorze Małe
2 Brętowo 20 Przymorze Wielkie
3 Brzeźno 21 Rudniki
4 Chełm 22 Siedlce
5 Jasień 23 Stogi
6 Kokoszki 24 Strzyża
7 Krakowiec–Górki Zachodnie 25 Suchanino
8 Letnica 26 Śródmieście
9 Matarnia 27 Ujeścisko–Łostowice
10 Młyniska 28 VII Dwór
11 Nowy Port 29 Wrzeszcz Dolny
12 Oliwa 30 Wrzeszcz Górny
13 Olszynka 31 Wyspa Sobieszewska
14 Orunia–Św. Wojciech–Lipce 32 Wzgórze Mickiewicza
15 Orunia Górna–Gdańsk Południe 33 Zaspa Młyniec
16 Osowa 34 Zaspa Rozstaje
17 Piecki–Migowo 35 Żabianka–Wejhera–Jelitkowo–Tysiąclecia
18 Przeróbka

Interpretacja wyników analizy cen mieszkań per dzielnica:

Analiza wykazała znaczne zróżnicowanie cen mieszkań w poszczególnych dzielnicach Gdańska. Najwyższe średnie ceny za metr kwadratowy występują w centralnych obszarach miasta, takich jak Śródmieście oraz nadmorskie dzielnice, np. Żabianka–Wejhera–Jelitkowo–Tysiąclecia. Są to miejsca o wysokim prestiżu, dogodnym dostępie do atrakcji turystycznych i rozwiniętej infrastrukturze.

Z kolei dzielnice bardziej oddalone od centrum, takie jak Kokoszki czy Matarnia, cechują się znacznie niższymi cenami, co może przyciągać osoby poszukujące spokojniejszych lokalizacji oraz bardziej przystępnych cenowo mieszkań.

Porównanie tych różnic uwidacznia rolę lokalizacji w kształtowaniu cen nieruchomości, co może być cenną wskazówką zarówno dla inwestorów, jak i osób planujących zakup nieruchomości. Wyniki te stanowią także podstawę do dalszych analiz, uwzględniających takie czynniki jak dostępność komunikacyjna, sąsiedztwo terenów zielonych czy rozwój lokalnej infrastruktury.

Podsumowanie

Cel projektu

Celem projektu było zrozumienie, jakie czynniki wpływają na ceny mieszkań w sześciu wybranych polskich miastach: Warszawie, Krakowie, Rzeszowie, Białymstoku, Radomiu i Częstochowie. Przeprowadzona analiza pozwoliła odpowiedzieć na kluczowe pytania badawcze oraz wyciągnąć szczegółowe wnioski.

  • Od czego zależy cena mieszkań?

  • Jakie różnice w cenach występują pomiędzy miastami?

  • Czy odległość od centrum lub interesujących miejsc (POI) ma znaczenie dla wartości nieruchomości?

  • Które cechy mieszkań (np. liczba pokoi, stan, udogodnienia) są najbardziej cenione?

Metodologia

  1. Zbieranie i przygotowanie danych:

    • Wykorzystano dane rynkowe z wiarygodnych źródeł, poddając je oczyszczeniu, normalizacji oraz imputacji brakujących wartości.
  2. Analiza statystyczna:

    • Przeprowadzono testy istotności (ANCOVA, Chi-kwadrat, Levene’a), analizę korelacji oraz testy normalności (Andersona-Darlinga).
  3. Wizualizacja:

    • Wyniki przedstawiono za pomocą interaktywnych wykresów i map, uwypuklających m.in. hierarchię udogodnień w poszczególnych miastach.

Poniższy wykres prezentuje hierarchiczny podział ofert według trzech miast: Krakowa, Radomia, Rzeszowa, Warszawy, Częstochowy i Białegostoku. Każde miasto posiada swoje charakterystyczne połączenie reprezentujące dostępność określonych udogodnień, takich jak winda, balkon, parking czy komórka. Dzięki temu w prosty sposób można porównać, które elementy mają szczególny wpływ na ceny mieszkań.


Kluczowe Wyniki

  1. Czynniki wpływające na ceny mieszkań:

    • Lokalizacja: Bliskość centrum, rozwinięta infrastruktura oraz liczba punktów POI (szkół, klinik, restauracji).

    • Cechy mieszkania: Liczba pokoi, powierzchnia, rok budowy, obecność balkonu, windy lub parkingu.

    • Kontekst społeczno-ekonomiczny: Średnie wynagrodzenia w regionie i potencjał inwestycyjny miasta.

  2. Różnice cenowe między miastami:

    • Najwyższe ceny/m²: Warszawa (18 503 PLN) i Kraków (17 135 PLN) – wynikające z roli gospodarczej i turystycznej.

    • Średnie ceny/m²: Rzeszów (10 803 PLN) i Białystok (10 089 PLN) – rosnący potencjał inwestycyjny.

    • Najniższe ceny/m²: Radom (6 929 PLN) i Częstochowa (7 034 PLN) – stabilny rynek, mniejsza presja popytowa.

  3. Wpływ odległości od centrum:

    • W dużych miastach, takich jak Warszawa i Kraków, ceny spadają wraz z odległością od centrum. W mniejszych miastach, takich jak Radom i Częstochowa, wpływ ten jest mniej zauważalny.
  4. Najbardziej cenione cechy mieszkań:

    • Udogodnienia: Mieszkania z balkonem, miejscem parkingowym lub windą osiągają ceny wyższe niż te bez takich udogodnień, zwłaszcza w dużych aglomeracjach. W miastach takich jak Warszawa i Kraków kluczowym czynnikiem wpływającym na wartość nieruchomości są również dodatkowe usługi w budynkach, np. ochrona czy komórki lokatorskie.

    • Funkcjonalność: Mieszkania 2-3 pokojowe (50–60 m²) dominują na rynku.

  5. Czynniki lokalizacyjne

    • Analiza wykazała, że w Warszawie i Krakowie ceny mieszkań spadają wraz z oddaleniem się od centrum, klinik i restauracji, co wskazuje na większą atrakcyjność centralnych lokalizacji. Odwrotną tendencję zaobserwowano w Rzeszowie, Białymstoku i Częstochowie, gdzie mieszkania drożeją na obrzeżach, co może wynikać z preferencji mieszkańców do spokojniejszych i bardziej przestrzennych lokalizacji. W Radomiu brak wyraźnej zależności względem centrum, ale oddalenie od szkół, klinik i restauracji wiąże się ze wzrostem cen. Wpływ szkół, poczty, uczelni i aptek jest bardziej lokalny – w Rzeszowie, Białymstoku i Częstochowie ich bliskość obniża ceny mieszkań, podczas gdy w Radomiu i Krakowie podnosi wartość nieruchomości poza ścisłym centrum.

Dodatkowe Obserwacje

  • Demografia a ceny:

    • W miastach o wyższych średnich wynagrodzeniach (np. Warszawa, Kraków) ceny mieszkań są proporcjonalnie wyższe, co wskazuje na związek między lokalnym rynkiem pracy a wartością nieruchomości.

    • Regiony o niższych dochodach, takie jak Radom czy Częstochowa, oferują tańsze nieruchomości, ale mają również mniejszy potencjał inwestycyjny.

  • Trendy rynkowe:

    • Warszawa i Kraków: Duża zmienność cen, silna konkurencja.

    • Rzeszów i Białystok: Rosnący popyt, sygnały do inwestycji.

    • Radom i Częstochowa: Stabilność, ale ograniczony wzrost wartości.

Wnioski i Rekomendacje

  1. Dla kupujących:

    • W mniejszych miastach warto szukać mieszkań z udogodnieniami, które zwiększają przyszłą wartość nieruchomości.

    • W dużych aglomeracjach kluczowa jest lokalizacja – nawet mniejsze mieszkania w centrum mogą być lepszą inwestycją.

  2. Dla deweloperów:

    • W Rzeszowie i Białymstoku istnieje nisza na mieszkania z udogodnieniami (np. parking, winda).

    • W Warszawie i Krakowie warto inwestować w usługi dodatkowe (np. ochrona, strefy wspólne).

  3. Dla inwestorów:

    • Miasta średnie (Rzeszów, Białystok) oferują największy potencjał wzrostu cen.

    • Rynek w Radomiu i Częstochowie jest mniej ryzykowny, ale wymaga długoterminowej strategii.

Podsumowanie
Projekt potwierdził, że ceny mieszkań są wypadkową lokalizacji, cech fizycznych nieruchomości oraz kontekstu społeczno-gospodarczego. Największe różnice wynikają z roli miasta w gospodarce, podczas wartość pojedynczego mieszkania zależy od jego funkcjonalności i bliskości kluczowej infrastruktury. Wyniki mogą służyć jako punkt wyjścia do dalszych badań, np. analizy wpływu transportu publicznego na ceny.