Cel projektu

Celem naszego projektu jest analiza cen mieszkań w największych miastach Polski, uwzględniając różnorodne czynniki, które mogą wpływać na wartość nieruchomości. Wykorzystamy metody analizy danych, aby odpowiedzieć na kluczowe pytania, takie jak:

Od czego zależy cena mieszkań?
Jakie różnice w cenach występują pomiędzy miastami?
Czy odległość od centrum lub interesujących miejsc (POI) ma znaczenie dla wartości nieruchomości?
Które cechy mieszkań (np. liczba pokoi, stan, udogodnienia) są najbardziej cenione?

Analizy w projekcie

Planujemy zastosowanie narzędzi analizy danych oraz wizualizacji, aby lepiej zrozumieć rynek nieruchomości w Polsce. Nasze analizy obejmą:

Badanie zależności między cechami mieszkań (takimi jak lokalizacja, powierzchnia, liczba pokoi) a ich ceną.
Porównanie cen nieruchomości pomiędzy największymi polskimi miastami, w celu wykazania kluczowych różnic regionalnych.
Modelowanie predykcyjne, które pozwoli oszacować cenę mieszkań na podstawie wybranych zmiennych, takich jak odległość od centrum czy stan mieszkania.
Wykorzystanie interaktywnych wizualizacji, takich jak mapy i wykresy, aby przedstawić wyniki w przystępny sposób.

Hipotezy i oczekiwane wyniki

Odległość od centrum miasta: Zakładamy, że im bliżej centrum, tym wyższa cena mieszkań, choć siła tego wpływu może różnić się w zależności od miasta.
Cechy nieruchomości: Udogodnienia takie jak balkon, winda czy miejsce parkingowe znacząco podnoszą wartość mieszkań, zwłaszcza w dużych miastach.
Różnice regionalne: Miasta o wyższym poziomie urbanizacji i rozwiniętej infrastrukturze (np. Warszawa, Kraków, Wrocław) mają wyższe ceny mieszkań w porównaniu do mniejszych miejscowości.
Rok budowy: Starsze mieszkania, wymagające remontu, są z reguły tańsze, chyba że znajdują się w prestiżowych lokalizacjach.

Podsumowując, oczekujemy, że nasze analizy wskażą najważniejsze czynniki wpływające na ceny mieszkań oraz umożliwią stworzenie użytecznych modeli predykcyjnych, które mogą wspierać decyzje zakupowe lub inwestycyjne.

Opis danych

Zbiór danych pochodzi z ofert sprzedaży i wynajmu mieszkań z 15 największych polskich miast, zgromadzonych w czerwcu 2024 roku. Dane te obejmują szerokie spektrum cech nieruchomości oraz dodatkowe informacje z Open Street Map, które pozwalają uwzględnić kontekst sąsiedztwa mieszkań.

Miasta w zbiorze danych: Warszawa, Łódź, Kraków, Wrocław, Poznań, Gdańsk, Szczecin, Bydgoszcz, Lublin, Katowice, Białystok, Częstochowa.

Główne pola w zbiorze danych:

Lokalizacja i charakterystyka nieruchomości:
- Miasto, typ budynku, wielkość w metrach kwadratowych, liczba pokoi, piętro, rok budowy.
Informacje kontekstowe:
- Odległość od centrum miasta, liczba interesujących punktów w promieniu 500 metrów (np. szkoły, apteki, restauracje) oraz odległość do najbliższego punktu.
Cechy nieruchomości:
- Stan mieszkania, rodzaj własności, obecność udogodnień (np. winda, balkon, miejsce parkingowe, ochrona).
Cena ofertowa:
- Cena sprzedaży lub miesięczny czynsz.

Dane dodatkowe

W celu wykonania bardziej szczegółowej analizy zdecydowaliśmy się wzbogacić nasz zbiór o granice administracyjne województw oraz dane dotyczące wynagrodzeń. Dane te zostały pobrane z pliku ms_A01_Granice_wojewodztw oraz wynagrodzenia_pl_2024 - na podstawie bazy danych lokalnych GUS, co umożliwiło przypisanie każdego miasta do odpowiedniego województwa oraz analizę wpływu średniej pensji na ceny nieruchomości. Dzięki temu możliwe jest badanie, czy wysokość wynagrodzeń ma związek z cenami nieruchomości w poszczególnych regionach Polski.

Cel dodania danych:

Przypisanie lokalizacji mieszkań do województw,
Przeprowadzenie analiz regionalnych, aby lepiej zrozumieć różnice w cenach i cechach mieszkań w różnych częściach Polski,
Analiza zależności między średnimi wynagrodzeniami a cenami nieruchomości, aby sprawdzić, czy wyższe wynagrodzenia są powiązane z wyższymi cenami mieszkań.

Dzięki temu możliwe jest nie tylko szczegółowe badanie rynku nieruchomości na poziomie miast, ale także porównanie wyników w kontekście regionalnym oraz uwzględnienie czynników ekonomicznych, takich jak wynagrodzenia, które mogą wpływać na ceny mieszkań.

Znaczenie projektu

Rynek nieruchomości jest dynamiczny i podlega wpływowi wielu czynników, takich jak lokalizacja, liczba pokoi, dostępność udogodnień czy bliskość kluczowych miejsc. Analiza tych danych pozwoli lepiej zrozumieć mechanizmy kształtowania się cen mieszkań oraz stworzyć narzędzia wspomagające decyzje zakupowe i inwestycyjne.

Brudne dane i ich znaczenie w analizie

Czym są brudne dane?

Brudne dane to dane, które są niekompletne, nieprawidłowe, niespójne lub w inny sposób niezgodne z wymaganiami jakościowymi potrzebnymi do ich analizy. Przykłady brudnych danych obejmują:

Braki danych (NA): Puste komórki w zestawie danych, które mogą być spowodowane błędami w zbieraniu danych lub brakiem odpowiednich informacji.
Niepoprawne wartości: Dane, które są logicznie sprzeczne, np. liczba pięter większa niż całkowita liczba kondygnacji.
Niespójne formaty: Dane zapisane w różnych formatach, np. różne sposoby zapisu nazw miast.
Duplikaty: Powtarzające się rekordy w zbiorze danych.

Dlaczego należy walczyć z brudnymi danymi?

Analiza danych oparta na brudnych danych prowadzi do błędnych wniosków i modeli. Wysoka jakość danych jest kluczowa, ponieważ:

Zapewnia wiarygodność wyników: Poprawne dane umożliwiają uzyskanie rzetelnych wniosków.
Ułatwia analizę: Dane uporządkowane i spójne są łatwiejsze do przetwarzania i modelowania.
Ogranicza błędy w analizach: Niespójności w danych mogą prowadzić do błędnych wyników statystycznych.

Działania naprawcze dla brudnych danych

W naszym projekcie podjęliśmy działania w celu naprawy brudnych danych, obejmujące:

Ujednolicenie nazw miast: Naprawimy niezgodności w zapisie nazw, aby zapewnić spójność.
Poprawa nazw kolumn: Nazwy kolumn zostaną zmienione na bardziej opisowe, co ułatwi zrozumienie danych. Planowane zmiany to np.:
- squareMeters → square_meters
- floorCount → total_floors
- clinic_distance → distance_to_clinic
Uzupełnienie brakujących danych:
- Metodami statystycznymi: Użyjemy mediany dla wartości liczbowych oraz najczęściej występujących wartości dla zmiennych kategorycznych.
- Regułami logicznymi: Uzupełnimy dane na podstawie zależności między zmiennymi.
Eliminacja błędów logicznych: Skorygujemy przypadki, gdzie np. piętro jest większe niż liczba kondygnacji.

Planowane działania techniczne

Przegląd kolumn w poszukiwaniu braków, niezgodności oraz błędów logicznych. Transformacja danych, aby były zgodne z wymaganiami do analizy i modelowania. Sprawdzenie zgodności z przyjętymi regułami walidacyjnymi oraz weryfikacja efektów imputacji i transformacji danych.

Zmiana nazw kolumn Poniżej znajduje się tabela z przekształconymi nazwami kolumn:

Zmiana nazw kolumn: Oryginalne i nowe nazwy
Original_Name	New_Name
id	id
city	city
type	building_type
squareMeters	square_meters
rooms	rooms
floor	floor
floorCount	floor_count
buildYear	build_year
latitude	latitude
longitude	longitude
centreDistance	centre_distance
poiCount	poi_count
schoolDistance	school_distance
clinicDistance	clinic_distance
postOfficeDistance	post_office_distance
kindergartenDistance	kindergarten_distance
restaurantDistance	restaurant_distance
collegeDistance	college_distance
pharmacyDistance	pharmacy_distance
ownership	ownership
buildingMaterial	building_material
condition	condition
hasParkingSpace	has_parking
hasBalcony	has_balcony
hasElevator	has_elevator
hasSecurity	has_security
hasStorageRoom	has_storage_room
price	price

Standaryzacja danych

W celu ujednolicenia danych i zapewnienia ich spójności, dokonano następujących zmian:

Zmiany nazw miast

Standaryzacja nazw miast w kolumnie city polegała na poprawie pisowni, m.in. zamianie nazw pisanych małymi literami na wersje z wielką literą oraz wprowadzeniu poprawnych form polskich nazw. Dzięki temu dane są bardziej czytelne i gotowe do dalszych analiz.

Poprzednia nazwa	Nowa nazwa
szczecin	Szczecin
gdynia	Gdynia
krakow	Kraków
poznan	Poznań
bialystok	Białystok
gdansk	Gdańsk
wroclaw	Wrocław
radom	Radom
rzeszow	Rzeszów
lodz	Łódź
katowice	Katowice
lublin	Lublin
czestochowa	Częstochowa
warszawa	Warszawa
bydgoszcz	Bydgoszcz

Zmiany nazw w kolumnie `building_type`

Ujednolicono nazewnictwo typów budynków. Różne nazwy odnoszące się do tego samego typu budynku zostały sprowadzone do jednej wartości, co upraszcza interpretację i analizę.

Poprzednia nazwa	Nowa nazwa
blockOfFlats	block_of_flats
apartmentBuilding	block_of_flats
tenement	tenement

Zmiany nazw w kolumnie `ownership`

Poprawiono i ujednolicono nazwy dotyczące formy własności nieruchomości. Różne terminy określające tę samą formę własności zostały scalone.

Poprzednia nazwa	Nowa nazwa
condominium	condominium
udział	condominium
cooperative	cooperative

Zmiany nazw w kolumnie `building_material`

Dostosowano nazewnictwo materiałów budowlanych, ujednolicając zapis oraz wprowadzając format z podkreśleniami (snake_case).

Poprzednia nazwa	Nowa nazwa
concreteSlab	concrete_slab
brick	brick

Cel zmian

Poprawa jakości danych: Eliminacja niespójności w nazewnictwie.
Ułatwienie analizy: Ujednolicone dane umożliwiają prostsze grupowanie i wyciąganie wniosków.
Czytelność i przejrzystość: Dzięki standaryzacji dane są bardziej intuicyjne i gotowe do prezentacji w raportach.

Zmiany te zapewniają, że wszystkie dane są zgodne ze standardami i umożliwiają łatwiejsze ich przetwarzanie w kolejnych krokach analizy.

Walidacja danych

Walidacja danych to kluczowy etap przygotowania zbioru, który następuje po wstępnym oczyszczeniu danych. Jej celem jest sprawdzenie zgodności danych z określonymi regułami logicznymi i jakościowymi, aby upewnić się, że dane są kompletne, spójne i gotowe do dalszej analizy oraz modelowania.

Proces ten polega na weryfikacji, czy dane spełniają określone kryteria, zapewniając ich poprawność, spójność oraz integralność. Szczególną uwagę zwraca się na typy danych i analizę unikalnych wartości w poszczególnych kolumnach. Każda kolumna powinna mieć odpowiedni typ danych (np.numeryczny, tekstowy, całkowity), a liczba unikalnych wartości powinna być zgodna z oczekiwaniami.

Dzięki takiej analizie można wykryć potencjalne błędy w strukturze danych, takie jak niewłaściwe przypisanie typu do kolumny czy nieoczekiwane wartości. Zapewnia to odpowiednie przygotowanie danych do dalszych etapów analizy i modelowania.

Typy danych oraz ich charakterystyka

Typy danych oraz ich ilość
Kolumna	Typ	Liczba_unikalnych
id	integer	21501
city	character	15
building_type	character	3
square_meters	numeric	4618
rooms	numeric	6
floor	numeric	26
floor_count	numeric	30
build_year	numeric	155
latitude	numeric	15010
longitude	numeric	15284
centre_distance	numeric	1281
poi_count	numeric	179
school_distance	numeric	1672
clinic_distance	numeric	3187
post_office_distance	numeric	1825
kindergarten_distance	numeric	1462
restaurant_distance	numeric	1499
college_distance	numeric	3924
pharmacy_distance	numeric	1496
ownership	character	2
building_material	character	3
condition	character	3
has_parking	character	2
has_balcony	character	2
has_elevator	character	3
has_security	character	2
has_storage_room	character	2
price	integer	2979

Typy danych
Typ	Liczba_kolumn
Numeric	16
Character	10
Factor	0
Integer	2
Logical	0

Zbiór danych składa się z 28 kolumn, które charakteryzują się następującymi typami: 18 zmiennych numerycznych (typ numeric), 6zmiennych tekstowych (typ character), 3 zmiennymi kategorycznymi (typ factor), 2 zmiennymi całkowitymi (typ integer) oraz brakiem zmiennych logicznych.

Zmienne numeryczne, takie jak square_meters, price czy centre_distance, mają dużą liczbę unikalnych wartości, co sugeruje, że są to dane ciągłe, które będą odpowiednie do analizy regresyjnej.
Zmienne kategoryczne, takie jak building_type, ownership czy building_material, mogą być traktowane jako zmienne typu factor i wykorzystane w analizach klasyfikacyjnych.
Kolumny z typem integer, jak np. price mogą być również używane w analizach numerycznych.

Dzięki tej weryfikacji możemy odpowiednio przygotować dane do dalszej analizy i modelowania. Zmienne numeryczne będą wykorzystywane w analizach regresyjnych, zmienne typu factor w klasyfikacyjnych, a zmienne character mogą wymagać kodowania na typ factor, aby mogły być wykorzystane w dalszej analizie.

Na podstawie tej analizy możemy przejść do przygotowania danych do modelowania, dobierając odpowiednie metody przetwarzania, takie jak kodowanie zmiennych kategorycznych, normalizację zmiennych numerycznych czy tworzenie nowych zmiennych,w zależności od typu danych i celu analizy.

Kolejnym krokiem w procesie walidacji jest zastosowanie określonych reguł logicznych, które zapewniają spójność danych.

W projekcie zastosowano następujące reguły walidacyjne:

Piętro (Floor) nie może być większe niż liczba kondygnacji (FloorCount).
Rok budowy (Build Year) nie może być późniejszy niż bieżący rok (2024).
Rok budowy (Build Year) musi być późniejszy niż 1600.
Piętro (Floor) i liczba kondygnacji (Floor Count) muszą być większe lub równe 0.
Liczba pokoi (Rooms) musi być większa niż 0 i nie może przekraczać
Jeżeli liczba kondygnacji (Floor Count) wynosi 0, to w takim budynku nie powinno być windy (Has Elevator).

Dzięki weryfikacji typów danych oraz zastosowaniu reguł walidacyjnych, upewniamy się, że dane są zgodne z określonymi kryteriami logicznymi i są gotowe do dalszej analizy.

W wyniku przeprowadzonej walidacji zauważono, że w zbiorze danych występuje znaczna liczba wartości brakujących (NA),
w niektórych kolumnach.

W dalszej części analizy planuje się ich imputację, przy czym wartości te zostaną zastąpione:

medianą dla zmiennych o charakterze numerycznym,
modą dla zmiennych o charakterze kategorycznym.

Data wrangling

Proces data wrangling umożliwia przekształcenie surowego zbioru danych w uporządkowaną i spójną strukturę gotową do dalszych badań. W ramach tego etapu skoncentrowaliśmy się na dwóch głównych aspektach: analizie wartości brakujących oraz obserwacji odstających.

W tej części projektu podjęliśmy działania mające na celu: - zrozumienie i klasyfikację braków danych (MCAR, MAR, MNAR), - wybór odpowiednich strategii imputacji brakujących wartości, - wykrycie i obsługę obserwacji odstających, które mogą zaburzać statystyczne wnioski.

Dzięki zastosowaniu odpowiednich metod wizualizacji (np. wykresów pudełkowych i macierzy braków) oraz technik statystycznych (np. Z-score) możliwe było zarówno dokładne zrozumienie problemów związanych z danymi, jak i zaplanowanie działań korygujących. Tak przygotowany zbiór danych stanowi podstawę do przeprowadzenia dalszych analiz i modelowania.

W kolejnych sekcjach przedstawimy szczegółowe kroki przeprowadzone w ramach tego etapu, w tym wyniki analizy braków danych oraz identyfikacji wartości odstających, a także opis zastosowanych metod ich obsługi.

Obserwacje brakujące

Do analizy brakujących danych zdecydowaliśmy się wykorzystać zarówno wizualizacje które pozwolą zrozumieć skalę oraz potencjalne przyczyny braków w zbiorze danych. Wizualizacje, takie jak wykresy słupkowe prezentujące procent brakujących wartości w poszczególnych zmiennych oraz graficzne przedstawienie wzorców braków, umożliwiają szybkie zidentyfikowanie kolumn najbardziej dotkniętych problemem brakujących danych. Dodatkowo zastosowanie macierzy braków pozwala na analizę współwystępowania braków pomiędzy zmiennymi, co może wskazać na możliwe zależności w danych.

Na podstawie klasyfikacji braków danych (MCAR, MAR, MNAR) możemy lepiej zrozumieć przyczyny ich występowania.

MCAR (Missing Completely At Random): Braki w kolumnach takich jak has_elevator i college_distance są losowe i wynikają z technicznych pominięć w zbieraniu danych.
MAR (Missing At Random): Braki w kolumnach condition, building_material, oraz floor wynikają z powiązań między zmiennymi, np. building_type i floor_count.
MNAR (Missing Not At Random): Braki w building_type mogą wynikać z mechanizmu niechęci podawania wartości (np. dla mieszkań luksusowych).

Dzięki tym wstępnym analizom możliwe jest odpowiednie dobranie metod imputacji (np. medianą, modą lub bardziej zaawansowanymi metodami), a także ewentualne usunięcie zmiennych, w których braki są zbyt liczne i niemożliwe do uzupełnienia bez znaczącej utraty jakości danych.

Podsumowanie brakujących danych
Zmienna	Liczba braków	Procent braków	Zmienna	Procent braków
condition	15921	74.0%	id	0.0%
building_material	8792	40.9%	city	0.0%
building_type	4397	20.5%	square_meters	0.0%
floor	3573	16.6%	rooms	0.0%
build_year	3380	15.7%	latitude	0.0%
has_elevator	960	4.5%	longitude	0.0%
college_distance	584	2.7%	centre_distance	0.0%
floor_count	209	1.0%	poi_count	0.0%
clinic_distance	63	0.3%	ownership	0.0%
restaurant_distance	31	0.1%	has_parking	0.0%
pharmacy_distance	30	0.1%	has_balcony	0.0%
post_office_distance	20	0.1%	has_security	0.0%
kindergarten_distance	19	0.1%	has_storage_room	0.0%
school_distance	11	0.1%	price	0.0%

Analiza brakujących danych wskazuje, że kolumny w zbiorze można podzielić na kilka grup pod względem liczby braków:

Bardzo duża liczba braków: condition (74.0%) i building_material (40.9%). Ze względu na ich wysoką niekompletność zdecydowaliśmy się usunąć kolumnę condition, a dla building_material zastosujemy imputację najczęstszą wartością.
Umiarkowana liczba braków: building_type (20.5%), floor (16.6%), build_year (15.7%). Uzupełnimy brakujące wartości odpowiednio metodą najczęstszej wartości dla zmiennych kategorycznych (building_type) oraz medianą dla zmiennych liczbowych (floor, build_year).
Niewielka liczba braków: Kolumny takie jak has_elevator (4.46%) czy college_distance (2.72%) zostaną uzupełnione odpowiednio modą i medianą.
Bardzo mała liczba braków: Pozostałe kolumny z mniej niż 1% braków zostaną imputowane prostymi metodami (medianą lub najczęstszą wartością).
Kolumny bez braków: Pozostałe zmienne, takie jak price, square_meters czy rooms, są kompletne i nie wymagają dodatkowych działań.

Obserwacje odstające

Do analizy obserwacji odstających decydowaliśmy się użyć wykresów pudełkowych, ponieważ są one prostym i skutecznym narzędziem wizualizacyjnym, które pozwala szybko zidentyfikować wartości odstające. Dzięki nim poznamy wartości minimalne, maksymalne, mediane, kwartyle oraz ewentualne wartości wykraczające poza tzw. wąsy, czyli zakres między pierwszym a trzecim kwartylem powiększony. Każda z analizowanych zmiennych została przedstawiona na osobnym wykresie pudełkowym, co pozwala dokładnie przyjrzeć się rozkładowi poszczególnych cech, takich jak powierzchnia mieszkania, cena, cena za metr kwadratowy czy odległości od różnych punktów użyteczności publicznej. Dzięki temu można szybko zidentyfikować zmienne, które mogą zawierać nietypowe wartości i potencjalnie wpłynąć na dalsze analizy lub modelowanie danych.

Dodatkowo, aby potwierdzić statystycznie obecność obserwacji odstających zastosowaliśmy metodę Z-score oraz zbadaliśmy czy rozkład danych jest zbliżony do rozkładu normalnego.

Metoda Z-score, polega na identyfikowaniu obserwacji odstających na podstawie odchylenia standardowego od średniej. Wyraża się wzorem: \[ Z = \frac{x - \bar{x}}{\sigma} \] \(x\): wartość obserwacji
\(\overline{x}\): średnia dla danej zmiennej
\(\sigma\): odchylenie standardowe.

Skośność jest statystyką umożliwiającą porównanie rozkładu analizowanej zmiennej z hipotetycznym rozkładem normalnym. Wskazuje na rozbieżności pomiędzy wartością średnią, a centrum danego rozkładu. Wyraża się wzorem:

\[\tilde{\mu}_3 = \frac{\sum_{i}^{N} (X_i - \bar{X})^3}{(N - 1) \cdot \sigma^3}\]

\(\tilde{\mu}_3\) = skośność
\(N\) = liczba zmiennych w rozkładzie
\(X_i\) = losowa zmienna
\(\bar{X}\) = średnia rozkładu
\(\sigma\) = odchylenie standardowe.

Interpretacja jest następująca:

Rozkład prawoskośny – skośność jest dodatnia, prawe ramię rozkładu jest wydłużone, wyniki poniżej średniej są przeważające w badanej próbce.
Rozkład symetryczny – skośność wynosi 0, ogony rozkładu są identyczne w obu kierunkach. Jeśli znormalizowana kurtoza wynosi 0, rozkład jest zbliżony do rozkładu normalnego.
Rozkład lewoskośny – skośność jest ujemna, lewe ramię rozkładu jest wydłużone, większość obserwacji w próbie ma wartości powyżej średniej.

Rozkład normalny nazywany również rozkładem Gaussa lub rozkładem Gaussowskim, jest jednym z najważniejszych i najczęściej stosowanych rozkładów w statystyce. Jego wykres przyjmuje charakterystyczny kształt dzwonu, dlatego często określa się go mianem krzywej dzwonowej.

Właściwości rozkładu normalnego:

Symetria: Rozkład normalny jest symetryczny względem swojej średniej. Oznacza to, że wartości po obu stronach średniej są równomiernie rozłożone.
Średnia, mediana i dominanta: W rozkładzie normalnym średnia, mediana i dominanta (wartość modalna) są równe i znajdują się w centrum rozkładu.
Kształt: Krzywa rozkładu normalnego ma jeden szczyt (jest jednoszczytowa), a jej ogony asymptotycznie zbliżają się do osi poziomej, co oznacza, że prawdopodobieństwo wartości bardzo odległych od średniej nigdy nie wynosi dokładnie 0, ale jest bardzo małe.
Funkcja gęstości: Matematyczny wzór funkcji gęstości rozkładu normalnego: \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] gdzie:
- \(\mu\) – średnia,
- \(\sigma\) – odchylenie standardowe,
- \(x\) – wartość zmiennej losowej.

Rozkład normalny jest fundamentem wielu metod statystycznych, np. testów hipotez, regresji czy analizy wariancji.

Wykresy pudełkowe

Interpretacja wyników wykresów pudełkowych

Przeprowadzona analiza wykresów pudełkowych pozwoliła na dokładne przyjrzenie się rozkładom badanych cech mieszkań, takich jak powierzchnia, cena, liczba pokoi oraz odległości do punktów użyteczności publicznej. Wykresy te umożliwiły identyfikację wartości typowych (mediana, kwartyle) oraz wartości odstających, które wykraczają poza zakres wyznaczony przez wąsy.

Wartości odstające są szczególnie istotne, ponieważ mogą wskazywać na specyficzne obserwacje, takie jak:

Nieruchomości luksusowe lub o nietypowej wielkości i cenie,
Mieszkania położone w trudno dostępnych lokalizacjach,
Nieruchomości w starszych budynkach lub obszarach o słabo rozwiniętej infrastrukturze.

Poniżej przedstawiono szczegółową interpretację wyników dla każdej z analizowanych zmiennych.

square_meters - Mediana powierzchni wynosi około 50-60 m².
- Większość mieszkań mieści się w zakresie 40-80 m².
- Wartości odstające powyżej 100 m² wskazują na większe apartamenty lub luksusowe nieruchomości.

price
- Mediana ceny mieszkań wynosi około 750 tys. zł.
- Typowe wartości mieszczą się w przedziale 500 tys. – 1 mln zł.
- Liczne wartości odstające powyżej 2,5 mln zł sugerują obecność luksusowych nieruchomości w analizowanym zbiorze.

price_per_square_meter - Mediana wynosi około 15 000 zł/m², a większość wartości mieści się w zakresie 10 000 – 20 000 zł/m².
- Wartości odstające przekraczające 30 000 zł/m² mogą wynikać z mieszkań położonych w bardzo prestiżowych lokalizacjach.

rooms
- Typowe mieszkania mają 2-3 pokoje, co potwierdza mediana.
- Wartości odstające (4-6 pokoi) mogą wskazywać na większe mieszkania lub apartamenty rodzinne.

floor
- Mediana piętra to około 2.
- Większość mieszkań znajduje się na 1-5 piętrze.
- Wartości odstające powyżej 15 piętra sugerują obecność mieszkań w wieżowcach.

floor_count
- Typowe budynki mają 4-6 pięter.
- Wartości odstające powyżej 15 pięter wskazują na obecność wysokich budynków mieszkalnych.

building_age
- Mediana wieku budynków wynosi około 50 lat.
- Budynki mające więcej niż 100 lat to wartości odstające, co sugeruje obecność starszych, często zabytkowych nieruchomości.

centre_distance - Typowa odległość to 2-8 km.
- Wartości odstające powyżej 15 km wskazują na nieruchomości położone na przedmieściach lub w odległych lokalizacjach.

school_distance - Większość szkół znajduje się w odległości do 1 km.
- Wartości odstające powyżej 4 km mogą świadczyć o gorszej dostępności edukacji w analizowanych lokalizacjach.

clinic_distance
- Kliniki są najczęściej położone do 1 km od mieszkań.
- Wartości odstające powyżej 3 km wskazują na obszary o niższym dostępie do opieki zdrowotnej.

post_office_distance
- Typowa odległość wynosi 0-1 km.
- Wartości odstające powyżej 4 km mogą wynikać z mniej zurbanizowanych obszarów.

kindergarten_distance - Przedszkola znajdują się głównie do 1 km od mieszkań.
- Wartości odstające powyżej 3 km sugerują problemy z dostępem do usług dla rodzin z dziećmi.

restaurant_distance
- Restauracje znajdują się typowo do 1 km od mieszkań.
- Wartości odstające powyżej 5 km wskazują na peryferyjne lokalizacje z ograniczoną ofertą gastronomiczną.

college_distance - Typowa odległość wynosi 1-2 km.
- Wartości odstające do 5 km sugerują lokalizacje mniej centralne pod względem infrastruktury edukacyjnej.

pharmacy_distance - Apteki znajdują się zazwyczaj do 1 km od mieszkań.
- Wartości odstające powyżej 4 km wskazują na obszary o ograniczonym dostępie do usług farmaceutycznych.

Analiza wykresów pudełkowych potwierdziła występowanie wartości odstających w każdej z badanych zmiennych. Są one szczególnie istotne, ponieważ mogą wskazywać na specyficzne segmenty rynku nieruchomości – luksusowe mieszkania, nieruchomości historyczne lub obszary z ograniczoną infrastrukturą.

Zidentyfikowane wartości odstające będą miały istotne znaczenie w dalszym modelowaniu oraz analizach statystycznych. Warto w kolejnych krokach rozważyć, czy te obserwacje powinny zostać zachowane jako istotne dla analizy, czy też przekształcone lub usunięte w zależności od kontekstu biznesowego i analitycznego.

Skośność

Interpretacja wyników histogramów

Przeprowadzona analiza histogramów pozwoliła na dokładne przyjrzenie się rozkładom badanych cech mieszkań, takich jak powierzchnia, cena, liczba pięter oraz odległości do punktów użyteczności publicznej. Wykresy te umożliwiły identyfikację wartości typowych (dominanty, gęstość wartości) oraz wartości odstających, które znajdują się na krańcach rozkładów.

Linie rozkładu normalnego, nałożone na histogramy, stanowią dodatkowy punkt odniesienia do oceny kształtu rozkładów. Pozwalają one zidentyfikować:

Odstępstwa od normalności, takie jak skośność czy wielomodalność,
Stopień zgodności rozkładów empirycznych z teoretycznym rozkładem normalnym,
Przesunięcia względem środka rozkładu sugerujące koncentrację danych.

centre_distance: - Rozkład jest prawoskośny z koncentracją wartości w zakresie 2-8 km.
- Linia rozkładu normalnego pokazuje, że rozkład empiryczny jest odchylony w prawo.
- Wartości powyżej 10 km stanowią odstępstwa, które wskazują na nieruchomości w peryferyjnych lokalizacjach, co jest nietypowe dla większości analizowanych danych.

poi_count - Histogram pokazuje wysoce prawoskośny rozkład, gdzie większość obserwacji znajduje się poniżej 50.
- Linia rozkładu normalnego podkreśla duże odchylenie od symetrii, co sugeruje, że większość lokalizacji ma ograniczoną liczbę punktów użyteczności publicznej, natomiast pojedyncze przypadki z bardzo dużymi wartościami (powyżej 100) są wyjątkami.

school_distance
- Rozkład odległości jest prawoskośny, z dominacją wartości 0-1 km.
- Linia normalna nie pasuje do rozkładu, co wskazuje na silną koncentrację danych blisko 0 km.
- Wartości odstające powyżej 3 km sugerują lokalizacje z ograniczonym dostępem do szkół.

clinic_distance
- Histogram pokazuje prawoskośny rozkład, z większością wartości w przedziale do 1 km.
- Linia rozkładu normalnego wyraźnie nie oddaje koncentracji danych w niższych wartościach.
- Wartości powyżej 3 km sugerują trudniejszy dostęp do opieki zdrowotnej w mniej zurbanizowanych obszarach.

post_office_distance
- Rozkład jest prawoskośny, z typowymi wartościami 0,5–1 km.
- Linia rozkładu normalnego wskazuje na istotne odchylenie od normalności, co podkreśla silne skupienie danych w niższych przedziałach.

restaurant_distance
- Histogram ujawnia koncentrację wartości w zakresie do 1 km z pojedynczymi przypadkami powyżej 3 km.
- Przesunięcie względem linii normalnej podkreśla ograniczoną liczbę nieruchomości o znacznej odległości od restauracji.

college_distance
- Wartości typowe mieszczą się w przedziale 1–2 km, natomiast histogram jest lekko prawoskośny.
- Linia rozkładu normalnego dobrze przybliża dane w środkowej części, jednak widać odchylenia w wyższych wartościach (powyżej 4 km).

pharmacy_distance - Histogram jest silnie prawoskośny, z wartościami typowymi do 1 km.
- Linia normalna nie jest dopasowana, co sugeruje, że rozkład empiryczny jest skupiony na jednym krańcu.

square_meters - Rozkład powierzchni mieszkań jest prawoskośny, z wartościami dominującymi w przedziale 40–80 m².
- Linia rozkładu normalnego sugeruje większą symetrię niż istnieje w danych.
- Wartości odstające powyżej 100 m² wskazują na duże apartamenty, które są nietypowe.

price - Histogram jest wysoce prawoskośny, z typowymi cenami 500 tys. – 1 mln zł.
- Rozkład empiryczny jest znacznie przesunięty względem linii normalnej, co podkreśla nierównomierną strukturę cen na rynku.

floor - Większość mieszkań znajduje się na 1-5 piętrze.
- Linia rozkładu normalnego odbiega od rzeczywistego kształtu, który jest skośny, z kilkoma wartościami odstającymi powyżej 15 piętra.

floor_count - Rozkład pokazuje, że typowe budynki mają 4-6 pięter.
- Linia normalna nie oddaje koncentracji w niskich wartościach oraz odstępstw w wysokich budynkach.

building_age - Histogram wskazuje, że większość budynków ma mniej niż 50 lat.
- Rozkład jest prawoskośny, a linia normalna sugeruje większą symetrię niż rzeczywiście istnieje.

build_year - Rozkład pokazuje koncentrację budynków wybudowanych po 1950 roku.
- Linia normalna dobrze dopasowuje się do danych, jednak rozkład jest lekko przesunięty ku nowszym budynkom.

Analiza histogramów, w połączeniu z linią rozkładu normalnego, dostarczyła następujących wniosków:

Większość rozkładów jest prawoskośna, co sugeruje koncentrację wartości w niższych przedziałach oraz obecność kilku wartości odstających.
Linie normalne pozwoliły zidentyfikować rozbieżności między rozkładami empirycznymi a teoretycznym rozkładem normalnym.
Wartości odstające są widoczne w wielu zmiennych, zwłaszcza w powierzchni mieszkań, cenach oraz odległościach do punktów użyteczności publicznej.

Wyniki te potwierdzają specyfikę rynku nieruchomości, gdzie typowe wartości są skoncentrowane w określonych zakresach, a odstępstwa wskazują na szczególne przypadki, które mogą być analizowane osobno.

Test Andersona-Darlinga

Test Andersona-Darlinga jest statystycznym testem zgodności, który ocenia, jak dobrze dane pasują do określonego rozkładu teoretycznego. Zwykle stosuje się go do sprawdzenia zgodności z rozkładem normalnym. Jest modyfikacją testu Craméra-von Misesa dokonaną w celu poprawy jego czułości w „ogonach” testowanego rozkładu.

Hipotezy

Test Andersona-Darlinga przeprowadza się w celu sprawdzenia hipotez:

Hipoteza zerowa (\(H_0\)): Dane pochodzą z określonego rozkładu (np. normalnego, wykładniczego).
Hipoteza alternatywna (\(H_1\)): Dane nie pochodzą z tego rozkładu.

Funkcja testowa

Test Andersona-Darlinga oblicza statystykę testową \(A^2\), która jest zdefiniowana jako:

\[ A^2 = -n - \sum_{i=1}^n \frac{2i - 1}{n} \left[ \ln(F(X_i)) + \ln(1 - F(X_{n+1-i})) \right] \]

gdzie: - \(n\) – liczba obserwacji w próbie, - \(F(x)\) - dystrybuanta rozkładu wzorcowego, - \(X_{(i)}\) - i-ta zaobserwowana wartość w próbie uporządkowanej rosnąco

Test Anderson-Darling przyjmuje zasadę, że jeżeli wartość p jest bardzo niska, niższa niż 0,05, wtedy przyjmuje się, że rozkład danych nie jest zgodny z rozkładem normalnym. Przyjmuje się takie założenie, jeżeli został przyjęty poziom istotności 0,05.

Wyniki testu Andersona-Darlinga
Zmienne	Wartości_p_value
price	3.7e-24
square_meters	3.7e-24
centre_distance	3.7e-24
floor	3.7e-24
floor_count	3.7e-24
poi_count	3.7e-24
school_distance	3.7e-24
kindergarten_distance	3.7e-24
clinic_distance	3.7e-24
post_office_distance	3.7e-24
restaurant_distance	3.7e-24
college_distance	3.7e-24
pharmacy_distance	3.7e-24
building_age	3.7e-24

Wyniki testu Andersona-Darlinga wskazują na ekstremalnie małe wartości \(p\)-value (\(3.7 \times 10^{-24}\)) dla wszystkich analizowanych zmiennych, co oznacza, że należy odrzucić hipotezę zerową zakładającą normalność rozkładu. Dane dla zmiennych takich jak price, square_meters, centre_distance i pozostałych znacząco odbiegają od rozkładu normalnego, co jest również widoczne na powyższych histogamach.

Z-score

Wyniki Z-Score
Zmienna	Wartość
build_year	1.321569e-15
price	9.155718e-17
square_meters	3.0552e-17
price_per_square_meter	-5.888089e-17
rooms	-1.961117e-16
floor	-3.274304e-17
floor_count	-9.234339e-17
centre_distance	-1.348539e-16
building_age	8.221441e-17
school_distance	1.247826e-17
clinic_distance	2.77439e-17
post_office_distance	9.446714e-17
kindergarten_distance	-4.220434e-17
restaurant_distance	5.62074e-17
college_distance	-2.656712e-17
pharmacy_distance	-1.519166e-17
poi_count	-2.97876e-17

Standaryzacja przy użyciu z-score umożliwia identyfikację wartości odstających. Wartości, które są znacznie większe lub mniejsze niż 3 odchylenia standardowe, mogą być traktowane jako odstające. Zastosowanie z-score zapewniło, że wszystkie analizowane zmienne są zbalansowane wokół średniej, co stanowi podstawę do dalszych, bardziej szczegółowych analiz. Większość wartości w danych jest symetrycznie rozłożona wokół średniej i nie dominuje żaden zbiór ekstremalnych wartości.

Transformacje

Transformacja zmiennej price oraz poi_count

Powody przeprowadzenia transformacji logarytmicznej:

Zmniejszenie wpływu wartości odstających:
- W zmiennych takich jak price i poi_count występują duże wartości odstające. Dla ceny może to być kilka luksusowych apartamentów o bardzo wysokiej cenie, a dla liczby punktów zainteresowania miejsca z wyjątkowo dużą liczbą udogodnień w okolicy. Transformacja logarytmiczna zmniejsza wpływ tych skrajnych wartości na analizy.
Poprawa rozkładu zmiennych:
- Cena mieszkań oraz liczba punktów zainteresowania często mają rozkład prawoskośny, co oznacza, że większość wartości jest skupiona przy niższych wartościach, ale pojawiają się też wyższe, rzadkie wartości. Logarytm zmniejsza tę asymetrię, zbliżając dane do rozkładu normalnego, co ułatwia interpretację i modelowanie statystyczne.

Interpretacja:

Po transformacji: - Rozkład zmiennej price jest bardziej symetryczny, co ułatwi modelowanie zależności między ceną a innymi zmiennymi. - Rozkład zmiennej poi_count jest mniej skośny, co pozwoli lepiej zrozumieć wpływ liczby punktów zainteresowania na analizowane wyniki.

Uzasadnienie braku transformacji dla poszczególnych kolumn

square_meters
- Uzasadnienie: Duże wartości tej zmiennej (np. powyżej 200 m²) mogą odnosić się do apartamentów luksusowych lub przestronnych domów, co jest zrozumiałe w kontekście rynku nieruchomości. Asymetria rozkładu wynika z faktu, że małe mieszkania są bardziej powszechne, ale większe jednostki wciąż mają naturalne uzasadnienie.
rooms
- Uzasadnienie: Liczba pokoi w mieszkaniach czy domach jest zwykle niewielka i wynika z ich przeznaczenia. Duże liczby (np. 7–10 pokoi) mogą odnosić się do dużych domów jednorodzinnych lub luksusowych apartamentów. Każda wartość zmiennej ma swoje logiczne wyjaśnienie.
floor oraz floor_count
- Uzasadnienie: Wysokie wartości (np. powyżej 10. piętra) zazwyczaj odnoszą się do mieszkań w wieżowcach, co jest typowe w dużych miastach. Rozkład zmiennej jest zgodny z różnorodnością rynku.
build_year
- Uzasadnienie: Starsze budynki (np. przedwojenne) mają swoje unikalne cechy (np. kamienice), a nowe budynki charakteryzują nowoczesne technologie i standardy. Każda wartość zmiennej niesie ze sobą istotny kontekst historyczny i architektoniczny.
centre_distance
- Uzasadnienie: Duże odległości (np. >20 km) zwykle oznaczają mieszkania na przedmieściach lub w miejscowościach satelickich, co jest naturalne w kontekście urbanistycznym. Mniejsze wartości wskazują na nieruchomości w centrum miasta, co również ma sens.
school_distance
- Uzasadnienie: Krótsze odległości są typowe dla osiedli mieszkaniowych, gdzie szkoły są blisko mieszkańców. Większe odległości mogą dotyczyć obszarów wiejskich lub mniej zurbanizowanych.
clinic_distance
- Uzasadnienie: Podobnie jak w przypadku szkół, krótsze odległości charakteryzują gęsto zabudowane obszary, a większe – mniej rozwinięte okolice. Rozkład zmiennej jest zgodny z rzeczywistością.
post_office_distance
- Uzasadnienie: Odległości te odzwierciedlają rzeczywisty dostęp do infrastruktury. Krótsze odległości oznaczają bardziej zurbanizowane tereny, a dłuższe – obszary mniej zaludnione.
kindergarten_distance
- Uzasadnienie: Podobnie jak w przypadku szkół, odległości mają naturalne wyjaśnienie w charakterystyce lokalizacji.
restaurant_distance
- Uzasadnienie: Krótsze odległości są typowe dla centrów miast, a większe – dla terenów podmiejskich i wiejskich. Zmienna w swojej formie jest wystarczająco zrozumiała.
college_distance
- Uzasadnienie: Podobnie jak inne odległości, wartości tej zmiennej mają naturalne uzasadnienie w zależności od lokalizacji nieruchomości względem centrów edukacyjnych.
pharmacy_distance
- Uzasadnienie: Odległości te są intuicyjne i w pełni odpowiadają rzeczywistości. Apteki są zlokalizowane bliżej mieszkańców w gęsto zaludnionych obszarach, co tłumaczy krótsze wartości.
building_age
- Uzasadnienie: Starsze budynki (np. >50 lat) są często kamienicami lub historycznymi budynkami, a nowe (np. <10 lat) to inwestycje deweloperskie. Wiek budynku jest intuicyjny i łatwy do zrozumienia bez transformacji.

Podsumowanie: Brak transformacji dla większości zmiennych wynika z ich naturalnego znaczenia w kontekście rynku nieruchomości. Transformacje stosujemy wyłącznie w sytuacjach, gdy poprawiają one analizę, bez utraty interpretowalności. W przypadku tych zmiennych, zachowanie ich w pierwotnej formie pozwala na lepsze oddanie rzeczywistości i kontekstu analizy.

Ponowna walidacja danych

Po przeprowadzeniu pierwszej, wstępnej walidacji, która ujawniła znaczną liczbę brakujących danych (NA) w zbiorze, zdecydowano się na przeprowadzenie kolejnej, bardziej szczegółowej analizy, aby upewnić się, że dokonana imputacja została prawidłowo wykonana, a dane są spójne i gotowe do dalszej obróbki. Celem ponownej walidacji jest weryfikacja skuteczności uzupełniania brakujących wartości oraz sprawdzenie, czy po tej operacji dane są spójne z przyjętymi regułami.

W ramach tej walidacji sprawdzono czy wartości imputowane dla zmiennych numerycznych i kategorycznych (mediana i moda) zostały odpowiednio dobrane, a także czy nie wprowadziły nowych niezgodności w danych. Ponadto zweryfikowano, czy po przeprowadzonej imputacji i innych korektach, dane są logicznie spójne, a reguły dotyczące relacji między zmiennymi, takie jak zgodność zmiennych floor i floor_count, zostały właściwie zastosowane.

Druga walidacja ma na celu zapewnienie, że dane są w pełni spójne i zgodne z wymaganiami, eliminując ryzyko wystąpienia problemów, które mogłyby wpływać na jakość dalszej analizy. Dzięki tym czynnościom dane będą gotowe do kolejnych etapów analizy i przetwarzania.

W procesie walidacji danych większość reguł została spełniona, jednak w przypadku jednej reguły, dotyczącej zgodności zmiennych floor i floor_count, wykryto 545 nieprawidłowych obserwacji, które wymagają dalszej analizy i korekty. Zgodnie z regułą, wartości floor nie powinny przekraczać wartości floor_count, co jest kluczowe dla spójności danych. Pozostałe reguły zostały prawidłowo zastosowane i nie wykryto żadnych innych istotnych problemów w analizowanych danych.

Przed rozpoczęciem walidacji brakujące wartości (NA) zostały uzupełnione, co pozwoliło na przeprowadzenie pełnej analizy zgodności z regułami. Imputacja brakujących danych była kluczowym krokiem, umożliwiającym dalsze etapy weryfikacji danych.

Błędy w danych floor i floor_count mogą wynikać z błędnie uzupełnionych wartości lub nieaktualnych danych (budynki mogły zmienić liczbę kondygnacji po modernizacji). Aby poprawić te błędy, przyjęto zasadę, że w takich sytuacjach wartość liczby kondygnacji (floor_count) zostanie ustawiona na wartość piętra (floor). Jeśli wartość liczby kondygnacji była równa lub większa od wartości piętra, dane pozostały niezmienione. Taka korekta zapewnia spójność danych i eliminuje przypadki, w których piętro przewyższa liczbę kondygnacji w budynku.Nie znaleziono duplikatów wierszy w danych.

Analiza średnich cen mieszkań według województw

Celem analizy regionalnej cen mieszkań jest zrozumienie zróżnicowania poziomu cen nieruchomości w Polsce. Wykorzystanie mapy województw pozwala zobrazować różnice w średnich cenach za metr kwadratowy w poszczególnych regionach kraju. Tego rodzaju wizualizacja umożliwia identyfikację obszarów o najwyższych oraz najniższych cenach, co może stanowić punkt wyjścia do dalszej analizy rynku nieruchomości, uwzględniającej czynniki wpływające na cenę, takie jak urbanizacja, poziom dochodów czy lokalna infrastruktura.

Poszczególne statystyki dla miast
Miasto	Średnia powierzchnia mieszkania	Średnia cena za \(m^2\)	Najczęstsza liczba pokoi
Warszawa	57.27	18503.96	2
Kraków	55.37	17135.48	2
Gdańsk	58.63	15402.31	2
Gdynia	63.24	14020.05	3
Wrocław	56.34	13562.28	2
Poznań	57.84	11472.10	2
Rzeszów	60.07	10803.55	3
Białystok	51.73	10089.06	3
Lublin	59.05	10060.79	3
Szczecin	63.52	9529.45	2
Katowice	60.05	9038.26	3
Łódź	52.70	8536.00	2
Bydgoszcz	54.13	8194.03	2
Częstochowa	54.28	7034.63	2
Radom	55.47	6929.92	3

Interpretacja wyników

Województwo mazowieckie jako lider cenowy

Z wykresu wynika, że województwo mazowieckie, w szczególności Warszawa, dominuje pod względem średnich cen za metr kwadratowy, osiągając wartości powyżej 18 000 PLN/m². Jest to odzwierciedleniem centralnej roli stolicy w gospodarce, jej rozwiniętego rynku pracy oraz wysokiego popytu na mieszkania.
Regiony o najniższych cenach

Województwa takie jak podkarpackie, lubelskie i podlaskie charakteryzują się znacznie niższymi cenami, oscylującymi wokół 10 000 PLN/m². Są to regiony o mniejszym stopniu urbanizacji oraz niższym popycie na nieruchomości w porównaniu do dużych miast.
Regiony o średnich cenach

Województwa dolnośląskie, pomorskie i wielkopolskie znajdują się w średnim przedziale cenowym, wynoszącym od 12 000 PLN/m² do 16 000 PLN/m². Obejmują one dynamicznie rozwijające się miasta, takie jak Wrocław, Gdańsk czy Poznań, które są istotnymi ośrodkami akademickimi i biznesowymi.
Różnice między regionami

Mapa podkreśla wyraźne różnice w rozwoju regionalnym. Województwa takie jak opolskie czy świętokrzyskie należą do najtańszych, co może być związane z niższym stopniem urbanizacji, mniejszym popytem oraz ograniczoną dostępnością pracy w tych regionach.

Wnioski

Wykres średnich cen mieszkań za metr kwadratowy w podziale na województwa jasno pokazuje istotne różnice regionalne. Najwyższe ceny dominują w centralnej i północno-zachodniej części Polski, szczególnie w miastach takich jak Warszawa, Wrocław, Gdańsk i Kraków. Natomiast regiony wschodnie oraz mniej zurbanizowane województwa charakteryzują się niższymi cenami, co wskazuje na ich mniejszy potencjał rynkowy. Wyniki te sugerują, że dalsze badania powinny uwzględnić czynniki demograficzne, ekonomiczne i infrastrukturalne, które kształtują rynek nieruchomości w Polsce.

Wybór miast do dalszej analizy

W ramach dalszej analizy postanowiliśmy skupić się na szczegółowym porównaniu miast w naszym zbiorze danych pod kątem cen mieszkań za metr kwadratowy. W tym celu wybraliśmy po dwa miasta z trzech grup cenowych:

Miasta z najwyższymi cenami za \(m^2\) – są to lokalizacje charakteryzujące się wyjątkowo wysokim poziomem cen, które mogą być związane z prestiżem, dostępem do wyjątkowych udogodnień, czy lokalizacją w centralnych dzielnicach dużych miast. Analiza tych miast jakimi są Warszawa oraz Kraków pozwoli zrozumieć, jakie czynniki najbardziej wpływają na tak wysokie ceny.
Miasta o średnich cenach za \(m^2\) – wybraliśmy dwa miasta znajdujące się w średniej półce cenowej tj Rzeszów i Białystok. Analiza tej grupy pozwoli na identyfikację, jak różnią się te lokalizacje od najdroższych i najtańszych pod względem dostępności mieszkań, udogodnień oraz charakterystyki demograficznej.
Miasta z najniższymi cenami za \(m^2\) – dwa miasta o najniższych cenach za metr kwadratowy (Radom, Częstochowa) zostały wybrane w celu zbadania, czy niższe ceny wynikają z lokalizacji, ograniczonej liczby udogodnień, czy może innych czynników, takich jak mniejsze zainteresowanie rynkiem nieruchomości.

Uzasadnienie wyboru

Decyzja o podziale miast na trzy grupy wynika z chęci uchwycenia zróżnicowania na polskim rynku nieruchomości. Taki podział pozwala:

Lepiej zrozumieć czynniki wpływające na ceny mieszkań w skrajnie różnych lokalizacjach.
Zidentyfikować potencjalne różnice w charakterystyce mieszkań (np. powierzchnia, liczba pokoi, stan techniczny) pomiędzy miastami.
Opracować bardziej uniwersalne wnioski, które mogą być przydatne zarówno dla inwestorów, jak i osób zainteresowanych zakupem mieszkań.

Dzięki temu podziałowi możemy porównać, jakie cechy i trendy są unikalne dla różnych segmentów cenowych, oraz czy istnieją wspólne wzorce, które łączą te grupy.

Zależności cenowe w wybranych miastach przedstawione zostały na poniższym wykresie

Wykres graficznie przedstawia wcześniej omówione różnice w cenach mieszkań za metr kwadratowy w wybranych miastach. Wizualizacja potwierdza podział na trzy grupy cenowe, ukazując wyraźne różnice między najdroższymi, średnimi i najtańszymi lokalizacjami.

Analiza udogodnień w nieruchomościach

Wykonamy analizę, aby sprawdzić, w jaki sposób różne udogodnienia, takie jak balkon, winda, parking, ochrona czy komórka lokatorska, wpływają na ceny mieszkań w wybranych miastach. Za pomocą wykresów pudełkowych ocenimy, czy obecność tych udogodnień ma znaczący wpływ na wartość nieruchomości oraz jak różnice te kształtują się w zależności od lokalizacji.

Wykresy pudełkowe udogodnień

Wpływ balkonu na cenę mieszkań

Balkon jest jednym z kluczowych elementów wpływających na wartość mieszkania, zwłaszcza w dużych miastach.

W Warszawie i Krakowie, mieszkania z balkonem mają wyraźnie wyższe mediany cen w porównaniu do mieszkań bez tego udogodnienia. Może to wynikać z zapotrzebowania na przestrzeń zewnętrzną w dużych aglomeracjach, gdzie dostęp do terenów zielonych bywa ograniczony.
W miastach takich jak Radom, Rzeszów i Częstochowa, różnice w medianach cen są mniej wyraźne, co wskazuje, że balkon w tych lokalizacjach jest czynnikiem mniej istotnym.
Warto zauważyć, że rozrzut cen w grupie mieszkań z balkonem jest mniejszy, co może świadczyć o większej standaryzacji tej grupy mieszkań pod względem ceny.

Wpływ windy na cenę mieszkań

Obecność windy ma istotne znaczenie dla wartości mieszkań, szczególnie w nowoczesnych budynkach i wyższych kondygnacjach.

Warszawa, Kraków i Rzeszów charakteryzują się znaczącą różnicą w medianach cen mieszkań z i bez windy, co wskazuje na preferencje kupujących związane z wygodą użytkowania. Winda może być szczególnie istotna w budynkach wielopiętrowych.
W mniejszych miastach, takich jak Radom i Częstochowa, różnice w medianach są mniej zauważalne, co może sugerować, że winda nie jest tam równie cenionym udogodnieniem.
Rozrzut cen mieszkań bez windy jest większy, co może świadczyć o różnorodności oferty mieszkań w tej grupie.

Wpływ parkingu na cenę mieszkań

Analiza wskazuje, że obecność parkingu jest istotnym czynnikiem wpływającym na medianę cen mieszkań, szczególnie w większych aglomeracjach.

Warszawa wykazuje najwyższą medianę cen dla mieszkań z parkingiem, co może sugerować, że dostępność parkingu w stolicy jest szczególnie pożądana przez nabywców.
W miastach takich jak Kraków i Rzeszów, różnica między cenami mieszkań z parkingiem i bez jest również wyraźna, choć nie tak wysoka jak w Warszawie. Może to wynikać z urbanistycznych potrzeb mieszkańców.
Częstochowa i Radom charakteryzują się stosunkowo niewielką różnicą w medianach cen, co wskazuje na mniejsze znaczenie parkingu jako czynnika wpływającego na decyzje zakupowe.
Rozrzut cen (odchylenie) w grupie mieszkań bez parkingu jest większy, co może wskazywać na większą różnorodność mieszkań w tej grupie pod względem lokalizacji, standardu i powierzchni.

Wpływ ochrony na cenę mieszkań

Obecność ochrony na terenie nieruchomości jest silnym czynnikiem zwiększającym wartość mieszkań w dużych i dynamicznie rozwijających się miastach.

W takich lokalizacjach jak Warszawa i Kraków, mieszkania z ochroną osiągają zauważalnie wyższe ceny, co świadczy o znaczeniu bezpieczeństwa w decyzjach zakupowych.
Radom i Częstochowa wykazują niewielkie różnice w medianach cen mieszkań z i bez ochrony, co sugeruje, że w mniejszych miastach czynniki takie jak lokalizacja i stan techniczny nieruchomości mogą być ważniejsze niż bezpieczeństwo.
Analiza rozrzutu cen pokazuje, że mieszkania z ochroną charakteryzują się mniejszym odchyleniem standardowym, co oznacza większą stabilność cenową w tej grupie.

Wpływ komórki lokatorskiej na cenę mieszkań

Komórka lokatorska stanowi ważny element funkcjonalności nieruchomości, szczególnie w bardziej zatłoczonych miastach, gdzie przestrzeń dodatkowa ma istotne znaczenie.

Warszawa, Kraków i Rzeszów wykazują wyraźne różnice w medianach cen mieszkań z i bez komórki lokatorskiej. W tych miastach komórka lokatorska może być postrzegana jako istotne udogodnienie, które podnosi wartość użytkową mieszkania.
W miastach takich jak Radom i Częstochowa, różnice w medianach są mniej wyraźne, co sugeruje, że lokalne preferencje zakupowe mogą nie uwzględniać tego udogodnienia jako kluczowego.
Rozrzut cen mieszkań bez komórki lokatorskiej jest większy, co może sugerować większą różnorodność w tej grupie pod względem lokalizacji i standardu nieruchomości.

Podsumowanie

1.Balkon: Istotny czynnik w Warszawie i Krakowie, gdzie dostęp do przestrzeni zewnętrznej jest ograniczony.
2.Winda: Znaczący wpływ na wartość mieszkań, szczególnie w dużych miastach z nowoczesną zabudową.
3.Parking: Kluczowy czynnik w dużych miastach, zwłaszcza w Warszawie, gdzie dostępność miejsc parkingowych jest ograniczona.
4.Ochrona: Wysoko cenione w dużych aglomeracjach, szczególnie tam, gdzie bezpieczeństwo jest priorytetem.
5.Komórka lokatorska: Ważna w miastach o wysokim zagęszczeniu, gdzie przestrzeń przechowywania ma istotne znaczenie.

Test Chi-kwadrat

Wstęp do analizy testem Chi-kwadrat

W ramach analizy projektu zdecydowaliśmy się zbadać zależności pomiędzy zmiennymi kategorycznymi opisującymi cechy mieszkań. W tym celu zastosowaliśmy test Chi-kwadrat, który jest jedną z najpopularniejszych metod analizy zależności pomiędzy dwiema zmiennymi jakościowymi (kategorycznymi).

Opis metody

Test Chi-kwadrat służy do sprawdzania, czy istnieje statystycznie istotna zależność pomiędzy dwiema zmiennymi kategorycznymi. Wykorzystuje tablicę kontyngencji (czyli tabelę krzyżową) do porównania rzeczywistych obserwacji w danych z wartościami oczekiwanymi, które wystąpiłyby w przypadku braku zależności.

Test ten opiera się na statystyce Chi-kwadrat: \[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \] gdzie: - \(O_i\) to zaobserwowane wartości, - \(E_i\) to oczekiwane wartości przy założeniu niezależności.

Hipotezy testu

Hipoteza zerowa (\(H_0\)): Nie ma zależności między badanymi zmiennymi.
Hipoteza alternatywna (\(H_1\)): Istnieje zależność między badanymi zmiennymi.

Założenia testu

Dane są w postaci nominalnej (kategorycznej).
Wartości oczekiwane w każdej komórce tabeli kontyngencji powinny wynosić co najmniej 5 (dla mniejszych próbek można użyć dokładnego testu Fishera).

Analiza zależności dla wielu zmiennych kategorycznych

Ogólne wnioski:

Na podstawie przeprowadzonych testów Chi-kwadrat oraz wykresów możemy sformułować następujące wnioski:

Silne powiązania:
- Najsilniejsze zależności występują między zmiennymi związanymi z windą i pomieszczeniem gospodarczym. To sugeruje, że obecność windy jest ściśle związana z dostępem do pomieszczenia gospodarczego, co może wynikać z układu budynków lub preferencji klientów.
- Również zmienne parking i pomieszczenie gospodarcze oraz parking i winda wykazują silną zależność.
Umiarkowane zależności:
- Istnieje umiarkowana zależność między zmiennymi związanymi z balkonem i ochroną, co może wskazywać na określone standardy bezpieczeństwa w mieszkaniach z balkonem.
Brak istotnych zależności:
- Nie stwierdzono istotnej zależności między posiadaniem balkonu a windą, co oznacza, że te cechy nie są powiązane w badanej próbie.
Wpływ niskich wartości p:
- Bardzo niskie wartości p dla większości porównań sugerują, że wykryte zależności nie są przypadkowe i wynikają z faktycznych powiązań między cechami mieszkań.

Podsumowanie: W analizie ujawniono liczne istotne korelacje między cechami mieszkań. Najsilniejsze zależności dotyczą cech związanych z infrastrukturą budynku (winda, pomieszczenie gospodarcze) oraz dostępnością (parking). Wyniki te mogą być wykorzystane do przewidywania preferencji klientów lub optymalizacji oferty deweloperów.

Testowanie normalności i jednorodności wariancji

Postanowiliśmy zbadać, czy wariancje wyników w różnych grupach badawczych są jednorodne. Jednorodność wariancji, czyli homoskedastyczność, jest kluczowym założeniem w wielu testach statystycznych, takich jak analiza wariancji (ANOVA) czy test t-Studenta. Jeśli wariancje nie są równe, wyniki tych analiz mogą być niewiarygodne, co może prowadzić do błędnych wniosków.

Aby zweryfikować jednorodność wariancji w badanych grupach, zastosujemy test Levene’a. Jest to popularna i odporna metoda, która pozwala porównać wariancje w dwóch lub więcej grupach, nawet gdy dane nie spełniają założeń normalności rozkładu. Test ten będzie kluczowym krokiem w naszej analizie statystycznej, ponieważ od jego wyniku zależy, czy możemy zastosować klasyczne metody parametryczne, czy też konieczne będzie użycie metod alternatywnych.

W dalszej części przedstawimy sposób przeprowadzenia testu Levene’a oraz omówimy uzyskane wyniki.

Test Levene’a

Test Levene’a jest statystycznym testem służącym do sprawdzenia jednorodności wariancji (homoskedastyczności) w dwóch lub więcej grupach. Jest szczególnie użyteczny w analizach, które wymagają równości wariancji jako jednego z założeń, np. analiza wariancji (ANOVA) czy test t-Studenta.

Hipotezy testu:

Hipoteza zerowa (H₀): Wariancje w każdej grupie są równe.
Hipoteza alternatywna (H₁): Istnieją różnice w wariancjach pomiędzy grupami.

Mechanizm działania:

Test Levene’a porównuje odchylenia wartości w każdej grupie od mediany lub średniej. W wersji klasycznej test bazuje na średniej, natomiast modyfikacja Browna-Forsythe’a stosuje medianę, co czyni test bardziej odpornym na wartości odstające.

Podsumowanie wyników testów Levene’a dla zmiennej price.
Zmienna	F_Statistic	p_value	Interpretacja
has_parking	0.0245752	0.8754317	Wariancje są jednorodne
has_balcony	46.0675741	0.0000000	Wariancje różnią się istotnie
has_elevator	7.3013191	0.0068958	Wariancje różnią się istotnie
has_security	1.0000373	0.3173127	Wariancje są jednorodne
has_storage_room	26.2591182	0.0000003	Wariancje różnią się istotnie

Interpretacja

has_parking (p = 0.8754) – nie ma podstaw do odrzucenia hipotezy zerowej o jednorodności wariancji, dlatego wariancje są jednorodne.
has_balcony (p < 0.0001) – występują istotne statystycznie różnice w wariancjach grup,
czyli wariancje różnią się istotnie.
has_elevator (p = 0.0069) – p < 0.05, co również wskazuje na istotną różnicę wariancji,
a zatem wariancje różnią się istotnie.
has_security (p = 0.3173) – brak podstaw do odrzucenia hipotezy zerowej, wariancje są jednorodne.
has_storage_room (p < 0.0001) – wariancje w poszczególnych grupach różnią się istotnie, czyli wariancje różnią się istotnie.

Na podstawie tych wyników widać, że jednorodność wariancji została zachowana wyłącznie w przypadku zmiennych has_parking i has_security, natomiast dla has_balcony, has_elevator oraz has_storage_room stwierdzamy istotne różnice w wariancjach między grupami.

Wprowadzenie

Na podstawie wyników testu Andersona-Darlinga (brak rozkładu normalnego) i testu Levene’a (różnice w wariancjach dla niektórych zmiennych), testy parametryczne, takie jak analiza wariancji (ANOVA) czy test t-Studenta, nie są odpowiednie. Zamiast tego zastosujemy test Manna-Whitneya (dla dwóch grup).

Test Mann-Whitneya (Wilcoxona)

Cel testu Mann-Whitneya

Test Manna-Whitneya, znany również jako test U Manna-Whitneya, jest nieparametrycznym testem statystycznym stosowanym do porównania median dwóch niezależnych grup. Jest użyteczny, gdy dane nie spełniają założeń testów parametrycznych, takich jak normalność rozkładu czy jednorodności wariancji.

Założenia testu:

Obie grupy są niezależne.
Dane są mierzalne w skali porządkowej, interwałowej lub ilorazowej.
Rozkłady w obu grupach mogą być różne, ale test jest najbardziej efektywny, gdy kształty rozkładów są podobne.

Hipotezy:

Hipoteza zerowa (H₀): Rozkłady obu grup są identyczne, a ich mediany są równe.
Hipoteza alternatywna (H₁): Rozkłady obu grup różnią się, co może wskazywać na różnicę median.

Wynik testu:

Statystyka U: Miara różnicy rang w obu grupach.
Wartość p: Ocenia, czy różnica między grupami jest statystycznie istotna. Jeśli wartość p jest mniejsza od przyjętego poziomu istotności (np. 0.05), odrzucamy H₀.

Miasto	Zmienna	W_Statistic	p_value	Interpretacja
Podsumowanie wyników testów Manna-Whitneya dla miast i zmiennych kategorycznych.
Kraków	has_elevator	1223201.5	2.47e-04	Istotna różnica
Kraków	has_parking	969775.0	1.26e-09	Istotna różnica
Kraków	has_balcony	986463.5	7.37e-18	Istotna różnica
Kraków	has_security	355282.0	1.24e-01	Brak istotnej różnicy
Kraków	has_storage_room	1449880.5	1.00e+00	Brak istotnej różnicy
Warszawa	has_elevator	4621028.0	1.71e-11	Istotna różnica
Warszawa	has_parking	3973642.0	9.57e-59	Istotna różnica
Warszawa	has_balcony	5317059.5	1.14e-15	Istotna różnica
Warszawa	has_security	3051055.0	1.02e-20	Istotna różnica
Warszawa	has_storage_room	6676707.5	1.00e+00	Brak istotnej różnicy
Radom	has_elevator	4702.0	9.88e-01	Brak istotnej różnicy
Radom	has_parking	1246.5	2.91e-08	Istotna różnica
Radom	has_balcony	3567.5	2.13e-01	Brak istotnej różnicy
Radom	has_security	672.5	5.41e-01	Brak istotnej różnicy
Radom	has_storage_room	3719.0	8.86e-01	Brak istotnej różnicy
Częstochowa	has_elevator	11185.0	5.76e-01	Brak istotnej różnicy
Częstochowa	has_parking	2800.0	3.06e-06	Istotna różnica
Częstochowa	has_balcony	12011.0	4.77e-04	Istotna różnica
Częstochowa	has_security	449.5	7.94e-02	Brak istotnej różnicy
Częstochowa	has_storage_room	23435.5	1.00e+00	Brak istotnej różnicy
Rzeszów	has_elevator	3098.0	2.88e-01	Brak istotnej różnicy
Rzeszów	has_parking	2502.0	7.19e-02	Brak istotnej różnicy
Rzeszów	has_balcony	2596.5	5.84e-01	Brak istotnej różnicy
Rzeszów	has_security	669.0	1.35e-01	Brak istotnej różnicy
Rzeszów	has_storage_room	3753.5	9.69e-01	Brak istotnej różnicy
Białystok	has_elevator	5051.5	3.47e-03	Istotna różnica
Białystok	has_parking	3045.5	3.33e-02	Istotna różnica
Białystok	has_balcony	4775.5	2.19e-02	Istotna różnica
Białystok	has_security	469.0	5.47e-01	Brak istotnej różnicy
Białystok	has_storage_room	6423.5	8.68e-01	Brak istotnej różnicy

Interpretacja wyników testu Mann-Whitneya

W przeprowadzonych testach Manna–Whitneya (z alternatywą less) sprawdzano istotność statystyczną różnic w medianach ceny mieszkań (zmienna price) w zależności od pięciu cech (zmiennych kategorycznych):

has_elevator (czy mieszkanie ma windę),
has_parking (czy mieszkanie ma parking),
has_balcony (czy mieszkanie ma balkon),
has_security (czy w budynku jest ochrona),
has_storage_room (czy mieszkanie/dyspozycji jest pomieszczenie gospodarcze).

Test przeprowadzono osobno dla każdej z wybranych miejscowości. W poniższej interpretacji „istotna różnica” oznacza odrzucenie hipotezy zerowej (p < 0.05), natomiast „brak istotnej różnicy” – brak podstaw do jej odrzucenia (p ≥ 0.05).

Kraków

has_elevator, has_parking, has_balcony: stwierdzono istotne różnice w rozkładach cen (p < 0.05).
has_security, has_storage_room: brak istotnych różnic (p ≥ 0.05).

W Krakowie cechy takie jak winda, parking czy balkon mogą więc wiązać się z innym poziomem mediany ceny niż w przypadku mieszkań bez tych udogodnień. Natomiast ochrona i pomieszczenie gospodarcze nie wykazały statystycznie istotnego wpływu na rozkład cen.

Warszawa

has_elevator, has_parking, has_balcony, has_security: istotna różnica (p < 0.05).
has_storage_room: brak istotnej różnicy (p ≥ 0.05).

W stolicy niemal wszystkie uwzględniane udogodnienia (poza pomieszczeniem gospodarczym) istotnie różnicują medianę ceny.

Radom

has_parking: istotna różnica (p < 0.05).
has_elevator, has_balcony, has_security, has_storage_room: brak istotnej różnicy (p ≥ 0.05).

Dla mieszkań w Radomiu tylko parking istotnie wpływa na ceny w ujęciu statystycznym.

Częstochowa

has_parking, has_balcony: istotna różnica (p < 0.05).
has_elevator, has_security, has_storage_room: brak istotnej różnicy (p ≥ 0.05).

Tutaj ważnymi czynnikami wpływającymi na ceny (w sensie statystycznym) okazały się posiadanie parkingu oraz balkonu.

Rzeszów

Dla wszystkich pięciu analizowanych cech (winda, parking, balkon, ochrona, pom. gospodarcze) brak istotnej różnicy (p ≥ 0.05).

W Rzeszowie nie stwierdzono wpływu żadnej z badanych zmiennych kategorycznych na rozkład cen w testach Manna–Whitneya.

Białystok

has_elevator, has_parking, has_balcony: istotna różnica (p < 0.05).
has_security, has_storage_room: brak istotnej różnicy (p ≥ 0.05).

W Białymstoku posiadanie windy, parkingu oraz balkonu różnicowało medianę cen, natomiast ochrona i pomieszczenie gospodarcze nie miały takiego istotnego efektu.

Podsumowując, w większości miast zaobserwowano istotne statystycznie różnice w medianach cen przy uwzględnieniu co najmniej jednej z wybranych cech. Szczególnie często wyłaniającymi się zmiennymi okazały się:

has_parking (istotne m.in. w Krakowie, Warszawie, Radomiu, Częstochowie, Białymstoku),
has_balcony (istotne m.in. w Krakowie, Warszawie, Częstochowie, Białymstoku).

Dane te sugerują, że w większości analizowanych lokalizacji obecność parkingu czy balkonu może wpływać na kształtowanie się cen mieszkań, podczas gdy ochrona i pomieszczenie gospodarcze rzadziej dawały statystycznie istotne różnice – wyjątkiem był Radom, gdzie jedynie parking się wyróżnił. W Rzeszowie z kolei żaden z badanych czynników nie wpłynął istotnie na medianę cen.

Test ANCOVA

Cel

Zdecydowaliśmy się na przeprowadzenie testu Ancova na podstawie zmiennych: has_balcony, has_elevator, has_parking, has_security oraz has_storage_room ze względu na to, że w naszych poprzednich analizach okazały się one być najbardziej kluczowe w kształtowaniu się cen nieruchomości.

Test ANCOVA pozwoli zbadać, w jakim stopniu te czynniki oddziałują na ceny nieruchomości po uwzględnieniu efektu zmiennej price_per_square_meter, czyli ceny za metr kwadratowy. Dzięki temu możliwe będzie kontrolowanie wpływu tej zmiennej oraz ocena, czy pozostałe cechy mają istotne znaczenie w modelowaniu cen mieszkań. Dodatkowo test umożliwi określenie, czy wpływ analizowanych czynników jest statystycznie potwierdzony.

Definicja Testu ANCOVA

Test ANCOVA to statystyczna metoda łącząca analizę wariancji z analizą regresji. Pozwala na ocenę różnic między średnimi wartościami w różnych grupach, jednocześnie kontrolując wpływ jednej lub więcej zmiennych ciągłych (kowariantów).

Hipoteza zerowa (H₀): Po uwzględnieniu wpływu kowariantu nie ma istotnych różnic między grupami.
Hipoteza alternatywna (H₁): Po uwzględnieniu wpływu kowariantu istnieją istotne różnice między grupami.

Statystyka testu F wyrażana jest wzorem:

\[ F = \frac{\text{MS}_{\text{effect}}}{\text{MS}_{\text{error}}} \]

gdzie:
- \(\text{MS}_{\text{effect}} = \frac{\text{SS}_{\text{effect}}}{df_{\text {effect}}}\) – średni kwadrat efektu,
- \(\text{MS}_{\text{error}} = \frac{\text{SS}_{\text{error}}}{df_{\text {error}}}\) – średni kwadrat błędu,
- \(\text{SS}_{\text{effect}}\) – suma kwadratów związana z efektem czynnika,
- \(\text{SS}_{\text{error}}\) – suma kwadratów błędu resztowego,
- \(df_{\text{effect}}\) i \(df_{\text{error}}\) – liczby stopni swobody odpowiednio dla efektu czynnika i błędu resztowego.

Wymagania Testu ANCOVA

Zmienne w grupach są niezależne.
Rozkład wyników w każdej grupie jest normalny.
Wariancje w grupach są homogeniczne (jednakowe).
Kowariant jest niezależny od czynnika.
Kowariat powinien wykazywać liniową relację ze zmienną zależną.

Wyniki testu

Podsumowanie wyników testów ANCOVA
Miasto	Zmienna	F_value	p_value
Białystok	has_balcony	4.803	0.0294
Białystok	has_elevator	5.029	0.0259
Białystok	has_parking	0.707	0.4013
Białystok	price_per_square_meter:has_balcony	0.597	0.4404
Białystok	price_per_square_meter:has_elevator	0.547	0.4604
Białystok	price_per_square_meter:has_parking	11.364	0.000883
Częstochowa	has_balcony	6.374	0.01198
Częstochowa	has_parking	10.701	0.00117
Częstochowa	price_per_square_meter:has_balcony	1.344	0.2471
Częstochowa	price_per_square_meter:has_parking	5.567	0.01881
Radom	has_parking	37.252	0.00000000567
Radom	price_per_square_meter:has_parking	1.231	0.269
Kraków	has_balcony	90.922	2e-16
Kraków	has_elevator	18.968	0.0000137
Kraków	has_parking	26.005	0.00000036
Kraków	has_security	0.032	0.8549
Kraków	has_storage_room	3.548	0.0597
Kraków	price_per_square_meter:has_balcony	0.351	0.5536
Kraków	price_per_square_meter:has_elevator	6.220	0.0127
Kraków	price_per_square_meter:has_parking	0.097	0.7558
Kraków	price_per_square_meter:has_security	2.619	0.1057
Kraków	price_per_square_meter:has_storage_room	4.951	0.0261
Warszawa	has_balcony	129.058	2e-16
Warszawa	has_elevator	1.031	0.3099
Warszawa	has_parking	222.922	2e-16
Warszawa	has_security	37.599	9.17e-10
Warszawa	has_storage_room	31.739	1.83e-08
Warszawa	price_per_square_meter:has_balcony	5.165	0.0231
Warszawa	price_per_square_meter:has_elevator	1.278	0.2584
Warszawa	price_per_square_meter:has_parking	17.210	3.39e-05
Warszawa	price_per_square_meter:has_security	1.677	0.1954
Warszawa	price_per_square_meter:has_storage_room	15.797	7.12e-05
Rzeszów	has_elevator	0.228	0.63387
Rzeszów	has_storage_room	3.553	0.06127
Rzeszów	price_per_square_meter:has_elevator	0.504	0.4788
Rzeszów	price_per_square_meter:has_storage_room	0.002	0.96371

Interpretacja wyników testu ANCOVA

Miasto	Główne wnioski	Interakcje
Białystok	- Balkon (p=0.0294) i winda (p=0.0259) znacząco podnoszą cenę - Parking (p=0.4013) nie ma istotnego wpływu	- Interakcja cena/m² × parking (p=0.000883) jest istotna – wpływ ceny/m² na cenę zależy od obecności parkingu
Częstochowa	- Balkon (p=0.01198) i parking (p=0.00117) istotnie podnoszą cenę	- Interakcja cena/m² × parking (p=0.01881) jest istotna
Radom	- Parking (p=5.67e-09) ma bardzo silny wpływ na cenę	- Interakcja cena/m² × parking (p=0.269) nieistotna
Kraków	- Balkon (p<2e-16), winda (p=1.37e-05) i parking (p=3.60e-07) mocno wpływają na cenę - Ochrona (p=0.8549) nie ma wpływu - Pomieszczenie gospodarcze (p=0.0597) – efekt graniczny	- Istotne interakcje z windą (p=0.0127) i pomieszczeniem gosp. (p=0.0261) – wpływ ceny/m² różni się w zależności od obecności tych udogodnień
Warszawa	- Balkon (p<2e-16), parking (p<2e-16), ochrona (p=9.17e-10) i pomieszczenie gospodarcze (p=1.83e-08) wyraźnie zwiększają cenę - Winda (p=0.3099) nie jest istotna	- Istotne interakcje z balkonem (p=0.0231), parkingiem (p=3.39e-05) i pomieszczeniem gosp. (p=7.12e-05)
Rzeszów	- Winda (p=0.63387) nie ma wpływu - Pomieszczenie gospodarcze (p=0.06127) – marginalne znaczenie	- Brak istotnych interakcji

Główne obserwacje:

Balkon i parking często najmocniej podwyższają cenę (np. Warszawa, Kraków, Radom, Częstochowa, Białystok).
Winda ma znaczenie w niektórych miastach (Kraków, Białystok), ale bywa nieistotna w innych (Warszawa, Rzeszów).
Ochrona i pomieszczenie gospodarcze wyraźnie działają zwłaszcza w Warszawie i Krakowie; gdzie indziej są mniej ważne lub nieistotne.
Interakcje (czyli wpływ danej cechy w zależności od ceny za m²) są czasem istotne, głównie w przypadku parkingu (Białystok, Częstochowa, Warszawa), a także balkonu (Warszawa) oraz windy i pomieszczenia gosp. (Kraków).

W praktyce oznacza to, że znaczenie konkretnych udogodnień (balkon, parking, winda, ochrona, pomieszczenie gospodarcze) różni się w zależności od miasta. Inwestorzy powinni więc zwrócić szczególną uwagę na te cechy, które w danej lokalizacji najmocniej wpływają na wycenę nieruchomości.

Analiza czynników geograficznych wpływających na ceny mieszkań

Odległość od centrum

Ogólne wnioski:

Warszawa i Kraków:
- W obu miastach widać wyraźny spadek cen mieszkań wraz z rosnącą odległością od centrum (linia regresji jest nachylona w dół). To może świadczyć o tym, że w tych dużych miastach lokalizacja bliżej centrum jest kluczowym czynnikiem wpływającym na cenę.
Częstochowa, Radom:
- W tych miastach linie regresji są prawie płaskie lub lekko nachylone w górę, co sugeruje brak wyraźnej zależności między odległością od centrum a ceną. Może to wskazywać, że w mniejszych miastach czynniki takie jak standard mieszkania lub lokalne preferencje mogą odgrywać większą rolę niż sama odległość od centrum.
Białystok, Rzeszów:
- W przypadku Rzeszowa widzimy, że linia jest nachylona w górę, oznacza to, że wraz ze wzrostem odległości od centrum miasta, ceny mieszkań rosną. Białystok również cechuje się linią nachyloną w górę jednak w mniejszym stopniu w przeciwieństwie do Rzeszowa.
Rozrzut danych:
- W miastach takich jak Warszawa czy Kraków widać większy rozrzut cen (punkty są bardziej rozproszone), co oznacza, że mieszkania w tych miastach mają znacznie większe zróżnicowanie cen.

Interpretacja:

W miastach takich jak Warszawa i Kraków bliskość centrum jest istotnym czynnikiem wpływającym na ceny mieszkań – im bliżej centrum, tym ceny są wyższe. W mniejszych miastach, takich jak Radom czy Białystok, odległość od centrum nie ma tak dużego wpływu na ceny mieszkań, a inne czynniki mogą dominować w kształtowaniu wartości nieruchomości.

Współczynniki korelacji między odległością od centrum miasta a ceną mieszkań
Miasto	Wynik korelacji
Białystok	0.1812080
Częstochowa	0.1052754
Kraków	-0.4516062
Radom	-0.0102774
Rzeszów	0.2788925
Warszawa	-0.1410103

Tabela przedstawia współczynniki korelacji między odległością od centrum miasta a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

Białystok:
- Występuje niewielka dodatnia korelacja. Oznacza to, że wraz ze wzrostem odległości od centrum ceny mieszkań delikatnie rosną, choć zależność nie jest silna.
Rzeszów:
- Średnia dodatnia korelacja. W Rzeszowie obserwujemy wyraźniejszą tendencję wzrostu cen mieszkań w miarę oddalania się od centrum, choć zależność nie jest bardzo silna.
Częstochowa:
- Podobnie jak w Białymstoku, korelacja jest dodatnia, ale bardzo słaba. Oznacza to, że odległość od centrum ma niewielki wpływ na ceny mieszkań, z tendencją do ich wzrostu na obrzeżach miasta.
Kraków:
- Silna ujemna korelacja wskazuje, że w Krakowie im dalej od centrum, tym ceny mieszkań wyraźnie maleją. Centrum miasta wydaje się być znacznie bardziej atrakcyjne cenowo niż obrzeża.
Warszawa:
- Słaba ujemna korelacja wskazuje, że w Warszawie ceny mieszkań nieznacznie spadają wraz z oddalaniem się od centrum, ale zależność nie jest silna.
Radom:
- Praktycznie brak korelacji. Oznacza to, że w Radomiu odległość od centrum nie ma znaczącego wpływu na ceny mieszkań.

Odległość od szkoły

Ogólne wnioski:

Warszawa i Kraków:
- W Krakowie możemy zauważyć, że linia jest lekko nachylona w dół co sugeruje nam, że lokalizacja bliżej szkół jest kluczowym czynnikiem wpływającym na cenę. W przypadku Warszawy linia jest nachylona w górę co może świadczyć że wraz ze wzrostem odległości od szkół, ceny mieszkań rosną.
Częstochowa, Radom, Białystok, Rzeszów:
- W mniejszych miastach, takich jak Radom, Rzeszów czy Częstochowa, linie regresji są nachylone w górę, co sugeruje zależność – ceny mieszkań mogą nieco rosnąć wraz z odległością od szkół. To może wynikać z preferencji mieszkańców, którzy wolą spokojniejsze rejony z dala od szkół.
Rozrzut danych:
- Warszawa i Kraków charakteryzują się większym rozproszeniem cen mieszkań w stosunku do odległości od szkół, co może wskazywać na różnorodność lokalnych czynników wpływających na ceny. W mniejszych miastach rozrzut jest mniejszy, a ceny są bardziej przewidywalne.

Interpretacja:

Bliskość szkół wydaje się wpływać na wyższe ceny mieszkań w Warszawie i Krakowie, co sugeruje, że dla mieszkańców tych miast istotna jest łatwość dostępu do placówek edukacyjnych, zwłaszcza dla rodzin z dziećmi. W mniejszych miastach, takich jak Radom, Rzeszów czy Białystok, wpływ odległości od szkół na ceny mieszkań jest mniej wyraźny lub odwrotny. W tych lokalizacjach mieszkańcy mogą preferować spokojniejsze rejony z dala od szkół, co może sugerować lekkie wzrosty cen wraz z oddaleniem od placówek edukacyjnych.

Współczynniki korelacji między odległością od szkół a ceną mieszkań
Miasto	Wynik korelacji
Białystok	0.1512009
Częstochowa	0.4381307
Kraków	-0.0694751
Radom	0.1257768
Rzeszów	0.1485620
Warszawa	0.0344552

Tabela przedstawia współczynniki korelacji między odległością od szkół a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

Białystok
- Słaba, ale pozytywna korelacja oznacza, że wraz ze wzrostem odległości od uczelni ceny mieszkań nieznacznie rosną. Preferencja dla spokojniejszych lokalizacji oddalonych od uczelni, choć efekt jest minimalny.
Częstochowa
- Umiarkowanie pozytywna korelacja wskazuje, że mieszkania dalej od uczelni są wyraźnie droższe. Cichsze lokalizacje są bardziej pożądane niż te blisko uczelni.
Kraków
- Korelacja jest negatywna i bliska zeru, co oznacza, że mieszkania bliżej uczelni są nieco droższe. W mieście akademickim, jak Kraków, bliskość uczelni jest ważnym atutem.
Radom
- Słaba pozytywna korelacja wskazuje, że ceny mieszkań lekko rosną z odległością od uczelni. Bliskość uczelni nie jest kluczowym czynnikiem wpływającym na ceny.
Rzeszów
- Słaba pozytywna korelacja oznacza, że ceny mieszkań lekko rosną z odległością od uczelni. Preferencje mogą skłaniać się ku lokalizacjom oddalonym od uczelni, choć różnice są niewielkie.
Warszawa
- Korelacja jest bliska zeru, co oznacza, że odległość od uczelni praktycznie nie wpływa na ceny mieszkań. W dużym rynku warszawskim ważniejsze są inne czynniki, np. lokalizacja dzielnicy czy standard mieszkania.

Odległość od kliniki

Ogólne wnioski:

Warszawa i Kraków:
- W tych dużych miastach widoczny jest wyraźny spadek cen mieszkań wraz ze wzrostem odległości od klinik (nachylenie linii regresji jest ujemne). Może to sugerować, że w Warszawie i Krakowie bliskość do placówek medycznych jest ważnym czynnikiem podnoszącym wartość mieszkań.
Częstochowa, Radom, Białystok i Rzeszów:
- W mniejszych miastach (np. Radom, Rzeszów, Częstochowa) linie regresji są lekko nachylone w górę, co oznacza, że w tych lokalizacjach ceny mieszkań mogą wzrastać wraz z odległością od klinik. Warto jednak zauważyć, że wpływ ten jest minimalny, co może wskazywać na brak wyraźnej zależności.
Rozrzut danych:
- W większych miastach (np. Warszawa, Kraków) dane są bardziej rozproszone, co świadczy o większej różnorodności cen mieszkań w zależności od odległości. W mniejszych miastach punkty są bardziej skupione, co oznacza mniej zróżnicowane ceny mieszkań.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od klinik ma wyraźny wpływ na ceny mieszkań – im bliżej klinik, tym wyższe ceny. Wskazuje to na duże znaczenie bliskości do placówek medycznych w kształtowaniu wartości nieruchomości w tych aglomeracjach. W mniejszych miastach, takich jak Radom, Częstochowa czy Białystok, ta zależność jest mniej widoczna lub wręcz odwrotna. Ceny mieszkań mogą tam wzrastać wraz z odległością od klinik, choć wpływ ten jest słaby. Może to wynikać z mniejszego nacisku na dostępność medyczną w tych lokalizacjach.

Współczynniki korelacji między odległością od klinik a ceną mieszkań
Miasto	Wynik korelacji
Białystok	0.0498567
Częstochowa	0.3834959
Kraków	-0.2014158
Radom	0.2207426
Rzeszów	0.2764591
Warszawa	-0.0971739

Tabela przedstawia współczynniki korelacji między odległością od klinik a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

Białystok
- Bardzo słaba pozytywna korelacja. Odległość od klinik praktycznie nie wpływa na ceny mieszkań. Może to wynikać z równej dostępności usług medycznych w całym mieście.
Częstochowa
- Umiarkowana pozytywna korelacja. Mieszkania w większej odległości od klinik są droższe, co może sugerować, że mieszkańcy preferują lokalizacje w cichszych i spokojniejszych rejonach miasta, z dala od klinik.
Kraków
- Słaba negatywna korelacja. Wraz ze wzrostem odległości od klinik ceny mieszkań spadają, co może wskazywać, że bliskość do placówek medycznych jest ceniona przez mieszkańców Krakowa.
Radom
- Słaba pozytywna korelacja.Mieszkania w większej odległości od klinik są nieco droższe. Podobnie jak w przypadku Częstochowy, może to wynikać z preferencji dla spokojniejszych rejonów.
Rzeszów
- Umiarkowana pozytywna korelacja. Ceny mieszkań rosną wraz z odległością od klinik, co sugeruje, że bliskość do klinik nie jest kluczowym czynnikiem wpływającym na wartość mieszkań w Rzeszowie.
Warszawa
- Bardzo słaba negatywna korelacja. Mieszkania bliżej klinik są nieco droższe, co może wskazywać na większą wartość lokalizacji z łatwym dostępem do opieki medycznej, ale efekt ten jest minimalny.

Odległość od poczty

Ogólne wnioski:

Warszawa i Kraków:
- W tych dużych miastach linie regresji są prawie poziome, co wskazuje na brak istotnego wpływu odległości od poczty na ceny mieszkań. Wynik ten sugeruje, że bliskość placówek pocztowych nie jest istotnym czynnikiem w kształtowaniu wartości nieruchomości w dużych miastach.
Częstochowa, Radom, Białystok i Rzeszów:
- W mniejszych miastach (np. Radom, Rzeszów, Częstochowa) linie regresji są lekko nachylone w górę, co oznacza, że w tych lokalizacjach ceny mieszkań mogą wzrastać wraz z odległością od klinik. Warto jednak zauważyć, że wpływ ten jest minimalny, co może wskazywać na brak wyraźnej zależności.
Rozrzut danych:
- W większych miastach (np. Warszawa, Kraków) dane są bardziej rozproszone, co świadczy o większej różnorodności cen mieszkań w zależności od odległości. W mniejszych miastach punkty są bardziej skupione, co oznacza mniej zróżnicowane ceny mieszkań.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od placówek pocztowych nie ma wyraźnego wpływu na ceny mieszkań. Linie regresji są niemal poziome, co wskazuje na brak istotnej zależności. W tych aglomeracjach bliskość do poczty nie jest czynnikiem wpływającym na wartość nieruchomości, co może wynikać z szerokiej dostępności placówek pocztowych oraz dominacji innych czynników, takich jak prestiż lokalizacji czy dostępność usług miejskich. Rozrzut danych w tych miastach jest znaczący, co odzwierciedla duże zróżnicowanie cen nieruchomości.

W mniejszych miastach, takich jak Częstochowa, Radom, Białystok i Rzeszów, zauważalny jest lekki wzrost cen mieszkań wraz z odległością od placówek pocztowych. Linie regresji są delikatnie nachylone w górę, co sugeruje, że mieszkania w większej odległości od poczty mogą być bardziej cenione. Może to wynikać z preferencji mieszkańców dla spokojniejszych lokalizacji lub mniejszego znaczenia bliskości do usług pocztowych w codziennym życiu. Niemniej jednak, wpływ ten jest minimalny i nie wskazuje na silną zależność.

Rozrzut danych w mniejszych miastach jest znacznie mniejszy niż w dużych aglomeracjach. Punkty na wykresach są bardziej skupione, co oznacza mniejsze zróżnicowanie cen mieszkań w tych lokalizacjach. Sugeruje to bardziej jednorodny rynek nieruchomości, gdzie ceny są mniej podatne na czynniki takie jak odległość od placówek pocztowych.

Współczynniki korelacji między odległością od poczty a ceną mieszkań
Miasto	Wynik korelacji
Białystok	0.1352474
Częstochowa	0.2135046
Kraków	0.0304596
Radom	0.0990788
Rzeszów	0.2357461
Warszawa	-0.0311410

Tabela przedstawia współczynniki korelacji między odległością od poczty a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

Białystok
- Słaba pozytywna korelacja.Mieszkania w większej odległości od poczty są nieco droższe. Może to wynikać z faktu, że poczty znajdują się głównie w centralnych, tańszych rejonach miasta.
Częstochowa
- Słaba, ale wyraźniejsza pozytywna korelacja. Ceny mieszkań wzrastają wraz z odległością od poczty. Może to oznaczać, że bardziej prestiżowe lokalizacje znajdują się poza obszarami intensywnie zabudowanymi, gdzie zlokalizowane są poczty.
Kraków
- Bardzo słaba pozytywna korelacja. Odległość od poczty ma praktycznie żaden wpływ na ceny mieszkań. Dostępność tej infrastruktury jest prawdopodobnie wyrównana w całym mieście.
Radom
- Słaba pozytywna korelacja. Mieszkania w dalszej odległości od poczty są nieznacznie droższe, ale wpływ odległości na cenę mieszkań jest bardzo niewielki.
Rzeszów
- Umiarkowana pozytywna korelacja. Ceny mieszkań rosną wraz z odległością od poczty. Może to świadczyć o większej atrakcyjności osiedli oddalonych od gęsto zabudowanych obszarów z infrastrukturą miejską.
Warszawa
- Bardzo słaba negatywna korelacja. Odległość od poczty praktycznie nie wpływa na ceny mieszkań, choć mieszkania bliżej poczty mogą być nieznacznie droższe. W dużym mieście, jak Warszawa, bliskość poczty jest mało istotnym czynnikiem.

Odległość od przedszkoli

Ogólne wnioski:

Warszawa i Kraków:
- W obu miastach widać, że linia regresji jest nachylona w górę, jednak w przypadku Krakowa nachylenie to jest zdecydowanie większę niż w Warszawie. Sugeruje to, że wraz ze wzrostem odległości od przedszkoli ceny mieszkań delikatnie rosną, choć zależność nie jest silna.
Częstochowa, Radom:
- W tych miastach linie regresji są prawie płaskie lub lekko nachylone w górę, co sugeruje brak wyraźnej zależności między odległością od centrum a ceną. Może to wskazywać, że w mniejszych miastach czynniki takie jak standard mieszkania lub lokalne preferencje mogą odgrywać większą rolę niż sama odległość od centrum.
Białystok, Rzeszów:
- W przypadku Rzeszowa widzimy, że linia jest nachylona w górę, oznacza to, że wraz ze wzrostem odległości od przedszkoli, ceny mieszkań rosną. Białystok również cechuje się linią praktycznie poziomą co oznacza, że nie jest to kluczowy czynnik wpływający na cenę mieszkań.
Rozrzut danych:
- Dane są gęsto skupione blisko początku osi X (odległość do 0,5–2 km). To sugeruje, że większość mieszkań znajduje się blisko przedszkoli. W miastach takich jak Kraków i Warszawa dane są bardziej rozproszone w porównaniu z mniejszymi miastami.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od przedszkoli wykazuje delikatny wpływ na ceny mieszkań. W Krakowie linia regresji jest bardziej nachylona w górę niż w Warszawie, co sugeruje, że w tym mieście mieszkania w większej odległości od przedszkoli mogą być nieco droższe. Możliwe, że w Krakowie, jako mieście z licznymi starymi dzielnicami, bliskość przedszkoli nie jest kluczowym czynnikiem wpływającym na wartość nieruchomości. W Warszawie zależność ta jest słabsza, a różnorodność innych czynników, takich jak dostępność komunikacji czy prestiż lokalizacji, zdaje się odgrywać większą rolę.

W mniejszych miastach, takich jak Częstochowa i Radom, linie regresji są niemal płaskie lub lekko nachylone w górę. Oznacza to, że odległość od przedszkoli nie ma wyraźnego wpływu na ceny mieszkań. W tych miastach inne czynniki, takie jak standard mieszkań, dostępność infrastruktury lub lokalne preferencje, mogą mieć większe znaczenie niż bliskość do przedszkoli.

W Rzeszowie widoczny jest wzrost cen mieszkań wraz ze wzrostem odległości od przedszkoli, co wskazuje na możliwą preferencję dla spokojniejszych lokalizacji, oddalonych od intensywnie uczęszczanych miejsc. Z kolei w Białymstoku linia regresji jest praktycznie płaska, co oznacza, że bliskość przedszkoli nie jest czynnikiem determinującym wartość mieszkań.

Rozrzut danych pokazuje, że większość mieszkań znajduje się w odległości od 0,5 do 2 km od przedszkoli, co sugeruje wysoką dostępność tych placówek w analizowanych miastach. W większych miastach, takich jak Kraków i Warszawa, rozrzut cen mieszkań jest większy, co świadczy o większej różnorodności rynku nieruchomości. W mniejszych miastach, takich jak Radom czy Białystok, punkty są bardziej skupione, co odzwierciedla bardziej jednorodny rynek mieszkań.

Współczynniki korelacji między odległością od przedszkoli a ceną mieszkań
Miasto	Wynik korelacji
Białystok	0.0523985
Częstochowa	0.0642097
Kraków	0.1154202
Radom	0.1347670
Rzeszów	0.1689304
Warszawa	0.0214355

Tabela przedstawia współczynniki korelacji między odległością od przedszkoli a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

Białystok
- Bardzo słaba pozytywna korelacja. Odległość od przedszkoli praktycznie nie wpływa na ceny mieszkań. Dostępność przedszkoli wydaje się być równomierna w różnych rejonach miasta.
Częstochowa
- Bardzo słaba pozytywna korelacja. Odległość od przedszkoli ma minimalny wpływ na ceny mieszkań. Bliskość przedszkoli nie jest istotnym czynnikiem w tym mieście.
Kraków
- Słaba pozytywna korelacja. Mieszkania w większej odległości od przedszkoli są nieco droższe, ale wpływ ten jest niewielki. Może to wynikać z tego, że bardziej prestiżowe lokalizacje są dalej od typowych osiedli z przedszkolami.
Radom
- Słaba pozytywna korelacja. Ceny mieszkań rosną wraz z odległością od przedszkoli, choć wpływ jest niewielki. Może to oznaczać, że mieszkańcy cenią spokój i wolą lokalizacje oddalone od instytucji dla dzieci.
Rzeszów
- Słaba, ale wyraźniejsza pozytywna korelacja. Mieszkania w większej odległości od przedszkoli są droższe. Może to sugerować, że droższe dzielnice są mniej gęsto zabudowane i znajdują się dalej od takich instytucji.
Warszawa
- Bardzo słaba pozytywna korelacja. Odległość od przedszkoli ma praktycznie żaden wpływ na ceny mieszkań. W Warszawie bliskość przedszkoli nie jest kluczowym czynnikiem dla wartości nieruchomości.

Odległość od restauracji

Ogólne wnioski:

Warszawa i Kraków
- W Warszawie i Krakowie zauważalne jest, że odległość od restauracji ma delikatnie ujemny wpływ na ceny mieszkań – im dalej restauracji, tym ceny mieszkań są niższe To może sugerować, że bliskość restauracji jest postrzegana jako atut przez mieszkańców i inwestorów. W obu miastach skupisko punktów w bliskiej odległości od restauracji sugeruje dużą gęstość ofert mieszkań w pobliżu gastronomii.
Rzeszów i Białystok
- W obu miastach wpływ odległości od restauracji na ceny mieszkań jest praktycznie neutralny (linia trendu jest lekko nachylona). To sugeruje, że bliskość gastronomii nie jest istotnym czynnikiem wpływającym na ceny. Widać skupisko punktów w okolicach niewielkich odległości od restauracji, co może wynikać z niewielkich odległości w tych miastach.
Częstochowa i Radom
- Radom cechuje się linią nachyloną ku górze co świadczy o tym, że wraz ze wzrostem odległości od restauracji. W Częstochowie linia jet niemalże pozioma. To sugeruje, że bliskość gastronomii nie jest istotnym czynnikiem wpływającym na ceny.
Rozrzut danych:
- W miastach takich jak Warszawa, Rzeszów, Częstochowa, Kraków widać większy rozrzut cen (punkty są bardziej rozproszone), co oznacza, że mieszkania w tych miastach mają znacznie większe zróżnicowanie cen.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od restauracji ma delikatny ujemny wpływ na ceny mieszkań – bliżej restauracji mieszkania są droższe. W Krakowie efekt ten jest bardziej zauważalny niż w Warszawie, co może wynikać z większego znaczenia gastronomii w mieście turystycznym. W Warszawie bliskość restauracji ma mniejsze znaczenie, a inne czynniki, jak prestiż lokalizacji, odgrywają większą rolę.

W mniejszych miastach, takich jak Częstochowa i Radom, wpływ odległości od restauracji na ceny mieszkań jest znikomy. W Radomiu widoczny jest lekki wzrost cen mieszkań wraz z odległością, co może wynikać z preferencji dla spokojniejszych lokalizacji. W Częstochowie brak wyraźnej zależności.

W Rzeszowie i Białymstoku odległość od restauracji nie ma istotnego wpływu na ceny mieszkań – linie regresji są niemal poziome. Może to wynikać z dobrej dostępności restauracji i niewielkich odległości w tych miastach.

Rozrzut danych w dużych miastach, takich jak Warszawa i Kraków, jest większy, co odzwierciedla większe zróżnicowanie cen. W mniejszych miastach, takich jak Radom i Białystok, dane są bardziej skupione, wskazując na bardziej jednorodny rynek.

Współczynniki korelacji między odległością od restauracji a ceną mieszkań
Miasto	Wynik korelacji
Białystok	0.0624702
Częstochowa	-0.0173048
Kraków	-0.1538666
Radom	0.1339995
Rzeszów	0.0920299
Warszawa	-0.1372778

Tabela przedstawia współczynniki korelacji między odległością od restauracji a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

Białystok
- Bardzo słaba pozytywna korelacja. Odległość od restauracji ma minimalny wpływ na ceny mieszkań, sugerując, że dostępność restauracji nie jest istotnym czynnikiem przy wycenie nieruchomości w tym mieście.
Częstochowa
- Bardzo słaba negatywna korelacja. W praktyce odległość od restauracji nie wpływa na ceny mieszkań. Może to wynikać z równomiernego rozmieszczenia restauracji w całym mieście.
Kraków
- Słaba negatywna korelacja. Mieszkania bliżej restauracji są nieco droższe. Może to oznaczać, że lokale gastronomiczne znajdują się głównie w centralnych, droższych dzielnicach miasta, co wpływa na wartość nieruchomości.
Radom
- Słaba pozytywna korelacja. Mieszkania oddalone od restauracji są nieco droższe, co może sugerować, że bardziej prestiżowe lub spokojne lokalizacje znajdują się dalej od stref z gastronomią.
Rzeszów
- Bardzo słaba pozytywna korelacja. Odległość od restauracji ma niewielki wpływ na ceny mieszkań. Może to wynikać z preferencji mieszkańców lub rozmieszczenia restauracji w mieście.
Warszawa
- Słaba negatywna korelacja. Mieszkania bliżej restauracji są nieco droższe. Może to oznaczać, że restauracje są zlokalizowane głównie w bardziej atrakcyjnych dzielnicach, co podnosi wartość nieruchomości w ich pobliżu.

Odległość od uczelni

Ogólne wnioski:

Warszawa i Kraków
- W obu miastach (szczególnie w Warszawie) odległość od uczelni również wykazuje lekki ujemny wpływ – mieszkania bliżej uczelni są droższe. W Krakowie efekt jest bardziej widoczny, co może wynikać z charakteru miasta akademickiego, gdzie bliskość uczelni jest silnym czynnikiem wpływającym na rynek nieruchomości.
Rzeszów i Białystok
- W przypadku obu miast odległość od uczelni również nie ma wyraźnego wpływu na ceny mieszkań (trend jest lekko skierowany ku górze). Oznacza to, że w tych miastach bliskość uczelni nie jest kluczowym czynnikiem. Możliwe, że mniejsza liczba studentów lub rozłożenie uczelni na różne obszary powoduje brak zauważalnego trendu.
Częstochowa i Radom
- Zarówno w Częstochowie, jak i w Radomiu, linia trendu sugeruje nieznaczny pozytywny wpływ. Możliwe, że bliskość uczelni w tych miastach nie jest atutem, a bardziej liczą się spokojniejsze lokalizacje.
Rozrzut danych:
- W miastach takich jak Warszawa czy Kraków widać większy rozrzut cen (punkty są bardziej rozproszone), co oznacza, że mieszkania w tych miastach mają znacznie większe zróżnicowanie cen.

Interpretacja:

W dużych miastach, takich jak Warszawa i Kraków, odległość od uczelni ma lekki ujemny wpływ na ceny mieszkań – bliżej uczelni mieszkania są droższe. W Krakowie efekt ten jest bardziej widoczny, co może wynikać z charakteru miasta akademickiego, gdzie bliskość uczelni silnie wpływa na wartość nieruchomości. W Warszawie wpływ ten jest słabszy, co może być związane z większą rolą innych czynników, takich jak prestiż lokalizacji.

W Rzeszowie i Białymstoku odległość od uczelni nie ma wyraźnego wpływu na ceny mieszkań. Linie regresji są lekko nachylone w górę, co sugeruje, że bliskość uczelni nie jest kluczowym czynnikiem determinującym ceny nieruchomości. Może to wynikać z mniejszej liczby studentów lub rozproszenia uczelni na różne obszary miasta.

W Częstochowie i Radomiu linie trendu wykazują niewielki wzrost cen wraz z odległością od uczelni. Sugeruje to, że spokojniejsze lokalizacje, oddalone od centrów akademickich, mogą być bardziej cenione przez mieszkańców tych miast.

Rozrzut danych wskazuje, że w Warszawie i Krakowie ceny mieszkań są bardziej zróżnicowane, podczas gdy w mniejszych miastach, takich jak Radom i Białystok, ceny są bardziej jednorodne.

Współczynniki korelacji między odległością od uczelni a ceną mieszkań
Miasto	Wynik korelacji
Białystok	0.1503009
Częstochowa	0.2328164
Kraków	-0.2231753
Radom	0.0476282
Rzeszów	0.1730937
Warszawa	-0.0838757

Tabela przedstawia współczynniki korelacji między odległością od uczelni a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

Białystok
- Bardzo słaba pozytywna korelacja. Ceny mieszkań nieznacznie rosną wraz z odległością od uczelni, co może wskazywać, że bliżej uczelni znajdują się tańsze mieszkania, być może skierowane do studentów.
Częstochowa
- Umiarkowana pozytywna korelacja. Mieszkania dalej od uczelni są wyraźnie droższe. Może to sugerować, że bardziej prestiżowe lub rodzinne lokalizacje są zlokalizowane poza strefami akademickimi.
Kraków
- Umiarkowana negatywna korelacja. Ceny mieszkań spadają wraz ze wzrostem odległości od uczelni. Bliskość uczelni jest ważnym czynnikiem wpływającym na ceny, co może wynikać z dużego popytu na mieszkania wśród studentów i pracowników akademickich.
Radom
- Bardzo słaba pozytywna korelacja. Odległość od uczelni ma minimalny wpływ na ceny mieszkań, co może świadczyć o tym, że uczelnie w Radomiu są równomiernie rozmieszczone lub mniej istotne dla rynku nieruchomości.
Rzeszów
- Słaba pozytywna korelacja. Mieszkania w większej odległości od uczelni są nieco droższe, co sugeruje, że strefy mieszkalne o wyższej wartości mogą znajdować się poza rejonami akademickimi.
Warszawa
- Bardzo słaba negatywna korelacja. Mieszkania bliżej uczelni są nieznacznie droższe, ale wpływ ten jest słaby. Wysoka liczba uczelni i różnorodność dzielnic zmniejsza znaczenie tego czynnika w skali całego miasta.

Odległość od aptek

Ogólne wnioski:

Warszawa i Kraków
- W obu dużych miastach odległość od aptek nie ma istotnego wpływu na ceny mieszkań, o czym świadczy niemal pozioma linia trendu. W Warszawie ceny mieszkań wydają się niezależne od bliskości aptek, a rozrzut danych jest duży, co wskazuje na zróżnicowanie cen nieruchomości w stolicy. W Krakowie podobnie jak w Warszawie, brak zauważalnej zależności między odległością od aptek a cenami mieszkań. Mimo to, punkty są nieco bardziej skupione niż w Warszawie.
Rzeszów i Białystok
- W obu miastach widać bardzo subtelny trend wzrostu cen mieszkań wraz ze wzrostem odległości od aptek, jednak wpływ ten jest minimalny. W Rzeszowie ceny mieszkań są stabilne niezależnie od odległości od aptek, z niewielkim rozrzutem danych. W Białymstoku również brak wyraźnego wpływu odległości od aptek na ceny mieszkań. Punkty są bardziej skupione, co świadczy o mniejszym zróżnicowaniu cen.
Częstochowa i Radom
- W tych mniejszych miastach widać lekki wzrost cen mieszkań wraz ze wzrostem odległości od aptek, co może sugerować preferencję dla spokojniejszych lokalizacji. W Częstochowie linia trendu jest wyraźnie skierowana ku górze, co może oznaczać, że mieszkania w większej odległości od aptek są bardziej cenione. W Radomiu podobny lekko dodatni trend, jednak mniej wyraźny niż w Częstochowie
Rozrzut danych:
- W większych miastach, takich jak Warszawa i Kraków, rozrzut danych jest wyraźnie większy, co wskazuje na znaczne zróżnicowanie cen mieszkań niezależnie od odległości od aptek.
- W mniejszych miastach (np. Częstochowa, Radom, Rzeszów) dane są bardziej skupione, co oznacza mniejsze różnice cenowe na rynku nieruchomości.

Interpretacja

W dużych miastach, takich jak Warszawa i Kraków, odległość od aptek nie wykazuje wyraźnego wpływu na ceny mieszkań. Linia trendu jest niemal pozioma, co oznacza, że bliskość aptek nie jest czynnikiem kluczowym w kształtowaniu wartości nieruchomości. Jednak w tych aglomeracjach widać duży rozrzut danych, który wskazuje na znaczną różnorodność cen nieruchomości wynikającą z innych czynników, takich jak prestiż lokalizacji czy dostępność infrastruktury.

W mniejszych miastach, takich jak Częstochowa i Radom, można zauważyć lekki wzrost cen mieszkań wraz z odległością od aptek. Sugeruje to, że spokojniejsze lokalizacje, oddalone od ruchliwych obszarów, mogą być bardziej cenione przez mieszkańców. Mimo to, wpływ ten jest niewielki i ma charakter lokalny.

Z kolei w miastach takich jak Rzeszów i Białystok, zależność jest również minimalna, z delikatnym trendem wzrostowym. Wskazuje to na niewielkie znaczenie bliskości aptek w tych lokalizacjach. Punkty na wykresie są bardziej skupione, co odzwierciedla mniejszą zmienność cen mieszkań w mniejszych ośrodkach miejskich.

Współczynniki korelacji między odległością od aptek a ceną mieszkań
Miasto	Wynik korelacji
Białystok	0.1048127
Częstochowa	0.2912980
Kraków	-0.0040424
Radom	0.0746363
Rzeszów	0.1538395
Warszawa	-0.0382882

Tabela przedstawia współczynniki korelacji między odległością od aptek a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.

Białystok
- Słaba pozytywna korelacja. Ceny mieszkań rosną nieznacznie wraz z odległością od aptek. Może to oznaczać, że apteki znajdują się głównie w bardziej dostępnych, ale mniej prestiżowych lokalizacjach.
Częstochowa
- Umiarkowana pozytywna korelacja. Mieszkania w większej odległości od aptek są wyraźnie droższe, co może sugerować, że apteki są zlokalizowane w bardziej gęsto zabudowanych obszarach, które mogą być mniej prestiżowe.
Kraków
- Bardzo słaba negatywna korelacja. W praktyce odległość od aptek nie wpływa na ceny mieszkań. Apteki mogą być równomiernie rozmieszczone w mieście, a ich bliskość nie jest istotnym czynnikiem dla wyceny nieruchomości.
Radom
- Bardzo słaba pozytywna korelacja. Odległość od aptek ma niewielki wpływ na ceny mieszkań. Wartość nieruchomości w Radomiu jest prawdopodobnie bardziej uzależniona od innych czynników niż dostępność aptek.
Rzeszów
- Słaba pozytywna korelacja. Mieszkania oddalone od aptek są nieco droższe. Może to oznaczać, że apteki znajdują się w gęściej zabudowanych, mniej prestiżowych dzielnicach miasta.
Warszawa
- Bardzo słaba negatywna korelacja. W praktyce odległość od aptek nie wpływa znacząco na ceny mieszkań, choć mieszkania bliżej aptek mogą być minimalnie droższe. Wynika to prawdopodobnie z ich dostępności w bardziej prestiżowych dzielnicach.

Podsumowanie

Podsumowanie siły i kierunku zależności odległości od obiektów a cen mieszkań
Zmienne	Warszawa	Kraków	Białystok	Rzeszów	Częstochowa	Radom	Kategoria
school_distance	Słaba, dodatnia: 0.0344552	Słaba, ujemna: -0.0694751	Słaba, dodatnia: 0.1512009	Słaba, dodatnia: 0.1485620	Silna, dodatnia: 0.4381307	Słaba, dodatnia: 0.1257768	Edukacja
kindergarten_distance	Słaba, dodatnia: 0.0214355	Słaba, dodatnia: 0.1154202	Słaba, dodatnia: 0.0523985	Słaba, dodatnia: 0.1689304	Słaba, dodatnia: 0.0642097	Słaba, dodatnia: 0.1347670	Edukacja
college_distance	Słaba, ujemna: -0.0838757	Umiarkowana, ujemna: -0.2231753	Słaba, dodatnia: 0.1503009	Słaba, dodatnia: 0.1730937	Umiarkowana, dodatnia: 0.2328164	Słaba, dodatnia: 0.0476282	Edukacja
restaurant_distance	Słaba, ujemna: -0.1372778	Słaba, ujemna: -0.1538666	Słaba, dodatnia: 0.0624702	Słaba, dodatnia: 0.0920299	Słaba, ujemna: -0.0173048	Słaba, dodatnia: 0.1339995	Rozrywka
centre_distance	Słaba, ujemna: -0.1410103	Silna, ujemna: -0.4516062	Słaba, dodatnia: 0.1812080	Umiarkowana, dodatnia: 0.2788925	Słaba, dodatnia: 0.1052754	Słaba, ujemna: -0.0102774	Usługi
post_office_distance	Słaba, ujemna: -0.0311410	Słaba, dodatnia: 0.0304596	Słaba, dodatnia: 0.1352474	Umiarkowana, dodatnia: 0.2357461	Umiarkowana, dodatnia: 0.2135046	Słaba, dodatnia: 0.0990788	Usługi
clinic_distance	Słaba, ujemna: -0.0971739	Umiarkowana, ujemna: -0.2014158	Słaba, dodatnia: 0.0498567	Umiarkowana, dodatnia: 0.2764591	Umiarkowana, dodatnia: 0.3834959	Słaba, dodatnia: 0.2207426	Zdrowie
pharmacy_distance	Słaba, ujemna: -0.0382882	Słaba, ujemna: -0.0040424	Słaba, dodatnia: 0.1048127	Słaba, dodatnia: 0.1538395	Umiarkowana, dodatnia: 0.2912980	Słaba, dodatnia: 0.0746363	Zdrowie

W analizie wpływu odległości do różnych instytucji na ceny nieruchomości w polskich miastach, zauważamy pewne ogólne tendencje.

W Warszawie, wpływ odległości na ceny jest stosunkowo niewielki. Jedynie większa odległość od centrum oraz resatauracji może prowadzić do minimalnego spadku cen nieruchomości. Warto jednak zauważyć, że zmienne takie jak odległość do szkół, przedszkoli czy aptek mają bardzo mały wpływ na ceny.
W Krakowie zauważamy silniejszy wpływ odległości, szczególnie w przypadku centrum miasta, gdzie silna ujemna korelacja (-0.451) wskazuje, że większa odległość od centrum wyraźnie obniża ceny nieruchomości. Ponadto, większa odległość od uczelni i klinik również obniża ceny. W Krakowie więc odległość od kluczowych punktów, jak centrum czy uczelnie, ma istotny wpływ na ceny.
W Białymstoku natomiast widoczna jest tendencja, w której większa odległość do instytucji takich jak szkoły, uczelnie czy centrum, w niewielkim stopniu podnosi ceny nieruchomości. Chociaż wpływ tych zmiennych jest stosunkowo mały, są to czynniki, które warto wziąć pod uwagę w dalszej analizie.
W Rzeszowie, podobnie jak w Białymstoku, zauważamy pozytywny wpływ większej odległości od centrum, poczty i kliniki na ceny nieruchomości.
W Częstochowie natomiast, odległość od szkoły ma wyraźny wpływ na ceny, z silną dodatnią korelacją (0.438). Zwiększenie odległości do szkoły może więc prowadzić do wyższych cen nieruchomości. Dodatkowo, podobny wpływ mają odległość od kliniki i uczelni, które także mogą podnieść ceny.
W Radomiu wpływ odległości na ceny jest ogólnie niewielki. Tylko w przypadku odległości do szkół, poczty i kliniki zauważamy mały pozytywny wpływ na ceny. Jednak ogólnie rzecz biorąc, zmienne związane z odległością mają w Radomiu raczej marginalny wpływ na ceny nieruchomości.

Warto skupić się na kilku kluczowych zmiennych z poszczególnych miast, które wykazują silniejsze zależności z cenami nieruchomości. Zmienne te mogą dać cenne informacje o dynamice rynku i kierunkach, w których ceny mogą się rozwijać. Oto, które zmienne warto dalej analizować:

Analiza odległości do centrum, szkół i uczelni powinna być kontynuowana, szczególnie w miastach takich jak Kraków czy Częstochowa, gdzie te czynniki mają silny wpływ na ceny.
Kliniki i opieka zdrowotna to również istotny aspekt, który warto badać, zwłaszcza w miastach o rosnącej liczbie osób starszych, jak Rzeszów czy Częstochowa.
Poczta i usługi publiczne, choć mają mniejszy wpływ na ceny z wyjątkiem Częstochowy i Rzeszowa, nadal mogą pomóc zrozumieć preferencje mieszkańców.

Warto także podkreślić, że ceny nieruchomości mogą różnić się w zależności od typu budynku (mieszkania, domy) oraz jego lokalizacji. Warto podzielić dane na różne kategorie nieruchomości i sprawdzić, czy zależności między odległością a ceną różnią się w zależności od rodzaju nieruchomości.

Porównanie średnich wynagrodzeń z cenami mieszkań

Aby lepiej zrozumieć dostępność mieszkaniową w Polsce, przeanalizowano średnie wynagrodzenia i ceny mieszkań w sześciu wybranych miastach: Gdańsku, Warszawie, Krakowie, Częstochowie, Rzeszowie oraz Białymstoku. Analiza obejmuje wyliczenie liczby metrów kwadratowych mieszkania, jakie można zakupić za średnie miesięczne wynagrodzenie w każdym z tych miast. Porównanie uwzględnia średnie ceny za metr kwadratowy oraz specyfikę lokalnych rynków nieruchomości.

Porównanie wynagrodzeń z cenami mieszkań w 6 miastach
Miasto	Średnie wynagrodzenie (PLN)	Cena za m² (PLN)	Liczba m² za wynagrodzenie	Wskaźnik dostępności
Białystok	6806.05	10089.06	0.67	1.48
Częstochowa	8380.28	7034.63	1.19	0.84
Kraków	10173.41	17135.48	0.59	1.68
Radom	7368.00	6929.92	1.06	0.94
Rzeszów	7187.74	10803.55	0.67	1.50
Warszawa	9673.42	18503.96	0.52	1.91

Interpretacja

Średnie wynagrodzenie a cena mieszkań:
- Najwyższe średnie wynagrodzenie jest w Krakowie (10 173,41 PLN), a najniższe w Białymstoku (6 806,05 PLN).
- Najdroższy m² mieszkania znajduje się w Warszawie (18 503,96 PLN), natomiast najtańszy w Radomiu (6 929,92 PLN).
Liczba m² możliwa do zakupu za średnie wynagrodzenie:
- Najwięcej m² można kupić w Częstochowie (1,19 m²), gdzie stosunek wynagrodzenia do ceny za m² jest najkorzystniejszy.
- Najmniej m² można kupić w Warszawie (0,52 m²) i Krakowie (0,59 m²), co wskazuje na wysokie ceny mieszkań w tych miastach.
Wskaźnik dostępności (liczba miesięcy pracy na zakup 1 m²):
- Wskaźnik pokazuje, ile miesięcy pracy potrzeba, aby kupić 1 m² mieszkania.
  - Najlepszy wskaźnik dostępności (najmniej miesięcy pracy): Częstochowa (0.84) i Radom (0.94), co oznacza, że 1 m² można kupić po około 1 miesiąca pracy.
  - Najgorszy wskaźnik dostępności (najwięcej miesięcy pracy): Warszawa (1,91) i Kraków (1,68), co wskazuje, że zakup 1 m² mieszkania wymaga prawie 2 miesięcy wynagrodzenia.

Wnioski

Warszawa i Kraków jako najmniej dostępne rynki mieszkaniowe:
- Wysokie ceny mieszkań oraz wysoki wskaźnik dostępności (1,91 dla Warszawy i 1,68 dla Krakowa) oznaczają, że zakup mieszkania w tych miastach wymaga największego wysiłku finansowego.
Białystok i Rzeszów jako bardziej dostępne rynki:
- Relatywnie niski wskaźnik dostępności (1,48 dla Białegostoku i 1,50 dla Rzeszowa) sprawia, że zakup mieszkania w tych miastach wymaga krótszego czasu pracy w porównaniu z innymi lokalizacjami.
Częstochowa i Radom – dobre kompromisy:
- Wysoka liczba m² za średnie wynagrodzenie (1,19 dla Częstochowy i 1,06 dla Radomia) oraz umiarkowane wskaźniki dostępności (0,84 dla Częstochowy i 0,94 dla Radomia) wskazują na stosunkowo przystępne rynki.
Znaczenie wskaźnika dostępności dla planowania zakupu:
- Osoby planujące zakup mieszkania powinny brać pod uwagę nie tylko cenę za m², ale także wskaźnik dostępności. Im niższy wskaźnik, tym szybciej można sfinansować zakup mieszkania.

Interpretacja wykresu

Wykres punktowy przedstawia czas (w miesiącach) potrzebny na zakup mieszkania w sześciu miastach Polski przy uwzględnieniu cen minimalnych, średnich i maksymalnych. Oto kluczowe obserwacje:

1. Różnice między miastami

Najkrótszy czas zakupu (Częstochowa):
- Czas zakupu mieszkania przy minimalnej cenie wynosi mniej niż 50 miesięcy.
- Nawet przy maksymalnej cenie mieszkania czas nie przekracza 150 miesięcy.
- To świadczy o relatywnie przystępnych cenach mieszkań w stosunku do wynagrodzeń w Częstochowie.
Najdłuższy czas zakupu (Warszawa):
- Czas zakupu mieszkania w maksymalnej cenie wynosi ponad 300 miesięcy (ponad 25 lat), co wskazuje na bardzo wysokie ceny mieszkań w stolicy.
- Nawet przy minimalnej cenie mieszkania czas zakupu wynosi powyżej 100 miesięcy.
- To sprawia, że Warszawa jest najmniej przystępnym miastem pod względem zakupu nieruchomości.

2. Rozkład czasu w ramach miast

Stosunkowo stabilne wartości w Częstochowie i Białymstoku:

W obu miastach różnice między czasem dla minimalnej, średniej i maksymalnej ceny są najmniejsze.
Sugeruje to bardziej jednorodne ceny mieszkań oraz niższe ryzyko związane z wahaniami rynku.

Duże różnice w Warszawie i Krakowie:

W miastach o wysokich cenach mieszkań różnice między czasem zakupu w zależności od przedziału cenowego są znaczące.
Wskazuje to na dużą rozpiętość cenową na rynku nieruchomości, szczególnie w segmencie luksusowym.

3. Trendy regionalne

Miasta centralne i południowe (Warszawa, Kraków):

Miasta te cechują się najwyższymi wskaźnikami czasu zakupu, szczególnie w przypadku maksymalnych cen mieszkań.
Kraków oferuje nieco większą dostępność niż Warszawa, ale nadal wymaga znacznego wysiłku finansowego.

Miasta mniejsze (Radom, Rzeszów, Białystok):

Oferują większą dostępność mieszkań, szczególnie w przypadku cen minimalnych i średnich.
Przy maksymalnych cenach czas zakupu oscyluje wokół 200 miesięcy, co jest wartością umiarkowaną w porównaniu z miastami centralnymi.

Wnioski

Warszawa:
- Najmniej przystępny rynek mieszkań. Wysoka rozpiętość między czasem dla minimalnej i maksymalnej ceny wskazuje na wyzwania dla nabywców mieszkań.
Częstochowa:
- Najbardziej przystępny rynek mieszkań. Możliwość zakupu mieszkań w krótkim czasie, nawet przy niższych wynagrodzeniach.
Potencjalne działania:
- W miastach takich jak Warszawa i Kraków warto rozważyć programy wsparcia dla nabywców mieszkań.
- Częstochowa i Białystok mogą być atrakcyjnymi lokalizacjami dla inwestorów ze względu na przystępne ceny mieszkań.

Analiza cen mieszkań per dzielnica na przykładzie Gdańska

Gdańsk, jedno z najstarszych miast Polski, charakteryzuje się nie tylko bogatą historią i malowniczym położeniem nad Bałtykiem, ale również dynamicznie rozwijającym się rynkiem nieruchomości. W ramach tej analizy dokonaliśmy podziału miasta na 35 dzielnic, aby dokładniej przyjrzeć sięzróżnicowaniu średnich cen mieszkań za metr kwadratowy.

Mapa wizualizuje ceny mieszkań w różnych obszarach, uwzględniając zarówno centralne, historyczne części miasta, jak Śródmieście, jak i peryferyjne, bardziej spokojne dzielnice. Zaznaczenie Śródmieścia jako centrum miasta pozwala łatwiej interpretować wyniki i lokalizować najważniejsze obszary urbanistyczne Gdańska.

Legenda: Numery dzielnic w Gdańsku
Numer	Dzielnica	Numer	Dzielnica
1	Aniołki	19	Przymorze Małe
2	Brętowo	20	Przymorze Wielkie
3	Brzeźno	21	Rudniki
4	Chełm	22	Siedlce
5	Jasień	23	Stogi
6	Kokoszki	24	Strzyża
7	Krakowiec–Górki Zachodnie	25	Suchanino
8	Letnica	26	Śródmieście
9	Matarnia	27	Ujeścisko–Łostowice
10	Młyniska	28	VII Dwór
11	Nowy Port	29	Wrzeszcz Dolny
12	Oliwa	30	Wrzeszcz Górny
13	Olszynka	31	Wyspa Sobieszewska
14	Orunia–Św. Wojciech–Lipce	32	Wzgórze Mickiewicza
15	Orunia Górna–Gdańsk Południe	33	Zaspa Młyniec
16	Osowa	34	Zaspa Rozstaje
17	Piecki–Migowo	35	Żabianka–Wejhera–Jelitkowo–Tysiąclecia
18	Przeróbka

Interpretacja wyników analizy cen mieszkań per dzielnica:

Analiza wykazała znaczne zróżnicowanie cen mieszkań w poszczególnych dzielnicach Gdańska. Najwyższe średnie ceny za metr kwadratowy występują w centralnych obszarach miasta, takich jak Śródmieście oraz nadmorskie dzielnice, np. Żabianka–Wejhera–Jelitkowo–Tysiąclecia. Są to miejsca o wysokim prestiżu, dogodnym dostępie do atrakcji turystycznych i rozwiniętej infrastrukturze.

Z kolei dzielnice bardziej oddalone od centrum, takie jak Kokoszki czy Matarnia, cechują się znacznie niższymi cenami, co może przyciągać osoby poszukujące spokojniejszych lokalizacji oraz bardziej przystępnych cenowo mieszkań.

Porównanie tych różnic uwidacznia rolę lokalizacji w kształtowaniu cen nieruchomości, co może być cenną wskazówką zarówno dla inwestorów, jak i osób planujących zakup nieruchomości. Wyniki te stanowią także podstawę do dalszych analiz, uwzględniających takie czynniki jak dostępność komunikacyjna, sąsiedztwo terenów zielonych czy rozwój lokalnej infrastruktury.

Podsumowanie

Cel projektu

Celem projektu było zrozumienie, jakie czynniki wpływają na ceny mieszkań w sześciu wybranych polskich miastach: Warszawie, Krakowie, Rzeszowie, Białymstoku, Radomiu i Częstochowie. Przeprowadzona analiza pozwoliła odpowiedzieć na kluczowe pytania badawcze oraz wyciągnąć szczegółowe wnioski.

Od czego zależy cena mieszkań?
Jakie różnice w cenach występują pomiędzy miastami?
Czy odległość od centrum lub interesujących miejsc (POI) ma znaczenie dla wartości nieruchomości?
Które cechy mieszkań (np. liczba pokoi, stan, udogodnienia) są najbardziej cenione?

Metodologia

Zbieranie i przygotowanie danych:
- Wykorzystano dane rynkowe z wiarygodnych źródeł, poddając je oczyszczeniu, normalizacji oraz imputacji brakujących wartości.
Analiza statystyczna:
- Przeprowadzono testy istotności (ANCOVA, Chi-kwadrat, Levene’a), analizę korelacji oraz testy normalności (Andersona-Darlinga).
Wizualizacja:
- Wyniki przedstawiono za pomocą interaktywnych wykresów i map, uwypuklających m.in. hierarchię udogodnień w poszczególnych miastach.

Poniższy wykres prezentuje hierarchiczny podział ofert według trzech miast: Krakowa, Radomia, Rzeszowa, Warszawy, Częstochowy i Białegostoku. Każde miasto posiada swoje charakterystyczne połączenie reprezentujące dostępność określonych udogodnień, takich jak winda, balkon, parking czy komórka. Dzięki temu w prosty sposób można porównać, które elementy mają szczególny wpływ na ceny mieszkań.

Kluczowe Wyniki

Czynniki wpływające na ceny mieszkań:
- Lokalizacja: Bliskość centrum, rozwinięta infrastruktura oraz liczba punktów POI (szkół, klinik, restauracji).
- Cechy mieszkania: Liczba pokoi, powierzchnia, rok budowy, obecność balkonu, windy lub parkingu.
- Kontekst społeczno-ekonomiczny: Średnie wynagrodzenia w regionie i potencjał inwestycyjny miasta.
Różnice cenowe między miastami:
- Najwyższe ceny/m²: Warszawa (18 503 PLN) i Kraków (17 135 PLN) – wynikające z roli gospodarczej i turystycznej.
- Średnie ceny/m²: Rzeszów (10 803 PLN) i Białystok (10 089 PLN) – rosnący potencjał inwestycyjny.
- Najniższe ceny/m²: Radom (6 929 PLN) i Częstochowa (7 034 PLN) – stabilny rynek, mniejsza presja popytowa.
Wpływ odległości od centrum:
- W dużych miastach, takich jak Warszawa i Kraków, ceny spadają wraz z odległością od centrum. W mniejszych miastach, takich jak Radom i Częstochowa, wpływ ten jest mniej zauważalny.
Najbardziej cenione cechy mieszkań:
- Udogodnienia: Mieszkania z balkonem, miejscem parkingowym lub windą osiągają ceny wyższe niż te bez takich udogodnień, zwłaszcza w dużych aglomeracjach. W miastach takich jak Warszawa i Kraków kluczowym czynnikiem wpływającym na wartość nieruchomości są również dodatkowe usługi w budynkach, np. ochrona czy komórki lokatorskie.
- Funkcjonalność: Mieszkania 2-3 pokojowe (50–60 m²) dominują na rynku.
Czynniki lokalizacyjne
- Analiza wykazała, że w Warszawie i Krakowie ceny mieszkań spadają wraz z oddaleniem się od centrum, klinik i restauracji, co wskazuje na większą atrakcyjność centralnych lokalizacji. Odwrotną tendencję zaobserwowano w Rzeszowie, Białymstoku i Częstochowie, gdzie mieszkania drożeją na obrzeżach, co może wynikać z preferencji mieszkańców do spokojniejszych i bardziej przestrzennych lokalizacji. W Radomiu brak wyraźnej zależności względem centrum, ale oddalenie od szkół, klinik i restauracji wiąże się ze wzrostem cen. Wpływ szkół, poczty, uczelni i aptek jest bardziej lokalny – w Rzeszowie, Białymstoku i Częstochowie ich bliskość obniża ceny mieszkań, podczas gdy w Radomiu i Krakowie podnosi wartość nieruchomości poza ścisłym centrum.

Dodatkowe Obserwacje

Demografia a ceny:
- W miastach o wyższych średnich wynagrodzeniach (np. Warszawa, Kraków) ceny mieszkań są proporcjonalnie wyższe, co wskazuje na związek między lokalnym rynkiem pracy a wartością nieruchomości.
- Regiony o niższych dochodach, takie jak Radom czy Częstochowa, oferują tańsze nieruchomości, ale mają również mniejszy potencjał inwestycyjny.
Trendy rynkowe:
- Warszawa i Kraków: Duża zmienność cen, silna konkurencja.
- Rzeszów i Białystok: Rosnący popyt, sygnały do inwestycji.
- Radom i Częstochowa: Stabilność, ale ograniczony wzrost wartości.

Wnioski i Rekomendacje

Dla kupujących:
- W mniejszych miastach warto szukać mieszkań z udogodnieniami, które zwiększają przyszłą wartość nieruchomości.
- W dużych aglomeracjach kluczowa jest lokalizacja – nawet mniejsze mieszkania w centrum mogą być lepszą inwestycją.
Dla deweloperów:
- W Rzeszowie i Białymstoku istnieje nisza na mieszkania z udogodnieniami (np. parking, winda).
- W Warszawie i Krakowie warto inwestować w usługi dodatkowe (np. ochrona, strefy wspólne).
Dla inwestorów:
- Miasta średnie (Rzeszów, Białystok) oferują największy potencjał wzrostu cen.
- Rynek w Radomiu i Częstochowie jest mniej ryzykowny, ale wymaga długoterminowej strategii.

Podsumowanie
Projekt potwierdził, że ceny mieszkań są wypadkową lokalizacji, cech fizycznych nieruchomości oraz kontekstu społeczno-gospodarczego. Największe różnice wynikają z roli miasta w gospodarce, podczas wartość pojedynczego mieszkania zależy od jego funkcjonalności i bliskości kluczowej infrastruktury. Wyniki mogą służyć jako punkt wyjścia do dalszych badań, np. analizy wpływu transportu publicznego na ceny.

Analiza cen mieszkań w Polsce

Piotr Wiśniewski - lider zespołu, Izabela Reszka, Klaudia Woźniak

2025-01-30

Cel projektu

Analizy w projekcie

Hipotezy i oczekiwane wyniki

Opis danych

Dane dodatkowe

Cel dodania danych:

Znaczenie projektu

Brudne dane i ich znaczenie w analizie

Czym są brudne dane?

Dlaczego należy walczyć z brudnymi danymi?

Działania naprawcze dla brudnych danych

Planowane działania techniczne

Standaryzacja danych

Zmiany nazw miast

Zmiany nazw w kolumnie building_type

Zmiany nazw w kolumnie ownership

Zmiany nazw w kolumnie building_material

Cel zmian

Walidacja danych

Typy danych oraz ich charakterystyka

Data wrangling

Obserwacje brakujące

Obserwacje odstające

Wykresy pudełkowe

Interpretacja wyników wykresów pudełkowych

Skośność

Interpretacja wyników histogramów

Test Andersona-Darlinga

Hipotezy

Funkcja testowa

Z-score

Transformacje

Transformacja zmiennej price oraz poi_count

Powody przeprowadzenia transformacji logarytmicznej:

Interpretacja:

Uzasadnienie braku transformacji dla poszczególnych kolumn

Ponowna walidacja danych

Analiza średnich cen mieszkań według województw

Interpretacja wyników

Wnioski

Wybór miast do dalszej analizy

Uzasadnienie wyboru

Analiza udogodnień w nieruchomościach

Wykresy pudełkowe udogodnień

Wpływ balkonu na cenę mieszkań

Wpływ windy na cenę mieszkań

Wpływ parkingu na cenę mieszkań

Wpływ ochrony na cenę mieszkań

Wpływ komórki lokatorskiej na cenę mieszkań

Podsumowanie

Test Chi-kwadrat

Wstęp do analizy testem Chi-kwadrat

Opis metody

Hipotezy testu

Założenia testu

Analiza zależności dla wielu zmiennych kategorycznych

Ogólne wnioski:

Testowanie normalności i jednorodności wariancji

Test Levene’a

Hipotezy testu:

Mechanizm działania:

Interpretacja

Wprowadzenie

Test Mann-Whitneya (Wilcoxona)

Cel testu Mann-Whitneya

Założenia testu:

Hipotezy:

Wynik testu:

Interpretacja wyników testu Mann-Whitneya

Kraków

Warszawa

Radom

Częstochowa

Rzeszów

Białystok

Test ANCOVA

Cel

Zmiany nazw w kolumnie `building_type`

Zmiany nazw w kolumnie `ownership`

Zmiany nazw w kolumnie `building_material`