Celem naszego projektu jest analiza cen mieszkań w największych miastach Polski, uwzględniając różnorodne czynniki, które mogą wpływać na wartość nieruchomości. Wykorzystamy metody analizy danych, aby odpowiedzieć na kluczowe pytania, takie jak:
Od czego zależy cena mieszkań?
Jakie różnice w cenach występują pomiędzy miastami?
Czy odległość od centrum lub interesujących miejsc (POI) ma znaczenie dla wartości nieruchomości?
Które cechy mieszkań (np. liczba pokoi, stan, udogodnienia) są najbardziej cenione?
Planujemy zastosowanie narzędzi analizy danych oraz wizualizacji, aby lepiej zrozumieć rynek nieruchomości w Polsce. Nasze analizy obejmą:
Badanie zależności między cechami mieszkań (takimi jak lokalizacja, powierzchnia, liczba pokoi) a ich ceną.
Porównanie cen nieruchomości pomiędzy największymi polskimi miastami, w celu wykazania kluczowych różnic regionalnych.
Modelowanie predykcyjne, które pozwoli oszacować cenę mieszkań na podstawie wybranych zmiennych, takich jak odległość od centrum czy stan mieszkania.
Wykorzystanie interaktywnych wizualizacji, takich jak mapy i wykresy, aby przedstawić wyniki w przystępny sposób.
Odległość od centrum miasta: Zakładamy, że im bliżej centrum, tym wyższa cena mieszkań, choć siła tego wpływu może różnić się w zależności od miasta.
Cechy nieruchomości: Udogodnienia takie jak balkon, winda czy miejsce parkingowe znacząco podnoszą wartość mieszkań, zwłaszcza w dużych miastach.
Różnice regionalne: Miasta o wyższym poziomie urbanizacji i rozwiniętej infrastrukturze (np. Warszawa, Kraków, Wrocław) mają wyższe ceny mieszkań w porównaniu do mniejszych miejscowości.
Rok budowy: Starsze mieszkania, wymagające remontu, są z reguły tańsze, chyba że znajdują się w prestiżowych lokalizacjach.
Podsumowując, oczekujemy, że nasze analizy wskażą najważniejsze czynniki wpływające na ceny mieszkań oraz umożliwią stworzenie użytecznych modeli predykcyjnych, które mogą wspierać decyzje zakupowe lub inwestycyjne.
Zbiór danych pochodzi z ofert sprzedaży i wynajmu mieszkań z 15 największych polskich miast, zgromadzonych w czerwcu 2024 roku. Dane te obejmują szerokie spektrum cech nieruchomości oraz dodatkowe informacje z Open Street Map, które pozwalają uwzględnić kontekst sąsiedztwa mieszkań.
Miasta w zbiorze danych: Warszawa, Łódź, Kraków, Wrocław, Poznań, Gdańsk, Szczecin, Bydgoszcz, Lublin, Katowice, Białystok, Częstochowa.
Główne pola w zbiorze danych:
Lokalizacja i charakterystyka nieruchomości:
Informacje kontekstowe:
Cechy nieruchomości:
Cena ofertowa:
W celu wykonania bardziej szczegółowej analizy zdecydowaliśmy się
wzbogacić nasz zbiór o granice administracyjne
województw oraz dane dotyczące wynagrodzeń.
Dane te zostały pobrane z pliku ms_A01_Granice_wojewodztw
oraz wynagrodzenia_pl_2024 - na podstawie bazy danych
lokalnych GUS, co umożliwiło przypisanie każdego miasta do odpowiedniego
województwa oraz analizę wpływu średniej pensji na ceny nieruchomości.
Dzięki temu możliwe jest badanie, czy wysokość wynagrodzeń ma związek z
cenami nieruchomości w poszczególnych regionach Polski.
Dzięki temu możliwe jest nie tylko szczegółowe badanie rynku nieruchomości na poziomie miast, ale także porównanie wyników w kontekście regionalnym oraz uwzględnienie czynników ekonomicznych, takich jak wynagrodzenia, które mogą wpływać na ceny mieszkań.
Rynek nieruchomości jest dynamiczny i podlega wpływowi wielu czynników, takich jak lokalizacja, liczba pokoi, dostępność udogodnień czy bliskość kluczowych miejsc. Analiza tych danych pozwoli lepiej zrozumieć mechanizmy kształtowania się cen mieszkań oraz stworzyć narzędzia wspomagające decyzje zakupowe i inwestycyjne.
Brudne dane to dane, które są niekompletne, nieprawidłowe, niespójne lub w inny sposób niezgodne z wymaganiami jakościowymi potrzebnymi do ich analizy. Przykłady brudnych danych obejmują:
Analiza danych oparta na brudnych danych prowadzi do błędnych wniosków i modeli. Wysoka jakość danych jest kluczowa, ponieważ:
W naszym projekcie podjęliśmy działania w celu naprawy brudnych danych, obejmujące:
squareMeters → square_metersfloorCount → total_floorsclinic_distance → distance_to_clinicPrzegląd kolumn w poszukiwaniu braków, niezgodności oraz błędów logicznych. Transformacja danych, aby były zgodne z wymaganiami do analizy i modelowania. Sprawdzenie zgodności z przyjętymi regułami walidacyjnymi oraz weryfikacja efektów imputacji i transformacji danych.
Zmiana nazw kolumn Poniżej znajduje się tabela z przekształconymi nazwami kolumn:
| Original_Name | New_Name |
|---|---|
| id | id |
| city | city |
| type | building_type |
| squareMeters | square_meters |
| rooms | rooms |
| floor | floor |
| floorCount | floor_count |
| buildYear | build_year |
| latitude | latitude |
| longitude | longitude |
| centreDistance | centre_distance |
| poiCount | poi_count |
| schoolDistance | school_distance |
| clinicDistance | clinic_distance |
| postOfficeDistance | post_office_distance |
| kindergartenDistance | kindergarten_distance |
| restaurantDistance | restaurant_distance |
| collegeDistance | college_distance |
| pharmacyDistance | pharmacy_distance |
| ownership | ownership |
| buildingMaterial | building_material |
| condition | condition |
| hasParkingSpace | has_parking |
| hasBalcony | has_balcony |
| hasElevator | has_elevator |
| hasSecurity | has_security |
| hasStorageRoom | has_storage_room |
| price | price |
W celu ujednolicenia danych i zapewnienia ich spójności, dokonano następujących zmian:
Standaryzacja nazw miast w kolumnie city polegała na
poprawie pisowni, m.in. zamianie nazw pisanych małymi literami na wersje
z wielką literą oraz wprowadzeniu poprawnych form polskich nazw. Dzięki
temu dane są bardziej czytelne i gotowe do dalszych analiz.
| Poprzednia nazwa | Nowa nazwa |
|---|---|
| szczecin | Szczecin |
| gdynia | Gdynia |
| krakow | Kraków |
| poznan | Poznań |
| bialystok | Białystok |
| gdansk | Gdańsk |
| wroclaw | Wrocław |
| radom | Radom |
| rzeszow | Rzeszów |
| lodz | Łódź |
| katowice | Katowice |
| lublin | Lublin |
| czestochowa | Częstochowa |
| warszawa | Warszawa |
| bydgoszcz | Bydgoszcz |
building_typeUjednolicono nazewnictwo typów budynków. Różne nazwy odnoszące się do tego samego typu budynku zostały sprowadzone do jednej wartości, co upraszcza interpretację i analizę.
| Poprzednia nazwa | Nowa nazwa |
|---|---|
| blockOfFlats | block_of_flats |
| apartmentBuilding | block_of_flats |
| tenement | tenement |
ownershipPoprawiono i ujednolicono nazwy dotyczące formy własności nieruchomości. Różne terminy określające tę samą formę własności zostały scalone.
| Poprzednia nazwa | Nowa nazwa |
|---|---|
| condominium | condominium |
| udział | condominium |
| cooperative | cooperative |
building_materialDostosowano nazewnictwo materiałów budowlanych, ujednolicając zapis
oraz wprowadzając format z podkreśleniami (snake_case).
| Poprzednia nazwa | Nowa nazwa |
|---|---|
| concreteSlab | concrete_slab |
| brick | brick |
Zmiany te zapewniają, że wszystkie dane są zgodne ze standardami i umożliwiają łatwiejsze ich przetwarzanie w kolejnych krokach analizy.
Walidacja danych to kluczowy etap przygotowania zbioru, który następuje po wstępnym oczyszczeniu danych. Jej celem jest sprawdzenie zgodności danych z określonymi regułami logicznymi i jakościowymi, aby upewnić się, że dane są kompletne, spójne i gotowe do dalszej analizy oraz modelowania.
Proces ten polega na weryfikacji, czy dane spełniają określone kryteria, zapewniając ich poprawność, spójność oraz integralność. Szczególną uwagę zwraca się na typy danych i analizę unikalnych wartości w poszczególnych kolumnach. Każda kolumna powinna mieć odpowiedni typ danych (np.numeryczny, tekstowy, całkowity), a liczba unikalnych wartości powinna być zgodna z oczekiwaniami.
Dzięki takiej analizie można wykryć potencjalne błędy w strukturze danych, takie jak niewłaściwe przypisanie typu do kolumny czy nieoczekiwane wartości. Zapewnia to odpowiednie przygotowanie danych do dalszych etapów analizy i modelowania.
| Kolumna | Typ | Liczba_unikalnych |
|---|---|---|
| id | integer | 21501 |
| city | character | 15 |
| building_type | character | 3 |
| square_meters | numeric | 4618 |
| rooms | numeric | 6 |
| floor | numeric | 26 |
| floor_count | numeric | 30 |
| build_year | numeric | 155 |
| latitude | numeric | 15010 |
| longitude | numeric | 15284 |
| centre_distance | numeric | 1281 |
| poi_count | numeric | 179 |
| school_distance | numeric | 1672 |
| clinic_distance | numeric | 3187 |
| post_office_distance | numeric | 1825 |
| kindergarten_distance | numeric | 1462 |
| restaurant_distance | numeric | 1499 |
| college_distance | numeric | 3924 |
| pharmacy_distance | numeric | 1496 |
| ownership | character | 2 |
| building_material | character | 3 |
| condition | character | 3 |
| has_parking | character | 2 |
| has_balcony | character | 2 |
| has_elevator | character | 3 |
| has_security | character | 2 |
| has_storage_room | character | 2 |
| price | integer | 2979 |
| Typ | Liczba_kolumn |
|---|---|
| Numeric | 16 |
| Character | 10 |
| Factor | 0 |
| Integer | 2 |
| Logical | 0 |
Zbiór danych składa się z 28 kolumn, które charakteryzują się następującymi typami: 18 zmiennych numerycznych (typ numeric), 6zmiennych tekstowych (typ character), 3 zmiennymi kategorycznymi (typ factor), 2 zmiennymi całkowitymi (typ integer) oraz brakiem zmiennych logicznych.
Zmienne numeryczne, takie jak
square_meters, price czy
centre_distance, mają dużą liczbę unikalnych wartości, co
sugeruje, że są to dane ciągłe, które będą odpowiednie do analizy
regresyjnej.
Zmienne kategoryczne, takie jak
building_type, ownership czy
building_material, mogą być traktowane jako zmienne typu
factor i wykorzystane w analizach klasyfikacyjnych.
Kolumny z typem integer, jak np.
price mogą być również używane w analizach
numerycznych.
Dzięki tej weryfikacji możemy odpowiednio przygotować dane do dalszej analizy i modelowania. Zmienne numeryczne będą wykorzystywane w analizach regresyjnych, zmienne typu factor w klasyfikacyjnych, a zmienne character mogą wymagać kodowania na typ factor, aby mogły być wykorzystane w dalszej analizie.
Na podstawie tej analizy możemy przejść do przygotowania danych do modelowania, dobierając odpowiednie metody przetwarzania, takie jak kodowanie zmiennych kategorycznych, normalizację zmiennych numerycznych czy tworzenie nowych zmiennych,w zależności od typu danych i celu analizy.
Kolejnym krokiem w procesie walidacji jest zastosowanie określonych
reguł logicznych, które zapewniają spójność danych.
W
projekcie zastosowano następujące reguły walidacyjne:
Floor) nie może być większe niż liczba
kondygnacji (FloorCount).Build Year) nie może być późniejszy niż
bieżący rok (2024).Build Year) musi być późniejszy niż
1600.Floor) i liczba kondygnacji
(Floor Count) muszą być większe lub równe 0.Rooms) musi być większa niż 0 i nie może
przekraczać
Floor Count) wynosi 0, to w
takim budynku nie powinno być windy (Has Elevator).Dzięki weryfikacji typów danych oraz zastosowaniu reguł walidacyjnych, upewniamy się, że dane są zgodne z określonymi kryteriami logicznymi i są gotowe do dalszej analizy.
W wyniku przeprowadzonej walidacji zauważono, że w zbiorze danych
występuje znaczna liczba wartości brakujących (NA),
w niektórych kolumnach.
W dalszej części analizy planuje się ich imputację, przy czym wartości te zostaną zastąpione:
Proces data wrangling umożliwia przekształcenie surowego zbioru danych w uporządkowaną i spójną strukturę gotową do dalszych badań. W ramach tego etapu skoncentrowaliśmy się na dwóch głównych aspektach: analizie wartości brakujących oraz obserwacji odstających.
W tej części projektu podjęliśmy działania mające na celu: - zrozumienie i klasyfikację braków danych (MCAR, MAR, MNAR), - wybór odpowiednich strategii imputacji brakujących wartości, - wykrycie i obsługę obserwacji odstających, które mogą zaburzać statystyczne wnioski.
Dzięki zastosowaniu odpowiednich metod wizualizacji (np. wykresów pudełkowych i macierzy braków) oraz technik statystycznych (np. Z-score) możliwe było zarówno dokładne zrozumienie problemów związanych z danymi, jak i zaplanowanie działań korygujących. Tak przygotowany zbiór danych stanowi podstawę do przeprowadzenia dalszych analiz i modelowania.
W kolejnych sekcjach przedstawimy szczegółowe kroki przeprowadzone w ramach tego etapu, w tym wyniki analizy braków danych oraz identyfikacji wartości odstających, a także opis zastosowanych metod ich obsługi.
Do analizy brakujących danych zdecydowaliśmy się wykorzystać zarówno wizualizacje które pozwolą zrozumieć skalę oraz potencjalne przyczyny braków w zbiorze danych. Wizualizacje, takie jak wykresy słupkowe prezentujące procent brakujących wartości w poszczególnych zmiennych oraz graficzne przedstawienie wzorców braków, umożliwiają szybkie zidentyfikowanie kolumn najbardziej dotkniętych problemem brakujących danych. Dodatkowo zastosowanie macierzy braków pozwala na analizę współwystępowania braków pomiędzy zmiennymi, co może wskazać na możliwe zależności w danych.
Na podstawie klasyfikacji braków danych (MCAR, MAR, MNAR) możemy lepiej zrozumieć przyczyny ich występowania.
MCAR (Missing Completely At Random): Braki w kolumnach takich jak has_elevator i college_distance są losowe i wynikają z technicznych pominięć w zbieraniu danych.
MAR (Missing At Random): Braki w kolumnach condition, building_material, oraz floor wynikają z powiązań między zmiennymi, np. building_type i floor_count.
MNAR (Missing Not At Random): Braki w building_type mogą wynikać z mechanizmu niechęci podawania wartości (np. dla mieszkań luksusowych).
Dzięki tym wstępnym analizom możliwe jest odpowiednie dobranie metod imputacji (np. medianą, modą lub bardziej zaawansowanymi metodami), a także ewentualne usunięcie zmiennych, w których braki są zbyt liczne i niemożliwe do uzupełnienia bez znaczącej utraty jakości danych.
| Zmienna | Liczba braków | Procent braków | Zmienna | Liczba braków | Procent braków |
|---|---|---|---|---|---|
| condition | 15921 | 74.0% | id | 0 | 0.0% |
| building_material | 8792 | 40.9% | city | 0 | 0.0% |
| building_type | 4397 | 20.5% | square_meters | 0 | 0.0% |
| floor | 3573 | 16.6% | rooms | 0 | 0.0% |
| build_year | 3380 | 15.7% | latitude | 0 | 0.0% |
| has_elevator | 960 | 4.5% | longitude | 0 | 0.0% |
| college_distance | 584 | 2.7% | centre_distance | 0 | 0.0% |
| floor_count | 209 | 1.0% | poi_count | 0 | 0.0% |
| clinic_distance | 63 | 0.3% | ownership | 0 | 0.0% |
| restaurant_distance | 31 | 0.1% | has_parking | 0 | 0.0% |
| pharmacy_distance | 30 | 0.1% | has_balcony | 0 | 0.0% |
| post_office_distance | 20 | 0.1% | has_security | 0 | 0.0% |
| kindergarten_distance | 19 | 0.1% | has_storage_room | 0 | 0.0% |
| school_distance | 11 | 0.1% | price | 0 | 0.0% |
Analiza brakujących danych wskazuje, że kolumny w zbiorze można podzielić na kilka grup pod względem liczby braków:
Bardzo duża liczba braków:
condition (74.0%) i building_material (40.9%).
Ze względu na ich wysoką niekompletność zdecydowaliśmy się usunąć
kolumnę condition, a dla building_material zastosujemy imputację
najczęstszą wartością.
Umiarkowana liczba braków:
building_type (20.5%), floor (16.6%),
build_year (15.7%). Uzupełnimy brakujące wartości
odpowiednio metodą najczęstszej wartości dla zmiennych kategorycznych
(building_type) oraz medianą dla zmiennych liczbowych
(floor, build_year).
Niewielka liczba braków: Kolumny takie jak
has_elevator (4.46%) czy college_distance
(2.72%) zostaną uzupełnione odpowiednio modą i medianą.
Bardzo mała liczba braków: Pozostałe kolumny z mniej niż 1% braków zostaną imputowane prostymi metodami (medianą lub najczęstszą wartością).
Kolumny bez braków: Pozostałe zmienne, takie jak
price, square_meters czy rooms,
są kompletne i nie wymagają dodatkowych działań.
Do analizy obserwacji odstających decydowaliśmy się użyć wykresów pudełkowych, ponieważ są one prostym i skutecznym narzędziem wizualizacyjnym, które pozwala szybko zidentyfikować wartości odstające. Dzięki nim poznamy wartości minimalne, maksymalne, mediane, kwartyle oraz ewentualne wartości wykraczające poza tzw. wąsy, czyli zakres między pierwszym a trzecim kwartylem powiększony. Każda z analizowanych zmiennych została przedstawiona na osobnym wykresie pudełkowym, co pozwala dokładnie przyjrzeć się rozkładowi poszczególnych cech, takich jak powierzchnia mieszkania, cena, cena za metr kwadratowy czy odległości od różnych punktów użyteczności publicznej. Dzięki temu można szybko zidentyfikować zmienne, które mogą zawierać nietypowe wartości i potencjalnie wpłynąć na dalsze analizy lub modelowanie danych.
Dodatkowo, aby potwierdzić statystycznie obecność obserwacji odstających zastosowaliśmy metodę Z-score oraz zbadaliśmy czy rozkład danych jest zbliżony do rozkładu normalnego.
Metoda Z-score, polega na identyfikowaniu obserwacji
odstających na podstawie odchylenia standardowego od średniej. Wyraża
się wzorem: \[
Z = \frac{x - \bar{x}}{\sigma}
\] \(x\): wartość
obserwacji
\(\overline{x}\): średnia dla danej
zmiennej
\(\sigma\): odchylenie standardowe.
Skośność jest statystyką umożliwiającą porównanie rozkładu analizowanej zmiennej z hipotetycznym rozkładem normalnym. Wskazuje na rozbieżności pomiędzy wartością średnią, a centrum danego rozkładu. Wyraża się wzorem:
\[\tilde{\mu}_3 = \frac{\sum_{i}^{N} (X_i - \bar{X})^3}{(N - 1) \cdot \sigma^3}\]
Interpretacja jest następująca:
Rozkład prawoskośny – skośność jest dodatnia, prawe ramię rozkładu jest wydłużone, wyniki poniżej średniej są przeważające w badanej próbce.
Rozkład symetryczny – skośność wynosi 0, ogony rozkładu są identyczne w obu kierunkach. Jeśli znormalizowana kurtoza wynosi 0, rozkład jest zbliżony do rozkładu normalnego.
Rozkład lewoskośny – skośność jest ujemna, lewe ramię rozkładu jest wydłużone, większość obserwacji w próbie ma wartości powyżej średniej.
Rozkład normalny nazywany również rozkładem Gaussa lub rozkładem Gaussowskim, jest jednym z najważniejszych i najczęściej stosowanych rozkładów w statystyce. Jego wykres przyjmuje charakterystyczny kształt dzwonu, dlatego często określa się go mianem krzywej dzwonowej.
Właściwości rozkładu normalnego:
Symetria: Rozkład normalny jest symetryczny względem swojej średniej. Oznacza to, że wartości po obu stronach średniej są równomiernie rozłożone.
Średnia, mediana i dominanta: W rozkładzie normalnym średnia, mediana i dominanta (wartość modalna) są równe i znajdują się w centrum rozkładu.
Kształt: Krzywa rozkładu normalnego ma jeden szczyt (jest jednoszczytowa), a jej ogony asymptotycznie zbliżają się do osi poziomej, co oznacza, że prawdopodobieństwo wartości bardzo odległych od średniej nigdy nie wynosi dokładnie 0, ale jest bardzo małe.
Funkcja gęstości: Matematyczny wzór funkcji gęstości rozkładu normalnego: \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] gdzie:
Rozkład normalny jest fundamentem wielu metod statystycznych, np. testów hipotez, regresji czy analizy wariancji.
Przeprowadzona analiza wykresów pudełkowych pozwoliła na dokładne
przyjrzenie się rozkładom badanych cech mieszkań, takich jak
powierzchnia, cena, liczba pokoi oraz odległości do punktów użyteczności
publicznej. Wykresy te umożliwiły identyfikację wartości
typowych (mediana, kwartyle) oraz wartości
odstających, które wykraczają poza zakres wyznaczony przez
wąsy.
Wartości odstające są szczególnie istotne, ponieważ mogą wskazywać na specyficzne obserwacje, takie jak:
Poniżej przedstawiono szczegółową interpretację wyników dla każdej z analizowanych zmiennych.
square_meters -
Mediana powierzchni wynosi około 50-60 m².
- Większość mieszkań mieści się w zakresie 40-80
m².
- Wartości odstające powyżej 100 m²
wskazują na większe apartamenty lub luksusowe nieruchomości.
price
- Mediana ceny mieszkań wynosi około 750 tys. zł.
- Typowe wartości mieszczą się w przedziale 500 tys. – 1 mln
zł.
- Liczne wartości odstające powyżej 2,5 mln
zł sugerują obecność luksusowych nieruchomości w analizowanym
zbiorze.
price_per_square_meter
- Mediana wynosi około 15 000 zł/m², a większość
wartości mieści się w zakresie 10 000 – 20 000
zł/m².
- Wartości odstające przekraczające 30 000
zł/m² mogą wynikać z mieszkań położonych w bardzo prestiżowych
lokalizacjach.
rooms
- Typowe mieszkania mają 2-3 pokoje, co potwierdza
mediana.
- Wartości odstające (4-6 pokoi) mogą wskazywać na
większe mieszkania lub apartamenty rodzinne.
floor
- Mediana piętra to około 2.
- Większość mieszkań znajduje się na 1-5 piętrze.
- Wartości odstające powyżej 15 piętra
sugerują obecność mieszkań w wieżowcach.
floor_count
- Typowe budynki mają 4-6 pięter.
- Wartości odstające powyżej 15 pięter
wskazują na obecność wysokich budynków mieszkalnych.
building_age
- Mediana wieku budynków wynosi około 50 lat.
- Budynki mające więcej niż 100 lat to wartości
odstające, co sugeruje obecność starszych, często zabytkowych
nieruchomości.
centre_distance -
Typowa odległość to 2-8 km.
- Wartości odstające powyżej 15 km
wskazują na nieruchomości położone na przedmieściach lub w odległych
lokalizacjach.
school_distance -
Większość szkół znajduje się w odległości do 1
km.
- Wartości odstające powyżej 4 km mogą
świadczyć o gorszej dostępności edukacji w analizowanych
lokalizacjach.
clinic_distance
- Kliniki są najczęściej położone do 1 km od
mieszkań.
- Wartości odstające powyżej 3 km
wskazują na obszary o niższym dostępie do opieki zdrowotnej.
post_office_distance
- Typowa odległość wynosi 0-1 km.
- Wartości odstające powyżej 4 km mogą
wynikać z mniej zurbanizowanych obszarów.
kindergarten_distance
- Przedszkola znajdują się głównie do 1 km od
mieszkań.
- Wartości odstające powyżej 3 km
sugerują problemy z dostępem do usług dla rodzin z dziećmi.
restaurant_distance
- Restauracje znajdują się typowo do 1 km od
mieszkań.
- Wartości odstające powyżej 5 km
wskazują na peryferyjne lokalizacje z ograniczoną ofertą
gastronomiczną.
college_distance -
Typowa odległość wynosi 1-2 km.
- Wartości odstające do 5 km sugerują
lokalizacje mniej centralne pod względem infrastruktury edukacyjnej.
pharmacy_distance
- Apteki znajdują się zazwyczaj do 1 km od
mieszkań.
- Wartości odstające powyżej 4 km
wskazują na obszary o ograniczonym dostępie do usług
farmaceutycznych.
Analiza wykresów pudełkowych potwierdziła występowanie wartości odstających w każdej z badanych zmiennych. Są one szczególnie istotne, ponieważ mogą wskazywać na specyficzne segmenty rynku nieruchomości – luksusowe mieszkania, nieruchomości historyczne lub obszary z ograniczoną infrastrukturą.
Zidentyfikowane wartości odstające będą miały istotne znaczenie w dalszym modelowaniu oraz analizach statystycznych. Warto w kolejnych krokach rozważyć, czy te obserwacje powinny zostać zachowane jako istotne dla analizy, czy też przekształcone lub usunięte w zależności od kontekstu biznesowego i analitycznego.
Przeprowadzona analiza histogramów pozwoliła na dokładne przyjrzenie się rozkładom badanych cech mieszkań, takich jak powierzchnia, cena, liczba pięter oraz odległości do punktów użyteczności publicznej. Wykresy te umożliwiły identyfikację wartości typowych (dominanty, gęstość wartości) oraz wartości odstających, które znajdują się na krańcach rozkładów.
Linie rozkładu normalnego, nałożone na histogramy, stanowią dodatkowy punkt odniesienia do oceny kształtu rozkładów. Pozwalają one zidentyfikować:
centre_distance:
- Rozkład jest prawoskośny z koncentracją wartości w
zakresie 2-8 km.
- Linia rozkładu normalnego pokazuje, że rozkład empiryczny jest
odchylony w prawo.
- Wartości powyżej 10 km stanowią odstępstwa, które
wskazują na nieruchomości w peryferyjnych lokalizacjach, co jest
nietypowe dla większości analizowanych danych.
poi_count - Histogram
pokazuje wysoce prawoskośny rozkład, gdzie większość
obserwacji znajduje się poniżej 50.
- Linia rozkładu normalnego podkreśla duże odchylenie od symetrii, co
sugeruje, że większość lokalizacji ma ograniczoną liczbę punktów
użyteczności publicznej, natomiast pojedyncze przypadki z bardzo dużymi
wartościami (powyżej 100) są wyjątkami.
school_distance
- Rozkład odległości jest prawoskośny, z dominacją
wartości 0-1 km.
- Linia normalna nie pasuje do rozkładu, co wskazuje na silną
koncentrację danych blisko 0 km.
- Wartości odstające powyżej 3 km sugerują lokalizacje
z ograniczonym dostępem do szkół.
clinic_distance
- Histogram pokazuje prawoskośny rozkład, z większością
wartości w przedziale do 1 km.
- Linia rozkładu normalnego wyraźnie nie oddaje koncentracji danych w
niższych wartościach.
- Wartości powyżej 3 km sugerują trudniejszy dostęp do
opieki zdrowotnej w mniej zurbanizowanych obszarach.
post_office_distance
- Rozkład jest prawoskośny, z typowymi wartościami
0,5–1 km.
- Linia rozkładu normalnego wskazuje na istotne odchylenie od
normalności, co podkreśla silne skupienie danych w niższych
przedziałach.
restaurant_distance
- Histogram ujawnia koncentrację wartości w zakresie do 1
km z pojedynczymi przypadkami powyżej 3
km.
- Przesunięcie względem linii normalnej podkreśla ograniczoną liczbę
nieruchomości o znacznej odległości od restauracji.
college_distance
- Wartości typowe mieszczą się w przedziale 1–2 km,
natomiast histogram jest lekko prawoskośny.
- Linia rozkładu normalnego dobrze przybliża dane w środkowej części,
jednak widać odchylenia w wyższych wartościach (powyżej 4
km).
pharmacy_distance -
Histogram jest silnie prawoskośny, z wartościami
typowymi do 1 km.
- Linia normalna nie jest dopasowana, co sugeruje, że rozkład empiryczny
jest skupiony na jednym krańcu.
square_meters -
Rozkład powierzchni mieszkań jest prawoskośny, z
wartościami dominującymi w przedziale 40–80 m².
- Linia rozkładu normalnego sugeruje większą symetrię niż istnieje w
danych.
- Wartości odstające powyżej 100 m²
wskazują na duże apartamenty, które są nietypowe.
price - Histogram jest
wysoce prawoskośny, z typowymi cenami 500 tys.
– 1 mln zł.
- Rozkład empiryczny jest znacznie przesunięty względem linii normalnej,
co podkreśla nierównomierną strukturę cen na rynku.
floor - Większość mieszkań
znajduje się na 1-5 piętrze.
- Linia rozkładu normalnego odbiega od rzeczywistego kształtu, który
jest skośny, z kilkoma wartościami odstającymi powyżej
15 piętra.
floor_count - Rozkład
pokazuje, że typowe budynki mają 4-6 pięter.
- Linia normalna nie oddaje koncentracji w niskich wartościach oraz
odstępstw w wysokich budynkach.
building_age -
Histogram wskazuje, że większość budynków ma mniej niż 50
lat.
- Rozkład jest prawoskośny, a linia normalna sugeruje większą symetrię
niż rzeczywiście istnieje.
build_year - Rozkład
pokazuje koncentrację budynków wybudowanych po 1950
roku.
- Linia normalna dobrze dopasowuje się do danych, jednak rozkład jest
lekko przesunięty ku nowszym budynkom.
Analiza histogramów, w połączeniu z linią rozkładu normalnego, dostarczyła następujących wniosków:
Wyniki te potwierdzają specyfikę rynku nieruchomości, gdzie typowe wartości są skoncentrowane w określonych zakresach, a odstępstwa wskazują na szczególne przypadki, które mogą być analizowane osobno.
Test Andersona-Darlinga jest statystycznym testem zgodności, który ocenia, jak dobrze dane pasują do określonego rozkładu teoretycznego. Zwykle stosuje się go do sprawdzenia zgodności z rozkładem normalnym. Jest modyfikacją testu Craméra-von Misesa dokonaną w celu poprawy jego czułości w „ogonach” testowanego rozkładu.
Test Andersona-Darlinga przeprowadza się w celu sprawdzenia hipotez:
Hipoteza zerowa (\(H_0\)): Dane pochodzą z określonego rozkładu (np. normalnego, wykładniczego).
Hipoteza alternatywna (\(H_1\)): Dane nie pochodzą z tego rozkładu.
Test Andersona-Darlinga oblicza statystykę testową \(A^2\), która jest zdefiniowana jako:
\[ A^2 = -n - \sum_{i=1}^n \frac{2i - 1}{n} \left[ \ln(F(X_i)) + \ln(1 - F(X_{n+1-i})) \right] \]
gdzie: - \(n\) – liczba obserwacji w próbie, - \(F(x)\) - dystrybuanta rozkładu wzorcowego, - \(X_{(i)}\) - i-ta zaobserwowana wartość w próbie uporządkowanej rosnąco
Test Anderson-Darling przyjmuje zasadę, że jeżeli wartość p jest bardzo niska, niższa niż 0,05, wtedy przyjmuje się, że rozkład danych nie jest zgodny z rozkładem normalnym. Przyjmuje się takie założenie, jeżeli został przyjęty poziom istotności 0,05.
| Zmienne | Wartości_p_value |
|---|---|
| price | 3.7e-24 |
| square_meters | 3.7e-24 |
| centre_distance | 3.7e-24 |
| floor | 3.7e-24 |
| floor_count | 3.7e-24 |
| poi_count | 3.7e-24 |
| school_distance | 3.7e-24 |
| kindergarten_distance | 3.7e-24 |
| clinic_distance | 3.7e-24 |
| post_office_distance | 3.7e-24 |
| restaurant_distance | 3.7e-24 |
| college_distance | 3.7e-24 |
| pharmacy_distance | 3.7e-24 |
| building_age | 3.7e-24 |
Wyniki testu Andersona-Darlinga wskazują na ekstremalnie małe
wartości \(p\)-value (\(3.7 \times 10^{-24}\)) dla wszystkich
analizowanych zmiennych, co oznacza, że należy odrzucić hipotezę zerową
zakładającą normalność rozkładu. Dane dla zmiennych takich jak
price, square_meters, centre_distance i pozostałych
znacząco odbiegają od rozkładu normalnego, co jest również widoczne na
powyższych histogamach.
| Zmienna | Wartość |
|---|---|
| build_year | 1.321569e-15 |
| price | 9.155718e-17 |
| square_meters | 3.0552e-17 |
| price_per_square_meter | -5.888089e-17 |
| rooms | -1.961117e-16 |
| floor | -3.274304e-17 |
| floor_count | -9.234339e-17 |
| centre_distance | -1.348539e-16 |
| building_age | 8.221441e-17 |
| school_distance | 1.247826e-17 |
| clinic_distance | 2.77439e-17 |
| post_office_distance | 9.446714e-17 |
| kindergarten_distance | -4.220434e-17 |
| restaurant_distance | 5.62074e-17 |
| college_distance | -2.656712e-17 |
| pharmacy_distance | -1.519166e-17 |
| poi_count | -2.97876e-17 |
Standaryzacja przy użyciu z-score umożliwia identyfikację wartości odstających. Wartości, które są znacznie większe lub mniejsze niż 3 odchylenia standardowe, mogą być traktowane jako odstające. Zastosowanie z-score zapewniło, że wszystkie analizowane zmienne są zbalansowane wokół średniej, co stanowi podstawę do dalszych, bardziej szczegółowych analiz. Większość wartości w danych jest symetrycznie rozłożona wokół średniej i nie dominuje żaden zbiór ekstremalnych wartości.
price i poi_count
występują duże wartości odstające. Dla ceny może to być kilka
luksusowych apartamentów o bardzo wysokiej cenie, a dla liczby punktów
zainteresowania miejsca z wyjątkowo dużą liczbą udogodnień w okolicy.
Transformacja logarytmiczna zmniejsza wpływ tych skrajnych wartości na
analizy.Po transformacji: - Rozkład zmiennej price jest bardziej symetryczny, co ułatwi modelowanie zależności między ceną a innymi zmiennymi. - Rozkład zmiennej poi_count jest mniej skośny, co pozwoli lepiej zrozumieć wpływ liczby punktów zainteresowania na analizowane wyniki.
square_meters
rooms
floor oraz floor_count
build_year
centre_distance
school_distance
clinic_distance
post_office_distance
kindergarten_distance
restaurant_distance
college_distance
pharmacy_distance
building_age
Podsumowanie: Brak transformacji dla większości zmiennych wynika z ich naturalnego znaczenia w kontekście rynku nieruchomości. Transformacje stosujemy wyłącznie w sytuacjach, gdy poprawiają one analizę, bez utraty interpretowalności. W przypadku tych zmiennych, zachowanie ich w pierwotnej formie pozwala na lepsze oddanie rzeczywistości i kontekstu analizy.
Po przeprowadzeniu pierwszej, wstępnej walidacji, która ujawniła znaczną liczbę brakujących danych (NA) w zbiorze, zdecydowano się na przeprowadzenie kolejnej, bardziej szczegółowej analizy, aby upewnić się, że dokonana imputacja została prawidłowo wykonana, a dane są spójne i gotowe do dalszej obróbki. Celem ponownej walidacji jest weryfikacja skuteczności uzupełniania brakujących wartości oraz sprawdzenie, czy po tej operacji dane są spójne z przyjętymi regułami.
W ramach tej walidacji sprawdzono czy wartości imputowane dla
zmiennych numerycznych i kategorycznych (mediana i
moda) zostały odpowiednio dobrane, a także czy nie wprowadziły
nowych niezgodności w danych. Ponadto zweryfikowano, czy po
przeprowadzonej imputacji i innych korektach, dane są logicznie spójne,
a reguły dotyczące relacji między zmiennymi, takie jak zgodność
zmiennych floor i floor_count, zostały
właściwie zastosowane.
Druga walidacja ma na celu zapewnienie, że dane są w pełni spójne i zgodne z wymaganiami, eliminując ryzyko wystąpienia problemów, które mogłyby wpływać na jakość dalszej analizy. Dzięki tym czynnościom dane będą gotowe do kolejnych etapów analizy i przetwarzania.
W procesie walidacji danych większość reguł została spełniona, jednak
w przypadku jednej reguły, dotyczącej zgodności zmiennych
floor i floor_count, wykryto 545
nieprawidłowych obserwacji, które wymagają dalszej analizy i
korekty. Zgodnie z regułą, wartości floor nie powinny
przekraczać wartości floor_count, co jest kluczowe dla
spójności danych. Pozostałe reguły zostały prawidłowo zastosowane i
nie wykryto żadnych innych istotnych problemów w
analizowanych danych.
Przed rozpoczęciem walidacji brakujące wartości (NA) zostały uzupełnione, co pozwoliło na przeprowadzenie pełnej analizy zgodności z regułami. Imputacja brakujących danych była kluczowym krokiem, umożliwiającym dalsze etapy weryfikacji danych.
Błędy w danych floor i floor_count mogą
wynikać z błędnie uzupełnionych wartości lub nieaktualnych
danych (budynki mogły zmienić liczbę kondygnacji po
modernizacji). Aby poprawić te błędy, przyjęto zasadę, że w takich
sytuacjach wartość liczby kondygnacji (floor_count)
zostanie ustawiona na wartość piętra (floor). Jeśli wartość
liczby kondygnacji była równa lub większa od wartości piętra, dane
pozostały niezmienione. Taka korekta zapewnia spójność
danych i eliminuje przypadki, w których piętro przewyższa
liczbę kondygnacji w budynku.Nie znaleziono duplikatów wierszy w
danych.
Celem analizy regionalnej cen mieszkań jest zrozumienie zróżnicowania poziomu cen nieruchomości w Polsce. Wykorzystanie mapy województw pozwala zobrazować różnice w średnich cenach za metr kwadratowy w poszczególnych regionach kraju. Tego rodzaju wizualizacja umożliwia identyfikację obszarów o najwyższych oraz najniższych cenach, co może stanowić punkt wyjścia do dalszej analizy rynku nieruchomości, uwzględniającej czynniki wpływające na cenę, takie jak urbanizacja, poziom dochodów czy lokalna infrastruktura.
| Miasto | Średnia powierzchnia mieszkania | Średnia cena za \(m^2\) | Najczęstsza liczba pokoi |
|---|---|---|---|
| Warszawa | 57.27 | 18503.96 | 2 |
| Kraków | 55.37 | 17135.48 | 2 |
| Gdańsk | 58.63 | 15402.31 | 2 |
| Gdynia | 63.24 | 14020.05 | 3 |
| Wrocław | 56.34 | 13562.28 | 2 |
| Poznań | 57.84 | 11472.10 | 2 |
| Rzeszów | 60.07 | 10803.55 | 3 |
| Białystok | 51.73 | 10089.06 | 3 |
| Lublin | 59.05 | 10060.79 | 3 |
| Szczecin | 63.52 | 9529.45 | 2 |
| Katowice | 60.05 | 9038.26 | 3 |
| Łódź | 52.70 | 8536.00 | 2 |
| Bydgoszcz | 54.13 | 8194.03 | 2 |
| Częstochowa | 54.28 | 7034.63 | 2 |
| Radom | 55.47 | 6929.92 | 3 |
Województwo mazowieckie jako lider cenowy
Z wykresu wynika, że województwo mazowieckie, w szczególności Warszawa, dominuje pod względem średnich cen za metr kwadratowy, osiągając wartości powyżej 18 000 PLN/m². Jest to odzwierciedleniem centralnej roli stolicy w gospodarce, jej rozwiniętego rynku pracy oraz wysokiego popytu na mieszkania.
Regiony o najniższych cenach
Województwa takie jak podkarpackie, lubelskie i podlaskie charakteryzują się znacznie niższymi cenami, oscylującymi wokół 10 000 PLN/m². Są to regiony o mniejszym stopniu urbanizacji oraz niższym popycie na nieruchomości w porównaniu do dużych miast.
Regiony o średnich cenach
Województwa dolnośląskie, pomorskie i wielkopolskie znajdują się w średnim przedziale cenowym, wynoszącym od 12 000 PLN/m² do 16 000 PLN/m². Obejmują one dynamicznie rozwijające się miasta, takie jak Wrocław, Gdańsk czy Poznań, które są istotnymi ośrodkami akademickimi i biznesowymi.
Różnice między regionami
Mapa podkreśla wyraźne różnice w rozwoju regionalnym. Województwa takie jak opolskie czy świętokrzyskie należą do najtańszych, co może być związane z niższym stopniem urbanizacji, mniejszym popytem oraz ograniczoną dostępnością pracy w tych regionach.
Wykres średnich cen mieszkań za metr kwadratowy w podziale na województwa jasno pokazuje istotne różnice regionalne. Najwyższe ceny dominują w centralnej i północno-zachodniej części Polski, szczególnie w miastach takich jak Warszawa, Wrocław, Gdańsk i Kraków. Natomiast regiony wschodnie oraz mniej zurbanizowane województwa charakteryzują się niższymi cenami, co wskazuje na ich mniejszy potencjał rynkowy. Wyniki te sugerują, że dalsze badania powinny uwzględnić czynniki demograficzne, ekonomiczne i infrastrukturalne, które kształtują rynek nieruchomości w Polsce.
W ramach dalszej analizy postanowiliśmy skupić się na szczegółowym porównaniu miast w naszym zbiorze danych pod kątem cen mieszkań za metr kwadratowy. W tym celu wybraliśmy po dwa miasta z trzech grup cenowych:
Miasta z najwyższymi cenami za \(m^2\) – są to lokalizacje charakteryzujące się wyjątkowo wysokim poziomem cen, które mogą być związane z prestiżem, dostępem do wyjątkowych udogodnień, czy lokalizacją w centralnych dzielnicach dużych miast. Analiza tych miast jakimi są Warszawa oraz Kraków pozwoli zrozumieć, jakie czynniki najbardziej wpływają na tak wysokie ceny.
Miasta o średnich cenach za \(m^2\) – wybraliśmy dwa miasta znajdujące się w średniej półce cenowej tj Rzeszów i Białystok. Analiza tej grupy pozwoli na identyfikację, jak różnią się te lokalizacje od najdroższych i najtańszych pod względem dostępności mieszkań, udogodnień oraz charakterystyki demograficznej.
Miasta z najniższymi cenami za \(m^2\) – dwa miasta o najniższych cenach za metr kwadratowy (Radom, Częstochowa) zostały wybrane w celu zbadania, czy niższe ceny wynikają z lokalizacji, ograniczonej liczby udogodnień, czy może innych czynników, takich jak mniejsze zainteresowanie rynkiem nieruchomości.
Decyzja o podziale miast na trzy grupy wynika z chęci uchwycenia zróżnicowania na polskim rynku nieruchomości. Taki podział pozwala:
Dzięki temu podziałowi możemy porównać, jakie cechy i trendy są unikalne dla różnych segmentów cenowych, oraz czy istnieją wspólne wzorce, które łączą te grupy.
Zależności cenowe w wybranych miastach przedstawione zostały na poniższym wykresie
Wykres graficznie przedstawia wcześniej omówione różnice w cenach mieszkań za metr kwadratowy w wybranych miastach. Wizualizacja potwierdza podział na trzy grupy cenowe, ukazując wyraźne różnice między najdroższymi, średnimi i najtańszymi lokalizacjami.
Wykonamy analizę, aby sprawdzić, w jaki sposób różne udogodnienia, takie jak balkon, winda, parking, ochrona czy komórka lokatorska, wpływają na ceny mieszkań w wybranych miastach. Za pomocą wykresów pudełkowych ocenimy, czy obecność tych udogodnień ma znaczący wpływ na wartość nieruchomości oraz jak różnice te kształtują się w zależności od lokalizacji.
Balkon jest jednym z kluczowych elementów wpływających na wartość mieszkania, zwłaszcza w dużych miastach.
Obecność windy ma istotne znaczenie dla wartości mieszkań, szczególnie w nowoczesnych budynkach i wyższych kondygnacjach.
Analiza wskazuje, że obecność parkingu jest istotnym czynnikiem wpływającym na medianę cen mieszkań, szczególnie w większych aglomeracjach.
Obecność ochrony na terenie nieruchomości jest silnym czynnikiem zwiększającym wartość mieszkań w dużych i dynamicznie rozwijających się miastach.
Komórka lokatorska stanowi ważny element funkcjonalności nieruchomości, szczególnie w bardziej zatłoczonych miastach, gdzie przestrzeń dodatkowa ma istotne znaczenie.
1.Balkon: Istotny czynnik w Warszawie i Krakowie,
gdzie dostęp do przestrzeni zewnętrznej jest ograniczony.
2.Winda: Znaczący wpływ na wartość mieszkań,
szczególnie w dużych miastach z nowoczesną zabudową.
3.Parking: Kluczowy czynnik w dużych miastach,
zwłaszcza w Warszawie, gdzie dostępność miejsc parkingowych jest
ograniczona.
4.Ochrona: Wysoko cenione w dużych
aglomeracjach, szczególnie tam, gdzie bezpieczeństwo jest
priorytetem.
5.Komórka lokatorska: Ważna w miastach
o wysokim zagęszczeniu, gdzie przestrzeń przechowywania ma istotne
znaczenie.
W ramach analizy projektu zdecydowaliśmy się zbadać zależności pomiędzy zmiennymi kategorycznymi opisującymi cechy mieszkań. W tym celu zastosowaliśmy test Chi-kwadrat, który jest jedną z najpopularniejszych metod analizy zależności pomiędzy dwiema zmiennymi jakościowymi (kategorycznymi).
Test Chi-kwadrat służy do sprawdzania, czy istnieje statystycznie istotna zależność pomiędzy dwiema zmiennymi kategorycznymi. Wykorzystuje tablicę kontyngencji (czyli tabelę krzyżową) do porównania rzeczywistych obserwacji w danych z wartościami oczekiwanymi, które wystąpiłyby w przypadku braku zależności.
Test ten opiera się na statystyce Chi-kwadrat: \[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \] gdzie: - \(O_i\) to zaobserwowane wartości, - \(E_i\) to oczekiwane wartości przy założeniu niezależności.
Na podstawie przeprowadzonych testów Chi-kwadrat oraz wykresów możemy sformułować następujące wnioski:
Podsumowanie: W analizie ujawniono liczne istotne korelacje między cechami mieszkań. Najsilniejsze zależności dotyczą cech związanych z infrastrukturą budynku (winda, pomieszczenie gospodarcze) oraz dostępnością (parking). Wyniki te mogą być wykorzystane do przewidywania preferencji klientów lub optymalizacji oferty deweloperów.
Postanowiliśmy zbadać, czy wariancje wyników w różnych grupach badawczych są jednorodne. Jednorodność wariancji, czyli homoskedastyczność, jest kluczowym założeniem w wielu testach statystycznych, takich jak analiza wariancji (ANOVA) czy test t-Studenta. Jeśli wariancje nie są równe, wyniki tych analiz mogą być niewiarygodne, co może prowadzić do błędnych wniosków.
Aby zweryfikować jednorodność wariancji w badanych grupach, zastosujemy test Levene’a. Jest to popularna i odporna metoda, która pozwala porównać wariancje w dwóch lub więcej grupach, nawet gdy dane nie spełniają założeń normalności rozkładu. Test ten będzie kluczowym krokiem w naszej analizie statystycznej, ponieważ od jego wyniku zależy, czy możemy zastosować klasyczne metody parametryczne, czy też konieczne będzie użycie metod alternatywnych.
W dalszej części przedstawimy sposób przeprowadzenia testu Levene’a oraz omówimy uzyskane wyniki.
Test Levene’a jest statystycznym testem służącym do sprawdzenia jednorodności wariancji (homoskedastyczności) w dwóch lub więcej grupach. Jest szczególnie użyteczny w analizach, które wymagają równości wariancji jako jednego z założeń, np. analiza wariancji (ANOVA) czy test t-Studenta.
Test Levene’a porównuje odchylenia wartości w każdej grupie od mediany lub średniej. W wersji klasycznej test bazuje na średniej, natomiast modyfikacja Browna-Forsythe’a stosuje medianę, co czyni test bardziej odpornym na wartości odstające.
| Zmienna | F_Statistic | p_value | Interpretacja |
|---|---|---|---|
| has_parking | 0.0245752 | 0.8754317 | Wariancje są jednorodne |
| has_balcony | 46.0675741 | 0.0000000 | Wariancje różnią się istotnie |
| has_elevator | 7.3013191 | 0.0068958 | Wariancje różnią się istotnie |
| has_security | 1.0000373 | 0.3173127 | Wariancje są jednorodne |
| has_storage_room | 26.2591182 | 0.0000003 | Wariancje różnią się istotnie |
has_parking (p = 0.8754) – nie ma podstaw do
odrzucenia hipotezy zerowej o jednorodności wariancji, dlatego
wariancje są jednorodne.
has_balcony (p < 0.0001) – występują istotne
statystycznie różnice w wariancjach grup,
czyli wariancje różnią się istotnie.
has_elevator (p = 0.0069) – p < 0.05, co również
wskazuje na istotną różnicę wariancji,
a zatem wariancje różnią się istotnie.
has_security (p = 0.3173) – brak podstaw do
odrzucenia hipotezy zerowej, wariancje są
jednorodne.
has_storage_room (p < 0.0001) – wariancje w
poszczególnych grupach różnią się istotnie, czyli wariancje
różnią się istotnie.
Na podstawie tych wyników widać, że jednorodność wariancji została
zachowana wyłącznie w przypadku zmiennych has_parking i
has_security, natomiast dla has_balcony,
has_elevator oraz has_storage_room stwierdzamy
istotne różnice w wariancjach między grupami.
Na podstawie wyników testu Andersona-Darlinga (brak rozkładu normalnego) i testu Levene’a (różnice w wariancjach dla niektórych zmiennych), testy parametryczne, takie jak analiza wariancji (ANOVA) czy test t-Studenta, nie są odpowiednie. Zamiast tego zastosujemy test Manna-Whitneya (dla dwóch grup).
Test Manna-Whitneya, znany również jako test U Manna-Whitneya, jest nieparametrycznym testem statystycznym stosowanym do porównania median dwóch niezależnych grup. Jest użyteczny, gdy dane nie spełniają założeń testów parametrycznych, takich jak normalność rozkładu czy jednorodności wariancji.
| Podsumowanie wyników testów Manna-Whitneya dla miast i zmiennych kategorycznych. | ||||
| Miasto | Zmienna | W_Statistic | p_value | Interpretacja |
|---|---|---|---|---|
| Kraków | has_elevator | 1223201.5 | 2.47e-04 | Istotna różnica |
| Kraków | has_parking | 969775.0 | 1.26e-09 | Istotna różnica |
| Kraków | has_balcony | 986463.5 | 7.37e-18 | Istotna różnica |
| Kraków | has_security | 355282.0 | 1.24e-01 | Brak istotnej różnicy |
| Kraków | has_storage_room | 1449880.5 | 1.00e+00 | Brak istotnej różnicy |
| Warszawa | has_elevator | 4621028.0 | 1.71e-11 | Istotna różnica |
| Warszawa | has_parking | 3973642.0 | 9.57e-59 | Istotna różnica |
| Warszawa | has_balcony | 5317059.5 | 1.14e-15 | Istotna różnica |
| Warszawa | has_security | 3051055.0 | 1.02e-20 | Istotna różnica |
| Warszawa | has_storage_room | 6676707.5 | 1.00e+00 | Brak istotnej różnicy |
| Radom | has_elevator | 4702.0 | 9.88e-01 | Brak istotnej różnicy |
| Radom | has_parking | 1246.5 | 2.91e-08 | Istotna różnica |
| Radom | has_balcony | 3567.5 | 2.13e-01 | Brak istotnej różnicy |
| Radom | has_security | 672.5 | 5.41e-01 | Brak istotnej różnicy |
| Radom | has_storage_room | 3719.0 | 8.86e-01 | Brak istotnej różnicy |
| Częstochowa | has_elevator | 11185.0 | 5.76e-01 | Brak istotnej różnicy |
| Częstochowa | has_parking | 2800.0 | 3.06e-06 | Istotna różnica |
| Częstochowa | has_balcony | 12011.0 | 4.77e-04 | Istotna różnica |
| Częstochowa | has_security | 449.5 | 7.94e-02 | Brak istotnej różnicy |
| Częstochowa | has_storage_room | 23435.5 | 1.00e+00 | Brak istotnej różnicy |
| Rzeszów | has_elevator | 3098.0 | 2.88e-01 | Brak istotnej różnicy |
| Rzeszów | has_parking | 2502.0 | 7.19e-02 | Brak istotnej różnicy |
| Rzeszów | has_balcony | 2596.5 | 5.84e-01 | Brak istotnej różnicy |
| Rzeszów | has_security | 669.0 | 1.35e-01 | Brak istotnej różnicy |
| Rzeszów | has_storage_room | 3753.5 | 9.69e-01 | Brak istotnej różnicy |
| Białystok | has_elevator | 5051.5 | 3.47e-03 | Istotna różnica |
| Białystok | has_parking | 3045.5 | 3.33e-02 | Istotna różnica |
| Białystok | has_balcony | 4775.5 | 2.19e-02 | Istotna różnica |
| Białystok | has_security | 469.0 | 5.47e-01 | Brak istotnej różnicy |
| Białystok | has_storage_room | 6423.5 | 8.68e-01 | Brak istotnej różnicy |
W przeprowadzonych testach Manna–Whitneya (z alternatywą
less) sprawdzano istotność statystyczną różnic w medianach
ceny mieszkań (zmienna price) w zależności od pięciu cech
(zmiennych kategorycznych):
has_elevator (czy mieszkanie ma windę),
has_parking (czy mieszkanie ma parking),
has_balcony (czy mieszkanie ma balkon),
has_security (czy w budynku jest ochrona),
has_storage_room (czy mieszkanie/dyspozycji jest
pomieszczenie gospodarcze).
Test przeprowadzono osobno dla każdej z wybranych miejscowości. W poniższej interpretacji „istotna różnica” oznacza odrzucenie hipotezy zerowej (p < 0.05), natomiast „brak istotnej różnicy” – brak podstaw do jej odrzucenia (p ≥ 0.05).
has_elevator, has_parking,
has_balcony: stwierdzono istotne różnice w rozkładach cen
(p < 0.05).
has_security, has_storage_room: brak
istotnych różnic (p ≥ 0.05).
W Krakowie cechy takie jak winda, parking czy balkon mogą więc wiązać się z innym poziomem mediany ceny niż w przypadku mieszkań bez tych udogodnień. Natomiast ochrona i pomieszczenie gospodarcze nie wykazały statystycznie istotnego wpływu na rozkład cen.
has_elevator, has_parking,
has_balcony, has_security: istotna różnica (p
< 0.05).
has_storage_room: brak istotnej różnicy (p ≥
0.05).
W stolicy niemal wszystkie uwzględniane udogodnienia (poza pomieszczeniem gospodarczym) istotnie różnicują medianę ceny.
has_parking: istotna różnica (p < 0.05).
has_elevator, has_balcony,
has_security, has_storage_room: brak istotnej
różnicy (p ≥ 0.05).
Dla mieszkań w Radomiu tylko parking istotnie wpływa na ceny w ujęciu statystycznym.
has_parking, has_balcony: istotna
różnica (p < 0.05).
has_elevator, has_security,
has_storage_room: brak istotnej różnicy (p ≥
0.05).
Tutaj ważnymi czynnikami wpływającymi na ceny (w sensie statystycznym) okazały się posiadanie parkingu oraz balkonu.
W Rzeszowie nie stwierdzono wpływu żadnej z badanych zmiennych kategorycznych na rozkład cen w testach Manna–Whitneya.
has_elevator, has_parking,
has_balcony: istotna różnica (p < 0.05).
has_security, has_storage_room: brak
istotnej różnicy (p ≥ 0.05).
W Białymstoku posiadanie windy, parkingu oraz balkonu różnicowało medianę cen, natomiast ochrona i pomieszczenie gospodarcze nie miały takiego istotnego efektu.
Podsumowując, w większości miast zaobserwowano istotne statystycznie różnice w medianach cen przy uwzględnieniu co najmniej jednej z wybranych cech. Szczególnie często wyłaniającymi się zmiennymi okazały się:
has_parking (istotne m.in. w Krakowie, Warszawie,
Radomiu, Częstochowie, Białymstoku),
has_balcony (istotne m.in. w Krakowie, Warszawie,
Częstochowie, Białymstoku).
Dane te sugerują, że w większości analizowanych lokalizacji obecność parkingu czy balkonu może wpływać na kształtowanie się cen mieszkań, podczas gdy ochrona i pomieszczenie gospodarcze rzadziej dawały statystycznie istotne różnice – wyjątkiem był Radom, gdzie jedynie parking się wyróżnił. W Rzeszowie z kolei żaden z badanych czynników nie wpłynął istotnie na medianę cen.
Zdecydowaliśmy się na przeprowadzenie testu Ancova na podstawie
zmiennych: has_balcony, has_elevator,
has_parking, has_security oraz
has_storage_room ze względu na to, że w naszych poprzednich
analizach okazały się one być najbardziej kluczowe w kształtowaniu się
cen nieruchomości.
Test ANCOVA pozwoli zbadać, w jakim stopniu te czynniki oddziałują na
ceny nieruchomości po uwzględnieniu efektu zmiennej
price_per_square_meter, czyli ceny za metr kwadratowy.
Dzięki temu możliwe będzie kontrolowanie wpływu tej zmiennej oraz ocena,
czy pozostałe cechy mają istotne znaczenie w modelowaniu cen mieszkań.
Dodatkowo test umożliwi określenie, czy wpływ analizowanych czynników
jest statystycznie potwierdzony.
Test ANCOVA to statystyczna metoda łącząca analizę wariancji z
analizą regresji. Pozwala na ocenę różnic między średnimi wartościami w
różnych grupach, jednocześnie kontrolując wpływ jednej lub więcej
zmiennych ciągłych (kowariantów).
Statystyka testu F wyrażana jest wzorem:
\[ F = \frac{\text{MS}_{\text{effect}}}{\text{MS}_{\text{error}}} \]
gdzie:
- \(\text{MS}_{\text{effect}} =
\frac{\text{SS}_{\text{effect}}}{df_{\text
{effect}}}\) – średni kwadrat efektu,
- \(\text{MS}_{\text{error}} =
\frac{\text{SS}_{\text{error}}}{df_{\text
{error}}}\) – średni kwadrat błędu,
- \(\text{SS}_{\text{effect}}\) – suma
kwadratów związana z efektem czynnika,
- \(\text{SS}_{\text{error}}\) – suma kwadratów
błędu resztowego,
- \(df_{\text{effect}}\) i \(df_{\text{error}}\) – liczby stopni swobody
odpowiednio dla efektu czynnika i błędu resztowego.
| Miasto | Zmienna | F_value | p_value |
|---|---|---|---|
| Białystok | has_balcony | 4.803 | 0.0294 |
| Białystok | has_elevator | 5.029 | 0.0259 |
| Białystok | has_parking | 0.707 | 0.4013 |
| Białystok | price_per_square_meter:has_balcony | 0.597 | 0.4404 |
| Białystok | price_per_square_meter:has_elevator | 0.547 | 0.4604 |
| Białystok | price_per_square_meter:has_parking | 11.364 | 0.000883 |
| Częstochowa | has_balcony | 6.374 | 0.01198 |
| Częstochowa | has_parking | 10.701 | 0.00117 |
| Częstochowa | price_per_square_meter:has_balcony | 1.344 | 0.2471 |
| Częstochowa | price_per_square_meter:has_parking | 5.567 | 0.01881 |
| Radom | has_parking | 37.252 | 0.00000000567 |
| Radom | price_per_square_meter:has_parking | 1.231 | 0.269 |
| Kraków | has_balcony | 90.922 | 2e-16 |
| Kraków | has_elevator | 18.968 | 0.0000137 |
| Kraków | has_parking | 26.005 | 0.00000036 |
| Kraków | has_security | 0.032 | 0.8549 |
| Kraków | has_storage_room | 3.548 | 0.0597 |
| Kraków | price_per_square_meter:has_balcony | 0.351 | 0.5536 |
| Kraków | price_per_square_meter:has_elevator | 6.220 | 0.0127 |
| Kraków | price_per_square_meter:has_parking | 0.097 | 0.7558 |
| Kraków | price_per_square_meter:has_security | 2.619 | 0.1057 |
| Kraków | price_per_square_meter:has_storage_room | 4.951 | 0.0261 |
| Warszawa | has_balcony | 129.058 | 2e-16 |
| Warszawa | has_elevator | 1.031 | 0.3099 |
| Warszawa | has_parking | 222.922 | 2e-16 |
| Warszawa | has_security | 37.599 | 9.17e-10 |
| Warszawa | has_storage_room | 31.739 | 1.83e-08 |
| Warszawa | price_per_square_meter:has_balcony | 5.165 | 0.0231 |
| Warszawa | price_per_square_meter:has_elevator | 1.278 | 0.2584 |
| Warszawa | price_per_square_meter:has_parking | 17.210 | 3.39e-05 |
| Warszawa | price_per_square_meter:has_security | 1.677 | 0.1954 |
| Warszawa | price_per_square_meter:has_storage_room | 15.797 | 7.12e-05 |
| Rzeszów | has_elevator | 0.228 | 0.63387 |
| Rzeszów | has_storage_room | 3.553 | 0.06127 |
| Rzeszów | price_per_square_meter:has_elevator | 0.504 | 0.4788 |
| Rzeszów | price_per_square_meter:has_storage_room | 0.002 | 0.96371 |
| Miasto | Główne wnioski | Interakcje |
|---|---|---|
| Białystok | - Balkon (p=0.0294) i winda (p=0.0259) znacząco podnoszą cenę - Parking (p=0.4013) nie ma istotnego wpływu |
- Interakcja cena/m² × parking (p=0.000883) jest istotna – wpływ ceny/m² na cenę zależy od obecności parkingu |
| Częstochowa | - Balkon (p=0.01198) i parking (p=0.00117) istotnie podnoszą cenę | - Interakcja cena/m² × parking (p=0.01881) jest istotna |
| Radom | - Parking (p=5.67e-09) ma bardzo silny wpływ na cenę | - Interakcja cena/m² × parking (p=0.269) nieistotna |
| Kraków | - Balkon (p<2e-16), winda (p=1.37e-05) i parking (p=3.60e-07)
mocno wpływają na cenę - Ochrona (p=0.8549) nie ma wpływu - Pomieszczenie gospodarcze (p=0.0597) – efekt graniczny |
- Istotne interakcje z windą (p=0.0127) i pomieszczeniem gosp. (p=0.0261) – wpływ ceny/m² różni się w zależności od obecności tych udogodnień |
| Warszawa | - Balkon (p<2e-16), parking (p<2e-16), ochrona (p=9.17e-10) i
pomieszczenie gospodarcze (p=1.83e-08) wyraźnie zwiększają cenę - Winda (p=0.3099) nie jest istotna |
- Istotne interakcje z balkonem (p=0.0231), parkingiem (p=3.39e-05) i pomieszczeniem gosp. (p=7.12e-05) |
| Rzeszów | - Winda (p=0.63387) nie ma wpływu - Pomieszczenie gospodarcze (p=0.06127) – marginalne znaczenie |
- Brak istotnych interakcji |
Balkon i parking często najmocniej podwyższają cenę (np. Warszawa, Kraków, Radom, Częstochowa, Białystok).
Winda ma znaczenie w niektórych miastach (Kraków, Białystok), ale bywa nieistotna w innych (Warszawa, Rzeszów).
Ochrona i pomieszczenie gospodarcze wyraźnie działają zwłaszcza w Warszawie i Krakowie; gdzie indziej są mniej ważne lub nieistotne.
Interakcje (czyli wpływ danej cechy w zależności od ceny za m²) są czasem istotne, głównie w przypadku parkingu (Białystok, Częstochowa, Warszawa), a także balkonu (Warszawa) oraz windy i pomieszczenia gosp. (Kraków).
W praktyce oznacza to, że znaczenie konkretnych udogodnień (balkon, parking, winda, ochrona, pomieszczenie gospodarcze) różni się w zależności od miasta. Inwestorzy powinni więc zwrócić szczególną uwagę na te cechy, które w danej lokalizacji najmocniej wpływają na wycenę nieruchomości.
W miastach takich jak Warszawa i Kraków bliskość centrum jest istotnym czynnikiem wpływającym na ceny mieszkań – im bliżej centrum, tym ceny są wyższe. W mniejszych miastach, takich jak Radom czy Białystok, odległość od centrum nie ma tak dużego wpływu na ceny mieszkań, a inne czynniki mogą dominować w kształtowaniu wartości nieruchomości.
| Miasto | Wynik korelacji |
|---|---|
| Białystok | 0.1812080 |
| Częstochowa | 0.1052754 |
| Kraków | -0.4516062 |
| Radom | -0.0102774 |
| Rzeszów | 0.2788925 |
| Warszawa | -0.1410103 |
Tabela przedstawia współczynniki korelacji między odległością od centrum miasta a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.
Bliskość szkół wydaje się wpływać na wyższe ceny mieszkań w Warszawie i Krakowie, co sugeruje, że dla mieszkańców tych miast istotna jest łatwość dostępu do placówek edukacyjnych, zwłaszcza dla rodzin z dziećmi. W mniejszych miastach, takich jak Radom, Rzeszów czy Białystok, wpływ odległości od szkół na ceny mieszkań jest mniej wyraźny lub odwrotny. W tych lokalizacjach mieszkańcy mogą preferować spokojniejsze rejony z dala od szkół, co może sugerować lekkie wzrosty cen wraz z oddaleniem od placówek edukacyjnych.
| Miasto | Wynik korelacji |
|---|---|
| Białystok | 0.1512009 |
| Częstochowa | 0.4381307 |
| Kraków | -0.0694751 |
| Radom | 0.1257768 |
| Rzeszów | 0.1485620 |
| Warszawa | 0.0344552 |
Tabela przedstawia współczynniki korelacji między odległością od szkół a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.
W dużych miastach, takich jak Warszawa i Kraków, odległość od klinik ma wyraźny wpływ na ceny mieszkań – im bliżej klinik, tym wyższe ceny. Wskazuje to na duże znaczenie bliskości do placówek medycznych w kształtowaniu wartości nieruchomości w tych aglomeracjach. W mniejszych miastach, takich jak Radom, Częstochowa czy Białystok, ta zależność jest mniej widoczna lub wręcz odwrotna. Ceny mieszkań mogą tam wzrastać wraz z odległością od klinik, choć wpływ ten jest słaby. Może to wynikać z mniejszego nacisku na dostępność medyczną w tych lokalizacjach.
| Miasto | Wynik korelacji |
|---|---|
| Białystok | 0.0498567 |
| Częstochowa | 0.3834959 |
| Kraków | -0.2014158 |
| Radom | 0.2207426 |
| Rzeszów | 0.2764591 |
| Warszawa | -0.0971739 |
Tabela przedstawia współczynniki korelacji między odległością od klinik a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.
W dużych miastach, takich jak Warszawa i Kraków, odległość od placówek pocztowych nie ma wyraźnego wpływu na ceny mieszkań. Linie regresji są niemal poziome, co wskazuje na brak istotnej zależności. W tych aglomeracjach bliskość do poczty nie jest czynnikiem wpływającym na wartość nieruchomości, co może wynikać z szerokiej dostępności placówek pocztowych oraz dominacji innych czynników, takich jak prestiż lokalizacji czy dostępność usług miejskich. Rozrzut danych w tych miastach jest znaczący, co odzwierciedla duże zróżnicowanie cen nieruchomości.
W mniejszych miastach, takich jak Częstochowa, Radom, Białystok i Rzeszów, zauważalny jest lekki wzrost cen mieszkań wraz z odległością od placówek pocztowych. Linie regresji są delikatnie nachylone w górę, co sugeruje, że mieszkania w większej odległości od poczty mogą być bardziej cenione. Może to wynikać z preferencji mieszkańców dla spokojniejszych lokalizacji lub mniejszego znaczenia bliskości do usług pocztowych w codziennym życiu. Niemniej jednak, wpływ ten jest minimalny i nie wskazuje na silną zależność.
Rozrzut danych w mniejszych miastach jest znacznie mniejszy niż w dużych aglomeracjach. Punkty na wykresach są bardziej skupione, co oznacza mniejsze zróżnicowanie cen mieszkań w tych lokalizacjach. Sugeruje to bardziej jednorodny rynek nieruchomości, gdzie ceny są mniej podatne na czynniki takie jak odległość od placówek pocztowych.
| Miasto | Wynik korelacji |
|---|---|
| Białystok | 0.1352474 |
| Częstochowa | 0.2135046 |
| Kraków | 0.0304596 |
| Radom | 0.0990788 |
| Rzeszów | 0.2357461 |
| Warszawa | -0.0311410 |
Tabela przedstawia współczynniki korelacji między odległością od poczty a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.
W dużych miastach, takich jak Warszawa i Kraków, odległość od przedszkoli wykazuje delikatny wpływ na ceny mieszkań. W Krakowie linia regresji jest bardziej nachylona w górę niż w Warszawie, co sugeruje, że w tym mieście mieszkania w większej odległości od przedszkoli mogą być nieco droższe. Możliwe, że w Krakowie, jako mieście z licznymi starymi dzielnicami, bliskość przedszkoli nie jest kluczowym czynnikiem wpływającym na wartość nieruchomości. W Warszawie zależność ta jest słabsza, a różnorodność innych czynników, takich jak dostępność komunikacji czy prestiż lokalizacji, zdaje się odgrywać większą rolę.
W mniejszych miastach, takich jak Częstochowa i Radom, linie regresji są niemal płaskie lub lekko nachylone w górę. Oznacza to, że odległość od przedszkoli nie ma wyraźnego wpływu na ceny mieszkań. W tych miastach inne czynniki, takie jak standard mieszkań, dostępność infrastruktury lub lokalne preferencje, mogą mieć większe znaczenie niż bliskość do przedszkoli.
W Rzeszowie widoczny jest wzrost cen mieszkań wraz ze wzrostem odległości od przedszkoli, co wskazuje na możliwą preferencję dla spokojniejszych lokalizacji, oddalonych od intensywnie uczęszczanych miejsc. Z kolei w Białymstoku linia regresji jest praktycznie płaska, co oznacza, że bliskość przedszkoli nie jest czynnikiem determinującym wartość mieszkań.
Rozrzut danych pokazuje, że większość mieszkań znajduje się w odległości od 0,5 do 2 km od przedszkoli, co sugeruje wysoką dostępność tych placówek w analizowanych miastach. W większych miastach, takich jak Kraków i Warszawa, rozrzut cen mieszkań jest większy, co świadczy o większej różnorodności rynku nieruchomości. W mniejszych miastach, takich jak Radom czy Białystok, punkty są bardziej skupione, co odzwierciedla bardziej jednorodny rynek mieszkań.
| Miasto | Wynik korelacji |
|---|---|
| Białystok | 0.0523985 |
| Częstochowa | 0.0642097 |
| Kraków | 0.1154202 |
| Radom | 0.1347670 |
| Rzeszów | 0.1689304 |
| Warszawa | 0.0214355 |
Tabela przedstawia współczynniki korelacji między odległością od przedszkoli a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.
W dużych miastach, takich jak Warszawa i Kraków, odległość od restauracji ma delikatny ujemny wpływ na ceny mieszkań – bliżej restauracji mieszkania są droższe. W Krakowie efekt ten jest bardziej zauważalny niż w Warszawie, co może wynikać z większego znaczenia gastronomii w mieście turystycznym. W Warszawie bliskość restauracji ma mniejsze znaczenie, a inne czynniki, jak prestiż lokalizacji, odgrywają większą rolę.
W mniejszych miastach, takich jak Częstochowa i Radom, wpływ odległości od restauracji na ceny mieszkań jest znikomy. W Radomiu widoczny jest lekki wzrost cen mieszkań wraz z odległością, co może wynikać z preferencji dla spokojniejszych lokalizacji. W Częstochowie brak wyraźnej zależności.
W Rzeszowie i Białymstoku odległość od restauracji nie ma istotnego wpływu na ceny mieszkań – linie regresji są niemal poziome. Może to wynikać z dobrej dostępności restauracji i niewielkich odległości w tych miastach.
Rozrzut danych w dużych miastach, takich jak Warszawa i Kraków, jest większy, co odzwierciedla większe zróżnicowanie cen. W mniejszych miastach, takich jak Radom i Białystok, dane są bardziej skupione, wskazując na bardziej jednorodny rynek.
| Miasto | Wynik korelacji |
|---|---|
| Białystok | 0.0624702 |
| Częstochowa | -0.0173048 |
| Kraków | -0.1538666 |
| Radom | 0.1339995 |
| Rzeszów | 0.0920299 |
| Warszawa | -0.1372778 |
Tabela przedstawia współczynniki korelacji między odległością od restauracji a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.
W dużych miastach, takich jak Warszawa i Kraków, odległość od uczelni ma lekki ujemny wpływ na ceny mieszkań – bliżej uczelni mieszkania są droższe. W Krakowie efekt ten jest bardziej widoczny, co może wynikać z charakteru miasta akademickiego, gdzie bliskość uczelni silnie wpływa na wartość nieruchomości. W Warszawie wpływ ten jest słabszy, co może być związane z większą rolą innych czynników, takich jak prestiż lokalizacji.
W Rzeszowie i Białymstoku odległość od uczelni nie ma wyraźnego wpływu na ceny mieszkań. Linie regresji są lekko nachylone w górę, co sugeruje, że bliskość uczelni nie jest kluczowym czynnikiem determinującym ceny nieruchomości. Może to wynikać z mniejszej liczby studentów lub rozproszenia uczelni na różne obszary miasta.
W Częstochowie i Radomiu linie trendu wykazują niewielki wzrost cen wraz z odległością od uczelni. Sugeruje to, że spokojniejsze lokalizacje, oddalone od centrów akademickich, mogą być bardziej cenione przez mieszkańców tych miast.
Rozrzut danych wskazuje, że w Warszawie i Krakowie ceny mieszkań są bardziej zróżnicowane, podczas gdy w mniejszych miastach, takich jak Radom i Białystok, ceny są bardziej jednorodne.
| Miasto | Wynik korelacji |
|---|---|
| Białystok | 0.1503009 |
| Częstochowa | 0.2328164 |
| Kraków | -0.2231753 |
| Radom | 0.0476282 |
| Rzeszów | 0.1730937 |
| Warszawa | -0.0838757 |
Tabela przedstawia współczynniki korelacji między odległością od uczelni a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.
W dużych miastach, takich jak Warszawa i Kraków, odległość od aptek nie wykazuje wyraźnego wpływu na ceny mieszkań. Linia trendu jest niemal pozioma, co oznacza, że bliskość aptek nie jest czynnikiem kluczowym w kształtowaniu wartości nieruchomości. Jednak w tych aglomeracjach widać duży rozrzut danych, który wskazuje na znaczną różnorodność cen nieruchomości wynikającą z innych czynników, takich jak prestiż lokalizacji czy dostępność infrastruktury.
W mniejszych miastach, takich jak Częstochowa i Radom, można zauważyć lekki wzrost cen mieszkań wraz z odległością od aptek. Sugeruje to, że spokojniejsze lokalizacje, oddalone od ruchliwych obszarów, mogą być bardziej cenione przez mieszkańców. Mimo to, wpływ ten jest niewielki i ma charakter lokalny.
Z kolei w miastach takich jak Rzeszów i Białystok, zależność jest również minimalna, z delikatnym trendem wzrostowym. Wskazuje to na niewielkie znaczenie bliskości aptek w tych lokalizacjach. Punkty na wykresie są bardziej skupione, co odzwierciedla mniejszą zmienność cen mieszkań w mniejszych ośrodkach miejskich.
| Miasto | Wynik korelacji |
|---|---|
| Białystok | 0.1048127 |
| Częstochowa | 0.2912980 |
| Kraków | -0.0040424 |
| Radom | 0.0746363 |
| Rzeszów | 0.1538395 |
| Warszawa | -0.0382882 |
Tabela przedstawia współczynniki korelacji między odległością od aptek a ceną mieszkań dla sześciu miast. Współczynnik korelacji przyjmuje wartości od -1 (pełna korelacja ujemna) do 1 (pełna korelacja dodatnia), gdzie wartość 0 oznacza brak korelacji.
| Zmienne | Warszawa | Kraków | Białystok | Rzeszów | Częstochowa | Radom | Kategoria |
|---|---|---|---|---|---|---|---|
| school_distance | Słaba, dodatnia: 0.0344552 | Słaba, ujemna: -0.0694751 | Słaba, dodatnia: 0.1512009 | Słaba, dodatnia: 0.1485620 | Silna, dodatnia: 0.4381307 | Słaba, dodatnia: 0.1257768 | Edukacja |
| kindergarten_distance | Słaba, dodatnia: 0.0214355 | Słaba, dodatnia: 0.1154202 | Słaba, dodatnia: 0.0523985 | Słaba, dodatnia: 0.1689304 | Słaba, dodatnia: 0.0642097 | Słaba, dodatnia: 0.1347670 | Edukacja |
| college_distance | Słaba, ujemna: -0.0838757 | Umiarkowana, ujemna: -0.2231753 | Słaba, dodatnia: 0.1503009 | Słaba, dodatnia: 0.1730937 | Umiarkowana, dodatnia: 0.2328164 | Słaba, dodatnia: 0.0476282 | Edukacja |
| restaurant_distance | Słaba, ujemna: -0.1372778 | Słaba, ujemna: -0.1538666 | Słaba, dodatnia: 0.0624702 | Słaba, dodatnia: 0.0920299 | Słaba, ujemna: -0.0173048 | Słaba, dodatnia: 0.1339995 | Rozrywka |
| centre_distance | Słaba, ujemna: -0.1410103 | Silna, ujemna: -0.4516062 | Słaba, dodatnia: 0.1812080 | Umiarkowana, dodatnia: 0.2788925 | Słaba, dodatnia: 0.1052754 | Słaba, ujemna: -0.0102774 | Usługi |
| post_office_distance | Słaba, ujemna: -0.0311410 | Słaba, dodatnia: 0.0304596 | Słaba, dodatnia: 0.1352474 | Umiarkowana, dodatnia: 0.2357461 | Umiarkowana, dodatnia: 0.2135046 | Słaba, dodatnia: 0.0990788 | Usługi |
| clinic_distance | Słaba, ujemna: -0.0971739 | Umiarkowana, ujemna: -0.2014158 | Słaba, dodatnia: 0.0498567 | Umiarkowana, dodatnia: 0.2764591 | Umiarkowana, dodatnia: 0.3834959 | Słaba, dodatnia: 0.2207426 | Zdrowie |
| pharmacy_distance | Słaba, ujemna: -0.0382882 | Słaba, ujemna: -0.0040424 | Słaba, dodatnia: 0.1048127 | Słaba, dodatnia: 0.1538395 | Umiarkowana, dodatnia: 0.2912980 | Słaba, dodatnia: 0.0746363 | Zdrowie |
W analizie wpływu odległości do różnych instytucji na ceny nieruchomości w polskich miastach, zauważamy pewne ogólne tendencje.
W Warszawie, wpływ odległości na ceny jest stosunkowo niewielki. Jedynie większa odległość od centrum oraz resatauracji może prowadzić do minimalnego spadku cen nieruchomości. Warto jednak zauważyć, że zmienne takie jak odległość do szkół, przedszkoli czy aptek mają bardzo mały wpływ na ceny.
W Krakowie zauważamy silniejszy wpływ odległości, szczególnie w przypadku centrum miasta, gdzie silna ujemna korelacja (-0.451) wskazuje, że większa odległość od centrum wyraźnie obniża ceny nieruchomości. Ponadto, większa odległość od uczelni i klinik również obniża ceny. W Krakowie więc odległość od kluczowych punktów, jak centrum czy uczelnie, ma istotny wpływ na ceny.
W Białymstoku natomiast widoczna jest tendencja, w której większa odległość do instytucji takich jak szkoły, uczelnie czy centrum, w niewielkim stopniu podnosi ceny nieruchomości. Chociaż wpływ tych zmiennych jest stosunkowo mały, są to czynniki, które warto wziąć pod uwagę w dalszej analizie.
W Rzeszowie, podobnie jak w Białymstoku, zauważamy pozytywny wpływ większej odległości od centrum, poczty i kliniki na ceny nieruchomości.
W Częstochowie natomiast, odległość od szkoły ma wyraźny wpływ na ceny, z silną dodatnią korelacją (0.438). Zwiększenie odległości do szkoły może więc prowadzić do wyższych cen nieruchomości. Dodatkowo, podobny wpływ mają odległość od kliniki i uczelni, które także mogą podnieść ceny.
W Radomiu wpływ odległości na ceny jest ogólnie niewielki. Tylko w przypadku odległości do szkół, poczty i kliniki zauważamy mały pozytywny wpływ na ceny. Jednak ogólnie rzecz biorąc, zmienne związane z odległością mają w Radomiu raczej marginalny wpływ na ceny nieruchomości.
Warto skupić się na kilku kluczowych zmiennych z poszczególnych miast, które wykazują silniejsze zależności z cenami nieruchomości. Zmienne te mogą dać cenne informacje o dynamice rynku i kierunkach, w których ceny mogą się rozwijać. Oto, które zmienne warto dalej analizować:
Warto także podkreślić, że ceny nieruchomości mogą różnić się w zależności od typu budynku (mieszkania, domy) oraz jego lokalizacji. Warto podzielić dane na różne kategorie nieruchomości i sprawdzić, czy zależności między odległością a ceną różnią się w zależności od rodzaju nieruchomości.
Aby lepiej zrozumieć dostępność mieszkaniową w Polsce, przeanalizowano średnie wynagrodzenia i ceny mieszkań w sześciu wybranych miastach: Gdańsku, Warszawie, Krakowie, Częstochowie, Rzeszowie oraz Białymstoku. Analiza obejmuje wyliczenie liczby metrów kwadratowych mieszkania, jakie można zakupić za średnie miesięczne wynagrodzenie w każdym z tych miast. Porównanie uwzględnia średnie ceny za metr kwadratowy oraz specyfikę lokalnych rynków nieruchomości.
| Miasto | Średnie wynagrodzenie (PLN) | Cena za m² (PLN) | Liczba m² za wynagrodzenie | Wskaźnik dostępności |
|---|---|---|---|---|
| Białystok | 6806.05 | 10089.06 | 0.67 | 1.48 |
| Częstochowa | 8380.28 | 7034.63 | 1.19 | 0.84 |
| Kraków | 10173.41 | 17135.48 | 0.59 | 1.68 |
| Radom | 7368.00 | 6929.92 | 1.06 | 0.94 |
| Rzeszów | 7187.74 | 10803.55 | 0.67 | 1.50 |
| Warszawa | 9673.42 | 18503.96 | 0.52 | 1.91 |
Średnie wynagrodzenie a cena mieszkań:
Najwyższe średnie wynagrodzenie jest w Krakowie (10 173,41 PLN), a najniższe w Białymstoku (6 806,05 PLN).
Najdroższy m² mieszkania znajduje się w Warszawie (18 503,96 PLN), natomiast najtańszy w Radomiu (6 929,92 PLN).
Liczba m² możliwa do zakupu za średnie wynagrodzenie:
Najwięcej m² można kupić w Częstochowie (1,19 m²), gdzie stosunek wynagrodzenia do ceny za m² jest najkorzystniejszy.
Najmniej m² można kupić w Warszawie (0,52 m²) i Krakowie (0,59 m²), co wskazuje na wysokie ceny mieszkań w tych miastach.
Wskaźnik dostępności (liczba miesięcy pracy na zakup 1 m²):
Wskaźnik pokazuje, ile miesięcy pracy potrzeba, aby kupić 1 m² mieszkania.
Najlepszy wskaźnik dostępności (najmniej miesięcy pracy): Częstochowa (0.84) i Radom (0.94), co oznacza, że 1 m² można kupić po około 1 miesiąca pracy.
Najgorszy wskaźnik dostępności (najwięcej miesięcy pracy): Warszawa (1,91) i Kraków (1,68), co wskazuje, że zakup 1 m² mieszkania wymaga prawie 2 miesięcy wynagrodzenia.
Warszawa i Kraków jako najmniej dostępne rynki mieszkaniowe:
Białystok i Rzeszów jako bardziej dostępne rynki:
Częstochowa i Radom – dobre kompromisy:
Znaczenie wskaźnika dostępności dla planowania zakupu:
Wykres punktowy przedstawia czas (w miesiącach) potrzebny na zakup mieszkania w sześciu miastach Polski przy uwzględnieniu cen minimalnych, średnich i maksymalnych. Oto kluczowe obserwacje:
1. Różnice między miastami
Najkrótszy czas zakupu (Częstochowa):
Nawet przy maksymalnej cenie mieszkania czas nie przekracza 150 miesięcy.
To świadczy o relatywnie przystępnych cenach mieszkań w stosunku do wynagrodzeń w Częstochowie.
Najdłuższy czas zakupu (Warszawa):
Nawet przy minimalnej cenie mieszkania czas zakupu wynosi powyżej 100 miesięcy.
To sprawia, że Warszawa jest najmniej przystępnym miastem pod względem zakupu nieruchomości.
2. Rozkład czasu w ramach miast
Stosunkowo stabilne wartości w Częstochowie i Białymstoku:
W obu miastach różnice między czasem dla minimalnej, średniej i maksymalnej ceny są najmniejsze.
Sugeruje to bardziej jednorodne ceny mieszkań oraz niższe ryzyko związane z wahaniami rynku.
Duże różnice w Warszawie i Krakowie:
W miastach o wysokich cenach mieszkań różnice między czasem zakupu w zależności od przedziału cenowego są znaczące.
Wskazuje to na dużą rozpiętość cenową na rynku nieruchomości, szczególnie w segmencie luksusowym.
3. Trendy regionalne
Miasta centralne i południowe (Warszawa, Kraków):
Miasta te cechują się najwyższymi wskaźnikami czasu zakupu, szczególnie w przypadku maksymalnych cen mieszkań.
Kraków oferuje nieco większą dostępność niż Warszawa, ale nadal wymaga znacznego wysiłku finansowego.
Miasta mniejsze (Radom, Rzeszów, Białystok):
Oferują większą dostępność mieszkań, szczególnie w przypadku cen minimalnych i średnich.
Przy maksymalnych cenach czas zakupu oscyluje wokół 200 miesięcy, co jest wartością umiarkowaną w porównaniu z miastami centralnymi.
Warszawa:
Częstochowa:
Potencjalne działania:
W miastach takich jak Warszawa i Kraków warto rozważyć programy wsparcia dla nabywców mieszkań.
Częstochowa i Białystok mogą być atrakcyjnymi lokalizacjami dla inwestorów ze względu na przystępne ceny mieszkań.
Gdańsk, jedno z najstarszych miast Polski, charakteryzuje się nie tylko bogatą historią i malowniczym położeniem nad Bałtykiem, ale również dynamicznie rozwijającym się rynkiem nieruchomości. W ramach tej analizy dokonaliśmy podziału miasta na 35 dzielnic, aby dokładniej przyjrzeć sięzróżnicowaniu średnich cen mieszkań za metr kwadratowy.
Mapa wizualizuje ceny mieszkań w różnych obszarach, uwzględniając zarówno centralne, historyczne części miasta, jak Śródmieście, jak i peryferyjne, bardziej spokojne dzielnice. Zaznaczenie Śródmieścia jako centrum miasta pozwala łatwiej interpretować wyniki i lokalizować najważniejsze obszary urbanistyczne Gdańska.
| Numer | Dzielnica | Numer | Dzielnica |
|---|---|---|---|
| 1 | Aniołki | 19 | Przymorze Małe |
| 2 | Brętowo | 20 | Przymorze Wielkie |
| 3 | Brzeźno | 21 | Rudniki |
| 4 | Chełm | 22 | Siedlce |
| 5 | Jasień | 23 | Stogi |
| 6 | Kokoszki | 24 | Strzyża |
| 7 | Krakowiec–Górki Zachodnie | 25 | Suchanino |
| 8 | Letnica | 26 | Śródmieście |
| 9 | Matarnia | 27 | Ujeścisko–Łostowice |
| 10 | Młyniska | 28 | VII Dwór |
| 11 | Nowy Port | 29 | Wrzeszcz Dolny |
| 12 | Oliwa | 30 | Wrzeszcz Górny |
| 13 | Olszynka | 31 | Wyspa Sobieszewska |
| 14 | Orunia–Św. Wojciech–Lipce | 32 | Wzgórze Mickiewicza |
| 15 | Orunia Górna–Gdańsk Południe | 33 | Zaspa Młyniec |
| 16 | Osowa | 34 | Zaspa Rozstaje |
| 17 | Piecki–Migowo | 35 | Żabianka–Wejhera–Jelitkowo–Tysiąclecia |
| 18 | Przeróbka |
Analiza wykazała znaczne zróżnicowanie cen mieszkań w poszczególnych dzielnicach Gdańska. Najwyższe średnie ceny za metr kwadratowy występują w centralnych obszarach miasta, takich jak Śródmieście oraz nadmorskie dzielnice, np. Żabianka–Wejhera–Jelitkowo–Tysiąclecia. Są to miejsca o wysokim prestiżu, dogodnym dostępie do atrakcji turystycznych i rozwiniętej infrastrukturze.
Z kolei dzielnice bardziej oddalone od centrum, takie jak Kokoszki czy Matarnia, cechują się znacznie niższymi cenami, co może przyciągać osoby poszukujące spokojniejszych lokalizacji oraz bardziej przystępnych cenowo mieszkań.
Porównanie tych różnic uwidacznia rolę lokalizacji w kształtowaniu cen nieruchomości, co może być cenną wskazówką zarówno dla inwestorów, jak i osób planujących zakup nieruchomości. Wyniki te stanowią także podstawę do dalszych analiz, uwzględniających takie czynniki jak dostępność komunikacyjna, sąsiedztwo terenów zielonych czy rozwój lokalnej infrastruktury.
Celem projektu było zrozumienie, jakie czynniki wpływają na ceny mieszkań w sześciu wybranych polskich miastach: Warszawie, Krakowie, Rzeszowie, Białymstoku, Radomiu i Częstochowie. Przeprowadzona analiza pozwoliła odpowiedzieć na kluczowe pytania badawcze oraz wyciągnąć szczegółowe wnioski.
Od czego zależy cena mieszkań?
Jakie różnice w cenach występują pomiędzy miastami?
Czy odległość od centrum lub interesujących miejsc (POI) ma znaczenie dla wartości nieruchomości?
Które cechy mieszkań (np. liczba pokoi, stan, udogodnienia) są najbardziej cenione?
Zbieranie i przygotowanie danych:
Analiza statystyczna:
Wizualizacja:
Poniższy wykres prezentuje hierarchiczny podział ofert według trzech miast: Krakowa, Radomia, Rzeszowa, Warszawy, Częstochowy i Białegostoku. Każde miasto posiada swoje charakterystyczne połączenie reprezentujące dostępność określonych udogodnień, takich jak winda, balkon, parking czy komórka. Dzięki temu w prosty sposób można porównać, które elementy mają szczególny wpływ na ceny mieszkań.
Kluczowe Wyniki
Czynniki wpływające na ceny mieszkań:
Lokalizacja: Bliskość centrum, rozwinięta infrastruktura oraz liczba punktów POI (szkół, klinik, restauracji).
Cechy mieszkania: Liczba pokoi, powierzchnia, rok budowy, obecność balkonu, windy lub parkingu.
Kontekst społeczno-ekonomiczny: Średnie wynagrodzenia w regionie i potencjał inwestycyjny miasta.
Różnice cenowe między miastami:
Najwyższe ceny/m²: Warszawa (18 503 PLN) i Kraków (17 135 PLN) – wynikające z roli gospodarczej i turystycznej.
Średnie ceny/m²: Rzeszów (10 803 PLN) i Białystok (10 089 PLN) – rosnący potencjał inwestycyjny.
Najniższe ceny/m²: Radom (6 929 PLN) i Częstochowa (7 034 PLN) – stabilny rynek, mniejsza presja popytowa.
Wpływ odległości od centrum:
Najbardziej cenione cechy mieszkań:
Udogodnienia: Mieszkania z balkonem, miejscem parkingowym lub windą osiągają ceny wyższe niż te bez takich udogodnień, zwłaszcza w dużych aglomeracjach. W miastach takich jak Warszawa i Kraków kluczowym czynnikiem wpływającym na wartość nieruchomości są również dodatkowe usługi w budynkach, np. ochrona czy komórki lokatorskie.
Funkcjonalność: Mieszkania 2-3 pokojowe (50–60 m²) dominują na rynku.
Czynniki lokalizacyjne
Dodatkowe Obserwacje
Demografia a ceny:
W miastach o wyższych średnich wynagrodzeniach (np. Warszawa, Kraków) ceny mieszkań są proporcjonalnie wyższe, co wskazuje na związek między lokalnym rynkiem pracy a wartością nieruchomości.
Regiony o niższych dochodach, takie jak Radom czy Częstochowa, oferują tańsze nieruchomości, ale mają również mniejszy potencjał inwestycyjny.
Trendy rynkowe:
Warszawa i Kraków: Duża zmienność cen, silna konkurencja.
Rzeszów i Białystok: Rosnący popyt, sygnały do inwestycji.
Radom i Częstochowa: Stabilność, ale ograniczony wzrost wartości.
Wnioski i Rekomendacje
Dla kupujących:
W mniejszych miastach warto szukać mieszkań z udogodnieniami, które zwiększają przyszłą wartość nieruchomości.
W dużych aglomeracjach kluczowa jest lokalizacja – nawet mniejsze mieszkania w centrum mogą być lepszą inwestycją.
Dla deweloperów:
W Rzeszowie i Białymstoku istnieje nisza na mieszkania z udogodnieniami (np. parking, winda).
W Warszawie i Krakowie warto inwestować w usługi dodatkowe (np. ochrona, strefy wspólne).
Dla inwestorów:
Miasta średnie (Rzeszów, Białystok) oferują największy potencjał wzrostu cen.
Rynek w Radomiu i Częstochowie jest mniej ryzykowny, ale wymaga długoterminowej strategii.
Podsumowanie
Projekt potwierdził, że ceny mieszkań są wypadkową lokalizacji, cech
fizycznych nieruchomości oraz kontekstu społeczno-gospodarczego.
Największe różnice wynikają z roli miasta w gospodarce, podczas wartość
pojedynczego mieszkania zależy od jego funkcjonalności i bliskości
kluczowej infrastruktury. Wyniki mogą służyć jako punkt wyjścia do
dalszych badań, np. analizy wpływu transportu publicznego na ceny.