Raport - Analiza Danych

1.Wprowadzenie

Celem niniejszego projektu jest przeprowadzenie kompleksowej analizy danych dotyczących rynku nieruchomości mieszkalnych. W pierwszej kolejności przeprowadzona została analiza oczyszczania danych, polegająca na identyfikacji i usunięciu braków danych, wartości odstających oraz nieprawidłowych wpisów. Następnie dokonana została transformacja danych, obejmująca konwersję zmiennych, takich jak kategorie, na zmienne numeryczne, co umożliwiło przeprowadzenie dalszej analizy. Kolejnym etapem była wizualizacja danych, podczas której utworzono wykresy przedstawiające rozkłady zmiennych czy zależności między nimi. Przeprowadzona została także analiza opisowa, obejmująca obliczenie podstawowych statystyk, takich jak średnia, mediana czy odchylenie standardowe dla kluczowych zmiennych. Na podstawie wyników przeprowadzone zostały testy statystyczne, mające na celu ocenę wpływu poszczególnych czynników. Na zakończenie dokonane zostało podsumowanie wyników analizy zbioru danych.

Zbiór danych wykorzystany w analizie zawiera oferty sprzedaży i wynajmu mieszkań z 15 największych miast w Polsce (Warszawa, Łódź, Kraków, Wrocław, Poznań, Gdańsk, Szczecin, Bydgoszcz, Lublin, Katowice, Białystok, Częstochowa). Dane pochodzą z lokalnych stron internetowych z mieszkaniami na sprzedaż. Aby w pełni uchwycić sąsiedztwo każdego mieszkania, każda oferta została rozszerzona o dane z Open Street Map z odległościami do interesujących miejsc (POI). Dane są zbierane co miesiąc i obejmują okres od sierpnia 2023 r. do czerwca 2024 r. Poniższa tabela przedstawia poszczególne nazwy zmiennych zawartych w zbiorze danych oraz ich wyjaśnienia:

Wyjaśnienia zmiennych zawartych w zbiorze danych
zmienna wyjaśnienie
id identyfkator nieruchomości
city nazwa miasta, w którym znajduje się nieruchomość
type typ budynku
squareMeters wielkość mieszkania w metrach kwadratowych
rooms liczba pokoi w mieszkaniu
floor piętro, na którym znajduje się mieszkanie
floorCount całkowita liczba pięter w budynku
buildYear rok, w którym budynek został zbudowany
latitude szerokość geograficzna nieruchomości
longitude długość geograficzna nieruchomości
centreDistance odległość od centrum miasta w kilometrach
poiCount liczba interesujących miejsc w promieniu 500m od mieszkania (szkoły, przychodnie, poczta, przedszkola, restauracje, uczelnie, apteki)
schoolDistance odległość do najbliższej szkoły
clinicDistance odległość do najbliższej przychodni
postOfficeDistance odległość do najbliższej poczty
kindergartenDistane odległość do najbliższego przedszkola
restaurantDistance odległość do najbliższej restauracji
collegeDistance odległość do najbliższej uczelni wyższej
pharmacyDistance odległość do najbliższej apteki
ownership rodzaj własności nieruchomości
buildingMaterial materiał użyty do budowy mieszkania
condition stan mieszkania
hasParkingSpace czy nieruchomość posiada miejsce parkingowe
hasBalcony czy nieruchomość posiada balkon
hasElevator czy nieruchomość posiada windę
hasSecurty czy nieruchomość posiada ochronę
hasStorageRoom czy nieruchomość posiada komórkę lokatorską
price cena ofertowa w złotych polskich

2.Obserwacje odstające

W tym rozdziale analizujemy obserwacje odstające dla kluczowych zmiennych, takich jak cena mieszkań (Price) oraz powierzchnia w metrach kwadratowych (SquareMeters). Została przeprowadzona także wielowymiarowa analiza metodą odległości euklidesowych. Wykorzystane wykresy pozwalają zidentyfikować wartości znacząco odbiegające od typowych, co ma istotny wpływ na dalsze analizy danych.

2.1. Zmienna Price

Poniższy rysunek przedstawia wykres pudełkowy dla zmiennej price. Większość cen mieści się w przedziale 500 000–1 500 000 zł, z licznymi wartościami odstającymi powyżej 3 000 000 zł (935 takich obserwacji). Średnia jest większa od mediany, co wskazuje na prawostronną skośność.

Poniżej zaprezentowany wykres Q-Q pokazuje, że punkty odchylają się od linii teoretycznej (rozkładu normalnego) dla wyższych kwantyli, co potwierdza obecność wielu odstających cen oraz brak zgodności z rozkładem normalnym.

Liczba_odstających_obserwacji
935

2.2. Zmienna SquareMeters

Poniższy rysunek przedstawia wykres pudełkowy dla zmiennej squareMeters. Większość powierzchni mieszkań oscyluje w granicach 40–80 m², a obserwacje odstające występują powyżej 100 m² (663 takie obserwacje). Średnia jest nieco większa od mediany, co wskazuje na prawostronną skośność.

Poniżej zaprezentowany wykres Q-Q pokazuje, że punkty odchylają się od linii teoretycznej (rozkładu normalnego) dla wyższych kwantyli, co potwierdza obecność wielu odstających obserwacji dla zmiennej squareMeters oraz brak zgodności z rozkładem normalnym.

Liczba_odstających_obserwacji
663

2.3. Wielowymiarowa metoda identyfikacji - odległości euklidesowe

Do identyfikacji obserwacji odstających zastosowano metodę odległości euklidesowych w przestrzeni wielowymiarowej, uwzględniając zmienne takie jak cena, powierzchnia, odległość od centrum i innych obiektów. Dane zostały znormalizowane, a następnie obliczono odległości od centroidu. Obserwacje, których odległości przekraczały ustaloną granicę (średnia + 2 odchylenia standardowe), uznano za odstające. W rezultacie zidentyfikowano 328 odstających obserwacji.

dane <- apartments_pl_2024_02[, c("price", "centreDistance", "schoolDistance", "squareMeters", "rooms", "floor", "floorCount", "buildYear", "clinicDistance", "postOfficeDistance", "kindergartenDistance", "restaurantDistance", "collegeDistance", "pharmacyDistance")]

dane <- na.omit(dane)
dane_norm <- scale(dane)
centroid <- colMeans(dane_norm)
odleglosci <- apply(dane_norm, 1, function(x) sqrt(sum((x - centroid)^2)))
srednia <- mean(odleglosci)
odchylenie <- sd(odleglosci)
granica <- srednia + 2 * odchylenie
odstajace_model <- which(odleglosci > granica)
dane_odstajace <- dane[odstajace_model, ]

liczba_odstajacych <- nrow(dane_odstajace)
dane_odstajace <- data.frame(
  "Liczba odstających obserwacji" = liczba_odstajacych
)
knitr::kable(dane_odstajace)
Liczba.odstających.obserwacji
328

3.Identyfikacja i analiza braków danych

W poniższym rozdziale została omówiona identyfikacja oraz analiza braków danych w analizowanym zbiorze danych, dotyczącym mieszkań. Początkowo ustaliliśmy typ obserwacji brakujących, identyfikując mechanizm braków danych w zbiorze. Poniższa tabela przedstawia zmienne wraz z przypisanym typem braku danych oraz wyjaśnieniem, dlaczego dany typ braku obserwacji został przypisany do poszczególnych zmiennych.

##  Missing Completely at Random (MCAR)
Zmienna Wyjaśnienie
type Braki w tej kolumnie prawdopodobnie są losowe. Typ nieruchomości nie wydaje się być zależny od innych zmiennych, więc brak danych można przypisać MCAR.
schoolDistance, clinicDistance, postOfficeDistance, kindergartenDistance, restaurantDistance, pharmacyDistance Braki w odległościach od tych placówek wydają się być losowe, ponieważ nie są zależne od innych zmiennych w zbiorze danych.
##  Missing at Random (MAR)
Zmienna Wyjaśnienie
floor Braki w danych dotyczących piętra mogą być zależne od zmiennych takich jak typ nieruchomości lub liczba pięter w budynku, co wskazuje na MAR.
floorCount Braki w liczbie pięter mogą być powiązane z typem budynku (np. starsze budynki mogą mieć niepełne dane), co oznacza, że mechanizm to MAR.
collegeDistance Odległość od uczelni może mieć braki zależne od lokalizacji nieruchomości, np. w mniejszych miastach bez uczelni.
buildingMaterial Braki w tej zmiennej mogą być zależne od takich czynników jak wiek budynku lub typ nieruchomości (np. starsze budynki mogą mieć niepełne dane).
hasElevator Braki w tej kolumnie mogą być związane z liczbą pięter lub typem budynku (np. budynki parterowe często nie mają windy).
##  Missing Not at Random (MNAR)
Zmienna Wyjaśnienie
buildYear Jeśli rok budowy jest pomijany celowo w starszych budynkach z brakującą dokumentacją, to mechanizm braków to MNAR.
condition Braki w stanie nieruchomości mogą być powiązane z samą zmienną – np. właściciele nieruchomości w złym stanie mogą unikać podawania tej informacji.

Liczba wszystkich obserwacji w zbiorze danych wynosi 458108, w tym obserwacji kompletnych jest 428407, natomiast liczba wartości brakujących wynosi 29701. Obserwacje brakujące stanowią 6,5% obserwacji z całego zbioru danych.

Wartości_brakujące
29701
Wartości.kompletne
428407

Poniższy wykres przedstawia rozkład obserwacji brakujących z podziałem na zmienne występujące w zbiorze danych. Braki danych występują w 14 kolumnach: condition, buildingMaterial, type, floor, buildYear, hasElevator, collegeDistance, floorCount, clinicDistance, restaurantDistance, kindergartenDistance, pharmacyDistance, postOfficeDistance, schoolDistance. Braki danych stanowią 6,5% wszystkich obserwacji, najwięcej braków występuje w kolumnie condition (76%) oraz w kolumnie buildingMaterial (40%).

Poniższy wykres przedstawia rozkład braków danych w poszczególnych kolumnach z podziałem na konkretne miasta, które uwzględnione są w zbiorze danych. Najwięcej braków danych występuje w kolumnie condition w Gdańsku oraz Gdynii. Najmnniej braków danych można zauważyć w Szczecinie.

4.Zamiana NA

W tym rozdziale przedstawiono metody uzupełniania braków danych (NA) w zbiorze, które mogą wpływać na jakość analiz. Wykorzystano dwie techniki: drzewa decyzyjne, które przewidują brakujące wartości na podstawie wzorców w danych, oraz metodę hot-deck, polegającą na uzupełnianiu NA wartościami zbliżonych obserwacji.

4.1.Metoda drzewa decyzyjnego

Metodę drzewa decyzyjnego wykorzystaliśmy do imputacji brakujących danych, budując modele predykcyjne oparte na wzajemnych zależnościach między zmiennymi. Użyliśmy jej do zmiennej jakościowej type, bazując na takich cechach jak buildYear, centreDistance, hasElevator, hasSecurity i condition oraz do zmiennych ilościowych floor i floorCount, wykorzystując m.in. buildYear, hasElevator, condition i inne. Modele powstały przy użyciu funkcji rpart, a brakujące wartości zostały uzupełnione na podstawie przewidywań. Na koniec potwierdziliśmy, że wszystkie imputacje zakończyły się sukcesem.

#Zamiana NA w kolumnie TYPE za pomocą metody drzewa decyzyjnego
apartments_pl_2024_02$type <-as.factor(apartments_pl_2024_02$type)
model <- rpart(type ~ buildYear + centreDistance + hasElevator + hasSecurity + condition , data = apartments_pl_2024_02, method = "class", na.action = na.exclude) 
rpart.plot(model)

NA_type <- is.na(apartments_pl_2024_02$type)
apartments_pl_2024_02$type[NA_type] <- predict(model, apartments_pl_2024_02[NA_type, ], type = "class")
#sprawdzenie kolumny type; w kolumnie type brak NA 
n_miss<-n_miss(apartments_pl_2024_02$type)
n_miss<-data.frame(
  "Ilość_NA_w_type" = n_miss
)
knitr::kable(n_miss)
Ilość_NA_w_type
0

4.2.Metoda Hotdeck

Metodę hotdeck zastosowaliśmy do imputacji brakujących danych w zmiennych, takich jak odległości od różnych placówek (collegeDistance, clinicDistance, restaurantDistance, kindergartenDistance, pharmacyDistance, postOfficeDistance, schoolDistance), oraz w zmiennej jakościowych condition i do zmiennej hasElevator. Metoda ta polega na uzupełnianiu braków na podstawie losowego wyboru wartości z podobnych obserwacji w zbiorze danych, dzięki czemu zachowana zostaje spójność i struktura danych. Po imputacji potwierdziliśmy brak wartości brakujących w tych zmiennych.Poniżej została przedstawiona ilość braków danych dla zmiennej “condition” przed wykonaniem metody hotdeck.

Ilość_NA_w_CONDITION_przed_Hotdeck
12365

Po wdrożeniu metody hotdeck ilość brakujących danych dla zmiennej condition oraz dla całego zbioru danych wyniosła 0. Metoda hotdeck oraz metoda drzewa decyzyjnego przyniosła oczekiwane skutki, co potwierdzają poniższe tabele oraz wykres przedstawiający ilość braków danych.

Ilość_NA_w_CONDITION_po_Hotdeck
0
Ilość_NA_w_całej_tabeli
0

5.Walidacja danych

Zweryfikowaliśmy nasze dane według ustalonych przez nas reguł, sprawdzając poprawność atrybutów . Wszystkie obserwacje spełniają określone reguły, co potwierdzają wyniki i wykres “Validation Results by Rule”.

#Tworzenie reguł
rules <- validator(
  squareMeters>=0 
  , rooms >= 0
  , floor >= 0
  , floor <= floorCount
  , floorCount >= 0
  , buildYear >= 0
  , buildYear <= 2024
  , squareMeters > rooms
  , latitude >= 0
  , longitude >= 0
  , centreDistance >= 0
  , poiCount >= 0
  , schoolDistance >= 0
  , clinicDistance >= 0
  , postOfficeDistance >= 0
  , kindergartenDistance >= 0
  , restaurantDistance >= 0
  , collegeDistance >= 0
  , pharmacyDistance >= 0
  , price >= 0
  , if (hasElevator == "yes") floorCount >= 1
  , latitude >= 49 & latitude <= 55 & longitude >= 14 & longitude <= 24
)

cf <- confront(apartments_pl_2024_02, rules, key="id")
plot(cf, main="aparments_pl_2024_02")

Dodatkowo sprawdziliśmy, czy w zmiennych binarnych, które występują w naszych danych występują tylko dwie opcje - „yes” i „no”

unique(apartments_pl_2024_02$hasElevator)
## [1] "yes" "no"
unique(apartments_pl_2024_02$hasParkingSpace)
## [1] "no"  "yes"
unique(apartments_pl_2024_02$hasBalcony)
## [1] "no"  "yes"
unique(apartments_pl_2024_02$hasSecurity)
## [1] "no"  "yes"
unique(apartments_pl_2024_02$hasStorageRoom)
## [1] "no"  "yes"

6.Wizualizacja danych

Wizualizacja danych jest kluczowym narzędziem w procesie analizy, umożliwiającym przedstawienie złożonych informacji w przystępny i graficzny sposób. W tym rozdziale zaprezentowano różnorodne wykresy, które pomagają zidentyfikować wzorce, zależności oraz potencjalne odstępstwa w zbiorze danych.

Poniższy wykres przedstawia zależność między ceną mieszkań a ich powierzchnią w różnych miastach Polski. Analiza wykazała, że większe mieszkania są droższe, co potwierdza pozytywną korelację między ceną a powierzchnią, szczególnie widoczną w miastach takich jak Warszawa, Kraków i Gdańsk, gdzie ceny są wyraźnie wyższe. Warszawa dominuje pod względem wysokich cen, podczas gdy miasta jak Radom, Rzeszów czy Częstochowa charakteryzują się niższymi cenami przy podobnych powierzchniach. Wykres wyraźnie ilustruje różnice między miastami oraz wpływ liczby pokoi na ceny mieszkań.

Poniższy wykres przedstawia rozkład cen mieszkań w formie funkcji gęstości. Widać, że większość mieszkań ma ceny skoncentrowane w niższym przedziale, poniżej 1 miliona złotych, co oznacza, że jest ich najwięcej. Rozkład cen mieszkań jest asymetryczny. Wartość modalna (najwyższy punkt krzywej) odpowiada cenie najczęściej występującej w zbiorze danych. Ogólny trend pokazuje, że ceny mieszkań w większości przypadków nie przekraczają 2 milionów złotych, a bardzo drogie mieszkania powyżej 2-3 milionów stanowią wyjątek.

Poniższy wykres pudełkowy przedstawia rozkład cen mieszkań w różnych polskich miastach. Każdy boks ilustruje medianę (linia wewnątrz pudełka), kwartyle (dolny i górny brzeg pudełka) oraz rozstęp międzykwartylowy, a punkty poza wąsami wskazują na wartości odstające. Warszawa i Kraków wyróżniają się najwyższymi medianami cen mieszkań, a także dużą liczbą wartości odstających, co sugeruje szeroki zakres cen, w tym wiele drogich mieszkań. Wrocław, Gdańsk i Gdynia również cechują się wysokimi cenami, choć nie tak ekstremalnymi jak w Warszawie. Miasta takie jak Białystok, Częstochowa, Radom i Rzeszów charakteryzują się najniższymi medianami cen, co wskazuje na bardziej przystępne ceny mieszkań.

Poniższy wykres przedstawia zależność między ceną mieszkań a rokiem ich budowy. Z analizy wynika, że nowsze mieszkania, szczególnie te wybudowane po 2000 roku, osiągają wyraźnie wyższe ceny, co wskazuje na pozytywną korelację między ceną a rokiem budowy. Warto również zwrócić uwagę na różnice w cenach w zależności od liczby pokoi – większe mieszkania (reprezentowane przez intensywniejsze kolory na wykresie) są zdecydowanie droższe. Mimo ogólnej tendencji wzrostu cen w miarę postępującej daty budowy, rozrzut cen w starszych budynkach jest znacznie większy, co sugeruje, że czynniki takie jak standard wykończenia, lokalizacja oraz indywidualne cechy mieszkań mogą mieć kluczowy wpływ na ostateczną cenę.

Poniższy wykres przedstawia rozkład powierzchni mieszkań na rynku mieszkaniowym w Polsce. Z analizy wynika, że dominują mieszkania o powierzchni między 40 a 60 m², co odzwierciedla typową strukturę rynku, szczególnie w większych miastach. Mniejsze mieszkania, do 40 m², zazwyczaj posiadają 1–2 pokoje. Mieszkania o większej powierzchni, powyżej 80 m², występują znacznie rzadziej i zazwyczaj mają 4 pokoje lub więcej.

Poniższy wykres przedstawia rozkład powierzchni mieszkań w różnych miastach, pokazując znaczące różnice między dużymi aglomeracjami a mniejszymi miastami. W dużych miastach, takich jak Warszawa czy Kraków, widoczna jest większa różnorodność mieszkań – od małych kawalerek po przestronne mieszkania. Z kolei w mniejszych miastach, takich jak Radom czy Częstochowa, dominują mniejsze mieszkania. W miastach o wyższych cenach, takich jak Warszawa czy Gdańsk, przeważają większe lokale. Natomiast w mniejszych miastach częściej spotyka się mieszkania 1–2-pokojowe.

7.Analiza opisowa

Analiza opisowa pozwala na podsumowanie kluczowych cech zbioru danych za pomocą miar statystycznych, takich jak średnia, mediana czy odchylenie standardowe. W tym rozdziale przedstawiono szczegółowe statystyki dla wybranych zmiennych, co stanowi podstawę do dalszej analizy.

Wykres przedstawia zależność między ceną nieruchomości a odległością od centrum w różnych miastach Polski. W dużych miastach, jak Warszawa, Gdańsk czy Kraków, ceny nieruchomości są najwyższe blisko centrum i spadają wraz z odległością. W mniejszych miastach, jak Radom czy Rzeszów, ceny są niższe, a wpływ odległości od centrum mniej wyraźny.

Poniższa tabela przedstawia obliczone statystyki opisowe w zależności od miasta. Warszawa ma najwyższą średnią cenę (1 072 035 zł) i średnią powierzchnię nieruchomości(60,78 m²), a Częstochowa najniższą średnią cenę (366 595 zł) oraz średnią powierzchnię nieruchomości (53,77 m²). Gdynia wyróżnia się największą średnią powierzchnią (66,62 m²), a Białystok najniższą liczbą pokoi (2,56). W większości miast średnia liczba pokoi oscyluje wokół 2,5-3, a ceny są wyższe w miastach dużych, takich jak Gdańsk, Gdynia, Kraków czy Warszawa.

Średnie wartości dla różnych miast
city Średnia_Cena Mediana_Cena Średnia_Powierzchnia Mediana_Powierzchnia Średnia_Liczba_Pokoi
bialystok 478027.4 456500.0 52.06022 49.430 2.564516
bydgoszcz 440022.8 389000.0 56.83473 52.400 2.655602
czestochowa 366595.3 337500.0 53.77362 50.000 2.402010
gdansk 875209.1 779000.0 59.23886 56.000 2.735928
gdynia 903790.6 755000.0 66.62311 60.200 2.955291
katowice 507861.5 469850.0 60.61553 57.000 2.773973
krakow 946418.7 816000.0 57.13444 50.960 2.639951
lodz 448752.4 409100.0 55.08574 50.000 2.483155
lublin 585448.4 550000.0 62.86574 61.000 2.921397
poznan 672954.2 630000.0 62.35809 58.960 2.812041
radom 373962.2 359000.0 57.33393 54.875 2.709016
rzeszow 576624.8 549999.5 58.84770 56.935 2.833333
szczecin 564549.7 529950.0 65.39420 60.000 2.855482
warszawa 1072035.4 908000.0 60.78143 56.000 2.731135
wroclaw 745998.4 690000.0 58.07352 55.000 2.650208

Poniższa tabela przedstawia staytstyki opisowe dla zmiennych ilościowych. Średnia powierzchnia wynosi 59,45 m², a mediana 55,1 m², co oznacza, że połowa nieruchomości ma powierzchnię mniejszą lub równą 55,1 m². Skala powierzchni jest szeroka, od 25 m² do 150 m². Średnia liczba pokoi wynosi 2,7, z medianą równą 3. To sugeruje, że większość nieruchomości ma 3 pokoje lub mniej, a skala waha się od 1 do 6 pokoi. Średnia cena nieruchomości to 821 616,49 zł, a mediana wynosi 720 000 zł. Ceny w tym przypadku rozciągają się od 176 000 zł do 3 250 000 zł, co wskazuje na dużą zmienność cen nieruchomości. Średni rok budowy to 1986,64, a mediana to 1997. Nieruchomości zostały wybudowane między 1850 a 2024 rokiem, co sugeruje zróżnicowany wiek budynków.

Podstawowe statystyki opisowe
Zmienna Średnia Mediana Min Max
Powierzchnia (m2) 59.45 55.1 25 150
Liczba pokoi 2.70 3.0 1 6
Cena 821616.49 720000.0 176000 3250000
Rok budowy 1986.70 1997.0 1850 2024

Tablica kontyngencji pokazuje, że budynki o niskim standardzie (low) częściej są budowane z cegły (5071) niż z wielkiej płyty (1517). Podobna zależność występuje w budynkach o wyższym standardzie (premium), gdzie dominuje cegła (7881) nad wielką płytą (1892). Ogólnie cegła jest bardziej popularnym materiałem niezależnie od standardu budynku.

Stan budynku vs. Materiał budowy (Tablica kontyngencji)
brick concreteSlab
low 5317 1582
premium 7661 1801

Następna tablica kontyngencji pokazuje, że w budynkach o niskim standardzie (low) więcej mieszkań nie posiada balkonu (2895) niż go posiada (3693), choć różnica nie jest duża. W budynkach o wyższym standardzie (premium) balkony są bardziej powszechne, ponieważ częściej występują (5532) niż ich brak (4241). Wyższy standard budynku wyraźnie wiąże się z większą obecnością udogodnień, takich jak balkon.

Stan budynku vs. Balkon (Tablica kontyngencji)
no yes
low 3023 3876
premium 4113 5349

Boxplot pokazuje, że cena mieszkań rośnie wraz z liczbą pokoi. Mieszkania jednopokojowe mają najniższe mediany cen, podczas gdy największe (6-pokojowe) są najdroższe, z najszerszym zakresem cen. Rozrzut cen jest większy w mieszkaniach z większą liczbą pokoi, co wskazuje na większą różnorodność w tej grupie. Widać również liczne wartości odstające, szczególnie dla mieszkań 3-pokojowych i większych.

Poniższa tabela przedstawia rozkład liczebności mieszkań w zależności od ich powierzchni, wyniki te zostały również zaprezentowane na histogramie , który nie ma rozkładu normalnego i charakteryzuje się prawoskośnością. Na podstawie wyników można stwierdzić, że najwięcej mieszkań znajduje się w przedziałe (45,55] m2 - 3786 mieszkań. Co więcej wraz ze wzrostem powierzchni mieszkań obserwuje się wyraźny spadek liczebności. Mieszkania o powierzchni powyżej 100 m² stanowią niewielki odsetek całości. Przedział (105,115] m² obejmuje tylko 256 mieszkań, a w zakresie (145,155] m² ich liczba spada do zaledwie 42.

Podział na przedziały powierzchni mieszkań i ich liczebność
Przedział powierzchni (m2) Liczebność
[25,35] 1408
(35,45] 2972
(45,55] 3786
(55,65] 3187
(65,75] 1915
(75,85] 1194
(85,95] 686
(95,105] 489
(105,115] 256
(115,125] 171
(125,135] 151
(135,145] 104
(145,155] 42

8.Testy

W niniejszym rozdziale przedstawiono zastosowane testy statystyczne, które posłużyły do analizy danych oraz oceny zależności między zmiennymi. Przeprowadzone testy mają na celu weryfikację hipotez badawczych oraz dostarczenie rzetelnych podstaw do interpretacji wyników. Wykorzystano zarówno testy dla zmiennych jakościowych, jak i ilościowych, co pozwoliło na wszechstronne spojrzenie na zależności w danych.

Poniższy wykres pochodzi z testu statystycznego dla dwóch zmiennych jakościowych – type oraz buildingMaterial. Wartość testu chi-kwadrat wynosi 1987.50 z istotnością p = 0.00, co oznacza, że istnieje istotna statystycznie zależność między materiałem budowlanym a typem budynku. Wartość współczynnika V cramera wynosi 0.35, co wskazuje na umiarkowaną siłę zależności między zmiennymi (0-Brak związku, 1- silna pełna zależność). Materiał concreteSlab dominuje w blokach mieszkalnych (93%), a udział innych typów budynków (kamienic, apartamentowców) jest nieznaczący.

Poniższy wykres przedstawia test badania zależności ilościowych pomiędzy zmiennymi buildYear (rok budowy) i price (cena). Współczynnik korelacji Pearsona wynosi 0.11 co wskazuje na bardzo słabą zależność między rokiem budowy a ceną. Przedział ufności 95% dla r Pearsona to [0.10, 0.13], co potwierdza, że współczynnik korelacji jest niewielki, ale istotny statystycznie. Istotność statystyczna (p=2.17e−48) wskazuje, że zależność jest istotna statystycznie. Niebieska linia regresji wskazuje ogólną tendencję rosnącą – im nowszy budynek, tym wyższa cena. Punkty są jednak bardzo rozproszone, co potwierdza niską wartość współczynnika korelacji. Istnieje bardzo słaba, ale istotna statystycznie zależność między rokiem budowy a ceną nieruchomości. Nowsze budynki mają tendencję do bycia droższymi, jednak siła tej zależności jest niewielka.

Poniższy wykres przedstawia rozkład zmiennej squareMeters. Rozkład jest asymetryczny, co wskazuje na brak normalności. W związku z tym wykonaliśmy porównanie dokładne parami między zmienną ilościową - squareMeters, a zmienną jakościową - hasParkingSpace. Wyniki testu wskazują, że różnica pomiędzy grupami jest istotna statystycznie (W=2,28*e+07, p <0,05). Mediana powierzchni mieszkań bez miejsca parkingowego wynosi około 55 m², natomiast z miejscem parkingowym około 50 m². Współczynnik korelacji rangowej (rbiserial =−0.14) sugeruje słabą, ujemną zależność między posiadaniem miejsca parkingowego a powierzchnią mieszkania. Mieszkania z miejscem parkingowym mają tendencję do posiadania nieco mniejszej powierzchni w porównaniu z mieszkaniami bez miejsca parkingowego.

Poniżej przeprowadzono test jednej próby, porównując średnią odległość mieszkań od centrum miasta (centreDistance) z wartością ustaloną na 2 km. Wyniki wskazują, że średnia odległość wynosi 4,33 kilometra i jest istotnie większa od wartości testowej 2 kilometry. Rozkład zmiennej centreDistance, przedstawiony na histogramie, jest prawoskośny, co wskazuje, że większość mieszkań znajduje się dalej od centrum niż ustalona wartość testowa.

9.Podsumowanie

W ramach przeprowadzonej analizy rynku nieruchomości mieszkalnych wykonaliśmy szereg kluczowych etapów. Pierwszym krokiem było kompleksowe przygotowanie danych, obejmujące identyfikację wartości odstających oraz analizę braków danych, co pozwoliło na ocenę jakości zbioru i konieczność jego uzupełnienia. W celu poprawy kompletności danych zastosowaliśmy różne metody imputacji, w tym metodę hot-deck oraz drzewa decyzyjne, które pozwoliły na estymację brakujących wartości w sposób jak najbardziej zbliżony do rzeczywistych trendów rynkowych. Kolejnym etapem analizy była eksploracyjna analiza danych (EDA), której istotnym elementem była wizualizacja rozkładu cen nieruchomości oraz kluczowych zależności rynkowych. Dzięki różnorodnym wykresom i statystykom udało nam się zidentyfikować główne czynniki wpływające na ceny mieszkań oraz uchwycić potencjalne anomalie w zbiorze. Następnie przeprowadziliśmy analizę opisową, która pozwoliła na szczegółowe scharakteryzowanie danych, oraz testy statystyczne, umożliwiające weryfikację istotności wpływu poszczególnych zmiennych na cenę nieruchomości.

10.Wnioski

Analiza jednoznacznie wykazała, że lokalizacja pozostaje kluczowym czynnikiem determinującym wartość nieruchomości, a czynniki takie jak metraż i rok budowy również odgrywają istotną rolę, choć ich wpływ może różnić się w zależności od specyfiki badanego rynku. Wyniki przeprowadzonych testów statystycznych potwierdziły silne zależności między ceną a wybranymi zmiennymi, co wskazuje na możliwość skutecznego modelowania i prognozowania wartości nieruchomości na podstawie tych danych.

Jednym z najważniejszych wniosków wynikających z analizy jest istotność właściwego przygotowania danych. Proces oczyszczania, imputacji braków oraz eliminacji wartości odstających miał bezpośredni wpływ na jakość uzyskanych wyników i skuteczność późniejszych analiz. W przyszłości warto rozszerzyć badanie o dodatkowe testy statystyczne oraz modele predykcyjne, co mogłoby jeszcze precyzyjniej uchwycić mechanizmy kształtujące ceny nieruchomości. Ponadto, uwzględnienie dodatkowych zmiennych, takich jak wskaźniki ekonomiczne, poziom infrastruktury w okolicy czy dane o popycie i podaży, mogłoby jeszcze bardziej wzbogacić analizę i dostarczyć cennych informacji dla przyszłych badań nad rynkiem nieruchomości.