Raport - Analiza Danych

1.Wprowadzenie

Celem niniejszego projektu jest przeprowadzenie kompleksowej analizy danych dotyczących rynku nieruchomości mieszkalnych. W pierwszej kolejności przeprowadzona została analiza oczyszczania danych, polegająca na identyfikacji i usunięciu braków danych, wartości odstających oraz nieprawidłowych wpisów. Następnie dokonana została transformacja danych, obejmująca konwersję zmiennych, takich jak kategorie, na zmienne numeryczne, co umożliwiło przeprowadzenie dalszej analizy. Kolejnym etapem była wizualizacja danych, podczas której utworzono wykresy przedstawiające rozkłady zmiennych czy zależności między nimi. Przeprowadzona została także analiza opisowa, obejmująca obliczenie podstawowych statystyk, takich jak średnia, mediana czy odchylenie standardowe dla kluczowych zmiennych. Na podstawie wyników przeprowadzone zostały testy statystyczne, mające na celu ocenę wpływu poszczególnych czynników. Na zakończenie dokonane zostało podsumowanie wyników analizy zbioru danych.

Zbiór danych wykorzystany w analizie zawiera oferty sprzedaży i wynajmu mieszkań z 15 największych miast w Polsce (Warszawa, Łódź, Kraków, Wrocław, Poznań, Gdańsk, Szczecin, Bydgoszcz, Lublin, Katowice, Białystok, Częstochowa). Dane pochodzą z lokalnych stron internetowych z mieszkaniami na sprzedaż. Aby w pełni uchwycić sąsiedztwo każdego mieszkania, każda oferta została rozszerzona o dane z Open Street Map z odległościami do interesujących miejsc (POI). Dane są zbierane co miesiąc i obejmują okres od sierpnia 2023 r. do czerwca 2024 r. Poniższa tabela przedstawia poszczególne nazwy zmiennych zawartych w zbiorze danych oraz ich wyjaśnienia:

Wyjaśnienia zmiennych zawartych w zbiorze danych
zmienna	wyjaśnienie
id	identyfkator nieruchomości
city	nazwa miasta, w którym znajduje się nieruchomość
type	typ budynku
squareMeters	wielkość mieszkania w metrach kwadratowych
rooms	liczba pokoi w mieszkaniu
floor	piętro, na którym znajduje się mieszkanie
floorCount	całkowita liczba pięter w budynku
buildYear	rok, w którym budynek został zbudowany
latitude	szerokość geograficzna nieruchomości
longitude	długość geograficzna nieruchomości
centreDistance	odległość od centrum miasta w kilometrach
poiCount	liczba interesujących miejsc w promieniu 500m od mieszkania (szkoły, przychodnie, poczta, przedszkola, restauracje, uczelnie, apteki)
schoolDistance	odległość do najbliższej szkoły
clinicDistance	odległość do najbliższej przychodni
postOfficeDistance	odległość do najbliższej poczty
kindergartenDistane	odległość do najbliższego przedszkola
restaurantDistance	odległość do najbliższej restauracji
collegeDistance	odległość do najbliższej uczelni wyższej
pharmacyDistance	odległość do najbliższej apteki
ownership	rodzaj własności nieruchomości
buildingMaterial	materiał użyty do budowy mieszkania
condition	stan mieszkania
hasParkingSpace	czy nieruchomość posiada miejsce parkingowe
hasBalcony	czy nieruchomość posiada balkon
hasElevator	czy nieruchomość posiada windę
hasSecurty	czy nieruchomość posiada ochronę
hasStorageRoom	czy nieruchomość posiada komórkę lokatorską
price	cena ofertowa w złotych polskich

2.Obserwacje odstające

W tym rozdziale analizujemy obserwacje odstające dla kluczowych zmiennych, takich jak cena mieszkań (Price) oraz powierzchnia w metrach kwadratowych (SquareMeters). Została przeprowadzona także wielowymiarowa analiza metodą odległości euklidesowych. Wykorzystane wykresy pozwalają zidentyfikować wartości znacząco odbiegające od typowych, co ma istotny wpływ na dalsze analizy danych.

2.1. Zmienna Price

Poniższy rysunek przedstawia wykres pudełkowy dla zmiennej price. Większość cen mieści się w przedziale 500 000–1 500 000 zł, z licznymi wartościami odstającymi powyżej 3 000 000 zł (935 takich obserwacji). Średnia jest większa od mediany, co wskazuje na prawostronną skośność.

Poniżej zaprezentowany wykres Q-Q pokazuje, że punkty odchylają się od linii teoretycznej (rozkładu normalnego) dla wyższych kwantyli, co potwierdza obecność wielu odstających cen oraz brak zgodności z rozkładem normalnym.

Liczba_odstających_obserwacji
935

2.2. Zmienna SquareMeters

Poniższy rysunek przedstawia wykres pudełkowy dla zmiennej squareMeters. Większość powierzchni mieszkań oscyluje w granicach 40–80 m², a obserwacje odstające występują powyżej 100 m² (663 takie obserwacje). Średnia jest nieco większa od mediany, co wskazuje na prawostronną skośność.

Liczba_odstających_obserwacji
663

2.3. Wielowymiarowa metoda identyfikacji - odległości euklidesowe

Do identyfikacji obserwacji odstających zastosowano metodę odległości euklidesowych w przestrzeni wielowymiarowej, uwzględniając zmienne takie jak cena, powierzchnia, odległość od centrum i innych obiektów. Dane zostały znormalizowane, a następnie obliczono odległości od centroidu. Obserwacje, których odległości przekraczały ustaloną granicę (średnia + 2 odchylenia standardowe), uznano za odstające. W rezultacie zidentyfikowano 328 odstających obserwacji.

dane <- apartments_pl_2024_02[, c("price", "centreDistance", "schoolDistance", "squareMeters", "rooms", "floor", "floorCount", "buildYear", "clinicDistance", "postOfficeDistance", "kindergartenDistance", "restaurantDistance", "collegeDistance", "pharmacyDistance")]

dane <- na.omit(dane)
dane_norm <- scale(dane)
centroid <- colMeans(dane_norm)
odleglosci <- apply(dane_norm, 1, function(x) sqrt(sum((x - centroid)^2)))
srednia <- mean(odleglosci)
odchylenie <- sd(odleglosci)
granica <- srednia + 2 * odchylenie
odstajace_model <- which(odleglosci > granica)
dane_odstajace <- dane[odstajace_model, ]

liczba_odstajacych <- nrow(dane_odstajace)
dane_odstajace <- data.frame(
  "Liczba odstających obserwacji" = liczba_odstajacych
)
knitr::kable(dane_odstajace)

Liczba.odstających.obserwacji
328

3.Identyfikacja i analiza braków danych

W poniższym rozdziale została omówiona identyfikacja oraz analiza braków danych w analizowanym zbiorze danych, dotyczącym mieszkań. Początkowo ustaliliśmy typ obserwacji brakujących, identyfikując mechanizm braków danych w zbiorze. Poniższa tabela przedstawia zmienne wraz z przypisanym typem braku danych oraz wyjaśnieniem, dlaczego dany typ braku obserwacji został przypisany do poszczególnych zmiennych.

##  Missing Completely at Random (MCAR)

Zmienna	Wyjaśnienie
type	Braki w tej kolumnie prawdopodobnie są losowe. Typ nieruchomości nie wydaje się być zależny od innych zmiennych, więc brak danych można przypisać MCAR.
schoolDistance, clinicDistance, postOfficeDistance, kindergartenDistance, restaurantDistance, pharmacyDistance	Braki w odległościach od tych placówek wydają się być losowe, ponieważ nie są zależne od innych zmiennych w zbiorze danych.

##  Missing at Random (MAR)

Zmienna	Wyjaśnienie
floor	Braki w danych dotyczących piętra mogą być zależne od zmiennych takich jak typ nieruchomości lub liczba pięter w budynku, co wskazuje na MAR.
floorCount	Braki w liczbie pięter mogą być powiązane z typem budynku (np. starsze budynki mogą mieć niepełne dane), co oznacza, że mechanizm to MAR.
collegeDistance	Odległość od uczelni może mieć braki zależne od lokalizacji nieruchomości, np. w mniejszych miastach bez uczelni.
buildingMaterial	Braki w tej zmiennej mogą być zależne od takich czynników jak wiek budynku lub typ nieruchomości (np. starsze budynki mogą mieć niepełne dane).
hasElevator	Braki w tej kolumnie mogą być związane z liczbą pięter lub typem budynku (np. budynki parterowe często nie mają windy).

##  Missing Not at Random (MNAR)

Zmienna	Wyjaśnienie
buildYear	Jeśli rok budowy jest pomijany celowo w starszych budynkach z brakującą dokumentacją, to mechanizm braków to MNAR.
condition	Braki w stanie nieruchomości mogą być powiązane z samą zmienną – np. właściciele nieruchomości w złym stanie mogą unikać podawania tej informacji.

Liczba wszystkich obserwacji w zbiorze danych wynosi 458108, w tym obserwacji kompletnych jest 428407, natomiast liczba wartości brakujących wynosi 29701. Obserwacje brakujące stanowią 6,5% obserwacji z całego zbioru danych.

Wartości_brakujące
29701

Wartości.kompletne
428407

Poniższy wykres przedstawia rozkład obserwacji brakujących z podziałem na zmienne występujące w zbiorze danych. Braki danych występują w 14 kolumnach: condition, buildingMaterial, type, floor, buildYear, hasElevator, collegeDistance, floorCount, clinicDistance, restaurantDistance, kindergartenDistance, pharmacyDistance, postOfficeDistance, schoolDistance. Braki danych stanowią 6,5% wszystkich obserwacji, najwięcej braków występuje w kolumnie condition (76%) oraz w kolumnie buildingMaterial (40%).

Poniższy wykres przedstawia rozkład braków danych w poszczególnych kolumnach z podziałem na konkretne miasta, które uwzględnione są w zbiorze danych. Najwięcej braków danych występuje w kolumnie condition w Gdańsku oraz Gdynii. Najmnniej braków danych można zauważyć w Szczecinie.

4.Zamiana NA

W tym rozdziale przedstawiono metody uzupełniania braków danych (NA) w zbiorze, które mogą wpływać na jakość analiz. Wykorzystano dwie techniki: drzewa decyzyjne, które przewidują brakujące wartości na podstawie wzorców w danych, oraz metodę hot-deck, polegającą na uzupełnianiu NA wartościami zbliżonych obserwacji.

4.1.Metoda drzewa decyzyjnego

Metodę drzewa decyzyjnego wykorzystaliśmy do imputacji brakujących danych, budując modele predykcyjne oparte na wzajemnych zależnościach między zmiennymi. Użyliśmy jej do zmiennej jakościowej type, bazując na takich cechach jak buildYear, centreDistance, hasElevator, hasSecurity i condition oraz do zmiennych ilościowych floor i floorCount, wykorzystując m.in. buildYear, hasElevator, condition i inne. Modele powstały przy użyciu funkcji rpart, a brakujące wartości zostały uzupełnione na podstawie przewidywań. Na koniec potwierdziliśmy, że wszystkie imputacje zakończyły się sukcesem.

#Zamiana NA w kolumnie TYPE za pomocą metody drzewa decyzyjnego
apartments_pl_2024_02$type <-as.factor(apartments_pl_2024_02$type)
model <- rpart(type ~ buildYear + centreDistance + hasElevator + hasSecurity + condition , data = apartments_pl_2024_02, method = "class", na.action = na.exclude) 
rpart.plot(model)

NA_type <- is.na(apartments_pl_2024_02$type)
apartments_pl_2024_02$type[NA_type] <- predict(model, apartments_pl_2024_02[NA_type, ], type = "class")
#sprawdzenie kolumny type; w kolumnie type brak NA 
n_miss<-n_miss(apartments_pl_2024_02$type)
n_miss<-data.frame(
  "Ilość_NA_w_type" = n_miss
)
knitr::kable(n_miss)

Ilość_NA_w_type
0

4.2.Metoda Hotdeck

Metodę hotdeck zastosowaliśmy do imputacji brakujących danych w zmiennych, takich jak odległości od różnych placówek (collegeDistance, clinicDistance, restaurantDistance, kindergartenDistance, pharmacyDistance, postOfficeDistance, schoolDistance), oraz w zmiennej jakościowych condition i do zmiennej hasElevator. Metoda ta polega na uzupełnianiu braków na podstawie losowego wyboru wartości z podobnych obserwacji w zbiorze danych, dzięki czemu zachowana zostaje spójność i struktura danych. Po imputacji potwierdziliśmy brak wartości brakujących w tych zmiennych.Poniżej została przedstawiona ilość braków danych dla zmiennej “condition” przed wykonaniem metody hotdeck.

Ilość_NA_w_CONDITION_przed_Hotdeck
12365

Po wdrożeniu metody hotdeck ilość brakujących danych dla zmiennej condition oraz dla całego zbioru danych wyniosła 0. Metoda hotdeck oraz metoda drzewa decyzyjnego przyniosła oczekiwane skutki, co potwierdzają poniższe tabele oraz wykres przedstawiający ilość braków danych.

Ilość_NA_w_CONDITION_po_Hotdeck
0

Ilość_NA_w_całej_tabeli
0

5.Walidacja danych

Zweryfikowaliśmy nasze dane według ustalonych przez nas reguł, sprawdzając poprawność atrybutów . Wszystkie obserwacje spełniają określone reguły, co potwierdzają wyniki i wykres “Validation Results by Rule”.

#Tworzenie reguł
rules <- validator(
  squareMeters>=0 
  , rooms >= 0
  , floor >= 0
  , floor <= floorCount
  , floorCount >= 0
  , buildYear >= 0
  , buildYear <= 2024
  , squareMeters > rooms
  , latitude >= 0
  , longitude >= 0
  , centreDistance >= 0
  , poiCount >= 0
  , schoolDistance >= 0
  , clinicDistance >= 0
  , postOfficeDistance >= 0
  , kindergartenDistance >= 0
  , restaurantDistance >= 0
  , collegeDistance >= 0
  , pharmacyDistance >= 0
  , price >= 0
  , if (hasElevator == "yes") floorCount >= 1
  , latitude >= 49 & latitude <= 55 & longitude >= 14 & longitude <= 24
)

cf <- confront(apartments_pl_2024_02, rules, key="id")
plot(cf, main="aparments_pl_2024_02")

Dodatkowo sprawdziliśmy, czy w zmiennych binarnych, które występują w naszych danych występują tylko dwie opcje - „yes” i „no”

unique(apartments_pl_2024_02$hasElevator)

## [1] "yes" "no"

unique(apartments_pl_2024_02$hasParkingSpace)

## [1] "no"  "yes"

unique(apartments_pl_2024_02$hasBalcony)

## [1] "no"  "yes"

unique(apartments_pl_2024_02$hasSecurity)

## [1] "no"  "yes"

unique(apartments_pl_2024_02$hasStorageRoom)

## [1] "no"  "yes"

6.Wizualizacja danych

Wizualizacja danych jest kluczowym narzędziem w procesie analizy, umożliwiającym przedstawienie złożonych informacji w przystępny i graficzny sposób. W tym rozdziale zaprezentowano różnorodne wykresy, które pomagają zidentyfikować wzorce, zależności oraz potencjalne odstępstwa w zbiorze danych.

Poniższy wykres przedstawia zależność między ceną mieszkań a ich powierzchnią w różnych miastach Polski. Analiza wykazała, że większe mieszkania są droższe, co potwierdza pozytywną korelację między ceną a powierzchnią, szczególnie widoczną w miastach takich jak Warszawa, Kraków i Gdańsk, gdzie ceny są wyraźnie wyższe. Warszawa dominuje pod względem wysokich cen, podczas gdy miasta jak Radom, Rzeszów czy Częstochowa charakteryzują się niższymi cenami przy podobnych powierzchniach. Wykres wyraźnie ilustruje różnice między miastami oraz wpływ liczby pokoi na ceny mieszkań.

Poniższy wykres przedstawia rozkład cen mieszkań w formie funkcji gęstości. Widać, że większość mieszkań ma ceny skoncentrowane w niższym przedziale, poniżej 1 miliona złotych, co oznacza, że jest ich najwięcej. Rozkład cen mieszkań jest asymetryczny. Wartość modalna (najwyższy punkt krzywej) odpowiada cenie najczęściej występującej w zbiorze danych. Ogólny trend pokazuje, że ceny mieszkań w większości przypadków nie przekraczają 2 milionów złotych, a bardzo drogie mieszkania powyżej 2-3 milionów stanowią wyjątek.

Poniższy wykres pudełkowy przedstawia rozkład cen mieszkań w różnych polskich miastach. Każdy boks ilustruje medianę (linia wewnątrz pudełka), kwartyle (dolny i górny brzeg pudełka) oraz rozstęp międzykwartylowy, a punkty poza wąsami wskazują na wartości odstające. Warszawa i Kraków wyróżniają się najwyższymi medianami cen mieszkań, a także dużą liczbą wartości odstających, co sugeruje szeroki zakres cen, w tym wiele drogich mieszkań. Wrocław, Gdańsk i Gdynia również cechują się wysokimi cenami, choć nie tak ekstremalnymi jak w Warszawie. Miasta takie jak Białystok, Częstochowa, Radom i Rzeszów charakteryzują się najniższymi medianami cen, co wskazuje na bardziej przystępne ceny mieszkań.

Poniższy wykres przedstawia zależność między ceną mieszkań a rokiem ich budowy. Z analizy wynika, że nowsze mieszkania, szczególnie te wybudowane po 2000 roku, osiągają wyraźnie wyższe ceny, co wskazuje na pozytywną korelację między ceną a rokiem budowy. Warto również zwrócić uwagę na różnice w cenach w zależności od liczby pokoi – większe mieszkania (reprezentowane przez intensywniejsze kolory na wykresie) są zdecydowanie droższe. Mimo ogólnej tendencji wzrostu cen w miarę postępującej daty budowy, rozrzut cen w starszych budynkach jest znacznie większy, co sugeruje, że czynniki takie jak standard wykończenia, lokalizacja oraz indywidualne cechy mieszkań mogą mieć kluczowy wpływ na ostateczną cenę.

Poniższy wykres przedstawia rozkład powierzchni mieszkań na rynku mieszkaniowym w Polsce. Z analizy wynika, że dominują mieszkania o powierzchni między 40 a 60 m², co odzwierciedla typową strukturę rynku, szczególnie w większych miastach. Mniejsze mieszkania, do 40 m², zazwyczaj posiadają 1–2 pokoje. Mieszkania o większej powierzchni, powyżej 80 m², występują znacznie rzadziej i zazwyczaj mają 4 pokoje lub więcej.

Poniższy wykres przedstawia rozkład powierzchni mieszkań w różnych miastach, pokazując znaczące różnice między dużymi aglomeracjami a mniejszymi miastami. W dużych miastach, takich jak Warszawa czy Kraków, widoczna jest większa różnorodność mieszkań – od małych kawalerek po przestronne mieszkania. Z kolei w mniejszych miastach, takich jak Radom czy Częstochowa, dominują mniejsze mieszkania. W miastach o wyższych cenach, takich jak Warszawa czy Gdańsk, przeważają większe lokale. Natomiast w mniejszych miastach częściej spotyka się mieszkania 1–2-pokojowe.

7.Analiza opisowa

Analiza opisowa pozwala na podsumowanie kluczowych cech zbioru danych za pomocą miar statystycznych, takich jak średnia, mediana czy odchylenie standardowe. W tym rozdziale przedstawiono szczegółowe statystyki dla wybranych zmiennych, co stanowi podstawę do dalszej analizy.

Wykres przedstawia zależność między ceną nieruchomości a odległością od centrum w różnych miastach Polski. W dużych miastach, jak Warszawa, Gdańsk czy Kraków, ceny nieruchomości są najwyższe blisko centrum i spadają wraz z odległością. W mniejszych miastach, jak Radom czy Rzeszów, ceny są niższe, a wpływ odległości od centrum mniej wyraźny.

Poniższa tabela przedstawia obliczone statystyki opisowe w zależności od miasta. Warszawa ma najwyższą średnią cenę (1 072 035 zł) i średnią powierzchnię nieruchomości(60,78 m²), a Częstochowa najniższą średnią cenę (366 595 zł) oraz średnią powierzchnię nieruchomości (53,77 m²). Gdynia wyróżnia się największą średnią powierzchnią (66,62 m²), a Białystok najniższą liczbą pokoi (2,56). W większości miast średnia liczba pokoi oscyluje wokół 2,5-3, a ceny są wyższe w miastach dużych, takich jak Gdańsk, Gdynia, Kraków czy Warszawa.

Średnie wartości dla różnych miast
city	Średnia_Cena	Mediana_Cena	Średnia_Powierzchnia	Mediana_Powierzchnia	Średnia_Liczba_Pokoi
bialystok	478027.4	456500.0	52.06022	49.430	2.564516
bydgoszcz	440022.8	389000.0	56.83473	52.400	2.655602
czestochowa	366595.3	337500.0	53.77362	50.000	2.402010
gdansk	875209.1	779000.0	59.23886	56.000	2.735928
gdynia	903790.6	755000.0	66.62311	60.200	2.955291
katowice	507861.5	469850.0	60.61553	57.000	2.773973
krakow	946418.7	816000.0	57.13444	50.960	2.639951
lodz	448752.4	409100.0	55.08574	50.000	2.483155
lublin	585448.4	550000.0	62.86574	61.000	2.921397
poznan	672954.2	630000.0	62.35809	58.960	2.812041
radom	373962.2	359000.0	57.33393	54.875	2.709016
rzeszow	576624.8	549999.5	58.84770	56.935	2.833333
szczecin	564549.7	529950.0	65.39420	60.000	2.855482
warszawa	1072035.4	908000.0	60.78143	56.000	2.731135
wroclaw	745998.4	690000.0	58.07352	55.000	2.650208

Poniższa tabela przedstawia staytstyki opisowe dla zmiennych ilościowych. Średnia powierzchnia wynosi 59,45 m², a mediana 55,1 m², co oznacza, że połowa nieruchomości ma powierzchnię mniejszą lub równą 55,1 m². Skala powierzchni jest szeroka, od 25 m² do 150 m². Średnia liczba pokoi wynosi 2,7, z medianą równą 3. To sugeruje, że większość nieruchomości ma 3 pokoje lub mniej, a skala waha się od 1 do 6 pokoi. Średnia cena nieruchomości to 821 616,49 zł, a mediana wynosi 720 000 zł. Ceny w tym przypadku rozciągają się od 176 000 zł do 3 250 000 zł, co wskazuje na dużą zmienność cen nieruchomości. Średni rok budowy to 1986,64, a mediana to 1997. Nieruchomości zostały wybudowane między 1850 a 2024 rokiem, co sugeruje zróżnicowany wiek budynków.

Podstawowe statystyki opisowe
Zmienna	Średnia	Mediana	Min	Max
Powierzchnia (m2)	59.45	55.1	25	150
Liczba pokoi	2.70	3.0	1	6
Cena	821616.49	720000.0	176000	3250000
Rok budowy	1986.70	1997.0	1850	2024

Tablica kontyngencji pokazuje, że budynki o niskim standardzie (low) częściej są budowane z cegły (5071) niż z wielkiej płyty (1517). Podobna zależność występuje w budynkach o wyższym standardzie (premium), gdzie dominuje cegła (7881) nad wielką płytą (1892). Ogólnie cegła jest bardziej popularnym materiałem niezależnie od standardu budynku.

Stan budynku vs. Materiał budowy (Tablica kontyngencji)
	brick	concreteSlab
low	5317	1582
premium	7661	1801

Następna tablica kontyngencji pokazuje, że w budynkach o niskim standardzie (low) więcej mieszkań nie posiada balkonu (2895) niż go posiada (3693), choć różnica nie jest duża. W budynkach o wyższym standardzie (premium) balkony są bardziej powszechne, ponieważ częściej występują (5532) niż ich brak (4241). Wyższy standard budynku wyraźnie wiąże się z większą obecnością udogodnień, takich jak balkon.

Stan budynku vs. Balkon (Tablica kontyngencji)
	no	yes
low	3023	3876
premium	4113	5349

Boxplot pokazuje, że cena mieszkań rośnie wraz z liczbą pokoi. Mieszkania jednopokojowe mają najniższe mediany cen, podczas gdy największe (6-pokojowe) są najdroższe, z najszerszym zakresem cen. Rozrzut cen jest większy w mieszkaniach z większą liczbą pokoi, co wskazuje na większą różnorodność w tej grupie. Widać również liczne wartości odstające, szczególnie dla mieszkań 3-pokojowych i większych.

Poniższa tabela przedstawia rozkład liczebności mieszkań w zależności od ich powierzchni, wyniki te zostały również zaprezentowane na histogramie , który nie ma rozkładu normalnego i charakteryzuje się prawoskośnością. Na podstawie wyników można stwierdzić, że najwięcej mieszkań znajduje się w przedziałe (45,55] m2 - 3786 mieszkań. Co więcej wraz ze wzrostem powierzchni mieszkań obserwuje się wyraźny spadek liczebności. Mieszkania o powierzchni powyżej 100 m² stanowią niewielki odsetek całości. Przedział (105,115] m² obejmuje tylko 256 mieszkań, a w zakresie (145,155] m² ich liczba spada do zaledwie 42.

Podział na przedziały powierzchni mieszkań i ich liczebność
Przedział powierzchni (m2)	Liczebność
[25,35]	1408
(35,45]	2972
(45,55]	3786
(55,65]	3187
(65,75]	1915
(75,85]	1194
(85,95]	686
(95,105]	489
(105,115]	256
(115,125]	171
(125,135]	151
(135,145]	104
(145,155]	42

8.Testy

W niniejszym rozdziale przedstawiono zastosowane testy statystyczne, które posłużyły do analizy danych oraz oceny zależności między zmiennymi. Przeprowadzone testy mają na celu weryfikację hipotez badawczych oraz dostarczenie rzetelnych podstaw do interpretacji wyników. Wykorzystano zarówno testy dla zmiennych jakościowych, jak i ilościowych, co pozwoliło na wszechstronne spojrzenie na zależności w danych.

Poniższy wykres pochodzi z testu statystycznego dla dwóch zmiennych jakościowych – type oraz buildingMaterial. Wartość testu chi-kwadrat wynosi 1987.50 z istotnością p = 0.00, co oznacza, że istnieje istotna statystycznie zależność między materiałem budowlanym a typem budynku. Wartość współczynnika V cramera wynosi 0.35, co wskazuje na umiarkowaną siłę zależności między zmiennymi (0-Brak związku, 1- silna pełna zależność). Materiał concreteSlab dominuje w blokach mieszkalnych (93%), a udział innych typów budynków (kamienic, apartamentowców) jest nieznaczący.

Poniższy wykres przedstawia test badania zależności ilościowych pomiędzy zmiennymi buildYear (rok budowy) i price (cena). Współczynnik korelacji Pearsona wynosi 0.11 co wskazuje na bardzo słabą zależność między rokiem budowy a ceną. Przedział ufności 95% dla r Pearsona to [0.10, 0.13], co potwierdza, że współczynnik korelacji jest niewielki, ale istotny statystycznie. Istotność statystyczna (p=2.17e−48) wskazuje, że zależność jest istotna statystycznie. Niebieska linia regresji wskazuje ogólną tendencję rosnącą – im nowszy budynek, tym wyższa cena. Punkty są jednak bardzo rozproszone, co potwierdza niską wartość współczynnika korelacji. Istnieje bardzo słaba, ale istotna statystycznie zależność między rokiem budowy a ceną nieruchomości. Nowsze budynki mają tendencję do bycia droższymi, jednak siła tej zależności jest niewielka.

Poniższy wykres przedstawia rozkład zmiennej squareMeters. Rozkład jest asymetryczny, co wskazuje na brak normalności. W związku z tym wykonaliśmy porównanie dokładne parami między zmienną ilościową - squareMeters, a zmienną jakościową - hasParkingSpace. Wyniki testu wskazują, że różnica pomiędzy grupami jest istotna statystycznie (W=2,28*e+07, p <0,05). Mediana powierzchni mieszkań bez miejsca parkingowego wynosi około 55 m², natomiast z miejscem parkingowym około 50 m². Współczynnik korelacji rangowej (rbiserial =−0.14) sugeruje słabą, ujemną zależność między posiadaniem miejsca parkingowego a powierzchnią mieszkania. Mieszkania z miejscem parkingowym mają tendencję do posiadania nieco mniejszej powierzchni w porównaniu z mieszkaniami bez miejsca parkingowego.

Poniżej przeprowadzono test jednej próby, porównując średnią odległość mieszkań od centrum miasta (centreDistance) z wartością ustaloną na 2 km. Wyniki wskazują, że średnia odległość wynosi 4,33 kilometra i jest istotnie większa od wartości testowej 2 kilometry. Rozkład zmiennej centreDistance, przedstawiony na histogramie, jest prawoskośny, co wskazuje, że większość mieszkań znajduje się dalej od centrum niż ustalona wartość testowa.

9.Podsumowanie

W ramach przeprowadzonej analizy rynku nieruchomości mieszkalnych wykonaliśmy szereg kluczowych etapów. Pierwszym krokiem było kompleksowe przygotowanie danych, obejmujące identyfikację wartości odstających oraz analizę braków danych, co pozwoliło na ocenę jakości zbioru i konieczność jego uzupełnienia. W celu poprawy kompletności danych zastosowaliśmy różne metody imputacji, w tym metodę hot-deck oraz drzewa decyzyjne, które pozwoliły na estymację brakujących wartości w sposób jak najbardziej zbliżony do rzeczywistych trendów rynkowych. Kolejnym etapem analizy była eksploracyjna analiza danych (EDA), której istotnym elementem była wizualizacja rozkładu cen nieruchomości oraz kluczowych zależności rynkowych. Dzięki różnorodnym wykresom i statystykom udało nam się zidentyfikować główne czynniki wpływające na ceny mieszkań oraz uchwycić potencjalne anomalie w zbiorze. Następnie przeprowadziliśmy analizę opisową, która pozwoliła na szczegółowe scharakteryzowanie danych, oraz testy statystyczne, umożliwiające weryfikację istotności wpływu poszczególnych zmiennych na cenę nieruchomości.

10.Wnioski

Analiza jednoznacznie wykazała, że lokalizacja pozostaje kluczowym czynnikiem determinującym wartość nieruchomości, a czynniki takie jak metraż i rok budowy również odgrywają istotną rolę, choć ich wpływ może różnić się w zależności od specyfiki badanego rynku. Wyniki przeprowadzonych testów statystycznych potwierdziły silne zależności między ceną a wybranymi zmiennymi, co wskazuje na możliwość skutecznego modelowania i prognozowania wartości nieruchomości na podstawie tych danych.

Jednym z najważniejszych wniosków wynikających z analizy jest istotność właściwego przygotowania danych. Proces oczyszczania, imputacji braków oraz eliminacji wartości odstających miał bezpośredni wpływ na jakość uzyskanych wyników i skuteczność późniejszych analiz. W przyszłości warto rozszerzyć badanie o dodatkowe testy statystyczne oraz modele predykcyjne, co mogłoby jeszcze precyzyjniej uchwycić mechanizmy kształtujące ceny nieruchomości. Ponadto, uwzględnienie dodatkowych zmiennych, takich jak wskaźniki ekonomiczne, poziom infrastruktury w okolicy czy dane o popycie i podaży, mogłoby jeszcze bardziej wzbogacić analizę i dostarczyć cennych informacji dla przyszłych badań nad rynkiem nieruchomości.