Raport - Analiza Danych
1.Wprowadzenie
Celem niniejszego projektu jest przeprowadzenie kompleksowej analizy danych dotyczących rynku nieruchomości mieszkalnych. W pierwszej kolejności przeprowadzona została analiza oczyszczania danych, polegająca na identyfikacji i usunięciu braków danych, wartości odstających oraz nieprawidłowych wpisów. Następnie dokonana została transformacja danych, obejmująca konwersję zmiennych, takich jak kategorie, na zmienne numeryczne, co umożliwiło przeprowadzenie dalszej analizy. Kolejnym etapem była wizualizacja danych, podczas której utworzono wykresy przedstawiające rozkłady zmiennych czy zależności między nimi. Przeprowadzona została także analiza opisowa, obejmująca obliczenie podstawowych statystyk, takich jak średnia, mediana czy odchylenie standardowe dla kluczowych zmiennych. Na podstawie wyników przeprowadzone zostały testy statystyczne, mające na celu ocenę wpływu poszczególnych czynników. Na zakończenie dokonane zostało podsumowanie wyników analizy zbioru danych.
Zbiór danych wykorzystany w analizie zawiera oferty sprzedaży i wynajmu mieszkań z 15 największych miast w Polsce (Warszawa, Łódź, Kraków, Wrocław, Poznań, Gdańsk, Szczecin, Bydgoszcz, Lublin, Katowice, Białystok, Częstochowa). Dane pochodzą z lokalnych stron internetowych z mieszkaniami na sprzedaż. Aby w pełni uchwycić sąsiedztwo każdego mieszkania, każda oferta została rozszerzona o dane z Open Street Map z odległościami do interesujących miejsc (POI). Dane są zbierane co miesiąc i obejmują okres od sierpnia 2023 r. do czerwca 2024 r. Poniższa tabela przedstawia poszczególne nazwy zmiennych zawartych w zbiorze danych oraz ich wyjaśnienia:
| zmienna | wyjaśnienie |
|---|---|
| id | identyfkator nieruchomości |
| city | nazwa miasta, w którym znajduje się nieruchomość |
| type | typ budynku |
| squareMeters | wielkość mieszkania w metrach kwadratowych |
| rooms | liczba pokoi w mieszkaniu |
| floor | piętro, na którym znajduje się mieszkanie |
| floorCount | całkowita liczba pięter w budynku |
| buildYear | rok, w którym budynek został zbudowany |
| latitude | szerokość geograficzna nieruchomości |
| longitude | długość geograficzna nieruchomości |
| centreDistance | odległość od centrum miasta w kilometrach |
| poiCount | liczba interesujących miejsc w promieniu 500m od mieszkania (szkoły, przychodnie, poczta, przedszkola, restauracje, uczelnie, apteki) |
| schoolDistance | odległość do najbliższej szkoły |
| clinicDistance | odległość do najbliższej przychodni |
| postOfficeDistance | odległość do najbliższej poczty |
| kindergartenDistane | odległość do najbliższego przedszkola |
| restaurantDistance | odległość do najbliższej restauracji |
| collegeDistance | odległość do najbliższej uczelni wyższej |
| pharmacyDistance | odległość do najbliższej apteki |
| ownership | rodzaj własności nieruchomości |
| buildingMaterial | materiał użyty do budowy mieszkania |
| condition | stan mieszkania |
| hasParkingSpace | czy nieruchomość posiada miejsce parkingowe |
| hasBalcony | czy nieruchomość posiada balkon |
| hasElevator | czy nieruchomość posiada windę |
| hasSecurty | czy nieruchomość posiada ochronę |
| hasStorageRoom | czy nieruchomość posiada komórkę lokatorską |
| price | cena ofertowa w złotych polskich |
2.Obserwacje odstające
W tym rozdziale analizujemy obserwacje odstające dla kluczowych zmiennych, takich jak cena mieszkań (Price) oraz powierzchnia w metrach kwadratowych (SquareMeters). Została przeprowadzona także wielowymiarowa analiza metodą odległości euklidesowych. Wykorzystane wykresy pozwalają zidentyfikować wartości znacząco odbiegające od typowych, co ma istotny wpływ na dalsze analizy danych.
2.1. Zmienna Price
Poniższy rysunek przedstawia wykres pudełkowy dla zmiennej price. Większość cen mieści się w przedziale 500 000–1 500 000 zł, z licznymi wartościami odstającymi powyżej 3 000 000 zł (935 takich obserwacji). Średnia jest większa od mediany, co wskazuje na prawostronną skośność.
Poniżej zaprezentowany wykres Q-Q pokazuje, że punkty odchylają się od linii teoretycznej (rozkładu normalnego) dla wyższych kwantyli, co potwierdza obecność wielu odstających cen oraz brak zgodności z rozkładem normalnym.
| Liczba_odstających_obserwacji |
|---|
| 935 |
2.2. Zmienna SquareMeters
Poniższy rysunek przedstawia wykres pudełkowy dla zmiennej squareMeters. Większość powierzchni mieszkań oscyluje w granicach 40–80 m², a obserwacje odstające występują powyżej 100 m² (663 takie obserwacje). Średnia jest nieco większa od mediany, co wskazuje na prawostronną skośność.
Poniżej zaprezentowany wykres Q-Q pokazuje, że punkty odchylają się od linii teoretycznej (rozkładu normalnego) dla wyższych kwantyli, co potwierdza obecność wielu odstających obserwacji dla zmiennej squareMeters oraz brak zgodności z rozkładem normalnym.
| Liczba_odstających_obserwacji |
|---|
| 663 |
2.3. Wielowymiarowa metoda identyfikacji - odległości euklidesowe
Do identyfikacji obserwacji odstających zastosowano metodę odległości euklidesowych w przestrzeni wielowymiarowej, uwzględniając zmienne takie jak cena, powierzchnia, odległość od centrum i innych obiektów. Dane zostały znormalizowane, a następnie obliczono odległości od centroidu. Obserwacje, których odległości przekraczały ustaloną granicę (średnia + 2 odchylenia standardowe), uznano za odstające. W rezultacie zidentyfikowano 328 odstających obserwacji.
dane <- apartments_pl_2024_02[, c("price", "centreDistance", "schoolDistance", "squareMeters", "rooms", "floor", "floorCount", "buildYear", "clinicDistance", "postOfficeDistance", "kindergartenDistance", "restaurantDistance", "collegeDistance", "pharmacyDistance")]
dane <- na.omit(dane)
dane_norm <- scale(dane)
centroid <- colMeans(dane_norm)
odleglosci <- apply(dane_norm, 1, function(x) sqrt(sum((x - centroid)^2)))
srednia <- mean(odleglosci)
odchylenie <- sd(odleglosci)
granica <- srednia + 2 * odchylenie
odstajace_model <- which(odleglosci > granica)
dane_odstajace <- dane[odstajace_model, ]
liczba_odstajacych <- nrow(dane_odstajace)
dane_odstajace <- data.frame(
"Liczba odstających obserwacji" = liczba_odstajacych
)
knitr::kable(dane_odstajace)| Liczba.odstających.obserwacji |
|---|
| 328 |
3.Identyfikacja i analiza braków danych
W poniższym rozdziale została omówiona identyfikacja oraz analiza braków danych w analizowanym zbiorze danych, dotyczącym mieszkań. Początkowo ustaliliśmy typ obserwacji brakujących, identyfikując mechanizm braków danych w zbiorze. Poniższa tabela przedstawia zmienne wraz z przypisanym typem braku danych oraz wyjaśnieniem, dlaczego dany typ braku obserwacji został przypisany do poszczególnych zmiennych.
## Missing Completely at Random (MCAR)
| Zmienna | Wyjaśnienie |
|---|---|
| type | Braki w tej kolumnie prawdopodobnie są losowe. Typ nieruchomości nie wydaje się być zależny od innych zmiennych, więc brak danych można przypisać MCAR. |
| schoolDistance, clinicDistance, postOfficeDistance, kindergartenDistance, restaurantDistance, pharmacyDistance | Braki w odległościach od tych placówek wydają się być losowe, ponieważ nie są zależne od innych zmiennych w zbiorze danych. |
## Missing at Random (MAR)
| Zmienna | Wyjaśnienie |
|---|---|
| floor | Braki w danych dotyczących piętra mogą być zależne od zmiennych takich jak typ nieruchomości lub liczba pięter w budynku, co wskazuje na MAR. |
| floorCount | Braki w liczbie pięter mogą być powiązane z typem budynku (np. starsze budynki mogą mieć niepełne dane), co oznacza, że mechanizm to MAR. |
| collegeDistance | Odległość od uczelni może mieć braki zależne od lokalizacji nieruchomości, np. w mniejszych miastach bez uczelni. |
| buildingMaterial | Braki w tej zmiennej mogą być zależne od takich czynników jak wiek budynku lub typ nieruchomości (np. starsze budynki mogą mieć niepełne dane). |
| hasElevator | Braki w tej kolumnie mogą być związane z liczbą pięter lub typem budynku (np. budynki parterowe często nie mają windy). |
## Missing Not at Random (MNAR)
| Zmienna | Wyjaśnienie |
|---|---|
| buildYear | Jeśli rok budowy jest pomijany celowo w starszych budynkach z brakującą dokumentacją, to mechanizm braków to MNAR. |
| condition | Braki w stanie nieruchomości mogą być powiązane z samą zmienną – np. właściciele nieruchomości w złym stanie mogą unikać podawania tej informacji. |
Liczba wszystkich obserwacji w zbiorze danych wynosi 458108, w tym obserwacji kompletnych jest 428407, natomiast liczba wartości brakujących wynosi 29701. Obserwacje brakujące stanowią 6,5% obserwacji z całego zbioru danych.
| Wartości_brakujące |
|---|
| 29701 |
| Wartości.kompletne |
|---|
| 428407 |
Poniższy wykres przedstawia rozkład obserwacji brakujących z podziałem na zmienne występujące w zbiorze danych. Braki danych występują w 14 kolumnach: condition, buildingMaterial, type, floor, buildYear, hasElevator, collegeDistance, floorCount, clinicDistance, restaurantDistance, kindergartenDistance, pharmacyDistance, postOfficeDistance, schoolDistance. Braki danych stanowią 6,5% wszystkich obserwacji, najwięcej braków występuje w kolumnie condition (76%) oraz w kolumnie buildingMaterial (40%).
Poniższy wykres przedstawia rozkład braków danych w poszczególnych kolumnach z podziałem na konkretne miasta, które uwzględnione są w zbiorze danych. Najwięcej braków danych występuje w kolumnie condition w Gdańsku oraz Gdynii. Najmnniej braków danych można zauważyć w Szczecinie.
4.Zamiana NA
W tym rozdziale przedstawiono metody uzupełniania braków danych (NA) w zbiorze, które mogą wpływać na jakość analiz. Wykorzystano dwie techniki: drzewa decyzyjne, które przewidują brakujące wartości na podstawie wzorców w danych, oraz metodę hot-deck, polegającą na uzupełnianiu NA wartościami zbliżonych obserwacji.
4.1.Metoda drzewa decyzyjnego
Metodę drzewa decyzyjnego wykorzystaliśmy do imputacji brakujących danych, budując modele predykcyjne oparte na wzajemnych zależnościach między zmiennymi. Użyliśmy jej do zmiennej jakościowej type, bazując na takich cechach jak buildYear, centreDistance, hasElevator, hasSecurity i condition oraz do zmiennych ilościowych floor i floorCount, wykorzystując m.in. buildYear, hasElevator, condition i inne. Modele powstały przy użyciu funkcji rpart, a brakujące wartości zostały uzupełnione na podstawie przewidywań. Na koniec potwierdziliśmy, że wszystkie imputacje zakończyły się sukcesem.
#Zamiana NA w kolumnie TYPE za pomocą metody drzewa decyzyjnego
apartments_pl_2024_02$type <-as.factor(apartments_pl_2024_02$type)
model <- rpart(type ~ buildYear + centreDistance + hasElevator + hasSecurity + condition , data = apartments_pl_2024_02, method = "class", na.action = na.exclude)
rpart.plot(model)NA_type <- is.na(apartments_pl_2024_02$type)
apartments_pl_2024_02$type[NA_type] <- predict(model, apartments_pl_2024_02[NA_type, ], type = "class")
#sprawdzenie kolumny type; w kolumnie type brak NA
n_miss<-n_miss(apartments_pl_2024_02$type)
n_miss<-data.frame(
"Ilość_NA_w_type" = n_miss
)
knitr::kable(n_miss)| Ilość_NA_w_type |
|---|
| 0 |
4.2.Metoda Hotdeck
Metodę hotdeck zastosowaliśmy do imputacji brakujących danych w zmiennych, takich jak odległości od różnych placówek (collegeDistance, clinicDistance, restaurantDistance, kindergartenDistance, pharmacyDistance, postOfficeDistance, schoolDistance), oraz w zmiennej jakościowych condition i do zmiennej hasElevator. Metoda ta polega na uzupełnianiu braków na podstawie losowego wyboru wartości z podobnych obserwacji w zbiorze danych, dzięki czemu zachowana zostaje spójność i struktura danych. Po imputacji potwierdziliśmy brak wartości brakujących w tych zmiennych.Poniżej została przedstawiona ilość braków danych dla zmiennej “condition” przed wykonaniem metody hotdeck.
| Ilość_NA_w_CONDITION_przed_Hotdeck |
|---|
| 12365 |
Po wdrożeniu metody hotdeck ilość brakujących danych dla zmiennej condition oraz dla całego zbioru danych wyniosła 0. Metoda hotdeck oraz metoda drzewa decyzyjnego przyniosła oczekiwane skutki, co potwierdzają poniższe tabele oraz wykres przedstawiający ilość braków danych.
| Ilość_NA_w_CONDITION_po_Hotdeck |
|---|
| 0 |
| Ilość_NA_w_całej_tabeli |
|---|
| 0 |
5.Walidacja danych
Zweryfikowaliśmy nasze dane według ustalonych przez nas reguł, sprawdzając poprawność atrybutów . Wszystkie obserwacje spełniają określone reguły, co potwierdzają wyniki i wykres “Validation Results by Rule”.
#Tworzenie reguł
rules <- validator(
squareMeters>=0
, rooms >= 0
, floor >= 0
, floor <= floorCount
, floorCount >= 0
, buildYear >= 0
, buildYear <= 2024
, squareMeters > rooms
, latitude >= 0
, longitude >= 0
, centreDistance >= 0
, poiCount >= 0
, schoolDistance >= 0
, clinicDistance >= 0
, postOfficeDistance >= 0
, kindergartenDistance >= 0
, restaurantDistance >= 0
, collegeDistance >= 0
, pharmacyDistance >= 0
, price >= 0
, if (hasElevator == "yes") floorCount >= 1
, latitude >= 49 & latitude <= 55 & longitude >= 14 & longitude <= 24
)
cf <- confront(apartments_pl_2024_02, rules, key="id")
plot(cf, main="aparments_pl_2024_02")Dodatkowo sprawdziliśmy, czy w zmiennych binarnych, które występują w naszych danych występują tylko dwie opcje - „yes” i „no”
## [1] "yes" "no"
## [1] "no" "yes"
## [1] "no" "yes"
## [1] "no" "yes"
## [1] "no" "yes"
6.Wizualizacja danych
Wizualizacja danych jest kluczowym narzędziem w procesie analizy, umożliwiającym przedstawienie złożonych informacji w przystępny i graficzny sposób. W tym rozdziale zaprezentowano różnorodne wykresy, które pomagają zidentyfikować wzorce, zależności oraz potencjalne odstępstwa w zbiorze danych.
Poniższy wykres przedstawia zależność między ceną mieszkań a ich powierzchnią w różnych miastach Polski. Analiza wykazała, że większe mieszkania są droższe, co potwierdza pozytywną korelację między ceną a powierzchnią, szczególnie widoczną w miastach takich jak Warszawa, Kraków i Gdańsk, gdzie ceny są wyraźnie wyższe. Warszawa dominuje pod względem wysokich cen, podczas gdy miasta jak Radom, Rzeszów czy Częstochowa charakteryzują się niższymi cenami przy podobnych powierzchniach. Wykres wyraźnie ilustruje różnice między miastami oraz wpływ liczby pokoi na ceny mieszkań.
Poniższy wykres przedstawia rozkład cen mieszkań w formie funkcji gęstości. Widać, że większość mieszkań ma ceny skoncentrowane w niższym przedziale, poniżej 1 miliona złotych, co oznacza, że jest ich najwięcej. Rozkład cen mieszkań jest asymetryczny. Wartość modalna (najwyższy punkt krzywej) odpowiada cenie najczęściej występującej w zbiorze danych. Ogólny trend pokazuje, że ceny mieszkań w większości przypadków nie przekraczają 2 milionów złotych, a bardzo drogie mieszkania powyżej 2-3 milionów stanowią wyjątek.
Poniższy wykres pudełkowy przedstawia rozkład cen mieszkań w różnych polskich miastach. Każdy boks ilustruje medianę (linia wewnątrz pudełka), kwartyle (dolny i górny brzeg pudełka) oraz rozstęp międzykwartylowy, a punkty poza wąsami wskazują na wartości odstające. Warszawa i Kraków wyróżniają się najwyższymi medianami cen mieszkań, a także dużą liczbą wartości odstających, co sugeruje szeroki zakres cen, w tym wiele drogich mieszkań. Wrocław, Gdańsk i Gdynia również cechują się wysokimi cenami, choć nie tak ekstremalnymi jak w Warszawie. Miasta takie jak Białystok, Częstochowa, Radom i Rzeszów charakteryzują się najniższymi medianami cen, co wskazuje na bardziej przystępne ceny mieszkań.
Poniższy wykres przedstawia zależność między ceną mieszkań a rokiem ich budowy. Z analizy wynika, że nowsze mieszkania, szczególnie te wybudowane po 2000 roku, osiągają wyraźnie wyższe ceny, co wskazuje na pozytywną korelację między ceną a rokiem budowy. Warto również zwrócić uwagę na różnice w cenach w zależności od liczby pokoi – większe mieszkania (reprezentowane przez intensywniejsze kolory na wykresie) są zdecydowanie droższe. Mimo ogólnej tendencji wzrostu cen w miarę postępującej daty budowy, rozrzut cen w starszych budynkach jest znacznie większy, co sugeruje, że czynniki takie jak standard wykończenia, lokalizacja oraz indywidualne cechy mieszkań mogą mieć kluczowy wpływ na ostateczną cenę.
Poniższy wykres przedstawia rozkład powierzchni mieszkań na rynku mieszkaniowym w Polsce. Z analizy wynika, że dominują mieszkania o powierzchni między 40 a 60 m², co odzwierciedla typową strukturę rynku, szczególnie w większych miastach. Mniejsze mieszkania, do 40 m², zazwyczaj posiadają 1–2 pokoje. Mieszkania o większej powierzchni, powyżej 80 m², występują znacznie rzadziej i zazwyczaj mają 4 pokoje lub więcej.
Poniższy wykres przedstawia rozkład powierzchni mieszkań w różnych miastach, pokazując znaczące różnice między dużymi aglomeracjami a mniejszymi miastami. W dużych miastach, takich jak Warszawa czy Kraków, widoczna jest większa różnorodność mieszkań – od małych kawalerek po przestronne mieszkania. Z kolei w mniejszych miastach, takich jak Radom czy Częstochowa, dominują mniejsze mieszkania. W miastach o wyższych cenach, takich jak Warszawa czy Gdańsk, przeważają większe lokale. Natomiast w mniejszych miastach częściej spotyka się mieszkania 1–2-pokojowe.
7.Analiza opisowa
Analiza opisowa pozwala na podsumowanie kluczowych cech zbioru danych za pomocą miar statystycznych, takich jak średnia, mediana czy odchylenie standardowe. W tym rozdziale przedstawiono szczegółowe statystyki dla wybranych zmiennych, co stanowi podstawę do dalszej analizy.
Wykres przedstawia zależność między ceną nieruchomości a odległością od centrum w różnych miastach Polski. W dużych miastach, jak Warszawa, Gdańsk czy Kraków, ceny nieruchomości są najwyższe blisko centrum i spadają wraz z odległością. W mniejszych miastach, jak Radom czy Rzeszów, ceny są niższe, a wpływ odległości od centrum mniej wyraźny.
Poniższa tabela przedstawia obliczone statystyki opisowe w zależności od miasta. Warszawa ma najwyższą średnią cenę (1 072 035 zł) i średnią powierzchnię nieruchomości(60,78 m²), a Częstochowa najniższą średnią cenę (366 595 zł) oraz średnią powierzchnię nieruchomości (53,77 m²). Gdynia wyróżnia się największą średnią powierzchnią (66,62 m²), a Białystok najniższą liczbą pokoi (2,56). W większości miast średnia liczba pokoi oscyluje wokół 2,5-3, a ceny są wyższe w miastach dużych, takich jak Gdańsk, Gdynia, Kraków czy Warszawa.
| city | Średnia_Cena | Mediana_Cena | Średnia_Powierzchnia | Mediana_Powierzchnia | Średnia_Liczba_Pokoi |
|---|---|---|---|---|---|
| bialystok | 478027.4 | 456500.0 | 52.06022 | 49.430 | 2.564516 |
| bydgoszcz | 440022.8 | 389000.0 | 56.83473 | 52.400 | 2.655602 |
| czestochowa | 366595.3 | 337500.0 | 53.77362 | 50.000 | 2.402010 |
| gdansk | 875209.1 | 779000.0 | 59.23886 | 56.000 | 2.735928 |
| gdynia | 903790.6 | 755000.0 | 66.62311 | 60.200 | 2.955291 |
| katowice | 507861.5 | 469850.0 | 60.61553 | 57.000 | 2.773973 |
| krakow | 946418.7 | 816000.0 | 57.13444 | 50.960 | 2.639951 |
| lodz | 448752.4 | 409100.0 | 55.08574 | 50.000 | 2.483155 |
| lublin | 585448.4 | 550000.0 | 62.86574 | 61.000 | 2.921397 |
| poznan | 672954.2 | 630000.0 | 62.35809 | 58.960 | 2.812041 |
| radom | 373962.2 | 359000.0 | 57.33393 | 54.875 | 2.709016 |
| rzeszow | 576624.8 | 549999.5 | 58.84770 | 56.935 | 2.833333 |
| szczecin | 564549.7 | 529950.0 | 65.39420 | 60.000 | 2.855482 |
| warszawa | 1072035.4 | 908000.0 | 60.78143 | 56.000 | 2.731135 |
| wroclaw | 745998.4 | 690000.0 | 58.07352 | 55.000 | 2.650208 |
Poniższa tabela przedstawia staytstyki opisowe dla zmiennych ilościowych. Średnia powierzchnia wynosi 59,45 m², a mediana 55,1 m², co oznacza, że połowa nieruchomości ma powierzchnię mniejszą lub równą 55,1 m². Skala powierzchni jest szeroka, od 25 m² do 150 m². Średnia liczba pokoi wynosi 2,7, z medianą równą 3. To sugeruje, że większość nieruchomości ma 3 pokoje lub mniej, a skala waha się od 1 do 6 pokoi. Średnia cena nieruchomości to 821 616,49 zł, a mediana wynosi 720 000 zł. Ceny w tym przypadku rozciągają się od 176 000 zł do 3 250 000 zł, co wskazuje na dużą zmienność cen nieruchomości. Średni rok budowy to 1986,64, a mediana to 1997. Nieruchomości zostały wybudowane między 1850 a 2024 rokiem, co sugeruje zróżnicowany wiek budynków.
| Zmienna | Średnia | Mediana | Min | Max |
|---|---|---|---|---|
| Powierzchnia (m2) | 59.45 | 55.1 | 25 | 150 |
| Liczba pokoi | 2.70 | 3.0 | 1 | 6 |
| Cena | 821616.49 | 720000.0 | 176000 | 3250000 |
| Rok budowy | 1986.70 | 1997.0 | 1850 | 2024 |
Tablica kontyngencji pokazuje, że budynki o niskim standardzie (low) częściej są budowane z cegły (5071) niż z wielkiej płyty (1517). Podobna zależność występuje w budynkach o wyższym standardzie (premium), gdzie dominuje cegła (7881) nad wielką płytą (1892). Ogólnie cegła jest bardziej popularnym materiałem niezależnie od standardu budynku.
| brick | concreteSlab | |
|---|---|---|
| low | 5317 | 1582 |
| premium | 7661 | 1801 |
Następna tablica kontyngencji pokazuje, że w budynkach o niskim standardzie (low) więcej mieszkań nie posiada balkonu (2895) niż go posiada (3693), choć różnica nie jest duża. W budynkach o wyższym standardzie (premium) balkony są bardziej powszechne, ponieważ częściej występują (5532) niż ich brak (4241). Wyższy standard budynku wyraźnie wiąże się z większą obecnością udogodnień, takich jak balkon.
| no | yes | |
|---|---|---|
| low | 3023 | 3876 |
| premium | 4113 | 5349 |
Boxplot pokazuje, że cena mieszkań rośnie wraz z liczbą pokoi. Mieszkania jednopokojowe mają najniższe mediany cen, podczas gdy największe (6-pokojowe) są najdroższe, z najszerszym zakresem cen. Rozrzut cen jest większy w mieszkaniach z większą liczbą pokoi, co wskazuje na większą różnorodność w tej grupie. Widać również liczne wartości odstające, szczególnie dla mieszkań 3-pokojowych i większych.
Poniższa tabela przedstawia rozkład liczebności mieszkań w zależności od ich powierzchni, wyniki te zostały również zaprezentowane na histogramie , który nie ma rozkładu normalnego i charakteryzuje się prawoskośnością. Na podstawie wyników można stwierdzić, że najwięcej mieszkań znajduje się w przedziałe (45,55] m2 - 3786 mieszkań. Co więcej wraz ze wzrostem powierzchni mieszkań obserwuje się wyraźny spadek liczebności. Mieszkania o powierzchni powyżej 100 m² stanowią niewielki odsetek całości. Przedział (105,115] m² obejmuje tylko 256 mieszkań, a w zakresie (145,155] m² ich liczba spada do zaledwie 42.
| Przedział powierzchni (m2) | Liczebność |
|---|---|
| [25,35] | 1408 |
| (35,45] | 2972 |
| (45,55] | 3786 |
| (55,65] | 3187 |
| (65,75] | 1915 |
| (75,85] | 1194 |
| (85,95] | 686 |
| (95,105] | 489 |
| (105,115] | 256 |
| (115,125] | 171 |
| (125,135] | 151 |
| (135,145] | 104 |
| (145,155] | 42 |
8.Testy
W niniejszym rozdziale przedstawiono zastosowane testy statystyczne, które posłużyły do analizy danych oraz oceny zależności między zmiennymi. Przeprowadzone testy mają na celu weryfikację hipotez badawczych oraz dostarczenie rzetelnych podstaw do interpretacji wyników. Wykorzystano zarówno testy dla zmiennych jakościowych, jak i ilościowych, co pozwoliło na wszechstronne spojrzenie na zależności w danych.
Poniższy wykres pochodzi z testu statystycznego dla dwóch zmiennych jakościowych – type oraz buildingMaterial. Wartość testu chi-kwadrat wynosi 1987.50 z istotnością p = 0.00, co oznacza, że istnieje istotna statystycznie zależność między materiałem budowlanym a typem budynku. Wartość współczynnika V cramera wynosi 0.35, co wskazuje na umiarkowaną siłę zależności między zmiennymi (0-Brak związku, 1- silna pełna zależność). Materiał concreteSlab dominuje w blokach mieszkalnych (93%), a udział innych typów budynków (kamienic, apartamentowców) jest nieznaczący.
Poniższy wykres przedstawia test badania zależności ilościowych pomiędzy zmiennymi buildYear (rok budowy) i price (cena). Współczynnik korelacji Pearsona wynosi 0.11 co wskazuje na bardzo słabą zależność między rokiem budowy a ceną. Przedział ufności 95% dla r Pearsona to [0.10, 0.13], co potwierdza, że współczynnik korelacji jest niewielki, ale istotny statystycznie. Istotność statystyczna (p=2.17e−48) wskazuje, że zależność jest istotna statystycznie. Niebieska linia regresji wskazuje ogólną tendencję rosnącą – im nowszy budynek, tym wyższa cena. Punkty są jednak bardzo rozproszone, co potwierdza niską wartość współczynnika korelacji. Istnieje bardzo słaba, ale istotna statystycznie zależność między rokiem budowy a ceną nieruchomości. Nowsze budynki mają tendencję do bycia droższymi, jednak siła tej zależności jest niewielka.
Poniższy wykres przedstawia rozkład zmiennej squareMeters. Rozkład jest asymetryczny, co wskazuje na brak normalności. W związku z tym wykonaliśmy porównanie dokładne parami między zmienną ilościową - squareMeters, a zmienną jakościową - hasParkingSpace. Wyniki testu wskazują, że różnica pomiędzy grupami jest istotna statystycznie (W=2,28*e+07, p <0,05). Mediana powierzchni mieszkań bez miejsca parkingowego wynosi około 55 m², natomiast z miejscem parkingowym około 50 m². Współczynnik korelacji rangowej (rbiserial =−0.14) sugeruje słabą, ujemną zależność między posiadaniem miejsca parkingowego a powierzchnią mieszkania. Mieszkania z miejscem parkingowym mają tendencję do posiadania nieco mniejszej powierzchni w porównaniu z mieszkaniami bez miejsca parkingowego.
Poniżej przeprowadzono test jednej próby, porównując średnią odległość mieszkań od centrum miasta (centreDistance) z wartością ustaloną na 2 km. Wyniki wskazują, że średnia odległość wynosi 4,33 kilometra i jest istotnie większa od wartości testowej 2 kilometry. Rozkład zmiennej centreDistance, przedstawiony na histogramie, jest prawoskośny, co wskazuje, że większość mieszkań znajduje się dalej od centrum niż ustalona wartość testowa.
9.Podsumowanie
W ramach przeprowadzonej analizy rynku nieruchomości mieszkalnych wykonaliśmy szereg kluczowych etapów. Pierwszym krokiem było kompleksowe przygotowanie danych, obejmujące identyfikację wartości odstających oraz analizę braków danych, co pozwoliło na ocenę jakości zbioru i konieczność jego uzupełnienia. W celu poprawy kompletności danych zastosowaliśmy różne metody imputacji, w tym metodę hot-deck oraz drzewa decyzyjne, które pozwoliły na estymację brakujących wartości w sposób jak najbardziej zbliżony do rzeczywistych trendów rynkowych. Kolejnym etapem analizy była eksploracyjna analiza danych (EDA), której istotnym elementem była wizualizacja rozkładu cen nieruchomości oraz kluczowych zależności rynkowych. Dzięki różnorodnym wykresom i statystykom udało nam się zidentyfikować główne czynniki wpływające na ceny mieszkań oraz uchwycić potencjalne anomalie w zbiorze. Następnie przeprowadziliśmy analizę opisową, która pozwoliła na szczegółowe scharakteryzowanie danych, oraz testy statystyczne, umożliwiające weryfikację istotności wpływu poszczególnych zmiennych na cenę nieruchomości.
10.Wnioski
Analiza jednoznacznie wykazała, że lokalizacja pozostaje kluczowym czynnikiem determinującym wartość nieruchomości, a czynniki takie jak metraż i rok budowy również odgrywają istotną rolę, choć ich wpływ może różnić się w zależności od specyfiki badanego rynku. Wyniki przeprowadzonych testów statystycznych potwierdziły silne zależności między ceną a wybranymi zmiennymi, co wskazuje na możliwość skutecznego modelowania i prognozowania wartości nieruchomości na podstawie tych danych.
Jednym z najważniejszych wniosków wynikających z analizy jest istotność właściwego przygotowania danych. Proces oczyszczania, imputacji braków oraz eliminacji wartości odstających miał bezpośredni wpływ na jakość uzyskanych wyników i skuteczność późniejszych analiz. W przyszłości warto rozszerzyć badanie o dodatkowe testy statystyczne oraz modele predykcyjne, co mogłoby jeszcze precyzyjniej uchwycić mechanizmy kształtujące ceny nieruchomości. Ponadto, uwzględnienie dodatkowych zmiennych, takich jak wskaźniki ekonomiczne, poziom infrastruktury w okolicy czy dane o popycie i podaży, mogłoby jeszcze bardziej wzbogacić analizę i dostarczyć cennych informacji dla przyszłych badań nad rynkiem nieruchomości.