Analiza danych projekt


Wstęp

Celem niniejszego raportu jest przeprowadzenie analizy danych dotyczących cen nieruchomości mieszkalnych w regionie Surat w Indiach. Surat, znany jako światowe centrum szlifowania diamentów, jest jednym z najszybciej rozwijających się miast w Indiach, co bezpośrednio przekłada się na dynamikę lokalnego rynku nieruchomości. Głównym celem jest identyfikacja kluczowych czynników, które będą miały wpływ na wartość rynkową. Analiza ma na celu dostarczenie wiarygodnych danych i wniosków niezbędnych do doskonalenia procesu wyceny oraz wsparcia konsumentów w podejmowaniu trafnych decyzji na lokalnym rynku nieruchomości.


Opis danych

Zestaw danych pochodzi z internetowej platformy ogłoszeniowej, poświęconej rynkowi nieruchomości i zawiera ponad 4,5 tysiąca ofert sprzedaży mieszkań. Każda obserwacja opisuje jedną nieruchomkśc, obejmując szeroki zakres kluczowych informacji, takich jak: lokalizacja, metraż, liczba pokoi, piętro, standard wykończenia,status inwestycji oraz typ transakcji. Dane zawierają rówież szczegółowe parametry cenowe, w tym cene całkowitą oraz cene za metr kwadratowy.

Struktura zbioru umożliwia przeprowadzenie kompleksowej analizy rynku mieszkaniowego w badanym regionie - od porówanania cen między lokalizacjami, przez ocenę wpływu cech technicznych na wartość ofertową, aż po identyfikacje trendów i zależnościwystępujących w segmencie mieszkań nowych i używanych. Dzięku różnorodności zawartych atrybutów dane te stanowią solidną podstawe do tworzenia wizualizacji, modeli analitycznych oraz szczegółowych raportów rynkowych.

Proces analizy poprzedzono etapem inżynierii cech, podczas którego surowe dane tekstowe zostały przekształcone na zmienne numeryczne (np. konwersja cen z lakhów i crorów na wartości absolutne). Pozwala to na precyzyjne operowanie na liczbach w modelach statystycznych.


Pytania badawcze

Aby nadać analizie odpowiedni kierunek, postawiono następujące pytania badawcze, które pozwolą zrozumieć strukturę cenową oraz preferencje nabywców w Suracie:

  1. Jaka jest średnia cena mieszkania w analizowanym zbiorze danych?
  2. Jakie są różnice w średniej cenie za metr kwadratowy między rynkiem pierwotnym a wtórnym?
  3. Jak zmienia się średnia cena wraz ze wzrostem powierzechni mieszkania?
  4. Który standard wykończenia (unfurnished, semi-furnished, furnished) jest najczęsciej oferowany?
  5. Jakie piętra są naczęściej reprezentowane w ofertach?
  6. Czy istnieje zależność między piętrem, a ceną za metr kwadratowy?
  7. Co bardziej wpływa na cenę mieszkania - jego wielkość, czy takie aspekty jak piętro, standard wykończenia, czy budynek jest już gotowy?

Analiza danych

2. Porządkowanie i czyszczenie danych

Przed przeprowadzeniem analizy danych konieczne było ich wstępne przygotowanie. W rozdziale drugim przedstawiono proces sprawdzenia kompletności zbioru danych oraz jego oczyszczenia i ujednolicenia. Działania te umożliwiły dalszą analizę informacji dotyczących powierzchni, lokalizacji oraz cen nieruchomości.

2.1 Braki danych

W danych znajduje się 100% kompletnych wartości.

## 
##  Variables sorted by number of missings: 
##        Variable Count
##   property_name     0
##    areaWithType     0
##     square_feet     0
##     transaction     0
##          status     0
##           floor     0
##      furnishing     0
##          facing     0
##     description     0
##  price_per_sqft     0
##           price     0

Z racji, iż dane są kompletne nie ma potrzeby ich imputacji.

2.2 Imputacje danych

Brak danych do uzupełnienia.

2.3 Walidacja danych

Po wstępnym przygotowaniu, oryginalny zbiór danych został przekształcony w uporządkowaną bazę “dane_clean”. Kluczowe informacje, takie jak cena czy piętro, zostały wydzielone z opisów tekstowych i zapisane w formatach umożliwiających łatwą analizę. Dzięki temu dane są poprawne technicznie i nadają się do dalszych zestawień oraz analiz rynkowych.

3. Wizualizacje

W rozdziale trzecim dokonano wizualizacji graficznej wcześniej zadanych pytań badawczych. Pozwoli to na wyciągnięcie wniosków na temat zaobserwowanych modeli.

3.1 Jaka jest średnia cena mieszkania w analizowanym zbiorze danych?

Rozkład cen w Suracie wykazuje silną asymetrię prawostronną, gdzie średnia na poziomie 12828588 ₹ ( 128,3 Lac) jest znacznie zawyżona przez nieliczne oferty luksusowe. Przy medianie wynoszącej ok.7 mln ₹, statystyczna luka przekracza 5,8 mln ₹, co dowodzi, że większość rynku to lokale budżetowe, a “długi ogon” wartości odstających sięga nawet 1000 Cr. Największa koncentracja ofert skupia się w przedziale 40-80 Lac, stanowiącym trzon lokalnej podaży. Zastosowanie skali logarytmicznej pozwoliło na ujęcie tych dysproporcjii, zachowując czytelność zarówno dla segmentu masowego, jak i segmentu premium.

3.2 Jakie są różnice w średniej cenie za metr kwadratowy między rynkiem pierwotnym a wtórnym?

Analiza cen jednostkowych dostarcza istotnych wniosków dotyczących struktury rynku: średnia cena za stopę kwadratową na rynku wtórnym (6573 ₹) jest o ponad 21% wyższa niż na rynku pierwotnym (5419 ₹) . Ta różnica, wynosząca 1154 ₹ , sugeruje, że w badanym zbiorze nieruchomości z „drugiej ręki” mogą oferować wyższą wartość ze względu na gotowość do zamieszkania oraz atrakcyjne lokalizacje w już zurbanizowanych częściach miasta. Niższa cena na rynku pierwotnym może wynikać z dużej liczby inwestycji w fazie budowy (off-plan) lub lokalizacji w nowych, rozwijających się dzielnicach peryferyjnych, gdzie ceny wejścia są tradycyjnie niższe.

3.3 Jak zmienia się średnia cena wraz ze wzrostem powierzechni mieszkania?

Wykres pokazuje rosnący trend, co potwierdza, że wraz ze wzrostem metrażu rośnie również cena nieruchomości. Najwięcej ofert dotyczy mieszkań do 10 000 sqft, czyli małych i średnich lokali, które są najpowszechniejsze na rynku. Ciemnoczerwona linia trendu pokazuje ogólną zasadę wyceny, od której odbiegają nieliczne duże i drogie apartamenty. Widać więc, że powierzchnia jest głównym czynnikiem wpływającym na cenę mieszkania w tej lokalizacji.

3.4 Który standard wykończenia (unfurnished, semi-furnished, furnished) jest najczęściej oferowany?

Wykres pokazuje, że na rynku nieruchomości w Suracie dominują mieszkania w stanie surowym (Unfurnished), stanowiące ponad 70% ofert. Lokale częściowo umeblowane (Semi-Furnished) i w pełni wyposażone (Furnished) są znacznie mniej liczne i mają podobną liczbę ofert (około 450 każde). Taki rozkład wskazuje, że rynek nastawiony jest głównie na nabywców chcących samodzielnie urządzić mieszkanie, a gotowe lokale stanowią tylko uzupełnienie oferty.

3.5 Jakie piętra są naczęściej reprezentowane w ofertach?

Histogram pokazuje, że rynek mieszkań w Suracie koncentruje się głównie na niskich i średnich piętrach, przy czym najwięcej ofert przypada na 5 piętrze. Powyżej 10 pięter liczba mieszkań szybko maleje, co wskazuje, że wyższe budynki są rzadziej występujące. Z tego wynika, iż dominują budynki średniowysokie, a mieszkania na bardzo wysokich kondygnacjach mają charakter wyjątkowy lub luksusowy.

3.6 Czy istnieje zależność między piętrem, a ceną za metr kwadratowy?

Analiza danych wskazuje, że w badanym zbiorze nie występuje wyraźna, liniowa zależność między wysokością kondygnacji a ceną za metr kwadratowy. Pomimo tego, że rynek często sugeruje wzrost cen na wyższych piętrach, mediana cen dla większości standardowych kondygnacji (od 1 do 12) pozostaje na stabilnym poziomie, co znajduje potwierdzenie w bardzo słabej i ujemnej korelacji na poziomie -0,18. Najwyższą zmienność cenową oraz relatywnie wysokie mediany można zaobserwować na najniższych poziomach, co może wynikać ze specyfiki lokali usługowych lub mieszkań z przynależnymi ogródkami. Chociaż na bardzo wysokich piętrach (powyżej 15) widoczny jest wzrost cen sugerujący powiązanie z “ceną za widok”, jednak mała liczba tych obserwacji sprawia, że nie dominują one nad ogólnym trendem. Ostatecznie sam numer piętra okazuje się znacznie słabszym determinantem ceny niż metraż czy status inwestycji, a wahania cenowe są bardziej powiązane z indywidualnymi cechami ofert niż z samym usytuowaniem lokalu w pionie budynku.

3.7 Co bardziej wpływa na cenę mieszkania - jego wielkość, czy takie aspekty jak piętro, standard wykończenia, czy budynek jest już gotowy?

Analiza macierzy korelacji wskazuje, że największy wpływ na cenę mieszkania ma jego powierzchnia, przy czym korelacja ta jest umiarkowana i dodatnia (0,35). Kolejnym istotnym aspektem jest status gotowości budynku, który wykazuje korelację na podobnym poziomie (0,35), co mówi, że stan oddania inwestycji do użytku istotnie podnosi jej wartość. Standard wykończenia ma nieco mniejsze znaczenie (0,24), a najsłabiej skorelowanym z ceną czynnikiem jest piętro na którym znajduje się mieszkanie. Podsumowując, to wielkość mieszkania oraz etap realizacji inwestycji są kluczowymi determinantami ceny w badanym zbiorze danych.

4. Analiza opisowa

W tym rozdziale dokonano dokładnej analizy opisowej zebranych danych odnoszących się do rynku mieszkań w regionie Surat. Celem tej części jest przejście od ogólnej prezentacji danych do ich dokładnej, liczbowej analizy. Analiza opisowa jest zasadniczym etapem raportu, umożliwiającym obiektywną ocenę tendencji centralnych, rozproszenia oraz struktury ofert, co w efekcie pozwala na udzielenie wiarygodnych odpowiedzi na postawione pytania badawcze.

4.1 Analiza gęstości rozkładu cen

Analiza gęstości rozkładu cen w logarytmicznej skali ujawnia wyraźną asymetrię prawostronną rynku nieruchomości w Surat. Średnia wynosi około 12,83 mln ₹ (128,3 Lac) i jest zauważalnie wyższa od mediany wynoszącej 7,00 mln ₹ (70 Lac), co wskazuje na znaczący wpływ nielicznych, bardzo kosztownych nieruchomości na prawą stronę rozkładu. W związku z tym mediana jest bardziej trafnym wskaźnikiem tendencji centralnej, lepiej przedstawiając typowy poziom cen na rynku. Szczyt gęstości w okolicach mediany potwierdza przewagę ofert w niższych zakresach cenowych. Skala logarytmiczna pozwala na czytelne ukazanie tych nierówności oraz oddziaływania cen skrajnych.

4.2 Zmienność cen: Rynek Pierwotny vs Wtórny

Analiza porównawcza wykazuje, że rynek wtórny stanowi 57,6% podaży, podczas gdy pierwotny 42,4%. Mediana ceny na rynku pierwotnym (5 000 ₹/m^2) jest o około 16% wyższa niż na wtórnym (4 313 ₹/m^2), co oznacza wyższy próg wejścia dla nowych inwestycji. Mimo że średnia cena na rynku wtórnym wynosi 6 573 ₹, jest ona silnie zaburzona przez ekstremalne wartości odstające sięgające 194 444 ₹/sqft, w przeciwieństwie do rynku pierwotnego, gdzie maksimum to 112 500 ₹. Rynek wtórny cechuje się większą zmiennością (IQR wynoszący 2 785 ₹) i lepszą dostępnością ofert budżetowych poniżej 3 500 ₹/m^2, natomiast rynek pierwotny wykazuje wysoką koncentrację cen w wąskim przedziale (IQR wynoszący 1 800 ₹), co wynika z zestandaryzowanych cenników deweloperskich.

4.3 Analiza współzależności: Metraż a Cena

Wykres pokazuje wyraźną dodatnią zależność, wraz ze wzrostem powierzchni mieszkania rośnie również jego cena. Najwięcej ofert dotyczy nieruchomości o metrażu od 1000 do 1500 sqft, co przekłada się na najczęściej występujący przedział cenowy od 10 do 100 Lac. Punkty na wykresie są dość blisko linii regresji, co wskazuje, że powierzchnia ma duży i stabilny wpływ na cenę nieruchomości w regionie Surat. Oferty o powierzchni przekraczającej 10 000 sqft pojawiają się bardzo rzadko i zazwyczaj dotyczą luksusowych lub nietypowych nieruchomości, stanowiących niewielką część rynku.

4.4 Struktura standardu wykończenia

Analiza rynku nieruchomości w Suracie pokazuje, że zdecydowana większość ofert dotyczy mieszkań niewykończonych (Unfurnished), które stanowią ponad 71% wszystkich ogłoszeń. Znacznie mniej jest mieszkań częściowo umeblowanych (Semi-Furnished) oraz w pełni umeblowanych (Furnished) każda z tych kategorii stanowi około 14% rynku. Taki rozkład ofert wskazuje, że na rynku dominują nieruchomości w podstawowym standardzie, co może oznaczać, że kupujący częściej wybierają tańsze mieszkania lub wolą urządzić je samodzielnie.

4.5 Analiza miar położenia pięter

Wykres pudełkowy wskazuje, że większość mieszkań w Suracie znajduje się na niższych piętrach. Połowa ofert mieści się między 2 a 7 kondygnacją, a mediana wynosi 5 piętro. Wyższa od mediany średnia pokazuje, że nieliczne wysokie budynki zawyżają wyniki. Mieszkania powyżej 15 piętra są rzadkie i mają raczej luksusowy charakter, natomiast typowa zabudowa w mieście jest niska lub średniej wysokości.

4.6 Czy istnieje zależność między piętrem, a ceną za metr kwadratowy?

Rynek Status Oferty Srednia_Cena Cena_sqft
Pierwotny Gotowe do zamieszkania 591 123.94 5486
Pierwotny Inne 21 70.36 6079
Pierwotny W trakcie budowy 849 165.34 5355
Wtórny Gotowe do zamieszkania 1968 114.84 6481
Wtórny Inne 34 107.65 15026
Wtórny W trakcie budowy 70 120.95 4893

Analiza danych pokazuje, że bezwzględnie najwyższą średnią cenę, wynoszącą aż 15 026 dolarów/sqft, osiągają specyficzne oferty z rynku wtórnego (kategoria „Inne”), co prawdopodobnie odpowiada unikalnym apartamentom typu premium. W segmencie standardowym najdroższy jest rynek wtórny z lokalami gotowymi do zamieszkania (6481 dolarów/sqft), podczas gdy rynek pierwotny w budowie oferuje najniższą stawkę jednostkową wynoszącą 5355 dolarów/sqft. Mieszkania z rynku pierwotnego w trakcie budowy wyróżniają się najwyższą średnią ceną całkowitą (165,34 tys. dolarów), co przy niskiej cenie za stopę kwadratową wskazuje na ich znacznie większą powierzchnię w porównaniu do gotowych lokali deweloperskich. Całościowy obraz rynku potwierdza, że pomimo metraż i standard wykończenia są, to gotowość lokalu do odbioru najbardziej podbija cenę w popularnych segmentach.

4.7 Co bardziej wpływa na cenę mieszkania - jego wielkość, czy takie aspekty jak piętro, standard wykończenia, czy budynek jest już gotowy?

Wykres siły wpływu czynników pokazuje, że metraż dominuje nad pozostałymi zmiennymi, wykazując najsilniejszy dodatni wpływ na cenę całkowitą. Drugim kluczowym czynnikiem jest status gotowości budynku. W porównaniu do tych dwóch zmiennych, wpływ piętra oraz standardu wykończenia (np. umeblowania) jest znacznie mniejszy i, co ciekawe, w analizowanym modelu regresji ich kierunek wpływu na cenę końcową jest ujemny w stosunku do bazy porównawczej. Dane z tabeli rynkowej uzupełniają ten obraz, pokazując, że gotowe mieszkania na rynku wtórnym osiągają średnio wyższe ceny za stopę kwadratową niż te w trakcie budowy na rynku pierwotnym, co dodatkowo podkreśla znaczenie gotowości lokalu jako silnego determinanta ceny.

5. Wnioskowanie statystyczne

W poniższym rozdziale przechodzimy do statystycznej weryfikacji zależności rynkowych. Za pomocą testów istotności oraz modeli regresji wielorakiej zbadano, które cechy nieruchomości realnie kształtują ich cenę, a które nie mają na nią statystycznego wpływu. Pozwala to na obiektywne potwierdzenie postawionych hipotez badawczych oraz wskazanie głównych determinant cenowych w badanym zbiorze danych.

5.1 Przedział ufności dla średniej ceny mieszkania

Średnia cena mieszkania w badanej próbie wynosi około 128 Lac. Z 95% pewnością można przyjąć, że rzeczywista średnia rynkowa mieści się w przedziale od 97,31 do 159,26 Lac. Tak szeroki zakres błędu wynika z ogromnego zróżnicowania ofert, gdzie pojedyncze luksusowe nieruchomości znacząco zawyżają ogólny wynik. Mimo to, zebrane dane pozwalają precyzyjnie określić oczekiwany poziom cenowy dla typowej transakcji w regionie Surat.ak szeroki przedział ufności potwierdza wysoką heterogeniczność (niejednolitość) rynku. Inwestorzy powinni mieć świadomość, że ryzyko błędu przy szacowaniu ceny “na oko” jest duże bez uwzględnienia specyficznych cech lokalu.

5.2 Test istotności różnic: Rynek Pierwotny vs Rynek Wtórny

Analiza statystyczna testem t-Studenta wykazała bardzo niską wartość p-value), co potwierdza, że różnice cenowe między rynkami są istotne statystycznie. Choć rynek pierwotny cechuje się wyższą i bardziej przewidywalną medianą cen, to rynek wtórny generuje większą zmienność. Występują na nim zarówno oferty budżetowe, jak i luksusowe nieruchomości, które znacząco wykraczają poza standardowe widełki cenowe deweloperów.

5.3 Analiza różnic cenowych w zależności od wielkości mieszkania

Test Kruskala-Wallisa potwierdził, że metraż ma decydujący i istotny statystycznie wpływ na cenę nieruchomości (). Mediana wartości rośnie skokowo wraz z kategorią powierzchni od 3,5 mln rupii dla mieszkań małych do 17,9 mln rupii dla lokali ekskluzywnych. Sam metraż tłumaczy aż 56% zmienności cen na rynku w Suracie. Wyznaczony przedział ufności (97–159 Lac) stanowi podstawę do obiektywnej wyceny mieszkań w tym regionie.

5.4 Analiza prawdopodobieństwa wystąpienia i struktury standardów wykończenia

Test chi-kwadrat potwierdził, że zróżnicowanie standardów wykończenia jest statystycznie istotne. Rynek dominuje kategoria mieszkań niewykończonych (71%), podczas gdy lokale umeblowane i częściowo umeblowane stanowią łącznie jedynie 29% oferty. Tak wyraźna przewaga dowodzi, że oferta w Suracie jest niemal w całości nastawiona na nabywców preferujących samodzielną aranżację wnętrz.

5.5 Statystyczna analiza struktury kondygnacji w ofertach rynkowych

Test Wilcoxona potwierdził, że rozkład ofert względem wysokości budynku jest statystycznie istotny. Mediana ofert przypada na 5 piętro, a największa koncentracja lokali występuje na kondygnacjach 1-7. Powyżej tego poziomu liczba ogłoszeń gwałtownie spada, co dowodzi dominacji średniej zabudowy na rynku w Suracie i marginalnego znaczenia ofert na wysokich piętrach.

5.6 Weryfikacja statystyczna zależności między kondygnacją a ceną

Test korelacji Spearmana wykazał brak istotnego związku między piętrem a ceną za stopę kwadratową. Bardzo niski współczynnik korelacji oraz płaska linia trendu dowodzą, że wysokość kondygnacji ma wpływ na cenę jednostkową. Większość ofert skupia się na niskich piętrach (1–5) w stabilnym przedziale 4 000 - 6 000 ₹/sqft, co obala mit o wysokich dopłatach za lokale na górnych piętrach w tym regionie.

5.7 Analiza determinant ceny - co ma największy wpływ?

Najważniejszym czynnikiem kształtującym cenę nieruchomości jest jej metraż, który najsilniej podnosi wartość lokalu. Standard wykończenia oraz gotowość inwestycji również mają znaczenie, ponieważ brak mebli lub status „w budowie” wyraźnie obniżają wycenę. Numer piętra okazuje się statystycznie nieistotny, co ostatecznie dowodzi, że wysokość kondygnacji nie wpływa na cenę mieszkania. W praktyce o wartości lokalu decyduje przede wszystkim jego przestrzeń i standard, a nie położenie w pionie budynku.

Podsumowanie i wnioski końcowe

Niniejszy raport prezentuje szczegółową ocenę sytuacji na rynku mieszkaniowym w Surat, bazującą na analizie ponad 4500 ogłoszeń z perspektywy cen oraz parametrów technicznych. Etap przygotowania danych obejmował dokładną weryfikację ich jakości, która potwierdziła brak braków, umożliwiając tym samym konwersję danych tekstowych na format numeryczny odpowiedni do zastosowań analitycznych. Badanie dystrybucji wartości rynkowych wykazało wyraźne przesunięcie w kierunku wyższych cen, gdzie wartość przeciętna wynosząca 128,3 Lac jest podnoszona przez oferty z segmentu premium, natomiast mediana na poziomie około 70 Lac stanowi bardziej reprezentatywny wskaźnik dla typowego rynku. Obliczony przedział ufności na poziomie 95% (97,31-159,26 Lac) wskazuje na znaczące zróżnicowanie dostępnych nieruchomości, sugerując potrzebę zindywidualizowanego procesu wyceny.

Głównym wnioskiem analizy jest określenie czynników kształtujących cenę za jednostkę powierzchni. Dane wskazują, że mieszkania z rynku wtórnego (Resale) osiągają średnio o 21% wyższą wycenę za stopę kwadratową (6523 ₹) w porównaniu z ofertami z rynku pierwotnego (5419 ₹), co wskazuje na preferencję nabywców w Suracie dla lokali gotowych do użytkowania oraz sprawdzonych lokalizacji ponad inwestycje deweloperskie. Zarówno analiza graficzna, jak i test Kruskala-Wallisa potwierdziły dominującą rolę metrażu jako głównego wyznacznika ceny całkowitej, odpowiadającego za 56% obserwowanej wariancji. Warto podkreślić, że przeprowadzone badanie obaliło popularny mit dotyczący wpływu piętra na wartość nieruchomości — zarówno korelacja Spearmana, jak i regresja liniowa nie wykazały statystycznie istotnego związku między numerem kondygnacji a ceną jednostkową.

Jeśli chodzi o standard wykończenia, rynek w Suracie zostaje zdominowany przez lokale w stanie surowym (71% ogółu ofert), co definiuje profil lokalnego nabywcy jako osobę która woli samodzielny wystrój wnętrz. Zastosowany model regresji wielorakiej ostatecznie uszeregował czynniki tworzące cene, wskazując metraż oraz status gotowości budynku jako kluczowe, przy marginalnym znaczeniu piętra oraz standardu umeblowania. Wyniki te stanowią dobrą podstawę dla konsumentów i inwestorów, sugerując, że najbardziej stabilne decyzje zakupowe powinny opierać się na analizie przestrzeni użytkowej oraz etapie realizacji inwestycji, z pominięciem cech o niskiej istotności statystycznej, takich jak na którym pietrze mieszkanie się znajduje.