Projekt z przedmiotu Analiza Danych będzie koncentrował się na kompleksowej analizie danych z agencji nieruchomości. Będziemy pracować na zestawie danych zawierającym 13 kluczowych zmiennych, w tym cenę nieruchomości, powierzchnię, liczbę sypialni i łazienek, liczbę pięter, dostępność połączenia z główną drogą, obecność pokoju gościnnego, piwnicy, systemu ogrzewania wody, klimatyzacji, liczby miejsc parkingowych, lokalizacji w preferowanym obszarze oraz statusu umeblowania. Naszym celem będzie czyszczenie, przygotowanie i poddanie analizie tych danych do dalszych badań, aby lepiej zrozumieć trendy i wzorce w branży nieruchomości.
W ramach wstępnego przetwarzania danych dokonano kilku kluczowych transformacji w celu przygotowania zestawu danych do analizy. Pierwszym krokiem było przeliczenie powierzchni nieruchomości z jednostek stóp kwadratowych na metry kwadratowe, aby dostosować dane do standardów międzynarodowych. Następnie obliczono cenę za metr kwadratowy oraz cenę za każdą sypialnię, co pozwoliło na głębsze zrozumienie struktury cen w kontekście rozmiaru i ilości pomieszczeń. Dodatkowo dane zostały zaokrąglone do dwóch miejsc po przecinku dla większej precyzji i czytelności. Na koniec wprowadzono ograniczenia dla zmiennych, aby upewnić się, że analizowane będą tylko te rekordy, które mają określone wartości dla cen, liczby sypialni i łazienek. Te kroki pozwoliły na ustrukturyzowanie i oczyszczenie danych przed przystąpieniem do właściwej analizy.
| Zmienna | Liczba braków danych | |
|---|---|---|
| price | Cena | 0 |
| area | Powierzchnia | 0 |
| bedrooms | Sypialnie | 0 |
| bathrooms | Łazienki | 0 |
| stories | Piętra | 0 |
| mainroad | Główna droga | 0 |
| guestroom | Pokój gościnny | 0 |
| basement | Piwnica | 0 |
| hotwaterheating | Ogrzewanie wody | 0 |
| airconditioning | Klimatyzacja | 0 |
| parking | Parking | 0 |
| prefarea | Preferowana okolica | 0 |
| furnishingstatus | Stan umeblowania | 0 |
Weryfikacja danych wykazała, że nasze zbiory są kompleksowe i nie zawierają żadnych braków danych. Ta sytuacja umożliwia nam pełne skorzystanie z dostępnych danych do przeprowadzenia analizy i uzyskania wiarygodnych wyników.
Interpretacja wykresu
Wyniki powyższego wykresu ukazują, że większość cen nieruchomości mieści się w określonym przedziale, natomiast istnieją nieruchomości, których ceny są znacznie wyższe, co może wynikać z różnych czynników, takich jak lokalizacja, wielkość, cechy luksusowe itp.Z drugiej strony należy podkreślić, że cen skrajnie niskich, nielogicznych dla omawianej zmiennej nie odnotowano. W celu szerszej analizy zbadane zostały wartości zmiennych odstających o wysokich wartościach, by w 100% potwierdzić poprawność danych.
## [1] 13300000 12250000 12250000 12215000 11410000 10850000 10150000 10150000
## [9] 9870000 9800000 9800000 9681000 9310000 9240000 9240000
Najwyższa odstająca wartość wynosi 1 330 000 jp. potwierdzając tym samym poprawność zmiennej.
Badanie rozkładu cen względem metrażu nieruchomości
W poniższej tabeli przedstawiono statystyki opisowe ceny w zależności od wielkości nieruchomości. Metraż nieruchomości w celach statystycznych podzielony został na 3 grupy- mały, średni oraz duży. Analiza obejmuje takie miary, jak średnia, mediana i wartość minimalna.
| area_group | Liczba | Cena | Mediana | Min | Max |
|---|---|---|---|---|---|
| Małe | 184 | 3566329 | 3500000 | 1750000 | 9240000 |
| Średnie | 179 | 4527670 | 4270000 | 2233000 | 9800000 |
| Duże | 182 | 6215439 | 5950000 | 2450000 | 13300000 |
| area_group | Liczba | Cena za m2 | Mediana za m2 | Min za m2 | Max za m2 |
|---|---|---|---|---|---|
| Małe | 184 | 12472 | 11752 | 4893 | 28417 |
| Średnie | 179 | 10391 | 9885 | 4535 | 21802 |
| Duże | 182 | 9188 | 8914 | 2911 | 19294 |
Podsumowując powyższą tabelę, możemy zauważyć, że średnia cena za metr kwadratowy jest najwyższa dla małych nieruchomości i maleje wraz ze wzrostem metrażu. Może to sugerować, że mniejsze nieruchomości są wyceniane wyżej za jednostkę powierzchni, być może ze względu na większą dostępność lub preferencje rynkowe dotyczące mniejszych, bardziej przystępnych nieruchomości, albo z powodu lokalizacji w bardziej pożądanych obszarach. Ponad to, zakres cen (różnica między ceną maksymalną a minimalną) jest najszerszy w grupie nieruchomości dużych, co może wskazywać na większą różnorodność wartości w tej kategorii, być może ze względu na różnice w lokalizacji, standardzie, czy dodatkowych udogodnieniach.
Analiza ceny za metr kwadratowy w zależności o statusu umeblowania
W poniższej tabeli przedstawiono statystyki opisowe ceny za metr kwadratowy w zależności od statusu umeblowania. Analiza obejmuje takie miary, jak średnia, mediana i wartość minimalna.
| furnishingstatus | Liczba | Cena za m2 | Mediana za m2 | Min za m2 | Max za m2 |
|---|---|---|---|---|---|
| furnished | 140 | 11266 | 11035 | 4089 | 28417 |
| semi-furnished | 227 | 11115 | 10731 | 3767 | 24523 |
| unfurnished | 178 | 9702 | 9398 | 2911 | 21132 |
Z analizy wynika, że status umeblowania ma znaczący wpływ na cenę za metr kwadratowy, przy czym nieruchomości umeblowane mają wyższą średnią i medianę cen, co sugeruje, że umeblowanie może być ważnym czynnikiem wpływającym na wartość nieruchomości.
W poniższej analizie przeprowadzono badanie korelacji między kluczowymi zmiennymi numerycznymi w zestawie danych agencji nieruchomości. Przedstawiona mapa ciepła przedstawia wyniki obliczeń współczynników korelacji Pearsona, które mogą przyjmować wartości od -1 do 1.
Mapa ciepła korelacji pokazuje różne stopnie skojarzeń między parametrami nieruchomości. Widoczne są następujące tendencje:
price_per_sqft):
area), co może sugerować, że większe nieruchomości mają
niższą cenę za metr kwadratowy.bedrooms), łazienek (bathrooms) oraz liczby
pięter (stories), co wskazuje, że zwiększenie liczby tych
elementów może wiązać się z niewielkim wzrostem ceny za metr
kwadratowy.parking), co sugeruje, że ta cecha ma niewielki lub żaden
wpływ na cenę za metr kwadratowy.area):
parking) oznacza, że większe nieruchomości częściej
oferują więcej miejsc parkingowych.bedrooms) i
łazienek (bathrooms) może wskazywać na to, że choć ogólnie
większa powierzchnia wiąże się z większą liczbą sypialni i łazienek,
wzrost ten nie jest proporcjonalny.bedrooms):
bathrooms) i liczba
pięter (stories) sugeruje, że zwiększenie liczby sypialni
często wiąże się ze wzrostem liczby łazienek oraz większą liczbą pięter
w nieruchomości.parking)
oznacza, że liczba sypialni nie jest silnie powiązana z dostępnymi
miejscami parkingowymi.bathrooms):
stories), co sugeruje, że w domach wielopoziomowych
jest zazwyczaj więcej łazienek.stories):
area) i
miejscami parkingowymi (parking), co może wskazywać, że
cechy te nie zależą bezpośrednio od liczby pięter w budynku.parking):
area) niż z innymi
zmiennymi może oznaczać, że większe nieruchomości zazwyczaj oferują
więcej miejsc parkingowych.Interpretacja wykresu
Na przedstawionym histogramie obserwujemy rozkład ceny za metr kwadratowy nieruchomości, który wykazuje prawoskrzywioną asymetrię. Większość cen nieruchomości koncentruje się w niższych przedziałach cenowych, co wskazuje na to, że są to wartości najbardziej typowe dla analizowanego rynku. Jednak długi prawy “ogon” dystrybucji sugeruje obecność nieruchomości o znacznie wyższej cenie za metr kwadratowy, co może świadczyć o istnieniu segmentu luksusowych nieruchomości. Wygładzona krzywa gęstości nałożona na histogram dodatkowo potwierdza ten wniosek, ukazując kontur ogólnej tendencji w rozkładzie danych.
Interpretacja wykresu
Na podstawie przedstawionego wykresu rozrzutu, który ilustruje zależność między ceną nieruchomości, a jej powierzchnią z uwzględnieniem liczby sypialni, można wysnuć kilka wniosków: * Wydaje się, że istnieje zróżnicowanie cen nieruchomości, które nie jest jednoznacznie zależne od ich powierzchni, co wskazuje na istnienie innych czynników wpływających na cenę, takich jak lokalizacja, standard wykończenia, czy dodatkowe udogodnienia. * * Rozkład punktów nie pokazuje wyraźnego trendu liniowego, co może sugerować, że związek między ceną a powierzchnią nie jest prosty lub jest modyfikowany przez inne zmienne, jak liczba sypialni.
Interpretacja wykresu
Wyraźnie widać, że mediana cen oraz rozkład cenowy różni się w zależności od liczby sypialni, co sugeruje, że liczba sypialni może wpływać na cenę nieruchomości. Nieruchomości z większą liczbą sypialni wydają się mieć wyższą medianę cen, jednak obecność punktów odstających, szczególnie dla nieruchomości z mniejszą liczbą sypialni, wskazuje na to, że są inne czynniki, które również mogą znacząco wpływać na cenę. Ponadto, zróżnicowanie cenowe w obrębie każdej kategorii jest dość duże, co może świadczyć o heterogeniczności nieruchomości nawet przy tej samej liczbie sypialni.
Interpretacja wykresu
Nieruchomości z jedną łazienką wykazują węższy zakres cen i niższą medianę w porównaniu z nieruchomościami posiadającymi większą liczbę łazienek. Mediana cenowa oraz rozstęp cen rosną wraz z liczbą łazienek, co sugeruje, że większa liczba łazienek może być związana z wyższą ceną nieruchomości. Obecność punktów odstających dla nieruchomości z jedną i dwoma łazienkami wskazuje na istnienie nieruchomości o cenach znacznie odbiegających od typowych wartości w tych kategoriach. Nieruchomości z trzema łazienkami mają szeroki zakres cen, podczas gdy dane dla nieruchomości z czterema łazienkami są zbyt ograniczone, aby wysnuć jednoznaczne wnioski.
Interpretacja wykresu
Mediana cen, która jest reprezentowana przez poziomą linię wewnątrz każdego pudełka, oraz zakres cen, wydają się być różne dla różnej liczby pięter. Wykres sugeruje, że nieruchomości z większą liczbą pięter mogą mieć tendencję do wyższych cen, jednak występowanie punktów odstających w każdej kategorii wskazuje, że istnieją wyjątki od tej tendencji. Ogólnie wykres może wskazywać, że liczba pięter ma wpływ na cenę nieruchomości, ale potrzebna jest dalsza analiza, aby zrozumieć ten związek dokładniej.
Interpretacja wykresu
Możemy zaobserwować, że nie ma jednoznacznej zależności między ceną a powierzchnią nieruchomości, które różnią się statusem umeblowania. Co więcej, rozkład cenowy wydaje się być dość podobny dla różnych ilości miejsc parkingowych, choć wykres sugeruje, że nieruchomości z większą ilością miejsc parkingowych mogą być nieco droższe. Odmienne kolory punktów dla różnych statusów umeblowania nie wykazują wyraźnego wzorca, co sugeruje, że status umeblowania nie jest głównym czynnikiem wpływającym na cenę nieruchomości w obrębie danej ilości miejsc parkingowych.
Pytanie badawcze: Cena nieruchomości uzależniona od ilości łazienek
Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie nieruchomości w zależniości od liczby łazienek.
Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie nieruchomości w zależniości od liczby łazienek.
## Warning: Groups with fewer than two data points have been dropped.
Wnioski
Wartość p-value wynosi ok. 0,00, czyli mniej niż standardowy poziom istotności 0,05. W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż liczba łazienek wykazuje istotne statystycznie różnice w cenien nieruchomości.
Pytanie badawcze: Cena za metr kwadratowy uzależniona od liczby pięter w domu
Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie za metr kwadratowy w zależniości od liczby pięter.
Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie metr kwadratowy w zależniości od liczby pięter.
Wnioski
Wartość p-value wynosi 0,000, czyli znacznie mniej niż standardowy poziom istotności 0,05. W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż cena za metr kwadratowy wykazuje istotne statystycznie różnice w zależniości od liczby pięter.
Pytanie badawcze: Cena przypadająca na jedną sypialnie uzależniona od ilości sypialnii
Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie przypadającej na jedną sypialnię w zależniości od liczby sypialnii.
Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie przypadającej na jedną sypialnię w zależniości od liczby sypialnii.
Wnioski
Wartość p-value wynosi 0,01, czyli mniej niż standardowy poziom istotności 0,05. W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż cena przypadająca na jedną sypialnie wykazuje istotne statystycznie różnice w zależniości od liczby sypialnii.
Pytanie badawcze: Cena za metr kwadratowy nieruchomości uzależniona stanu wyposażenia
Hipoteza zerowa (H0): Srednia cena za metr kwadratowy jest taka sama dla wszystkich stanów wyposażenia.
Hipoteza alternatywna (H1): Srednia cena za metr kwadratowy nie jest taka sama dla wszystkich stanów wyposażenia.
| term | df | sumsq | meansq | statistic | p.value |
|---|---|---|---|---|---|
| furnishingstatus | 2 | 261202460 | 130601230 | 9.69 | 0 |
| Residuals | 542 | 7307801697 | 13483029 | NA | NA |
Wnioski
Test ANOVA wartość p-value równą 0,00007, czyli mniej niż standardowy poziom istotności 0,05.W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż stan wyposażenia istotnie wpływa na cenę za metr kwadratowy.
Pytanie badawcze: Liczba miejsc parkingowych dostępnych w budynku uzależniony od wielkości nieruchomości
Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w liczbie miejsc parkingowych dostępnych w budynku w zależniości od wielkości nieruchomości.
Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w liczbie miejsc parkingowych dostępnych w budynku
| term | df | sumsq | meansq | statistic | p.value |
|---|---|---|---|---|---|
| area_group | 2 | 43.7 | 21.856 | 32.9 | 0 |
| Residuals | 542 | 360.1 | 0.664 | NA | NA |
Wnioski
Test ANOVA wartość p-value wynosi ok. 0,000, czyli znacznie mniej niż standardowy poziom istotności 0,05. W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż liczba miejsc parkingowych dostępnych w budynku wykazuje istotne statystycznie różnice w wielkości nieruchomości.
Pytanie badawcze: Cena nieruchomości jest uzależniona od statusu umeblowania nieruchomości
Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie w zależności od statusu umeblowania nieruchomości
Hipoteza alternatywna (H1): Istnieje statystycznie
istotna różnica w cenie w zależności od statusu umeblowania
nieruchomości j
Wnioski
Oś X przedstawia kategorie związane ze statusem umeblowania, a oś Y reprezentuje cenę nieruchomości. Wartość p mniejsza niż 0,05 sugeruje, że różnice między kategoriami są istotne statystycznie. Dla tego wykresu wszystkie porównane pary kategorii mają wartości p znacznie mniejsze niż 0,05, co sugeruje, że istnieją istotne różnice między tymi trzema kategoriami. Odrzucamy więc hipotezę zerową. Możemy zatem stwierdzić, że cena nieruchomości jest uzależniona od statusu umeblowania nieruchomości
Pytanie badawcze: Cena za m2 uzależniona jest od tego czy nieruchomość znajduje się w preferowanej lokalizacji
Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie za m2 w zależności od tego czy nieruchomość znajduje się w preferowanej lokalizacji
Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie m2 w zależności od tego czy nieruchomość znajduje się w preferowanej lokalizacji
Wnioski
Na osi X mamy podane czy nieruchomość znajduje się w preferowanej okolicy - tak lub nie, a na osi Y natomiast widnieje cena za m2 nieruchomości. Dla nieruchomości z preferowaną lokalizacją widzimy wyższe wartości cenowe. Rozkład wartości jest wyraźnie różny porównując te dwie grupy. Wartość p-value wynosząca 0,01 sugeruje, że istnieje zależność pomiędzy ceną za m2, a preferowaną lokalizacją nieruchomości.
Pytanie badawcze: Liczba sypialni jest uzależnionaod od liczby pięter
Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w liczbie sypialni w zależności od liczby pięter
Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w liczbie sypialni w zależności od liczby pięter
Wnioski
Oś pozioma przedstawia liczbę sypialni w nieruchomości, a oś pionowa pokazuje procentową częstotliwość określonej kategorii (liczby pięter) w ramach każdej grupy. W większośc grup p-value ma mniejszą wartość niż 0,05. Tylko skrajne grupy mają p-value na poziomie 0,11. Ogółem możemy stwierdzić, że liczba pięter w nieruchomości ma wpływ na liczbę sypialni.``
Pytanie badawcze: Liczba łazienek jest uzależniona od liczby sypialni
Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w liczbie łazienek w zależności od liczby sypialni
Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w liczbie łazienek w zależności od liczby sypialni
Wnioski
Na ostatnim wykresie mamy serię wykresów kołowych, które przedstawiają rozkład liczby sypialni w nieruchomościach, podzielony według liczby łazienek. Każdy wykres kołowy odpowiada nieruchomościom z określoną liczbą łazienek i pokazuje procentowy rozkład liczby sypialni w tych nieruchomościach. Podobnie jak w poprzednim wykresie, tylko skrajna grupa ma p-value większe od 0,05. Znajduję się tam jednak tylko jedna obserwacja. Ogólnie możemy powiedzieć, że liczba łazienek jest uzależniona od liczby sypialni w nieruchomościach.
W projekcie znaleziono istotne korelacje i istotne statystycznie zależności między analizowanymi zmiennymi. Zidentyfikowano również wyraźne wzorce w danych, które mogą być kluczowe dla zrozumienia badanego zjawiska. Wszystkie wysunięte wnioski mogą mieć znaczący wpływ na dalsze badania lub praktyczne zastosowania.