0.1 Wprowadzenie do projektu

Projekt z przedmiotu Analiza Danych będzie koncentrował się na kompleksowej analizie danych z agencji nieruchomości. Będziemy pracować na zestawie danych zawierającym 13 kluczowych zmiennych, w tym cenę nieruchomości, powierzchnię, liczbę sypialni i łazienek, liczbę pięter, dostępność połączenia z główną drogą, obecność pokoju gościnnego, piwnicy, systemu ogrzewania wody, klimatyzacji, liczby miejsc parkingowych, lokalizacji w preferowanym obszarze oraz statusu umeblowania. Naszym celem będzie czyszczenie, przygotowanie i poddanie analizie tych danych do dalszych badań, aby lepiej zrozumieć trendy i wzorce w branży nieruchomości.

W ramach wstępnego przetwarzania danych dokonano kilku kluczowych transformacji w celu przygotowania zestawu danych do analizy. Pierwszym krokiem było przeliczenie powierzchni nieruchomości z jednostek stóp kwadratowych na metry kwadratowe, aby dostosować dane do standardów międzynarodowych. Następnie obliczono cenę za metr kwadratowy oraz cenę za każdą sypialnię, co pozwoliło na głębsze zrozumienie struktury cen w kontekście rozmiaru i ilości pomieszczeń. Dodatkowo dane zostały zaokrąglone do dwóch miejsc po przecinku dla większej precyzji i czytelności. Na koniec wprowadzono ograniczenia dla zmiennych, aby upewnić się, że analizowane będą tylko te rekordy, które mają określone wartości dla cen, liczby sypialni i łazienek. Te kroki pozwoliły na ustrukturyzowanie i oczyszczenie danych przed przystąpieniem do właściwej analizy.

0.2 Weryfikacja danych

Analiza braków danych w zbiorze agencja_nieruchomosci
Zmienna Liczba braków danych
price Cena 0
area Powierzchnia 0
bedrooms Sypialnie 0
bathrooms Łazienki 0
stories Piętra 0
mainroad Główna droga 0
guestroom Pokój gościnny 0
basement Piwnica 0
hotwaterheating Ogrzewanie wody 0
airconditioning Klimatyzacja 0
parking Parking 0
prefarea Preferowana okolica 0
furnishingstatus Stan umeblowania 0

Weryfikacja danych wykazała, że nasze zbiory są kompleksowe i nie zawierają żadnych braków danych. Ta sytuacja umożliwia nam pełne skorzystanie z dostępnych danych do przeprowadzenia analizy i uzyskania wiarygodnych wyników.

Interpretacja wykresu

Wyniki powyższego wykresu ukazują, że większość cen nieruchomości mieści się w określonym przedziale, natomiast istnieją nieruchomości, których ceny są znacznie wyższe, co może wynikać z różnych czynników, takich jak lokalizacja, wielkość, cechy luksusowe itp.Z drugiej strony należy podkreślić, że cen skrajnie niskich, nielogicznych dla omawianej zmiennej nie odnotowano. W celu szerszej analizy zbadane zostały wartości zmiennych odstających o wysokich wartościach, by w 100% potwierdzić poprawność danych.

##  [1] 13300000 12250000 12250000 12215000 11410000 10850000 10150000 10150000
##  [9]  9870000  9800000  9800000  9681000  9310000  9240000  9240000

Najwyższa odstająca wartość wynosi 1 330 000 jp. potwierdzając tym samym poprawność zmiennej.

Badanie rozkładu cen względem metrażu nieruchomości

W poniższej tabeli przedstawiono statystyki opisowe ceny w zależności od wielkości nieruchomości. Metraż nieruchomości w celach statystycznych podzielony został na 3 grupy- mały, średni oraz duży. Analiza obejmuje takie miary, jak średnia, mediana i wartość minimalna.

Średnie ceny w zależności od grup metrażowych
area_group Liczba Cena Mediana Min Max
Małe 184 3566329 3500000 1750000 9240000
Średnie 179 4527670 4270000 2233000 9800000
Duże 182 6215439 5950000 2450000 13300000
Średnie ceny za metr kwadratowy w zależności od grup metrażowych
area_group Liczba Cena za m2 Mediana za m2 Min za m2 Max za m2
Małe 184 12472 11752 4893 28417
Średnie 179 10391 9885 4535 21802
Duże 182 9188 8914 2911 19294

Podsumowując powyższą tabelę, możemy zauważyć, że średnia cena za metr kwadratowy jest najwyższa dla małych nieruchomości i maleje wraz ze wzrostem metrażu. Może to sugerować, że mniejsze nieruchomości są wyceniane wyżej za jednostkę powierzchni, być może ze względu na większą dostępność lub preferencje rynkowe dotyczące mniejszych, bardziej przystępnych nieruchomości, albo z powodu lokalizacji w bardziej pożądanych obszarach. Ponad to, zakres cen (różnica między ceną maksymalną a minimalną) jest najszerszy w grupie nieruchomości dużych, co może wskazywać na większą różnorodność wartości w tej kategorii, być może ze względu na różnice w lokalizacji, standardzie, czy dodatkowych udogodnieniach.

Analiza ceny za metr kwadratowy w zależności o statusu umeblowania

W poniższej tabeli przedstawiono statystyki opisowe ceny za metr kwadratowy w zależności od statusu umeblowania. Analiza obejmuje takie miary, jak średnia, mediana i wartość minimalna.

Średnie ceny za metr kwadratowy w zależności od statusu umeblowania
furnishingstatus Liczba Cena za m2 Mediana za m2 Min za m2 Max za m2
furnished 140 11266 11035 4089 28417
semi-furnished 227 11115 10731 3767 24523
unfurnished 178 9702 9398 2911 21132

Z analizy wynika, że status umeblowania ma znaczący wpływ na cenę za metr kwadratowy, przy czym nieruchomości umeblowane mają wyższą średnią i medianę cen, co sugeruje, że umeblowanie może być ważnym czynnikiem wpływającym na wartość nieruchomości.

0.3 Analiza korelacji

W poniższej analizie przeprowadzono badanie korelacji między kluczowymi zmiennymi numerycznymi w zestawie danych agencji nieruchomości. Przedstawiona mapa ciepła przedstawia wyniki obliczeń współczynników korelacji Pearsona, które mogą przyjmować wartości od -1 do 1.

Mapa ciepła korelacji pokazuje różne stopnie skojarzeń między parametrami nieruchomości. Widoczne są następujące tendencje:

  • Cena za metr kwadratowy (price_per_sqft):
    • Wykazuje umiarkowaną ujemną korelację z powierzchnią (area), co może sugerować, że większe nieruchomości mają niższą cenę za metr kwadratowy.
    • Ma niewielką dodatnią korelację z liczbą sypialni (bedrooms), łazienek (bathrooms) oraz liczby pięter (stories), co wskazuje, że zwiększenie liczby tych elementów może wiązać się z niewielkim wzrostem ceny za metr kwadratowy.
    • Praktycznie brak korelacji z liczbą miejsc parkingowych (parking), co sugeruje, że ta cecha ma niewielki lub żaden wpływ na cenę za metr kwadratowy.
  • Powierzchnia (area):
    • Umiarkowana dodatnia korelacja z miejscami parkingowymi (parking) oznacza, że większe nieruchomości częściej oferują więcej miejsc parkingowych.
    • Niska dodatnia korelacja z liczbą sypialni (bedrooms) i łazienek (bathrooms) może wskazywać na to, że choć ogólnie większa powierzchnia wiąże się z większą liczbą sypialni i łazienek, wzrost ten nie jest proporcjonalny.
  • Sypialnie (bedrooms):
    • Umiarkowana korelacja z łazienkami (bathrooms) i liczba pięter (stories) sugeruje, że zwiększenie liczby sypialni często wiąże się ze wzrostem liczby łazienek oraz większą liczbą pięter w nieruchomości.
    • Słaba korelacja z miejscami parkingowymi (parking) oznacza, że liczba sypialni nie jest silnie powiązana z dostępnymi miejscami parkingowymi.
  • Łazienki (bathrooms):
    • Podobnie jak sypialnie, łazienki mają umiarkowaną korelację z liczbą pięter (stories), co sugeruje, że w domach wielopoziomowych jest zazwyczaj więcej łazienek.
  • Liczba pięter (stories):
    • Wykazuje niewielką korelację z powierzchnią (area) i miejscami parkingowymi (parking), co może wskazywać, że cechy te nie zależą bezpośrednio od liczby pięter w budynku.
  • Miejsca parkingowe (parking):
    • Silniejsza korelacja z powierzchnią (area) niż z innymi zmiennymi może oznaczać, że większe nieruchomości zazwyczaj oferują więcej miejsc parkingowych.

0.4 Analiza danych

Interpretacja wykresu

Na przedstawionym histogramie obserwujemy rozkład ceny za metr kwadratowy nieruchomości, który wykazuje prawoskrzywioną asymetrię. Większość cen nieruchomości koncentruje się w niższych przedziałach cenowych, co wskazuje na to, że są to wartości najbardziej typowe dla analizowanego rynku. Jednak długi prawy “ogon” dystrybucji sugeruje obecność nieruchomości o znacznie wyższej cenie za metr kwadratowy, co może świadczyć o istnieniu segmentu luksusowych nieruchomości. Wygładzona krzywa gęstości nałożona na histogram dodatkowo potwierdza ten wniosek, ukazując kontur ogólnej tendencji w rozkładzie danych.

Interpretacja wykresu

Na podstawie przedstawionego wykresu rozrzutu, który ilustruje zależność między ceną nieruchomości, a jej powierzchnią z uwzględnieniem liczby sypialni, można wysnuć kilka wniosków: * Wydaje się, że istnieje zróżnicowanie cen nieruchomości, które nie jest jednoznacznie zależne od ich powierzchni, co wskazuje na istnienie innych czynników wpływających na cenę, takich jak lokalizacja, standard wykończenia, czy dodatkowe udogodnienia. * * Rozkład punktów nie pokazuje wyraźnego trendu liniowego, co może sugerować, że związek między ceną a powierzchnią nie jest prosty lub jest modyfikowany przez inne zmienne, jak liczba sypialni.

Interpretacja wykresu

Wyraźnie widać, że mediana cen oraz rozkład cenowy różni się w zależności od liczby sypialni, co sugeruje, że liczba sypialni może wpływać na cenę nieruchomości. Nieruchomości z większą liczbą sypialni wydają się mieć wyższą medianę cen, jednak obecność punktów odstających, szczególnie dla nieruchomości z mniejszą liczbą sypialni, wskazuje na to, że są inne czynniki, które również mogą znacząco wpływać na cenę. Ponadto, zróżnicowanie cenowe w obrębie każdej kategorii jest dość duże, co może świadczyć o heterogeniczności nieruchomości nawet przy tej samej liczbie sypialni.

Interpretacja wykresu

Nieruchomości z jedną łazienką wykazują węższy zakres cen i niższą medianę w porównaniu z nieruchomościami posiadającymi większą liczbę łazienek. Mediana cenowa oraz rozstęp cen rosną wraz z liczbą łazienek, co sugeruje, że większa liczba łazienek może być związana z wyższą ceną nieruchomości. Obecność punktów odstających dla nieruchomości z jedną i dwoma łazienkami wskazuje na istnienie nieruchomości o cenach znacznie odbiegających od typowych wartości w tych kategoriach. Nieruchomości z trzema łazienkami mają szeroki zakres cen, podczas gdy dane dla nieruchomości z czterema łazienkami są zbyt ograniczone, aby wysnuć jednoznaczne wnioski.

Interpretacja wykresu

Mediana cen, która jest reprezentowana przez poziomą linię wewnątrz każdego pudełka, oraz zakres cen, wydają się być różne dla różnej liczby pięter. Wykres sugeruje, że nieruchomości z większą liczbą pięter mogą mieć tendencję do wyższych cen, jednak występowanie punktów odstających w każdej kategorii wskazuje, że istnieją wyjątki od tej tendencji. Ogólnie wykres może wskazywać, że liczba pięter ma wpływ na cenę nieruchomości, ale potrzebna jest dalsza analiza, aby zrozumieć ten związek dokładniej.

Interpretacja wykresu

Możemy zaobserwować, że nie ma jednoznacznej zależności między ceną a powierzchnią nieruchomości, które różnią się statusem umeblowania. Co więcej, rozkład cenowy wydaje się być dość podobny dla różnych ilości miejsc parkingowych, choć wykres sugeruje, że nieruchomości z większą ilością miejsc parkingowych mogą być nieco droższe. Odmienne kolory punktów dla różnych statusów umeblowania nie wykazują wyraźnego wzorca, co sugeruje, że status umeblowania nie jest głównym czynnikiem wpływającym na cenę nieruchomości w obrębie danej ilości miejsc parkingowych.

0.5 Wnioskowanie statystyczne

Pytanie badawcze: Cena nieruchomości uzależniona od ilości łazienek

Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie nieruchomości w zależniości od liczby łazienek.

Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie nieruchomości w zależniości od liczby łazienek.

## Warning: Groups with fewer than two data points have been dropped.

Wnioski

Wartość p-value wynosi ok. 0,00, czyli mniej niż standardowy poziom istotności 0,05. W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż liczba łazienek wykazuje istotne statystycznie różnice w cenien nieruchomości.

Pytanie badawcze: Cena za metr kwadratowy uzależniona od liczby pięter w domu

Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie za metr kwadratowy w zależniości od liczby pięter.

Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie metr kwadratowy w zależniości od liczby pięter.

Wnioski

Wartość p-value wynosi 0,000, czyli znacznie mniej niż standardowy poziom istotności 0,05. W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż cena za metr kwadratowy wykazuje istotne statystycznie różnice w zależniości od liczby pięter.

Pytanie badawcze: Cena przypadająca na jedną sypialnie uzależniona od ilości sypialnii

Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie przypadającej na jedną sypialnię w zależniości od liczby sypialnii.

Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie przypadającej na jedną sypialnię w zależniości od liczby sypialnii.

Wnioski

Wartość p-value wynosi 0,01, czyli mniej niż standardowy poziom istotności 0,05. W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż cena przypadająca na jedną sypialnie wykazuje istotne statystycznie różnice w zależniości od liczby sypialnii.

Pytanie badawcze: Cena za metr kwadratowy nieruchomości uzależniona stanu wyposażenia

Hipoteza zerowa (H0): Srednia cena za metr kwadratowy jest taka sama dla wszystkich stanów wyposażenia.

Hipoteza alternatywna (H1): Srednia cena za metr kwadratowy nie jest taka sama dla wszystkich stanów wyposażenia.

Analiza wariancji dla ceny za metr kwadratowy w zależności od stanu wyposażenia
term df sumsq meansq statistic p.value
furnishingstatus 2 261202460 130601230 9.69 0
Residuals 542 7307801697 13483029 NA NA

Wnioski

Test ANOVA wartość p-value równą 0,00007, czyli mniej niż standardowy poziom istotności 0,05.W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż stan wyposażenia istotnie wpływa na cenę za metr kwadratowy.

Pytanie badawcze: Liczba miejsc parkingowych dostępnych w budynku uzależniony od wielkości nieruchomości

Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w liczbie miejsc parkingowych dostępnych w budynku w zależniości od wielkości nieruchomości.

Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w liczbie miejsc parkingowych dostępnych w budynku

Analiza wariancji dla liczby miejsc parkingowych w zależności od wielkości nieruchomości
term df sumsq meansq statistic p.value
area_group 2 43.7 21.856 32.9 0
Residuals 542 360.1 0.664 NA NA

Wnioski

Test ANOVA wartość p-value wynosi ok. 0,000, czyli znacznie mniej niż standardowy poziom istotności 0,05. W takiej sytuacji mamy możliwość odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej , sugerując tym samym, iż liczba miejsc parkingowych dostępnych w budynku wykazuje istotne statystycznie różnice w wielkości nieruchomości.

Pytanie badawcze: Cena nieruchomości jest uzależniona od statusu umeblowania nieruchomości

Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie w zależności od statusu umeblowania nieruchomości

Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie w zależności od statusu umeblowania nieruchomości j

Wnioski

Oś X przedstawia kategorie związane ze statusem umeblowania, a oś Y reprezentuje cenę nieruchomości. Wartość p mniejsza niż 0,05 sugeruje, że różnice między kategoriami są istotne statystycznie. Dla tego wykresu wszystkie porównane pary kategorii mają wartości p znacznie mniejsze niż 0,05, co sugeruje, że istnieją istotne różnice między tymi trzema kategoriami. Odrzucamy więc hipotezę zerową. Możemy zatem stwierdzić, że cena nieruchomości jest uzależniona od statusu umeblowania nieruchomości

Pytanie badawcze: Cena za m2 uzależniona jest od tego czy nieruchomość znajduje się w preferowanej lokalizacji

Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w cenie za m2 w zależności od tego czy nieruchomość znajduje się w preferowanej lokalizacji

Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w cenie m2 w zależności od tego czy nieruchomość znajduje się w preferowanej lokalizacji

Wnioski

Na osi X mamy podane czy nieruchomość znajduje się w preferowanej okolicy - tak lub nie, a na osi Y natomiast widnieje cena za m2 nieruchomości. Dla nieruchomości z preferowaną lokalizacją widzimy wyższe wartości cenowe. Rozkład wartości jest wyraźnie różny porównując te dwie grupy. Wartość p-value wynosząca 0,01 sugeruje, że istnieje zależność pomiędzy ceną za m2, a preferowaną lokalizacją nieruchomości.

Pytanie badawcze: Liczba sypialni jest uzależnionaod od liczby pięter

Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w liczbie sypialni w zależności od liczby pięter

Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w liczbie sypialni w zależności od liczby pięter

Wnioski

Oś pozioma przedstawia liczbę sypialni w nieruchomości, a oś pionowa pokazuje procentową częstotliwość określonej kategorii (liczby pięter) w ramach każdej grupy. W większośc grup p-value ma mniejszą wartość niż 0,05. Tylko skrajne grupy mają p-value na poziomie 0,11. Ogółem możemy stwierdzić, że liczba pięter w nieruchomości ma wpływ na liczbę sypialni.``

Pytanie badawcze: Liczba łazienek jest uzależniona od liczby sypialni

Hipoteza zerowa (H0): Nie ma statystycznie istotnej różnicy w liczbie łazienek w zależności od liczby sypialni

Hipoteza alternatywna (H1): Istnieje statystycznie istotna różnica w liczbie łazienek w zależności od liczby sypialni

Wnioski

Na ostatnim wykresie mamy serię wykresów kołowych, które przedstawiają rozkład liczby sypialni w nieruchomościach, podzielony według liczby łazienek. Każdy wykres kołowy odpowiada nieruchomościom z określoną liczbą łazienek i pokazuje procentowy rozkład liczby sypialni w tych nieruchomościach. Podobnie jak w poprzednim wykresie, tylko skrajna grupa ma p-value większe od 0,05. Znajduję się tam jednak tylko jedna obserwacja. Ogólnie możemy powiedzieć, że liczba łazienek jest uzależniona od liczby sypialni w nieruchomościach.

0.6 Podsumowanie

W projekcie znaleziono istotne korelacje i istotne statystycznie zależności między analizowanymi zmiennymi. Zidentyfikowano również wyraźne wzorce w danych, które mogą być kluczowe dla zrozumienia badanego zjawiska. Wszystkie wysunięte wnioski mogą mieć znaczący wpływ na dalsze badania lub praktyczne zastosowania.