Podstawy analizy danych

Pierwsze kroki w R

Wprowadzenie

  1. Zapoznaj się z rodzajami danych w R. Pamiętaj, że nie są to rodzaje zmiennych w statystyce!
  2. Jakie są etapy analizy danych?
  3. Jak wczytywać i zapisywać dane różnych formatów?

Zadanie

Dane dotyczą prawie 985 transakcji sprzedaży mieszkań z Sacramento (Kalifornia, USA).

Utwórz nowy factor: dla cen >50 kUSD “0” o etykiecie „niska”, dla >100 kUSD “1” o etykiecie “srednia”, a dla pozostałych „2” o etykiecie „wysoka”. W jakim celu można go wykorzystać w analizie danych?

etykiety <-c("niska","srednia","wysoka")
levels <- c(0,1,2)

#cut(dane[price],50000:100000,labels = etykiety)

#factor_prices <- factor(dane[price],levels,etykiety)

Fajki

Poniżej pokazano przykład wykorzystania fajki bazowej R “|>”: wykres logarytmu gęstości cen.

price |> 
  log() |>
  density() |>
  plot(xlab="log cen", ylab="gęstość", main="Logarytm cen")

Przykład - dplyr

Wykreśl histogram cen sprzedaży nieruchomości typu “Condo” z dwiema sypialniami. Filtry z dplyr działają na całej ramce danych, stąd by wykreślić ceny musimy użyć pakietu ggplot2:

Bez użycia filtra i fajek nie ma takiej potrzeby:

Zadania z dplyr

Zapisz do ramki “dane3” informacje nt. cen i rodzaju mieszkań (ale tylko te, które mają co najmniej 2 łazienki). Ich ceny uporządkuj rosnąco. Utwórz także nową zmienną price2, która jest wyrażona w PLN z kursu dzisiejszego (średniego).

#price2<-mutate(dane[price]*3.75)

Podsumuj ramkę dane3 - pokazując średnie ceny w PLN i grupując je wg typu mieszkania.

Na wykresie wyświetl ceny w PLN wg typu nieruchomości. Podpisz osie, nanieś szablon.

a<-ggplot(dane,aes(price, fill=type)) +
  
  geom_density(position = "stack")

b<-ggplot(dane,aes(type,price)) +
  geom_violin() +
  geom_boxplot()

grid.arrange(a,b,nrow=1,ncol=2)
## Warning: Groups with fewer than two data points have been dropped.
## Warning: Removed 1 rows containing missing values (position_stack).
## Warning: Groups with fewer than two data points have been dropped.