Podstawy analizy danych
Pierwsze kroki w R
Wprowadzenie
- Zapoznaj się z rodzajami danych w R. Pamiętaj, że nie są to rodzaje zmiennych w statystyce!
- Jakie są etapy analizy danych?
- Jak wczytywać i zapisywać dane różnych formatów?
Zadanie
Dane dotyczą prawie 985 transakcji sprzedaży mieszkań z Sacramento (Kalifornia, USA).
Utwórz nowy factor: dla cen >50 kUSD “0” o etykiecie „niska”, dla >100 kUSD “1” o etykiecie “srednia”, a dla pozostałych „2” o etykiecie „wysoka”. W jakim celu można go wykorzystać w analizie danych?
etykiety <-c("niska","srednia","wysoka")
levels <- c(0,1,2)
#cut(dane[price],50000:100000,labels = etykiety)
#factor_prices <- factor(dane[price],levels,etykiety)Fajki
Poniżej pokazano przykład wykorzystania fajki bazowej R “|>”: wykres logarytmu gęstości cen.
price |>
log() |>
density() |>
plot(xlab="log cen", ylab="gęstość", main="Logarytm cen")Przykład - dplyr
Wykreśl histogram cen sprzedaży nieruchomości typu “Condo” z dwiema sypialniami. Filtry z dplyr działają na całej ramce danych, stąd by wykreślić ceny musimy użyć pakietu ggplot2:
Bez użycia filtra i fajek nie ma takiej potrzeby:
Zadania z dplyr
Zapisz do ramki “dane3” informacje nt. cen i rodzaju mieszkań (ale tylko te, które mają co najmniej 2 łazienki). Ich ceny uporządkuj rosnąco. Utwórz także nową zmienną price2, która jest wyrażona w PLN z kursu dzisiejszego (średniego).
#price2<-mutate(dane[price]*3.75)Podsumuj ramkę dane3 - pokazując średnie ceny w PLN i grupując je wg typu mieszkania.
Na wykresie wyświetl ceny w PLN wg typu nieruchomości. Podpisz osie, nanieś szablon.
a<-ggplot(dane,aes(price, fill=type)) +
geom_density(position = "stack")
b<-ggplot(dane,aes(type,price)) +
geom_violin() +
geom_boxplot()
grid.arrange(a,b,nrow=1,ncol=2)## Warning: Groups with fewer than two data points have been dropped.
## Warning: Removed 1 rows containing missing values (position_stack).
## Warning: Groups with fewer than two data points have been dropped.