Vizualizácia
Pomocou nástrojov z balíkov dplyr a ggplot2 vypracujte úlohy z Prieskumnej analýzy. Grafy v druhej a podobne i v tretej úlohe umiestnite vedľa seba pomocou balíka patchwork.
Zadanie 1
Zadanie: Načítajte tabuľku údajov datasets::iris do nového dátového rámca (napríklad dat), ponechajte si iba jeden znakový a dva numerické stĺpce (šírka, dĺžka) a každému dajte iné než anglické názvy. Súbor údajov slovne opíšte (pôvod, počet pozorovaní, význam a povahu štatistických znakov, strednú alebo najčastejšiu hodnotu).
Riešenie:
##
## Присоединяю пакет: 'dplyr'
## Следующие объекты скрыты от 'package:stats':
##
## filter, lag
## Следующие объекты скрыты от 'package:base':
##
## intersect, setdiff, setequal, union
## Warning: пакет 'ggplot2' был собран под R версии 4.3.3
## Warning: пакет 'patchwork' был собран под R версии 4.3.3
iris_data <- datasets::iris
iris_subset <- iris_data %>%
select( Sirka_Petal = Petal.Width, Dlzka_Petal = Petal.Length, Druhy = Species)
head(iris_subset)
## Sirka_Petal Dlzka_Petal Druhy
## 1 0.2 1.4 setosa
## 2 0.2 1.4 setosa
## 3 0.2 1.3 setosa
## 4 0.2 1.5 setosa
## 5 0.2 1.4 setosa
## 6 0.4 1.7 setosa
## Sirka_Petal Dlzka_Petal Druhy
## Min. :0.100 Min. :1.000 setosa :50
## 1st Qu.:0.300 1st Qu.:1.600 versicolor:50
## Median :1.300 Median :4.350 virginica :50
## Mean :1.199 Mean :3.758
## 3rd Qu.:1.800 3rd Qu.:5.100
## Max. :2.500 Max. :6.900
Zadanie 2
Zadanie: Zobrazte stĺpcové grafy charakterizujúce rozdelenie pravdepodobnosti hodnôt každej premennej zvlášť. Čo ste sa o nich dozvedeli?
Riešenie:
graf_Petal_sirka <- ggplot(iris_subset, aes(x = Sirka_Petal)) +
geom_histogram(bins = 10, fill = "lightgreen", color = "black") +
ggtitle("Rozdelenie sirky Petal listov")
graf_Petal_dlzka <- ggplot(iris_subset, aes(x = Dlzka_Petal)) +
geom_histogram(bins = 10, fill = "lightblue", color = "black") +
ggtitle("Rozdelenie dlzky Petal listov")
graf_Petal_sirka + graf_Petal_dlzka
# Alebo takto
graf_Petal_sirka2 <- ggplot(iris_subset, aes(x = Sirka_Petal)) +
geom_histogram(bins = 10, fill = "lightgreen", color = "black")
graf_Petal_dlzka2 <- ggplot(iris_subset, aes(x = Dlzka_Petal)) +
geom_histogram(bins = 10, fill = "lightblue", color = "black")
(graf_Petal_sirka2 / graf_Petal_dlzka2 ) + plot_annotation("Rozdelenie dlzky listov")
Zadanie 3
Zadanie: Ako sa zmenia stredné hodnoty šírky a dĺžky lístkov/lupeňov, ak prihliadneme na druh kosatca? Tabuľku výsledkov doplňte o vizualizáciu (rozdelenia každého rozmeru podľa druhu) vhodným grafom (nie stĺpcovým).
Riešenie:
## # A tibble: 3 × 3
## Druhy Sirka_Petal Dlzka_Petal
## <fct> <dbl> <dbl>
## 1 setosa 0.246 1.46
## 2 versicolor 1.33 4.26
## 3 virginica 2.03 5.55
graf1 <- ggplot(data = iris_subset, aes(x = Druhy, y = Sirka_Petal)) +
geom_boxplot( color = "black", fill = "darkslategray1")
graf2 <- ggplot(data = iris_subset, aes(x = Druhy, y = Dlzka_Petal)) +
geom_boxplot( color = "black", fill = "darkslateblue")
(graf1 + graf2) + plot_annotation(title = "Boxploty pre kazdy stlpec podla druhu")
Zadanie 4
Zadanie: Na základe vhodného grafu slovne popíšte, ako spolu súvisia šírka a dĺžka (Tzn. ak hodnoty jednej rastú, ako sa správajú hodnoty druhej?).
Riešenie:
plot1 <- ggplot(data = iris_subset, aes(x = Sirka_Petal, y = Dlzka_Petal)) +
geom_point(color="orchid1")
plot1
↓↓↓ Urobil to cez google translate, a neviem ci spravne to povedal. ↓↓↓
Ak body neukazujú žiadnu jasnú tendenciu alebo sú vyzerať ako náhodne, znamená to, že medzi premennými nie je žiadny zjavný lineárny vzťah.
Ak sú body usporiadané pozdĺž diagonály smerom nadol doprava, znamená to negatívny vzťah. A naopak, že existuje pozitívny vzťah.
Pre dataset iris, zvyčajne nájdeme silný pozitívny vzťah medzi
dĺžkou a šírkou petálov, čo znamená, že kvety s dlhšími petálmi majú
tendenciu mať aj širšie petály. Vzťah medzi dĺžkou a šírkou sépalov môže
byť menej výrazný alebo viac rozptýlený v závislosti od druhu
kosatca.
Zadanie 5
Zadanie: Čo sa na závislosti šírky a dĺžky zmení, ak ich vyšetríme po jednotlivých druhoch? Svoje tvrdenie podporte vhodným grafom, kde druh kvetu odlíšite zvoleným grafickým atribútom (napr. farba, znak alebo veľkosť). Jeho súčasťou musí byť aj legenda.
Riešenie:
plot <- ggplot(data = iris_data, aes(x = Petal.Width,y = Petal.Length)) +
geom_point(aes(colour = Species))
plot