5. Čistenie

Cvičenie 1

Zadanie: Preveďte dataset predpovedí a pozorovaní teploty počas 5 pracovných dní do čistého formátu takže následne môžete zobraziť farebne rozlíšený vývoj oboch súborov v jednom grafe (čiarový graf s automaticky generovanou legendou). Príkazy použite v reťazi.

  suppressWarnings({
  library(dplyr)
  library(ggplot2)
  library(forcats)
  library(tidyverse)})
  data.frame(deň = c("Po", "Ut", "St", "Št", "Pi"), 
           meranie = c(23, 20, 18, 26, 20),
           predpoved = c(20, 18, 16, 23, 21)
           )%>%
  mutate(deň=forcats::as_factor(deň))%>%
  pivot_longer(cols = c(`meranie`, `predpoved`), names_to = "druh", values_to = "teploty")%>%
  print()%>%
  ggplot(mapping = aes(x = deň, y = teploty, group = druh, color = druh)) + 
  geom_line()

## # A tibble: 10 × 3
##    deň   druh      teploty
##    <fct> <chr>       <dbl>
##  1 Po    meranie        23
##  2 Po    predpoved      20
##  3 Ut    meranie        20
##  4 Ut    predpoved      18
##  5 St    meranie        18
##  6 St    predpoved      16
##  7 Št    meranie        26
##  8 Št    predpoved      23
##  9 Pi    meranie        20
## 10 Pi    predpoved      21

Cvičenie 2

Zadanie: Importujte súbor údajov iris.xlsx a buď pomocou nástrojov readxl/tidyr alebo pomocou tidyxl/unpivotr ho transformujte do čistého formátu, takže stĺpce obsahujú výlučne hodnoty premenných druh kosatca, typ lupeňa, šírka, dĺžka. Následne v jednom grafe zobrazte vzťah medzi dĺžkou a šírkou s rozlíšením zvyšných premenných pomocou vhodných grafických atribútov (color, shape, …) alebo faziet (facets).

  suppressWarnings({
  library(tidyxl)
  library(unpivotr)
  library(readxl)})

## 
## Attaching package: 'unpivotr'

## The following objects are masked from 'package:tidyr':
## 
##     pack, unpack

  dat_iris1 <- read_excel("C:\\STU\\Документы\\Software na analizy dat\\5 cvicenie\\iris.xlsx")%>% 
  tail(-2) %>%
  select(-"...3",-"...5")%>%
  dplyr::rename(Sepal = "...2",Druh="Iris dataset, 150 observations, 3 species, 2 flower leaves, 2 dimensions.",Petal = "...4") %>%
  fill(Druh)%>%
  pivot_longer(cols = c(`Sepal`, `Petal`), names_to = 'Typ_lupena', values_to = "Dlžka")

## New names:
## • `` -> `...2`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`

  dat_iris2 <- read_excel("C:\\STU\\Документы\\Software na analizy dat\\5 cvicenie\\iris.xlsx")%>% 
  tail(-2) %>%
  select(-"...2",-"...4") %>%
  dplyr::rename(Druh="Iris dataset, 150 observations, 3 species, 2 flower leaves, 2 dimensions.",Sepal= "...3",Petal = "...5") %>%
  fill(Druh)%>%
  pivot_longer(cols = c(`Sepal`, `Petal`), names_to = 'Typ_lupena', values_to = "Širka") %>%
  select(-"Typ_lupena",-"Druh")

## New names:
## • `` -> `...2`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`

  #print(dat_iris1)
  #print(dat_iris2)
  dat_iris3 <- bind_cols(dat_iris1, dat_iris2)
  dat_iris3

## # A tibble: 300 × 4
##    Druh   Typ_lupena Dlžka Širka
##    <chr>  <chr>      <chr> <chr>
##  1 setosa Sepal      5.1   3.5  
##  2 setosa Petal      1.4   0.2  
##  3 setosa Sepal      4.9   3    
##  4 setosa Petal      1.4   0.2  
##  5 setosa Sepal      4.7   3.2  
##  6 setosa Petal      1.3   0.2  
##  7 setosa Sepal      4.6   3.1  
##  8 setosa Petal      1.5   0.2  
##  9 setosa Sepal      5     3.6  
## 10 setosa Petal      1.4   0.2  
## # ℹ 290 more rows

  g1 <- ggplot(data = dat_iris3, aes(x=Širka,y=Dlžka))
  g1 + geom_point(aes(colour=Druh, size=Typ_lupena))+labs(title="Vzťah šírky a dĺžky okvrtneho listka podľa druhov")

## Warning: Using size for a discrete variable is not advised.

5. Čistenie

Mikhail Kharlamau

2024-03-14

Cvičenie 1

Cvičenie 2