Globálne nastavenie Chunkov

V nižšie uvedenom Chunku je urobené základné globálne nastavenie Chunkov v celom Notebooku.

  • echo nastavuje, či chceme v Notebooku vypisovať jednotlivé kódy R
  • message je nastavený na FALSE, čo znamená, že sa budú potláčať pracovné výstupy z R, t.j. napríklad výsledok otvárania knižníc, a niektoré iné výstupy, ktoré ale pre celkový Notebook nemajú takmer žiaden význam a sú vhodné skôr pri ladení kódov.
  • warning nastavený na FALSE potláča zobrazenie chybových hlášok
knitr::opts_chunk$set(
  echo = TRUE,
  message = FALSE,
  warning = FALSE
)

Úvod k základným operáciám v R

Tento notebook demonštruje základné operácie v jazyku R so:

  • skalárnymi číslami (t.j. 1 číslo),
  • textovými (znakovými) reťazcami,
  • logickými (boolovskými) hodnotami a premennými,
  • (numerickými) vektormi,
  • maticami.

Tam, kde je to užitočné, sú zahrnuté malé cvičenia.


Skaláre (modifikované) (jednočíselné hodnoty)

Numerické skaláre

  # Priradenie konštanty do premennej
x1 <- 8
x2 <- 3.65

  # Arithmetic (upr.)
sum_ab      <- x1 + x2  # sucet (upr.)
diff_ab     <- x1 - x2  # rozdiel (upr.)
prod_ab     <- x1 * x2  # násobenie (upr.)
quot_ab     <- x1 / x2  # delenie (upr.)
power_ab    <- x1 ^ x2  # umocňovanie (upr.)
mod_ab      <- x1 %% 4  # zbytok po delení tromi (tzv modulo)


  # Rounding (upr.)
round_b   <- round(x2)  # zaokruhlovanie smerom k najblizsiemu celemu cislu
ceil_b    <- ceiling(x2)  # najblizsie vyssie cele cislo
floor_b   <- floor(x2)  # najblizsie nizsie cele cislo

x1; x2
[1] 8
[1] 3.65
sum_ab; diff_ab; prod_ab; quot_ab; power_ab; mod_ab
[1] 11.65
[1] 4.35
[1] 29.2
[1] 2.191781
[1] 1978.238
[1] 0
round_b; ceil_b; floor_b
[1] 4
[1] 4
[1] 3

Poznámky

  • ^ operátor umocňovania.
  • %% je modulo, teda zbytok po delení,
  • round(x, digits = 0) zaokrúhľovanie na určitý počet desatinných miest (digits=). ak digits = 0, potom ide o celočíselné zaokrúhľovanie

Malé cvičenie

Vypočítajte:

\[\frac{(15^2-4)}{7}\]

(16^3 - 5) / 8
[1] 511.375

Text

Vytváranie textovými premennými a práca s nimi

first <- "Filip"  # definovanie obsahu textovej premennej first
last  <- "Jurkáček"  # definovanie obsahu text (upravený). premennej last
full  <- paste(first, last)  # spojenie dvoch text (upravený). premennych do jednej (s medzerou)
full_nospace <- paste0(first, last)  # spojenie bez medzery
csv_line <- paste("pes", "mačka", "kačka", sep = ",")  # spojenie textov s oddelovacom ,
first; last; full; full_nospace; csv_line  # bodkočiarka tu nahradzuje odskok na novy riadok
[1] "Filip"
[1] "Jurkáček"
[1] "Filip Jurkáček"
[1] "FilipJurkáček"
[1] "pes,mačka,kačka"

Dĺžka textového reťazca, podreťazec

x <- "Oh yeah!"
nchar(x)  # count znakov  v retazci "Oh yeah!"
[1] 8
substr(x, 2, 6)  # podreťazec od 1. do 5. znaku
[1] "h yea"

Tip: Knižnica stringr mnohé zaujímavé možnosti práce s textami, ale implicitné knižnice R pokrývajú väčšinu bežných potrieb páce s textami.


Logické (boolovské) hodnoty a premenné

Základy

a <- TRUE
b <- FALSE
!a  # NOT (upr.)
[1] FALSE
a & b  # AND (upr.)
[1] FALSE
a | b  # OR (upr.)
[1] TRUE
xor(a, b)  # exclusive OR - platí len jedno z p,alebo q
[1] TRUE

Logický výsledok porovnávania

4 < 6
[1] TRUE
8 >= 8
[1] TRUE
"pes" == "pes"
[1] TRUE
"pes" != "mačka"  # vykricnik je tu v zmysle negacie. Napr.:   !=, !>, !<, !TRUE
[1] TRUE
!TRUE
[1] FALSE

Zložitejšie logické operácie

x <- 11
x > 6 & x < 22  # a sucasne - logicky prienik (sucin)
[1] TRUE
x < 1 | x > 102  # alebo - logicke zjednotenie (sucet)
[1] FALSE
  # pri zlozitejsich vztahoch pouzivajte zatvorky ()

Zlučovanie viacerých log. premenných do vektora

vals <- c(TRUE, FALSE, TRUE, TRUE)  # definicia vektora s logickymi hodnotami

Numerické vektory

Generovanie vektorov

v1 <- c(3, 5, 7, 9)
v2 <- 2:6  # postupnost 1,2,3,4,5
v3 <- seq(from = 1, to = 2, by = 0.4)  # postupnost s krokom 0.25
v4 <- rep(4, times = 6)  # 3,3,3,3,3  # 5 clenna postupnost trojak
v5 <- runif(6)  # generovanie rovnomerne rozdelenych premennych v intervale [0,1]
v6 <- rnorm(6)  # generovanie normalne rozdelenych premennych
v1; v2; v3; v4; v5
[1] 3 5 7 9
[1] 2 3 4 5 6
[1] 1.0 1.4 1.8
[1] 4 4 4 4 4 4
[1] 0.5999890 0.3328235 0.4886130 0.9544738 0.4829024 0.8903502

Aritmetické operácie s vektormi

v <- c(2, 3, 4, 5)
v + 11  # kazdy prvok vektora zvacsime o 10
[1] 13 14 15 16
v * 3  # kazdy prvok vektora prenasobime 2
[1]  6  9 12 15
(v + 2) / 3
[1] 1.333333 1.666667 2.000000 2.333333
exp(v)  # exponencialna funkcia z kazdeho prvku vektora
[1]   7.389056  20.085537  54.598150 148.413159
sum(c(2,3,4),c(2,2,2))  # skalarny sucin - vysledok je skalar
[1] 15
crossprod(c(2,3,4),c(2,2,2))  # skalarny sucin - vysledok je matica (upravená) 1x1
     [,1]
[1,]   18
c(2,3,4)*c(2,2,2)  # Hadamardov sucin (sucin zodpovedajucich prvkov vektora)
[1] 4 6 8

Matematické operácie s 2 vektormi rovnakého rozmeru

length(c(2,3,4,5,6))
[1] 5
length(v5)  # vektor (nový) v5 je definovany vyssie
[1] 6
c(2,3,4,5,6) + v5  # pozor, oba vektory musia mat rovnaky rozmer
[1] 2.599989 3.332824 4.488613 5.954474 6.482902 2.890350

Indexovanie a výber niektorych prvkov vektora

x <- c(6, 13, 4, 19, 8, 1, 23)
x[2]  # indexovanie - novy jedno-prvkovy vektor (nový) - prvy prvok vektora x
[1] 13
x[3:5]  # novy vektor (nový) s druhym az stvrtym prvkom vektora x
[1]  4 19  8
x[0]  # novy vektor (nový) - vsetky prvky vektora x okrem prvého
numeric(0)
x[x > 11]  # novy vektor (nový) definovany prvkami x vacsimi ako 10
[1] 13 19 23
which(x > 11)  # ktore prvky zodpovedaju podmienke vacsieho ako 10?
[1] 2 4 7

Práca s chýbajúcimi hodnotami

y <- c(2, NA, 4, NA, 6)
is.na(y)
[1] FALSE  TRUE FALSE  TRUE FALSE
mean(y)  # NA (upr.)
[1] NA
mean(y, na.rm = TRUE)  # remove NAs (upr.)
[1] 4

Základné štatistiky a usporiadanie prvkov vektora podľa veľkosti

z <- c(11, 4, 6, 9, 3)
mean(z)  # priemerna hodnota
[1] 6.6
sd(z)  # standardna odchylka
[1] 3.361547
max(z)  # maximalna hodnota
[1] 11
summary(z)  # rychly prehlad zakladnych statistik o vektore
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    3.0     4.0     6.0     6.6     9.0    11.0 
sort(z)  # rastuce usporiadanie
[1]  3  4  6  9 11
sort(z, decreasing = TRUE)  # klesajuce (upr.)
[1] 11  9  6  4  3

Malé cvičenie

Vytvorte vektor w s číslami 1..20 a vypočítajte sumu všetkých párnych čísel.

w <- 2:22
sum(w[w %% 3 == 1])
[1] 91

Matice (variácia)

Vytvorenie matíc

m <- matrix(2:13, nrow = 4, ncol = 5)  # hodnoty sú zadavane po stlpcoch
m_byrow <- matrix(2:13, nrow = 4, byrow = TRUE)  # hodnoty su zadavane po riadkoch
m; m_byrow
     [,1] [,2] [,3] [,4] [,5]
[1,]    2    6   10    2    6
[2,]    3    7   11    3    7
[3,]    4    8   12    4    8
[4,]    5    9   13    5    9
     [,1] [,2] [,3]
[1,]    2    3    4
[2,]    5    6    7
[3,]    8    9   10
[4,]   11   12   13

Rozmery matice

dim(m)  # (rows, cols)
[1] 4 5
m
     [,1] [,2] [,3] [,4] [,5]
[1,]    2    6   10    2    6
[2,]    3    7   11    3    7
[3,]    4    8   12    4    8
[4,]    5    9   13    5    9

Adresovanie prvkov matice

m[2, 3]  # riadok 1, stlpec 2
[1] 11
m[ , 4]  # vsetky prvky v tretom stlpci - vysledok matica (upravená) 3x1
[1] 2 3 4 5
m[3, ]  # vsetky prvky v druhom riadku - vysledok matica (upravená) 1*3
[1]  4  8 12  4  8
m[2:3, 3:4]  # podmatica tvorena riadkami 1, 2 a stlpcami 2, 3
     [,1] [,2]
[1,]   11    3
[2,]   12    4

Maticové operácie

A <- matrix(c(2,3,4,5), nrow = 2)
B <- matrix(c(6,7,8,9), nrow = 2)

A + B     # scitanie matic
     [,1] [,2]
[1,]    8   12
[2,]   10   14
A * B     # Hadamard product - nasobenie po zodpovedajucich prvkoch
     [,1] [,2]
[1,]   12   32
[2,]   21   45
A %*%B   # nasobenie matic
     [,1] [,2]
[1,]   40   52
[2,]   53   69
t(A)      # transpozicia matice A - vymena riadkov a stlpcov
     [,1] [,2]
[1,]    2    3
[2,]    4    5
det(A)    # determinant matice
[1] -2
solve(A)  # inverzia matice (ak je matica (upravená) regularna - teda inverzia sa da spocitat)
     [,1] [,2]
[1,] -2.5    2
[2,]  1.5   -1

Zlučovanie vektorov do matíc

C <- cbind(2:4, 5:7)  # - po stlpcoch
D <- rbind(2:4, 5:7)  # - po riadkoch
C; D
     [,1] [,2]
[1,]    2    5
[2,]    3    6
[3,]    4    7
     [,1] [,2] [,3]
[1,]    2    3    4
[2,]    5    6    7

Vypočítanie zvolenej štatistiky po riadkoch (stĺpcoch) matice

M <- matrix(2:10, nrow = 4)
M
     [,1] [,2] [,3]
[1,]    2    6   10
[2,]    3    7    2
[3,]    4    8    3
[4,]    5    9    4
apply(M, 2, sum)  # suma po riadkoch
[1] 14 30 19
apply(M, 2, mean)  # priemery po stĺpcoch
[1] 3.50 7.50 4.75

Malé cvičenie

Vytvorte maticu 5x5 s hodnotami po riadkoch 1..25, vypočítajte stĺpcové sumy a súčin matíc \(M^t M\).

M2 <- matrix(2:27, nrow = 6, byrow = TRUE)
colSums(M2)
[1] 87 67 73 79 85
t(M2) %*% M2
     [,1] [,2] [,3] [,4] [,5]
[1,] 1699 1084 1171 1258 1345
[2,] 1084 1099 1166 1233 1300
[3,] 1171 1166 1239 1312 1385
[4,] 1258 1233 1312 1391 1470
[5,] 1345 1300 1385 1470 1555
# Vytvorenie matice s údajmi
predaje <- matrix(
  c(15, 22, 28,   # Kategória A
    19, 17, 12,   # Kategória B
    10, 14, 23),  # Kategória C
  nrow = 3,
  byrow = TRUE
)

rownames(predaje) <- c("Kategória A", "Kategória B", "Kategória C")
colnames(predaje) <- c("Skupina 1", "Skupina 2", "Skupina 3")

# Farebná paleta
farby <- c("steelblue", "tomato", "goldenrod")

# Vytvorenie grafu vedľa seba (beside = TRUE)
barplot(
  predaje,
  beside = TRUE,
  col = farby,
  main = "Predaje podľa skupín",
  xlab = "Skupiny",
  ylab = "Počet predaných kusov",
  ylim = c(0, 35)
)

# Umiestnenie legendy vpravo od grafu
legend(
  "topright",
  legend = rownames(predaje),
  fill = farby,
  bty = "n",         # bez rámčeka
  inset = c(-0.05, 0), # posunutie doprava mimo graf
  xpd = TRUE          # umožní kresliť mimo oblasti grafu
)

