Globálne nastavenie Chunkov

V nižšie uvedenom Chunku je urobené základné globálne nastavenie Chunkov v celom Notebooku.

  • echo nastavuje, či chceme v Notebooku vypisovať jednotlivé kódy R
  • message je nastavený na FALSE, čo znamená, že sa budú potláčať pracovné výstupy z R, t.j. napríklad výsledok otvárania knižníc, a niektoré iné výstupy, ktoré ale pre celkový Notebook nemajú takmer žiaden význam a sú vhodné skôr pri ladení kódov.
  • warning nastavený na FALSE potláča zobrazenie chybových hlášok
knitr::opts_chunk$set(
  echo = TRUE,
  message = FALSE,
  warning = FALSE
)

Úvod k základným operáciám v R

Tento notebook demonštruje základné operácie v jazyku R so:

  • skalárnymi číslami (t.j. 1 číslo),
  • textovými (znakovými) reťazcami,
  • logickými (boolovskými) hodnotami a premennými,
  • (numerickými) vektormi,
  • maticami.

Tam, kde je to užitočné, sú zahrnuté malé cvičenia.


Skaláre (jednočíselné hodnoty)

Numerické skaláre

# Priradenie konštanty do premennej
a <- 8
b <- 4

# Arithmetic
sum_ab      <- a + b        # sucet
diff_ab     <- a - b        # rozdiel
prod_ab     <- a * b        # násobenie
quot_ab     <- a / b        # delenie
power_ab    <- a ^ b        # umocňovanie
mod_ab      <- a %% 3       # zbytok po delení tromi (tzv modulo)


# Rounding
round_b   <- round(b)       # zaokruhlovanie smerom k najblizsiemu celemu cislu
ceil_b    <- ceiling(b)     # najblizsie vyssie cele cislo
floor_b   <- floor(b)       # najblizsie nizsie cele cislo

a; b
[1] 8
[1] 4
sum_ab; diff_ab; prod_ab; quot_ab; power_ab; mod_ab;
[1] 12
[1] 4
[1] 32
[1] 2
[1] 4096
[1] 2
round_b; ceil_b; floor_b
[1] 4
[1] 4
[1] 4

Poznámky

  • ^ operátor umocňovania.
  • %% je modulo, teda zbytok po delení,
  • round(x, digits = 0) zaokrúhľovanie na určitý počet desatinných miest (digits=). ak digits = 0, potom ide o celočíselné zaokrúhľovanie

Malé cvičenie

Vypočítajte:

\[\frac{(58^3-45)}{10}\]

(58^3 - 45) / 10
[1] 19506.7

Text

Vytváranie textovými premennými a práca s nimi

first <- "Adam"                       # definovanie obsahu textovej premennej first
last  <- "Michalec"                          # definovanie obsahu text. premennej last
full  <- paste(first, last)               # spojenie dvoch text. premennych do jednej (s medzerou)
full_nospace <- paste0(first, last)       # spojenie bez medzery
csv_line <- paste("košeľa", "sako", "nohavice", sep = ",")  # spojenie textov s oddelovacom ,
first; last; full; full_nospace; csv_line   # bodkočiarka tu nahradzuje odskok na novy riadok 
[1] "Adam"
[1] "Michalec"
[1] "Adam Michalec"
[1] "AdamMichalec"
[1] "košeľa,sako,nohavice"

Dĺžka textového reťazca, podreťazec

x <- "Mám rád leto"
nchar(x)                 # počet znakov  v retazci "Mám rád leto"
[1] 12
substr(x, 5, 12)          # podreťazec od 5. do 12. znaku
[1] "rád leto"

Tip: Knižnica stringr mnohé zaujímavé možnosti práce s textami, ale implicitné knižnice R pokrývajú väčšinu bežných potrieb páce s textami.


Logické (boolovské) hodnoty a premenné

Základy

p <- TRUE
q <- FALSE
!p                 # NOT
p & q              # AND
p | q              # OR
xor(p, q)          # exclusive OR - platí len jedno z p,alebo q

Logický výsledok porovnávania

9 < 10
[1] TRUE
9 >= 9
[1] TRUE
"sako" == "sako"
[1] TRUE
"sako" != "košeľa"   # vykricnik je tu v zmysle negacie. Napr.:   !=, !>, !<, !TRUE
[1] TRUE
!TRUE
[1] FALSE

Zložitejšie logické operácie

x <- 25
x > 20 & x < 30      # a sucasne - logicky prienik (sucin)
[1] TRUE
x < 0 | x > 100     # alebo - logicke zjednotenie (sucet)
[1] FALSE
                    # pri zlozitejsich vztahoch pouzivajte zatvorky ()

Zlučovanie viacerých log. premenných do vektora

vals <- c(TRUE, FALSE, TRUE, TRUE)   # definicia vektora s logickymi hodnotami

Numerické vektory

Generovanie vektorov

v1 <- c(2, 4, 6, 8)
v2 <- 1:5                  # postupnost 1,2,3,4,5
v3 <- seq(from = 0, to = 1, by = 0.25)  # postupnost s krokom 0.25
v4 <- rep(3, times = 5)    # 3,3,3,3,3  # 5 clenna postupnost trojak
v5 <- runif(5)             # generovanie rovnomerne rozdelenych premennych v intervale [0,1]
v6 <- rnorm(5)             # generovanie normalne rozdelenych premennych
v1; v2; v3; v4; v5

Aritmetické operácie s vektormi

v <- c(5, 6, 7, 8, 9, 10)
v + 5            # kazdy prvok vektora zvacsime o 10
[1] 10 11 12 13 14 15
v * 3            # kazdy prvok vektora prenasobime 2
[1] 15 18 21 24 27 30
(v + 1) / 4
[1] 1.50 1.75 2.00 2.25 2.50 2.75
exp(v)           # exponencialna funkcia z kazdeho prvku vektora
[1]   148.4132   403.4288  1096.6332  2980.9580  8103.0839 22026.4658
sum(c(1,2,3),c(1,1,1))          # skalarny sucin - vysledok je skalar
[1] 9
crossprod(c(1,2,3),c(1,1,1))    # skalarny sucin - vysledok je matica 1x1
     [,1]
[1,]    6
c(1,2,3)*c(1,1,1)               # Hadamardov sucin (sucin zodpovedajucich prvkov vektora)
[1] 1 2 3

Matematické operácie s 2 vektormi rovnakého rozmeru

length(c(5,6,7,8,9))
[1] 5
length(v)            #vektor v5 je definovany vyssie
[1] 6
c(5,6,7,8,9) + v     # pozor, oba vektory musia mat rovnaky rozmer
[1] 10 12 14 16 18 15

Indexovanie a výber niektorych prvkov vektora

x <- c(6, 13, 4, 19, 8, 1, 22)
x[1]           # indexovanie - novy jedno-prvkovy vektor - prvy prvok vektora x
[1] 6
x[2:4]         # novy vektor s druhym az stvrtym prvkom vektora x
[1] 13  4 19
x[-1]          # novy vektor - vsetky prvky vektora x okrem prvého
[1] 13  4 19  8  1 22
x[x > 10]      # novy vektor definovany prvkami x vacsimi ako 10
[1] 13 19 22

Práca s chýbajúcimi hodnotami

y <- c(5, NA, 10, NA, 20)
is.na(y)
[1] FALSE  TRUE FALSE  TRUE FALSE
mean(y)                 # NA
[1] NA
mean(y, na.rm = TRUE)   # remove NAs
[1] 11.66667

Základné štatistiky a usporiadanie prvkov vektora podľa veľkosti

z <- c(100, 43, 20, 18, 62)
mean(z)                 # priemerna hodnota
[1] 48.6
sd(z)                  # standardna odchylka
[1] 33.93818
max(z)                  # maximalna hodnota
[1] 100
summary(z)              # rychly prehlad zakladnych statistik o vektore
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   18.0    20.0    43.0    48.6    62.0   100.0 
sort(z)                 # rastuce usporiadanie 
[1]  18  20  43  62 100
sort(z, decreasing = TRUE)  # klesajuce
[1] 100  62  43  20  18

Malé cvičenie

Vytvorte vektor w s číslami 1..20 a vypočítajte sumu všetkých párnych čísel.

w <- 1:30
sum(w[w %% 14 == 2])
[1] 48

Matice

Vytvorenie matíc

m <- matrix(1:7, nrow = 5, ncol = 3)            # hodnoty sú zadavane po stlpcoch
m_byrow <- matrix(1:7, nrow = 3, byrow = TRUE)  # hodnoty su zadavane po riadkoch
m; m_byrow
     [,1] [,2] [,3]
[1,]    1    6    4
[2,]    2    7    5
[3,]    3    1    6
[4,]    4    2    7
[5,]    5    3    1
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    1    2

Rozmery matice

dim(m)                   # (rows, cols)
[1] 5 3
m
     [,1] [,2] [,3]
[1,]    1    6    4
[2,]    2    7    5
[3,]    3    1    6
[4,]    4    2    7
[5,]    5    3    1

Adresovanie prvkov matice

m[2, 2]      # riadok 1, stlpec 2
[1] 7
m[ , 1]      # vsetky prvky v tretom stlpci - vysledok matica 3x1
[1] 1 2 3 4 5
m[3, ]       # vsetky prvky v druhom riadku - vysledok matica 1*3
[1] 3 1 6
m[2:2, 3:3]  # podmatica tvorena riadkami 1, 2 a stlpcami 2, 3
[1] 5

Maticové operácie

A <- matrix(c(1,2,3,4), nrow = 2)
B <- matrix(c(5,6,7,8), nrow = 2)

A + B        # scitanie matic
     [,1] [,2]
[1,]    6   10
[2,]    8   12
A * B        # Hadamard product - nasobenie po zodpovedajucich prvkoch
     [,1] [,2]
[1,]    5   21
[2,]   12   32
A %*% B      # nasobenie matic
     [,1] [,2]
[1,]   23   31
[2,]   34   46
t(A)         # transpozicia matice A - vymena riadkov a stlpcov
     [,1] [,2]
[1,]    1    2
[2,]    3    4
det(A)       # determinant matice
[1] -2
solve(A)     # inverzia matice (ak je matica regularna - teda inverzia sa da spocitat)
     [,1] [,2]
[1,]   -2  1.5
[2,]    1 -0.5

Zlučovanie vektorov do matíc

C <- cbind(2:3, 3:5)   #  - po stlpcoch 
D <- rbind(1:2, 4:6)   #  - po riadkoch 
C; D
     [,1] [,2]
[1,]    2    3
[2,]    3    4
[3,]    2    5
     [,1] [,2] [,3]
[1,]    1    2    1
[2,]    4    5    6

Vypočítanie zvolenej štatistiky po riadkoch (stĺpcoch) matice

M <- matrix(1:7, nrow = 2)
M
     [,1] [,2] [,3] [,4]
[1,]    1    3    5    7
[2,]    2    4    6    1
apply(M, 1, sum)   # suma po riadkoch
[1] 16 13
apply(M, 2, mean)  # priemery po stĺpcoch
[1] 1.5 3.5 5.5 4.0

Malé cvičenie

Vytvorte maticu 5x5 s hodnotami po riadkoch 1..25, vypočítajte stĺpcové sumy a súčin matíc \(M^t M\).

M2 <- matrix(1:30, nrow = 5, byrow = TRUE)
colSums(M2)
[1] 65 70 75 80 85 90
t(M2) %*% M2
     [,1] [,2] [,3] [,4] [,5] [,6]
[1,] 1205 1270 1335 1400 1465 1530
[2,] 1270 1340 1410 1480 1550 1620
[3,] 1335 1410 1485 1560 1635 1710
[4,] 1400 1480 1560 1640 1720 1800
[5,] 1465 1550 1635 1720 1805 1890
[6,] 1530 1620 1710 1800 1890 1980

