Globálne nastavenie Chunkov

V nižšie uvedenom Chunku je urobené základné globálne nastavenie Chunkov v celom Notebooku.

  • echo: či vypisovať kód R v dokumente,
  • message = FALSE: potláča informatívne hlášky (napr. pri načítaní balíkov),
  • warning = FALSE: potláča varovania (nie chyby).
knitr::opts_chunk$set(
  echo = TRUE,
  message = FALSE,
  warning = FALSE)

Skaláre (jednočíselné hodnoty)

Numerické skaláre

# Priradenie konštánt do premenných
a <- 5
b <- 12.5

# Aritmetika
sum_ab   <- a + b        # súčet
diff_ab  <- a - b        # rozdiel
prod_ab  <- a * b        # násobenie
quot_ab  <- a / b        # delenie (reálne)
power_ab <- a ^ b        # mocnina

# Modulo a celočíselné delenie (príklad s celým deliteľom)
mod_a5     <- a %% 5     # zvyšok po delení piatimi
int_div_a5 <- a %/% 5    # celočíselné delenie (floor(a/5))

# Zaokrúhľovanie
round_b <- round(b)      # na najbližšie celé číslo
ceil_b  <- ceiling(b)    # nahor
floor_b <- floor(b)      # nadol

a; b
[1] 5
[1] 12.5
sum_ab; diff_ab; prod_ab; quot_ab; power_ab
[1] 17.5
[1] -7.5
[1] 62.5
[1] 0.4
[1] 545915034
mod_a5; int_div_a5
[1] 0
[1] 1
round_b; ceil_b; floor_b
[1] 12
[1] 13
[1] 12

Malé cvičenie

Vypočítaj

3*(10^2 - 10) / 3
[1] 90

Text

Vytváranie textovými premennými a práca s nimi

first <- "Sára"
middle <- "Nikol"
last  <- "Scholtzová"

full  <- paste(first,middle, last)                    # spojenie s medzerou
full_nospace <- paste0(first, middle, last)            # bez medzery
csv_line <- paste("Auto", "Bicykel", "Motorka", sep = ",")  # vlastný oddeľovač

first; middle; last; full; full_nospace; csv_line
[1] "Sára"
[1] "Nikol"
[1] "Scholtzová"
[1] "Sára Nikol Scholtzová"
[1] "SáraNikolScholtzová"
[1] "Auto,Bicykel,Motorka"

Dĺžka textového reťazca, podreťazec

x <- "Ekonometria ma baví!"
nchar(x)                 # počet znakov v reťazci
[1] 20
substr(x, 1, 7)          # podreťazec od 1. do 5. znaku
[1] "Ekonome"
# Ďalšie užitočné drobnosti:
toupper("Milujem Slovensko")    # na VEĽKÉ písmená
[1] "MILUJEM SLOVENSKO"
tolower("Milujem Slovensko")    # na malé písmená
[1] "milujem slovensko"
trimws("  Cesta okolo Sveta  ")  # orezanie okrajových medzier
[1] "Cesta okolo Sveta"

Malé cvičenie

Nech name <- “Janko Mrkvička”. Vypíšte priezvisko ako podreťazec a vytvorte reťazec label v tvare “Priezvisko: Mrkvička (dĺžka: 8)”.

name <- "Janko Mrkvička"
surname <- sub(".* ", "", name)            # všetko po poslednej medzere
label <- paste0("Priezvisko: ", toupper(surname),
                " (dĺžka: ", nchar(surname), ")")
surname; label
[1] "Mrkvička"
[1] "Priezvisko: MRKVIČKA (dĺžka: 8)"

Logické (boolovské) hodnoty a premenné

Základy

p <- FALSE
q <- TRUE

!q          # NOT
[1] FALSE
p & q       # AND (prvkové pri vektoroch)
[1] FALSE
p | q       # OR  (prvkové pri vektoroch)
[1] TRUE
xor(p, q)   # exkluzívne OR (pravda, ak platí presne jedno z p, q)
[1] TRUE

Logický výsledok porovnávania

9 < 4
[1] FALSE
10 >= 10
[1] TRUE
"Girl" == "Girl"
[1] TRUE
"Girl" != "Boy"
[1] TRUE
!TRUE
[1] FALSE

Zložitejšie logické operácie

x <- 5
x > 3 & x < 10      # a súčasne
[1] TRUE
x < 0 | x > 30     # alebo
[1] FALSE
# pri zložitejších vzťahoch používajte zátvorky ()

Malé cvičenie

Majte premennú temp <- 18. Vytvorte dve logické premenne: is_room_temp je TRUE, ak je temp v intervale <18; 24>, is_cold_or_hot je TRUE, ak je temp < 18 alebo temp > 24.

temp <- 15
is_room_temp  <- (temp >= 18) & (temp <= 24)
is_cold_or_hot <- (temp < 18) | (temp > 24)
is_room_temp; is_cold_or_hot
[1] FALSE
[1] TRUE

Môj návrh použitia novinky

# 1) Celočíselné delenie a modulo spolu:
# Rozložme 137 minút na hodiny a zvyšné minúty.
minutes <- 137
hours   <- minutes %/% 60
rem     <- minutes %% 60
sprintf("%d min = %d h %d min", minutes, hours, rem)
[1] "137 min = 2 h 17 min"
# 2) Základné vyhľadávanie vzoru v texte (base R)
cities <- c("Bratislava", "Košice", "Banská Bystrica", "Brno")
grepl("^B", cities)                        # začína na 'B'?
[1]  TRUE FALSE  TRUE  TRUE
cities[grepl("ava$", cities)]              # končí sa na 'ava'?
[1] "Bratislava"
# 3) Pekné formátovanie textu s číslami cez sprintf()
pi_val <- pi
sprintf("π ≈ %.4f", pi_val)               # 4 desatinné miesta
[1] "π ≈ 3.1416"
sprintf("Počet: %03d kusy", 7)            # doplnenie núl na 3 cifry: 007
[1] "Počet: 007 kusy"

Numerické vektory

Generovanie vektorov

set.seed(123)  # aby náhodné príklady boli reprodukovateľné

v1 <- c(3,6,1,9)
v2 <- 1:5                                  # postupnosť 1,2,3,4,5
v3 <- seq(from = 0, to = 1, by = 0.5)     # postupnosť s krokom 0.5
v4 <- rep(1, times = 5)                    # 1,1,1,1,1
v5 <- runif(3)                             # U[0,1]
v6 <- rnorm(3)                             # N(0,1)
v1; v2; v3; v4; v5; v6
[1] 3 6 1 9
[1] 1 2 3 4 5
[1] 0.0 0.5 1.0
[1] 1 1 1 1 1
[1] 0.2875775 0.7883051 0.4089769
[1]  1.190207 -1.689556  1.239496

Aritmetické operácie s vektormi

v <- c(3,5,9,5)
v + 5                  # posun o konštantu
[1]  8 10 14 10
v * 3                  # škálovanie
[1]  9 15 27 15
(v + 3) / 2
[1] 3 4 6 4
exp(v)                 # po-prvková exp()
[1]   20.08554  148.41316 8103.08393  148.41316
# "Skalárny súčin" dvoch vektorov rovnakej dĺžky:
x <- c(1,2,3); y <- c(1,1,1)
sum(x * y)            # skutočný skalárny súčin (výsledok skalar)
[1] 6
crossprod(x, y)       # to isté, ale ako matica 1x1
     [,1]
[1,]    6
# Hadamardov súčin (po-prvkové násobenie):
x * y
[1] 1 2 3

Operácie s dvomi vektormi (rovnaký rozmer)

length(c(1,2,3,4,5,6))
[1] 6
length(v1)                 # (z predchádzajúceho chunku)
[1] 4
# POZOR na recyklovanie dĺžok – najlepšie je mať rovnaké dĺžky:
try(c(1,2,3,4) + v1)     # ak sú rovnaké, OK
[1]  4  8  4 13

Indexovanie a výber prvkov

x <- c(9, 14, 2, 27, 11, 5, 0)
x[1]            # prvý prvok
[1] 9
x[2:4]          # 2. až 4. prvok
[1] 14  2 27
x[-1]           # všetko okrem prvého
[1] 14  2 27 11  5  0
x[x > 10]       # prvky väčšie ako 10 (logická maska)
[1] 14 27 11
which(x > 10)   # indexy prvkov väčších ako 10
[1] 2 4 5

Základné štatistiky a usporiadanie

z <- c(12,5,1,8,0)
mean(z)                 # priemer
[1] 5.2
sd(z)                   # štandardná odchýlka
[1] 4.969909
max(z)                  # maximum
[1] 12
summary(z)              # rýchly prehľad
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.0     1.0     5.0     5.2     8.0    12.0 
sort(z)                 # rastúco
[1]  0  1  5  8 12
sort(z, decreasing = TRUE)  # klesajúco
[1] 12  8  5  1  0

Práca s chýbajúcimi hodnotami

y <- c(1, NA, 3, NA, 5)
is.na(y)
[1] FALSE  TRUE FALSE  TRUE FALSE
anyNA(y)
[1] TRUE
mean(y)                       # NA
[1] NA
mean(y, na.rm = TRUE)         # ignoruje NA
[1] 3

Malé cvičenie

Vytvorte vektor w s číslami 5..35 a vypočítajte súčet všetkých násobkov 3.

# Riešenie A: filtrovanie cez modulo
w <- 5:35
sum(w[w %% 3 == 0])
[1] 195
# Riešenie B: priamo si vytvor násobky 3 v rozsahu
sum(seq(from = 6, to = 33, by = 3))
[1] 195

Matice

Vytvorenie matíc

m <- matrix(2:13, nrow = 3, ncol = 4)            # plní sa po stĺpcoch (2..13)
m_byrow <- matrix(20:31, nrow = 3, byrow = TRUE) # plní sa po riadkoch (20..31)
m; m_byrow
     [,1] [,2] [,3] [,4]
[1,]    2    5    8   11
[2,]    3    6    9   12
[3,]    4    7   10   13
     [,1] [,2] [,3] [,4]
[1,]   20   21   22   23
[2,]   24   25   26   27
[3,]   28   29   30   31

Rozmery a základné informácie

dim(m)                 # (riadky, stĺpce)
[1] 3 4
nrow(m); ncol(m)
[1] 3
[1] 4

Adresovanie prvkov a podmatic

m[3, 1]        # riadok 3, stĺpec 1
[1] 4
m[, 4]         # všetky prvky v 4. stĺpci (vektor)
[1] 11 12 13
m[1, ]         # všetky prvky v 1. riadku (vektor)
[1]  2  5  8 11
m[2:3, 1:2]    # podmatica (riadky 2–3, stĺpce 1–2)
     [,1] [,2]
[1,]    3    6
[2,]    4    7

Maticové operácie

A <- matrix(c(2, -1,
              0,  3), nrow = 2, byrow = TRUE)

B <- matrix(c(4,  1,
              5, -2), nrow = 2, byrow = TRUE)

A + B          # sčítanie
     [,1] [,2]
[1,]    6    0
[2,]    5    1
A * B          # Hadamardov (po-prvkový) súčin
     [,1] [,2]
[1,]    8   -1
[2,]    0   -6
A %*% B        # maticový súčin
     [,1] [,2]
[1,]    3    4
[2,]   15   -6
t(A)           # transpozícia
     [,1] [,2]
[1,]    2    0
[2,]   -1    3
det(A)         # determinant
[1] 6
solve(A)       # inverzia (ak je regulárna)
     [,1]      [,2]
[1,]  0.5 0.1666667
[2,]  0.0 0.3333333

Kontrola rozmerov pre maticový súčin: počet stĺpcov vľavo = počet riadkov vpravo. ## Zlučovanie vektorov do matíc

C <- cbind(2:4, c(10, 20, 30))   # po stĺpcoch (2 3 4) a (10 20 30)
D <- rbind(c(7, 8, 9), 1:3)      # po riadkoch
C; D
     [,1] [,2]
[1,]    2   10
[2,]    3   20
[3,]    4   30
     [,1] [,2] [,3]
[1,]    7    8    9
[2,]    1    2    3

Štatistiky po riadkoch/stĺpcoch

M <- matrix(10:18, nrow = 3)     # 3x3 matica s hodnotami 10..18
M
     [,1] [,2] [,3]
[1,]   10   13   16
[2,]   11   14   17
[3,]   12   15   18
rowSums(M)         # rýchlejšie ako apply(M, 1, sum)
[1] 39 42 45
colMeans(M)        # rýchlejšie ako apply(M, 2, mean)
[1] 11 14 17

Malé cvičenie

Vektorová hra s „koncovkou 7“

Zadanie:
Vytvorte vektor 30 náhodných celých čísel z intervalu 10..99. Čísla končiace na 7 nahraďte hodnotou NA.
Vypočítajte medián po odstránení NA a zistite indexy prvkov, ktoré boli nahradené.

# 30 náhodných CELÝCH čísel z intervalu 10..99
u <- sample(10:99, size = 30, replace = TRUE)

# ktoré končia na 7?
ends_with_7 <- u %% 10 == 7

# nahradenie týchto prvkov za NA
u_clean <- u
u_clean[ends_with_7] <- NA

# štatistiky
median_no_na <- median(u_clean, na.rm = TRUE)
idx_sevens   <- which(ends_with_7)

u; u_clean
 [1] 47 98 43 78 81 85 72 22 91 34 47 30 88 50 56 99 69 25 15 81 95 95 48
[24] 40 90 59 43 13 22 78
 [1] NA 98 43 78 81 85 72 22 91 34 NA 30 88 50 56 99 69 25 15 81 95 95 48
[24] 40 90 59 43 13 22 78
median_no_na
[1] 64
idx_sevens
[1]  1 11
