Globálne nastavenie Chunkov

V nižšie uvedenom Chunku je urobené základné globálne nastavenie Chunkov v celom Notebooku.

  • echo nastavuje, či chceme v Notebooku vypisovať jednotlivé kódy R.
  • message = FALSE potláča pracovné hlásenia (napr. pri načítaní knižníc).
  • warning = FALSE potláča varovné hlášky.
knitr::opts_chunk$set(
  echo = TRUE,
  message = FALSE,
  warning = FALSE
)

Úvod k základným operáciám v R

Tento notebook demonštruje základné operácie v jazyku R so:

  • skalárnymi číslami (jednočíselné hodnoty),
  • textovými (znakovými) reťazcami,
  • logickými (boolovskými) hodnotami,
  • numerickými vektormi,
  • maticami.

Tam, kde je to užitočné, sú zahrnuté aj malé cvičenia (## Malé cvičenie), v ktorých používam podobné príkazy na vlastných príkladoch.


Skaláre (jednočíselné hodnoty)

Numerické skaláre

# Priradenie konštánt do premenných
a <- 7
b <- 3.5

# Základné aritmetické operácie
sum_ab    <- a + b        # súčet
diff_ab   <- a - b        # rozdiel
prod_ab   <- a * b        # násobenie
quot_ab   <- a / b        # delenie
power_ab  <- a ^ b        # umocňovanie
mod_ab    <- a %% 3       # zvyšok po delení tromi (modulo)
int_div_ab <- a %/% 3     # celočíselné delenie (bez zvyšku)

# Zaokrúhľovanie
round_b <- round(b)       # zaokrúhlenie na najbližšie celé číslo
ceil_b  <- ceiling(b)     # najbližšie vyššie celé číslo
floor_b <- floor(b)       # najbližšie nižšie celé číslo

a; b
sum_ab; diff_ab; prod_ab; quot_ab; power_ab; mod_ab; int_div_ab
round_b; ceil_b; floor_b

Poznámky

  • ^ je operátor umocňovania.
  • %% je modulo – zvyšok po delení.
  • %/% je celočíselné delenie (delenie „bez desatinnej časti“).
  • round(x, digits = 0) zaokrúhli na zadaný počet desatinných miest, ak digits = 0, ide o celočíselné zaokrúhlenie.

Malé cvičenie

Vypočítajte hodnotu výrazu
\[ \frac{(15^2 - 4)}{7} \]
a výsledok uložte do premennej vysledok15.

vysledok15 <- (15^2 - 4) / 7
vysledok15

Text

Vytváranie textových premenných a práca s nimi

first <- "Natalia"                      # meno
last  <- "Soligova"                     # priezvisko

full_name       <- paste(first, last)        # spojenie s medzerou
full_nospace    <- paste0(first, last)       # spojenie bez medzery
csv_line        <- paste("apple", "banana", "pear", sep = ",")
semicolon_line  <- paste("Ahoj", "svet", sep = ";")

first; last
full_name; full_nospace
csv_line
semicolon_line

Dĺžka textového reťazca a podreťazec

x <- "R je skvely jazyk!"
nchar(x)                 # počet znakov v reťazci
substr(x, 1, 5)          # podreťazec od 1. do 5. znaku
substr(x, 8, nchar(x))   # podreťazec od 8. po koniec

Tip: knižnica stringr ponúka ešte viac užitočných funkcií pre prácu s textom (str_to_upper(), str_replace(), …), ale na základné úlohy stačia aj vstavané funkcie R.

Malé cvičenie

Vytvorte textovú premennú veta s obsahom
"Ekonometria je zaujimava" a: 1. zistite počet znakov, 2. vytiahnite prvých 10 znakov.

veta <- "Ekonometria je zaujimava"
pocet_znakov <- nchar(veta)
prvych_desat <- substr(veta, 1, 10)

pocet_znakov
prvych_desat

Logické (boolovské) hodnoty a premenné

Základy

p <- TRUE
q <- FALSE

!p        # NOT
p & q     # AND
p | q     # OR
xor(p, q) # exclusive OR - platí presne jedno z p, q

Logický výsledok porovnávania

3 < 5
7 >= 7
"cat" == "cat"
"cat" != "dog"   # != znamená "nie je rovné"
!TRUE

Zložitejšie logické operácie

x <- 10

x > 5 & x < 20       # x je väčšie ako 5 a zároveň menšie ako 20
x < 0 | x > 100      # x je menšie ako 0 alebo väčšie ako 100

# pri zložitejších výrazoch je dobré používať zátvorky
(x > 5 & x < 20) | (x == 0)

Zlučovanie viacerých logických premenných do vektora

vals <- c(TRUE, FALSE, TRUE, TRUE)
vals

Malé cvičenie

Majme číslo y <- 25. Pomocou logických operácií zistite, či: 1. je väčšie ako 10 a zároveň menšie alebo rovné 30, 2. nie je rovné 0.

y <- 25
podmienka1 <- (y > 10 & y <= 30)
podmienka2 <- (y != 0)

podmienka1
podmienka2

Numerické vektory

Generovanie vektorov

v1 <- c(2, 4, 6, 8)
v2 <- 1:5                          # postupnosť 1,2,3,4,5
v3 <- seq(from = 0, to = 1, by = 0.25)  # postupnosť s krokom 0.25
v4 <- rep(3, times = 5)            # 3,3,3,3,3
v5 <- runif(5)                     # rovnomerné rozdelenie v [0,1]
v6 <- rnorm(5)                     # normálne rozdelené náhodné hodnoty

v1; v2; v3; v4; v5; v6

Aritmetické operácie s vektormi

v <- c(1, 2, 3, 4)

v + 10           # každý prvok +10
v * 2            # každý prvok *2
(v + 1) / 2
exp(v)           # exponenciálna funkcia z každého prvku

# rôzne spôsoby skalárneho súčinu dvoch vektorov
sum(c(1,2,3) * c(1,1,1))        # skalárny súčin - výsledok je skalar
crossprod(c(1,2,3), c(1,1,1))   # skalárny súčin - výsledok je matica 1x1
c(1,2,3) * c(1,1,1)             # Hadamardov súčin (po prvkoch)

Matematické operácie s dvoma vektormi rovnakého rozmeru

length(c(1,2,3,4,5))
length(v5)

c(1,2,3,4,5) + v5     # oba vektory musia mať rovnakú dĺžku

Indexovanie a výber niektorých prvkov vektora

x <- c(5, 12, 3, 18, 7, 0, 21)

x[1]           # prvý prvok
x[2:4]         # druhý až štvrtý prvok
x[-1]          # všetko okrem prvého prvku
x[x > 10]      # prvky väčšie ako 10
which(x > 10)  # indexy prvkov väčších ako 10

Práca s chýbajúcimi hodnotami

y <- c(1, NA, 3, NA, 5)

is.na(y)                  # logický vektor, kde je NA
mean(y)                   # výsledok NA
mean(y, na.rm = TRUE)     # ignorovanie NA pri výpočte priemeru

Základné štatistiky a usporiadanie prvkov

z <- c(10, 3, 5, 8, 2)

mean(z)                # priemer
sd(z)                  # štandardná odchýlka
max(z)                 # maximum
summary(z)             # rýchly prehľad
sort(z)                # rastúce usporiadanie
sort(z, decreasing = TRUE)  # klesajúco

Jednoduchý graf z vektora

plot(z,
     type = "b",
     main = "Jednoduchý lineárny graf vektora z",
     xlab = "Index prvku",
     ylab = "Hodnota",
     col  = "darkgreen",
     pch  = 19)

Malé cvičenie

Vytvorte vektor w s číslami od 1 do 20 a vypočítajte súčet všetkých párnych čísel vo vektore.
Potom vypočítajte aj priemer všetkých nepárnych čísel.

w <- 1:20

suma_parne   <- sum(w[w %% 2 == 0])
priemer_nepar <- mean(w[w %% 2 == 1])

suma_parne
priemer_nepar

Matice

Vytvorenie matíc

m <- matrix(1:12, nrow = 3, ncol = 4)            # hodnoty po stĺpcoch
m_byrow <- matrix(1:12, nrow = 3, byrow = TRUE)  # hodnoty po riadkoch

m
m_byrow

Rozmery matice

dim(m)   # počet riadkov a stĺpcov

Adresovanie prvkov matice

m[1, 2]      # riadok 1, stĺpec 2
m[ , 3]      # všetky prvky v treťom stĺpci
m[2, ]       # všetky prvky v druhom riadku
m[1:2, 2:3]  # podmatica riadky 1-2, stĺpce 2-3

Maticové operácie

A <- matrix(c(1, 2, 3, 4), nrow = 2)
B <- matrix(c(5, 6, 7, 8), nrow = 2)

A + B        # sčítanie matíc
A * B        # Hadamardov súčin (po prvkoch)
A %*% B      # skutočné násobenie matíc
t(A)         # transpozícia
det(A)       # determinant
solve(A)     # inverzia matice (ak existuje)

Zlučovanie vektorov do matíc

C <- cbind(1:3, 4:6)   # po stĺpcoch
D <- rbind(1:3, 4:6)   # po riadkoch

C
D

Vypočítanie štatistiky po riadkoch / stĺpcoch

M <- matrix(1:9, nrow = 3)

M
apply(M, 1, sum)   # suma po riadkoch
apply(M, 2, mean)  # priemery po stĺpcoch

Malé cvičenie

Vytvorte maticu M2 s rozmermi 5×5, hodnoty 1..25 zadávané po riadkoch.
a) vypočítajte stĺpcové sumy,
b) vypočítajte súčin \(M2^T M2\).

M2 <- matrix(1:25, nrow = 5, byrow = TRUE)

stlpce_sum <- colSums(M2)
sucin_M2   <- t(M2) %*% M2

M2
stlpce_sum
sucin_M2

Môj návrh použitia novinky

V tejto poslednej sekcii ukazujem nové príkazy, ktoré v pôvodnom Rmd dokumente neboli:

  • vytvorenie data.frame z viacerých vektorov,
  • výpočet korelácie pomocou cor(),
  • jednoduchý regresný model pomocou lm() a graf so spätnou regresnou čiarou,
  • použitie ifelse() na vytvorenie kategórie “úspešný/neúspešný študent”,
  • zobrazenie výsledku pomocou table() a barplot().

Simulácia dát o štúdiu a výsledkoch testu

set.seed(42)

pocet_studentov <- 30

hodiny_studia <- runif(pocet_studentov, min = 0, max = 10)
body_test     <- 20 + 6 * hodiny_studia + rnorm(pocet_studentov, sd = 5)

data_test <- data.frame(
  hodiny = hodiny_studia,
  body   = body_test
)

head(data_test)

Korelácia a jednoduchý regresný model

cor_hodiny_body <- cor(data_test$hodiny, data_test$body)
cor_hodiny_body

model_test <- lm(body ~ hodiny, data = data_test)
summary(model_test)

Graf so spätnou regresnou čiarou

plot(
  body ~ hodiny,
  data = data_test,
  pch = 19,
  col = "darkblue",
  main = "Čím viac študujem, tým viac bodov?",
  xlab = "Hodiny štúdia za týždeň",
  ylab = "Počet bodov v teste"
)

abline(model_test, col = "red", lwd = 2)

Použitie ifelse() a barplot()

Predpokladajme, že na test treba aspoň 60 bodov.

data_test$status <- ifelse(data_test$body >= 60, "úspešný", "neúspešný")

tab_status <- table(data_test$status)
tab_status

barplot(
  tab_status,
  main = "Počet úspešných a neúspešných študentov",
  ylab = "Počet študentov",
  col  = c("tomato", "steelblue")
)

V tejto sekcii som teda použila nové príkazy, ktoré v pôvodnom dokumente neboli, a ukázala:

  • ako vytvoriť data.frame,
  • ako zistiť koreláciu cor(),
  • ako odhadnúť jednoduchý model lm() a zobraziť ho v grafe,
  • ako vytvoriť novú kategóriu pomocou ifelse(),
  • ako použiť table() a barplot() na zobrazenie výsledkov.
