Globálne nastavenie Chunkov
V nižšie uvedenom Chunku je urobené základné globálne nastavenie
Chunkov v celom Notebooku.
- echo nastavuje, či chceme v Notebooku vypisovať
jednotlivé kódy R.
- message = FALSE potláča pracovné hlásenia (napr.
pri načítaní knižníc).
- warning = FALSE potláča varovné hlášky.
knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Úvod k základným operáciám v R
Tento notebook demonštruje základné operácie v
jazyku R so:
- skalárnymi číslami (jednočíselné hodnoty),
- textovými (znakovými) reťazcami,
- logickými (boolovskými) hodnotami,
- numerickými vektormi,
- maticami.
Tam, kde je to užitočné, sú zahrnuté aj malé cvičenia (## Malé
cvičenie), v ktorých používam podobné príkazy na vlastných
príkladoch.
Skaláre (jednočíselné hodnoty)
Numerické skaláre
# Priradenie konštánt do premenných
a <- 7
b <- 3.5
# Základné aritmetické operácie
sum_ab <- a + b # súčet
diff_ab <- a - b # rozdiel
prod_ab <- a * b # násobenie
quot_ab <- a / b # delenie
power_ab <- a ^ b # umocňovanie
mod_ab <- a %% 3 # zvyšok po delení tromi (modulo)
int_div_ab <- a %/% 3 # celočíselné delenie (bez zvyšku)
# Zaokrúhľovanie
round_b <- round(b) # zaokrúhlenie na najbližšie celé číslo
ceil_b <- ceiling(b) # najbližšie vyššie celé číslo
floor_b <- floor(b) # najbližšie nižšie celé číslo
a; b
sum_ab; diff_ab; prod_ab; quot_ab; power_ab; mod_ab; int_div_ab
round_b; ceil_b; floor_b
Poznámky
^ je operátor umocňovania.
%% je modulo – zvyšok po delení.
%/% je celočíselné delenie (delenie „bez desatinnej
časti“).
round(x, digits = 0) zaokrúhli na zadaný počet
desatinných miest, ak digits = 0, ide o celočíselné
zaokrúhlenie.
Malé cvičenie
Vypočítajte hodnotu výrazu
\[
\frac{(15^2 - 4)}{7}
\]
a výsledok uložte do premennej vysledok15.
vysledok15 <- (15^2 - 4) / 7
vysledok15
Text
Vytváranie textových premenných a práca s nimi
first <- "Natalia" # meno
last <- "Soligova" # priezvisko
full_name <- paste(first, last) # spojenie s medzerou
full_nospace <- paste0(first, last) # spojenie bez medzery
csv_line <- paste("apple", "banana", "pear", sep = ",")
semicolon_line <- paste("Ahoj", "svet", sep = ";")
first; last
full_name; full_nospace
csv_line
semicolon_line
Dĺžka textového reťazca a podreťazec
x <- "R je skvely jazyk!"
nchar(x) # počet znakov v reťazci
substr(x, 1, 5) # podreťazec od 1. do 5. znaku
substr(x, 8, nchar(x)) # podreťazec od 8. po koniec
Tip: knižnica stringr ponúka ešte viac užitočných
funkcií pre prácu s textom (str_to_upper(),
str_replace(), …), ale na základné úlohy stačia aj vstavané
funkcie R.
Malé cvičenie
Vytvorte textovú premennú veta s obsahom
"Ekonometria je zaujimava" a: 1. zistite počet znakov, 2.
vytiahnite prvých 10 znakov.
veta <- "Ekonometria je zaujimava"
pocet_znakov <- nchar(veta)
prvych_desat <- substr(veta, 1, 10)
pocet_znakov
prvych_desat
Logické (boolovské) hodnoty a premenné
Základy
p <- TRUE
q <- FALSE
!p # NOT
p & q # AND
p | q # OR
xor(p, q) # exclusive OR - platí presne jedno z p, q
Logický výsledok porovnávania
3 < 5
7 >= 7
"cat" == "cat"
"cat" != "dog" # != znamená "nie je rovné"
!TRUE
Zložitejšie logické operácie
x <- 10
x > 5 & x < 20 # x je väčšie ako 5 a zároveň menšie ako 20
x < 0 | x > 100 # x je menšie ako 0 alebo väčšie ako 100
# pri zložitejších výrazoch je dobré používať zátvorky
(x > 5 & x < 20) | (x == 0)
Zlučovanie viacerých logických premenných do vektora
vals <- c(TRUE, FALSE, TRUE, TRUE)
vals
Malé cvičenie
Majme číslo y <- 25. Pomocou logických operácií
zistite, či: 1. je väčšie ako 10 a zároveň menšie alebo rovné 30, 2. nie
je rovné 0.
y <- 25
podmienka1 <- (y > 10 & y <= 30)
podmienka2 <- (y != 0)
podmienka1
podmienka2
Numerické vektory
Generovanie vektorov
v1 <- c(2, 4, 6, 8)
v2 <- 1:5 # postupnosť 1,2,3,4,5
v3 <- seq(from = 0, to = 1, by = 0.25) # postupnosť s krokom 0.25
v4 <- rep(3, times = 5) # 3,3,3,3,3
v5 <- runif(5) # rovnomerné rozdelenie v [0,1]
v6 <- rnorm(5) # normálne rozdelené náhodné hodnoty
v1; v2; v3; v4; v5; v6
Aritmetické operácie s vektormi
v <- c(1, 2, 3, 4)
v + 10 # každý prvok +10
v * 2 # každý prvok *2
(v + 1) / 2
exp(v) # exponenciálna funkcia z každého prvku
# rôzne spôsoby skalárneho súčinu dvoch vektorov
sum(c(1,2,3) * c(1,1,1)) # skalárny súčin - výsledok je skalar
crossprod(c(1,2,3), c(1,1,1)) # skalárny súčin - výsledok je matica 1x1
c(1,2,3) * c(1,1,1) # Hadamardov súčin (po prvkoch)
Matematické operácie s dvoma vektormi rovnakého rozmeru
length(c(1,2,3,4,5))
length(v5)
c(1,2,3,4,5) + v5 # oba vektory musia mať rovnakú dĺžku
Indexovanie a výber niektorých prvkov vektora
x <- c(5, 12, 3, 18, 7, 0, 21)
x[1] # prvý prvok
x[2:4] # druhý až štvrtý prvok
x[-1] # všetko okrem prvého prvku
x[x > 10] # prvky väčšie ako 10
which(x > 10) # indexy prvkov väčších ako 10
Práca s chýbajúcimi hodnotami
y <- c(1, NA, 3, NA, 5)
is.na(y) # logický vektor, kde je NA
mean(y) # výsledok NA
mean(y, na.rm = TRUE) # ignorovanie NA pri výpočte priemeru
Základné štatistiky a usporiadanie prvkov
z <- c(10, 3, 5, 8, 2)
mean(z) # priemer
sd(z) # štandardná odchýlka
max(z) # maximum
summary(z) # rýchly prehľad
sort(z) # rastúce usporiadanie
sort(z, decreasing = TRUE) # klesajúco
Jednoduchý graf z vektora
plot(z,
type = "b",
main = "Jednoduchý lineárny graf vektora z",
xlab = "Index prvku",
ylab = "Hodnota",
col = "darkgreen",
pch = 19)
Malé cvičenie
Vytvorte vektor w s číslami od 1 do 20 a vypočítajte
súčet všetkých párnych čísel vo vektore.
Potom vypočítajte aj priemer všetkých nepárnych čísel.
w <- 1:20
suma_parne <- sum(w[w %% 2 == 0])
priemer_nepar <- mean(w[w %% 2 == 1])
suma_parne
priemer_nepar
Matice
Vytvorenie matíc
m <- matrix(1:12, nrow = 3, ncol = 4) # hodnoty po stĺpcoch
m_byrow <- matrix(1:12, nrow = 3, byrow = TRUE) # hodnoty po riadkoch
m
m_byrow
Rozmery matice
dim(m) # počet riadkov a stĺpcov
Adresovanie prvkov matice
m[1, 2] # riadok 1, stĺpec 2
m[ , 3] # všetky prvky v treťom stĺpci
m[2, ] # všetky prvky v druhom riadku
m[1:2, 2:3] # podmatica riadky 1-2, stĺpce 2-3
Maticové operácie
A <- matrix(c(1, 2, 3, 4), nrow = 2)
B <- matrix(c(5, 6, 7, 8), nrow = 2)
A + B # sčítanie matíc
A * B # Hadamardov súčin (po prvkoch)
A %*% B # skutočné násobenie matíc
t(A) # transpozícia
det(A) # determinant
solve(A) # inverzia matice (ak existuje)
Zlučovanie vektorov do matíc
C <- cbind(1:3, 4:6) # po stĺpcoch
D <- rbind(1:3, 4:6) # po riadkoch
C
D
Vypočítanie štatistiky po riadkoch / stĺpcoch
M <- matrix(1:9, nrow = 3)
M
apply(M, 1, sum) # suma po riadkoch
apply(M, 2, mean) # priemery po stĺpcoch
Malé cvičenie
Vytvorte maticu M2 s rozmermi 5×5, hodnoty 1..25
zadávané po riadkoch.
a) vypočítajte stĺpcové sumy,
b) vypočítajte súčin \(M2^T M2\).
M2 <- matrix(1:25, nrow = 5, byrow = TRUE)
stlpce_sum <- colSums(M2)
sucin_M2 <- t(M2) %*% M2
M2
stlpce_sum
sucin_M2
Môj návrh použitia novinky
V tejto poslednej sekcii ukazujem nové príkazy,
ktoré v pôvodnom Rmd dokumente neboli:
- vytvorenie
data.frame z viacerých vektorov,
- výpočet korelácie pomocou
cor(),
- jednoduchý regresný model pomocou
lm() a graf so
spätnou regresnou čiarou,
- použitie
ifelse() na vytvorenie kategórie
“úspešný/neúspešný študent”,
- zobrazenie výsledku pomocou
table() a
barplot().
Simulácia dát o štúdiu a výsledkoch testu
set.seed(42)
pocet_studentov <- 30
hodiny_studia <- runif(pocet_studentov, min = 0, max = 10)
body_test <- 20 + 6 * hodiny_studia + rnorm(pocet_studentov, sd = 5)
data_test <- data.frame(
hodiny = hodiny_studia,
body = body_test
)
head(data_test)
Korelácia a jednoduchý regresný model
cor_hodiny_body <- cor(data_test$hodiny, data_test$body)
cor_hodiny_body
model_test <- lm(body ~ hodiny, data = data_test)
summary(model_test)
Graf so spätnou regresnou čiarou
plot(
body ~ hodiny,
data = data_test,
pch = 19,
col = "darkblue",
main = "Čím viac študujem, tým viac bodov?",
xlab = "Hodiny štúdia za týždeň",
ylab = "Počet bodov v teste"
)
abline(model_test, col = "red", lwd = 2)
Použitie ifelse() a barplot()
Predpokladajme, že na test treba aspoň 60 bodov.
data_test$status <- ifelse(data_test$body >= 60, "úspešný", "neúspešný")
tab_status <- table(data_test$status)
tab_status
barplot(
tab_status,
main = "Počet úspešných a neúspešných študentov",
ylab = "Počet študentov",
col = c("tomato", "steelblue")
)
V tejto sekcii som teda použila nové príkazy, ktoré
v pôvodnom dokumente neboli, a ukázala:
- ako vytvoriť
data.frame,
- ako zistiť koreláciu
cor(),
- ako odhadnúť jednoduchý model
lm() a zobraziť ho v
grafe,
- ako vytvoriť novú kategóriu pomocou
ifelse(),
- ako použiť
table() a barplot() na
zobrazenie výsledkov.
