knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)

Spracované a inšpirované Notebookom Jason Locklin: Introduction to R for Education Data Analysis and Visualization

Práca s údajmi

Tradičná práca s databázou

Pre prácu s údajmi (databázou) používame najčastejšie dátový typ .data.frame.. Je to tabuľka, ktorá pozostáva zo stĺpcov rozličných typov. Jeden riadok pritom predstavuje jeden záznam databázy.

Príklad

Majme údaje o žiakoch, ktoré predstavujú tri premenné - Meno, Vek a Body:

# Working with data frames

  Zviera = c("Medveď", "Tiger", "Aligátor")
  Vyska = c(250, 270, 350)
  Vaha = c(250, 200, 380)

Tieto tri premenné nie sú zatiaľ nijako prepojené, predstavujú izolované stĺpce tabuľky. Do tabuľky ich spojíme nasledovne

udaje <- data.frame(Zviera,Vyska,Vaha)
print(udaje)

Vysvetlenie: DataFrame má tri stĺpce: Zviera, Výšku a Váhu. Niektoré operácie s údajmi organizovanými v .data.frame. sú uvedené nasledovne

print(udaje$Vyska)                 # takto adresujeme jednotlivé premenné v data.frame
[1] 250 270 350
print(mean(udaje$Vyska))           # priemernu výšku
[1] 290
print(udaje[Zviera=="Tiger",])     # adresovanie celého riadku
print(udaje[3,])                 # ina moznost adresovania celeho riadku
print(udaje[,2:3])               # vypisanie druheho a tretieho stlpca tabulky
print(udaje[1,1])                # vypisanie jednej bunky tabulky
[1] "Medveď"
summary(udaje)                   # zakladna deskriptivna statistika celej tabulky
    Zviera              Vyska          Vaha      
 Length:3           Min.   :250   Min.   :200.0  
 Class :character   1st Qu.:260   1st Qu.:225.0  
 Mode  :character   Median :270   Median :250.0  
                    Mean   :290   Mean   :276.7  
                    3rd Qu.:310   3rd Qu.:315.0  
                    Max.   :350   Max.   :380.0  

Ak chceme pridať k tabuľke dodatočný stĺpec, potom to robíme nasledovne

Masozravec <- c(TRUE,TRUE,TRUE)
udaje <- cbind(udaje,Masozravec)
print(udaje)

Ak chceme pridať riadok, potom

# New record (must match column order/types)
novy.riadok <- data.frame(Zviera = "Delfín", Vyska = 300, Vaha = 220, Masozravec = TRUE)

novy.riadok <- data.frame(Zviera = "Žirafa", Vyska = 500, Vaha = 1200, Masozravec = FALSE)

novy.riadok <- data.frame(Zviera = "Krava", Vyska = 150, Vaha = 700, Masozravec = FALSE)

novy.riadok <- data.frame(Zviera = "Slon", Vyska = 300, Vaha = 6000, Masozravec = FALSE)


# Append
udaje <- rbind(udaje, novy.riadok)
print(udaje)

Tabuľky v prostredí kableextra

library(knitr)
library(kableExtra)
kable(
  udaje,
#  format,
digits = 2,
#  row.names = NA,
#  col.names = NA,
  align=c("l","c","l","r"),
  caption = "ZOO"
#  label = NULL,
#  format.args = list(),
#  escape = TRUE,
 # ...
) %>%
      kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center")
ZOO
Zviera Vyska Vaha Masozravec
Medveď 250 250 TRUE
Tiger 270 200 TRUE
Aligátor 350 380 TRUE
Slon 300 6000 FALSE
NA
NA
NA
NA
NA

Tidyverse - moderná práca s údajmi

Tidyverse je súbor knižníc, ktoré majú zjednodušiť prácu s údajmi. Majú jednotný komunikačný štandard, vzájomne sa doplňujú.

# Load tidyverse
library(tidyverse)

dplyr - pre manipuláciu s údajmi

.dplyr. poskytuje základné možnosti manipulácie s údajmi, ako napr.:

  1. filter(): vyberá riadky

  2. select(): vyberá stĺpce

  3. mutate(): vytvára nové stĺpce tabuľky

  4. arrange(): triedi riadky

  5. summarise(): sumarizuje

V nasledovnej ukážke využijeme tzv. .pipes. %>% alebo %<% umožňuje posielať výsledky z jednej funkcie priamo do volanie nasledovnej funkcie. To umožňuje ľahšiu čitateľnosť kódov, konvencia sa ujala a má široké použitie.

Výber a triedenie

# výber a následné triedenie
udaje %>%
  filter(Vaha > 180) %>%     # vybera zaznamy s váhou väčšou ako 180 kg
  arrange(desc(Vaha)) %>%     # vysledny subor triedi zostupne podla premennej Vaha
kable %>%
    kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Zviera Vyska Vaha Masozravec
Slon 300 6000 FALSE
Aligátor 350 380 TRUE
Medveď 250 250 TRUE
Tiger 270 200 TRUE

Zoskupenie a sumarizácia

# Zoskupí and sumarizuje
udaje %>%
  group_by(Masozravec) %>%      # zoskupi zaznamy podla toho či je Masozravec a vypocita za kazdu skupinu jej priemer Váhy
  summarise(                # a taktiez spocita pocetnosti oboch skupin
    Priem.Vaha = mean(Vaha),
    count = n()
  ) %>%
 kable(
    caption = "Počet Zvierat v ZOO, ktoré sú Mäsožravé a ich priemerná Vaha ",
    col.names = c("Masozravec", "Vaha", "Počet"),
    align = "c"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Počet Zvierat v ZOO, ktoré sú Mäsožravé a ich priemerná Vaha
Masozravec Vaha Počet
FALSE 6000.0000 1
TRUE 276.6667 3

Vytváranie novej premennej

# Vytváranie novej premennej
udaje %>%
  mutate(
    Inteligencia = case_when(     # vytvara novu premennu Inteligencia podla nasledovnej relacnej schemy, aby sme zapísali, ktoré zviera je inteligentnejšie od toho druhého 
     Zviera == "Delfín" ~ "A",       # veľmi inteligentné
      Zviera == "Slon" ~ "A",         # veľmi inteligentné
      Zviera == "Medveď" ~ "B",       # nadpriemerná inteligencia
      Zviera == "Tiger" ~ "B",        # nadpriemerná inteligencia
      Zviera == "Žirafa" ~ "C",       # priemerná inteligencia
      Zviera == "Krava" ~ "C",        # priemerná inteligencia
      Zviera == "Aligátor" ~ "D",     # nízka inteligencia
      TRUE ~ "Neznáme"
    ),
  
  ) %>% 
  kable %>%
   kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  ) 
Zviera Vyska Vaha Masozravec Inteligencia
Medveď 250 250 TRUE B
Tiger 270 200 TRUE B
Aligátor 350 380 TRUE D
Slon 300 6000 FALSE A

Import údajov z otv. databáz

  1. Mendeley Data Tuto sa dostaneme z Mendeley Data, kde si údaje viete voľne stiahnúť. Údaje sa vzťahujú k už publikovaným článkom vo vydavateľstve Elsevier. Výber sa dá urobiť jednoducho zadaním kľúčových slov.
  2. Kaggle Data Tuto sa dostaneme z Kaggle Datasets, kde si údaje viete voľne stiahnúť. Údaje sa vzťahujú k projektom podporovaným Kaggle. Výber sa dá urobiť jednoducho zadaním kľúčových slov.
  3. Databázy knižníc R - .library(datasets). alebo .library(wooldridge). ale aj iné - stačí si dať príkaz data()

Import údajov z .csv alebo .xls

Ja som si zvolil údaje z [Abosede Tiamiyu: Environmental, Social, and Governance Reporting Evidencing Firm Performance in Emerging Economy]{https://data.mendeley.com/datasets/7k8pjhsrwb/1}. Na stránke sa nachádza súbor .Dataset ESG and Firm Performance.xlsx., ktorý som si stiahol a exportoval do formátu csv. Ako oddeľovač položiek som si zvolil bodkočiarku (semicolon ;), vyžívam desatinnú bodku a nie čiarku a tiež textové premenné uvádzam apostrofmi “. V prvom riadku sa nachádzajú názvy stĺpcov, ktoré neskôr budú vystupovať ako premenné. Tie obsahujú medzery, čo je v zázve premennej neprípustné a nahradil som ich podtrhovátkom”.”.

Náhľad na xls databázu otvorenú v tabuľkovom procesore
Náhľad na xls databázu otvorenú v tabuľkovom procesore
Náhľad na csv databázu otvorenú v textovom procesore
Náhľad na csv databázu otvorenú v textovom procesore

Potom už stačí importovať údaje do .data.frame., a to nasledovne

library(readr)
udaje <- read_delim("test.csv", delim = NULL)
head(udaje)
                                    # nazvy premennych

Grafy

library(dplyr)

udaje.road_type <- udaje %>%
  filter(road_type == "Highway") %>%
  select(traffic_density, avg_speed, weather_condition, num_lanes, road_surface, lighting)

ggplot2 - knižnica pre grafy

Výber a následné triedenie Knižnica .ggplot2. je v súčasnosti najčastejšie používaná grafická knižnica, pričom predpripravené kódy k jednotlivým obrázkom si viete nájsť v R Graph Gallery. Tu si uvedieme jednoduchšie z nich.

Scatter plot

# Basic scatter plot
library(ggplot2)

ggplot(udaje.road_type, aes(x = traffic_density, y = avg_speed)) +
  geom_point(alpha = 0.4, color = "steelblue") +   # priehľadné modré body
  geom_smooth(method = "lm", color = "red", se = FALSE) +  # pridá červenú trendovú čiaru
  theme_minimal() +
  labs(
    title = "Vzťah medzi hustotou premávky a priemernou rýchlosťou",
    x = "Hustota premávky (vozidlá/km)",
    y = "Priemerná rýchlosť (km/h)"
  )

Boxplot

# Bar plot with grouping
library(ggplot2)

library(ggplot2)

ggplot(udaje.road_type, aes(x = weather_condition, y = avg_speed)) +
  geom_boxplot(fill = "lightblue", color = "red") +
  labs(
    title = "Rýchlosť podľa počasia",
    x = "Počasie",
    y = "Priemerná rýchlosť (km/h)"
  ) +
  theme_minimal()

Základné štatistiky.

knitr - tabuľka

library(dplyr)
library(knitr)
library(kableExtra)

density.stats <- udaje.road_type %>%
  group_by(weather_condition) %>%
  summarise(
    Pozorovania = n(),
    Priemer = mean(traffic_density, na.rm = TRUE),
    Minimum = min(traffic_density, na.rm = TRUE),
    Maximum = max(traffic_density, na.rm = TRUE),
    .groups = "drop"
  ) %>%
  mutate(
    Priemer = round(Priemer, 2),
    Minimum = round(Minimum, 2),
    Maximum = round(Maximum, 2)
  ) %>%
  arrange(weather_condition)

density.stats %>%
  kable(caption = "Štatistiky hustoty premávky podľa počasia") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    position = "center"
  )
Štatistiky hustoty premávky podľa počasia
weather_condition Pozorovania Priemer Minimum Maximum
Clear 327 275.32 52.19 496.30
Foggy 331 280.55 50.32 497.28
Rainy 345 263.70 53.13 499.51
NA

alebo krajšie tabuľky s pomocou .kableExtra.:

library(dplyr)
library(knitr)
library(kableExtra)

# Summarise basic statistics for traffic data
traffic.stats <- udaje.road_type %>%
  group_by(weather_condition) %>%   # ← môžeš zmeniť napr. na road_type alebo lighting
  summarise(
    n     = n(),                                  # počet pozorovaní
    mean  = mean(traffic_density, na.rm = TRUE),  # priemer
    min   = min(traffic_density, na.rm = TRUE),   # minimum
    max   = max(traffic_density, na.rm = TRUE),   # maximum
    .groups = "drop"
  )

# Create styled table
traffic.stats %>%
  kable(
    digits = 2,
    caption = "Základné štatistiky hustoty premávky podľa počasia"
  ) %>%
  kable_styling(
    full_width = FALSE,
    bootstrap_options = c("striped", "hover", "condensed")
  ) %>%
  column_spec(1, bold = TRUE) %>%                             # zvýrazni názvy kategórií
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%        # štýl hlavičky
  add_header_above(c(" " = 1, "Štatistiky hustoty premávky" = 4))  # nadpis nad tabuľkou
Základné štatistiky hustoty premávky podľa počasia
Štatistiky hustoty premávky
weather_condition n mean min max
Clear 327 275.32 52.19 496.30
Foggy 331 280.55 50.32 497.28
Rainy 345 263.70 53.13 499.51

t-test: Porovnanie hustoty premávky medzi dňom a nocou

library(broom)
library(knitr)
library(kableExtra)

t.test.result <- t.test(
  udaje.road_type$traffic_density[udaje.road_type$lighting == "Daylight"],
  udaje.road_type$traffic_density[udaje.road_type$lighting == "Night"]
)

t.test.table <- tidy(t.test.result)

t.test.table %>%
  kable(
    digits = 4,
    caption = "t-test – Porovnanie hustoty premávky: Deň vs. Noc"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    position = "center"
  )
t-test – Porovnanie hustoty premávky: Deň vs. Noc
estimate estimate1 estimate2 statistic p.value parameter conf.low conf.high method alternative
-5.8673 270.046 275.9133 -0.7254 0.4684 1000.103 -21.7394 10.0049 Welch Two Sample t-test two.sided
NA

ANOVA: Kontrola či sa líši hustotu premávky podľa počasia

library(broom)
library(knitr)
library(kableExtra)

anova.result <- aov(traffic_density ~ weather_condition, data = udaje.road_type)

anova.table <- tidy(anova.result)

anova.table %>%
  kable(
    digits = 4,
    caption = "ANOVA – Vplyv počasia na hustotu premávky"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    position = "center"
  )
ANOVA – Vplyv počasia na hustotu premávky
term df sumsq meansq statistic p.value
weather_condition 2 50482.86 25241.43 1.5408 0.2147
Residuals 1000 16382533.96 16382.53 NA NA
NA
NA
NA

Linear Regression: Predikcia rýchlosti áut

library(broom)
library(knitr)
library(kableExtra)
library(dplyr)

model <- lm(avg_speed ~ traffic_density + num_lanes + weather_condition,
            data = udaje.road_type)

model.table <- tidy(model) %>%
  mutate(
    estimate  = round(estimate, 3),
    std.error = round(std.error, 3),
    statistic = round(statistic, 2),
    p.value   = round(p.value, 4)
  )

model.table %>%
  kable(
    caption = "Regresný model – faktory ovplyvňujúce priemernú rýchlosť"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    position = "center"
  )
Regresný model – faktory ovplyvňujúce priemernú rýchlosť
term estimate std.error statistic p.value
(Intercept) 75.699 3.289 23.01 0.0000
traffic_density -0.002 0.007 -0.25 0.7999
num_lanes -1.398 0.660 -2.12 0.0344
weather_conditionFoggy -1.297 2.321 -0.56 0.5763
weather_conditionRainy -1.835 2.299 -0.80 0.4249
NA
# install.packages(c("broom", "kableExtra", "dplyr", "stringr"))
library(broom)
library(dplyr)
library(kableExtra)
library(stringr)

# Your model (already fitted)
# model <- lm(ESG.INDEX ~ RETURN.ON.ASSETS + FIRM.SIZE + DEBT.TO.ASSET, data = udaje.2013)

coef.tbl <- tidy(model, conf.int = TRUE) %>%
  mutate(
    term = recode(term,
      "(Intercept)" = "Intercept",
      "traffic_density" = "Traffic Density",
      "num_lanes" = "Number of Lanes",
      "weather_conditionRain" = "Weather: Rain",
      "weather_conditionFoggy" = "Weather: Foggy"
    ),
    stars = case_when(
      p.value < 0.001 ~ "***",
      p.value < 0.01  ~ "**",
      p.value < 0.05  ~ "*",
      p.value < 0.1   ~ "·",
      TRUE            ~ ""
    )
  ) %>%
  transmute(
    Term = term,
    Estimate = estimate,
    `Std. Error` = std.error,
    `t value` = statistic,
    `p value` = p.value,
    `95% CI` = str_c("[", round(conf.low, 3), ", ", round(conf.high, 3), "]"),
    Sig = stars
  )

coef.tbl %>%
  kable(
    digits = 3,
    caption = "OLS Regression Coefficients (avg_speed ~ traffic_density + num_lanes + weather_condition)"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  footnote(
    general = "Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.",
    threeparttable = TRUE
  )
OLS Regression Coefficients (avg_speed ~ traffic_density + num_lanes + weather_condition)
Term Estimate Std. Error t value p value 95% CI Sig
Intercept 75.699 3.289 23.013 0.000 [69.244, 82.154] ***
Traffic Density -0.002 0.007 -0.254 0.800 [-0.016, 0.013]
Number of Lanes -1.398 0.660 -2.118 0.034 [-2.693, -0.103] *
Weather: Foggy -1.297 2.321 -0.559 0.576 [-5.852, 3.257]
weather_conditionRainy -1.835 2.299 -0.798 0.425 [-6.346, 2.676]
Note:
Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.
fit.tbl <- glance(model) %>%
  transmute(
    `R-squared`      = r.squared,
    `Adj. R-squared` = adj.r.squared,
    `F-statistic`    = statistic,
    `F p-value`      = p.value,
    `AIC`            = AIC,
    `BIC`            = BIC,
    `Num. obs.`      = nobs
  )

# 4️⃣ Vykresli tabuľku s popisom
fit.tbl %>%
  kable(
    digits = 3,
    caption = "Model Fit Statistics (avg_speed ~ traffic_density + num_lanes + weather_condition)"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("condensed"))
Model Fit Statistics (avg_speed ~ traffic_density + num_lanes + weather_condition)
R-squared Adj. R-squared F-statistic F p-value AIC BIC Num. obs.
0.005 0.001 1.29 0.272 9659.519 9688.983 1003
NA

Info zdroje pre ďalšie štúdium

R Project

Posit

Community Resources

