knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)

Spracované a inšpirované Notebookom Jason Locklin: Introduction to R for Education Data Analysis and Visualization

Práca s údajmi

Tradičná práca s databázou

Pre prácu s údajmi (databázou) používame najčastejšie dátový typ .data.frame.. Je to tabuľka, ktorá pozostáva zo stĺpcov rozličných typov. Jeden riadok pritom predstavuje jeden záznam databázy.

Príklad

Majme údaje o žiakoch, ktoré predstavujú tri premenné - Meno, Vek a Body:

# Working with data frames

  Zviera = c("Medveď", "Tiger", "Aligátor")
  Výška = c(250, 270, 350)
  Váha = c(250, 200, 380)

Tieto tri premenné nie sú zatiaľ nijako prepojené, predstavujú izolované stĺpce tabuľky. Do tabuľky ich spojíme nasledovne

udaje <- data.frame(Zviera,Výška,Váha)
print(udaje)

Vysvetlenie: DataFrame má tri stĺpce: Zviera, Výšku a Váhu. Niektoré operácie s údajmi organizovanými v .data.frame. sú uvedené nasledovne

print(udaje$Výška)                 # takto adresujeme jednotlivé premenné v data.frame
[1] 250 270 350
print(mean(udaje$Výška))           # priemernu výšku
[1] 290
print(udaje[Zviera=="Tiger",])     # adresovanie celého riadku
print(udaje[3,])                 # ina moznost adresovania celeho riadku
print(udaje[,2:3])               # vypisanie druheho a tretieho stlpca tabulky
print(udaje[1,1])                # vypisanie jednej bunky tabulky
[1] "Medveď"
summary(udaje)                   # zakladna deskriptivna statistika celej tabulky
    Zviera              Výška          Váha      
 Length:3           Min.   :250   Min.   :200.0  
 Class :character   1st Qu.:260   1st Qu.:225.0  
 Mode  :character   Median :270   Median :250.0  
                    Mean   :290   Mean   :276.7  
                    3rd Qu.:310   3rd Qu.:315.0  
                    Max.   :350   Max.   :380.0  

Ak chceme pridať k tabuľke dodatočný stĺpec, potom to robíme nasledovne

Mäsožravec <- c(TRUE,TRUE,TRUE)
udaje <- cbind(udaje,Mäsožravec)
print(udaje)

Ak chceme pridať riadok, potom

# New record (must match column order/types)
novy.riadok <- data.frame(Zviera = "Delfín", Výška = 300, Váha = 220, Mäsožravec = TRUE)

novy.riadok <- data.frame(Zviera = "Žirafa", Výška = 500, Váha = 1200, Mäsožravec = FALSE)

novy.riadok <- data.frame(Zviera = "Krava", Výška = 150, Váha = 700, Mäsožravec = FALSE)

novy.riadok <- data.frame(Zviera = "Slon", Výška = 300, Váha = 6000, Mäsožravec = FALSE)


# Append
udaje <- rbind(udaje, novy.riadok)
print(udaje)

Tabuľky v prostredí kableextra

library(knitr)
library(kableExtra)
kable(
  udaje,
#  format,
digits = 2,
#  row.names = NA,
#  col.names = NA,
  align=c("l","c","l","r"),
  caption = "ZOO"
#  label = NULL,
#  format.args = list(),
#  escape = TRUE,
 # ...
) %>%
      kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center")
ZOO
Zviera Výška Váha Mäsožravec
Medveď 250 250 TRUE
Tiger 270 200 TRUE
Aligátor 350 380 TRUE
Delfín 300 220 TRUE
Žirafa 500 1200 FALSE
Krava 150 700 FALSE
Slon 300 6000 FALSE
NA
NA
NA
NA
NA

Tidyverse - moderná práca s údajmi

Tidyverse je súbor knižníc, ktoré majú zjednodušiť prácu s údajmi. Majú jednotný komunikačný štandard, vzájomne sa doplňujú.

# Load tidyverse
library(tidyverse)

dplyr - pre manipuláciu s údajmi

.dplyr. poskytuje základné možnosti manipulácie s údajmi, ako napr.:

  1. filter(): vyberá riadky

  2. select(): vyberá stĺpce

  3. mutate(): vytvára nové stĺpce tabuľky

  4. arrange(): triedi riadky

  5. summarise(): sumarizuje

V nasledovnej ukážke využijeme tzv. .pipes. %>% alebo %<% umožňuje posielať výsledky z jednej funkcie priamo do volanie nasledovnej funkcie. To umožňuje ľahšiu čitateľnosť kódov, konvencia sa ujala a má široké použitie.

Výber a triedenie

# výber a následné triedenie
udaje %>%
  filter(Váha > 180) %>%     # vybera zaznamy s váhou väčšou ako 180 kg
  arrange(desc(Váha)) %>%     # vysledny subor triedi zostupne podla premennej Váha
kable %>%
    kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Zviera Výška Váha Mäsožravec
Slon 300 6000 FALSE
Žirafa 500 1200 FALSE
Krava 150 700 FALSE
Aligátor 350 380 TRUE
Medveď 250 250 TRUE
Delfín 300 220 TRUE
Tiger 270 200 TRUE

Zoskupenie a sumarizácia

# Zoskupí and sumarizuje
udaje %>%
  group_by(Mäsožravec) %>%      # zoskupi zaznamy podla toho či je mäsožravec a vypocita za kazdu skupinu jej priemer Váhy
  summarise(                # a taktiez spocita pocetnosti oboch skupin
    Priem.Váha = mean(Váha),
    count = n()
  ) %>%
 kable(
    caption = "Počet Zvierat v ZOO, ktoré sú Mäsožravé a ich priemerná váha ",
    col.names = c("Mäsožravec", "Váha", "Počet"),
    align = "c"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Počet Zvierat v ZOO, ktoré sú Mäsožravé a ich priemerná váha
Mäsožravec Váha Počet
FALSE 2633.333 3
TRUE 262.500 4

Vytváranie novej premennej

# Vytváranie novej premennej
udaje %>%
  mutate(
    Inteligencia = case_when(     # vytvara novu premennu Inteligencia podla nasledovnej relacnej schemy, aby sme zapísali, ktoré zviera je inteligentnejšie od toho druhého 
     Zviera == "Delfín" ~ "A",       # veľmi inteligentné
      Zviera == "Slon" ~ "A",         # veľmi inteligentné
      Zviera == "Medveď" ~ "B",       # nadpriemerná inteligencia
      Zviera == "Tiger" ~ "B",        # nadpriemerná inteligencia
      Zviera == "Žirafa" ~ "C",       # priemerná inteligencia
      Zviera == "Krava" ~ "C",        # priemerná inteligencia
      Zviera == "Aligátor" ~ "D",     # nízka inteligencia
      TRUE ~ "Neznáme"
    ),
  
  ) %>% 
  kable %>%
   kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  ) 
Zviera Výška Váha Mäsožravec Inteligencia
Medveď 250 250 TRUE B
Tiger 270 200 TRUE B
Aligátor 350 380 TRUE D
Delfín 300 220 TRUE A
Žirafa 500 1200 FALSE C
Krava 150 700 FALSE C
Slon 300 6000 FALSE A

Import údajov z otv. databáz

  1. Mendeley Data Tuto sa dostaneme z Mendeley Data, kde si údaje viete voľne stiahnúť. Údaje sa vzťahujú k už publikovaným článkom vo vydavateľstve Elsevier. Výber sa dá urobiť jednoducho zadaním kľúčových slov.
  2. Kaggle Data Tuto sa dostaneme z Kaggle Datasets, kde si údaje viete voľne stiahnúť. Údaje sa vzťahujú k projektom podporovaným Kaggle. Výber sa dá urobiť jednoducho zadaním kľúčových slov.
  3. Databázy knižníc R - .library(datasets). alebo .library(wooldridge). ale aj iné - stačí si dať príkaz data()

Import údajov z .csv alebo .xls

Ja som si zvolil údaje z [Abosede Tiamiyu: Environmental, Social, and Governance Reporting Evidencing Firm Performance in Emerging Economy]{https://data.mendeley.com/datasets/7k8pjhsrwb/1}. Na stránke sa nachádza súbor .Dataset ESG and Firm Performance.xlsx., ktorý som si stiahol a exportoval do formátu csv. Ako oddeľovač položiek som si zvolil bodkočiarku (semicolon ;), vyžívam desatinnú bodku a nie čiarku a tiež textové premenné uvádzam apostrofmi “. V prvom riadku sa nachádzajú názvy stĺpcov, ktoré neskôr budú vystupovať ako premenné. Tie obsahujú medzery, čo je v zázve premennej neprípustné a nahradil som ich podtrhovátkom”.”.

Náhľad na xls databázu otvorenú v tabuľkovom procesore
Náhľad na xls databázu otvorenú v tabuľkovom procesore
Náhľad na csv databázu otvorenú v textovom procesore
Náhľad na csv databázu otvorenú v textovom procesore

Potom už stačí importovať údaje do .data.frame., a to nasledovne

library(readr)
udaje <- read_delim("test.csv", delim = NULL)
head(udaje)
                                    # nazvy premennych

Grafy

library(dplyr)

udaje.road_type <- udaje %>%
  filter(road_type == "Highway") %>%
  select(traffic_density, avg_speed, weather_condition, num_lanes, road_surface, lighting)

ggplot2 - knižnica pre grafy

Výber a následné triedenie Knižnica .ggplot2. je v súčasnosti najčastejšie používaná grafická knižnica, pričom predpripravené kódy k jednotlivým obrázkom si viete nájsť v R Graph Gallery. Tu si uvedieme jednoduchšie z nich.

Scatter plot

# Basic scatter plot
library(ggplot2)

ggplot(udaje.road_type, aes(x = traffic_density, y = avg_speed)) +
  geom_point(alpha = 0.4, color = "steelblue") +   # priehľadné modré body
  geom_smooth(method = "lm", color = "red", se = FALSE) +  # pridá červenú trendovú čiaru
  theme_minimal() +
  labs(
    title = "Vzťah medzi hustotou premávky a priemernou rýchlosťou",
    x = "Hustota premávky (vozidlá/km)",
    y = "Priemerná rýchlosť (km/h)"
  )

Boxplot

# Bar plot with grouping
library(ggplot2)

library(ggplot2)

ggplot(udaje.road_type, aes(x = weather_condition, y = avg_speed)) +
  geom_boxplot(fill = "lightblue", color = "red") +
  labs(
    title = "Rýchlosť podľa počasia",
    x = "Počasie",
    y = "Priemerná rýchlosť (km/h)"
  ) +
  theme_minimal()

Základné štatistiky.

knitr - tabuľka

library(dplyr)
library(knitr)
density.stats <- udaje.road_type %>%
  group_by(weather_condition) %>%               # segment = počasie
  summarise(
     pozorovania = n(),                            # počet pozorovaní
    priemer  = mean(traffic_density, na.rm = TRUE),  # priemer
    minimum   = min(traffic_density, na.rm = TRUE),   # minimum
    maximum   = max(traffic_density, na.rm = TRUE),   # maximum
    .groups = "drop"
  )

kable(density.stats, digits = 2, caption = "Štatistiky hustoty premávky podľa počasia")
Štatistiky hustoty premávky podľa počasia
weather_condition pozorovania priemer minimum maximum
Clear 327 275.32 52.19 496.30
Foggy 331 280.55 50.32 497.28
Rainy 345 263.70 53.13 499.51

alebo krajšie tabuľky s pomocou .kableExtra.:

library(dplyr)
library(knitr)
library(kableExtra)

# Summarise basic statistics for traffic data
traffic.stats <- udaje.road_type %>%
  group_by(weather_condition) %>%   # ← môžeš zmeniť napr. na road_type alebo lighting
  summarise(
    n     = n(),                                  # počet pozorovaní
    mean  = mean(traffic_density, na.rm = TRUE),  # priemer
    min   = min(traffic_density, na.rm = TRUE),   # minimum
    max   = max(traffic_density, na.rm = TRUE),   # maximum
    .groups = "drop"
  )

# Create styled table
traffic.stats %>%
  kable(
    digits = 2,
    caption = "Základné štatistiky hustoty premávky podľa počasia"
  ) %>%
  kable_styling(
    full_width = FALSE,
    bootstrap_options = c("striped", "hover", "condensed")
  ) %>%
  column_spec(1, bold = TRUE) %>%                             # zvýrazni názvy kategórií
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%        # štýl hlavičky
  add_header_above(c(" " = 1, "Štatistiky hustoty premávky" = 4))  # nadpis nad tabuľkou
Základné štatistiky hustoty premávky podľa počasia
Štatistiky hustoty premávky
weather_condition n mean min max
Clear 327 275.32 52.19 496.30
Foggy 331 280.55 50.32 497.28
Rainy 345 263.70 53.13 499.51

t-test: Porovnanie hustoty premávky medzi dňom a nocou

t.test.result <- t.test(
  udaje.road_type$traffic_density[udaje.road_type$lighting == "Daylight"],
  udaje.road_type$traffic_density[udaje.road_type$lighting == "Night"]
)

print(t.test.result)

    Welch Two Sample t-test

data:  udaje.road_type$traffic_density[udaje.road_type$lighting == "Daylight"] and udaje.road_type$traffic_density[udaje.road_type$lighting == "Night"]
t = -0.72539, df = 1000.1, p-value = 0.4684
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -21.73942  10.00490
sample estimates:
mean of x mean of y 
 270.0460  275.9133 

ANOVA: Kontrola či sa líši hustotu premávky podľa počasia

anova.result <- aov(traffic_density ~ weather_condition, data = udaje.road_type)
summary(anova.result)
                    Df   Sum Sq Mean Sq F value Pr(>F)
weather_condition    2    50483   25241   1.541  0.215
Residuals         1000 16382534   16383               

Linear Regression: Predikcia rýchlosti áut

model <- lm(avg_speed ~ traffic_density + num_lanes + weather_condition, data = udaje.road_type)
summary(model)

Call:
lm(formula = avg_speed ~ traffic_density + num_lanes + weather_condition, 
    data = udaje.road_type)

Residuals:
    Min      1Q  Median      3Q     Max 
-53.564 -27.164  -0.229  26.633  53.085 

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)            75.698975   3.289408  23.013   <2e-16 ***
traffic_density        -0.001863   0.007351  -0.254   0.7999    
num_lanes              -1.397612   0.659876  -2.118   0.0344 *  
weather_conditionFoggy -1.297266   2.320887  -0.559   0.5763    
weather_conditionRainy -1.834966   2.298663  -0.798   0.4249    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 29.75 on 998 degrees of freedom
Multiple R-squared:  0.005145,  Adjusted R-squared:  0.001157 
F-statistic:  1.29 on 4 and 998 DF,  p-value: 0.272
# install.packages(c("broom", "kableExtra", "dplyr", "stringr"))
library(broom)
library(dplyr)
library(kableExtra)
library(stringr)

# Your model (already fitted)
# model <- lm(ESG.INDEX ~ RETURN.ON.ASSETS + FIRM.SIZE + DEBT.TO.ASSET, data = udaje.2013)

coef.tbl <- tidy(model, conf.int = TRUE) %>%
  mutate(
    term = recode(term,
      "(Intercept)" = "Intercept",
      "traffic_density" = "Traffic Density",
      "num_lanes" = "Number of Lanes",
      "weather_conditionRain" = "Weather: Rain",
      "weather_conditionFoggy" = "Weather: Foggy"
    ),
    stars = case_when(
      p.value < 0.001 ~ "***",
      p.value < 0.01  ~ "**",
      p.value < 0.05  ~ "*",
      p.value < 0.1   ~ "·",
      TRUE            ~ ""
    )
  ) %>%
  transmute(
    Term = term,
    Estimate = estimate,
    `Std. Error` = std.error,
    `t value` = statistic,
    `p value` = p.value,
    `95% CI` = str_c("[", round(conf.low, 3), ", ", round(conf.high, 3), "]"),
    Sig = stars
  )

coef.tbl %>%
  kable(
    digits = 3,
    caption = "OLS Regression Coefficients (avg_speed ~ traffic_density + num_lanes + weather_condition)"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  footnote(
    general = "Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.",
    threeparttable = TRUE
  )
OLS Regression Coefficients (avg_speed ~ traffic_density + num_lanes + weather_condition)
Term Estimate Std. Error t value p value 95% CI Sig
Intercept 75.699 3.289 23.013 0.000 [69.244, 82.154] ***
Traffic Density -0.002 0.007 -0.254 0.800 [-0.016, 0.013]
Number of Lanes -1.398 0.660 -2.118 0.034 [-2.693, -0.103] *
Weather: Foggy -1.297 2.321 -0.559 0.576 [-5.852, 3.257]
weather_conditionRainy -1.835 2.299 -0.798 0.425 [-6.346, 2.676]
Note:
Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.
fit.tbl <- glance(model) %>%
  transmute(
    `R-squared`      = r.squared,
    `Adj. R-squared` = adj.r.squared,
    `F-statistic`    = statistic,
    `F p-value`      = p.value,
    `AIC`            = AIC,
    `BIC`            = BIC,
    `Num. obs.`      = nobs
  )

# 4️⃣ Vykresli tabuľku s popisom
fit.tbl %>%
  kable(
    digits = 3,
    caption = "Model Fit Statistics (avg_speed ~ traffic_density + num_lanes + weather_condition)"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("condensed"))
Model Fit Statistics (avg_speed ~ traffic_density + num_lanes + weather_condition)
R-squared Adj. R-squared F-statistic F p-value AIC BIC Num. obs.
0.005 0.001 1.29 0.272 9659.519 9688.983 1003
NA

Info zdroje pre ďalšie štúdium

R Project

Posit

Community Resources

