knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)

Spracované a inšpirované Notebookom Jason Locklin: Introduction to R for Education Data Analysis and Visualization

Práca s údajmi

Práca s údajmi o zamestnancoch

Pre prácu s údajmi (databázou) používame najčastejšie dátový typ .data.frame.. Je to tabuľka, ktorá pozostáva zo stĺpcov rozličných typov. Jeden riadok pritom predstavuje jeden záznam databázy.

Príklad

Ukážeme si prácu s dátovým typom data.frame, ktorý predstavuje tabuľku zamestnancov:

# Vytvorenie troch vektorov – Meno, Vek, Mzda (v €)
Meno = c("Peter", "Lucia", "Andrej", "Michaela")
Vek = c(28, 35, 41, 25)
Mzda = c(1450, 1980, 2500, 1320)
Deti = c(0, 1, 2, 0)

Tieto premenné spojíme do jednej tabuľky:

udaje <- data.frame(Meno, Vek, Mzda, Deti)
print(udaje)

Práca s jednotlivými stĺpcami

print(udaje$Mzda)                 # vypíše stĺpec mzdy
[1] 1450 1980 2500 1320 2230
print(mean(udaje$Mzda))           # priemerná mzda
[1] 1896
print(udaje[Meno=="Lucia",])      # záznam Lucie
print(udaje[3,])                  # treti riadok
print(udaje[,2:3])                # vek a mzda
print(udaje[1,1])                 # prvá bunka tabuľky
[1] "Peter"
summary(udaje)                    # základné štatistiky
     Meno                Vek            Mzda           Deti     PracujeZDomu   
 Length:5           Min.   :25.0   Min.   :1320   Min.   :0.0   Mode :logical  
 Class :character   1st Qu.:28.0   1st Qu.:1450   1st Qu.:0.0   FALSE:2        
 Mode  :character   Median :33.0   Median :1980   Median :1.0   TRUE :3        
                    Mean   :32.4   Mean   :1896   Mean   :1.2                  
                    3rd Qu.:35.0   3rd Qu.:2230   3rd Qu.:2.0                  
                    Max.   :41.0   Max.   :2500   Max.   :3.0                  
  Oddelenie        
 Length:5          
 Class :character  
 Mode  :character  
                   
                   
                   

Pridanie nového stĺpca

# Premenná informuje, či zamestnanec pracuje z domu
PracujeZDomu <- c(TRUE, FALSE, TRUE, TRUE)
udaje <- cbind(udaje, PracujeZDomu)
print(udaje)

Pridanie nového riadku

novy.riadok <- data.frame(Meno = "Tomaš", Vek = 33, Mzda = 2230 ,Deti = 3, PracujeZDomu = FALSE)

udaje <- rbind(udaje, novy.riadok)
print(udaje)

Tabuľky v prostredí kableextra

library(knitr)
library(kableExtra)
kable(
  udaje,
#  format,
digits = 2,
#  row.names = NA,
#  col.names = NA,
  align=c("l","c","c","r","r"),
  caption = "Zoznam zamestnancov a ich mzdy"
#  label = NULL,
#  format.args = list(),
#  escape = TRUE,
 # ...
) %>%
      kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center")
Zoznam zamestnancov a ich mzdy
Meno Vek Mzda Deti PracujeZDomu
Peter 28 1450 0 TRUE
Lucia 35 1980 1 FALSE
Andrej 41 2500 2 TRUE
Michaela 25 1320 0 TRUE
Tomaš 33 2230 3 FALSE
NA
NA
NA
NA
NA

Moderná práca s údajmi – tidyverse

Tidyverse je súbor knižníc, ktoré majú zjednodušiť prácu s údajmi. Majú jednotný komunikačný štandard, vzájomne sa doplňujú.

# Load tidyverse
library(tidyverse)

dplyr - Výber a triedenie údajov

.dplyr. poskytuje základné možnosti manipulácie s údajmi, ako napr.:

  1. filter(): vyberá riadky

  2. select(): vyberá stĺpce

  3. mutate(): vytvára nové stĺpce tabuľky

  4. arrange(): triedi riadky

  5. summarise(): sumarizuje

V nasledovnej ukážke využijeme tzv. .pipes. %>% alebo %<% umožňuje posielať výsledky z jednej funkcie priamo do volanie nasledovnej funkcie. To umožňuje ľahšiu čitateľnosť kódov, konvencia sa ujala a má široké použitie.

  udaje %>%
  filter(Mzda > 1500) %>%
  arrange(desc(Mzda)) %>%
  kable(caption = "Zamestnanci s mzdou nad 1500 €") %>%
  kable_styling(full_width = FALSE)
Zamestnanci s mzdou nad 1500 €
Meno Vek Mzda Deti PracujeZDomu
Andrej 41 2500 2 TRUE
Tomaš 33 2230 3 FALSE
Lucia 35 1980 1 FALSE

Zoskupenie a sumarizácia

Oddelenie <- c("IT","Marketing","IT","HR","Marketing")
udaje <- cbind(udaje, Oddelenie)

udaje %>%
  group_by(Oddelenie) %>%
  summarise(
    PriemernaMzda = mean(Mzda),
    Pocet = n()
  ) %>%
  kable(caption = "Priemerná mzda podľa oddelenia") %>%
  kable_styling(full_width = FALSE)
Priemerná mzda podľa oddelenia
Oddelenie PriemernaMzda Pocet
HR 1320 1
IT 1975 2
Marketing 2105 2

Vytváranie novej premennej

udaje %>%
  mutate(
    SkupinaMzdy = case_when(
      Mzda >= 2200 ~ "Vysoká",
      Mzda >= 1600 ~ "Stredná",
      TRUE ~ "Nízka"
    ),
    RokyPo30 = if_else(Vek > 30, Vek - 30, 0)
  ) %>%
  kable(caption = "Zamestnanci s kategóriami mzdy a veku") %>%
  kable_styling(full_width = FALSE)
Zamestnanci s kategóriami mzdy a veku
Meno Vek Mzda Deti PracujeZDomu Oddelenie SkupinaMzdy RokyPo30
Peter 28 1450 0 TRUE IT Nízka 0
Lucia 35 1980 1 FALSE Marketing Stredná 5
Andrej 41 2500 2 TRUE IT Vysoká 11
Michaela 25 1320 0 TRUE HR Nízka 0
Tomaš 33 2230 3 FALSE Marketing Vysoká 3

Import údajov z otv. databáz

  1. Mendeley Data Tuto sa dostaneme z Mendeley Data, kde si údaje viete voľne stiahnúť. Údaje sa vzťahujú k už publikovaným článkom vo vydavateľstve Elsevier. Výber sa dá urobiť jednoducho zadaním kľúčových slov.
  2. Kaggle Data Tuto sa dostaneme z Kaggle Datasets, kde si údaje viete voľne stiahnúť. Údaje sa vzťahujú k projektom podporovaným Kaggle. Výber sa dá urobiť jednoducho zadaním kľúčových slov.
  3. Databázy knižníc R - .library(datasets). alebo .library(wooldridge). ale aj iné - stačí si dať príkaz data()
library(datasets)
# datasets available in the 'datasets' package - nasledovne kody za mna urobil Chat GPT
ds <- as.data.frame(utils::data(package = "datasets")$results)[, c("Item","Title")]
knitr::kable(head(ds, 20), col.names = c("Dataset", "Title"))   # prvych 20 databaz
Dataset Title
AirPassengers Monthly Airline Passenger Numbers 1949-1960
BJsales Sales Data with Leading Indicator
BJsales.lead (BJsales) Sales Data with Leading Indicator
BOD Biochemical Oxygen Demand
CO2 Carbon Dioxide Uptake in Grass Plants
ChickWeight Weight versus age of chicks on different diets
DNase Elisa assay of DNase
EuStockMarkets Daily Closing Prices of Major European Stock Indices, 1991-1998
Formaldehyde Determination of Formaldehyde
HairEyeColor Hair and Eye Color of Statistics Students
Harman23.cor Harman Example 2.3
Harman74.cor Harman Example 7.4
Indometh Pharmacokinetics of Indomethacin
InsectSprays Effectiveness of Insect Sprays
JohnsonJohnson Quarterly Earnings per Johnson & Johnson Share
LakeHuron Level of Lake Huron 1875-1972
LifeCycleSavings Intercountry Life-Cycle Savings Data
Loblolly Growth of Loblolly Pine Trees
Nile Flow of the River Nile
Orange Growth of Orange Trees
# kniznica datasets obsahuje databazu nazvanu CO2. Mozeme sa na nu odvolavat nasledovne, ako napr. 
head(CO2)

Môžeme použiť aj databázu určenú pre ekobometriu - package Wooldridge

# install.packages("wooldridge")
library(wooldridge)
ds <- as.data.frame(utils::data(package = "wooldridge")$results)[, c("Item","Title")]
knitr::kable(head(ds, 20), col.names = c("Dataset", "Title")) %>%
    kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Dataset Title
admnrev admnrev
affairs affairs
airfare airfare
alcohol alcohol
apple apple
approval approval
athlet1 athlet1
athlet2 athlet2
attend attend
audit audit
barium barium
beauty beauty
benefits benefits
beveridge beveridge
big9salary big9salary
bwght bwght
bwght2 bwght2
campus campus
card card
catholic catholic

Import údajov z .csv alebo .xls

Ja som si zvolila údaje z [Abosede Tiamiyu: Environmental, Social, and Governance Reporting Evidencing Firm Performance in Emerging Economy]{https://data.mendeley.com/datasets/7k8pjhsrwb/1}. Na stránke sa nachádza súbor .Dataset ESG and Firm Performance.xlsx., ktorý som si stiahol a exportoval do formátu csv. Ako oddeľovač položiek som si zvolil bodkočiarku (semicolon ;), vyžívam desatinnú bodku a nie čiarku a tiež textové premenné uvádzam apostrofmi “. V prvom riadku sa nachádzajú názvy stĺpcov, ktoré neskôr budú vystupovať ako premenné. Tie obsahujú medzery, čo je v zázve premennej neprípustné a nahradil som ich podtrhovátkom”.”.

Potom už stačí importovať údaje do .data.frame., a to nasledovne

udaje <- read.csv2("udaje/Dataset ESG and Firm Performance.csv",header=TRUE,sep=";",dec=".")
head(udaje)                                             # niekolko prvych riadkov
colnames(udaje)                                         # nazvy premennych

Grafy

ggplot2 - knižnica pre grafy

Výber a následné triedenie

library(ggplot2)

ggplot(udaje, aes(x = Oddelenie, y = Mzda, fill = Oddelenie)) +
  geom_boxplot() +
  theme_minimal() +
  labs(title = "Rozdelenie miezd podľa oddelenia",
       x = "Oddelenie",
       y = "Mzda (€)")

Knižnica .ggplot2. je v súčasnosti najčastejšie používaná grafická knižnica, pričom predpripravené kódy k jednotlivým obrázkom si viete nájsť v R Graph Gallery. Tu si uvedieme jednoduchšie z nich.

Scatter plot – Vek vs. Mzda

ggplot(udaje, aes(x = Vek, y = Mzda, color = Oddelenie)) +
  geom_point(size = 3) +
  theme_minimal() +
  labs(title = "Vzťah medzi vekom a mzdou",
       x = "Vek zamestnanca",
       y = "Mzda (€)")

Základné štatistiky.

knitr - tabuľka

library(dplyr)
library(knitr)

# Summarise basic statistics
esg.stats <- udaje %>%
  filter(YEARS %in% 2013:2016) %>%
  group_by(YEARS) %>%
  summarise(
    n     = n(),
    mean  = mean(ESG.INDEX, na.rm = TRUE),
    sd    = sd(ESG.INDEX, na.rm = TRUE),
    min   = min(ESG.INDEX, na.rm = TRUE),
    q25   = quantile(ESG.INDEX, 0.25, na.rm = TRUE),
    median= median(ESG.INDEX, na.rm = TRUE),
    q75   = quantile(ESG.INDEX, 0.75, na.rm = TRUE),
    max   = max(ESG.INDEX, na.rm = TRUE),
    .groups = "drop"
  )

# Create knitr table
kable(esg.stats, digits = 2, caption = "Basic statistics of ESG Index (2013–2016)")

alebo krajšie tabuľky s pomocou .kableExtra.:

library(dplyr)
library(knitr)
library(kableExtra)

esg.stats <- udaje %>%
  group_by(Oddelenie) %>%
  summarise(
    n = n(),
    priemer = mean(Mzda),
    sd = sd(Mzda),
    min = min(Mzda),
    median = median(Mzda),
    max = max(Mzda),
    .groups = "drop"
  )

kable(esg.stats, digits = 2, caption = "Základné štatistiky miezd podľa oddelenia") %>%
  kable_styling(full_width = FALSE)
Základné štatistiky miezd podľa oddelenia
Oddelenie n priemer sd min median max
HR 1 1320 NA 1320 1320 1320
IT 2 1975 742.46 1450 1975 2500
Marketing 2 2105 176.78 1980 2105 2230

t-test: porovnanie IT vs Marketing

t.test(
  udaje$Mzda[udaje$Oddelenie == "IT"],
  udaje$Mzda[udaje$Oddelenie == "Marketing"]
)

    Welch Two Sample t-test

data:  udaje$Mzda[udaje$Oddelenie == "IT"] and udaje$Mzda[udaje$Oddelenie == "Marketing"]
t = -0.24089, df = 1.113, p-value = 0.8463
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -5542.164  5282.164
sample estimates:
mean of x mean of y 
     1975      2105 
print(t.test)
function (x, ...) 
UseMethod("t.test")
<bytecode: 0x6535c3809510>
<environment: namespace:stats>

Linear Regression: Predicting Math Scores

model <- lm(Mzda ~ Vek + PracujeZDomu, data = udaje)
summary(model)

Call:
lm(formula = Mzda ~ Vek + PracujeZDomu, data = udaje)

Residuals:
      1       2       3       4       5 
 -62.95 -198.11   36.57   26.39  198.11 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)  
(Intercept)       -380.86     595.07  -0.640   0.5877  
Vek                 73.11      16.97   4.308   0.0499 *
PracujeZDomuTRUE  -153.36     193.01  -0.795   0.5102  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 205.5 on 2 degrees of freedom
Multiple R-squared:  0.9167,    Adjusted R-squared:  0.8334 
F-statistic:    11 on 2 and 2 DF,  p-value: 0.08332
# install.packages(c("broom", "kableExtra", "dplyr", "stringr"))
library(broom)
library(dplyr)
library(kableExtra)
library(stringr)

# Your model (already fitted)
# model <- lm(ESG.INDEX ~ RETURN.ON.ASSETS + FIRM.SIZE + DEBT.TO.ASSET, data = udaje.2013)

coef.tbl <- tidy(model, conf.int = TRUE) %>%
  mutate(
    term = recode(term,
      "(Intercept)" = "Intercept",
      "RETURN.ON.ASSETS" = "Return on Assets",
      "FIRM.SIZE" = "Firm Size",
      "DEBT.TO.ASSET" = "Debt to Asset"
    ),
    stars = case_when(
      p.value < 0.001 ~ "***",
      p.value < 0.01  ~ "**",
      p.value < 0.05  ~ "*",
      p.value < 0.1   ~ "·",
      TRUE            ~ ""
    )
  ) %>%
  transmute(
    Term = term,
    Estimate = estimate,
    `Std. Error` = std.error,
    `t value` = statistic,
    `p value` = p.value,
    `95% CI` = str_c("[", round(conf.low, 3), ", ", round(conf.high, 3), "]"),
    Sig = stars
  )

coef.tbl %>%
  kable(
    digits = 3,
    caption = "OLS Regression Coefficients (ESG.INDEX ~ RETURN.ON.ASSETS + FIRM.SIZE + DEBT.TO.ASSET)"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  footnote(
    general = "Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.",
    threeparttable = TRUE
  )
OLS Regression Coefficients (ESG.INDEX ~ RETURN.ON.ASSETS + FIRM.SIZE + DEBT.TO.ASSET)
Term Estimate Std. Error t value p value 95% CI Sig
Intercept -380.864 595.071 -0.640 0.588 [-2941.249, 2179.522]
Vek 73.114 16.972 4.308 0.050 [0.089, 146.138] *
PracujeZDomuTRUE -153.364 193.014 -0.795 0.510 [-983.837, 677.11]
Note:
Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.
fit.tbl <- glance(model) %>%
  transmute(
    `R-squared` = r.squared,
    `Adj. R-squared` = adj.r.squared,
    `F-statistic` = statistic,
    `F p-value` = p.value,
    `AIC` = AIC,
    `BIC` = BIC,
    `Num. obs.` = nobs
  )

fit.tbl %>%
  kable(digits = 3, caption = "Model Fit Statistics") %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("condensed"))
Model Fit Statistics
R-squared Adj. R-squared F-statistic F p-value AIC BIC Num. obs.
0.917 0.833 11.002 0.083 70.864 69.302 5

Info zdroje pre ďalšie štúdium

R Project

Posit

Community Resources

