Testovanie hypotéz

Úvod a popis databázy

V tejto časti sa testujú štatistické hypotézy pomocou údajov z databázy, ktorá obsahuje ekonomické ukazovatele krajín v rokoch 1991 – 2022. Použité premenné zahŕňajú hrubý domáci produkt (HDP) v USD, mieru nezamestnanosti (%) a štruktúru zamestnanosti v troch sektoroch – poľnohospodárstve, priemysle a službách.

install.packages("knitr")
install.packages("dplyr")
install.packages("ggplot2")
# Import vlastného CSV súboru

udaje <- read.csv("Employment_Unemployment_GDP_data.csv",
header = TRUE,
sep = ",",
dec = " ",
stringsAsFactors = FALSE)

# Zobrazenie prvých riadkov a názvov stĺpcov

head(udaje)
colnames(udaje)
[1] "Country.Name"                   "Year"                          
[3] "Employment.Sector..Agriculture" "Employment.Sector..Industry"   
[5] "Employment.Sector..Services"    "Unemployment.Rate"             
[7] "GDP..in.USD."                  
library(dplyr)

# 🧹 Vyčistenie a pretypovanie všetkých číselných stĺpcov
udaje <- udaje %>%
  mutate(across(
    c(GDP..in.USD., Unemployment.Rate,
      Employment.Sector..Agriculture,
      Employment.Sector..Industry,
      Employment.Sector..Services),
    ~ as.numeric(gsub(",", ".", gsub("\\s+", "", .x)))
  ))

Graf 1: Vzťah medzi HDP a mierou nezamestnanosti (2018)

Graf zobrazuje vzťah medzi hrubým domácim produktom (HDP) v USD a mierou nezamestnanosti pre jednotlivé krajiny v roku 2018. Každý bod predstavuje jednu krajinu. Osi X predstavuje HDP, ktoré vyjadruje veľkosť ekonomiky, a os Y mieru nezamestnanosti v %.

Z grafu môžeme vidieť, že krajiny s vyšším HDP majú nižšiu mieru nezamestnanosti, aj keď vzťah nie je veľmi silný. Body v pravej časti grafu predstavujú “bohatšie krajiny” sa nachádzajú nižšie na osi Y, čo znamená mierne negatívnu závislosť medzi ekonomickým výkonom a nezamestnanosťou. Tento vzťah zároveň potvrdzuje trendová čiara, ktorá mierne klesá, čo znamená, že s rastom HDP, nezamestnanosť klesá.

library(dplyr)

udaje.2018 <- udaje %>%
  filter(Year== 2018) %>%
  select(Country.Name, GDP..in.USD., Unemployment.Rate,
Employment.Sector..Agriculture, Employment.Sector..Industry, Employment.Sector..Services)
library(dplyr)

cols_to_num <- c(
  "GDP..in.USD.",
  "Unemployment.Rate",
  "Employment.Sector..Agriculture",
  "Employment.Sector..Industry",
  "Employment.Sector..Services"
)

udaje.2018 <- udaje.2018 %>%
  mutate(across(all_of(cols_to_num), ~ {
    x <- gsub("\\s+", "", .x)        # odstráni medzery
    x <- gsub(",", ".", x)           # nahradí európske desatinné čiarky
    as.numeric(x)                    # prevedie na číslo
  })) %>%
  filter(!is.na(GDP..in.USD.), !is.na(Unemployment.Rate))
library(ggplot2)
library(scales)

ggplot(udaje.2018, aes(x = GDP..in.USD., y = Unemployment.Rate)) +
  geom_point(color = "pink", size = 4, alpha = 0.9) +   # väčšie a jemne priesvitné body
  geom_smooth(method = "lm", se = TRUE, color = "darkblue") +      # regresná priamka
  scale_x_log10(
    labels = label_number(scale_cut = cut_si(""))                 # nové formátovanie čísel (tisíce, milióny, miliardy)
  ) +
  theme_minimal(base_size = 14) +
  labs(
    title = "Vzťah medzi HDP a mierou nezamestnanosti (2018)",
    
    x = "HDP (v USD, logaritmická os)",
    y = "Miera nezamestnanosti (%)"
  )

Graf 2: Vzťah medzi podielom poľnohospodárstva a priemyslu (2013)

Graf znázorňuje vzťah medzi podielom zamestnanosti v poľnohospodárstve a v priemysle v roku 2013. Každý bod predstavuje jednu krajinu. Na osi X je podiel pracovníkov v poľnohospodárstve (%) a na osi Y podiel pracovníkov v priemysle (%).

Z grafu možno vyčítať, že medzi oboma sektormi existuje mierne negatívna závislosť. Krajiny s vyšším podielom poľnohospodárstva majú nižší podiel priemyslu. To poukazuje na odlišnú ekonomickú štruktúru menej rozvinutých krajín, ktoré sú viac zamerané na agrárnu výrobu, zatiaľ čo rozvinutejšie štáty majú väčší podiel priemyselnej výroby.

Trendová čiara tento vzťah potvrdzuje.

ggplot(udaje.2013, aes(x = Employment.Sector..Agriculture, y = Employment.Sector..Industry)) +
  geom_point(color = "darkorange", size = 3, alpha = 0.7) +
  geom_smooth(method = "lm", se = FALSE, color = "brown") +
  theme_minimal(base_size = 14) +
  labs(
    title = "Vzťah medzi podielom poľnohospodárstva a priemyslu (2013)",
    x = "Podiel poľnohospodárstva (%)",
    y = "Podiel priemyslu (%)"
  )

NA
NA

Graf 3: Vývoj miery nezamestnanosti podľa rokov (1991–2022)

Graf znázorňuje rozdelenie miery nezamestnanosti medzi krajinami v rokoch 1991- 2022. (roky sú označené poslednými 2 číslicami) Každý box predstavuje rozptyl hodnôt nezamestnanosti v danom roku, čiara v strede boxu znázorňuje medián, horný a dolný okraj ukazujú rozsah hodnôt a bodky predstavujú krajiny s extrémne vysokou nezamestnanosťou.

Z grafu vidíme, že v 90. rokoch boli medzi krajinami väčšie rozdiely. Po roku 2008, v období hospodárskej krízy, sa nezamestnanosť v niektorých krajinách výrazne zvýšila. Po roku 2010 sa situácia stabilizovala a nezamestnanosť v priemere klesala a rozdiely medzi krajinami sa zmenšovali, čiže sa jedná o zlepšenie situácie na trhu práce.

library(ggplot2)
library(dplyr)

# vyčistenie čísel 
udaje <- udaje %>%
  mutate(Unemployment.Rate = as.numeric(gsub(",", ".", Unemployment.Rate)))
rok_labels <- setNames(
  substr(unique(udaje$Year), 3, 4),   # vyber len 3. a 4. znak,
  unique(udaje$Year)
)

# GRAF
ggplot(udaje, aes(x = factor(Year), y = Unemployment.Rate)) +
  geom_boxplot(fill = "lightblue", color = "darkblue", alpha = 0.7, outlier.alpha = 0.25) +
  scale_x_discrete(labels = rok_labels) +

  theme_minimal(base_size = 14) +
  theme(axis.text.x = element_text(angle = 0, vjust = 0.5, hjust = 0.5)) +
  labs(
    title = "Rozdelenie miery nezamestnanosti podľa rokov",
    subtitle = "Roky sú označené poslednými dvoma číslicami ( 91 = 1991)",
    x = "Rok",
    y = "Miera nezamestnanosti (%)"
  )

NA
NA
NA
install.packages("kableExtra")
library(dplyr)
library(knitr)
library(kableExtra)

# Summarise basic statistics
GDP.stats <- udaje %>%
  filter(Year %in% 2013:2016) %>%
  group_by(Year) %>%
  summarise(
    n      = n(),
    mean   = mean(GDP..in.USD., na.rm = TRUE),
    sd     = sd(GDP..in.USD., na.rm = TRUE),
    min    = min(GDP..in.USD., na.rm = TRUE),
    q25    = quantile(GDP..in.USD., 0.25, na.rm = TRUE),
    median = median(GDP..in.USD., na.rm = TRUE),
    q75    = quantile(GDP..in.USD., 0.75, na.rm = TRUE),
    max    = max(GDP..in.USD., na.rm = TRUE),
    .groups = "drop"
  )
library(dplyr)
library(knitr)
library(kableExtra)

GDP.stats %>%
  mutate(across(-c(Year, n), ~ . / 1e9)) %>%                    # prepočet na miliardy
  kbl(
    digits = 1,
    caption = "Basic statistics of GDP (billion USD, 2013–2016)",
    col.names = c("Year","n","Mean","SD","Min","Q25","Median","Q75","Max")
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover","condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  add_header_above(c(" " = 2, "GDP (billions USD)" = 7))
Basic statistics of GDP (billion USD, 2013–2016)
GDP (billions USD)
Year n Mean SD Min Q25 Median Q75 Max
2013 182 425.0 1565.3 0.3 12.0 41.6 236.1 16880.7
2014 182 436.8 1637.9 0.3 12.3 45.8 233.8 17608.1
2015 181 412.8 1677.1 0.3 11.4 41.3 195.1 18295.0
2016 180 421.9 1726.1 0.3 11.2 38.9 214.4 18804.9
NA
NA

Testovanie hypotéz

t-test: Porovnanie miery nezamestnanosti v rokoch 2010 a 2020

Výsledky t-testu ukazujú, že rozdiel medzi priemernou mierou nezamestnanosti v rokoch 2010 a 2020 nie je štatisticky významný (t = 0.08, p = 0.94).
Priemerná nezamestnanosť v roku 2010 bola 8.36 %, zatiaľ čo v roku 2020 8.31 %.

čo znamená, že nie je možné tvrdiť, že sa nezamestnanosť medzi rokmi 2010 a 2020 významne zmenila.

t.test.result <- t.test(
  udaje$Unemployment.Rate[udaje$Year == 2010],
  udaje$Unemployment.Rate[udaje$Year == 2020],
  alternative = "two.sided"
)

print(t.test.result)

    Welch Two Sample t-test

data:  udaje$Unemployment.Rate[udaje$Year == 2010] and udaje$Unemployment.Rate[udaje$Year == 2020]
t = 0.077014, df = 359.87, p-value = 0.9387
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.217566  1.316816
sample estimates:
mean of x mean of y 
 8.360536  8.310911 

ANOVA: Rozdiely medzi rokmi 2015–2021

Výsledky ANOVA testu (F = 0.78, p = 0.59) naznačujú, že rozdiely v priemernej nezamestnanosti medzi analyzovanými rokmi nie sú štatisticky významné. Z toho vyplýva, že v sledovanom období sa nezamestnanosť naprieč krajinami výrazne nemenila.

anova.result <- aov(Unemployment.Rate ~ factor(Year), data = udaje %>% filter(Year %in% 2015:2021))
summary(anova.result)
               Df Sum Sq Mean Sq F value Pr(>F)
factor(Year)    6    166   27.65   0.778  0.588
Residuals    1250  44444   35.56               

Lineárna regresia: Faktory ovplyvňujúce nezamestnanosť

Model lineárnej regresie skúmal, ako HDP a štruktúra zamestnanosti (poľnohospodárstvo, služby) ovplyvňujú mieru nezamestnanosti v roku 2018.

Výsledky ukazujú, že premenná HDP (v logaritmickej stupnici) má štatisticky významný negatívny vplyv na mieru nezamestnanosti. To znamená, že krajiny s vyšším HDP majú spravidla nižšiu nezamestnanosť.

Podiel poľnohospodárstva (-0.068) a služieb (0.014) neboli štatisticky významné.

Model ako celok je štatisticky významný (p < 0.001), avšak na nezamestnanosť vplývajú aj iné faktory, ktoré model nezahŕňa (napr. vzdelanosť, ekonomická politika, regionálne špecifiká).

model <- lm(Unemployment.Rate ~ log10(GDP..in.USD.) +
               Employment.Sector..Agriculture +
               Employment.Sector..Services,
             data = udaje %>% filter(Year == 2018))

summary(model)

Call:
lm(formula = Unemployment.Rate ~ log10(GDP..in.USD.) + Employment.Sector..Agriculture + 
    Employment.Sector..Services, data = udaje %>% filter(Year == 
    2018))

Residuals:
   Min     1Q Median     3Q    Max 
-8.346 -3.551 -1.740  2.472 20.495 

Coefficients:
                               Estimate Std. Error t value Pr(>|t|)    
(Intercept)                    27.99484    8.09908   3.457 0.000686 ***
log10(GDP..in.USD.)            -1.84597    0.49792  -3.707 0.000280 ***
Employment.Sector..Agriculture -0.06826    0.05732  -1.191 0.235343    
Employment.Sector..Services     0.01431    0.06662   0.215 0.830200    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.554 on 176 degrees of freedom
Multiple R-squared:  0.1059,    Adjusted R-squared:  0.09066 
F-statistic: 6.949 on 3 and 176 DF,  p-value: 0.0001906
install.packages("broom")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/backports_1.5.0.tar.gz'
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/purrr_1.1.0.tar.gz'
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/tidyr_1.3.1.tar.gz'
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/broom_1.0.10.tar.gz'

The downloaded source packages are in
    ‘/tmp/RtmpSSBS6W/downloaded_packages’
library(broom)
library(stringr)

# 1️⃣ Tabuľka koeficientov
coef.tbl <- tidy(model, conf.int = TRUE) %>%
  mutate(
    term = recode(term,
      "(Intercept)" = "Intercept",
      "log10(GDP..in.USD.)" = "log10(HDP)",
      "Employment.Sector..Agriculture" = "Poľnohospodárstvo (%)",
      "Employment.Sector..Services" = "Služby (%)"
    ),
    stars = case_when(
      p.value < 0.001 ~ "***",
      p.value < 0.01  ~ "**",
      p.value < 0.05  ~ "*",
      p.value < 0.1   ~ "·",
      TRUE            ~ ""
    )
  ) %>%
  transmute(
    Premenná = term,
    Odhad = round(estimate, 3),
    `Štandardná chyba` = round(std.error, 3),
    `t-hodnota` = round(statistic, 3),
    `p-hodnota` = round(p.value, 4),
    `95% CI` = str_c("[", round(conf.low, 2), ", ", round(conf.high, 2), "]"),
    Významnosť = stars
  )

coef.tbl %>%
  kable(
    digits = 3,
    caption = "Odhady regresných koeficientov (model: nezamestnanosť ~ HDP + štruktúra sektora)"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  footnote(
    general = "Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.",
    threeparttable = TRUE
  )
Odhady regresných koeficientov (model: nezamestnanosť ~ HDP + štruktúra sektora)
Premenná Odhad Štandardná chyba t-hodnota p-hodnota 95% CI Významnosť
Intercept 27.995 8.099 3.457 0.001 [12.01, 43.98] ***
log10(HDP) -1.846 0.498 -3.707 0.000 [-2.83, -0.86] ***
Poľnohospodárstvo (%) -0.068 0.057 -1.191 0.235 [-0.18, 0.04]
Služby (%) 0.014 0.067 0.215 0.830 [-0.12, 0.15]
Note:
Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.
NA
fit.tbl <- glance(model) %>%
  transmute(
    `R-squared` = round(r.squared, 3),
    `Adj. R-squared` = round(adj.r.squared, 3),
    `F-statistic` = round(statistic, 3),
    `F p-value` = round(p.value, 4),
    `AIC` = round(AIC, 1),
    `BIC` = round(BIC, 1),
    `Počet pozorovaní` = nobs
  )

fit.tbl %>%
  kable(
    digits = 3,
    caption = "Štatistiky prispôsobenia modelu"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("condensed"))
Štatistiky prispôsobenia modelu
R-squared Adj. R-squared F-statistic F p-value AIC BIC Počet pozorovaní
0.106 0.091 6.949 0 1134 1149.9 180
NA

Bonus: Heatmap korelačnej matice

Na obrázku je zobrazená korelačná matica numerických premenných: HDP, miera nezamestnanosti a podiely jednotlivých sektorov hospodárstva. Z grafu vieme vyčítať, že HDP pozitívne koreluje s podielom sektora služieb a negatívne s poľnohospodárstvom. To znamená, že bohatšie krajiny majú väčší sektor služieb a menší agrárny sektor.

Miera nezamestnanosti má slabú až mierne negatívnu koreláciu s HDP, čo potvrdzuje trend pozorovaný v predchádzajúcich grafoch. vyšší ekonomický výkon krajiny súvisí s nižšou nezamestnanosťou.
Vzťahy medzi sektormi sú navzájom výrazne negatívne a nárast jedného sektora zvyčajne znamená pokles druhého.


library(ggplot2)
library(reshape2)
library(viridis)

# Vyberieme len numerické stĺpce
num_data <- udaje %>%
  select(GDP..in.USD., Unemployment.Rate,
         Employment.Sector..Agriculture,
         Employment.Sector..Industry,
         Employment.Sector..Services)

# Korelačná matica (Pearsonova korelácia)
corr <- cor(num_data, use = "complete.obs")

corr_melt <- melt(corr)

# Vykreslenie Heatmapy
ggplot(corr_melt, aes(x = Var1, y = Var2, fill = value)) +
  geom_tile(color = "white") +
  geom_text(aes(label = round(value, 2)), color = "white", size = 4) +
  scale_fill_viridis(option = "plasma", direction = -1, limits = c(-1, 1)) +
  theme_minimal(base_size = 14) +
  labs(
    title = "Heatmap korelačnej matice numerických veličín",
    subtitle = "Zobrazenie vzťahov medzi HDP, nezamestnanosťou a sektorovou štruktúrou",
    x = "",
    y = "",
    fill = "Korelácia"
  ) +
  theme(axis.text.x = element_text(angle = 30, vjust = 1, hjust = 1))

