##————————————— ## Econometrics in R - Boston Housing Dataset ## Upravené podľa Gazda V. zadania ##—————————————

0. Knižnice

library(zoo) library(tseries) library(lmtest) library(sandwich) library(car)

rm(list = ls())

1. Načítanie dát priamo z webu

url <- “https://lib.stat.cmu.edu/datasets/boston” boston_raw <- readLines(url)

Dáta sú rozdelené do dvoch riadkov, spracujeme ich

data_lines <- boston_raw[23:length(boston_raw)] data_vec <- as.numeric(unlist(strsplit(data_lines, “\s+”))) data_vec <- data_vec[!is.na(data_vec)]

Boston dataset: 506 pozorovaní, 14 premenných

boston <- matrix(data_vec, ncol = 14, byrow = TRUE) boston <- as.data.frame(boston)

Premenujeme stĺpce podľa dokumentácie

colnames(boston) <- c(“CRIM”,“ZN”,“INDUS”,“CHAS”,“NOX”,“RM”,“AGE”,“DIS”,“RAD”, “TAX”,“PTRATIO”,“B”,“LSTAT”,“MEDV”)

2. Skontrolovať dáta

summary(boston) colSums(is.na(boston))

3. Boxploty vybraných premenných

par(mfrow = c(2, 2)) par(mar = c(4, 4, 2, 1)) par(oma = c(0, 0, 3, 0)) for (col in c(“MEDV”,“RM”,“LSTAT”,“PTRATIO”)) { boxplot(boston[[col]], main = col, col = “lightblue”) } mtext(“Boxploty vybraných premenných”, outer = TRUE, cex = 1.4, font = 2) par(mfrow = c(1, 1))

4. Lineárna regresia

Predikcia MEDV podľa RM, LSTAT a PTRATIO

model <- lm(MEDV ~ RM + LSTAT + PTRATIO, data = boston) summary(model)

5. Diagnostické grafy modelu podľa Gazda

par(mfrow = c(2, 2)) plot(model) par(mfrow = c(1, 1)) # Grafy: # 1) Residuals vs Fitted → linearita a heteroskedasticita # 2) Normal Q-Q → normalita rezíduí # 3) Scale-Location → homogenita rozptylu # 4) Residuals vs Leverage → identifikácia vplyvných bodov

6. Test normality rezíduí (Jarque-Bera)

residuals <- residuals(model) jb_test <- jarque.bera.test(residuals) jb_test

7. Test odľahlých hodnôt

outlier_test <- outlierTest(model) outlier_test

8. Robustné smerodajné chyby

coeftest(model, vcov = vcovHC(model, type = “HC1”))

9. Interpretácia výsledkov (na protokol podľa Gazda)

- RM: kladný vplyv na MEDV

- LSTAT: záporný vplyv na MEDV

- PTRATIO: záporný vplyv, slabšia významnosť

- Jarque-Bera test ukazuje, či rezíduá sú normálne

- OutlierTest identifikuje potenciálne vplyvné body

- Diagnostické grafy kontrolujú linearitu, homoskedasticitu, vplyv extrémov