Skil verkefni 2 hagrannsókn

```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)

library(wooldridge) library(tidyverse) library(lmtest) library(car) library(sandwich) library(stargazer)

Dæmi 1a

R hluti

```{r} model1 <- lm(wage ~ educ + IQ + hours + black, data = wage2) summary(model1)

r´´´

Metið er línulegt aðhvarfslíkan þar sem wage er háða breytan og educ, IQ, hours og black eru skýribreytur.

Niðurstöðurnar benda til þess að menntun hafi jákvæð og tölfræðilega marktæk áhrif á laun. Stuðullinn við educ er 43.39, sem gefur til kynna að eitt viðbótarár í menntun tengist að meðaltali um 43 einingum hærri launum, að öðru óbreyttu.

Greindarvísitala (IQ) hefur einnig jákvæð og marktæk áhrif á laun. Stuðullinn er 3.92, sem bendir til þess að hækkun í IQ tengist aukningu í launum, að öðru óbreyttu.

Vinnustundir (hours) hafa neikvæð áhrif á laun samkvæmt líkaninu, en stuðullinn er ekki tölfræðilega marktækur við 5% marktektarmörk (p ≈ 0.075). Því er ekki hægt að draga sterkar ályktanir um áhrif vinnustunda á laun.

Breytan black hefur neikvæð og tölfræðilega marktæk áhrif á laun. Stuðullinn er -142.44, sem bendir til þess að einstaklingar í þessum hópi hafi að meðaltali lægri laun, að öðru óbreyttu.

Skýrð dreifni líkansins (R²) er 0.148, sem þýðir að um 14.8% af breytileika í launum er útskýrður af líkaninu.

F-prófið er tölfræðilega marktækt (p < 0.001), sem gefur til kynna að líkanið í heild hafi skýringargildi.

Dæmi 1b

R hluti

```{r} wage2$nonblack <- ifelse(wage2$black == 0, 1, 0) model2 <- lm(wage ~ educ + IQ + hours + black + nonblack, data = wage2) summary(model2)

´´´

Breytan nonblack var skilgreind þannig að hún tekur gildið 1 ef black = 0 og 0 annars. Þá gildir að nonblack = 1 − black.

Þegar breytunni nonblack er bætt við líkanið kemur upp fullkomin línuleg fylgni milli skýribreytanna. Þetta sést í niðurstöðum úr aðhvarfinu þar sem stuðullinn við nonblack er ekki metinn (NA) og R gefur til kynna að um sé að ræða “singularity”.

Ástæðan er sú að breyturnar black og nonblack eru nákvæmlega háðar hvor annarri. Þar sem fasti er einnig í líkaninu innihalda þessar breytur sömu upplýsingar og því er ekki hægt að greina áhrif þeirra aðskilið.

Sú Gauss-Markov forsenda sem brestur er forsendan um að engin fullkomin fjölínd sé til staðar milli skýribreytanna. Með öðrum orðum má engin skýribreytu vera nákvæm línuleg samsetning af öðrum skýribreytum í líkaninu.

Þegar þessi forsenda brestur er ekki hægt að meta stuðla allra breytanna með minnstu kvaðrata aðferð, þar sem fylkið X´X er ekki andhverfanlegt. Afleiðingin er sú að metillinn er ekki einstaklega skilgreindur og tölfræðiforrit, eins og R, sleppa einni breytu úr líkaninu til að leysa vandamálið.

Dæmi 1c

R hluti

```{r} model1 <- lm(wage ~ educ + IQ + hours + black, data = wage2) model3 <- lm(wage ~ educ + IQ + hours + black + tenure, data = wage2)

summary(model1) summary(model3)

summary(model1)$r.squared summary(model1)$adj.r.squared

summary(model3)$r.squared summary(model3)$adj.r.squared ´´´

Breytunni tenure var bætt við líkanið úr lið 1 og því metið nýtt aðhvarfslíkan sem inniheldur educ, IQ, hours, black og tenure.

Við samanburð á skýringarmælikvörðum kemur í ljós að R² hækkar úr 0.1476 í 0.1618 þegar tenure er bætt við líkanið. Leiðrétt R² hækkar einnig, úr 0.1439 í 0.1573.

R² hækkar almennt alltaf þegar nýrri skýribreytu er bætt við líkan, óháð því hvort breytan bæti raunverulega skýringarmátt líkansins. Af þeim sökum er R² ekki ákjósanlegur mælikvarði til að bera saman líkön með mismunandi fjölda skýribreyta.

Leiðrétt R² er heppilegri mælikvarði í þessu samhengi þar sem hann tekur tillit til fjölda skýribreyta og refsar fyrir að bæta við breytum sem auka skýringarmátt lítið.

Þar sem leiðrétt R² hækkar þegar tenure er bætt við líkanið bendir það til þess að nýja líkanið sé betra samkvæmt þeim mælikvarða. Viðbótin við breytuna tenure eykur því skýringarmátt líkansins meira en sem nemur refsingu fyrir aukinn fjölda skýribreyta.

Dæmi 1d

R hluti

```{r} model_restricted <- lm(wage ~ educ + IQ + hours + black, data = wage2)

model_unrestricted <- lm(wage ~ educmarried + IQmarried + hoursmarried + blackmarried, data = wage2)

anova(model_restricted, model_unrestricted) ´´´

Til að kanna hvort stuðlamatið sé ólíkt fyrir gifta og ógifta einstaklinga var framkvæmt F-próf þar sem borið er saman takmarkað og ótakmarkað líkan.

Takmarkaða líkanið er: wage = β0 + β1 educ + β2 IQ + β3 hours + β4 black + u

Ótakmarkaða líkanið inniheldur víxlhrif við breytuna married: wage = β0 + β1 educ + β2 IQ + β3 hours + β4 black + δ0 married + δ1 (educ × married) + δ2 (IQ × married) + δ3 (hours × married) + δ4 (black × married) + u

Núlltilgátan er: H0: δ0 = δ1 = δ2 = δ3 = δ4 = 0

sem felur í sér að stuðlarnir séu þeir sömu fyrir gifta og ógifta einstaklinga.

Gagntilgátan er: H1: Að minnsta kosti einn þessara stuðla sé frábrugðinn núlli.

F-prófið gaf gildið F = 5.40 með p-gildi 6.584×10⁻⁵.

Þar sem p-gildið er mun lægra en 0.05 er núlltilgátunni hafnað. Niðurstaðan bendir því til þess að stuðlamatið sé tölfræðilega marktækt ólíkt fyrir gifta og ógifta einstaklinga. Með öðrum orðum virðast áhrif skýribreytanna á laun vera mismunandi eftir hjúskaparstöðu.

Dæmi 1e

R hluti

```{r}

resettest(model1, power = 2:3, type = “fitted”)

´´´

Ramsey RESET próf var framkvæmt á líkaninu úr lið 1 til að kanna hvort líkanið sé rétt skilgreint.

Núlltilgátan er: H0: Líkanið er rétt skilgreint

Gagntilgátan er: H1: Líkanið er rangt skilgreint

RESET prófið gaf gildið F = 1.05 með p-gildi 0.3487.

Þar sem p-gildið er hærra en 0.05 er ekki hægt að hafna núlltilgátunni.

Dæmi 1f

R hluti

```{r}

model1 <- lm(wage ~ educ + IQ + hours + black, data = wage2)

bptest(model1)

bptest(model1, ~ educ + IQ + hours + black + I(educ^2) + I(IQ^2) + I(hours^2) + educ:IQ + educ:hours + educ:black + IQ:hours + IQ:black + hours:black, data = wage2) ´´´ Misdreifni er til staðar þegar dreifni skekkjuliðarins er ekki föst heldur breytist með gildum skýribreytanna.

Ef misdreifni er til staðar eru stuðlamet OLS áfram óskekkt, en staðalvillur verða rangar.

Breusch–Pagan prófið gaf p-gildi 1.833×10⁻⁵ og White prófið gaf p-gildi 0.0002396.

Þar sem bæði p-gildi eru lægri en 0.05 bendir það til þess að misdreifni sé til staðar.

Því ber að túlka niðurstöður úr lið 1 með varúð.

Skil verkefni 2 hagrannsókn

Óskar Steinn Birgisson

2026-03-23