knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE,
include = TRUE
)
Packages laden
library("tidyverse")
library("stargazer")
library("readr")
#Laden van de data
load("immig.Rdata")
model1 <- lm(h1bvis.supp ~ tech.whitcol, data = immig)
summary(model1)
##
## Call:
## lm(formula = h1bvis.supp ~ tech.whitcol, data = immig)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.34995 -0.34995 -0.09995 0.15005 0.70339
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.349953 0.009211 37.994 <2e-16 ***
## tech.whitcol -0.053343 0.040166 -1.328 0.184
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3003 on 1120 degrees of freedom
## Multiple R-squared: 0.001572, Adjusted R-squared: 0.0006808
## F-statistic: 1.764 on 1 and 1120 DF, p-value: 0.1844
Interpretatie: Als de coëfficiënt bijvoorbeeld een negatieve waarde heeft (bijv. -0.10), betekent dit dat high-technology werknemers gemiddeld 0.10 punt minder steun tonen voor de visa dan de niet-technologie groep. De Labour Market Hypothesis stelt dat de oppositie (lagere steun) het sterkst moet zijn bij de economisch bedreigde groep, namelijk de werknemers in de high-technology sector. De hypothese wordt ondersteund als de geschatte coëfficiënt van de high-technology werknemers ten opzichte van de referentiegroep negatief is en statistisch significant is.
#PART 2
immig <- immig %>%
mutate(group = case_when(
nontech.whitcol == 1 ~ "whitecollar",
tech.whitcol == 1 ~ "tech",
employed == 0 ~ "unemployed",
TRUE ~ "other"
))
immig$group <- factor(immig$group,
levels = c("other", "whitecollar", "tech", "unemployed"))
plot_group_support <- ggplot(immig, aes(x = group, y = h1bvis.supp, fill = group)) +
geom_boxplot() +
labs(
title = "H-1B Visa Support per Beroeps-/Werkloosheidsgroep",
x = "Groep",
y = "Steun voor H-1B Visa (0 = sterk verminderen, 1 = sterk verhogen)"
) +
theme_minimal() +
guides(fill = "none")
plot_group_support
Groep aanmaken voor stap 2
immig <- immig %>%
mutate(
group = case_when(
tech.whitcol == 1 ~ "tech",
nontech.whitcol == 1 ~ "whitecollar",
employed == 0 ~ "unemployed",
TRUE ~ "other" # Vangt de rest van de werkenden (niet tech of white-collar)
)
)
model2 <- lm(h1bvis.supp ~ group, data = immig)
summary(model2)
##
## Call:
## lm(formula = h1bvis.supp ~ group, data = immig)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.39224 -0.34607 -0.09607 0.15393 0.70339
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.346072 0.013842 25.002 <2e-16 ***
## grouptech -0.049462 0.041486 -1.192 0.233
## groupunemployed 0.002711 0.018989 0.143 0.887
## groupwhitecollar 0.046169 0.041803 1.104 0.270
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3004 on 1118 degrees of freedom
## Multiple R-squared: 0.002675, Adjusted R-squared: -1.234e-06
## F-statistic: 0.9995 on 3 and 1118 DF, p-value: 0.3923
Kan dit model ondersteunender zijn voor de hypothese?
Model 1 gaat in op alle respondenten, waar model 2 de niet-tech-werknemers opsplitst. Hierdoor kan je de oppositie vergelijken van de groep die economisch bedreigd is, en de groep waar dat niet het geval is. Stel dat de coefficient van de techgroep significant negatiever is dan die van de “unemployed” of “whitecollar” groepen, dan is de steun voor de eerdere hypothese sterker.
Echter zie ik iets anders in de resultaten. Je kan in de regressie zien dat R^2 uitkomt op 0.002675. Dit betekent dat de onafhankelijke variabele (group) minder dan 1% van de variatie verklaart van de afhankelijke variabele (h1bvis.supp). Ook adjusted R^2 (-1.234e - 06) komt uit op een uitkomst die aantoont dat het model zorgt dat de onhankelijke variabele de afhankelijke niet verklaren. Kortom, De variabelen hiervoor hebben geen statistisch relevante verklarende kracht voor elkaar.
#PART 3
model3 <- lm(h1bvis.supp ~ group + age + female, data = immig)
summary(model3)
##
## Call:
## lm(formula = h1bvis.supp ~ group + age + female, data = immig)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.47610 -0.29411 -0.04017 0.18504 0.78581
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.5093532 0.0342320 14.879 < 2e-16 ***
## grouptech -0.0759781 0.0414958 -1.831 0.0674 .
## groupunemployed 0.0138634 0.0189509 0.732 0.4646
## groupwhitecollar 0.0552913 0.0413211 1.338 0.1811
## age -0.0024797 0.0006035 -4.109 4.26e-05 ***
## female -0.0753644 0.0187888 -4.011 6.45e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2967 on 1116 degrees of freedom
## Multiple R-squared: 0.02889, Adjusted R-squared: 0.02454
## F-statistic: 6.641 on 5 and 1116 DF, p-value: 4.189e-06
Stargazer gladstrijken
stargazer(model2, model3, type = "text",
title = "Model 2 en 3 samen",
column.labels = c("M2: Groep", "M3: Groep,vrouw en leeftijd"),
digits = 3)
##
## Model 2 en 3 samen
## ====================================================================
## Dependent variable:
## ------------------------------------------------
## h1bvis.supp
## M2: Groep M3: Groep,vrouw en leeftijd
## (1) (2)
## --------------------------------------------------------------------
## grouptech -0.049 -0.076*
## (0.041) (0.041)
##
## groupunemployed 0.003 0.014
## (0.019) (0.019)
##
## groupwhitecollar 0.046 0.055
## (0.042) (0.041)
##
## age -0.002***
## (0.001)
##
## female -0.075***
## (0.019)
##
## Constant 0.346*** 0.509***
## (0.014) (0.034)
##
## --------------------------------------------------------------------
## Observations 1,122 1,122
## R2 0.003 0.029
## Adjusted R2 -0.00000 0.025
## Residual Std. Error 0.300 (df = 1118) 0.297 (df = 1116)
## F Statistic 1.000 (df = 3; 1118) 6.641*** (df = 5; 1116)
## ====================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
#Verschillen R^2?
Er lijkt een wezenlijk verschil te zijn tussen de modellen.R^2 geeft bij een hogere waarde bij model 3 (0.0289) dan bij model 2 (0.0027). Dit getal is nog steeds niet bizar hoog, wat betekent dat er niet uitermate veel verklaart wordt. Wel kan er gezegd worden dat het beter verklaarbaar is met het derde model.
Verder is de adjusted R^2 lager dan de normale R^2 in model 3. Dit is niet meer dan normaal, aangezien adjusted R^2 rekening houdt met het aantal voorspellers en normale R^2 stijgt juist als er meer voorspellers zijn. Aangezien de adjusted R^2 van model 3 nog steeds aanzienlijk hoger is dan bij model 2, laat het zien dat model 3 alsnog beter past bij de hypothese. Beroepsgroepen maken niet zo veel uit als het gaat om de houding verklaren, maar leeftijd en sekse wel.