Izostavljeni regresori (Omited variable bias)

  1. \(Z\) je determinanta \(Y \rightarrow\) \(Z\) je dio \(u\)
  2. \(Z\) je u korelaciji sa regresorom \(X\) \(\rightarrow corr(Z,X)\ne 0\)

Formula

\[\hat{\beta_1}\rightarrow \beta_1 + \left( \frac{\sigma_u}{\sigma_X}\right)\rho_{Xu}\]

\[ Y_i=\beta_0+\beta_1X_1i+\beta_2X_2i+u_i, \ i=1,...,n\] - imamo \(n\) observacija (pojedina;nih slučajeva u uzorku), za \((X_i,Y_i), \ i=1,...,n\)

\[ \text{prije promjene} \ Y=\beta_0+\beta_1X_1+\beta_2X_2 \\ \text{poslije promjene} \ Y+ \Delta Y=\beta_0+\beta_1(X_1+\Delta X) + \beta_2X_2 \\ \text{razlika} \ \ \ \ \ \ \ \ \Delta Y = \beta_2 \Delta X_1 \\ \beta_1=\frac{\Delta Y}{\Delta X_1} \\ \beta_2=\frac{\Delta Y}{\Delta X_2} \\ \beta_0 = predviđena \ vrijednost \ Y \ kada \ je \ X_1=X_2=0\] - robustna sa definisanim načinom izračuna kovarijanse (matrice)

ls(cov=white) testscr str el_pct  c

Mjere efikacnosti regresije

  • stvarna vrijednost = predviđena + rezidual \(Y_i=\hat{Y_i}\)

  • SER std. devijacija \(\hat u_i\) bez korekcije za stepene slobode
  • RMSE std. devijacija \(\hat u_i\) sa korekcijom za stepene slobode - Eviews izbaci ovo i nazove tgo greskom regresije
  • \(R^2\) dio varijacija Y objasnjen sa X
  • \(\bar{R^2}\) prilagodjeno koficijent determinacije - sa korekcijom vezanom za stepene slobode

  • SER i RMSE su mjere rasprsenosti Yna oko regresione linije

\[SER=\sqrt{\frac{1}{n-k-1}\sum^n_{i=1}\hat{u^2_i}} \\ RMSE=\sqrt{\frac{1}{n}\sum^n_{i=1}\hat{u^2_i}}\]

\[R^2=\frac{ESS}{TSS}=\frac{\sum^n_{i=1}(\hat Y_i - \bar{\hat Y})^2}{\sum^n_i=1(Y_i-\bar Y)^2}=1-\frac{SSR}{TSS} \\ TSS=\sum^n_{i=1}(Y_i - \bar{\hat Y})^2\]

  • šta se dešava sa koeficijento determinacije sa dodatkom dodatnog regresora? Zašto?

\[\bar{R^2}=1-\left( \frac{n-1}{n-k-1}\right)\frac{SSR}{TSS}\] - koji je manji/veći? kako god \(n\) veće \(\rightarrow\) priblizavaju se

#### …mjere efikasnosti

\[(1) \ \widehat{testscr}=689.9-2.28\times STR \\ R^2=0.05, \ SER=18.6\] \[\widehat{testscr}=686.0-1.1\times STR-0.64\times pctel \\ R^2=0.426, \ \ \hat{R^2}=0.424 \ SER=14.5\] - usporediti - \(\hat{R^2}\) i \(R^2\) blizu… ?

OLS pretpostravke za regresiju sa više regresora

uslovna distribucija \(u\) za date Xove je nula

\[E(i|X_1=x_1,...,X_k=x_k)=0\] - ako nemamo ovaj uslov \(\rightarrow\) OV, odnosno:

  1. ima promjenljiva koja je u \(u\) a trebala bi biti regresor

  2. tada je ta promjenljiva u korelaciji sa \(X\) koji je uključen

\((X_{1i},..., X_{kk},Y_i) \ i=1,...,n, \ \text{su} \ IID\) - na osnovu slučajnog uzorka

nema ekstremnih vrijednosti

nema savršene multikolinearnosti (regresor je savršena linearna f-ja drugih regresora)

ls(cov=white) testscr str str  c

Možemo probati

 series str_small=0
 
series str_small=str<20

series str_large=0

series str_large=str=>20

ls(cov=white) testscr str_small str_large  c

zamka dummy promjenljive

  • dva riješenja
ls(cov=white) testscr str_small  c

ls(cov=white) testscr str_small str_large

Nesavršena multikolinearnost

  • visoka korelacija između dva regresora (ali nije +/- 1)

  • to se vidi na standardnim greškama koeficijenata

  • ako \(X_1\) ima koeficijent koji je efekat kada se \(X_2\) drži konstantnim ali ako imamo visoku korelaciju između \(X_1\) i \(X_2\) tada ima malo varijacija u \(X_1\) kada se \(X_2\) drži konstantnom

testiranje hipoteza

  • teorijska podloga je ista kao i kod jednog regresora \[(1) \ testscr= \underset{10.4}{698.9} - \underset{0.52}{2.28}\times STR\] \[(2) \ testscr= \underset{8.7}{698.9} - \underset{0.43}{2.28}\times STR - \underset{0.031}{0.65}pctel\]
  • koeficijent \(STR\) u (2) je efekat jedinične promjene \(STR\) na \(testscr\), pri čemu se % učenika koji uče engleski drži konstantnim

  • koeficijent \(STR\) opada za 1/2

  • 95% interval povjerenja za \(STR\) u (2) \(\{–1.10 ± 1.96×0.43\} = (–1.95, –0.26)\)

  • t-statistika za \(\beta_{STR}=0\) je \(t=-1.1/0.43=-2.54\), dakle odbijamo hipotezu na nivou značajnosti od 5%

testiranje zajedničke hipoteze

  • uvodimo expn_stu

\[\widehat{testscr}=\beta_0+\beta_1 STR + \beta_2 expnStu + \beta_3 pctel + u_i\]

Imamo hipotezu da “školski resursi nisu važni”, a alternativna da jesu, odnosno:

\[H_0: \ \beta_1=0 \ \text{i} \ \beta_2=0 \\ \text{odnosno} \ H_1: \ \text{ili imamo} \ \beta_1\ne 0 \ \text{ili} \ \beta_2 \ne 0 \ \text{ili oboje}\] - zajedničko testiranje hipoteza povlači postojanje \(q\) restrikcija - u ovom slučaju imamo \(q=2\), odnosno \(\beta_1=0, \beta_2 = 0\)

  • ne možemo ići na individualni pristup
  • pretpostavimo da možemo postaviti problem u formi postajanja dvije t vrijednost tada su \(t_1\) i \(t_2\) nezavisni tada bi imali 5% šanse da odbacimo tačnu hipotezu
\[\begin{align} & Pr_{H_0}[|t_1|>1.96 \ \text{i/ili} \ |t_2|>1.96] \\ & = 1-Pr_{H_0}[|t_1| \le 1.96 \ \text{i} \ |t_2| \le 1.96] \\ & = 1-Pr_{H_0}[|t_1| \le 1.96] \ \times Pr_{H_0}[|t_1| \le 1.96] \\ & = 1-(0.95)^2=0.0975=9.75\% \ne 5\% \end{align}\]

dvije solucije

  1. Bonferroni metod - nije 1.96 krit. vrijednost

  2. F-statistika

  • zajednicka hipoteza \(\beta_1=\beta_{1,0} \ \text{i} \ \beta_2=\beta_{2,0}\)

  • ali prije svega \(t_1\) i \(t_2\) nisu nezavisni…prije svega, a i da jesu vidjeli smo….

\[F=\frac12 \left( \frac{t^2_1+t^2_2-2\hat{\rho_{t_1,t_2}}t_1t_2}{1-\hat{\rho_{t_1,t_2}^2}}\right)\] - F-statistika je veća kada su \(t_1\) i \(t_2\) veći - vršimo korekciju između \(t_1\) i \(t_2\) - kada imamo više koeficijenata koristimo matrice

** u velikim uzorcima F ima hi kvadrat distribuciju** - Eview komanda

ls(cov=white) testscr str expn_stu el_pct   c
wald c(1)=c(2)=0

  • može i View/Coefficient Diagnostics

F statistika uz ispunjen uslov homoskedastičnosti

  • dvije regresije jednsa sa restrikcijom druga bez

  • porede se dva koeficijenta determinacije

\[(1) \text{sa restrikcijom} \ testscr=\beta_0+\beta_1STR_i+\beta_2expn_stu+ \beta_3 el_pct+u_i \\ (2) \text{sa restrikcijom} \ testscr=\beta_0+ \beta_3 el_pct+u_i \ (zasto)\]

  • broj restrikcija u skladu sa nultom je q=2 (?)

  • koeficijent det. je > sa restrikcijom (?)

  • koliko je to povećanje koef. det. koje je statistički značajno?

  • bez estrikcijom:

ls(cov=white) testscr str expn_stu el_pct   c
  • sa restrikcijom:

    ls(cov=white) testscr el_pct   c

\[ F=\frac{(R^2_{bez \ restr.}-R^2_{restr.})/q}{(1-R^2_{bez \ restr.})/(n-k_{bez \ restr.}-1)}\] - dakle kada imamo homeskedastičnost što je veća razlika između dva posmatrana koeficijenta determinacija bolje su performanse regresionog modela sa dodavanjem dodatnih promjenljivih

\[\text{sa restrikcijom} \ testscr= \underset{1.0}{644.7} - \underset{0.032}{0.671}pctel, \ R^2_{restr.}=0.4149 \\ \text{bez restrikcije} \ testscr= \underset{15.5}{649.6} - \underset{1.59}{3.87}STR+ \underset{1.59}{3.87}stu_exp \underset{0.032}{0.671}pctel \ R^2_{bez \ restr.}=0.4366, k_{bez \ restr.}=3, q=2 \\ F=\frac{(R^2_{bez \ restr.}-R^2_{restr.})/q}{(1-R^2_{bez \ restr.})/(n-k_{bez \ restr.}-1)}= \frac{(0.4366-0.4149)/2}{(1-0.4366)/(420-3-1)}=8.01\] - napomenimo za heteroskedastičnost imamo F=5.43

  • tada primjenjujmo \(F_{q,n-k-1}\) distirbuciju, koja za \(n \rightarrow \infty\) ide ka \(\chi / q\)
  • Eviews: elipsa - setovi povjerenja
  • kad imamo jednu restrikciju možemo testiratt hipotezu tako što ćemo preurediti jednačinu

\[ \text{orginialna:} \\ Y_i=\beta_0+\beta\_1 X_{1i}+\beta_2 X_{2i}+u_i \\H_0: \beta_1=\beta_2 \ vs \ H_:\beta_1\ne \beta_2 \\ transformisana: \\ Y_i=\beta_+\gamma_1 X_+\beta_1 W_i+u_i \\ \text{gdje} \ \gamma_1=\beta_1-\beta_2 \ i \ W_i=X_{1i}+X_{2i} \\ H_0: \ \gamma_1=0 \ vs \ H_1:\gamma_1\ne0\]

  • kada bi mogli imati experiment: tada bi mogli slučajno dodijeliti studente (i nastavnike) različitim veličinama razreda tada je sTR nezavisna od svega što je u u te je uslovna očekivana vrijednost greške regresije jednaka nuli i OLS ocjenjivač je nepristana prilikom ocjenjivanja koeficijenta nagiba

Kontrolne promjenljive u višestrukoj regresije

  • Napomena multiple vs multivariate regression

  • Kontrolna promjenljiva W je promjenjiva koja je u korelaciji, i samim tim kontroliše, uzročni faktor koji je izostavljen u regresiji \(Y\) na \(X\), ali koji sam po sebi ne mora imati uzročni efekat na \(Y\)

  • Eviews:

ls(cov=white) testscr str el_pct meal_pct  c

\[\widehat{testscr}= \underset{5.6}{700.2} - \underset{0.27}{1.00}STR- \underset{0.033}{0.122}pctel- \underset{0.024}{0.547}meal\_pct\ R^2=0.773\]

  • meal_pct % učenika koji primaju besplatan/subvencionisan ručak

  • STR je promjenljiva od interesa
  • pctel vjerovatno ima direktni uzročni efekat, ali je istovremeno i kontrolna promj.: imigrantske zajednice imaju tendeciju manje sposobnosti tečnog pričanja engleskog. Dakle, pctel je istovremeno vjerovatna uzročna i kontrolna promjenljiva

  • meal_pct e istovremeno vjerovatna uzročna i kontrolna promjenljiva - jelo pomaže učenje ali je i u korelaciji sa fakorima vezanim za prihod ali koji su “izvan opsega” učenja

Efikasna kontrolna promjenljiva - 3 ključne karakteristike

  1. Čini \(u_i\) nekolerisanom sa promjenljivom od interesa

  2. Držeći konstanim kontrolne promjenljive(u) promjenljiva od interesa je “kao” slučajna promjenljiva

  3. Ako pomsatramo pojedinačne slučajeve sa istom vrijednošću kontrolnih promjenljivih. promjenljiva od interesa je nekorelirana sa izostavljenim determinantama \(Y\)

Kontrolna promjenljiva ne mora biti kauzalna, te njihov koeficijent nema kauzalnu interpretaciju

  • identifikujemo promjenljivu od interesa (recimo da je to STR)

  • promislimo od izostavljenim uzročnicima koji bi mogli dovesti do pristrasnosti zbog izostavljenih promjenljivih

  • uključimo te izostavljene faktore, ako možemo, a ako ne možemo uključimo promjenljive koje su korelasiji sa njima kao kontrolne promjenljive da li učenicia znaju engleski, prilike izvan učenja odnosno školskog okvira, uticaj roditelja, kvalitet učitelja…

  • kontrolna promjenljiva je efikasna ako je ispunjena pretpostavka o nezavisnosti uslovne sredine – ako je \(u\) nekorelisano sa \(STR\) kada je kontrolna promjenljiva uključena \(žrightarrow\) dobijamo osnovni ili benchmark model imamo mnogo izostavljeni uzročnika koje je teško mjeriti, pa moramo pristupiti kontrolnim promjenljivim - \(pctel\) ali i mjeru bogastva različitih okruga
  • Dalje, potrebno je specificirati nekoliko alternativnih modela, koji uključuju dodatne promjenljive nije najjasnije koja od promjenljivih povezanih sa prihodom najbolje kontroliše sve izostavljene uzročnike kao što su prilike koje nisu obuhvačene školskim programom, te imamo više specifikacija sa različitim promjenljivima koje se odnose na prihod

  • Ocjenite, uporedite osnovni model sa alternativama

  • da li dodatna promjenljiva mijenja koficijent od interesa?

  • da li dodatna promjenjiva statistički značajna?

  • prije svega koristite ekonomsku logiku - nema mehaničkog pristupa

  • Nije smisao u maksimiziranju \(R^2\)

    • visok \(R^2\) ne znači da ste elimisali pristrasnost usljed ne obuhvatanja promjenljive

    • visok \(R^2\) ne znači da imamo nepristasan ocjenjivač kauzalnog efekat

    • visok \(R^2\) ne znači da su sve uključene promjenljive statistički značajne