\(u\) (jedan od) razloga za \(u\)
uslovi za izostavljenu promjenljivu
\[\hat{\beta_1}\rightarrow \beta_1 + \left( \frac{\sigma_u}{\sigma_X}\right)\rho_{Xu}\]
ne želimo da povučemo liniju na skaterplotu - kauzalni efekat ili prognoziranje je predmet interesovanja
očigledno da ne možemo da budemo zadovoljni da STR određuje rezultate testa
kauzalni efekat - bilo bi fino da imao kontrolisani randomizirani eksperiment kakav je moguć u prirodnim naukama
prije svega imali bi prvu pretpostavku ispunjenu - ako su studenti slučajno “bačeni” u svaki razred tada imamo \((u|STR_i)=0\) ali nije tako
ako pogledamo % onih koji uče englesik (engleski im nije maternji jezik) \(PctEL\) - ispunjava oba kriterija za izostavljenu promjenljivu
randomizacija + kontrolna grupa - da li ima razlike između kontrolne i grupue koja je pod “tretmanom” u PctEL-u (diffrence within)…
možda moćemo imati eksperiment kao u prirodnim naukama…Mozda u Sjevernoj Koreji
možemo “fiksirati” PctEL - malo nezgrapno, treba puno podataka (uzmemo samo one koji imaju isti PctEL - match)
jednostavno: uključimo PctEL u regresiju
\[ Y_i=\beta_0+\beta_1X_1i+\beta_2X_2i+u_i, \ i=1,...,n\] - imamo \(n\) observacija (pojedina;nih slučajeva u uzorku), za \((X_i,Y_i), \ i=1,...,n\)
\(X_1,X_2\) su nezavisne promjenljive ili ** 2 nezavisna regresora**
\(Y\) je zavisna promjenjiva
\(\beta_0\) je odsječak na y osi za populaciju koji nam je nepoznat
\(\beta_1\) je efekat promjene \(X_1\) na \(Y\) ukoliko je \(X_2\) konstantno
\(\beta_1\) je efekat promjene \(X_2\) na \(Y\) ukoliko je \(X_1\) konstantno
\(u_i\) je greška regresije
\[ \text{prije promjene} \ Y=\beta_0+\beta_1X_1+\beta_2X_2 \\ \text{poslije promjene} \ Y+ \Delta Y=\beta_0+\beta_1(X_1+\Delta X) + \beta_2X_2 \\ \text{razlika} \ \ \ \ \ \ \ \ \Delta Y = \beta_2 \Delta X_1 \\ \beta_1=\frac{\Delta Y}{\Delta X_1} \\ \beta_2=\frac{\Delta Y}{\Delta X_2} \\ \beta_0 = predviđena \ vrijednost \ Y \ kada \ je \ X_1=X_2=0\] - robustna sa definisanim načinom izračuna kovarijanse (matrice)
ls(cov=white) testscr str el_pct c
stvarna vrijednost = predviđena + rezidual \(Y_i=\hat{Y_i}\)
\(\bar{R^2}\) prilagodjeno koficijent determinacije - sa korekcijom vezanom za stepene slobode
SER i RMSE su mjere rasprsenosti Yna oko regresione linije
\[SER=\sqrt{\frac{1}{n-k-1}\sum^n_{i=1}\hat{u^2_i}} \\ RMSE=\sqrt{\frac{1}{n}\sum^n_{i=1}\hat{u^2_i}}\]
\[R^2=\frac{ESS}{TSS}=\frac{\sum^n_{i=1}(\hat Y_i - \bar{\hat Y})^2}{\sum^n_i=1(Y_i-\bar Y)^2}=1-\frac{SSR}{TSS} \\ TSS=\sum^n_{i=1}(Y_i - \bar{\hat Y})^2\]
\[\bar{R^2}=1-\left( \frac{n-1}{n-k-1}\right)\frac{SSR}{TSS}\] - koji je manji/veći? kako god \(n\) veće \(\rightarrow\) priblizavaju se
#### …mjere efikasnosti
\[(1) \ \widehat{testscr}=689.9-2.28\times STR \\ R^2=0.05, \ SER=18.6\] \[\widehat{testscr}=686.0-1.1\times STR-0.64\times pctel \\ R^2=0.426, \ \ \hat{R^2}=0.424 \ SER=14.5\] - usporediti - \(\hat{R^2}\) i \(R^2\) blizu… ?
\[E(i|X_1=x_1,...,X_k=x_k)=0\] - ako nemamo ovaj uslov \(\rightarrow\) OV, odnosno:
ima promjenljiva koja je u \(u\) a trebala bi biti regresor
tada je ta promjenljiva u korelaciji sa \(X\) koji je uključen
ls(cov=white) testscr str str c
Možemo probati
series str_small=0
series str_small=str<20
series str_large=0
series str_large=str=>20
ls(cov=white) testscr str_small str_large c
zamka dummy promjenljive
ls(cov=white) testscr str_small c
ls(cov=white) testscr str_small str_large
visoka korelacija između dva regresora (ali nije +/- 1)
to se vidi na standardnim greškama koeficijenata
ako \(X_1\) ima koeficijent koji je efekat kada se \(X_2\) drži konstantnim ali ako imamo visoku korelaciju između \(X_1\) i \(X_2\) tada ima malo varijacija u \(X_1\) kada se \(X_2\) drži konstantnom
koeficijent \(STR\) u (2) je efekat jedinične promjene \(STR\) na \(testscr\), pri čemu se % učenika koji uče engleski drži konstantnim
koeficijent \(STR\) opada za 1/2
95% interval povjerenja za \(STR\) u (2) \(\{–1.10 ± 1.96×0.43\} = (–1.95, –0.26)\)
t-statistika za \(\beta_{STR}=0\) je \(t=-1.1/0.43=-2.54\), dakle odbijamo hipotezu na nivou značajnosti od 5%
\[\widehat{testscr}=\beta_0+\beta_1 STR + \beta_2 expnStu + \beta_3 pctel + u_i\]
Imamo hipotezu da “školski resursi nisu važni”, a alternativna da jesu, odnosno:
\[H_0: \ \beta_1=0 \ \text{i} \ \beta_2=0 \\ \text{odnosno} \ H_1: \ \text{ili imamo} \ \beta_1\ne 0 \ \text{ili} \ \beta_2 \ne 0 \ \text{ili oboje}\] - zajedničko testiranje hipoteza povlači postojanje \(q\) restrikcija - u ovom slučaju imamo \(q=2\), odnosno \(\beta_1=0, \beta_2 = 0\)
dvije solucije
Bonferroni metod - nije 1.96 krit. vrijednost
F-statistika
zajednicka hipoteza \(\beta_1=\beta_{1,0} \ \text{i} \ \beta_2=\beta_{2,0}\)
ali prije svega \(t_1\) i \(t_2\) nisu nezavisni…prije svega, a i da jesu vidjeli smo….
\[F=\frac12 \left( \frac{t^2_1+t^2_2-2\hat{\rho_{t_1,t_2}}t_1t_2}{1-\hat{\rho_{t_1,t_2}^2}}\right)\] - F-statistika je veća kada su \(t_1\) i \(t_2\) veći - vršimo korekciju između \(t_1\) i \(t_2\) - kada imamo više koeficijenata koristimo matrice
** u velikim uzorcima F ima hi kvadrat distribuciju** - Eview komanda
ls(cov=white) testscr str expn_stu el_pct c
wald c(1)=c(2)=0
dvije regresije jednsa sa restrikcijom druga bez
porede se dva koeficijenta determinacije
\[(1) \text{sa restrikcijom} \ testscr=\beta_0+\beta_1STR_i+\beta_2expn_stu+ \beta_3 el_pct+u_i \\ (2) \text{sa restrikcijom} \ testscr=\beta_0+ \beta_3 el_pct+u_i \ (zasto)\]
broj restrikcija u skladu sa nultom je q=2 (?)
koeficijent det. je > sa restrikcijom (?)
koliko je to povećanje koef. det. koje je statistički značajno?
bez estrikcijom:
ls(cov=white) testscr str expn_stu el_pct c
sa restrikcijom:
ls(cov=white) testscr el_pct c\[ F=\frac{(R^2_{bez \ restr.}-R^2_{restr.})/q}{(1-R^2_{bez \ restr.})/(n-k_{bez \ restr.}-1)}\] - dakle kada imamo homeskedastičnost što je veća razlika između dva posmatrana koeficijenta determinacija bolje su performanse regresionog modela sa dodavanjem dodatnih promjenljivih
\[\text{sa restrikcijom} \ testscr= \underset{1.0}{644.7} - \underset{0.032}{0.671}pctel, \ R^2_{restr.}=0.4149 \\ \text{bez restrikcije} \ testscr= \underset{15.5}{649.6} - \underset{1.59}{3.87}STR+ \underset{1.59}{3.87}stu_exp \underset{0.032}{0.671}pctel \ R^2_{bez \ restr.}=0.4366, k_{bez \ restr.}=3, q=2 \\ F=\frac{(R^2_{bez \ restr.}-R^2_{restr.})/q}{(1-R^2_{bez \ restr.})/(n-k_{bez \ restr.}-1)}= \frac{(0.4366-0.4149)/2}{(1-0.4366)/(420-3-1)}=8.01\] - napomenimo za heteroskedastičnost imamo F=5.43
\[ \text{orginialna:} \\ Y_i=\beta_0+\beta\_1 X_{1i}+\beta_2 X_{2i}+u_i \\H_0: \beta_1=\beta_2 \ vs \ H_:\beta_1\ne \beta_2 \\ transformisana: \\ Y_i=\beta_+\gamma_1 X_+\beta_1 W_i+u_i \\ \text{gdje} \ \gamma_1=\beta_1-\beta_2 \ i \ W_i=X_{1i}+X_{2i} \\ H_0: \ \gamma_1=0 \ vs \ H_1:\gamma_1\ne0\]
Napomena multiple vs multivariate regression
Kontrolna promjenljiva W je promjenjiva koja je u korelaciji, i samim tim kontroliše, uzročni faktor koji je izostavljen u regresiji \(Y\) na \(X\), ali koji sam po sebi ne mora imati uzročni efekat na \(Y\)
Eviews:
ls(cov=white) testscr str el_pct meal_pct c
\[\widehat{testscr}= \underset{5.6}{700.2} - \underset{0.27}{1.00}STR- \underset{0.033}{0.122}pctel- \underset{0.024}{0.547}meal\_pct\ R^2=0.773\]
meal_pct % učenika koji primaju besplatan/subvencionisan ručak
pctel vjerovatno ima direktni uzročni efekat, ali je istovremeno i kontrolna promj.: imigrantske zajednice imaju tendeciju manje sposobnosti tečnog pričanja engleskog. Dakle, pctel je istovremeno vjerovatna uzročna i kontrolna promjenljiva
meal_pct e istovremeno vjerovatna uzročna i kontrolna promjenljiva - jelo pomaže učenje ali je i u korelaciji sa fakorima vezanim za prihod ali koji su “izvan opsega” učenja
Čini \(u_i\) nekolerisanom sa promjenljivom od interesa
Držeći konstanim kontrolne promjenljive(u) promjenljiva od interesa je “kao” slučajna promjenljiva
Ako pomsatramo pojedinačne slučajeve sa istom vrijednošću kontrolnih promjenljivih. promjenljiva od interesa je nekorelirana sa izostavljenim determinantama \(Y\)
identifikujemo promjenljivu od interesa (recimo da je to STR)
promislimo od izostavljenim uzročnicima koji bi mogli dovesti do pristrasnosti zbog izostavljenih promjenljivih
uključimo te izostavljene faktore, ako možemo, a ako ne možemo uključimo promjenljive koje su korelasiji sa njima kao kontrolne promjenljive da li učenicia znaju engleski, prilike izvan učenja odnosno školskog okvira, uticaj roditelja, kvalitet učitelja…
Dalje, potrebno je specificirati nekoliko alternativnih modela, koji uključuju dodatne promjenljive nije najjasnije koja od promjenljivih povezanih sa prihodom najbolje kontroliše sve izostavljene uzročnike kao što su prilike koje nisu obuhvačene školskim programom, te imamo više specifikacija sa različitim promjenljivima koje se odnose na prihod
Ocjenite, uporedite osnovni model sa alternativama
da li dodatna promjenljiva mijenja koficijent od interesa?
da li dodatna promjenjiva statistički značajna?
prije svega koristite ekonomsku logiku - nema mehaničkog pristupa
Nije smisao u maksimiziranju \(R^2\)
visok \(R^2\) ne znači da ste elimisali pristrasnost usljed ne obuhvatanja promjenljive
visok \(R^2\) ne znači da imamo nepristasan ocjenjivač kauzalnog efekat
visok \(R^2\) ne znači da su sve uključene promjenljive statistički značajne