Model linearne regresije za posmatranu populaciju
OLS
efikasnot regresije uzorka
OLS pretpostavke
distirubucija uzorka OLS ocjenjivača
Nagib regresione linije populacije je ocekivan efekat jedinične promjene \(X\) na \(Y\)
Za sada skoncentrisimo se na povlačenje ravne linije “izmedju” podataka za \(X\) i \(Y\)
** ponavljamo postupak koji smo imali priliko određivanja statističke značajnosti razlike između sredine dvije grupe**
ocjenjivanje - povlačimo liniju da bi ocjenili nagib populacije (kako:OLS)
Testiranje hipoteza - testiramo da li je nagib statistički značajno različit od nule
Intervali pouzdanosti za nagib
** regresiona linija populacije** \[ testscr=\beta_0 + \beta_1STR\] \(\beta_1=\frac{\Delta testscr}{\Delta STR}\) = nagib regresione linije populacije= promjena u rezultatima testa usljed jediniÄŤne promjeni u STR
\(\beta_0\) i \(\beta_1\) su parametri “populacije”
mi ne znamo parametre populacije ali želimo da ih ocjenimo pomoću raspoloživih podataka
\[ Y_i=\beta_0+\beta_1X_i+u_i, \ i=1,...,n\] - imamo \(n\) observacija (pojedinačnih slučajeva u uzorku), za \((X_i,Y_i), \ i=1,...,n\)
\(X\) je nezavisna promjenljiva ili regresor
\(Y\) je zavisna promjenjiva
\(\beta_0\) je odsječak na y osi
\(\beta_1\) je nagib
\(u_i\) je greška regresije
greška regresije se sastoji od faktora koji nisu uključeni. Pored uključenog regresora imamo niz faktora koji utiču na zavisnu promljenivu; pored toga tu su i greške u mjerenju zavisne promjenljive
Kako da ocjenimo nagib i odsječak na osnovu podataka?
sjetimo se da za minimiziranje kvadrata odstupanja imamo:
\[ min_m\sum^n_{i=1}(Y_i-m)^2\] - dakle, za OLS ocjenjivavača nepoznatih parametera \(\beta_0\) i \(\beta_1\) imamo:
\[ min_{b_0,b_1}\sum^n_{i=1}[Y_i-(b_0+b_1X_i)]^2\] - linija regresije populacije je \(testscr=\beta_0 + \beta_1STR\)
\[ \hat{\beta_1}=\frac{\sum_{i=1}^n(X_i-\bar X)(Y_i+\bar Y)}{\sum^n_{i=1}(X_i-\bar X)^2}\] \[\hat{\beta_0}=\bar Y - \hat{\beta_1}\bar X\] - OLS predviđene vrijednost \(\hat{Y_i}\) i reziduali \(\hat u_i\) date su sa:
\[\hat{Y_i}= \hat{\beta_0}+\hat{\beta_1}X_i, \ i=1,...,n\] \[ \hat u_i=Y_i-\hat{Y_i}, \ i=1,...,n\]
ls testscr str c
ls(cov=white) testscr str c
možemo i preko Quick/Equation ….
ocjenjeni nagib \(\beta_1=-2.28\)
ocjenjeni odsječak na y osi \(\beta_0=698.9\)
ocjenjena linija regresije
\[ testscr = 698.9-2.28\times STR\] - oblasti sa dodatnim učenikom po učitelju u prosjeku imaju rezultate testova koji su za 2.28 manje
\[\frac{\Delta testscr}{\Delta STR}=2.28\] - \(\beta_0=698.9\) - znači da oblasti sa sa nula učenika po učitelju imaju prosjek rezultata testa 698.9 - ima li to ekonomskog smisla?
\[Y_i=\hat Y_i + \hat u_i = OLS \ predvdjanje \ + OLS \ rezidual\] \[\rightarrow \ varijacije (Y) \ = \ varijacije (\hat Y) \ + \ varijacije (\hat u)\] \[\rightarrow \ ukupna \ suma \ kvadrata \ (TSS) \ = \ "objašnjena" \ SS \ + \ "rezidualna" \ SS\]
\[ R^2=\frac{ESS}{TSS}=\frac{\sum^n_{i=1}(\hat Y_i - \bar{\hat Y})^2}{\sum^n_i=1(Y_i-\bar Y)^2}\] - \(R^2=0\) - ESS=0
\(R^2=1\) - ESS=TSS
\(0\le R^2\le1\)
Eviews output tab Resids a u Workfile objekat resid
standardna greška regresija (SER) mjeri magnitudu tipičnog reziduala u jedinicama \(Y\)
mjeri disperziju distribucije \(u\) - SER je (skoro) standardna devijacija uzorka OLS reziduala:
\[ SER = \sqrt{\frac{1}{n-2}\sum^n_{i=1}(\hat u_i+\bar{\hat u})^2}=\sqrt{\frac{1}{n-2} \sum^n_{i=1}\hat u^2_i} \ \\ \text{jer nam je} \ \bar{\hat u}=\frac{1}{n}\sum^n_{i=1}\hat u_i=0\] root mean square error je sličan pojam SER (razlika 1/n umjesto 1/(n-2))
\[RMSE=\sqrt{\frac{1}{n}\sum^2_{i=1}\hat u^2_i}\] - (n-2) - zbog dva parametra koja se ocjenjuju
\[E(u|X=x)=0\]
važi ako je slucajan uzorak
daje nam distribuciju koeficijenta nagiba i odsječka
izvlačimo uzorak iz iste populacije pa imamo ID
slučajno biramo pa imamo I
komplikacije sa panel modelima
X i Y imaju 4. momenat
Outliers mogu dovesti do besmilsenih vrijednosti koficijenta nagiba
pogledajte podatke
\[... \\\hat{\beta_1}-\beta_1=\frac{\sum^n_{i=1}(X_i-\bar X)u_i}{\sum^n_{i=1}(X_i-\bar X)^2}\]
\[... \\var(\hat{\beta_1}) \ = \ \frac{1}{n}\times \frac{var[(X_i-\mu_x)u_i]}{(\sigma^2_X)^2} \] - \(var(\hat{\beta_1})\) je inverzno proporcionalna \(n\) - isto kao što smo imali \(\bar Y\)
imamo \(\hat{\beta_1} \xrightarrow{p} \beta_1\) - dakle ocjenjivača je konzistentan
isto tako
\[\hat{\beta_1} \sim N \biggl( \beta, \frac{\sigma^2_v}{n(\sigma^2_X)^2}\biggl) \ , \ \text{gdje} \ v_i=(X_i-\mu_X)U_i\]
\[ \text{generalno} \ t=\frac{ocjenjivača - pretpostavljen \ vrijednost}{standardna \ greška \ ocjenjivača}\] testiranje sredine Y \(t=\frac{\bar Y-\mu_{Y,0}}{s_Y\sqrt n}\)
**testiranje $_1** \(t=\frac{\hat{\beta_1}-\beta_{1,0}}{SE(\hat{\beta_1})}\)
gdje je \(SE(\hat{\beta_1})\) kvadratni korijen ocjenjivača varijanse distribucije uzorka \(\hat{\beta_1}\) odnosno
\[\hat{\sigma^2_{\hat{\beta_1}}} \ = \ \frac{1}{n}\times \frac{\frac{1}{n-2}\sum^2_{i=1}\hat v^2_i}{[\frac{1}{n}\sum^2_{i=1}(X_i-\bar X)^2]^2}, \ gdje \ \hat v_i=(X_i-\bar X)\hat u_i\]
### Ako imamo \(testscr=698.9-2.28\times STR\)
\[SE(\hat{\beta_0})=10.4 \ \ SE(\hat{\beta_1} )=0.52 \\ t-statistika \ \hat{\beta_1}=\frac{\hat{\beta_1}-\beta_{1,0}}{SE(\hat{\beta_1})}=\frac{-2.28-0}{0.52}=-4.38\]
dakle kako dobijena t vrijednosti nije u intervalu +/- 2.58 (1% dvostrani nivo značajnosti) odbacujemo nultu hipotezu te zaključujemo da je posmatrani parametar, odnosno koeficijenta nagiba statstički značajno različit od nule….(nećemo se zamarati previše “terminološkom” korektnošću)
p vrijednost je nivo značajnosti za -4.38 odnosno 4.38
\[(\hat{\beta_1} \pm 1.96 \times SE(\hat{\beta_1})) = (-2.28 \pm 1.96 \times 0.52)=(-3.3,-1.26)\] - 95% interval pouzdanosti ne uključuje 0= hipteza \(\beta_1=0\) se odbacuje na nivou od 5% (značajnosti)
prikaz regresije
\[testscr= \underset{10.4}{698.9} - \underset{0.52}{2.28}\times STR, \ R^2=0.05 \ SER=18.6\]
series str_small=0
series str_small=str<20
ls testscr str_small c
\(\beta_0\) sredina zavisne promjenjive kada je X=0 ~ 650
\(\beta_0+\beta_1=\) sredina zavisne promjenljive kada je X=1 = 650+7.4
\(\beta_1=\) razilka u sredinama dvije posmatrane grupe = 7.4
\(SE(\hat{\beta_1})\) ima uobičajeno tumacenje
t-statistika, te intervali pouzdanosti se konstruiše uobičajnim postupkom
ovo je korisno kada želimo ispitati razlike u sredinma - naročito kada imamo više regresora
hetero/homoskedastičnost na primjeru poređenja sredina
\[SE=\sqrt{\frac{s^2_s}{n_s}+\frac{s^2_l}{n_l}}\]
\[SE=s_p\sqrt{\frac 1n_s + \frac 1n_l}\]
\[s^2_p=\frac{(n-1)s^2_s+(n-1)s^2_l}{n_s+n_l-2}\]
\(s_p\) = “pooled ocjenjiva \(\sigma^2\)” ako je \(\sigma^2_s=\sigma^3_l\)
robustls testscr str c
ls testscr str c
ls(cov=white) testscr str c
standrdne greške!
homoskedastična:
\[SE(\hat{\beta_1})=\sqrt{\frac 1n \times \frac{\frac{1}{n-2}\sum^n_{i=1}\hat u^2_i}{\frac{1}{n} \sum^n_{i=1} (X_i-\bar X)^2}}\]
\(E(u|X=x)=0\)
\((X_i,Y_i), \ i=1,...n, \text{su} \ IID\)
\(E(Y^4)< \infty \ , \ E(X^4)< \infty)\)
\(u\) je homoskedastično
\(U \ N(0, \sigma^2)\)
pretpostavke pod 4 i 5 su nešto restriktivnije….
osnovne 3 + homoskedastičnost - Efikasnost OLS - \(\hat{\beta_1}\) ima najmanju varijansu među svim linearnim ocjenjivačima ( tj. ocjenjivači koji su linarna f-j \(Y_1,...,Y_n\)) - Gaus-markovljev teorem
\[\hat{\beta_1}-\beta_1=\frac{\sum^n_{i=1}(X_i-\bar X)u_i}{\sum^n_{i=1}(X_i-\bar X)^2}=\frac 1n \sum^n_{i=1}w_iu_i\]
među svim \(w\) OLS ocjenjvača je onaj koji teži da ima najmanju $var()
ako svih pet pretpostavki stoji - \(\hat{\beta}\) ima najmanju varijansu među svim konzistentnim ocjenjivačima (i linearnim i nelinearnim f-jama \(Y_1,...,Y_n)\) kako \(n\rightarrow \infty\)
ako svih pet preptostavki stoji tada \(\hat{\beta_1}, \hat{beta_0}\) imaju normalnu distribuciju za svako n
t-statistika ima Studentovu t distr. sa n-2 stepena slobode
ako je n<50 tada bi trebali koristi \(t_{n-2}\) umjesto N(0,1)
zadnje dvije pretpostavke su teško postojane u ekonometrijskim problemima
da li n>50 problem?