Okvir

Linearna regresija omogucava nam da ocjenimo nagib regresione linije osnovne populacije

** ponavljamo postupak koji smo imali priliko određivanja statističke značajnosti razlike između sredine dvije grupe**

Linearni regresioni model

** regresiona linija populacije** \[ testscr=\beta_0 + \beta_1STR\] \(\beta_1=\frac{\Delta testscr}{\Delta STR}\) = nagib regresione linije populacije= promjena u rezultatima testa usljed jediniÄŤne promjeni u STR

Linearni regresioni model u generalnom slučaju

\[ Y_i=\beta_0+\beta_1X_i+u_i, \ i=1,...,n\] - imamo \(n\) observacija (pojedinačnih slučajeva u uzorku), za \((X_i,Y_i), \ i=1,...,n\)

  • \(X\) je nezavisna promjenljiva ili regresor

  • \(Y\) je zavisna promjenjiva

  • \(\beta_0\) je odsječak na y osi

  • \(\beta_1\) je nagib

  • \(u_i\) je greška regresije

  • greška regresije se sastoji od faktora koji nisu uključeni. Pored uključenog regresora imamo niz faktora koji utiču na zavisnu promljenivu; pored toga tu su i greške u mjerenju zavisne promjenljive

OLS ocjenjivač

  • Kako da ocjenimo nagib i odsječak na osnovu podataka?

  • sjetimo se da za minimiziranje kvadrata odstupanja imamo:

\[ min_m\sum^n_{i=1}(Y_i-m)^2\] - dakle, za OLS ocjenjivavača nepoznatih parametera \(\beta_0\) i \(\beta_1\) imamo:

\[ min_{b_0,b_1}\sum^n_{i=1}[Y_i-(b_0+b_1X_i)]^2\] - linija regresije populacije je \(testscr=\beta_0 + \beta_1STR\)

OLS ocjenjivača, predviđene vrijednosti i reziduali

  • OLS ocjenjivač¤ nagiba \(\beta_1\) \(\beta_0\)

\[ \hat{\beta_1}=\frac{\sum_{i=1}^n(X_i-\bar X)(Y_i+\bar Y)}{\sum^n_{i=1}(X_i-\bar X)^2}\] \[\hat{\beta_0}=\bar Y - \hat{\beta_1}\bar X\] - OLS predviđene vrijednost \(\hat{Y_i}\) i reziduali \(\hat u_i\) date su sa:

\[\hat{Y_i}= \hat{\beta_0}+\hat{\beta_1}X_i, \ i=1,...,n\] \[ \hat u_i=Y_i-\hat{Y_i}, \ i=1,...,n\]

ls testscr str c
ls(cov=white) testscr str c

možemo i preko Quick/Equation ….

  • rezultate preko Freez možemo kopirati u text formatu….
  • ocjenjeni nagib \(\beta_1=-2.28\)

  • ocjenjeni odsječak na y osi \(\beta_0=698.9\)

  • ocjenjena linija regresije

\[ testscr = 698.9-2.28\times STR\] - oblasti sa dodatnim učenikom po učitelju u prosjeku imaju rezultate testova koji su za 2.28 manje

\[\frac{\Delta testscr}{\Delta STR}=2.28\] - \(\beta_0=698.9\) - znači da oblasti sa sa nula učenika po učitelju imaju prosjek rezultata testa 698.9 - ima li to ekonomskog smisla?

Ostali rezultati regresionog modela

  • koeficijent determinacije \(R^2\) mjeri dio varijacija \(Y\) koje su objašnjene \(X\) - kreće se od nula do jedan

\[Y_i=\hat Y_i + \hat u_i = OLS \ predvdjanje \ + OLS \ rezidual\] \[\rightarrow \ varijacije (Y) \ = \ varijacije (\hat Y) \ + \ varijacije (\hat u)\] \[\rightarrow \ ukupna \ suma \ kvadrata \ (TSS) \ = \ "objašnjena" \ SS \ + \ "rezidualna" \ SS\]

\[ R^2=\frac{ESS}{TSS}=\frac{\sum^n_{i=1}(\hat Y_i - \bar{\hat Y})^2}{\sum^n_i=1(Y_i-\bar Y)^2}\] - \(R^2=0\) - ESS=0

  • \(R^2=1\) - ESS=TSS

  • \(0\le R^2\le1\)

  • kada imamo regresiju sa jednim regresorom, koeficijent regresije je ustvari koeficijent korelacije između X i Y
  • Eviews output tab Resids a u Workfile objekat resid

  • standardna greška regresija (SER) mjeri magnitudu tipičnog reziduala u jedinicama \(Y\)

  • mjeri disperziju distribucije \(u\) - SER je (skoro) standardna devijacija uzorka OLS reziduala:

\[ SER = \sqrt{\frac{1}{n-2}\sum^n_{i=1}(\hat u_i+\bar{\hat u})^2}=\sqrt{\frac{1}{n-2} \sum^n_{i=1}\hat u^2_i} \ \\ \text{jer nam je} \ \bar{\hat u}=\frac{1}{n}\sum^n_{i=1}\hat u_i=0\] root mean square error je sličan pojam SER (razlika 1/n umjesto 1/(n-2))

\[RMSE=\sqrt{\frac{1}{n}\sum^2_{i=1}\hat u^2_i}\] - (n-2) - zbog dva parametra koja se ocjenjuju

  • kada je n veliko nije bitno

OLS pretpostavke

  1. uslovna distribucija u za date vrijednosti \(X\) ima sredinu nula \(\rightarrow \ \hat{\beta_1}\) je nepristrasna ocjena

\[E(u|X=x)=0\]

  • kada imamo slučajni kontrolisani eksperiment ova pretpostavka stoji - koliko ÄŤesto imamo takvo nešto u ekonomiji?
  1. X,Y su nezavisni i sa identičnom distribuciju
  • važi ako je slucajan uzorak

  • daje nam distribuciju koeficijenta nagiba i odsječka

  • izvlačimo uzorak iz iste populacije pa imamo ID

  • slučajno biramo pa imamo I

  • komplikacije sa panel modelima

  1. Nema ekstremnih vrijednosti (outliers), odnosno rijetke su
  • X i Y imaju 4. momenat

  • Outliers mogu dovesti do besmilsenih vrijednosti koficijenta nagiba

  • pogledajte podatke

Sredina i varijansa distribucije uzorka \(\hat{\beta_1}\)

\[... \\\hat{\beta_1}-\beta_1=\frac{\sum^n_{i=1}(X_i-\bar X)u_i}{\sum^n_{i=1}(X_i-\bar X)^2}\]

\[... \\var(\hat{\beta_1}) \ = \ \frac{1}{n}\times \frac{var[(X_i-\mu_x)u_i]}{(\sigma^2_X)^2} \] - \(var(\hat{\beta_1})\) je inverzno proporcionalna \(n\) - isto kao što smo imali \(\bar Y\)

Veliko \(n\)

  • imamo \(\hat{\beta_1} \xrightarrow{p} \beta_1\) - dakle ocjenjivača je konzistentan

  • isto tako

\[\hat{\beta_1} \sim N \biggl( \beta, \frac{\sigma^2_v}{n(\sigma^2_X)^2}\biggl) \ , \ \text{gdje} \ v_i=(X_i-\mu_X)U_i\]

  • što je veća varijacija \(X\) to je manja varijansa \(\hat{\beta_1}\) - vise varijacija X daje nam više informacija (što se vidi na osnovu slike dole)

Testiranje hipoteza i standardna greska \(\hat{\beta_1}\)

  • testiramo da li je \(\beta_1=0\) \[\text{dvostrano:} \ H_0: \ \beta_1=\beta_{1,0} \ \text{vs} \ H_1: \ \beta_1 \ne \beta_{1,0} \\ \text{gdje je} \ \beta_{1,0} \ \text{pretpostavljena vrijednost u skladu sa nultom hipotezom} \\ \text{jednostrano:}\ H_0: \ \beta_1=\beta_{1,0} \ \text{vs} \ H_1: \ \beta_1 < \beta_{1,0}\]

t statistika

\[ \text{generalno} \ t=\frac{ocjenjivača - pretpostavljen \ vrijednost}{standardna \ greška \ ocjenjivača}\] testiranje sredine Y \(t=\frac{\bar Y-\mu_{Y,0}}{s_Y\sqrt n}\)

**testiranje $_1** \(t=\frac{\hat{\beta_1}-\beta_{1,0}}{SE(\hat{\beta_1})}\)

gdje je \(SE(\hat{\beta_1})\) kvadratni korijen ocjenjivača varijanse distribucije uzorka \(\hat{\beta_1}\) odnosno

\[\hat{\sigma^2_{\hat{\beta_1}}} \ = \ \frac{1}{n}\times \frac{\frac{1}{n-2}\sum^2_{i=1}\hat v^2_i}{[\frac{1}{n}\sum^2_{i=1}(X_i-\bar X)^2]^2}, \ gdje \ \hat v_i=(X_i-\bar X)\hat u_i\]

### Ako imamo \(testscr=698.9-2.28\times STR\)

  • softver nam je dao sljedeće info:

\[SE(\hat{\beta_0})=10.4 \ \ SE(\hat{\beta_1} )=0.52 \\ t-statistika \ \hat{\beta_1}=\frac{\hat{\beta_1}-\beta_{1,0}}{SE(\hat{\beta_1})}=\frac{-2.28-0}{0.52}=-4.38\]

  • dakle kako dobijena t vrijednosti nije u intervalu +/- 2.58 (1% dvostrani nivo značajnosti) odbacujemo nultu hipotezu te zaključujemo da je posmatrani parametar, odnosno koeficijenta nagiba statstički značajno različit od nule….(nećemo se zamarati previše “terminološkom” korektnošću)

  • sad ima pitanje kada dvostrani, kada jednostrani…..
  • p vrijednost je nivo značajnosti za -4.38 odnosno 4.38

95% interval pouzdanosti - primjer

\[(\hat{\beta_1} \pm 1.96 \times SE(\hat{\beta_1})) = (-2.28 \pm 1.96 \times 0.52)=(-3.3,-1.26)\] - 95% interval pouzdanosti ne uključuje 0= hipteza \(\beta_1=0\) se odbacuje na nivou od 5% (značajnosti)

prikaz regresije

\[testscr= \underset{10.4}{698.9} - \underset{0.52}{2.28}\times STR, \ R^2=0.05 \ SER=18.6\]

Binarna promjenljiva kao regresor

  • npr. X=1 ako je malen razred =0 ako nije
 series str_small=0
 
series str_small=str<20

ls testscr str_small c
  • \(\beta_0\) sredina zavisne promjenjive kada je X=0 ~ 650

  • \(\beta_0+\beta_1=\) sredina zavisne promjenljive kada je X=1 = 650+7.4

  • \(\beta_1=\) razilka u sredinama dvije posmatrane grupe = 7.4

  • \(SE(\hat{\beta_1})\) ima uobičajeno tumacenje

  • t-statistika, te intervali pouzdanosti se konstruiše uobičajnim postupkom

  • ovo je korisno kada želimo ispitati razlike u sredinma - naročito kada imamo više regresora

Homoskedastičnost vs hetereskedastičnost

  • \(var(u|X=x)=const \rightarrow\) homoskedastičnost

hetero/homoskedastičnost na primjeru poređenja sredina

  • ako imamo dvije nejednake grupne varijanse standardna greška je:

\[SE=\sqrt{\frac{s^2_s}{n_s}+\frac{s^2_l}{n_l}}\]

  • ako imamo dvije jednake grupne varijanse standardna greška je:

\[SE=s_p\sqrt{\frac 1n_s + \frac 1n_l}\]

\[s^2_p=\frac{(n-1)s^2_s+(n-1)s^2_l}{n_s+n_l-2}\]

\(s_p\) = “pooled ocjenjiva \(\sigma^2\)” ako je \(\sigma^2_s=\sigma^3_l\)

robustls testscr str c

U čemu je razlika u odnosu na?

ls testscr str c

ls(cov=white) testscr str c

standrdne greške!

  • jedina prednost homoskedastiÄŤnosti jeste jednostavnija formula a ako koristite softver… (mozda za excel problem)

homoskedastična:

\[SE(\hat{\beta_1})=\sqrt{\frac 1n \times \frac{\frac{1}{n-2}\sum^n_{i=1}\hat u^2_i}{\frac{1}{n} \sum^n_{i=1} (X_i-\bar X)^2}}\]

  • koristili: Huber-White-Hinkley (HC1) heteroskedasticity consistent standard errors and covariance

Proširene pretpostavke OLS

  1. \(E(u|X=x)=0\)

  2. \((X_i,Y_i), \ i=1,...n, \text{su} \ IID\)

  3. \(E(Y^4)< \infty \ , \ E(X^4)< \infty)\)

  4. \(u\) je homoskedastično

  5. \(U \ N(0, \sigma^2)\)

\[\hat{\beta_1}-\beta_1=\frac{\sum^n_{i=1}(X_i-\bar X)u_i}{\sum^n_{i=1}(X_i-\bar X)^2}=\frac 1n \sum^n_{i=1}w_iu_i\]