ARAÇSAL DEĞİŞKEN TAHMİNİ VE İKİ AŞAMALI EN KÜÇÜK KARELER
MOTİVASYON: BASİT BİR REGRESYON MODELİNDE ÇIKARILMIŞ DEĞİŞKENLER
Veri setimizin ücretler ve eğitim düzeyinden oluştuğunu düşünelim. Çalışan yetişkinler için bir ücret denklemindeki gözlemlenmemiş yetenek problemini ele alalım.
Bağımlı değişken wage (ücret) yerine log(wage) kullanmak daha yararlı olabilir.
Model şu şekilde yazılabilir
\[log(wage) = \beta_0 + \beta_1educ +e\]
Modelde, ücretler ve eğitim arasındaki ilişki ele alınmıştır.
Denklemde wage: ücretler educ: eğitim durumunu ifade etmektedir.
Ücretler ve eğitim arasındaki ilişki ele alınırken bireylerin yetenekleri de modele dahil edilir.
Modele yetenek (abil) eklendikten sonra şu şekilde de yazılabilir
\[log(wage) = \beta_0 + \beta_1educ +\beta_2abil+e\]
Denklemin sol tarafında günlük ücretler yer alırken, sağ tarafında ise lineer bir denklem yer almaktadır.
Denklemde e gerçek hata terimi, sadece bir rasgele e bileşenini ifade etmektedir.
Burada eğitimli bireyler mı daha yetenekli olur ona bakılır.
Yüksek eğitim düzeyine sahip bireylerin, yüksek yeteneğe sahip olduklarında yetenek üzerinde pozitif katsayıya sahip olur. Bu da yüksek u değerine sahip olacakları anlamına gelmektedir.
Eğitim için araçsal bir değişken bulabilmemiz koşuluyla, denklemi tahmin için temel olarak kullanmaya devam edebileceğimiz ortaya çıktı. Bu yaklaşımı açıklamak için basit regresyon modeli şu şekilde yazılır:
\[ y = \beta_0+ \beta_1x + u \]
x ve u’nun ilişkili olduğunu düşünürsek:
\[ Cov(x,u) \neq 0 \]
Araçsal değişkenler yöntemi, x ve u ilişkili olsa da olmasa da çalışır, ancak daha sonra göreceğimiz nedenlerden dolayı, x u ile ilişkili değilse OLS kullanılmalıdır. x ve u ilişkili olduğunda 0 ve 1’in tutarlı tahmin edicilerini elde etmek için bazı ek bilgilere ihtiyacımız var. Bilgi, belirli özellikleri karşılayan yeni bir değişken yoluyla gelir.
Bu iki varsayımı karşılayan gözlemlenebilir bir z değişkenimiz olduğunu varsayalım: (1) z, u ile ilişkili değildir, yani
\[ Cov(z,u) = 0 \]
Çıkarılan değişkenler bağlamında bu, z’nin y üzerinde kısmi bir etkisinin olmaması ve z’nin y’yi etkileyen diğer faktörlerle ilişkili olmaması gerektiği anlamına gelir.
Bir araç değişken için iki gereklilik arasında çok önemli bir fark vardır. z ile gözlemlenemez u (hata terimi) arasında bir kovaryans olduğundan, asla kontrol edilemez ve hatta test edilemez: ekonomik davranışa veya içgüdüsel bir sezgiye başvurarak bu varsayımı sürdürmeliyiz.
z, x ile ilişkilidir, yani
\[ Cov(z,x) = 0 \]
z, x için araçsal bir değişken olduğu kabul edilmektedir.
z’nin içsel açıklayıcı değişken x ile pozitif veya negatif olarak ilişkili olması gerektiği anlamına gelmektedir.
z’nin x (popülasyonda) ile ilişkili olduğu koşulu, popülasyondan rastgele bir örnek verildiğinde test edilebilir. Bunu yapmanın en kolay yolu, x ve z arasında basit bir gerileme tahmin etmektir.
Nüfus içinde elimizde,
\[ x = \pi_0+ \pi_1 z+ v\]
O halde, 1 Cov(z,x)/Var(z) olduğundan, (15.5) varsayımı ancak ve ancak 1 0 ise geçerlidir.
Böylece, boş hipotezi reddedebiliriz.
\[ H_0: \pi_1=0\]
iki taraflı H0 alternatifine karşı: 1 0, yeterince küçük bir anlamlılık düzeyinde ise o zaman $ Cov(x,u) $’in doğru olduğundan oldukça emin olabiliriz.
Çalışmanın başında yer alan modele bağlı olarak, eğitim için başka bir seçenek, büyürken kardeş sayısıdır (kardeşler). Tipik olarak, daha fazla kardeş, daha düşük ortalama eğitim seviyeleri ile ilişkilidir. Bu nedenle, eğer kardeş sayısı yetenek ile ilişkili değilse, eğitim için araçsal bir değişken olarak hareket edebilir.
İkinci bir örnek olarak, sınıf atlamanın final sınavı puanı üzerindeki nedensel etkisini tahmin etme problemini ele alalım.
Modelimiz:
\[score= \beta_0+\beta_1 skipped+ u\]
Burada puan: final sınavı puanı, atlanan: dönem boyunca kaçırılan toplam ders sayısıdır.
Kesinlikle atlanmanın u’daki diğer faktörlerle ilişkili olduğundan emin olmayabiliriz. Daha iyi öğrenciler daha az dersi kaçırabilir. Bu nedenle, atlanan puanın basit bir regresyonu bize eksik sınıfların nedensel etkisine dair iyi bir tahmin vermeyebilir.
Atlananlar için iyi bir seçenek ne olabilir?
Puan üzerinde doğrudan etkisi olmayan ve öğrenci becerisiyle ilişkili olmayan bir şeye ihtiyacımız var. Bir seçenek, yaşam alanları ile kampüs arasındaki mesafeyi kullanmaktır. Büyük bir üniversitedeki bazı öğrenciler kampüse gidip gelirler, bu da dersleri kaçırma olasılığını artırabilir (kötü hava, fazla uyuma vb. nedenlerle). Böylece atlanan, mesafe ile olumlu bir şekilde ilişkili olabilir; bu, daha önce açıklandığı gibi atlanan mesafeye gerileme ve bir t testi yaparak kontrol edilebilir.
Söz konusu örnek için yazdığımız basit regresyon modelinde, u’daki bazı faktörler mesafe ile ilişkili olabilir. Örneğin, düşük gelirli ailelerden gelen öğrenciler kampüs dışında yaşayabilir; gelir öğrenci performansını etkiliyorsa, bu mesafenin u ile ilişkilendirilmesine neden olabilir. Puanı etkileyen diğer faktörlerin doğrudan modele dahil edilebilmesi için çoklu regresyon bağlamında nasıl kullanılacağını gösterir.
$Cov(z,u) = 0 $ ile $ Cov(z,x) = 0 $ varsayımları, parametre 1’i tanımlamaya yarar. Bu bağlamda bir parametrenin tanımlanması, 1’i popülasyon momentleri cinsinden yazabileceğimiz anlamına gelir. Popülasyon kovaryansları cinsinden 1 yazmak için denklem yukarıda yer alan basit regresyon modelini kullanırız: z ve y arasındaki kovaryans
\[Cov(z,y)=cov(z,\beta_0+ \beta_1 x +u)=\beta_1Cov(z,x)+Cov(z,u)\]
Böylece, 1’i şu şekilde çözebiliriz:
\[\beta_1 = \frac{Cov(z,y)} {Cov(z,x)}\]
Eğer z ve x ilişkisizse, yani Cov(z,x) 0 ise bu basit cebirin nasıl başarısız olduğuna dikkat edin. Yukarıdaki denklemin, 1’in z ve y arasındaki popülasyon kovaryansının bölü arasındaki popülasyon kovaryansına eşit olduğunu gösterir. 1’in tanımlandığını gösteren z ve x. Rastgele bir örnek verildiğinde, örnek analogları ile popülasyon miktarlarını tahmin ediyoruz. Pay ve paydadaki örneklem büyüklüklerini iptal ettikten sonra, araç değişken tahmincisi 1’i elde ederiz:
\(\beta_1\) tahmincisi:
\(\beta_1= \frac{cov(z,y)} {cov(z,x)}\)
\[\beta_1=\frac {{\sum_{i=1}^n}({z_i}-{\bar z}) ({y_i}-{\bar y})}{{\sum_{i=1}^n}({z_i}-{\bar z}) ({x_i}-{\bar x})}\]
\(\beta_0\) tahmincisi:
\(\beta_0=\bar y- \beta_1 \bar x\)
Model varsayımlarından herhangi biriş başarısız olursa tahminlerin tutarlı olmadığı anlaşılmaktadır.
2.kitap
#İki Aşamalı En Küçük Kareler Yöntemi
Basit Regresyon Modellerinde Araçsal Değişkenler
Araçsal değişkenler(IV) basit resgresyon modeli
\[y=\beta_0 + \beta_1 x + u \]
OLS parametresi için OLS tahmini \(\beta_1^{OLS} = \frac {Cov(x,y)}{Var(x)}\)
u hata terimi ile ilişkili olduğunda, OLS parametresi tutarsız olacaktır.
Geçerli bir araç değişkeni z var ise IV tahmin edicisini kullanarak tutarlı bir tahmin yapa biliriz
\[\beta^{IV}_1 = \frac{Cov(z,y)} {Cov(z,x)}\]
AER: R ile Uygulamalı Ekonometri
stargazer paketi: özet istatistik tabloları, veri çerçeveleri, vektörler ve matrislerin yanı sıra birden çok modeli yan yana içeren iyi biçimlendirilmiş regresyon tabloları için LATEX kodu, HTML kodu ve ASCII metni oluşturan bir R paketidir
library(AER)
## Zorunlu paket yükleniyor: car
## Zorunlu paket yükleniyor: carData
## Zorunlu paket yükleniyor: lmtest
## Zorunlu paket yükleniyor: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Zorunlu paket yükleniyor: sandwich
## Zorunlu paket yükleniyor: survival
library(stargazer)
##
## Please cite as:
## Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
MROZ.data’dan elde edilen veri seti kullanılmıştır.
Bu örnekte kadınların eğitime geri dönüşünü tahmin ediyoruz. Eğitim için araç değişkeni olarak babanın eğitimini kullandık.
data(mroz, package='wooldridge')
!is.na(),eksik olmayan ücret gözlemleriyle sınırlandır.
subset() fonksiyonu, veri çerçevesinden satırları ve sütunları (R açısından gözlemler ve değişkenler) almak için kullanılan genel bir R işlevidir.
oursample <- subset(mroz, !is.na(wage))
OLS eğim parametresini yazarsak,
with (oursample, cov (log (wage), educ) / var (educ))
## [1] 0.1086487
IV Eğim parametresi
Eğitime, babanın eğitim durumu da eklenirse
with(oursample, cov (log (wage), fatheduc)/cov (educ, fatheduc))
## [1] 0.05917348
OLS Tahmini
reg.ols <- lm(log(wage) ~ educ, data=oursample)
reg.iv <- ivreg(log(wage) ~ educ | fatheduc, data=oursample)
stargazer(reg.ols, reg.iv, type="text")
##
## ===================================================================
## Dependent variable:
## ------------------------------------
## log(wage)
## OLS instrumental
## variable
## (1) (2)
## -------------------------------------------------------------------
## educ 0.109*** 0.059*
## (0.014) (0.035)
##
## Constant -0.185 0.441
## (0.185) (0.446)
##
## -------------------------------------------------------------------
## Observations 428 428
## R2 0.118 0.093
## Adjusted R2 0.116 0.091
## Residual Std. Error (df = 426) 0.680 0.689
## F Statistic 56.929*** (df = 1; 426)
## ===================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Model sonuçlarına bakılırsa
\[log(wage)=\beta_0+ \beta_1educ+u\]
Modelde değerleri yerine yerleştirirsek
\[log(wage)=0,185+0.109 educ+u\] \[(0,185) (0,14)\] \[n=428, R^2=0,118\]
Sonuç olarak _1 için yapılan tahmin neredeyse %11’lik bir getiri anlamına gelir.
Daha sonra eğitim için araçsal değişken olarak babanın eğitim durumu kullanılır.
Eğitim ile babanın eğitim düzeyi ilişkilidir.
Babanın eğitiminin basit bir regresyon kullanarak kolayca kontrol edilebilir.
\[educ=10,24 + 0,269 fatheduc\] \[(0,28) (0,029)\]
\[n=428, R^2= 0,173\]
Sonuç olarak babanın eğitim durumuna ilişkin t istatistik değeri 9,28’dir. Bu da eğitim ve babanın eğitim durumunun istatistiksel olarak anlamlı bir pozitif korelasyona sahipolduğu anlamına gelmektedir.
\[log(wage)= 0,441+ 0,059 educ\]
Sonuç olarak OLS tahmininin yaklaşık yarısı olan %5,9’dur. Bu OLS tahmininin çok yüksek olduğubu ve ihmal edilen yetenek yanlılığıyla tutarlı olduğunu gösterir.
ÖRNEK 2
Erkeklerin eğitime geri dönüşünü tahmin etmek için WAGE2.RAW veri setini kullandık. Kardeş sayısı (sibs) değişkeninin eğitim için bir araç olarak kullanıyoruz.
Basit doğrusal regresyon modeli olarak gösterirsek
\[educ=14.14-0,228sibs\] \[(0,11) (0,030)\] \[n=935, R^2 =0,057\]
Model sonuçlarına göre, her kardeşin ortalama olarak yaklaşık 0,23 daha az eğitim yılı ile ilişkili olduğunu ifade etmektedir.
Eğitim için bir IV olarak kardeşleri kullanarak tahmin denklemi
\[log(wage)=5,13+0,122educ\] \[(0,36) (0,026)\] \[n=935\]
Bu modelde, \(R^2\) negatif olduğu için sonuçlarda yer verilmemiştir.
Kardeşler aynı zamanda yetenekle ilişkili ola bilir. Daha fazla kardeş daha az ebeveyn ilgisi görebildiği anlamına gelir ve bu da daha düşük yetenekle sonuçlana bilir.
Angrist(1990), Vietnam savaşında gazi olmanın ömür boyu gelir üzerindeki etkisini inceledi. Bait bir regresyon modeli:
\[log(earns)=\beta_0+\beta_1 veteran+u\]
İKİ AŞAMALI EN AZ KARELER
Bu bölümde, birden fazla araç değişkenin nasıl kullanılacağına bakacağız.
Tek Bir İçsel Açıklayıcı Değişken
Bir içsel ve bir dışsal açıklayıcı değişkeni olan yapısal modeli yeniden ele alalım. Şimdi iki dışsal değişkenimiz olduğunu varsayalım: z2 ve z3’ün her ikisi de y2 ile ilişkiliyse, önceki bölümde olduğu gibi her birini IV olarak kullanabiliriz. Ancak o zaman iki IV tahmincimiz olur ve bunların hiçbiri genel olarak verimli olmaz. z1, z2 ve z3’ün her biri u1 ile ilişkisiz olduğundan, herhangi bir lineer kombinasyon da u1 ile ilişkisizdir ve bu nedenle dışsal değişkenlerin herhangi bir lineer kombinasyonu geçerli bir IV’tür.
En iyi IV’ü bulmak için y2 ile en yüksek korelasyona sahip doğrusal kombinasyonu seçiyoruz. Bu, y2 için indirgenmiş form denklemi tarafından verilir.
\[y_2=\pi_0+\pi_1 z_1 + \pi_2 z_2 + \pi_3 z_3+v_2\]
\(E(v_2)=0, Cov(z_2,v_2)=0\) and \(Cov(z_3,v_2)=0\)
#Zayıf Enstrümantal Değişkenli IV’ün Özellikleri
#Daha Dışsal Regresörler
Bu örnekte üniversite yakınlık durumunu eğitim için IV olarak kullanmayı göstereceğiz
Bu örnekte eğitime dönüşü tahmin etmek için CARD.data veri setini kullandık. Eğitim içseldir ve bireyin üniversiteye yakın bir yerde büyüyüp büyümediğini gösteren nearc4 kukla değişkeni kullanılır.
Buna ek olarak ırk, deneyim ve bölgesel bilgiler de modele dahil edilir.
data(card, package='wooldridge')
redf<-lm(educ~ nearc4+exper+I(exper^2)+black+smsa+south+smsa66+reg662+reg663+reg664+reg665+reg666+reg667+reg668+reg669, data=card)
OLS
ols<-lm(log(wage)~educ+exper+I(exper^2)+black+smsa+south+smsa66+reg662+reg663+reg664+reg665+reg666+reg667+reg668+reg669, data=card)
IV
iv <-ivreg(log(wage)~educ+exper+I(exper^2)+black+smsa+south+smsa66+reg662+reg663+reg664+reg665+reg666+reg667+reg668+reg669 | nearc4+exper+I(exper^2)+black+smsa+south+smsa66+reg662+reg663+reg664+reg665+reg666+reg667+reg668+reg669, data=card)
stargazer (redf, ols, iv, type="text", keep=c("ed", "near", "exp", "bl"), keep.stat=c("n", "rsq"))
##
## =============================================
## Dependent variable:
## --------------------------------
## educ log(wage)
## OLS OLS instrumental
## variable
## (1) (2) (3)
## ---------------------------------------------
## nearc4 0.320***
## (0.088)
##
## educ 0.075*** 0.132**
## (0.003) (0.055)
##
## exper -0.413*** 0.085*** 0.108***
## (0.034) (0.007) (0.024)
##
## I(exper2) 0.001 -0.002*** -0.002***
## (0.002) (0.0003) (0.0003)
##
## black -0.936*** -0.199*** -0.147***
## (0.094) (0.018) (0.054)
##
## ---------------------------------------------
## Observations 3,010 3,010 3,010
## R2 0.477 0.300 0.238
## =============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
#İki Aşamalı En Küçük Kareler
İki aşamalı en küçük kareler (2SLS) bir veya daha fazla içsel regresöre ve en az o kadar ek araç değişkenine sahip olunan IV tahmini için genel yaklaşımı ifade etmektedir.
\[y_1=\beta_0+\beta_1 y_2+\beta_2 y_3 + \beta_3 z_1+ \beta_4 z_2+ \beta_5 z_3+ u_1\]
Modelde \(y_2\) ve \(y_3\) regresörleri \(u_1\) hata terimi ile ilişkilidir. \(z_1\) , \(z_2\) ve \(z_3\) regresörlerinin dışsal olduğu kabul edilir.
Ele alacağımız örnekte çalışan kadınların Eğitime dönüşü test edilmiştir.
MROZ.data veri setinden kadınların eğpitime dönüşünü tahmin ediyoruz.
Bu örnekte hem annenin hem de babanın eğitim durumunu kendi eğitimimiz için bir araç değişkeni olarak kullanabiliriz.
data(mroz, package='wooldridge')
oursample <- subset(mroz, !is.na (wage))
stagel <- lm (educ~exper+I(exper^2)+motheduc+fatheduc, data=oursample)
\[log(wage)=\beta_0+ \beta_1educ+ \beta_2exper+\beta_3exper^2 + u_1\]
\[educ=\pi_0+\pi_1educ+ \pi_2exper^2+\pi_3motheduc + \pi_4fatheduc + v_1\]
MROZ.RAW veri setini kullanarak tahmin ediyoruz.
man.2SLS<-lm (log (wage)~fitted(stagel) +exper+I (exper^2), data=oursample)
aut.2SLS<-ivreg(log (wage)~educ+exper+I(exper^2) | motheduc+fatheduc+exper+I(exper^2), data=oursample)
stargazer(stagel,man.2SLS,aut.2SLS, type="text",keep.stat=c("n","rsq"))
##
## =============================================
## Dependent variable:
## ------------------------------
## educ log(wage)
## OLS OLS instrumental
## variable
## (1) (2) (3)
## ---------------------------------------------
## fitted(stagel) 0.061*
## (0.033)
##
## educ 0.061*
## (0.031)
##
## exper 0.045 0.044*** 0.044***
## (0.040) (0.014) (0.013)
##
## I(exper2) -0.001 -0.001** -0.001**
## (0.001) (0.0004) (0.0004)
##
## motheduc 0.158***
## (0.036)
##
## fatheduc 0.190***
## (0.034)
##
## Constant 9.103*** 0.048 0.048
## (0.427) (0.420) (0.400)
##
## ---------------------------------------------
## Observations 428 428 428
## R2 0.211 0.050 0.136
## =============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Regresörlerin Dışsallığının Tahmin edilmesi
Yine hem annenin hem de babanın eğitimini araç olarak kullanıyoruz. Parametre sonuçları hem 2SLS hem de otomatik regresyon sonuçlarıyla aynıdır. Yine aynı veri setini kullanarak örneğe devam edelim.
data(mroz, package='wooldridge')
oursample <- subset (mroz, !is.na (wage))
stagel<-lm (educ~exper+I(exper^2) +motheduc+fatheduc, data=oursample)
stage2<-lm (log (wage)~educ+exper+I(exper^2) +resid (stagel), data=oursample)
coeftest(stage2)
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.04810030 0.39457526 0.1219 0.9030329
## educ 0.06139663 0.03098494 1.9815 0.0481824 *
## exper 0.04417039 0.01323945 3.3363 0.0009241 ***
## I(exper^2) -0.00089897 0.00039591 -2.2706 0.0236719 *
## resid(stagel) 0.05816661 0.03480728 1.6711 0.0954406 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Model sonuçlarına göre
2SLS ile tahmin ettiğimizde, denklemimiz
\[log(wage)=0,048 + 0,061 educ +0,044 exper - 0,0009 exper^2\]
\[(0,400) (0,031) (0,013) (0,0004)\]
\[n=428, R^2= 0,136\]
Sonuç, beklendiği gibi, eğitim (kısmen) ebeveynlerin eğitimi ile ilişkilidir.
Aşırı Tanımlama Kısıtlamalarını Test Etme
Değişkenlerin hepsini veya bir kısmını kullanabilir. Hepsini kullandığımız takdirde 2SLS tahmincisinin doğruluğunu arttırır ve standart hatalarını azaltır.
MROZ.data veri setini kullandık.
data (mroz, package='wooldridge')
oursample <- subset(mroz, !is.na (wage))
IV regresyon
summary(res.2sls <- ivreg(log(wage)~educ+exper+I(exper^2) | exper+I(exper^2)+motheduc+fatheduc,data=oursample) )
##
## Call:
## ivreg(formula = log(wage) ~ educ + exper + I(exper^2) | exper +
## I(exper^2) + motheduc + fatheduc, data = oursample)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0986 -0.3196 0.0551 0.3689 2.3493
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0481003 0.4003281 0.120 0.90442
## educ 0.0613966 0.0314367 1.953 0.05147 .
## exper 0.0441704 0.0134325 3.288 0.00109 **
## I(exper^2) -0.0008990 0.0004017 -2.238 0.02574 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6747 on 424 degrees of freedom
## Multiple R-Squared: 0.1357, Adjusted R-squared: 0.1296
## Wald test: 8.141 on 3 and 424 DF, p-value: 2.787e-05
res.aux <- lm(resid(res.2sls) ~ exper+I(exper^2)+motheduc+fatheduc, data = oursample)
(r2 <- summary(res.aux)$r.squared)
## [1] 0.0008833444
(n <-nobs (res.aux))
## [1] 428
(teststat <- n*r2)
## [1] 0.3780714
(pval <- 1-pchisq(teststat, 1))
## [1] 0.5386372
İş Eğitimi ve İşçi Verimliliği.
Bir saatlik işçi eğitiminin işçi verimliliği üzerşndeki etkisini tahmin etmek istediğimizi varsayalım. 1987 ve 1988 yıllarına ait panel veri modelini yazarsak
\[log(scarp_{it=})= \beta_0 + \delta_0 d88_t + \beta_1 hrsemp_it + a_i + u_{it}, t = 1,2\]
Modelde \(scarp_{it}=\), t yılındaki hurda oranı ve \(hrsemp_{it}\) çalışan başına iş eğitimi saatini ifade etmektedir.
\[log(scarp_i) = \delta_0 + \beta_1 \delta hrsemp_i + \delta u_i\]
Normalde bu modeli OLS ile tahmin edebiliriz. Fakat \(\delta u_i\) ile \(\delta hrsemp_i\) ile ilişkili olursa farklı model tercih edilir.
Bir firma aynı zamanda iş eğitimi seviyesini düşürürken daha vasıflı işçileri işe alabilir. Bu durumda \(\delta hrsemp_i\) için bir araç değişkene ihtiyacımız var.
Bu durumda IV bulmak zor olduğundan bazı firmaların 1988’de iş eğitimi hibeleri aldığı gerçeğinden yararlanabiliriz.
JTRAIN.dta veri setini kullandık.
Örnekte 1987 ve 1988 yıllarına ait alt küme seçiyoruz.
plm, lineer panel modellerinin tahminini basitleştirmeyi amaçlayan R için bir pakettir.
library (plm)
JTRAIN veri setine ilişkin veriler yüklenmiştir.
data (jtrain, package='wooldridge')
Panel verileri tanımlamak için aşağıdaki işlem uygulanır (yalnızca 1987 ve 1988 için)
jtrain.87.88 <- subset (jtrain, year<=1988)
‘pdata.frame’, bireysel ve zaman boyutlarını açıklayan bir index özniteliğine sahip bir data.frame’dir.
jtrain.p<-pdata.frame(jtrain.87.88, index=c("fcode","year"))
Son olarak çalışma anaizini summary fonksiyonu ile özet haline dönüştürüyoruz.
summary(plm (log(scrap)~hrsemp|grant, model="fd", data=jtrain.p))
## Oneway (individual) effect First-Difference Model
## Instrumental variable estimation
## (Balestra-Varadharajan-Krishnakumar's transformation)
##
## Call:
## plm(formula = log(scrap) ~ hrsemp | grant, data = jtrain.p, model = "fd")
##
## Unbalanced Panel: n = 47, T = 1-2, N = 92
## Observations used in estimation: 45
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -2.3088292 -0.2188848 -0.0089255 0.2674362 2.4305637
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## (Intercept) -0.0326684 0.1269512 -0.2573 0.79692
## hrsemp -0.0141532 0.0079147 -1.7882 0.07374 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 17.29
## Residual Sum of Squares: 17.015
## R-Squared: 0.061927
## Adj. R-Squared: 0.040112
## Chisq: 3.19767 on 1 DF, p-value: 0.073743
\[hrsemp=0,051+27,88 \delta grant\]
\[(1,56) (3,13)\]
\[n=45, R^2=0,392\]
Sonuçlara bakılırsa, çalışan başına iş eğitimi saatindeki değişikliğin, 1988’de bir iş eğitimi hibesi almakla güçlü bir pozitif şekilde ilişkili olduğu görülmektedir.
Bir iş eğitimi hibesi almak, çalışan başına eğitimi yaklaşık 28 saat arttırmıştır ve hibe tahsisi yaklaşık 40 saattir.
\[log(scarp) = -0,033 - 0,014 \delta hrsemp\]
\[(0,127) (0,008)\]
\[n=45, R^2= 0,016\]
Sonuçlara göre, işçi başına 10 saat daha iş eğitiminin hurda oranı yaklaşık %14 oranında azaltacağını göstermektedir.
Firmalar için 1988’de ortalama iş eğitimi işçi başına yaklaşık 17 saat olup, minimum sıfır, maksimum 88 saattir.