Ödev 1

Soru 1) 4137 üniversite öğrencisi üzerinde GPA2’deki verileri kullanarak en küçük kareler (OLS)tarafından aşağıdaki denklem tahmin edilmiştir:

üniversite.not.ortalaması=1.392-0 lmsyd, öğrencilerin lise mezuniyet sınıflarındaki yüzdelik dilimi göstermektedir. Örneğin, lmsyd=5, sınıfın ilk %5’inde olduğu anlamına gelir. sat, öğrenci başarı testindeki birleştirilmiş matematik ve sözel puanlardır. 1-a)lmsyd katsayısının negatif olması neden mantıklıdır? cevap:lmsyd, ne kadar küçükse öğrencinin lisedeki durumu o kadar düşük olacak şekilde tanımlanır. Diğer her şey eşittir, öğrencinin lisedeki durumu ne kadar kötüyse, beklenen üniversite not ortalaması o kadar düşük olur. 1-b)lmsyd = 20 ve sat = 1.050 olduğunda tahmini üniversite not ortalaması nedir? cevap:Sadece bu değerleri denkleme yerleştirin 1.392-0.0135.20+0.00148.1050=2. 1-c)Diyelim ki iki lise mezunu, A ve B, liseden aynı yüzdelik dilimde mezun oldular. Ancak Öğrenci A’nın SAT puanı 140 puan daha yüksek. (aynı zamanda yaklaşık bir standart sapmaya sahip). Bu iki öğrenci için üniversite not ortalamasında tahmini fark nedir? Bu fark büyük bir fark mı? cevap:A ve B arasındaki fark, sat katsayısının 140 katıdır, çünkü lmsyd her iki öğrenci için de aynıdır. Dolayısıyla A’nın 0.00148.(140)=0.207 daha yüksek bir puana sahip olduğu tahmin edilmektedir. ## soru 2)Aşağıdaki model, Biddle ve Hamermesh (1990) tarafından uyumak ve çalışmak için harcanan zaman arasındaki dengeyi incelemek ve uykuyu etkileyen diğer faktörleri incelemek için kullanılan çoklu regresyon modelinin basitleştirilmiş bir versiyonudur. uyku=ß0+ß1toplam.iş+ß2eğitim+ß3yaş+u uyku ve toplam iş dakikayla, eğitim ve yaş yılla hesaplanmıştır. 2-a)`Yetişkinler iş için uykuyu takas ediyorsa, ß1’in işareti nedir? cevap:Diğer herşey eşit olduğunda, yetişkinler uykuyu iş için tercih ediyorsa, daha fazla iş daha az uyku anlamına gelir, bu yüzden ß1<0`olur. 2-b)ß2 ve ß3`’ün hangi işaretleri olacağını düşünüyorsunuz? cevap:ß2 ve ß3 şaretleri kişiden kişiye göre değişir. Vereceğiniz örneklere göre bu katsayıların işaretleri eksi veya artı olabilir. Bu yüzden bu çalışma için herhangi bir beklenti içinde olamayız. Kimi yaş ilerledikçe uykunun azaldığını söyler, kimi arttığını ve bunu gerekçeleriyle örneklendirebilir. Aynı durum eğitim ile ilgili olarak da tartışılabilir.. 2-c)SLEEP75’teki verileri kullanarak, tahmin edilen denklem şu şekildedir:{uyku=3,638.25-0.148toplam.iş-11.13eğitim+2.20yaş Birisi haftada beş saat daha fazla çalışırsa, uykunun kaç dakika düşeceği tahmin edilir? bu büyük bir takas mı? d.Eğitim üzerindeki tahmini katsayının üzerindeki işaretini ve büyüklüğünü tartışın. e.Uykudaki çeşitliliğin çoğunu toplam iş, eğitim ve yaşın açıkladığını söyleyebilir misiniz? Uyuyarak geçirilen süreyi başka hangi faktörler etkileyebilir? Bunların toplam iş ile ilişkili olması muhtemel mi? cevap:Uyku ve toplam iş dakika ile ölçüldüğünden 5 saati dakikaya çevirmeniz gerekir(5.60=300). 300 dakikayı formülde yerine koyarsak 0.148*300=44.4 dakika. Uyku bir hafta içinde 44.4 dakika düşer bunun çok fazla bir düşüş olduğunu söyleyemeyiz. d.Daha fazla eğitim, daha az tahmini uyku süresi anlamına gelir, ancak etkisi oldukça küçüktür. Üniversite ile lise arasındaki farkın dört yıl olduğunu varsayarsak, modelimiz diğer değişkenler sabit olduğunda üniversite mezunu olan kişinin lise mezunu olan bir kişiye göre haftada yaklaşık 45 dakika (11.13 ) daha az uyuduğunu tahmin ediyor. ## soru 3)Üniversite not ortalamasını çeşitli etkinliklerde harcanan zamanla ilişkilendiren bir çalışma yapmak istiyorsunuz, birkaç öğrenciye bir anket dağıttınız. Öğrencilere her hafta dört aktivitede kaç saat geçirdikleri sordunuz: ders çalışmak, uyumak, bir işte çalışmak ve boş zaman. Herhangi bir aktivite dört kategoriden birine konur, böylece her öğrenci için dört aktivitedeki saatlerin toplamı 168 olmalıdır. not.ortalaması=ß0+ß1ders.çalışma+ß2uyumak+ß3iş.çalışma+ 3-a)ß1’i yorumladığınızda çalışmayı değiştirirken uykuyu, işi ve boş zamanları sabit tutmak mantıklı mı? cevap:Hayır. Tanım olarak, çalışma + uyku + iş + boş zaman = 168. Bu nedenle, çalışmayı değiştirirsek, toplamın hala 168 olması için diğer kategorilerden en az birini değiştirmeliyiz. 3-b)Bu modelin neden MLR.3 Varsayımını ihlal ettiğini açıklayın. cevap:kısmından, mesela iş değişkenini diğer bağımsız değişkenlerin mükemmel bir lineer fonksiyonu olarak yazabiliriz: iş=168-uyku-ders-boşzaman Bu her gözlem için geçerlidir, dolayısıyla MLR.3 ihlal edilmiştir. 3-c)Modeli, parametrelerinin faydalı bir yoruma sahip olması için nasıl yeniden formüle edebilirsiniz ve varsayım MLR.3’ü ihlal edilmez? cevap:Bağımsız değişkenlerden birini modelden çıkarın, mesela boş zaman değişkenini çıkarın: not.ortalaması=ß0+ß1ders.çalışma+ß2uyumak+ß3iş.çalışma+ Bu durumda, ß1 ders çalışma bir saat arttığında, uyku, iş ve u sabit tutulduğu zaman not ortalamasındaki değişiklik olarak yorumlanır. Uykuyu ve çalışmayı sabit tutuyoruz, ancak ders çalışmayı bir saat artırıyorsak, boş zamanı bir saat azaltıyor olmalıyız. Diğer eğim parametreleri de benzer bir yoruma sahiptir. ## VERİ SORULARI A)
library(wooldridge) library(rmarkdown) data(“bwght”) head(bwght)

```{## faminc cigtax cigprice bwght fatheduc motheduc parity male white cigs ## 1 13.5 16.5 122.3 109 12 12 1 1 1 0 ## 2 7.5 16.5 122.3 133 6 12 2 1 0 0 ## 3 0.5 16.5 122.3 129 NA 12 2 0 0 0 ## 4 15.5 16.5 122.3 126 12 12 2 1 0 0 ## 5 27.5 16.5 122.3 134 14 12 2 1 1 0 ## 6 7.5 16.5 122.3 118 12 14 6 1 0 0 ## lbwght bwghtlbs packs lfaminc ## 1 4.691348 6.8125 0 2.6026897 ## 2 4.890349 8.3125 0 2.0149031 ## 3 4.859812 8.0625 0 -0.6931472 ## 4 4.836282 7.8750 0 2.7408400 ## 5 4.897840 8.3750 0 3.3141861 ## 6 4.770685 7.3750 0 2.0149031r}

kullanacağımız değişkenlerin tanımları

-faminc: 1988 family income, $1000s, 1988 aile geliri -cigs: cigs smked per day while preg, hamileyken içilen günlük sigara sayısı -bwght: birth weight, ounces, doğum ağırlığı, ons B) Bir yandan, gelirdeki bir artış genellikle gıda tüketimini arttırır ve sigara ile aile geliri arasında pozitif bir ilişki olabilir. Öte yandan, daha fazla eğitime sahip ailelerin aile gelirleri de daha yüksektir ve daha fazla eğitim ile sigara içme arasında olumsuz bir ilişki vardır. C)Sigara ve faminc arasındaki örnek korelasyonu yaklaşık -0.173’tür ve negatif bir korelasyona işaret eder. D) ```{ilkreg <- lm(bwght~ cigs,data = bwght) ikincireg<- lm(bwght~ cigs+faminc,data = bwght) library(stargazer) ## ## Please cite as: ## Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables. ## R package version 5.2.2. https://CRAN.R-project.org/package=stargazer stargazer(list(ilkreg,ikincireg),type = “text”) ## ## ===================================================================== ## Dependent variable:
## ————————————————- ## bwght
## (1) (2)
## ——————————————————————— ## cigs -0.514*** -0.463***
## (0.090) (0.092)
##
## faminc 0.093***
## (0.029)
##
## Constant 119.772*** 116.974***
## (0.572) (1.049)
##
## ——————————————————————— ## Observations 1,388 1,388
## R2 0.023 0.030
## Adjusted R2 0.022 0.028
## Residual Std. Error 20.129 (df = 1386) 20.063 (df = 1385)
## F Statistic 32.235*** (df = 1; 1386) 21.274*** (df = 2; 1385) ## ===================================================================== ## Note: p<0.1; p<0.05; p<0.01 Denklem şeklinde raporr}

2-A)

data("discrim")
head(discrim)
##   psoda pfries pentree wagest nmgrs nregs hrsopen  emp psoda2 pfries2 pentree2
## 1  1.12   1.06    1.02   4.25     3     5    16.0 27.5   1.11    1.11     1.05
## 2  1.06   0.91    0.95   4.75     3     3    16.5 21.5   1.05    0.89     0.95
## 3  1.06   0.91    0.98   4.25     3     5    18.0 30.0   1.05    0.94     0.98
## 4  1.12   1.02    1.06   5.00     4     5    16.0 27.5   1.15    1.05     1.05
## 5  1.12     NA    0.49   5.00     3     3    16.0  5.0   1.04    1.01     0.58
## 6  1.06   0.95    1.01   4.25     4     4    15.0 17.5   1.05    0.94     1.00
##   wagest2 nmgrs2 nregs2 hrsopen2 emp2 compown chain density    crmrte state
## 1    5.05      5      5     15.0 27.0       1     3    4030 0.0528866     1
## 2    5.05      4      3     17.5 24.5       0     1    4030 0.0528866     1
## 3    5.05      4      5     17.5 25.0       0     1   11400 0.0360003     1
## 4    5.05      4      5     16.0   NA       0     3    8345 0.0484232     1
## 5    5.05      3      3     16.0 12.0       0     1     720 0.0615890     1
## 6    5.05      3      4     15.0 28.0       0     1    4424 0.0334823     1
##     prpblck    prppov   prpncar hseval nstores income county     lpsoda
## 1 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.11332869
## 2 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.05826885
## 3 0.0473602 0.0879072 0.2694298 169200       3  41164     12 0.05826885
## 4 0.0528394 0.0591227 0.1366903 171600       3  50366     10 0.11332869
## 5 0.0344800 0.0254145 0.0738020 249100       1  72287     10 0.11332869
## 6 0.0591327 0.0835001 0.1151341 148000       2  44515     18 0.05826885
##       lpfries  lhseval  lincome ldensity NJ BK KFC RR
## 1  0.05826885 11.90699 10.70401 8.301521  1  0   0  1
## 2 -0.09431065 11.90699 10.70401 8.301521  1  1   0  0
## 3 -0.09431065 12.03884 10.62532 9.341369  1  1   0  0
## 4  0.01980261 12.05292 10.82707 9.029418  1  0   0  1
## 5          NA 12.42561 11.18840 6.579251  1  1   0  0
## 6 -0.05129331 11.90497 10.70358 8.394799  1  1   0  0
help(discrim)r}

2-B)
```{
mean(discrim$prpblck)
## [1] NA
sd(discrim$prpblck)
## [1] NA
mean(discrim$income)
## [1] NA
sd(discrim$income)
## [1] NAr}
2-C)
```{discrimreg <- lm(psoda~prpblck+income, data = discrim)
summary(discrimreg)
## 
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.29401 -0.05242  0.00333  0.04231  0.44322 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.563e-01  1.899e-02  50.354  < 2e-16 ***
## prpblck     1.150e-01  2.600e-02   4.423 1.26e-05 ***
## income      1.603e-06  3.618e-07   4.430 1.22e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08611 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06422,    Adjusted R-squared:  0.05952 
## F-statistic: 13.66 on 2 and 398 DF,  p-value: 1.835e-06r}
2-D)
```{basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)
## 
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.30884 -0.05963  0.01135  0.03206  0.44840 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.03740    0.00519  199.87  < 2e-16 ***
## prpblck      0.06493    0.02396    2.71  0.00702 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0881 on 399 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.01808,    Adjusted R-squared:  0.01561 
## F-statistic: 7.345 on 1 and 399 DF,  p-value: 0.007015r}
2-E)logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logdiscrimreg)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.33563 -0.04695  0.00658  0.04334  0.35413 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.79377    0.17943  -4.424 1.25e-05 ***
## prpblck      0.12158    0.02575   4.722 3.24e-06 ***
## log(income)  0.07651    0.01660   4.610 5.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0821 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06809,    Adjusted R-squared:  0.06341 
## F-statistic: 14.54 on 2 and 398 DF,  p-value: 8.039e-07
paste( (0.2*100)*0.122, "yüzdelik artış")
## [1] "2.44 yüzdelik artış"
2-F)
```{logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32218 -0.04648  0.00651  0.04272  0.35622 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.46333    0.29371  -4.982  9.4e-07 ***
## prpblck      0.07281    0.03068   2.373   0.0181 *  
## log(income)  0.13696    0.02676   5.119  4.8e-07 ***
## prppov       0.38036    0.13279   2.864   0.0044 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08137 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08696,    Adjusted R-squared:  0.08006 
## F-statistic:  12.6 on 3 and 397 DF,  p-value: 6.917e-08r}

odev 4.1
ZEYNEP İRİ

RMARKDOWN
1 markdown (why we use rmarkdownin our r program -> when we want to tabulate the data on that time we use rmarkdown for example page-table and let's clarify with example below)


```r
library(wooldridge)
library(rmarkdown)
data("smoke")

paged_table(smoke)

summary(lm(formula = educ ~ cigpric + white + age + income + cigs + restaurn + lincome + agesq , data = smoke))

## 
## Call:
## lm(formula = educ ~ cigpric + white + age + income + cigs + restaurn + 
##     lincome + agesq, data = smoke)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.1494 -1.7496 -0.1991  1.8541  7.4504 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.644e+00  3.165e+00   2.415 0.015966 *  
## cigpric      9.596e-03  2.120e-02   0.453 0.650869    
## white       -8.269e-02  3.058e-01  -0.270 0.786930    
## age          1.201e-01  3.383e-02   3.550 0.000408 ***
## income       8.446e-05  2.777e-05   3.041 0.002434 ** 
## cigs        -2.174e-02  7.367e-03  -2.950 0.003267 ** 
## restaurn     7.831e-02  2.352e-01   0.333 0.739280    
## lincome      1.228e-01  3.575e-01   0.344 0.731233    
## agesq       -1.649e-03  3.676e-04  -4.487 8.29e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.808 on 798 degrees of freedom
## Multiple R-squared:  0.1647, Adjusted R-squared:  0.1563 
## F-statistic: 19.67 on 8 and 798 DF,  p-value: < 2.2e-16

STARGAZER veri setindekilere özet olarak ulaşmamıza yarar

veri1<- lm(educ ~ cigpric + white + log(age) + income + cigs + restaurn + lincome + agesq + lcigpric ,data = smoke)

veri2<- lm(educ ~ cigpric + white + age + scale(income) + cigs + restaurn + lincome + agesq + lcigpric ,data = smoke)

library(stargazer)

## 
## Please cite as:

##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.

##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer

stargazer(veri1 , veri2 , type = "text")

## 
## ===========================================================
##                                    Dependent variable:     
##                                ----------------------------
##                                            educ            
##                                     (1)            (2)     
## -----------------------------------------------------------
## cigpric                            -0.007        -0.011    
##                                   (0.312)        (0.313)   
##                                                            
## white                              -0.097        -0.083    
##                                   (0.305)        (0.306)   
##                                                            
## log(age)                          2.972***                 
##                                   (0.663)                  
##                                                            
## income                           0.0001***                 
##                                  (0.00003)                 
##                                                            
## age                                             0.120***   
##                                                  (0.034)   
##                                                            
## scale(income)                                   0.773***   
##                                                  (0.254)   
##                                                            
## cigs                             -0.023***      -0.022***  
##                                   (0.007)        (0.007)   
##                                                            
## restaurn                           0.084          0.076    
##                                   (0.236)        (0.238)   
##                                                            
## lincome                            0.070          0.122    
##                                   (0.357)        (0.358)   
##                                                            
## agesq                            -0.001***      -0.002***  
##                                   (0.0002)      (0.0004)   
##                                                            
## lcigpric                           0.929          1.165    
##                                   (17.832)      (17.915)   
##                                                            
## Constant                           -1.556         5.736    
##                                   (54.267)      (54.537)   
##                                                            
## -----------------------------------------------------------
## Observations                        807            807     
## R2                                 0.172          0.165    
## Adjusted R2                        0.163          0.155    
## Residual Std. Error (df = 797)     2.797          2.810    
## F Statistic (df = 9; 797)        18.450***      17.464***  
## ===========================================================
## Note:                           *p<0.1; **p<0.05; ***p<0.01

STANDARDİDASYON

lm(scale(educ)~ scale(cigpric) + scale(white) + scale(age) + scale(age) + scale(income) + scale(cigs) + scale(restaurn) + scale(lincome) + scale(agesq) + scale(lcigpric) , data = smoke)

## 
## Call:
## lm(formula = scale(educ) ~ scale(cigpric) + scale(white) + scale(age) + 
##     scale(age) + scale(income) + scale(cigs) + scale(restaurn) + 
##     scale(lincome) + scale(agesq) + scale(lcigpric), data = smoke)
## 
## Coefficients:
##     (Intercept)   scale(cigpric)     scale(white)       scale(age)  
##      -3.579e-16       -1.660e-02       -8.844e-03        6.686e-01  
##   scale(income)      scale(cigs)  scale(restaurn)   scale(lincome)  
##       2.528e-01       -9.745e-02        1.075e-02        2.845e-02  
##    scale(agesq)  scale(lcigpric)  
##      -8.503e-01        3.159e-02

`LOGARİTMİK fiyatın yüzde değerini verir

lm(log(educ) ~ log(cigpric) + white + age + log(income) + cigs + restaurn + log(lincome) + log(lcigpric) , data = smoke)

## 
## Call:
## lm(formula = log(educ) ~ log(cigpric) + white + age + log(income) + 
##     cigs + restaurn + log(lincome) + log(lcigpric), data = smoke)
## 
## Coefficients:
##   (Intercept)   log(cigpric)          white            age    log(income)  
##     7.5844478     -0.2354189      0.0034202     -0.0030320      0.7516148  
##          cigs       restaurn   log(lincome)  log(lcigpric)  
##    -0.0009581      0.0061889     -5.6883489      1.1476488

veri1<- lm(log(educ) ~ log(cigpric)+ white + age + I(age^2)+ log(income) + cigs + restaurn + log(lincome)+ log(lcigpric) , data = smoke)

``

summary(veri1)

## 
## Call:
## lm(formula = log(educ) ~ log(cigpric) + white + age + I(age^2) + 
##     log(income) + cigs + restaurn + log(lincome) + log(lcigpric), 
##     data = smoke)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.83555 -0.12799  0.00257  0.16288  0.58025 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    8.578e+00  9.968e+00   0.861 0.389736    
## log(cigpric)   7.036e-01  6.155e+00   0.114 0.909015    
## white         -3.326e-03  2.640e-02  -0.126 0.899761    
## age            7.814e-03  2.926e-03   2.671 0.007719 ** 
## I(age^2)      -1.198e-04  3.183e-05  -3.764 0.000179 ***
## log(income)    6.920e-01  1.643e-01   4.213 2.81e-05 ***
## cigs          -1.366e-03  6.371e-04  -2.144 0.032370 *  
## restaurn       6.300e-03  2.045e-02   0.308 0.758123    
## log(lincome)  -5.289e+00  1.469e+00  -3.601 0.000337 ***
## log(lcigpric) -2.660e+00  2.485e+01  -0.107 0.914765    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2425 on 797 degrees of freedom
## Multiple R-squared:  0.1803, Adjusted R-squared:  0.171 
## F-statistic: 19.48 on 9 and 797 DF,  p-value: < 2.2e-16

hangi değişkenin açıklama gücü katmış olduğunu görürüz.

library(car)

## Zorunlu paket yükleniyor: carData

Anova(veri2)

## Anova Table (Type II tests)
## 
## Response: educ
##               Sum Sq  Df F value    Pr(>F)    
## cigpric          0.0   1  0.0012 0.9727128    
## white            0.6   1  0.0731 0.7869676    
## age             99.2   1 12.5689 0.0004151 ***
## scale(income)   72.9   1  9.2396 0.0024458 ** 
## cigs            68.3   1  8.6552 0.0033559 ** 
## restaurn         0.8   1  0.1030 0.7483211    
## lincome          0.9   1  0.1162 0.7332452    
## agesq          158.3   1 20.0524 8.635e-06 ***
## lcigpric         0.0   1  0.0042 0.9481778    
## Residuals     6292.2 797                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

veri1 <- lm(formula = educ ~ cigpric + white + age + income + cigs + restaurn + lincome + agesq + lcigpric , data = smoke)

summary(veri1)

## 
## Call:
## lm(formula = educ ~ cigpric + white + age + income + cigs + restaurn + 
##     lincome + agesq + lcigpric, data = smoke)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.1518 -1.7482 -0.1903  1.8535  7.4439 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.104e+00  5.453e+01   0.075 0.940017    
## cigpric     -1.071e-02  3.131e-01  -0.034 0.972713    
## white       -8.273e-02  3.060e-01  -0.270 0.786968    
## age          1.200e-01  3.386e-02   3.545 0.000415 ***
## income       8.452e-05  2.781e-05   3.040 0.002446 ** 
## cigs        -2.171e-02  7.380e-03  -2.942 0.003356 ** 
## restaurn     7.623e-02  2.375e-01   0.321 0.748321    
## lincome      1.220e-01  3.580e-01   0.341 0.733245    
## agesq       -1.648e-03  3.681e-04  -4.478 8.63e-06 ***
## lcigpric     1.165e+00  1.792e+01   0.065 0.948178    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.81 on 797 degrees of freedom
## Multiple R-squared:  0.1647, Adjusted R-squared:  0.1553 
## F-statistic: 17.46 on 9 and 797 DF,  p-value: < 2.2e-16

PLOT burada da çizgilerle gösterilen regresyonu çiziyoruz.

library(tidyverse)

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ ggplot2 3.4.0      ✔ purrr   0.3.5 
## ✔ tibble  3.1.8      ✔ dplyr   1.0.10
## ✔ tidyr   1.2.1      ✔ stringr 1.4.1 
## ✔ readr   2.1.3      ✔ forcats 0.5.2 
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ✖ dplyr::recode() masks car::recode()
## ✖ purrr::some()   masks car::some()

qplot(smoke$lcigpric)

## Warning: `qplot()` was deprecated in ggplot2 3.4.0.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

COMMENT

library(wooldridge)
data("smoke")

`


```r
summary(lm(formula = educ ~ cigpric + white + age + income + cigs + restaurn + lincome + agesq + lcigpric , data = smoke))

## 
## Call:
## lm(formula = educ ~ cigpric + white + age + income + cigs + restaurn + 
##     lincome + agesq + lcigpric, data = smoke)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.1518 -1.7482 -0.1903  1.8535  7.4439 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.104e+00  5.453e+01   0.075 0.940017    
## cigpric     -1.071e-02  3.131e-01  -0.034 0.972713    
## white       -8.273e-02  3.060e-01  -0.270 0.786968    
## age          1.200e-01  3.386e-02   3.545 0.000415 ***
## income       8.452e-05  2.781e-05   3.040 0.002446 ** 
## cigs        -2.171e-02  7.380e-03  -2.942 0.003356 ** 
## restaurn     7.623e-02  2.375e-01   0.321 0.748321    
## lincome      1.220e-01  3.580e-01   0.341 0.733245    
## agesq       -1.648e-03  3.681e-04  -4.478 8.63e-06 ***
## lcigpric     1.165e+00  1.792e+01   0.065 0.948178    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.81 on 797 degrees of freedom
## Multiple R-squared:  0.1647, Adjusted R-squared:  0.1553 
## F-statistic: 17.46 on 9 and 797 DF,  p-value: < 2.2e-16

```

Ödev 1

Zeynep İRİ

2022-02-21

Soru 1) 4137 üniversite öğrencisi üzerinde GPA2’deki verileri kullanarak en küçük kareler (OLS)tarafından aşağıdaki denklem tahmin edilmiştir: