library(rmarkdown)
library(wooldridge)
data("gpa2")
\(\bullet\) wooldridge paketi içerisinde “gpa2” adlı datayı kullanarak data içerisindeki birkaç veri aracılığıyla üniversite genel not ortalamasının nasıl etkilendiğini göstermeyi amaçlamaktayım.
\[ colgpa = \beta_0 + \beta_1hsize + \beta_2hsperc + \beta_3sat + \beta_4female + \beta_5athlete + \beta_6black + u . \]
\(\bullet\) Denklemde;
\(\bullet\) colgpa = Birikimli üniversite genel not ortalaması
\(\bullet\) hsize = Lisedeki son sınıfın yüz cinsinden mevcudu
\(\bullet\) hsperc = Son sınıfın akademik yüzdesi
\(\bullet\) sat = Birleştirilmiş SAT -matematik- puanı
\(\bullet\) female = İkili bir cinsiyet -kadın- değişkeni
\(\bullet\) athlete = Sporcu öğrenciler için bire eşit olan ikili bir değişken anlamına gelmektedir.
data("gpa2")
paged_table(gpa2)
\(\bullet\) Kullanılan datadaki tüm veriler pagedtable sayesinde kolayca görülebilmektedir.
require(dplyr)
## Loading required package: dplyr
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
gpa2 %>%
group_by(athlete) %>%
summarise(across(everything(), mean))
## # A tibble: 2 × 12
## athlete sat tothrs colgpa verbmath hsize hsrank hsperc female white black
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0 1036. 52.8 2.67 0.882 2.78 50.1 18.5 0.460 0.935 0.0469
## 2 1 914. 54.4 2.38 0.844 3.19 108. 34.5 0.232 0.727 0.227
## # … with 1 more variable: hsizesq <dbl>
\(\bullet\) across(everything(), mean)) işlemi ile bütün değişkenlerin sporcu olunup olunulmamasına göre ortalama değerleri görülebilmektedir.
\(\bullet\) sat verisinin sporcu olmayan öğrencilerde daha yüksek olduğu görülmektedir.
\(\bullet\) colpga verisinin sporcu olmayan öğrencilerde daha yüksek olduğu görülmektedir.
\(\bullet\) hsize verisinin sporcu olan öğrencilerde daha yüksek olduğu görülmektedir.
\(\bullet\) hsperc verisinin sporcu olan öğrencilerde daha yüksek olduğu görülmektedir.
model1 <- lm(colgpa ~ hsize + hsperc + sat + female + athlete + black , data = gpa2)
require(dplyr)
summary(model1)
##
## Call:
## lm(formula = colgpa ~ hsize + hsperc + sat + female + athlete +
## black, data = gpa2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.69102 -0.34462 0.02395 0.38779 1.86764
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.364e+00 7.853e-02 17.365 < 2e-16 ***
## hsize -2.676e-02 4.958e-03 -5.398 7.13e-08 ***
## hsperc -1.363e-02 5.617e-04 -24.266 < 2e-16 ***
## sat 1.519e-03 6.827e-05 22.245 < 2e-16 ***
## female 1.527e-01 1.787e-02 8.543 < 2e-16 ***
## athlete 2.220e-01 4.254e-02 5.219 1.88e-07 ***
## black -3.156e-01 3.931e-02 -8.029 1.27e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5504 on 4130 degrees of freedom
## Multiple R-squared: 0.3027, Adjusted R-squared: 0.3016
## F-statistic: 298.7 on 6 and 4130 DF, p-value: < 2.2e-16
\(\bullet\) hsize’nin t istatistiği yaklaşık -5.39’dur ve istatistiksel olarak anlamlıdır.
\(\bullet\) hsperc’in t istatistiği yaklaşık -24.26’dır ve istatistiksel olarak anlamlıdır.
\(\bullet\) sat’ın t istatistiği yaklaşık 22.245’dır ve istatistiksel olarak anlamlıdır.
\(\bullet\) “Intercept” yani aslında en yukarıda verdiğim denklemde \(“\beta_0 ”\) değerine karşılık gelen katsayının, ki bu doğrunun başlangıç noktasını belirtiyor, tahmin değerinin 1.364 olduğu görülmektedir.
\(\bullet\) “intercept” tahminini yorumlayacak olursak, tüm bağımsız değişkenlerin değeri 0 olduğunda, bağımlı değişkenin yani “colgpa” değişkeninin değerinin 1.364 olacağını söyler.
\(\bullet\) Sonuçları modelde yerine yazarsak;
\[ log(colgpa) = 1.36 - 2.67hsize - 1.36hsperc + 1.51sat + 1.52female + 2.22athlete -3.15black + u . \]
\(\bullet\) Regresyon sonuçları yorumlandığında;
\(\bullet\) Kesim parametresinin \(\beta_0\)=1.36’dır. Tüm bağımsız değişkenlerin değeri 0 olduğunda, bağımlı değişkenin yani “colgpa” değişkeninin değerinin 1.36 olacağı söylenmektedir.
\(\bullet\) Lisedeki son sınıfın yüz cinsinden mevcudunun getirisi \(\beta_1\) = -0.0267 ’dir. Lisedeki son sınıfın yüz cinsinden mevcudunun değerinin eğimini yorumlayacak olursak; diğer tüm değişkenlerin etkisi sabit tutulduğunda, üniversite genel not ortalamasının her 1 puan artışa karşılık, puan 0.02.67 azalmaktadır.
\(\bullet\) Son sınıfın akademik yüzdesinin getirisi \(\beta_2\) = -0.0136’dir
\(\bullet\) Birleştirilmiş sat puanının getirisi \(\beta_3\) = 0.00151’dir
\(\bullet\) Cinsiyeti kadın olanların getirisi \(\beta_4\) = 0.152’dir
\(\bullet\) Sporcu olanların getirisi \(\beta_5\) = 0.222’dir
\(\bullet\) Siyahi olanların getirisi kukla değişken olduğu için \(\beta_6\) = -0.315+\(\beta_0\) ’dır yani - 0.315 + 1.36 = 1.045
whitekukla <- gpa2 %>%
mutate(white = ifelse (white == 1, 1, 0) )
\(\bullet\) Öğrenci eğer beyaz tenliyse 1 değilse 0 değerini alacağına dair bir kukla değişkeni oluşturulmuştur.
model2 <- lm(colgpa ~ hsize + hsperc + sat + female + athlete + black + white -1 , data = gpa2)
summary(model2)
##
## Call:
## lm(formula = colgpa ~ hsize + hsperc + sat + female + athlete +
## black + white - 1, data = gpa2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.89078 -0.34964 0.04438 0.39437 1.93375
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## hsize -1.942e-02 5.048e-03 -3.847 0.000122 ***
## hsperc -1.087e-02 5.390e-04 -20.164 < 2e-16 ***
## sat 2.243e-03 4.615e-05 48.598 < 2e-16 ***
## female 2.153e-01 1.772e-02 12.148 < 2e-16 ***
## athlete 2.841e-01 4.335e-02 6.554 6.27e-11 ***
## black 2.947e-01 5.798e-02 5.082 3.89e-07 ***
## white 5.060e-01 5.111e-02 9.899 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5635 on 4130 degrees of freedom
## Multiple R-squared: 0.9576, Adjusted R-squared: 0.9575
## F-statistic: 1.331e+04 on 7 and 4130 DF, p-value: < 2.2e-16
\(\bullet\) İntercept çıkartıldığında diğer değişkenlerin değerlerinin değiştiği görülmektedir.
library(dplyr)
model3 <- lm(colgpa ~ hsize + log(hsperc) + sat + female + athlete + black + white -1 , data = gpa2)
summary(model3)
##
## Call:
## lm(formula = colgpa ~ hsize + log(hsperc) + sat + female + athlete +
## black + white - 1, data = gpa2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.87482 -0.33777 0.04094 0.39247 2.03355
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## hsize -0.012393 0.005047 -2.455 0.0141 *
## log(hsperc) -0.159726 0.007701 -20.742 < 2e-16 ***
## sat 0.002250 0.000046 48.900 < 2e-16 ***
## female 0.231339 0.017608 13.139 < 2e-16 ***
## athlete 0.245420 0.042842 5.728 1.09e-08 ***
## black 0.434905 0.059383 7.324 2.88e-13 ***
## white 0.664654 0.053490 12.426 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.562 on 4130 degrees of freedom
## Multiple R-squared: 0.9578, Adjusted R-squared: 0.9577
## F-statistic: 1.339e+04 on 7 and 4130 DF, p-value: < 2.2e-16
\(\bullet\) Diğer değişkenler sabit tutulduğunda hsperc %1 artarsa colgpa 0.15 düşer
library(car)
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
Anova(model3)
## Anova Table (Type II tests)
##
## Response: colgpa
## Sum Sq Df F value Pr(>F)
## hsize 1.90 1 6.0292 0.01411 *
## log(hsperc) 135.90 1 430.2214 < 2.2e-16 ***
## sat 755.35 1 2391.1923 < 2.2e-16 ***
## female 54.53 1 172.6233 < 2.2e-16 ***
## athlete 10.37 1 32.8148 1.086e-08 ***
## black 16.94 1 53.6369 2.885e-13 ***
## white 48.77 1 154.3994 < 2.2e-16 ***
## Residuals 1304.61 4130
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\(\bullet\) Anova tablosu hangi değişkenin, daha çok açıklayıcılık eklediğini gösterebilmektedir.
\(\bullet\) sat puanı en güçlü açıklayıcı güce sahiptir.
max(gpa2$colgpa)
## [1] 4
\(\bullet\) En yüksek genel not ortalamasının 4 olduğu görülmektedir.
min(gpa2$colgpa)
## [1] 0
\(\bullet\) En düşük genel not ortalamasının 0 olduğunu görülmektedir.
mean(gpa2$colgpa)
## [1] 2.652686
\(\bullet\) Genel not ortalamasının yaklaşık 2.65 olduğunu görülmektedir.
seçilmiş <- gpa2 %>% select(colgpa)
seçilmiş2 <- seçilmiş %>% filter(colgpa>3.50)
\(\bullet\) Datanın içerisinden üniversite not ortalamalarını çekip ortalaması 3.50den büyük olanları görmek istedim.
library(stargazer)
##
## Please cite as:
## Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
stargazer(seçilmiş, seçilmiş2, type = 'text')
##
## ============================================================
## Statistic N Mean St. Dev. Min Pctl(25) Pctl(75) Max
## ------------------------------------------------------------
## colgpa 4,137 2.653 0.659 0.000 2.210 3.120 4.000
## ------------------------------------------------------------
##
## ======================================================
## Statistic N Mean St. Dev. Min Pctl(25) Pctl(75) Max
## ------------------------------------------------------
## colgpa 437 3.755 0.161 4 3.6 3.9 4
## ------------------------------------------------------
\(\bullet\) Ortalaması 3.50’den büyük olanların ortalamasının 3.77 olarak görürken genel ortalamanın 2.65 olduğu gözükmektedir.
stargazer(model1, model2, type = 'text')
##
## ======================================================================================
## Dependent variable:
## ------------------------------------------------------
## colgpa
## (1) (2)
## --------------------------------------------------------------------------------------
## hsize -0.027*** -0.019***
## (0.005) (0.005)
##
## hsperc -0.014*** -0.011***
## (0.001) (0.001)
##
## sat 0.002*** 0.002***
## (0.0001) (0.00005)
##
## female 0.153*** 0.215***
## (0.018) (0.018)
##
## athlete 0.222*** 0.284***
## (0.043) (0.043)
##
## black -0.316*** 0.295***
## (0.039) (0.058)
##
## white 0.506***
## (0.051)
##
## Constant 1.364***
## (0.079)
##
## --------------------------------------------------------------------------------------
## Observations 4,137 4,137
## R2 0.303 0.958
## Adjusted R2 0.302 0.957
## Residual Std. Error (df = 4130) 0.550 0.564
## F Statistic 298.744*** (df = 6; 4130) 13,314.170*** (df = 7; 4130)
## ======================================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
\(\bullet\) 2 model karşılaştırıldığında verilerin 2. modelde daha yüksek çıktığı görülmektedir.
\(\bullet\) \(R^2\)’nin 1. modelde 0.3’ken 2. modelde arttığı 0.9 olduğu görülmektedir.
\(\bullet\) Standart hatanın çok az da olsa 2. modelde arttığı görülmektedir.
\(\bullet\) *** sayısından anlamlı olduğu anlaşılmaktadır.