Çeşitli terimlerin üniversite genel not ortalaması üzerindeki etkisi

library(rmarkdown)
library(wooldridge)
data("gpa2")

\(\bullet\) wooldridge paketi içerisinde “gpa2” adlı datayı kullanarak data içerisindeki birkaç veri aracılığıyla üniversite genel not ortalamasının nasıl etkilendiğini göstermeyi amaçlamaktayım.

\[ colgpa = \beta_0 + \beta_1hsize + \beta_2hsperc + \beta_3sat + \beta_4female + \beta_5athlete + \beta_6black + u . \]

\(\bullet\) Denklemde;

\(\bullet\) colgpa = Birikimli üniversite genel not ortalaması

\(\bullet\) hsize = Lisedeki son sınıfın yüz cinsinden mevcudu

\(\bullet\) hsperc = Son sınıfın akademik yüzdesi

\(\bullet\) sat = Birleştirilmiş SAT -matematik- puanı

\(\bullet\) female = İkili bir cinsiyet -kadın- değişkeni

\(\bullet\) athlete = Sporcu öğrenciler için bire eşit olan ikili bir değişken anlamına gelmektedir.

data("gpa2")
paged_table(gpa2)

\(\bullet\) Kullanılan datadaki tüm veriler pagedtable sayesinde kolayca görülebilmektedir.

Sporcu verisi üzerinden ortalama değerler;

require(dplyr)
## Loading required package: dplyr
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
gpa2 %>% 
  group_by(athlete) %>% 
  summarise(across(everything(), mean))
## # A tibble: 2 × 12
##   athlete   sat tothrs colgpa verbmath hsize hsrank hsperc female white  black
##     <int> <dbl>  <dbl>  <dbl>    <dbl> <dbl>  <dbl>  <dbl>  <dbl> <dbl>  <dbl>
## 1       0 1036.   52.8   2.67    0.882  2.78   50.1   18.5  0.460 0.935 0.0469
## 2       1  914.   54.4   2.38    0.844  3.19  108.    34.5  0.232 0.727 0.227 
## # … with 1 more variable: hsizesq <dbl>

\(\bullet\) across(everything(), mean)) işlemi ile bütün değişkenlerin sporcu olunup olunulmamasına göre ortalama değerleri görülebilmektedir.

\(\bullet\) sat verisinin sporcu olmayan öğrencilerde daha yüksek olduğu görülmektedir.

\(\bullet\) colpga verisinin sporcu olmayan öğrencilerde daha yüksek olduğu görülmektedir.

\(\bullet\) hsize verisinin sporcu olan öğrencilerde daha yüksek olduğu görülmektedir.

\(\bullet\) hsperc verisinin sporcu olan öğrencilerde daha yüksek olduğu görülmektedir.

model1 <- lm(colgpa ~ hsize + hsperc + sat + female + athlete + black , data = gpa2)
require(dplyr)
summary(model1)
## 
## Call:
## lm(formula = colgpa ~ hsize + hsperc + sat + female + athlete + 
##     black, data = gpa2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.69102 -0.34462  0.02395  0.38779  1.86764 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.364e+00  7.853e-02  17.365  < 2e-16 ***
## hsize       -2.676e-02  4.958e-03  -5.398 7.13e-08 ***
## hsperc      -1.363e-02  5.617e-04 -24.266  < 2e-16 ***
## sat          1.519e-03  6.827e-05  22.245  < 2e-16 ***
## female       1.527e-01  1.787e-02   8.543  < 2e-16 ***
## athlete      2.220e-01  4.254e-02   5.219 1.88e-07 ***
## black       -3.156e-01  3.931e-02  -8.029 1.27e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5504 on 4130 degrees of freedom
## Multiple R-squared:  0.3027, Adjusted R-squared:  0.3016 
## F-statistic: 298.7 on 6 and 4130 DF,  p-value: < 2.2e-16

\(\bullet\) hsize’nin t istatistiği yaklaşık -5.39’dur ve istatistiksel olarak anlamlıdır.

\(\bullet\) hsperc’in t istatistiği yaklaşık -24.26’dır ve istatistiksel olarak anlamlıdır.

\(\bullet\) sat’ın t istatistiği yaklaşık 22.245’dır ve istatistiksel olarak anlamlıdır.

\(\bullet\) “Intercept” yani aslında en yukarıda verdiğim denklemde \(“\beta_0 ”\) değerine karşılık gelen katsayının, ki bu doğrunun başlangıç noktasını belirtiyor, tahmin değerinin 1.364 olduğu görülmektedir.

\(\bullet\) “intercept” tahminini yorumlayacak olursak, tüm bağımsız değişkenlerin değeri 0 olduğunda, bağımlı değişkenin yani “colgpa” değişkeninin değerinin 1.364 olacağını söyler.

\(\bullet\) Sonuçları modelde yerine yazarsak;

\[ log(colgpa) = 1.36 - 2.67hsize - 1.36hsperc + 1.51sat + 1.52female + 2.22athlete -3.15black + u . \]

\(\bullet\) Regresyon sonuçları yorumlandığında;

\(\bullet\) Kesim parametresinin \(\beta_0\)=1.36’dır. Tüm bağımsız değişkenlerin değeri 0 olduğunda, bağımlı değişkenin yani “colgpa” değişkeninin değerinin 1.36 olacağı söylenmektedir.

\(\bullet\) Lisedeki son sınıfın yüz cinsinden mevcudunun getirisi \(\beta_1\) = -0.0267 ’dir. Lisedeki son sınıfın yüz cinsinden mevcudunun değerinin eğimini yorumlayacak olursak; diğer tüm değişkenlerin etkisi sabit tutulduğunda, üniversite genel not ortalamasının her 1 puan artışa karşılık, puan 0.02.67 azalmaktadır.

\(\bullet\) Son sınıfın akademik yüzdesinin getirisi \(\beta_2\) = -0.0136’dir

\(\bullet\) Birleştirilmiş sat puanının getirisi \(\beta_3\) = 0.00151’dir

\(\bullet\) Cinsiyeti kadın olanların getirisi \(\beta_4\) = 0.152’dir

\(\bullet\) Sporcu olanların getirisi \(\beta_5\) = 0.222’dir

\(\bullet\) Siyahi olanların getirisi kukla değişken olduğu için \(\beta_6\) = -0.315+\(\beta_0\) ’dır yani - 0.315 + 1.36 = 1.045

White kukla değişkeni oluşturma;

whitekukla <- gpa2 %>%
  mutate(white = ifelse (white == 1, 1, 0) )

\(\bullet\) Öğrenci eğer beyaz tenliyse 1 değilse 0 değerini alacağına dair bir kukla değişkeni oluşturulmuştur.

model2 <- lm(colgpa ~ hsize + hsperc + sat + female + athlete + black + white -1 , data = gpa2)
summary(model2)
## 
## Call:
## lm(formula = colgpa ~ hsize + hsperc + sat + female + athlete + 
##     black + white - 1, data = gpa2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.89078 -0.34964  0.04438  0.39437  1.93375 
## 
## Coefficients:
##           Estimate Std. Error t value Pr(>|t|)    
## hsize   -1.942e-02  5.048e-03  -3.847 0.000122 ***
## hsperc  -1.087e-02  5.390e-04 -20.164  < 2e-16 ***
## sat      2.243e-03  4.615e-05  48.598  < 2e-16 ***
## female   2.153e-01  1.772e-02  12.148  < 2e-16 ***
## athlete  2.841e-01  4.335e-02   6.554 6.27e-11 ***
## black    2.947e-01  5.798e-02   5.082 3.89e-07 ***
## white    5.060e-01  5.111e-02   9.899  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5635 on 4130 degrees of freedom
## Multiple R-squared:  0.9576, Adjusted R-squared:  0.9575 
## F-statistic: 1.331e+04 on 7 and 4130 DF,  p-value: < 2.2e-16

\(\bullet\) İntercept çıkartıldığında diğer değişkenlerin değerlerinin değiştiği görülmektedir.

Log kullanımı;

library(dplyr)
model3 <- lm(colgpa ~ hsize + log(hsperc) + sat + female + athlete + black + white -1 , data = gpa2)
summary(model3)
## 
## Call:
## lm(formula = colgpa ~ hsize + log(hsperc) + sat + female + athlete + 
##     black + white - 1, data = gpa2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.87482 -0.33777  0.04094  0.39247  2.03355 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## hsize       -0.012393   0.005047  -2.455   0.0141 *  
## log(hsperc) -0.159726   0.007701 -20.742  < 2e-16 ***
## sat          0.002250   0.000046  48.900  < 2e-16 ***
## female       0.231339   0.017608  13.139  < 2e-16 ***
## athlete      0.245420   0.042842   5.728 1.09e-08 ***
## black        0.434905   0.059383   7.324 2.88e-13 ***
## white        0.664654   0.053490  12.426  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.562 on 4130 degrees of freedom
## Multiple R-squared:  0.9578, Adjusted R-squared:  0.9577 
## F-statistic: 1.339e+04 on 7 and 4130 DF,  p-value: < 2.2e-16

\(\bullet\) Diğer değişkenler sabit tutulduğunda hsperc %1 artarsa colgpa 0.15 düşer

ANOVA kullanımı;

library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
Anova(model3)
## Anova Table (Type II tests)
## 
## Response: colgpa
##              Sum Sq   Df   F value    Pr(>F)    
## hsize          1.90    1    6.0292   0.01411 *  
## log(hsperc)  135.90    1  430.2214 < 2.2e-16 ***
## sat          755.35    1 2391.1923 < 2.2e-16 ***
## female        54.53    1  172.6233 < 2.2e-16 ***
## athlete       10.37    1   32.8148 1.086e-08 ***
## black         16.94    1   53.6369 2.885e-13 ***
## white         48.77    1  154.3994 < 2.2e-16 ***
## Residuals   1304.61 4130                        
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

\(\bullet\) Anova tablosu hangi değişkenin, daha çok açıklayıcılık eklediğini gösterebilmektedir.

\(\bullet\) sat puanı en güçlü açıklayıcı güce sahiptir.

En yüksek, en düşük ve ortalama genel not ortalaması değerlerinin gösterimi;

max(gpa2$colgpa)
## [1] 4

\(\bullet\) En yüksek genel not ortalamasının 4 olduğu görülmektedir.

min(gpa2$colgpa)
## [1] 0

\(\bullet\) En düşük genel not ortalamasının 0 olduğunu görülmektedir.

mean(gpa2$colgpa)
## [1] 2.652686

\(\bullet\) Genel not ortalamasının yaklaşık 2.65 olduğunu görülmektedir.

Select ve filter kullanımı;

seçilmiş <- gpa2 %>% select(colgpa) 
seçilmiş2 <- seçilmiş %>% filter(colgpa>3.50)

\(\bullet\) Datanın içerisinden üniversite not ortalamalarını çekip ortalaması 3.50den büyük olanları görmek istedim.

library(stargazer)
## 
## Please cite as:
##  Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
stargazer(seçilmiş, seçilmiş2, type = 'text')
## 
## ============================================================
## Statistic   N   Mean  St. Dev.  Min  Pctl(25) Pctl(75)  Max 
## ------------------------------------------------------------
## colgpa    4,137 2.653  0.659   0.000  2.210    3.120   4.000
## ------------------------------------------------------------
## 
## ======================================================
## Statistic  N  Mean  St. Dev. Min Pctl(25) Pctl(75) Max
## ------------------------------------------------------
## colgpa    437 3.755  0.161    4    3.6      3.9     4 
## ------------------------------------------------------

\(\bullet\) Ortalaması 3.50’den büyük olanların ortalamasının 3.77 olarak görürken genel ortalamanın 2.65 olduğu gözükmektedir.

stargazer(model1, model2, type = 'text')
## 
## ======================================================================================
##                                                  Dependent variable:                  
##                                 ------------------------------------------------------
##                                                         colgpa                        
##                                            (1)                        (2)             
## --------------------------------------------------------------------------------------
## hsize                                   -0.027***                  -0.019***          
##                                          (0.005)                    (0.005)           
##                                                                                       
## hsperc                                  -0.014***                  -0.011***          
##                                          (0.001)                    (0.001)           
##                                                                                       
## sat                                     0.002***                    0.002***          
##                                         (0.0001)                   (0.00005)          
##                                                                                       
## female                                  0.153***                    0.215***          
##                                          (0.018)                    (0.018)           
##                                                                                       
## athlete                                 0.222***                    0.284***          
##                                          (0.043)                    (0.043)           
##                                                                                       
## black                                   -0.316***                   0.295***          
##                                          (0.039)                    (0.058)           
##                                                                                       
## white                                                               0.506***          
##                                                                     (0.051)           
##                                                                                       
## Constant                                1.364***                                      
##                                          (0.079)                                      
##                                                                                       
## --------------------------------------------------------------------------------------
## Observations                              4,137                      4,137            
## R2                                        0.303                      0.958            
## Adjusted R2                               0.302                      0.957            
## Residual Std. Error (df = 4130)           0.550                      0.564            
## F Statistic                     298.744*** (df = 6; 4130) 13,314.170*** (df = 7; 4130)
## ======================================================================================
## Note:                                                      *p<0.1; **p<0.05; ***p<0.01

\(\bullet\) 2 model karşılaştırıldığında verilerin 2. modelde daha yüksek çıktığı görülmektedir.

\(\bullet\) \(R^2\)’nin 1. modelde 0.3’ken 2. modelde arttığı 0.9 olduğu görülmektedir.

\(\bullet\) Standart hatanın çok az da olsa 2. modelde arttığı görülmektedir.

\(\bullet\) *** sayısından anlamlı olduğu anlaşılmaktadır.