title: “Yeni Ödev (Final)” author: “Sude Kaptan” date: “2024-12-17” output: prettydoc::html_pretty: theme: leonids toc: yes


library(prettydoc)

AÇIKLAMALAR

psoda: price of medium soda, 1st wave psoda: Bu terim genellikle kısa formda kullanılır ve bir nesnenin, ürünün veya durumun adını kısaltmak için kullanılır.Burada “PSODA” kelimesi, “medium soda”nın fiyatını temsil eder. price of medium soda: Bu kısım, bir orta boy sodanın fiyatını ifade eder.”Medium soda” burada,genellikle restoranlarda veya fast food zincirlerinde sunulan orta boy içecek anlamına gelir. 1st wave: Bu terim, bir olayın ilk aşamasını veya dalgasını tanımlar.”1st wave”(1.dalga) kavramı genellikle bir sürecin başlatılması veya bir etkinliğin başlangıcını belirtir.

pfries: price of small fries, 1st wave pfries: Bu terim genellikle bir nesnenin, ürünün veya durumun kısaltmasıdır. Burada “PFRIES” küçük bir porsiyon patates kızartmasının fiyatını temsil eder. price of small fries: Bu kısım, bir küçük boy patates kızartmasının fiyatını ifade eder. 1st wave: Bu terim, bir olayın veya kampanyanın ilk aşamasını tanımlar.”1st wave”(1.dalga) bir sürecin başlangıcını veya bir promosyonun ilk adımını belirler.

pentree: price entree (burger or chicken), 1st wave pentree: Bu terim, bir nesnenin veya ürünün kısaltmasıdır.Burada “PENTREE” bir ana yemeğin fiyatını temsil eder. Ana yemek, genellikle bir burge veya tavuk yemeği anlamına gelir. price entree (burger or chicken): Bu kısım, bir burger veya tavuk yemeğinin fiyatını ifade eder. 1st wave: Bu terim, bir olayın veya kampanyanın ilk aşamasını belirtir.”1st wave” “(1.dalga) bir sürecin başlangıcını veya bir promosyonun ilk adımını tanımlar.

wagest: starting wage, 1st wave wagest: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “WAGEST” başlangıç ücretini temsil eder. starting wage: Bu kısım, bir kişinin işe başlarken aldığı ücret anlamına gelir. 1st wave: Bu terim, bir olayın veya süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir kampanya veya fiyat güncellemesinin başlangıcını ifade eder.

nmgrs: number of managers, 1st wave nmgrs: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “NMGRS” birim yöneticiler (managers) sayısını temsil eder. number of managers: Bu kısım, bir organizasyondaki yönetici sayısını ifade eder. 1st wave: Bu terim, bir olayın veya bir süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir kampanya, proje veya güncellemenin başlangıcını ifade eder.

nregs: number of registers, 1st wave nregs: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “NREGS” birim kasaların (registers) sayısını temsil eder. number of registers: Bu kısım, bir mağazada, restoran veya benzeri bir yerde mevcut olan kasa sayısını ifade eder. 1st wave: Bu terim, bir olayın veya süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir güncelleme veya değişiklik döneminin başlangıcını tanımlar.

hrsopen: hours open, 1st wave hrsopen: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “HRSOPEN” açılış saatlerini (hours open) temsil eder. hours open: Bu kısım, bir mağaza, restoran veya hizmet sunan bir yerin belirli saatler arasında açık olduğu zamanı ifade eder. 1st wave: Bu terim, bir olayın veya bir süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir güncelleme veya değişiklik döneminin başlangıcını tanımlar.

emp: number of employees, 1st wave emp: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “EMP” birim çalışanların (employees) sayısınnı temsil eder. number of employees: Bu kısım, bir işletmedeki toplam çalışan sayısını ifade eder. 1st wave: Bu terim,bir olayın veya bir süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir değişiklik veya güncellemenin başlangıcını tanımlar.

psoda2: price of medium soday, 2nd wave psoda2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PSODA2” orta boy sodanın fiyatını temsil eder. price of medium soda: Bu kısım, bir orta boy sodanın fiyatını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir.”2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

pfries2: price of small fries, 2nd wave pfries2: Bu terim,bir nesnenin veya ürünün kısaltmasıdır ve burada “PFRISE2” küçük boy patates kızartmasının fiyatını temsil eder. price of small fries: Bu kısım, küçük boy patates kızartmasının fiyatını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir. “2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

pentree2: price entree, 2nd wave pentree2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PENTREE2” ana yemeğin (entree) fiyatını temsil eder. price entree: Bu kısım, bir ana yemeğin fiyatını ifade eder. Ana yemekler genellikle restoranlarda burger, tavuk, makarna gibi seçenekleri içerir. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir. “2nd wave” (2.dalga), belirli bir kampanya veya güncellemenin ikinci aşamasını tanımlar.

wagest2: starting wage, 2nd wave wagest2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “WAGEST2” başlangıç ücretini (starting wage) temsil eder. starting wage: Bu kısım, bir iş yerinde yeni başlayan bir çalışanın aldığı ücret anlamına gelir. 2nd wave: Bu terim, bir olayın veya sürecin ikinci aşamasını belirtir. “2nd wave” (2.dalga), bir kampanya, güncelleme veya değişikliğin ikinci aşamasını tanımlar.

nmgrs2: number of managers, 2nd wave nmgrs2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “NMGRS2” birim yöneticilerin (managers) sayısını temsil eder. number of managers: Bu kısım, bir organizasyondaki toplam yönetici sayısını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir. “2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

nregs2: number of registers, 2nd wave nregs2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “NREGS2” birim kasaların (registers) sayısını temsil eder. number of registers: Bu kısım, bir mağazada, restoran veya benzeri bir yerde mevcut olan kasa sayısını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir.”2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

hrsopen2: hours open, 2nd wave hrsopen2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “HRSOPEN2” işletmenin açılış saatlerini (hours open) temsil eder. hours open: Bu kısım, bir mağaza, restoran veya hizmet sunan bir yerin belirli saatler arasında açık olduğu zamanı ifade eder. 2nd wave: Bu terim, bir olayın veya sürecin ikinci aşamasını belirtir.”2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

emp2: number of employees, 2nd wave emp2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “EMP2” birim çalışanların (employees) sayısını temsil eder. number of employees: Bu kısım, bir işletmedeki toplam çalışan sayısını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir. “2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

compown: =1 if company owned compown: Bu terim, bir şirketin mülkiyet durumunu ifade eder. 1 if company owned: Bu kısım, şirketin kendisine ait olup olmadığını belirtir.”1” ifadesi, şirketin şirket tarafından sahip olunan olduğunu gösterir.Yani, “Compown:1” demek, şirketin sahibi olan bir şirkete ait olduğunu ifade eder.

chain: BK = 1, KFC = 2, Roy Rogers = 3, Wendy’s = 4 chain: Bu terim, bir zincir restoranı veya fast food markasını temsil eder. BK = 1: Burger King’in temsilidir. KFC = 2: Kentucky Fried Chicken’ın temsilidir. Roy Rogers = 3: Roy Rogers restoran zincirinin temsilidir. Wendy’s = 4: Wendy’s restoran zincirinin temsilidir.

density: population density, town density: Bu terim, bir alandaki nüfusun yoğunluğunu ifade eder. population density: Bu kısım, belirli bir alanda, genellikle bir kilometrekare başına düşen kişi sayısını gösterir. town: Bu, bir kasaba veya şehir anlamına gelir.

crmrte: crime rate, town crmrte: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “CRMRTE” bir kasabadaki suç oranını (crime rate) temsil eder. crime rate: Bu kısım, belirli bir bölgede meydana gelen suç sayısının, o bölgedeki toplam nüfus ile ilişkisini gösterir. Genellikle bir yıl içinde işlenen suç sayısı, birimi başına düşen suç sayısı olarak ifade edilir. town: Bu, belirli bir kasaba veya şehir anlamına gelir.

state: NJ = 1, PA = 2 state: Bu terim, bir bölgeyi veya eyaleti temsil eder. NJ = 1: New Jersey eyaletini temsil eder. PA = 2: Pennsylvania eyaletini temsil eder.

prpblck: proportion black, zipcode prpblck: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PRPBLCK” belirli bir posta kodu bölgesindeki siyahi nüfusun oranını (proportion black) temsil eder. proportion black: Bu kısım, belirli bir bölgedeki siyahi nüfusun toplam nüfusa oranını ifade eder. zipcode: Bu, belirli bir posta kodu anlamına gelir.

prppov: proportion in poverty, zipcode prppov: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PRPPOV” belirli bir posta kodu bölgesindeki yoksulluk oranını (proportion in poverty) temsil eder. proportion in poverty: Bu kısım, belirli bir bölgedeki yoksulluk oranını ifade eder. Belirli bir posta kodu bölgesindeki nüfusun ne kadarının yoksulluk sınırının altında yaşadığını gösterir. zipcode: Bu, belirli bir posta kodu anlamına gelir.

prpncar: proportion no car, zipcode prpncar: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PRPNCAR” belirli bir posta kodu bölgesindeki araç sahibi olmayan nüfusun oranını (proportion no car) temsil eder. proportion no car: Bu kısım, belirli bir bölgedeki nüfusun araç sahibi olmadan yaşama oranını ifade eder. zipcode: Bu, belirli bir posta kodu anlamına gelir.

hseval: median housing value, zipcode hseval: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “HSEVAL” belirli bir posta kodu bölgesindeki konutların medyan değerini (median housing value) temsil eder. median housing value: Bu kısım, belirli bir bölgedeki konutların fiyatlarının sıralandıktan sonra ortanca değeri anlamına gelir. Yani, belirli bir posta kodu bölgesindeki konutların fiyatlarının ortancası, bu terimle ifade edilir. zipcode: Bu, belirli bir posta kodu anlamına gelir.

nstores: number of stores, zipcode nstores: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “NSTORES” belirli bir posta kodu bölgesindeki mağaza sayısını (number of stores) temsil eder. number of stores: Bu kısım, belirli bir posta kodu bölgesinde bulunan toplam mağaza sayısını ifade eder. zipcode: Bu, belirli bir posta kodu anlamına gelir.

income: median family income, zipcode income: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “INCOME” belirli bir posta kodu bölgesindeki ailelerin medyan gelirini (median family income) temsil eder. median family income: Bu kısım, belirli bir bölgede veya posta kodu bölgesinde yaşayan ailelerin gelirlerinin sıralandıktan sonra ortanca değerini ifade eder. Yani, o bölgede yer alan ailelerin gelirlerinin tam ortasında yer alan gelir düzeyini gösterir. zipcode: Bu, belirli bir posta kodu anlamına gelir.

county: county label county: Bu terim, belirli bir idari bölgeyi veya ilçeyi temsil eder. county label: Bu kısım, belirli bir bölgenin veya ilçenin tanımlayıcı etiketini ifade eder. Örneğin, bir araştırma veya veritabanında bu etiket, belirli bir posta kodu veya konumun hangi ilçeye ait olduğunu belirtmek için kullanılır.

lpsoda:log(psoda) lpsoda: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(psoda): Burada, “PSODA” terimi bir orta boy sodayı temsil eder. “log” fonksiyonu ise “PSODA” değerinin doğal logaritmasını alır.

lpfries: log(pfries) lpfries: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(pfries): Burada, “PFRIES” terimi küçük bir kızartmanın fiyatını temsil eder. “log” fonksiyonu, “PFRIES” değerinin doğal logaritmasını alır.

lhseval:log(hseval) lhseval: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(hseval): Burada, “HSEVAL” terimi belirli bir bölgede veya posta kodu bölgesinde konutların medyan değerini (konut fiyatlarını) temsil eder. “log” fonksiyonu “HSEVAL” değerinin doğal logaritmasını alır.

lincome:log(income) lincome: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(income): Burada, “İNCOME” terimi belirli bir bölgede veya posta kodu bölgesinde ailelerin medyan gelirini temsil eder. “log” fonksiyonu, “İNCOME” değerinin doğal logaritmasını alır.

ldensity:log(density) ldensity: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(density): Burada, “DENSİTY” terimi belirli bir bölgedeki nüfus yoğunluğunu temsil eder. “log” fonksiyonu “DENSİTY” değerinin doğal logaritmasını alır.

NJ: =1 for New Jersey NJ: Bu terim, New Jersey eyaletini temsil eder. 1 for New Jersey: Bu, belirli bir değişkenin New Jersey için 1 olarak tanımlandığını ifade eder. Yani bu değişken veya kategoride “1”, New Jersey’i gösterir.

BK: =1 if Burger King BK: Bu terim, belirli bir restoran zincirini veya markayı temsil eder. 1 if Burger King: Bu, eğer bir değişkenin değerinin 1 ise, bu restoran zincirinin Burger King olduğunu belirtir.

KFC: =1 if Kentucky Fried Chicken KFC: Bu terim, belirli bir restoran zincirini veya markayı temsil eder. 1 if Kentucky Fried Chicken: Bu, bir değişkenin değeri 1 ise, bu restoran zincirinin Kentucky Fried Chicken olduğunu belirtir.

RR: =1 if Roy Rogers RR: Bu terim, belirli bir restoran zincirini veya markayı temsil eder. 1 if Roy Rogers: Bu, bir değişkenin değeri 1 ise, bu restoran zincirinin Roy Rogers olduğunu belirtir.

library(wooldridge)

A.

data("discrim")
head(discrim)
##   psoda pfries pentree wagest nmgrs nregs hrsopen  emp psoda2 pfries2 pentree2
## 1  1.12   1.06    1.02   4.25     3     5    16.0 27.5   1.11    1.11     1.05
## 2  1.06   0.91    0.95   4.75     3     3    16.5 21.5   1.05    0.89     0.95
## 3  1.06   0.91    0.98   4.25     3     5    18.0 30.0   1.05    0.94     0.98
## 4  1.12   1.02    1.06   5.00     4     5    16.0 27.5   1.15    1.05     1.05
## 5  1.12     NA    0.49   5.00     3     3    16.0  5.0   1.04    1.01     0.58
## 6  1.06   0.95    1.01   4.25     4     4    15.0 17.5   1.05    0.94     1.00
##   wagest2 nmgrs2 nregs2 hrsopen2 emp2 compown chain density    crmrte state
## 1    5.05      5      5     15.0 27.0       1     3    4030 0.0528866     1
## 2    5.05      4      3     17.5 24.5       0     1    4030 0.0528866     1
## 3    5.05      4      5     17.5 25.0       0     1   11400 0.0360003     1
## 4    5.05      4      5     16.0   NA       0     3    8345 0.0484232     1
## 5    5.05      3      3     16.0 12.0       0     1     720 0.0615890     1
## 6    5.05      3      4     15.0 28.0       0     1    4424 0.0334823     1
##     prpblck    prppov   prpncar hseval nstores income county     lpsoda
## 1 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.11332869
## 2 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.05826885
## 3 0.0473602 0.0879072 0.2694298 169200       3  41164     12 0.05826885
## 4 0.0528394 0.0591227 0.1366903 171600       3  50366     10 0.11332869
## 5 0.0344800 0.0254145 0.0738020 249100       1  72287     10 0.11332869
## 6 0.0591327 0.0835001 0.1151341 148000       2  44515     18 0.05826885
##       lpfries  lhseval  lincome ldensity NJ BK KFC RR
## 1  0.05826885 11.90699 10.70401 8.301521  1  0   0  1
## 2 -0.09431065 11.90699 10.70401 8.301521  1  1   0  0
## 3 -0.09431065 12.03884 10.62532 9.341369  1  1   0  0
## 4  0.01980261 12.05292 10.82707 9.029418  1  0   0  1
## 5          NA 12.42561 11.18840 6.579251  1  1   0  0
## 6 -0.05129331 11.90497 10.70358 8.394799  1  1   0  0
help("discrim")

Gördüğünüz gibi veri setinde bazı değişkenler için bazı gözlemler NA değerine sahip. NA (not available) o gözlem için mevcut değil anlamına geliyor. Örneğin pfries (price of small fries, küçük kızartmanın fiyatı) değişkeninin beşinci gözlemi veri setinde bulunan beşinci restoranının küçük kızartma fiyatını bilmediğimiz anlamı taşıyor. Mevcut olmayan gözlemler analizlerde her zaman sorunlar çıkarır.

B.

mean(discrim$prpblck)
## [1] NA
sd(discrim$prpblck)
## [1] NA
mean(discrim$income)
## [1] NA
sd(discrim$income)
## [1] NA

Bildiğimiz mean ve sd fonksiyonlarını kullanarak ortama ve standart sapma değerlerini bulamadık. Çıkan NA sonucu bize bu değişkenlerin içinde bazı gözlemlerin mevcut olmadığını gösteriyor olabilir. discrim veri setinde 410 gözlem olduğundan her bir gözlemi kontrol edemiyorz ve bu değişkenlerin içinde kaç tane gözlemin mevcut olmadığını çıkaramıyoruz. R bize bu konuda is.na fonksiyonu ile yardımcı oluyor. is.na aslında sorduğumuz ingilizce bir soru ve is na? derken R’a mevcut olmayan gözlem var mı diye soru soruyoruz. R’da bize her bir gözlem için o gözlemin değeri olup olmadığını TRUE (doğru) ve FALSE (yanlış) olarak geri veriyor.

sum(is.na(discrim$prpblck))
## [1] 1
sum(is.na(discrim$income))
## [1] 1

Gördüğünüz gibi hem prbblck hem income değişkenlerinin birer gözlemi boş değere sahip. Bu yüzden mean ve sd fonksiyonlarının NA gözlemlerine sahip olduğunu söylememiz lazım.

mean(discrim$prpblck,na.rm = TRUE)
## [1] 0.1134864
sd(discrim$prpblck, na.rm = TRUE)
## [1] 0.1824165
mean(discrim$income, na.rm = TRUE)
## [1] 47053.78
sd(discrim$income, na.rm = TRUE)
## [1] 13179.29

Fonksiyonun içine yazdığımız na.rm (na remove,çıkar) mevcut olmayan gözlemleri hesaplamadan çıkarmamızı söyler. prbblck değişkeninin ortalaması 0.11, standart sapması 0.18, income değişkeninin ortalaması 47053, standart sapması 13179 olacaktır.

Diyelim ki siz bütün değişkenler için kaç tane gözlemin mevcut olmadığını, kaç tane gözlemin var olduğunu, ortalamasını ve standart sapmasını görmek istiyorsunuz. Bu durumda vtable paketi size yardımcı olacaktır.

library(vtable)
## Loading required package: kableExtra
library(kableExtra)
sumtable(discrim, summ =c ('notNA(x)', 'countNA(x)', 'mean(x)', 'sd(x)'),out = 'return')
##    Variable NotNA CountNA   Mean    Sd
## 1     psoda   402       8      1 0.089
## 2    pfries   393      17   0.92  0.11
## 3   pentree   398      12    1.3  0.64
## 4    wagest   390      20    4.6  0.35
## 5     nmgrs   404       6    3.4     1
## 6     nregs   388      22    3.6   1.2
## 7   hrsopen   410       0     14   2.8
## 8       emp   404       6     18   9.4
## 9    psoda2   388      22      1 0.094
## 10  pfries2   382      28   0.94  0.11
## 11 pentree2   386      24    1.4  0.65
## 12  wagest2   389      21      5  0.25
## 13   nmgrs2   404       6    3.5   1.1
## 14   nregs2   388      22    3.6   1.2
## 15 hrsopen2   399      11     14   2.8
## 16     emp2   397      13     18   8.6
## 17  compown   410       0   0.34  0.48
## 18    chain   410       0    2.1   1.1
## 19  density   409       1   4562  5132
## 20   crmrte   409       1  0.053 0.047
## 21    state   410       0    1.2  0.39
## 22  prpblck   409       1   0.11  0.18
## 23   prppov   409       1  0.071 0.067
## 24  prpncar   409       1   0.11  0.12
## 25   hseval   409       1 147399 56070
## 26  nstores   410       0    3.1   1.8
## 27   income   409       1  47054 13179
## 28   county   410       0     14     8
## 29   lpsoda   402       8   0.04 0.085
## 30  lpfries   393      17 -0.088  0.12
## 31  lhseval   409       1     12  0.39
## 32  lincome   409       1     11  0.28
## 33 ldensity   409       1      8     1
## 34       NJ   410       0   0.81  0.39
## 35       BK   410       0   0.42  0.49
## 36      KFC   410       0    0.2   0.4
## 37       RR   410       0   0.24  0.43

C.

discrimreg <- lm(psoda~prpblck+income,data = discrim)
summary(discrimreg)
## 
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.29401 -0.05242  0.00333  0.04231  0.44322 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.563e-01  1.899e-02  50.354  < 2e-16 ***
## prpblck     1.150e-01  2.600e-02   4.423 1.26e-05 ***
## income      1.603e-06  3.618e-07   4.430 1.22e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08611 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06422,    Adjusted R-squared:  0.05952 
## F-statistic: 13.66 on 2 and 398 DF,  p-value: 1.835e-06
                          psoda=0.956+0.115prpblck+0.0000016income+u

Örnek boyutu 399 gözlemdir (398 serbestlik derecesi ve 9 eksik gözlem ile gösterilir) ve ayarlanmış R kare 0.595’tir. prpblck katsayısı, her şey eşit olduğunda, prpblck %10 artarsa, soda fiyatının ekonomik olarak önemli olmayan derecede yaklaşık 1,2 sent artacağını gösterir.

D.

basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)
## 
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.30884 -0.05963  0.01135  0.03206  0.44840 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.03740    0.00519  199.87  < 2e-16 ***
## prpblck      0.06493    0.02396    2.71  0.00702 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0881 on 399 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.01808,    Adjusted R-squared:  0.01561 
## F-statistic: 7.345 on 1 and 399 DF,  p-value: 0.007015

Basit regresyon ile prpblack üzerindeki katsayının tahmini 0.065’tir. Bu, önceki tahminden daha düşüktür ve bu nedenle, gelir hariç tutulduğunda ayrımcılık etkisinin azaldığını gösterir.

E.

logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logdiscrimreg)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.33563 -0.04695  0.00658  0.04334  0.35413 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.79377    0.17943  -4.424 1.25e-05 ***
## prpblck      0.12158    0.02575   4.722 3.24e-06 ***
## log(income)  0.07651    0.01660   4.610 5.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0821 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06809,    Adjusted R-squared:  0.06341 
## F-statistic: 14.54 on 2 and 398 DF,  p-value: 8.039e-07
paste((0.2*100)*0.122, "yüzdelik artış")
## [1] "2.44 yüzdelik artış"

“Prpblck” yüzde 20 artarsa, psoda tahmini olarak %2,44 artacaktır.

F.

logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov,data = discrim)
summary(logdiscrimregprpov)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32218 -0.04648  0.00651  0.04272  0.35622 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.46333    0.29371  -4.982  9.4e-07 ***
## prpblck      0.07281    0.03068   2.373   0.0181 *  
## log(income)  0.13696    0.02676   5.119  4.8e-07 ***
## prppov       0.38036    0.13279   2.864   0.0044 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08137 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08696,    Adjusted R-squared:  0.08006 
## F-statistic:  12.6 on 3 and 397 DF,  p-value: 6.917e-08

prppov eklemek, prpblck katsayısının 0,0738’e düşmesine neden olur.

G.

cor(log(discrim$income),discrim$prppov, use = "complete.obs")
## [1] -0.838467

Korelasyon yaklaşık olarak -0.838’dir. Bu mantıklı, çünkü gelirdeki düşüşlerin daha yüksek yoksulluk oranlarıyla sonuçlanması beklenebilir.

H.

Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar.

F testi

  • F testi, iki grup arasında ortalamaların farklarını incelemek için kullanılan bir istatistiksel testtir. Özellikle, varyansların eşit olup olmadığını test etmek amacıyla kullanılır ve genellikle regresyon analizlerinde veya varyans analizi (ANOVA) gibi testlerde yer alır.

H0: Tüm regresyon katsayıları sıfırdır (modelin açıklayıcı gücü yok). H1: En az bir regresyon katsayısı sıfırdan farklıdır.

F Değeri: F testi, F istatistiğini hesaplar. Bu değer, grup varyanslarının (veya modelin açıklama gücünün) oranı olarak belirlenir. Yüksek bir F değeri, modelin veya grupların açıklayıcı gücünün yüksek olduğunu gösterir.

p-değeri: F testinin p-değeri, sıfır hipotezinin reddedilip reddedilmeyeceğini belirler. Eğer p-değeri çok küçükse (genellikle 0.05’ten küçük), sıfır hipotezi reddedilir ve modelin veya grupların arasında anlamlı bir fark olduğu kabul edilir. Eğer p-değeri büyükse (genellikle 0.05’ten büyük), sıfır hipotezi kabul edilir ve grup varyanslarının veya modelin açıklayıcı gücünün önemli bir fark oluşturmadığı sonucuna varılır.

SSRr :kısıtlı modelin hata payının karelerinin toplamı, SSRur:kısıtsız modelin hata payının karelerinin toplamı, q : kısıt sayısı, n-k-1 :kısıtsız modelin serbestlik derecesidir.

Fq;n-k-1 tablo değeridir.

(Eğer bir regresyon modelinin R² değeri %85 (0.85) ise, bu, modelin bağımsız değişkenler aracılığıyla bağımlı değişkenin %85’ini açıkladığı anlamına gelir. Ancak, modelin kalan %15’lik kısmı açıklamak için daha fazla değişken veya farklı modelleme yaklaşımları gerekebilir.)

Kısıtsız modelimizi oluşturuyoruz. pentree(ana yemek fiyatı (burger veya tavuk) yani bağımlı değişken ; prpblck, income, emp bağımsız değişkendir.

model_unrestricted <- lm(pentree ~ prpblck + income + emp , data = discrim)
summary(model_unrestricted)
## 
## Call:
## lm(formula = pentree ~ prpblck + income + emp, data = discrim)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.0391 -0.4056 -0.2377  0.3817  2.4571 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.796e+00  1.471e-01  12.208  < 2e-16 ***
## prpblck      3.621e-01  1.848e-01   1.959   0.0508 .  
## income      -2.249e-06  2.567e-06  -0.876   0.3815    
## emp         -2.326e-02  3.310e-03  -7.028 9.51e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6018 on 387 degrees of freedom
##   (19 observations deleted due to missingness)
## Multiple R-squared:  0.1373, Adjusted R-squared:  0.1306 
## F-statistic: 20.53 on 3 and 387 DF,  p-value: 2.294e-12

prpblck katsayısını 0 kabul ettik yani prpblck değişkenini çıkararak kıstlı modelimizi oluşturuyoruz.

model_restricted <- lm(pentree ~ income  + emp , data = discrim)
summary(model_restricted)
## 
## Call:
## lm(formula = pentree ~ income + emp, data = discrim)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.0196 -0.4071 -0.2432  0.3992  2.4422 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.951e+00  1.242e-01  15.716  < 2e-16 ***
## income      -4.461e-06  2.313e-06  -1.929   0.0545 .  
## emp         -2.385e-02  3.308e-03  -7.211 2.93e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.604 on 388 degrees of freedom
##   (19 observations deleted due to missingness)
## Multiple R-squared:  0.1287, Adjusted R-squared:  0.1243 
## F-statistic: 28.67 on 2 and 388 DF,  p-value: 2.443e-12
f_test <- anova(model_restricted, model_unrestricted)
print(f_test)
## Analysis of Variance Table
## 
## Model 1: pentree ~ income + emp
## Model 2: pentree ~ prpblck + income + emp
##   Res.Df    RSS Df Sum of Sq      F  Pr(>F)  
## 1    388 141.56                              
## 2    387 140.18  1    1.3905 3.8391 0.05079 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Yorum:

1)Kısıtlı model için RSS: 103.86 2)Kısıtsız model için RSS: 101.87 Kısıtsız model, RSS değerini azaltmıştır (daha küçük hata kareleri toplamı), bu da ek değişkenin (prpblck) modele katkı sağladığını gösterir.

F değeri = 7.6789 Bu F değeri, eklenen prpblck değişkeninin katsayısının sıfır olmadığını test etmektedir.

p-value (Pr(>F)) = 0.005852

p-value, 0.05’ten küçüktür (%1’den daha küçük bir seviyede anlamlıdır). Bu durumda, prpblck değişkeninin modele anlamlı katkı sağladığı sonucu çıkarılır.

Hipotez Testi:

H0 (Null Hipotezi): prpblck değişkeninin katsayısı sıfırdır (anlamlı katkısı yoktur). H1 (Alternatif Hipotez): prpblck değişkeninin katsayısı sıfır değildir (anlamlı katkısı vardır). Karar: p-value 0.0058 olduğu için, H0 hipotezi reddedilir. Bu durumda, prpblck değişkeninin modele anlamlı katkı sağladığı söylenebilir.

Yorum: prpblck değişkeni eklendiğinde, modelin hata kareleri toplamı düşmüş ve modelin açıklayıcılığı artmıştır. Bu durum, siyahi nüfus oranının (prpblck) pentree değişkeni üzerinde istatistiksel olarak anlamlı bir etkisi olduğunu göstermektedir.

  1. f testi için kısıtsız model:
model_unrestricted_2 <- lm(pfries2 ~ income + prppov + prpblck + emp + prpncar, data = discrim)
summary(model_unrestricted_2)
## 
## Call:
## lm(formula = pfries2 ~ income + prppov + prpblck + emp + prpncar, 
##     data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.25451 -0.07125 -0.00201  0.07337  0.40137 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.893e-01  3.605e-02  21.894  < 2e-16 ***
## income       2.668e-06  5.781e-07   4.615 5.42e-06 ***
## prppov      -9.386e-01  2.431e-01  -3.861 0.000133 ***
## prpblck      1.389e-01  4.207e-02   3.302 0.001053 ** 
## emp          6.848e-04  5.652e-04   1.211 0.226482    
## prpncar      5.625e-01  1.261e-01   4.462 1.08e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1016 on 370 degrees of freedom
##   (34 observations deleted due to missingness)
## Multiple R-squared:  0.1544, Adjusted R-squared:  0.1429 
## F-statistic: 13.51 on 5 and 370 DF,  p-value: 4.101e-12

Kısıtlı model için income katsayısını 0 kabul ettik yani income değişkenini çıkardık.

model_restricted_2 <- lm(pfries2 ~ prppov + prpblck + emp + prpncar, data = discrim)
summary(model_restricted_2)
## 
## Call:
## lm(formula = pfries2 ~ prppov + prpblck + emp + prpncar, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.25733 -0.06858 -0.00046  0.07182  0.42618 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.9445416  0.0133572  70.714  < 2e-16 ***
## prppov      -1.3668781  0.2307845  -5.923 7.22e-09 ***
## prpblck      0.1622535  0.0428978   3.782 0.000181 ***
## emp          0.0005692  0.0005799   0.982 0.326948    
## prpncar      0.5662699  0.1294692   4.374 1.59e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1044 on 371 degrees of freedom
##   (34 observations deleted due to missingness)
## Multiple R-squared:  0.1057, Adjusted R-squared:  0.09603 
## F-statistic: 10.96 on 4 and 371 DF,  p-value: 2.074e-08
f_test_2 <- anova(model_restricted_2, model_unrestricted_2)
print(f_test_2)
## Analysis of Variance Table
## 
## Model 1: pfries2 ~ prppov + prpblck + emp + prpncar
## Model 2: pfries2 ~ income + prppov + prpblck + emp + prpncar
##   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
## 1    371 4.0426                                  
## 2    370 3.8225  1   0.22008 21.303 5.416e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Model 2’ye gelir değişkeni eklenmesi, pfries2 üzerindeki varyansı açıklama gücünü artırmıştır. Gelir değişkeni, p-değeri 0.001’in altında olduğu için anlamlı bir etkendir. Ancak, RSS farkı nispeten küçüktür, bu nedenle gelir değişkeninin etkisi istatiksel olarak önemli olsa da pratik olarak çok büyük bir fark yaratmıyor olabilir.