Yeni-Ödev.knit

title: “Yeni Ödev (Final)” author: “Sude Kaptan” date: “2024-12-17” output: html_document: theme: journal toc: yes toc_float: collapsed: true —

AÇIKLAMALAR

psoda: price of medium soda, 1st wave psoda: Bu terim genellikle kısa formda kullanılır ve bir nesnenin, ürünün veya durumun adını kısaltmak için kullanılır.Burada “PSODA” kelimesi, “medium soda”nın fiyatını temsil eder. price of medium soda: Bu kısım, bir orta boy sodanın fiyatını ifade eder.”Medium soda” burada,genellikle restoranlarda veya fast food zincirlerinde sunulan orta boy içecek anlamına gelir. 1st wave: Bu terim, bir olayın ilk aşamasını veya dalgasını tanımlar.”1st wave”(1.dalga) kavramı genellikle bir sürecin başlatılması veya bir etkinliğin başlangıcını belirtir.

pfries: price of small fries, 1st wave pfries: Bu terim genellikle bir nesnenin, ürünün veya durumun kısaltmasıdır. Burada “PFRIES” küçük bir porsiyon patates kızartmasının fiyatını temsil eder. price of small fries: Bu kısım, bir küçük boy patates kızartmasının fiyatını ifade eder. 1st wave: Bu terim, bir olayın veya kampanyanın ilk aşamasını tanımlar.”1st wave”(1.dalga) bir sürecin başlangıcını veya bir promosyonun ilk adımını belirler.

pentree: price entree (burger or chicken), 1st wave pentree: Bu terim, bir nesnenin veya ürünün kısaltmasıdır.Burada “PENTREE” bir ana yemeğin fiyatını temsil eder. Ana yemek, genellikle bir burge veya tavuk yemeği anlamına gelir. price entree (burger or chicken): Bu kısım, bir burger veya tavuk yemeğinin fiyatını ifade eder. 1st wave: Bu terim, bir olayın veya kampanyanın ilk aşamasını belirtir.”1st wave” “(1.dalga) bir sürecin başlangıcını veya bir promosyonun ilk adımını tanımlar.

wagest: starting wage, 1st wave wagest: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “WAGEST” başlangıç ücretini temsil eder. starting wage: Bu kısım, bir kişinin işe başlarken aldığı ücret anlamına gelir. 1st wave: Bu terim, bir olayın veya süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir kampanya veya fiyat güncellemesinin başlangıcını ifade eder.

nmgrs: number of managers, 1st wave nmgrs: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “NMGRS” birim yöneticiler (managers) sayısını temsil eder. number of managers: Bu kısım, bir organizasyondaki yönetici sayısını ifade eder. 1st wave: Bu terim, bir olayın veya bir süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir kampanya, proje veya güncellemenin başlangıcını ifade eder.

nregs: number of registers, 1st wave nregs: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “NREGS” birim kasaların (registers) sayısını temsil eder. number of registers: Bu kısım, bir mağazada, restoran veya benzeri bir yerde mevcut olan kasa sayısını ifade eder. 1st wave: Bu terim, bir olayın veya süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir güncelleme veya değişiklik döneminin başlangıcını tanımlar.

hrsopen: hours open, 1st wave hrsopen: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “HRSOPEN” açılış saatlerini (hours open) temsil eder. hours open: Bu kısım, bir mağaza, restoran veya hizmet sunan bir yerin belirli saatler arasında açık olduğu zamanı ifade eder. 1st wave: Bu terim, bir olayın veya bir süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir güncelleme veya değişiklik döneminin başlangıcını tanımlar.

emp: number of employees, 1st wave emp: Bu terim, bir nesnenin veya ürünün kısaltmasıdır. Burada “EMP” birim çalışanların (employees) sayısınnı temsil eder. number of employees: Bu kısım, bir işletmedeki toplam çalışan sayısını ifade eder. 1st wave: Bu terim,bir olayın veya bir süreçteki ilk aşamasını belirtir.”1st wave” (1.dalga), bir değişiklik veya güncellemenin başlangıcını tanımlar.

psoda2: price of medium soday, 2nd wave psoda2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PSODA2” orta boy sodanın fiyatını temsil eder. price of medium soda: Bu kısım, bir orta boy sodanın fiyatını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir.”2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

pfries2: price of small fries, 2nd wave pfries2: Bu terim,bir nesnenin veya ürünün kısaltmasıdır ve burada “PFRISE2” küçük boy patates kızartmasının fiyatını temsil eder. price of small fries: Bu kısım, küçük boy patates kızartmasının fiyatını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir. “2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

pentree2: price entree, 2nd wave pentree2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PENTREE2” ana yemeğin (entree) fiyatını temsil eder. price entree: Bu kısım, bir ana yemeğin fiyatını ifade eder. Ana yemekler genellikle restoranlarda burger, tavuk, makarna gibi seçenekleri içerir. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir. “2nd wave” (2.dalga), belirli bir kampanya veya güncellemenin ikinci aşamasını tanımlar.

wagest2: starting wage, 2nd wave wagest2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “WAGEST2” başlangıç ücretini (starting wage) temsil eder. starting wage: Bu kısım, bir iş yerinde yeni başlayan bir çalışanın aldığı ücret anlamına gelir. 2nd wave: Bu terim, bir olayın veya sürecin ikinci aşamasını belirtir. “2nd wave” (2.dalga), bir kampanya, güncelleme veya değişikliğin ikinci aşamasını tanımlar.

nmgrs2: number of managers, 2nd wave nmgrs2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “NMGRS2” birim yöneticilerin (managers) sayısını temsil eder. number of managers: Bu kısım, bir organizasyondaki toplam yönetici sayısını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir. “2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

nregs2: number of registers, 2nd wave nregs2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “NREGS2” birim kasaların (registers) sayısını temsil eder. number of registers: Bu kısım, bir mağazada, restoran veya benzeri bir yerde mevcut olan kasa sayısını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir.”2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

hrsopen2: hours open, 2nd wave hrsopen2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “HRSOPEN2” işletmenin açılış saatlerini (hours open) temsil eder. hours open: Bu kısım, bir mağaza, restoran veya hizmet sunan bir yerin belirli saatler arasında açık olduğu zamanı ifade eder. 2nd wave: Bu terim, bir olayın veya sürecin ikinci aşamasını belirtir.”2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

emp2: number of employees, 2nd wave emp2: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “EMP2” birim çalışanların (employees) sayısını temsil eder. number of employees: Bu kısım, bir işletmedeki toplam çalışan sayısını ifade eder. 2nd wave: Bu terim, bir olayın veya bir süreçteki ikinci aşamasını belirtir. “2nd wave” (2.dalga), bir güncellemenin veya değişikliğin ikinci aşamasını tanımlar.

compown: =1 if company owned compown: Bu terim, bir şirketin mülkiyet durumunu ifade eder. 1 if company owned: Bu kısım, şirketin kendisine ait olup olmadığını belirtir.”1” ifadesi, şirketin şirket tarafından sahip olunan olduğunu gösterir.Yani, “Compown:1” demek, şirketin sahibi olan bir şirkete ait olduğunu ifade eder.

chain: BK = 1, KFC = 2, Roy Rogers = 3, Wendy’s = 4 chain: Bu terim, bir zincir restoranı veya fast food markasını temsil eder. BK = 1: Burger King’in temsilidir. KFC = 2: Kentucky Fried Chicken’ın temsilidir. Roy Rogers = 3: Roy Rogers restoran zincirinin temsilidir. Wendy’s = 4: Wendy’s restoran zincirinin temsilidir.

density: population density, town density: Bu terim, bir alandaki nüfusun yoğunluğunu ifade eder. population density: Bu kısım, belirli bir alanda, genellikle bir kilometrekare başına düşen kişi sayısını gösterir. town: Bu, bir kasaba veya şehir anlamına gelir.

crmrte: crime rate, town crmrte: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “CRMRTE” bir kasabadaki suç oranını (crime rate) temsil eder. crime rate: Bu kısım, belirli bir bölgede meydana gelen suç sayısının, o bölgedeki toplam nüfus ile ilişkisini gösterir. Genellikle bir yıl içinde işlenen suç sayısı, birimi başına düşen suç sayısı olarak ifade edilir. town: Bu, belirli bir kasaba veya şehir anlamına gelir.

state: NJ = 1, PA = 2 state: Bu terim, bir bölgeyi veya eyaleti temsil eder. NJ = 1: New Jersey eyaletini temsil eder. PA = 2: Pennsylvania eyaletini temsil eder.

prpblck: proportion black, zipcode prpblck: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PRPBLCK” belirli bir posta kodu bölgesindeki siyahi nüfusun oranını (proportion black) temsil eder. proportion black: Bu kısım, belirli bir bölgedeki siyahi nüfusun toplam nüfusa oranını ifade eder. zipcode: Bu, belirli bir posta kodu anlamına gelir.

prppov: proportion in poverty, zipcode prppov: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PRPPOV” belirli bir posta kodu bölgesindeki yoksulluk oranını (proportion in poverty) temsil eder. proportion in poverty: Bu kısım, belirli bir bölgedeki yoksulluk oranını ifade eder. Belirli bir posta kodu bölgesindeki nüfusun ne kadarının yoksulluk sınırının altında yaşadığını gösterir. zipcode: Bu, belirli bir posta kodu anlamına gelir.

prpncar: proportion no car, zipcode prpncar: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “PRPNCAR” belirli bir posta kodu bölgesindeki araç sahibi olmayan nüfusun oranını (proportion no car) temsil eder. proportion no car: Bu kısım, belirli bir bölgedeki nüfusun araç sahibi olmadan yaşama oranını ifade eder. zipcode: Bu, belirli bir posta kodu anlamına gelir.

hseval: median housing value, zipcode hseval: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “HSEVAL” belirli bir posta kodu bölgesindeki konutların medyan değerini (median housing value) temsil eder. median housing value: Bu kısım, belirli bir bölgedeki konutların fiyatlarının sıralandıktan sonra ortanca değeri anlamına gelir. Yani, belirli bir posta kodu bölgesindeki konutların fiyatlarının ortancası, bu terimle ifade edilir. zipcode: Bu, belirli bir posta kodu anlamına gelir.

nstores: number of stores, zipcode nstores: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “NSTORES” belirli bir posta kodu bölgesindeki mağaza sayısını (number of stores) temsil eder. number of stores: Bu kısım, belirli bir posta kodu bölgesinde bulunan toplam mağaza sayısını ifade eder. zipcode: Bu, belirli bir posta kodu anlamına gelir.

income: median family income, zipcode income: Bu terim, bir nesnenin veya ürünün kısaltmasıdır ve burada “INCOME” belirli bir posta kodu bölgesindeki ailelerin medyan gelirini (median family income) temsil eder. median family income: Bu kısım, belirli bir bölgede veya posta kodu bölgesinde yaşayan ailelerin gelirlerinin sıralandıktan sonra ortanca değerini ifade eder. Yani, o bölgede yer alan ailelerin gelirlerinin tam ortasında yer alan gelir düzeyini gösterir. zipcode: Bu, belirli bir posta kodu anlamına gelir.

county: county label county: Bu terim, belirli bir idari bölgeyi veya ilçeyi temsil eder. county label: Bu kısım, belirli bir bölgenin veya ilçenin tanımlayıcı etiketini ifade eder. Örneğin, bir araştırma veya veritabanında bu etiket, belirli bir posta kodu veya konumun hangi ilçeye ait olduğunu belirtmek için kullanılır.

lpsoda:log(psoda) lpsoda: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(psoda): Burada, “PSODA” terimi bir orta boy sodayı temsil eder. “log” fonksiyonu ise “PSODA” değerinin doğal logaritmasını alır.

lpfries: log(pfries) lpfries: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(pfries): Burada, “PFRIES” terimi küçük bir kızartmanın fiyatını temsil eder. “log” fonksiyonu, “PFRIES” değerinin doğal logaritmasını alır.

lhseval:log(hseval) lhseval: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(hseval): Burada, “HSEVAL” terimi belirli bir bölgede veya posta kodu bölgesinde konutların medyan değerini (konut fiyatlarını) temsil eder. “log” fonksiyonu “HSEVAL” değerinin doğal logaritmasını alır.

lincome:log(income) lincome: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(income): Burada, “İNCOME” terimi belirli bir bölgede veya posta kodu bölgesinde ailelerin medyan gelirini temsil eder. “log” fonksiyonu, “İNCOME” değerinin doğal logaritmasını alır.

ldensity:log(density) ldensity: Bu terim, belirli bir değişkenin doğal logaritmasını (logaritma tabanı e) almayı ifade eder. log(density): Burada, “DENSİTY” terimi belirli bir bölgedeki nüfus yoğunluğunu temsil eder. “log” fonksiyonu “DENSİTY” değerinin doğal logaritmasını alır.

NJ: =1 for New Jersey NJ: Bu terim, New Jersey eyaletini temsil eder. 1 for New Jersey: Bu, belirli bir değişkenin New Jersey için 1 olarak tanımlandığını ifade eder. Yani bu değişken veya kategoride “1”, New Jersey’i gösterir.

BK: =1 if Burger King BK: Bu terim, belirli bir restoran zincirini veya markayı temsil eder. 1 if Burger King: Bu, eğer bir değişkenin değerinin 1 ise, bu restoran zincirinin Burger King olduğunu belirtir.

KFC: =1 if Kentucky Fried Chicken KFC: Bu terim, belirli bir restoran zincirini veya markayı temsil eder. 1 if Kentucky Fried Chicken: Bu, bir değişkenin değeri 1 ise, bu restoran zincirinin Kentucky Fried Chicken olduğunu belirtir.

RR: =1 if Roy Rogers RR: Bu terim, belirli bir restoran zincirini veya markayı temsil eder. 1 if Roy Rogers: Bu, bir değişkenin değeri 1 ise, bu restoran zincirinin Roy Rogers olduğunu belirtir.

library(wooldridge)

A.

data("discrim")

head(discrim)

##   psoda pfries pentree wagest nmgrs nregs hrsopen  emp psoda2 pfries2 pentree2
## 1  1.12   1.06    1.02   4.25     3     5    16.0 27.5   1.11    1.11     1.05
## 2  1.06   0.91    0.95   4.75     3     3    16.5 21.5   1.05    0.89     0.95
## 3  1.06   0.91    0.98   4.25     3     5    18.0 30.0   1.05    0.94     0.98
## 4  1.12   1.02    1.06   5.00     4     5    16.0 27.5   1.15    1.05     1.05
## 5  1.12     NA    0.49   5.00     3     3    16.0  5.0   1.04    1.01     0.58
## 6  1.06   0.95    1.01   4.25     4     4    15.0 17.5   1.05    0.94     1.00
##   wagest2 nmgrs2 nregs2 hrsopen2 emp2 compown chain density    crmrte state
## 1    5.05      5      5     15.0 27.0       1     3    4030 0.0528866     1
## 2    5.05      4      3     17.5 24.5       0     1    4030 0.0528866     1
## 3    5.05      4      5     17.5 25.0       0     1   11400 0.0360003     1
## 4    5.05      4      5     16.0   NA       0     3    8345 0.0484232     1
## 5    5.05      3      3     16.0 12.0       0     1     720 0.0615890     1
## 6    5.05      3      4     15.0 28.0       0     1    4424 0.0334823     1
##     prpblck    prppov   prpncar hseval nstores income county     lpsoda
## 1 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.11332869
## 2 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.05826885
## 3 0.0473602 0.0879072 0.2694298 169200       3  41164     12 0.05826885
## 4 0.0528394 0.0591227 0.1366903 171600       3  50366     10 0.11332869
## 5 0.0344800 0.0254145 0.0738020 249100       1  72287     10 0.11332869
## 6 0.0591327 0.0835001 0.1151341 148000       2  44515     18 0.05826885
##       lpfries  lhseval  lincome ldensity NJ BK KFC RR
## 1  0.05826885 11.90699 10.70401 8.301521  1  0   0  1
## 2 -0.09431065 11.90699 10.70401 8.301521  1  1   0  0
## 3 -0.09431065 12.03884 10.62532 9.341369  1  1   0  0
## 4  0.01980261 12.05292 10.82707 9.029418  1  0   0  1
## 5          NA 12.42561 11.18840 6.579251  1  1   0  0
## 6 -0.05129331 11.90497 10.70358 8.394799  1  1   0  0

help("discrim")

Gördüğünüz gibi veri setinde bazı değişkenler için bazı gözlemler NA değerine sahip. NA (not available) o gözlem için mevcut değil anlamına geliyor. Örneğin pfries (price of small fries, küçük kızartmanın fiyatı) değişkeninin beşinci gözlemi veri setinde bulunan beşinci restoranının küçük kızartma fiyatını bilmediğimiz anlamı taşıyor. Mevcut olmayan gözlemler analizlerde her zaman sorunlar çıkarır.

B.

mean(discrim$prpblck)

## [1] NA

sd(discrim$prpblck)

## [1] NA

mean(discrim$income)

## [1] NA

sd(discrim$income)

## [1] NA

Bildiğimiz mean ve sd fonksiyonlarını kullanarak ortama ve standart sapma değerlerini bulamadık. Çıkan NA sonucu bize bu değişkenlerin içinde bazı gözlemlerin mevcut olmadığını gösteriyor olabilir. discrim veri setinde 410 gözlem olduğundan her bir gözlemi kontrol edemiyorz ve bu değişkenlerin içinde kaç tane gözlemin mevcut olmadığını çıkaramıyoruz. R bize bu konuda is.na fonksiyonu ile yardımcı oluyor. is.na aslında sorduğumuz ingilizce bir soru ve is na? derken R’a mevcut olmayan gözlem var mı diye soru soruyoruz. R’da bize her bir gözlem için o gözlemin değeri olup olmadığını TRUE (doğru) ve FALSE (yanlış) olarak geri veriyor.

sum(is.na(discrim$prpblck))

## [1] 1

sum(is.na(discrim$income))

## [1] 1

Gördüğünüz gibi hem prbblck hem income değişkenlerinin birer gözlemi boş değere sahip. Bu yüzden mean ve sd fonksiyonlarının NA gözlemlerine sahip olduğunu söylememiz lazım.

mean(discrim$prpblck,na.rm = TRUE)

## [1] 0.1134864

sd(discrim$prpblck, na.rm = TRUE)

## [1] 0.1824165

mean(discrim$income, na.rm = TRUE)

## [1] 47053.78

sd(discrim$income, na.rm = TRUE)

## [1] 13179.29

Fonksiyonun içine yazdığımız na.rm (na remove,çıkar) mevcut olmayan gözlemleri hesaplamadan çıkarmamızı söyler. prbblck değişkeninin ortalaması 0.11, standart sapması 0.18, income değişkeninin ortalaması 47053, standart sapması 13179 olacaktır.

Diyelim ki siz bütün değişkenler için kaç tane gözlemin mevcut olmadığını, kaç tane gözlemin var olduğunu, ortalamasını ve standart sapmasını görmek istiyorsunuz. Bu durumda vtable paketi size yardımcı olacaktır.

library(vtable)

## Loading required package: kableExtra

library(kableExtra)

sumtable(discrim, summ =c ('notNA(x)', 'countNA(x)', 'mean(x)', 'sd(x)'),out = 'return')

##    Variable NotNA CountNA   Mean    Sd
## 1     psoda   402       8      1 0.089
## 2    pfries   393      17   0.92  0.11
## 3   pentree   398      12    1.3  0.64
## 4    wagest   390      20    4.6  0.35
## 5     nmgrs   404       6    3.4     1
## 6     nregs   388      22    3.6   1.2
## 7   hrsopen   410       0     14   2.8
## 8       emp   404       6     18   9.4
## 9    psoda2   388      22      1 0.094
## 10  pfries2   382      28   0.94  0.11
## 11 pentree2   386      24    1.4  0.65
## 12  wagest2   389      21      5  0.25
## 13   nmgrs2   404       6    3.5   1.1
## 14   nregs2   388      22    3.6   1.2
## 15 hrsopen2   399      11     14   2.8
## 16     emp2   397      13     18   8.6
## 17  compown   410       0   0.34  0.48
## 18    chain   410       0    2.1   1.1
## 19  density   409       1   4562  5132
## 20   crmrte   409       1  0.053 0.047
## 21    state   410       0    1.2  0.39
## 22  prpblck   409       1   0.11  0.18
## 23   prppov   409       1  0.071 0.067
## 24  prpncar   409       1   0.11  0.12
## 25   hseval   409       1 147399 56070
## 26  nstores   410       0    3.1   1.8
## 27   income   409       1  47054 13179
## 28   county   410       0     14     8
## 29   lpsoda   402       8   0.04 0.085
## 30  lpfries   393      17 -0.088  0.12
## 31  lhseval   409       1     12  0.39
## 32  lincome   409       1     11  0.28
## 33 ldensity   409       1      8     1
## 34       NJ   410       0   0.81  0.39
## 35       BK   410       0   0.42  0.49
## 36      KFC   410       0    0.2   0.4
## 37       RR   410       0   0.24  0.43

C.

discrimreg <- lm(psoda~prpblck+income,data = discrim)

summary(discrimreg)

## 
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.29401 -0.05242  0.00333  0.04231  0.44322 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.563e-01  1.899e-02  50.354  < 2e-16 ***
## prpblck     1.150e-01  2.600e-02   4.423 1.26e-05 ***
## income      1.603e-06  3.618e-07   4.430 1.22e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08611 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06422,    Adjusted R-squared:  0.05952 
## F-statistic: 13.66 on 2 and 398 DF,  p-value: 1.835e-06

                          psoda=0.956+0.115prpblck+0.0000016income+u

Örnek boyutu 399 gözlemdir (398 serbestlik derecesi ve 9 eksik gözlem ile gösterilir) ve ayarlanmış R kare 0.595’tir. prpblck katsayısı, her şey eşit olduğunda, prpblck %10 artarsa, soda fiyatının ekonomik olarak önemli olmayan derecede yaklaşık 1,2 sent artacağını gösterir.

D.

basitdiscrimreg <- lm(psoda~prpblck, data = discrim)

summary(basitdiscrimreg)

## 
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.30884 -0.05963  0.01135  0.03206  0.44840 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.03740    0.00519  199.87  < 2e-16 ***
## prpblck      0.06493    0.02396    2.71  0.00702 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0881 on 399 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.01808,    Adjusted R-squared:  0.01561 
## F-statistic: 7.345 on 1 and 399 DF,  p-value: 0.007015

Basit regresyon ile prpblack üzerindeki katsayının tahmini 0.065’tir. Bu, önceki tahminden daha düşüktür ve bu nedenle, gelir hariç tutulduğunda ayrımcılık etkisinin azaldığını gösterir.

E.

logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)

summary(logdiscrimreg)

## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.33563 -0.04695  0.00658  0.04334  0.35413 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.79377    0.17943  -4.424 1.25e-05 ***
## prpblck      0.12158    0.02575   4.722 3.24e-06 ***
## log(income)  0.07651    0.01660   4.610 5.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0821 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06809,    Adjusted R-squared:  0.06341 
## F-statistic: 14.54 on 2 and 398 DF,  p-value: 8.039e-07

paste((0.2*100)*0.122, "yüzdelik artış")

## [1] "2.44 yüzdelik artış"

“Prpblck” yüzde 20 artarsa, psoda tahmini olarak %2,44 artacaktır.

F.

logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov,data = discrim)

summary(logdiscrimregprpov)

## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32218 -0.04648  0.00651  0.04272  0.35622 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.46333    0.29371  -4.982  9.4e-07 ***
## prpblck      0.07281    0.03068   2.373   0.0181 *  
## log(income)  0.13696    0.02676   5.119  4.8e-07 ***
## prppov       0.38036    0.13279   2.864   0.0044 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08137 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08696,    Adjusted R-squared:  0.08006 
## F-statistic:  12.6 on 3 and 397 DF,  p-value: 6.917e-08

prppov eklemek, prpblck katsayısının 0,0738’e düşmesine neden olur.

G.

cor(log(discrim$income),discrim$prppov, use = "complete.obs")

## [1] -0.838467

Korelasyon yaklaşık olarak -0.838’dir. Bu mantıklı, çünkü gelirdeki düşüşlerin daha yüksek yoksulluk oranlarıyla sonuçlanması beklenebilir.

H.

Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar.

F testi

Veri Hazırlığı Öncelikle, test yapmak için iki grup (örneğin, soda tüketim oranları) için verilerinizi hazırlamanız gerekiyor. Bu örnekte, verilerinizi veri çerçevesi (data frame) biçiminde varsayalım. Örneğin, discrim veri setindeki psoda (soda tüketimi) ve prpblck (siyah nüfus oranı) gibi değişkenleri kullanabilirsiniz.

# Veri setinden iki grup seçelim
group1 <- discrim$psoda[discrim$prpblck < 0.5]  
group2 <- discrim$psoda[discrim$prpblck >= 0.5]

t-Testi Uygulamak Eğer iki grup arasındaki ortalamaların farklı olup olmadığını test etmek istiyorsanız, bağımsız iki örneklem t-testi yapabilirsiniz. Bu durumda, t.test() fonksiyonunu şu şekilde kullanabilirsiniz:

t_test_result <- t.test(group1, group2)

print(t_test_result)

## 
##  Welch Two Sample t-test
## 
## data:  group1 and group2
## t = -3.0361, df = 25.875, p-value = 0.005408
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.09613232 -0.01850296
## sample estimates:
## mean of x mean of y 
##  1.041432  1.098750

Bu sonuçlar, group1 ile group2 arasında anlamlı bir ortalama farkı olduğunu, ve bu farkın group2 lehine olduğunu göstermektedir.
Varsayım Kontrolleri

T-testi için bazı varsayımlar vardır, bunlar:

Bağımsız gözlemler. Normal dağılım: Verinin normal dağılıp dağılmadığı kontrol edilmelidir. Varyansların homojenliği (eşitliği): İki grubun varyansları birbirine yakın olmalıdır. Varyansların eşitliği varsayımını kontrol etmek için var.test() fonksiyonunu kullanabilirsiniz:

# Varyansların eşitliğini test etme
var_test_result <- var.test(group1, group2)

print(var_test_result)

## 
##  F test to compare two variances
## 
## data:  group1 and group2
## F = 0.95465, num df = 376, denom df = 23, p-value = 0.8079
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.4792872 1.6163674
## sample estimates:
## ratio of variances 
##          0.9546547

Bu test, group1 ve group2 arasındaki varyansların birbirine eşit olduğunu gösteriyor. Varyansların oranı 1’e yakın olup, p-değeri 0.05’ten büyük olduğu için gruplar arasındaki varyans farkı anlamlı değildir.
Veri Normalitesini Test Etme

Verilerin normal dağılıp dağılmadığını test etmek için shapiro.test() fonksiyonunu kullanabilirsiniz:

# Normal dağılımı test etme
shapiro_group1 <- shapiro.test(group1)
shapiro_group2 <- shapiro.test(group2)

# Sonuçları yazdır
print(shapiro_group1)

## 
##  Shapiro-Wilk normality test
## 
## data:  group1
## W = 0.9528, p-value = 1.262e-09

print(shapiro_group2)

## 
##  Shapiro-Wilk normality test
## 
## data:  group2
## W = 0.91586, p-value = 0.04735

group1 ve group2’nin verileri normal dağılıma uymuyor.
group1’in p-değeri çok küçük, bu yüzden kesin olarak normal dağılmadığı söylenebilir.

group2’nin p-değeri ise 0.05’e yakın, bu da verinin normal dağılıma yakın olmadığını - gösteriyor ama kesin bir şekilde reddedilemez.