Metode Statistika 2

Latihan Soal UAS

Kontak \(\downarrow\)
Nama Naftali Brigitta Gunawan
NIM 20214920002
Email
RPubs https://rpubs.com/naftalibrigitta/

Nomor 1

Buat tabel

nilai_x = c(57, 59, 49, 62, 51, 50, 55, 48, 52, 42, 61, 57)
nilai_y = c(64, 71, 53, 67, 55, 58, 77, 57, 56, 51, 76, 68)
tabel = data.frame(nilai_x, nilai_y)
tabel

a. Buatlah diagram pencar yang memperlihatkan hubungan kedua peubah.

plot(tabel)
abline(lm(nilai_y~nilai_x),col="maroon")

b. Apakah tampak terdapat hubungan linier antara X dan Y berdasarkan a? Hitung korelasi dari kedua variabel tersebut.

cor.test(nilai_x,nilai_y)
## 
##  Pearson's product-moment correlation
## 
## data:  nilai_x and nilai_y
## t = 4.5245, df = 10, p-value = 0.001101
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4640133 0.9477359
## sample estimates:
##       cor 
## 0.8196451

hasil korelasi atau hubungan linier X dan Y nya ada hubungan karena hasil korelasinya tidak sama dengan 0. hasil korelasi dari kedua variabel adalah 0.82

c. Apabila ingin diketahui fungsi Y = f(X) yang menghubungkan X dengan Y sebagai fungsi linier. Persamaan seperti apa yang dihasilkan?

## 
## Call:
## lm(formula = nilai_y ~ nilai_x, data = tabel)
## 
## Coefficients:
## (Intercept)      nilai_x  
##      -3.624        1.239

Jadi, persamaan regresinya adalah y = -3.624 + 1.239 * x atau nilai_y = -3.624 + 1.239 * nilai_x

d. Berdasarkan persamaan c), tentukan prediksi nilai Y apabila diketahui data baru X = (40, 45, 50, dan 55)

predict.lm(modell,data.frame(nilai_x=c(40, 45, 50, 55)))
##        1        2        3        4 
## 45.92436 52.11785 58.31133 64.50482

Nilai prediksi Y dengan memasukkan nilai X yang baru adalah 45.92 , 52.11 , 58.31 , 64.5


Nomor 2

Terdapat data usia, berat badan, tinggi badan anak-anak di Posyandu Mentari Pagi yang disajikan seperti berikut ini.

Buat tabel

usia     <- c(8, 10, 7, 12, 9, 10, 7, 8, 11, 8, 10, 8)
tinggi   <- c(125, 137, 100, 122, 129, 128, 98, 103, 130, 95, 115, 105)
berat    <- c(37, 41, 34, 39, 40, 42, 38, 42, 40, 36, 41, 38)
posyandu <- data.frame(usia, tinggi, berat)
posyandu

Dari data tersebut faktor manakah yang memberikan pengaruh terhadap berat badan anak-anak di Posyandu Mentar Pagi.

a. Susun diagram pencar yang menerangkan hubungan antara Usia dengan Berat Badan, dan Tingga dengan Berat Badan. Informasi apakah yang dapat terbaca dari diagram tersebut.

Usia dengan Berat Badan

plot(usia, berat)

Berdasarkan diagram pencar di atas, terlihat bahwa hubungannya positif tetapi terlihat juga bahwa semakin usianya bertambah tidak memastikan bahwa berat badan juga akan besar.

Tinggi dengan Berat Badan

plot(tinggi, berat)

Hal ini juga sama dengan Tinggi yang terlihat tidak terlalu berpengaruh dengan berat badan.

b. Tentukan model regresi berganda dari Berat Badan terhadap Usia dan Tinggi

model_posyandu <- lm(berat ~ usia+tinggi)

summary(model_posyandu)
## 
## Call:
## lm(formula = berat ~ usia + tinggi)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1516 -1.5316  0.1862  1.0919  4.1730 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 28.32138    5.29393   5.350 0.000462 ***
## usia         0.51960    0.59098   0.879 0.402151    
## tinggi       0.05193    0.06414   0.810 0.439049    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.216 on 9 degrees of freedom
## Multiple R-squared:  0.3499, Adjusted R-squared:  0.2054 
## F-statistic: 2.422 on 2 and 9 DF,  p-value: 0.144

Dari hasil di atas dapat disimpulkan bahwa usia dan tinggi tidak berpengaruh signifikan terhadap berat badan anak-anak. Hal ini dibuktikan dari p-value untuk usia 0.4 dan tinggi 0.43 yang mana dengan taraf signifikansi 0.05 berarti melebihi taraf signifikansi. Adapun persamaan regresinya adalah berat = 28.33 + 0.52 usia + 0.052 tinggi.

c. Periksalah faktor mana yang berpengaruh terhadap Berat Badan.

Berdasarkan hasil sebelumnya, usia dan tinggi tidak berpengaruh secara signifikan terhadap berat badan anak-anak.

d. Periksa koefisien determinasinya dan terangkan apa maknanya

Berdasarkan hasil di atas didapat juga nilai koefisien determinasinya sebesar 0.3499 atau 34,99% yang artinya usia dan tinggi dapat menjelaskan 34,99% terhadap variabel berat badan. Dengan hasil ini, rasanya model yang dibuat tidak cukup baik, karena tidak melebihi angka 50%.

e. Buat perkiraan rata-rata berat badan berdasarkan rentang dari Usia dan rentang Tinggi badan.

membuat perkiraan rata-rata berat badan berdasarkan rentang usia dan rentang tinggi badan.

Berdasarkan Rentang Minimal

min = min(usia)
minn = min(tinggi)

berat_minimal = 28.33 + 0.52 * min + 0.052 * minn

berat_minimal
## [1] 36.91

Berdasarkan Rentang Maksimal

max = max(usia)
maxx = max(tinggi)

berat_maksimal = 28.33 + 0.52 * max + 0.052 * maxx


berat_maksimal
## [1] 41.694

Berdasarkan hasil di atas, dapat disimpulkan bahwa perkiraan rata-rata berat minimal dengan rentang minimal adalah 36.91 dan berat maksimalnya adalah 41.7


Nomor 3

Berikut adalah data hasil taksiran harga rumah, periksa apakah ada model yang menjelaskan harga rumah berdasarkan ukuran usia rumah.

Buat tabel

## tibble [15 x 3] (S3: tbl_df/tbl/data.frame)
##  $ Harga_Taksiran: num [1:15] 184 177 176 186 179 ...
##  $ Umur          : num [1:15] 3.42 11.5 8.33 0 7.42 32 16 2 1.75 2.75 ...
##  $ Luas_Bangunan : num [1:15] 100 85.5 72.5 88 96.5 60 77.5 96.5 79.5 75 ...

a. Rumuskan pertanyaan yang dapat dijawab dengan analisis regresi

  1. Berapa harga jika luasnya … dan umurnya … ?
  2. berapa tingkat keakuratan modelnya ?

b. Tentukan model regresi dengan dua peubah bebas

model3.1 <- lm(Harga_Taksiran ~ Umur + Luas_Bangunan, data = data3)
summary(model3.1)$coef
##                  Estimate Std. Error   t value     Pr(>|t|)
## (Intercept)   163.7751236 5.40717315 30.288493 1.051044e-12
## Umur           -0.2842543 0.08359836 -3.400238 5.267391e-03
## Luas_Bangunan   0.2145037 0.06028654  3.558069 3.937797e-03
# persamaan
harga.semua = function(Umur, Luas_Bangunan)
{ 
 rumusnya = 163.77 + Umur*-0.28 +Luas_Bangunan * 0.21
  
  return(cat("harga rumah jika luasnya ", Luas_Bangunan, " meter persegi dan umurnya", Umur, "tahun adalah",rumusnya,"juta"))
}

Persamaan yang didapat dari model3.1 adalah Harga_Taksiran = 163.77 + Umur * -0.28 + Luas_Bangunan * 0.21

c. Tentukan dua model regresi dengan masing-masing satu peubah bebas

harga dengan umur

model3.2 <- lm(Harga_Taksiran ~ Umur , data = data3)
summary(model3.2)$coef
##                Estimate Std. Error    t value     Pr(>|t|)
## (Intercept) 182.8311281 1.02497090 178.376896 2.036003e-23
## Umur         -0.4557158 0.09408434  -4.843695 3.207450e-04
# persamaannya
harga.umur = function(Umur)
{ 
 rumusnyaa = 182.83 + Umur * -0.46
  
  return(cat("harga rumah jika umur", Umur, "tahun adalah",rumusnyaa,"juta"))
}

Persamaan yang didapat dari model3.2 adalah harga = 182.83 + Umur * -0.46

harga dengan luas

model3.3 <- lm(Harga_Taksiran ~  Luas_Bangunan, data = data3)
summary(model3.3)$coef
##                  Estimate Std. Error   t value     Pr(>|t|)
## (Intercept)   151.9153399 5.56252089 27.310520 7.234986e-13
## Luas_Bangunan   0.3326674 0.06632043  5.016062 2.361602e-04
# persamaannya
harga.luas = function(Luas_Bangunan)
{ 
 rumusnyaaa = 151.92 + Luas_Bangunan * 0.33
  
  return(cat("harga rumah jika luasnya ", Luas_Bangunan, " meter persegi adalah",rumusnyaaa,"juta"))
}

Persamaan yang didapat dari model3.3 adalah harga = 151.92 + Luas_Bangunan * 0.33

d. Jelaskan perbedaan jawaban b dan c


Jawaban b dengan c ini berbeda karena pada jawaban b kita meregresikannya dengan dua peubah bebas. karena ada dua peubah, harus kita cek, apakah ada korelasi antara dua variabel tersebut? Hasilnya pasti berbeda dengan c, karena c hanya membandingkan dengan satu variabel, hanya menggunakan satu patokan atau satu pegangan, sedangkan pada model b, model sudah menghitung keseluruhannya (sudah include dihitung korelasinya).

e. Periksa adjusted r2 dari ketiga model yang menjadi jawaban b dan c. 

summary(model3.1) # harga dengan Umur dan Luas_Bangunan
## 
## Call:
## lm(formula = Harga_Taksiran ~ Umur + Luas_Bangunan, data = data3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2656 -1.6385  0.1188  1.3053  3.2486 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   163.77512    5.40717  30.288 1.05e-12 ***
## Umur           -0.28425    0.08360  -3.400  0.00527 ** 
## Luas_Bangunan   0.21450    0.06029   3.558  0.00394 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.168 on 12 degrees of freedom
## Multiple R-squared:  0.8265, Adjusted R-squared:  0.7976 
## F-statistic: 28.58 on 2 and 12 DF,  p-value: 2.728e-05
summary(model3.2) # harga dengan Umur
## 
## Call:
## lm(formula = Harga_Taksiran ~ Umur, data = data3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.5336 -2.6809 -0.1904  2.6455  3.9803 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 182.83113    1.02497 178.377  < 2e-16 ***
## Umur         -0.45572    0.09408  -4.844 0.000321 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.986 on 13 degrees of freedom
## Multiple R-squared:  0.6435, Adjusted R-squared:  0.616 
## F-statistic: 23.46 on 1 and 13 DF,  p-value: 0.0003207
summary(model3.3) # harga dengan Luas_Bangunan
## 
## Call:
## lm(formula = Harga_Taksiran ~ Luas_Bangunan, data = data3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.9177 -1.7297 -0.3337  2.1084  4.7099 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   151.91534    5.56252  27.311 7.23e-13 ***
## Luas_Bangunan   0.33267    0.06632   5.016 0.000236 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.919 on 13 degrees of freedom
## Multiple R-squared:  0.6593, Adjusted R-squared:  0.6331 
## F-statistic: 25.16 on 1 and 13 DF,  p-value: 0.0002362
## Adjusted R2 model 1 0.7976 , model 2  0.616 , model 3 0.6331 .NULL

Kita bisa mengambil model yang paling bagus dengan cara mengambil Adjusted R2 yang paling besar dibandingkan dengan model lain. Dari hasil di atas, bisa dikatakan model yang paling bagus yaitu model3.1 (harga dengan dua peubah, umur dan luas) sebesar 0,7976.

f. Interpretasikan koefisien dari ketiga model di b dan c. 

Model 3.1

Dari hasil model3.1, persamaan yang ditemukan adalah Harga = 163.77 + Umur * (-0.28) + Luas_Bangunan * 0.21. ini mengartikan bahwa harga rumah bisa dihitung dengan nilai awal atau harga minimum rumah adalah 163,77 juta (umurnya 0 tahun dan luasnya 0 m2). angka -0,28 mengartikan setiap bertambahnya umur suatu rumah, harga rumah menurun 0,28 juta/tahun. Lalu koefisien luas sebesar 0,21 mengartikan bahwa harga rumah akan bertambah 0,21 juta setiap 1 meter persegi.

Model 3.2

Dari hasil model3.2, persamaan yang ditemukan adalah Harga = 182.83 + Umur * -0.46. ini berartikan harga awal dengan umur 0 tahun adalah 182,83 juta. dan setiap bertambah satu tahun, harganya berkurang 0,46 juta.

Model 3.3

Dari hasil model3.3, persamaan yang ditemukan adalah Harga = 151.92 + Luas_Bangunan * 0.33. dari persamaan model, harga awal dengan variabel luas mulai dari 151,92 juta, dan setiap luasnya bertambah 1 meter persegi, harga rumahnya naik 0,33 juta.


Nomor 4

a. Buatlah diagram pencar yang memperlihatkan hubungan kedua peubah.

library(ISwR)
library(ggplot2)
ggplot(rmr, aes(x=body.weight, y=metabolic.rate)) + 
  geom_point() +
  geom_smooth(method=lm)

b. Apakah tampak terdapat hubungan linier antara X dan Y berdasarkan a? Hitung korelasi dari kedua variabel tersebut.

cor.test(rmr$body.weight, rmr$metabolic.rate)
## 
##  Pearson's product-moment correlation
## 
## data:  rmr$body.weight and rmr$metabolic.rate
## t = 7.2213, df = 42, p-value = 7.025e-09
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5742343 0.8527119
## sample estimates:
##       cor 
## 0.7442379

Terdapat hubungan antara linier X dan Y nya ada hubungan karena hasil korelasinya tidak sama dengan 0 (true correlation atau korelasi nyata/signifikan). karena hasil korelasi dari kedua variabel adalah 0.74

c. Apabila ingin diketahui fungsi Y = f(X) yang menghubungkan X dengan Y sebagai fungsi linier. Persamaan seperti apa yang dihasilkan? Interpretasikan model yang terbentuk.

library(tidyverse)
library(broom)
theme_set(theme_classic())

model <- lm(data=rmr, metabolic.rate~body.weight)
model
## 
## Call:
## lm(formula = metabolic.rate ~ body.weight, data = rmr)
## 
## Coefficients:
## (Intercept)  body.weight  
##      811.23         7.06

Jadi, persamaan regresinya adalah y = 811.23 + 7.06 * x
Interpretasi = Nilai rata-rata metabolisme akan bertambah sebesar 7.06 satuan, apabila berat badan bertambah satu satuan.

d. Berdasarkan persamaan c, tentukan prediksi nilai Y berat badan X = (60, 65, 70, dan 75)

predict.lm(model,data.frame(body.weight=c(60, 65, 70, 75)))
##        1        2        3        4 
## 1234.798 1270.096 1305.394 1340.691

Jadi, nilai prediksi Y setelah di masukkan nilai X yang baru, hasilnya menjadi 1234.8 ; 1270.1 ; 1305.4 ; 1340.7


Nomor 5

Buat tabel

library(readxl)
library(tidyverse)
library(dplyr)
library(rsample)

setwd(getwd())
data5 = read_excel("data lat soal metstat naftali.xlsx", sheet = 2 )
data5 <- setNames(data5, c("Tahun", "Kejadian"))
data5$Tahun <- as.numeric(data5$Tahun)
data5$Kejadian <- as.numeric(data5$Kejadian)
data5

a. Gambarkan diagram pencar (plot) data runtun waktu

library(ggplot2)
plot(data5$Tahun, data5$Kejadian)

b. Dengan menggunakan pendekatan trend linier, tentukan persamaan garis yang terbentuk.

model5 = lm(Tahun ~ Kejadian, data = data5)
summary(model5)
## 
## Call:
## lm(formula = Tahun ~ Kejadian, data = data5)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.6088 -2.3026 -0.6962  1.5164  4.5006 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.000e+03  9.407e+00 212.635 1.34e-14 ***
## Kejadian    2.187e-02  4.295e-02   0.509    0.626    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.875 on 7 degrees of freedom
## Multiple R-squared:  0.03572,    Adjusted R-squared:  -0.102 
## F-statistic: 0.2593 on 1 and 7 DF,  p-value: 0.6262

Maka, persamaan garis yang terbentuk adalah
Y = a + b * X
Y = 2.000e+03 + 2.187e-02 * X

c. Lakukan pendekatan rata-rata 3 tahun untuk data tersebut.

data5 = read_excel("data lat soal metstat naftali.xlsx", sheet = 2 )
data5 <- setNames(data5, c("Tahun", "Kejadian"))

#moving average 3
data5$prediksi1 <- NA
k=3
B=nrow(data5)-k
for (i in 1:B){
  B=i+(k-1)
  data5$prediksi1[i+k] <- mean(data5$Kejadian[i:B])}
data5

d. Gambarkan hasil b dan c ke dalam plot runtun waktu.

e. Periksa residu dari b dan c, tentukan mana yang lebih baik.

# Year = data5$Tahun
data5$predictedL = fitted.values(model5)
data5$residualL = residuals(model5)
data5$residualLS= residuals(model5)^2
MSEb = mean(data5$residualLS)
MAEb = mean(abs(data5$residualL))
MAPEb= mean(abs(data5$residualL)/data5$Kejadian)

# residual c
data5$residualM = (data5$Kejadian - data5$prediksi1)
data5$residualMS = (data5$Kejadian - data5$prediksi1)^2
data5
a = k+1
b = nrow(data5)

MSEc = mean(data5$residualMS[a:b]) 
MAEc = mean(abs(data5$residualM[a:b]))
MAPEc= mean(abs(data5$residualM[a:b])/data5$Kejadian[a:b])

MSEb 
## [1] 6.428519
MSEc 
## [1] 723.9259
MAEb 
## [1] 2.166601
MAEc 
## [1] 21.55556
MAPEb
## [1] 0.01041785
MAPEc
## [1] 0.09723249


Nomor 6

Bagian pemasaran suatu perusahaan mendapatkan tenaga baru unuk dilatih menjadi salesman. Sebelum dilatih, mereka harus mengambil aptitude test sebanyak 2 kali. X_1, dan X_2 merupakan hasil aptitude test I dan II, sedangkan Y merupakan nilai hasil ujian setelah melakukan latihan. Dari 10 calon diperoleh hasil tes sebagai berikut.

Buat tabel

a. Carilah model persamaan regresi Y ̂=b_0+b_1 X_1+b_2 X_2

# Build the model
# Hitung yang Nilai_Ujian
model60 <- lm(Nilai_Ujian ~ ., data = data6)
# Summarize the model
summary(model60)
## 
## Call:
## lm(formula = Nilai_Ujian ~ ., data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.0766 -3.1774 -0.2674  2.9364  7.4323 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   4.6406    15.2663   0.304   0.7700  
## tes1          0.2902     0.6601   0.440   0.6735  
## tes2          0.6742     0.2692   2.505   0.0407 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.709 on 7 degrees of freedom
## Multiple R-squared:  0.7814, Adjusted R-squared:  0.7189 
## F-statistic: 12.51 on 2 and 7 DF,  p-value: 0.004888
# Build the model
# Hitung yang Nilai_Ujian thdp tes1
model61 <- lm(Nilai_Ujian ~ tes1, data = data6)
# Summarize the model
summary(model61)
## 
## Call:
## lm(formula = Nilai_Ujian ~ tes1, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.643  -1.089   2.393   3.411   4.500 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   6.2857    19.6459   0.320  0.75720   
## tes1          1.6429     0.4888   3.361  0.00992 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.066 on 8 degrees of freedom
## Multiple R-squared:  0.5854, Adjusted R-squared:  0.5336 
## F-statistic:  11.3 on 1 and 8 DF,  p-value: 0.009917
# Build the model
# Hitung yang Nilai_Ujian thdp tes2
model62 <- lm(Nilai_Ujian ~ tes2, data = data6)
# Summarize the model
summary(model62)
## 
## Call:
## lm(formula = Nilai_Ujian ~ tes2, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.7506 -3.8345 -0.2732  2.5816  7.7914 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.2404    12.2170   0.674  0.51901    
## tes2          0.7710     0.1467   5.254  0.00077 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.465 on 8 degrees of freedom
## Multiple R-squared:  0.7753, Adjusted R-squared:  0.7472 
## F-statistic: 27.61 on 1 and 8 DF,  p-value: 0.00077

Maka rumus Y = b_0+b_1 X_1+b_2 X_2 kalau dijabarkan menjadi :
Y = 4.6406 + 0.2902 * X_1 + 0.6742 * X_2

b. Apakah makna dari b_1 dan b_2 yang muncul pada model pada soal a.

b_1 = Nilai Intercept atau nilai kemiringan dari tes1 terhadap Nilai_Ujian
b_2 = Nilai Intercept atau nilai kemiringan dari tes2 terhadap Nilai_Ujian

c. Ujilah pendapat bahwa X_2 tidak mempengaruhi Y. Gunakan α=0.01

# Build the model
# Hitung yang Nilai_Ujian thdp tes2
model62 <- lm(Nilai_Ujian ~ tes2, data = data6)
# Summarize the model
summary(model62)
## 
## Call:
## lm(formula = Nilai_Ujian ~ tes2, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.7506 -3.8345 -0.2732  2.5816  7.7914 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.2404    12.2170   0.674  0.51901    
## tes2          0.7710     0.1467   5.254  0.00077 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.465 on 8 degrees of freedom
## Multiple R-squared:  0.7753, Adjusted R-squared:  0.7472 
## F-statistic: 27.61 on 1 and 8 DF,  p-value: 0.00077

Karena P value yang dimiliki X2 memiliki nilai sebesar 0,00077 < 0,01, maka X2 memengaruhi nilai Y.

d. Ujilah pendapat bahwa X_2 tidak mempengaruhi Y. Gunakan α=0.05

# Build the model
# Hitung yang Nilai_Ujian thdp tes2
model62 <- lm(Nilai_Ujian ~ tes2, data = data6)
# Summarize the model
summary(model62)
## 
## Call:
## lm(formula = Nilai_Ujian ~ tes2, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.7506 -3.8345 -0.2732  2.5816  7.7914 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.2404    12.2170   0.674  0.51901    
## tes2          0.7710     0.1467   5.254  0.00077 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.465 on 8 degrees of freedom
## Multiple R-squared:  0.7753, Adjusted R-squared:  0.7472 
## F-statistic: 27.61 on 1 and 8 DF,  p-value: 0.00077

Karena P value yang dimiliki X2 memiliki nilai sebesar 0,00077 < 0,05, maka X2 memengaruhi nilai Y.

e. Berapakah nilai harapan (rata-rata) untuk nilai ujian seseorang dengan nilai X_1=80, dan X_2=50?

X_1 = 80
X_2 = 50
Y = 4.6406 +  0.2902 * X_1 + 0.6742 * X_2
Y
## [1] 61.5666

Nilai harapan (rata-rata) nya adalah 61.5666

f. Kalau kita buat model Y ̂=b_0+b_1 X_1 saja, apakah b_1 pada model tersebut berbeda dengan b_1 pada model yang diperoleh dari soal a. Kalau tidak, jelaskan mengapa.

# Build the model
# Hitung yang Nilai_Ujian thdp tes1
model60 <- lm(Nilai_Ujian ~ ., data = data6)
# Summarize the model
summary(model60)
## 
## Call:
## lm(formula = Nilai_Ujian ~ ., data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.0766 -3.1774 -0.2674  2.9364  7.4323 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   4.6406    15.2663   0.304   0.7700  
## tes1          0.2902     0.6601   0.440   0.6735  
## tes2          0.6742     0.2692   2.505   0.0407 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.709 on 7 degrees of freedom
## Multiple R-squared:  0.7814, Adjusted R-squared:  0.7189 
## F-statistic: 12.51 on 2 and 7 DF,  p-value: 0.004888
# Build the model
# Hitung yang Nilai_Ujian thdp tes1
model61 <- lm(Nilai_Ujian ~ tes1, data = data6)
# Summarize the model
summary(model61)
## 
## Call:
## lm(formula = Nilai_Ujian ~ tes1, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.643  -1.089   2.393   3.411   4.500 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   6.2857    19.6459   0.320  0.75720   
## tes1          1.6429     0.4888   3.361  0.00992 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.066 on 8 degrees of freedom
## Multiple R-squared:  0.5854, Adjusted R-squared:  0.5336 
## F-statistic:  11.3 on 1 and 8 DF,  p-value: 0.009917

Tidak nampak perbedaan pada nilai b_1, karena kita masih menggunakan data yang sama dan perbandingan variabel yang sama.


Nomor 7

Sebuah perusahaan komputer ingin mengetahui faktor-faktor yang mempengaruhi biaya distribusi. Data selama satu tahun telah dikumpulkan mengenai biaya distribusi, nilai penjualan dan jumlah pesanan dicatat sebagai berikut:

Buat tabel

library(readxl)
library(tidyverse)
library(dplyr)
library(rsample)

setwd(getwd())
data7 = read_excel("data lat soal metstat naftali.xlsx", sheet = 4 )
data7 <- setNames(data7, c("Bulan", "Biaya", "Nilai_Penjualan", "Jumlah"))
data7$Bulan <- as.numeric(data7$Bulan)
data7$Biaya <- as.numeric(data7$Biaya)
data7$Nilai_Penjualan <- as.numeric(data7$Nilai_Penjualan)
data7$Jumlah <- as.numeric(data7$Jumlah)
data7

a. Buatlah model analisis regresi yang dapat membantu perusahaan untuk menjawab persoalannya

# Build the model (Faktor biaya adalah nilai penjualan dan jumlah barang yang dijual)
# Hitung yang Nilai_Penjualan dulu
model7 <- lm(Biaya ~ Nilai_Penjualan + Jumlah, data = data7)
# Summarize the model
summary(model7)
## 
## Call:
## lm(formula = Biaya ~ Nilai_Penjualan + Jumlah, data = data7)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.0365 -1.9827  0.7157  2.4584  6.0645 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)  
## (Intercept)     6.773631   9.522248   0.711   0.4949  
## Nilai_Penjualan 0.080945   0.039054   2.073   0.0681 .
## Jumlah          0.005970   0.003896   1.532   0.1598  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.968 on 9 degrees of freedom
## Multiple R-squared:  0.8263, Adjusted R-squared:  0.7877 
## F-statistic:  21.4 on 2 and 9 DF,  p-value: 0.0003798
# Build the model (Faktor biaya adalah nilai penjualan dan jumlah barang yang dijual)
# Hitung yang Nilai_Penjualan dulu
modelNP <- lm(Biaya ~ Nilai_Penjualan, data = data7)
# Summarize the model
summary(modelNP)
## 
## Call:
## lm(formula = Biaya ~ Nilai_Penjualan, data = data7)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.1766 -2.1100 -0.0516  3.2843  8.5922 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      9.56463    9.95640   0.961 0.359379    
## Nilai_Penjualan  0.13169    0.02206   5.971 0.000137 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.292 on 10 degrees of freedom
## Multiple R-squared:  0.7809, Adjusted R-squared:  0.759 
## F-statistic: 35.65 on 1 and 10 DF,  p-value: 0.0001374
# Build the model (Faktor biaya adalah nilai penjualan dan jumlah barang yang dijual)
# Hitung yang Jumlah
modelJ <- lm(Biaya ~ Jumlah, data = data7)
# Summarize the model
summary(modelJ)
## 
## Call:
## lm(formula = Biaya ~ Jumlah, data = data7)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.2282  -2.9757   0.8756   3.1465   9.1604 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 13.720664  10.277196   1.335 0.211453    
## Jumlah       0.012816   0.002382   5.382 0.000309 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.728 on 10 degrees of freedom
## Multiple R-squared:  0.7433, Adjusted R-squared:  0.7177 
## F-statistic: 28.96 on 1 and 10 DF,  p-value: 0.0003094

b. Jelaskan masing-masing arti koefisien regresi yang diperoleh

  • Yang Biaya dengan NIlai_Penjualan + Jumlah :
    Dari hasil model7, dapat kita rumuskan persamaannya menjadi : Biaya = 6.77 + Nilai_Penjualan * 0.08 + Jumlah * 0.006 Dapat di artikan bahwa Biaya bisa dihitung dengan nilai awal atau harga minimum biayanya adalah 6,77 juta (nilai penjualan 0 juta dan pesanannya 0 unit). angka 0,08 diartikan sebagai setiap bertambahnya NIlai_Penjualan suatu komputer, harga komputer naik sebesar 0,08 juta/bulan, Lalu koefisien luas sebesar 0,006 mengartikan bahwa harga komputer akan bertambah 0,006 juta setiap terjualnya 1 unit komputer.

  • Yang Biaya dengan Nilai_Penjualan : Dari hasil modelNP, dapat kita rumuskan persamaannya menjadi : Biaya = 9.57 + Nilai_Penjualan * 0.13 Dapat di artikan, Biaya awal dengan Nilai_Penjualan 0 juta adalah 9,57 juta. Dan setiap bertambah satu juta, harganya naik 0,13 juta.

  • Yang Biaya dengan Jumlah : Dari hasil modelJ, dapat kita rumuskan persamaannya menjadi : Biaya = 13.72 + Jumlah * 0.012 apat di artikan, Biaya awal dengan Jumlah Pesanan 0 unit adalah 13,72 juta. Dan setiap bertambah satu unit, harga komputernya baik sebesar 0,012 juta.

c. Jelaskan koefisien determinasi dari model

  • Yang Biaya dengan Nilai_Penjualan + Jumlah :
    Besar koefisien determinasi / Multiple R-Squared sebesar 0,8263. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 82,63% terhadap Biaya

  • Yang Biaya dengan Nilai_Penjualan :
    Besar koefisien determinasi / Multiple R-Squared sebesar 0,7809. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 78,09% terhadap Biaya

  • Yang Biaya dengan Jumlah : Besar koefisien determinasi / Multiple R-Squared sebesar 0,7433. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 74,33% terhadap Biaya

d. Apakah model yang didapatkan dapat dikatakan sebagai model yang berarti (signifikan)?

Model yang berarti atau yang lebih signifikan biasanya menggunakan Adjusted R-Squared

e. Apakah pengaruh masing-masing dari nilai penjualan dan jumlah pesanan terhadap biaya distribusi signifikan? Jelaskan

  • Biaya dengan Nilai_Penjualan + Jumlah : 0.7877 atau 78,77%. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 78,77% terhadap Biaya

  • Biaya dengan Nilai_Penjualan : 0.759 atau 75,9%. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 75,9% terhadap Biaya

  • Biaya dengan Jumlah : 0.7177 atau 71,77%. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 71,77% terhadap Biaya


Nomor 8

Install Package ISwR dan panggil data kfm juga

library(ISwR)
kfm

a. Tentukan model dengan melibatkan seluruh peubah bebas, interpretasikan hasilnya.

model1 = lm(dl.milk ~ sex + weight + ml.suppl + mat.weight + mat.height, data=kfm)
summary(model1)
## 
## Call:
## lm(formula = dl.milk ~ sex + weight + ml.suppl + mat.weight + 
##     mat.height, data = kfm)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.74201 -0.81173 -0.00926  0.78326  2.52646 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -11.681839   4.361561  -2.678 0.010363 *  
## sexgirl      -0.499532   0.312672  -1.598 0.117284    
## weight        1.349124   0.322450   4.184 0.000135 ***
## ml.suppl     -0.002233   0.001241  -1.799 0.078829 .  
## mat.weight    0.006212   0.023708   0.262 0.794535    
## mat.height    0.072278   0.030169   2.396 0.020906 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.075 on 44 degrees of freedom
## Multiple R-squared:  0.5459, Adjusted R-squared:  0.4943 
## F-statistic: 10.58 on 5 and 44 DF,  p-value: 1.03e-06

Dari hasil tersebut, peubah penjelas yang dimasukkan dapat menerangkan peubah respon sebesar 54,59% sedangkan sisanya dapat dijelaskan oleh peubah lain (sebesar 49,43%).

b. Tentukan model dengan hanya dibatasi 2 peubah bebas saja. Peubah bebas mana yang terbaik untuk masuk ke dalam model? Lakukan pemeriksaan asumsi model regresi.

Peubah Bebas Terbaik

library(tidyverse)

model2.1 <- lm(data=kfm, dl.milk~sex+weight)
m2.1 <- summary(model2.1)$adj

model2.2 <- lm(data=kfm, dl.milk~sex+ml.suppl)
m2.2 <-summary(model2.2)$adj

model2.3 <- lm(data=kfm, dl.milk~sex+mat.weight)
m2.3 <- summary(model2.3)$adj

model2.4 <- lm(data=kfm, dl.milk~sex+mat.height)
m2.4 <- summary(model2.4)$adj

model2.5 <- lm(data=kfm, dl.milk~weight+ml.suppl)
m2.5 <- summary(model2.5)$adj

model2.6 <- lm(data=kfm, dl.milk~weight+mat.weight)
m2.6 <- summary(model2.6)$adj

model2.7 <- lm(data=kfm, dl.milk~weight+mat.height)
m2.7 <- summary(model2.7)$adj

model2.8 <- lm(data=kfm, dl.milk~ml.suppl+mat.weight)
m2.8 <- summary(model2.8)$adj

model2.9 <- lm(data=kfm, dl.milk~ml.suppl+mat.height)
m2.9 <- summary(model2.9)$adj

model2.10 <- lm(data=kfm, dl.milk~mat.weight+mat.height)
m2.10 <- summary(model2.10)$adj

dataadj = data.frame(m2.1,m2.2,m2.3,m2.4,m2.5,m2.6,m2.7,m2.8,m2.9,m2.10)

dataadj
dataadj = data.frame(m2.1,m2.2,m2.3,m2.4,m2.5,m2.6,m2.7,m2.8,m2.9,m2.10) %>%
  max(dataadj)

dataadj
## [1] 0.4614813

Dengan demikian, 2 peubah bebas yang terbaik untuk masuk ke dalam model adalah weight dan mat.height.

Uji Assumsi

library(regclass)
library(skedastic)

model8 <- lm(data=kfm, dl.milk~weight+mat.height)
res = model8$residuals
shapiro.test(res)           # p-value > a = 0,05 H0 diterima artinya normal (normalitas)
## 
##  Shapiro-Wilk normality test
## 
## data:  res
## W = 0.98922, p-value = 0.9263
breusch_pagan(model8)       # p-value > a = 0,05 H0 diterima artinya data homogen (homogenitas)
VIF(model8)                 # VIF < 10 artinya non-multikolinearitas/tidak terjadi multikolinearitas
##     weight mat.height 
##   1.175891   1.175891


Nomor 9

Ada di Excel saya