Statistika Bisnis II

Latihan Soal

No. 1

nilai_x = c(57, 59, 49, 62, 51, 50, 55, 48, 52, 42, 61, 57)
nilai_y = c(64, 71, 53, 67, 55, 58, 77, 57, 56, 51, 76, 68)
tabel = data.frame(nilai_x, nilai_y)
tabel

a. Buatlah diagram pencar yang memperhatikan hubungan kedua peubah.

plot(tabel)
abline(lm(nilai_y~nilai_x),col="red")

b. Apakah tampak terdapat hubungan linier antara X dan Y berdasarkan a? Hitung korelasi dari kedua variabel tersebut.

cor.test(nilai_x,nilai_y)

## 
##  Pearson's product-moment correlation
## 
## data:  nilai_x and nilai_y
## t = 4.5245, df = 10, p-value = 0.001101
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4640133 0.9477359
## sample estimates:
##       cor 
## 0.8196451

hasil korelasi atau hubungan linier X dan Y nya ada hubungan karena hasil korelasinya tidak sama dengan 0. hasil korelasi dari kedua variabel adalah kurleb 0.82

c. Apabila ingin diketahui fungsi Y = f(X) yang menghubungkan X dengan Y sebagai fungsi linier. Persamaan seperti apa yang dihasilkan?

library(tidyverse)
library(broom)
theme_set(theme_classic())

model <- lm(data=tabel, nilai_y ~ nilai_x)
model

## 
## Call:
## lm(formula = nilai_y ~ nilai_x, data = tabel)
## 
## Coefficients:
## (Intercept)      nilai_x  
##      -3.624        1.239

Jadi, persamaan regresinya adalah

y = -3.624 + 1.239 * x atau nilai_y = -3.624 + 1.239 * nilai_x

d. Berdasarkan persamaan c), tentukan prediksi nilai Y apabila diketahui data baru X = (40, 45, 50, dan 55)

predict.lm(model,data.frame(nilai_x=c(40, 45, 50, 55)))

##        1        2        3        4 
## 45.92436 52.11785 58.31133 64.50482

Nilai prediksi Y dengan memasukkan nilai X yang baru adalah 45.92 , 52.11 , 58.31 , 64.5

No. 2

usia     <- c(8, 10, 7, 12, 9, 10, 7, 8, 11, 8, 10, 8)
tinggi   <- c(125, 137, 100, 122, 129, 128, 98, 103, 130, 95, 115, 105)
berat    <- c(37, 41, 34, 39, 40, 42, 38, 42, 40, 36, 41, 38)
posyandu <- data.frame(usia, tinggi, berat)
posyandu

dari data tersebut faktor manakah yang memberikan pengaruh terhadap berat badan anak-anak di Posyandu Mentar Pagi.

a. Susun diagram pencar yang menerangkan hubungan antara Usia dengan Berat Badan, dan Tingga dengan Berat Badan. Informasi apakah yang dapat terbaca dari diagram tersebut.

Usia berdasarkan berat badan

plot(usia, berat)

berdasarkan diagram di atas, terlihat bahwa hubunganny positif tetapi terlihat juga bahwa semakin usianya bertambah tidak pasti berat badannya akan besar.

tinggi badan berdasarkan berat badan

plot(tinggi, berat)

hal ini juga sama dengan tinggi yang terlihat tidak terlalu berpengaruh dengan berat badan.

b. Tentukan model regresi berganda dari Berat Badan terhadap Usia dan Tinggi

model_posyandu <- lm(berat ~ usia+tinggi)

summary(model_posyandu)

## 
## Call:
## lm(formula = berat ~ usia + tinggi)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1516 -1.5316  0.1862  1.0919  4.1730 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 28.32138    5.29393   5.350 0.000462 ***
## usia         0.51960    0.59098   0.879 0.402151    
## tinggi       0.05193    0.06414   0.810 0.439049    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.216 on 9 degrees of freedom
## Multiple R-squared:  0.3499, Adjusted R-squared:  0.2054 
## F-statistic: 2.422 on 2 and 9 DF,  p-value: 0.144

disimpulkan bahwa usia dan tinggi tidak berpengaruh signifikan terhadap berat badan anak-anak. Hal ini dibuktikan dari p-value untuk usia 0.4 dan tinggi 0.43 yang mana taraf signifikansi 0.05 berarti melebihi taraf signifikansi. Persamaan regresinya adalah:

berat= 28.33 + 0.52 usia + 0.052 tinggi

c. Periksalah faktor mana yang berpengaruh terhadap Berat Badan.

berdasarkan hasil sebelumnya, usia dari tinggi tidak berpengaruh secara signifikan terhadap berat badan anak-anak.

d. Periksa koefisien determinasinya dan terangkan apa maknanya.

Berdasarkan hasil di atas didapat juga nilai koefisien determinannya sebesar 0.3499 atau 34,99% yang artinya usia dan tinggi dapat menjelaskan 34,99% terhadap variabel berat badan. Dengan hasil ini, rasanya model yang dibuat tidak cukup baik, karena tidak melebihi angka 50%.

e. Buat perkiraan rata-rata berat badan berdasarkan rentang dari Usia dan rentang Tinggi badan.

Berdasarkan Rentang Minimal

min = min(usia)
minn = min(tinggi)

berat_minimal = 28.33 + 0.52 * min + 0.052 * minn

berat_minimal

## [1] 36.91

Berdasarkan Rentang Maksimal

max = max(usia)
maxx = max(tinggi)

berat_maksimal = 28.33 + 0.52 * max + 0.052 * maxx


berat_maksimal

## [1] 41.694

kesimpulannya bahwa perkiraan rata-rata berat minimal dengan rentang minimal adalah 36.91 dan berat maksimalnnya adalah 41.7

No. 3

Berikut adalah data hasil taksiran harga rumah, periksa apakah ada model yang menjelaskan harga rumah berdasarkan ukuran usia rumah.

library(readxl)
library(tidyverse)
library(dplyr)
library(rsample)

set.seed(1993)
setwd(getwd())
data3 = read_excel("LatihanExcel.xlsx", sheet = 1)
data3 = data3[-1,]
data3 <- setNames(data3, c("harga","umur","luas"))
data3$harga <- as.numeric(data3$harga)
data3$umur <- as.numeric(data3$umur)
data3$luas <- as.numeric(data3$luas)
data3

str(data3)

## tibble [15 x 3] (S3: tbl_df/tbl/data.frame)
##  $ harga: num [1:15] 184 177 176 186 179 ...
##  $ umur : num [1:15] 3.42 11.5 8.33 0 7.42 32 16 2 1.75 2.75 ...
##  $ luas : num [1:15] 100 85.5 72.5 88 96.5 60 77.5 96.5 79.5 75 ...

a

Rumuskan pertanyaan yang dapat dijawab dengan analisis regresi

Berapa harga jika luasnya … dan umurnya … ?
berapa tingkat keakuratan modelnya ?

b

Tentukan model regresi dengan dua peubah bebas

model3.1 <- lm(harga ~ umur + luas, data = data3)
summary(model3.1)$coef

##                Estimate Std. Error   t value     Pr(>|t|)
## (Intercept) 163.7751236 5.40717315 30.288493 1.051044e-12
## umur         -0.2842543 0.08359836 -3.400238 5.267391e-03
## luas          0.2145037 0.06028654  3.558069 3.937797e-03

# persamaan
harga.semua = function(umur, luas)
{ 
 hello = 163.77 + umur*-0.28 +luas * 0.21
  
  return(cat("harga rumah jika luasnya ", luas, " meter persegi dan umurnya", umur, "tahun adalah",hello,"juta"))
}

Persamaan yang didapat dari model3.1 adalah harga = 163.77 + umur * -0.28 + luas * 0.21

c

Tentukan dua model regresi dengan masing-masing satu peubah bebas

harga dengan umur

model3.2 <- lm(harga ~ umur , data = data3)
summary(model3.2)$coef

##                Estimate Std. Error    t value     Pr(>|t|)
## (Intercept) 182.8311281 1.02497090 178.376896 2.036003e-23
## umur         -0.4557158 0.09408434  -4.843695 3.207450e-04

# persamaannya
harga.umur = function(umur)
{ 
 hello = 182.83 + umur * -0.46
  
  return(cat("harga rumah jika umur", umur, "tahun adalah",hello,"juta"))
}

Persamaan yang didapat dari model3.2 adalah harga = 182.83 + umur * -0.46

harga dengan luas

model3.3 <- lm(harga ~  luas, data = data3)
summary(model3.3)$coef

##                Estimate Std. Error   t value     Pr(>|t|)
## (Intercept) 151.9153399 5.56252089 27.310520 7.234986e-13
## luas          0.3326674 0.06632043  5.016062 2.361602e-04

# persamaannya
harga.luas = function(luas)
{ 
 hello = 151.92 + luas * 0.33
  
  return(cat("harga rumah jika luasnya ", luas, " meter persegi adalah",hello,"juta"))
}

Persamaan yang didapat dari model3.3 adalah harga = 151.92 + luas * 0.33

d

Jelaskan perbedaan jawaban b dan c

Jawaban b dengan c ini berbeda karena pada jawaban b kita meregresikannya dengan dua peubah bebas. karena ada dua peubah, dicek apakah ada korelasi antara dua variabel tersebut? Hasil pastinya berbeda dengan c karena c hanya membandingkan dengan satu variabel, hanya menggunakan satu patokan atau satu pegangan, sedangkan pada model b, model sudah menghitung keseluruhannya (sudah menghitung korelasinya).

e

Periksa adjusted r2 dari ketiga model yang menjadi jawaban b dan c.

summary(model3.1) # harga dengan umur dan luas

## 
## Call:
## lm(formula = harga ~ umur + luas, data = data3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2656 -1.6385  0.1188  1.3053  3.2486 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 163.77512    5.40717  30.288 1.05e-12 ***
## umur         -0.28425    0.08360  -3.400  0.00527 ** 
## luas          0.21450    0.06029   3.558  0.00394 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.168 on 12 degrees of freedom
## Multiple R-squared:  0.8265, Adjusted R-squared:  0.7976 
## F-statistic: 28.58 on 2 and 12 DF,  p-value: 2.728e-05

summary(model3.2) # harga dengan umur

## 
## Call:
## lm(formula = harga ~ umur, data = data3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.5336 -2.6809 -0.1904  2.6455  3.9803 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 182.83113    1.02497 178.377  < 2e-16 ***
## umur         -0.45572    0.09408  -4.844 0.000321 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.986 on 13 degrees of freedom
## Multiple R-squared:  0.6435, Adjusted R-squared:  0.616 
## F-statistic: 23.46 on 1 and 13 DF,  p-value: 0.0003207

summary(model3.3) # harga dengan luas

## 
## Call:
## lm(formula = harga ~ luas, data = data3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.9177 -1.7297 -0.3337  2.1084  4.7099 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 151.91534    5.56252  27.311 7.23e-13 ***
## luas          0.33267    0.06632   5.016 0.000236 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.919 on 13 degrees of freedom
## Multiple R-squared:  0.6593, Adjusted R-squared:  0.6331 
## F-statistic: 25.16 on 1 and 13 DF,  p-value: 0.0002362

## Adjusted R2 model 1 0.7976 , model 2  0.616 , model 3 0.6331 .NULL

Kita bisa mengambil model yang paling bagus dengan cara mengambil Adjusted R2 yang plaing besar dibandingkan dengan model lain. Dari hasil di atas, bisa dikatakan model yang paling bagus yaitu model3.1 (harga dengan dua peubah, umur dan luas) sebesar 0,7976.

f

Interpretasikan koefisien dari ketiga model di b dan c.

model 3.1

Dari hasil model3.1, persamaan yang ditemukan adalah harga = 163.77 + umur * (-0.28) + luas * 0.21. ini mengartikan bahwa harga rumah bisa dihitung dengan nilai awal atau harga minimum rumah adalah 163,77 juta (umurnya 0 tahun dan luasnya 0 m2). angka -0,28 mengartikan setiap bertambahnya umur suatu rumah, harga rumah menurun 0,28 juta/tahun. Lalu koefisien luas sebesar 0,21 mengartikan bahwa harga rumah akan bertambah 0,21 juta setiap 1 meter persegi.

model 3.2

Dari hasil model3.2, persamaan yang ditemukan adalah harga = 182.83 + umur * -0.46. ini berartikan harga awal dengan umur 0 tahun adalah 182,83 juta. dan setiap bertambah satu tahun, harganya berkurang 0,46 juta.

model 3.3

Dari hasil model3.3, persamaan yang ditemukan adalah harga = 151.92 + luas * 0.33. dari persamaan model, harga awal dengan variabel luas mulai dari 151,92 juta, dan setiap luasnya bertambah 1 meter persegi, harga rumahnya naik 0,33 juta.

No. 4

a. Buatlah diagram pencar yang memperlihatkan hubungan kedua peubah.

library(ISwR)
library(ggplot2)
ggplot(rmr, aes(x=body.weight, y=metabolic.rate)) + 
  geom_point()+
  geom_smooth(method=lm)

b. Apakah tampak terdapat hubungan linier antara X dan Y berdasarkan a? Hitung korelasi dari kedua variabel tersebut.

cor.test(rmr$body.weight, rmr$metabolic.rate)

## 
##  Pearson's product-moment correlation
## 
## data:  rmr$body.weight and rmr$metabolic.rate
## t = 7.2213, df = 42, p-value = 7.025e-09
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5742343 0.8527119
## sample estimates:
##       cor 
## 0.7442379

terdapat hubungan antara linier X dan Y karena hasil korelasinya tidak sama dengan 0, karena hasil korelasi kedua variabel adalah 0.74

c. Apabila ingin diketahui fungsi Y = f(X) yang menghubungkan X dengan Y sebagai fungsi linier. Persamaan seperti apa yang dihasilkan?

library(tidyverse)
library(broom)
theme_set(theme_classic())

model <- lm(data=rmr, metabolic.rate~body.weight)

model

## 
## Call:
## lm(formula = metabolic.rate ~ body.weight, data = rmr)
## 
## Coefficients:
## (Intercept)  body.weight  
##      811.23         7.06

Jadi, persamaan regresinya adalah y = 811.23 + 7.06 * x

d. Berdasarkan persamaan c), tentukan prediksi nilai Y apabila diketahui data baru X = (40, 45, 50, dan 55)

predict.lm(model,data.frame(body.weight=c(60, 65, 70, 75)))

##        1        2        3        4 
## 1234.798 1270.096 1305.394 1340.691

Nilai prediksi Y dengan memasukkan nilai X yang baru adalah 1234.798, 1270.096, 1305.394, 1340.691

No. 5

library(readxl)
library(tidyverse)
library(dplyr)
library(rsample)

setwd(getwd())
data5 = read_excel("datalatsoal.xlsx", sheet = 2)
data5 <- setNames(data5, c("Tahun", "Kejadian"))
data5$Tahun <- as.numeric(data5$Tahun)
data5$Kejadian <- as.numeric(data5$Kejadian)
data5

a. Gambarkan diagram pencar (plot) data runtun waktu

library(ggplot2)
plot(data5$Tahun, data5$Kejadian)

b. Dengan menggunakan pendekatan trend linier, tentukan persamaan garis yang terbentuk.

model5 = lm(Tahun ~ Kejadian, data = data5)
summary(model5)

## 
## Call:
## lm(formula = Tahun ~ Kejadian, data = data5)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.6088 -2.3026 -0.6962  1.5164  4.5006 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.000e+03  9.407e+00 212.635 1.34e-14 ***
## Kejadian    2.187e-02  4.295e-02   0.509    0.626    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.875 on 7 degrees of freedom
## Multiple R-squared:  0.03572,    Adjusted R-squared:  -0.102 
## F-statistic: 0.2593 on 1 and 7 DF,  p-value: 0.6262

c. Lakukan pendekatan rata-rata 3 tahun untuk data tersebut.

data5$prediksi1 <- NA
k=3
B=nrow(data5)-k
for(i in 1:B) {
  B=i+(k-1)
  data5$prediksi1[i+k] <- mean(data5$Kejadian[i+B])}
data5

d. Gambarkan hasil b dan c ke dalam plot runtun waktu.

plot(data5$Tahun, data5$Kejadian)

plot(data5$Tahun, data5$prediksi1)

e. Periksa residu dari b dan c, tentukan mana yang lebih baik.

data5$predictedL = fitted.values(model5)
data5$residualL = residuals(model5)
data5$residualLS = residuals(model5)^2
MSEb = mean(data5$residualLS)
MAEb = mean(abs(data5$residualL))
MAPEb = mean(abs(data5$residualL/data5$Kejadian))

# residual c
data5$residualM = (data5$Kejadian - data5$prediksi1)
data5$residualMS = (data5$Kejadian - data5$prediksi1)^2
data5

a= k+1
b= nrow(data5)

MSEc = mean(data5$residualMS[a:b])
MAEc = mean(abs(data5$residualM[a:b]))
MAPEc = mean(abs(data5$residualM[a:b])/data5$Kejadian[a:b])

MSEb

## [1] 6.428519

MSEc

## [1] NA

MAEb

## [1] 2.166601

MAEc

## [1] NA

MAPEb

## [1] 0.01041785

MAPEc

## [1] NA

No. 6

library(readxl)
library(tidyverse)
library(dplyr)
library(rsample)

setwd(getwd())
data6 = read_excel("NilaiUjian.xlsx", sheet = 1)
data6 <- setNames(data6, c("Nilai_Ujian", "tes1", "tes2"))
data6$Nilai_Ujian <- as.numeric(data6$Nilai_Ujian)
data6$tes1 <- as.numeric(data6$tes1)
data6$tes2 <- as.numeric(data6$tes2)
data6

a. Carilah model persamaan regresi Y=b0+b1X1+b2X2

model60 <- lm(Nilai_Ujian ~ ., data = data6)

summary(model60)

## 
## Call:
## lm(formula = Nilai_Ujian ~ ., data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.0766 -3.1774 -0.2674  2.9364  7.4323 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   4.6406    15.2663   0.304   0.7700  
## tes1          0.2902     0.6601   0.440   0.6735  
## tes2          0.6742     0.2692   2.505   0.0407 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.709 on 7 degrees of freedom
## Multiple R-squared:  0.7814, Adjusted R-squared:  0.7189 
## F-statistic: 12.51 on 2 and 7 DF,  p-value: 0.004888

model61 <- lm(Nilai_Ujian ~ tes1, data = data6)

summary(model61)

## 
## Call:
## lm(formula = Nilai_Ujian ~ tes1, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.643  -1.089   2.393   3.411   4.500 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   6.2857    19.6459   0.320  0.75720   
## tes1          1.6429     0.4888   3.361  0.00992 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.066 on 8 degrees of freedom
## Multiple R-squared:  0.5854, Adjusted R-squared:  0.5336 
## F-statistic:  11.3 on 1 and 8 DF,  p-value: 0.009917

model62 <- lm(Nilai_Ujian ~ tes2, data = data6)

summary(model62)

## 
## Call:
## lm(formula = Nilai_Ujian ~ tes2, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.7506 -3.8345 -0.2732  2.5816  7.7914 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.2404    12.2170   0.674  0.51901    
## tes2          0.7710     0.1467   5.254  0.00077 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.465 on 8 degrees of freedom
## Multiple R-squared:  0.7753, Adjusted R-squared:  0.7472 
## F-statistic: 27.61 on 1 and 8 DF,  p-value: 0.00077

Maka rumus Y= b_0 + b_1 X_1 + b_2 X_2 kalau di jabarkan menjadi :

Y = 4.6406 + 0.2902 * X_1 + 0.6742 * X_2

b. Apakah makna dari b1 dan b2 yang muncul pada model pada soal a.

b_1 = Nilai Intercept atau nilai kemiringan dari tes1 terhadap Nilai_Ujian.

b_2 = Nilai Intercept atau nilai kemiringan dari tes2 terhadap Nilai_Ujian.

c. Ujilah pendapat bahwa X2 tidak mempengaruhi Y. Gunakan α=0.01

model62 <- lm(Nilai_Ujian ~ tes2, data = data6)

summary(model62)

## 
## Call:
## lm(formula = Nilai_Ujian ~ tes2, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.7506 -3.8345 -0.2732  2.5816  7.7914 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.2404    12.2170   0.674  0.51901    
## tes2          0.7710     0.1467   5.254  0.00077 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.465 on 8 degrees of freedom
## Multiple R-squared:  0.7753, Adjusted R-squared:  0.7472 
## F-statistic: 27.61 on 1 and 8 DF,  p-value: 0.00077

P-value yang di miliki X2 memiliki nilai sebesar 0.00077 < 0.01, maka X2 memengaruhi nilai Y.

d. Ujilah pendapat bahwa X2 tidak mempengaruhi Y. Gunakan α=0.05

model62 <- lm(Nilai_Ujian ~ tes2, data = data6)

summary(model62)

## 
## Call:
## lm(formula = Nilai_Ujian ~ tes2, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.7506 -3.8345 -0.2732  2.5816  7.7914 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.2404    12.2170   0.674  0.51901    
## tes2          0.7710     0.1467   5.254  0.00077 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.465 on 8 degrees of freedom
## Multiple R-squared:  0.7753, Adjusted R-squared:  0.7472 
## F-statistic: 27.61 on 1 and 8 DF,  p-value: 0.00077

P-value yang di miliki X2 memiliki nilai sebesar 0.00077 < 0.05, maka X2 memengaruhi nilai Y.

e. Berapakah nilai harapan (rata-rata) untuk nilai ujian seseorang dengan nilai X1=80, dan X2=50?

X_1 = 80
X_2 = 50
Y = 4.6406 + 0.2902 * X_1 + 0.6742 * X_2
Y

## [1] 61.5666

Nilai rata-ratanya adalah 61.5666

f. Kalau kita buat model Y=b0+b1X1 saja, apakah b1 pada model tersebut berbeda dengan b1 pada model yang diperoleh dari soal a. Kalau tidak, jelaskan mengapa.

model60 <- lm(Nilai_Ujian ~ ., data = data6)

summary(model60)

## 
## Call:
## lm(formula = Nilai_Ujian ~ ., data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.0766 -3.1774 -0.2674  2.9364  7.4323 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   4.6406    15.2663   0.304   0.7700  
## tes1          0.2902     0.6601   0.440   0.6735  
## tes2          0.6742     0.2692   2.505   0.0407 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.709 on 7 degrees of freedom
## Multiple R-squared:  0.7814, Adjusted R-squared:  0.7189 
## F-statistic: 12.51 on 2 and 7 DF,  p-value: 0.004888

model61 <- lm(Nilai_Ujian ~ tes1, data = data6)

summary(model61)

## 
## Call:
## lm(formula = Nilai_Ujian ~ tes1, data = data6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.643  -1.089   2.393   3.411   4.500 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   6.2857    19.6459   0.320  0.75720   
## tes1          1.6429     0.4888   3.361  0.00992 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.066 on 8 degrees of freedom
## Multiple R-squared:  0.5854, Adjusted R-squared:  0.5336 
## F-statistic:  11.3 on 1 and 8 DF,  p-value: 0.009917

Tidak terlihat perbedaan pada nilai b_1, karena masih menggunakan data yang sama dan pembanding variabel yang sama.

No. 7

library(readxl)
library(tidyverse)
library(dplyr)
library(rsample)

setwd(getwd())
data7 = read_excel("datalatsoal.xlsx", sheet = 4)
data7 <- setNames(data7, c("Bulan", "Biaya", "Nilai_Penjualan", "Jumlah"))
data7$Bulan <- as.numeric(data7$Bulan)
data7$Biaya <- as.numeric(data7$Biaya)
data7$Nilai_Penjualan <- as.numeric(data7$Nilai_Penjualan)
data7$Jumlah <- as.numeric(data7$Jumlah)
data7

a. Buatlah model analisis regresi yang dapat membantu perusahaan untuk menjawab persoalannya

model7 <- lm(Biaya ~ Nilai_Penjualan + Jumlah, data = data7)

summary(model7)

## 
## Call:
## lm(formula = Biaya ~ Nilai_Penjualan + Jumlah, data = data7)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.0365 -1.9827  0.7157  2.4584  6.0645 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)  
## (Intercept)     6.773631   9.522248   0.711   0.4949  
## Nilai_Penjualan 0.080945   0.039054   2.073   0.0681 .
## Jumlah          0.005970   0.003896   1.532   0.1598  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.968 on 9 degrees of freedom
## Multiple R-squared:  0.8263, Adjusted R-squared:  0.7877 
## F-statistic:  21.4 on 2 and 9 DF,  p-value: 0.0003798

modelNP <- lm(Biaya~ Nilai_Penjualan, data = data7)

summary(modelNP)

## 
## Call:
## lm(formula = Biaya ~ Nilai_Penjualan, data = data7)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.1766 -2.1100 -0.0516  3.2843  8.5922 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      9.56463    9.95640   0.961 0.359379    
## Nilai_Penjualan  0.13169    0.02206   5.971 0.000137 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.292 on 10 degrees of freedom
## Multiple R-squared:  0.7809, Adjusted R-squared:  0.759 
## F-statistic: 35.65 on 1 and 10 DF,  p-value: 0.0001374

modelJ <- lm(Biaya ~ Jumlah, data = data7)

summary(modelJ)

## 
## Call:
## lm(formula = Biaya ~ Jumlah, data = data7)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.2282  -2.9757   0.8756   3.1465   9.1604 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 13.720664  10.277196   1.335 0.211453    
## Jumlah       0.012816   0.002382   5.382 0.000309 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.728 on 10 degrees of freedom
## Multiple R-squared:  0.7433, Adjusted R-squared:  0.7177 
## F-statistic: 28.96 on 1 and 10 DF,  p-value: 0.0003094

b. Jelaskan masing-masing arti koefisien regresi yang diperoleh

Yang Biaya dengan Nilai_Penjualan + Jumlah: dari hasil model7, dapat kita rumuskan persamaannya menjadi Biaya = 6.77 + Nilai_Penjualan * 0.08 + Jumlah * 0.06 dapat di artikan bahwa biaya bisa dihitung dengan nilai awal atau harga minimum biayanya adalah 6,77 juta. angka 0.08 diartikan sebagai setiap bertambahnya Nilai_Penjualan suatu komputer, harga komputer naik sebesar 0,08 juta/bulan, lalu koefisien luas sebesar 0,006 mengartikan bahwa harga komputer akan bertambah 0,006 juta setiap terjualnya 1 unit komputer.
Yang Biaya dengan Nilai_Penjualan : Dari hasil modelNP, dapat kita rumuskan persamaannya menjadi : Biaya = 9.57 + Nilai_Penjualan * 0.13 Dapat di artikan, Biaya awal dengan Nilai_Penjualan 0 juta adalah 9,57 juta. Dan setiap bertambah satu juta, harganya naik 0,13 juta.

-Yang Biaya dengan Jumlah : Dari hasil modelJ, dapat kita rumuskan persamaannya menjadi : Biaya = 13.72 + Jumlah * 0.012 apat di artikan, Biaya awal dengan Jumlah Pesanan 0 unit adalah 13,72 juta. Dan setiap bertambah satu unit, harga komputernya baik sebesar 0,012 juta.

c. Jelaskan koefisien determinasi dari model

-Yang Biaya dengan Nilai_Penjualan + Jumlah : Besar koefisien determinasi / Multiple R-Squared sebesar 0,8263. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 82,63% terhadap Biaya

-Yang Biaya dengan Nilai_Penjualan : Besar koefisien determinasi / Multiple R-Squared sebesar 0,7809. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 78,09% terhadap Biaya

-Yang Biaya dengan Jumlah : Besar koefisien determinasi / Multiple R-Squared sebesar 0,7433. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 74,33% terhadap Biaya

d. Apakah model yang didapatkan dapat dikatakan sebagai model yang berarti (signifikan)?

Model yang berarti atau yang lebih signifikan biasanya menggunakan Adjusted R-Squared

e. Apakah pengaruh masing-masing dari nilai penjualan dan jumlah pesanan terhadap biaya distribusi signifikan? Jelaskan

-Biaya dengan Nilai_Penjualan + Jumlah : 0.7877 atau 78,77%. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 78,77% terhadap Biaya

-Biaya dengan Nilai_Penjualan : 0.759 atau 75,9%. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 75,9% terhadap Biaya

-Biaya dengan Jumlah : 0.7177 atau 71,77%. Yang berarti variabel Nilai_Penjualan + Jumlah menjelaskan sebesar 71,77% terhadap Biaya

No. 8

library(ISwR)
kfm

a. Tentukan model dengan melibatkan seluruh peubah bebas, interpretasikan hasilnya.

model1 = lm(dl.milk ~ sex + weight + ml.suppl + mat.weight + mat.height, data=kfm)
summary(model1)

## 
## Call:
## lm(formula = dl.milk ~ sex + weight + ml.suppl + mat.weight + 
##     mat.height, data = kfm)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.74201 -0.81173 -0.00926  0.78326  2.52646 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -11.681839   4.361561  -2.678 0.010363 *  
## sexgirl      -0.499532   0.312672  -1.598 0.117284    
## weight        1.349124   0.322450   4.184 0.000135 ***
## ml.suppl     -0.002233   0.001241  -1.799 0.078829 .  
## mat.weight    0.006212   0.023708   0.262 0.794535    
## mat.height    0.072278   0.030169   2.396 0.020906 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.075 on 44 degrees of freedom
## Multiple R-squared:  0.5459, Adjusted R-squared:  0.4943 
## F-statistic: 10.58 on 5 and 44 DF,  p-value: 1.03e-06

dari hasil tersebut, penjelas yang dimasukkan dapat menerangkan peubah respon sebesar 54,59% sedangkan sisanya dapat dijelaskan oleh peubah lain (sebesar 49,43%).

b. Tentukan model dengan hanya dibatasi 2 peubah bebas saja. Peubah bebas mana yang terbaik untuk masuk ke dalam model? Lakukan pemeriksaan asumsi model regresi.

library(tidyverse)

model2.1 <- lm(data=kfm, dl.milk~sex+weight)
m2.1 <- summary(model2.1)$adj

model2.2 <- lm(data=kfm, dl.milk~sex+ml.suppl)
m2.2 <-summary(model2.2)$adj

model2.3 <- lm(data=kfm, dl.milk~sex+mat.weight)
m2.3 <- summary(model2.3)$adj

model2.4 <- lm(data=kfm, dl.milk~sex+mat.height)
m2.4 <- summary(model2.4)$adj

model2.5 <- lm(data=kfm, dl.milk~weight+ml.suppl)
m2.5 <- summary(model2.5)$adj

model2.6 <- lm(data=kfm, dl.milk~weight+mat.weight)
m2.6 <- summary(model2.6)$adj

model2.7 <- lm(data=kfm, dl.milk~weight+mat.height)
m2.7 <- summary(model2.7)$adj

model2.8 <- lm(data=kfm, dl.milk~ml.suppl+mat.weight)
m2.8 <- summary(model2.8)$adj

model2.9 <- lm(data=kfm, dl.milk~ml.suppl+mat.height)
m2.9 <- summary(model2.9)$adj

model2.10 <- lm(data=kfm, dl.milk~mat.weight+mat.height)
m2.10 <- summary(model2.10)$adj

dataadj = data.frame(m2.1,m2.2,m2.3,m2.4,m2.5,m2.6,m2.7,m2.8,m2.9,m2.10)

dataadj

dataadj = data.frame(m2.1,m2.2,m2.3,m2.4,m2.5,m2.6,m2.7,m2.8,m2.9,m2.10) %>%
  max(dataadj)

dataadj

## [1] 0.4614813

dengan demikian, 2 peubah bebas yang terbaik untuk masuk kedalam model adalah weight dan mat.height.

Uji Asumsi

library(regclass)
library(skedastic)

model8 <- lm(data=kfm, dl.milk~weight+mat.height)
res = model8$residuals
shapiro.test(res)

## 
##  Shapiro-Wilk normality test
## 
## data:  res
## W = 0.98922, p-value = 0.9263

breusch_pagan(model8)

VIF(model8)

##     weight mat.height 
##   1.175891   1.175891

No. 9

ada di excel