Analisis Statistika

#Soal 1 Nilai UTS Analisis Statistika mahasiswa S2 Statistika 2023 diketahui menyebar normal dengan nilai tengah 70 cm dan simpangan baku 15 cm. Hitunglah berapa persen mahasiswa S2 Statistika 2023 tersebut yang memiliki nilai UTS Analisis Statistika: a. Kurang dari 50 cm? b. Lebih dari 80 cm? c. Antara 50 cm dan 80 cm? d. Jika akan dibuat kategori nilai, yaitu Buruk, Sedang, dan Bagus dimana diketahui 30% mahasiswa memiliki nilai Buruk dan 15% mahasiswa memiiki nilai Bagus. Berapa batasan nilai untuk setiap kategori? e. Jika 10% mahasiswa harus mengikuti remedial, berapa batasan minimal nilai UTS mahasiswa yang ikut remedial?

Jawab: N~(70,15) a.mahasiswa memiliki nilai UTS Analisis Statistika kurang dari 50cm sebesar 0.09 atau 9%

pnorm(50, mean = 70, sd = 15, lower.tail = T)

## [1] 0.09121122

mahasiswa memiliki nilai UTS Analisis Statistika lebih dari 80cm sebesar 0.25 atau 25%

1-pnorm(80, mean = 70, sd = 15)

## [1] 0.2524925

mahasiswa memiliki nilai UTS Analisis Statistika 50cm sampai 80cm sebesar 0.66 atau 66%

pnorm(80, mean = 70, sd = 15)-pnorm(50, mean = 70, sd = 15)

## [1] 0.6562962

Jika akan dibuat kategori nilai, yaitu Buruk, Sedang, dan Bagus dimana diketahui 30% mahasiswa memiliki nilai Buruk dan 15% mahasiswa memiiki nilai Bagus. Berapa batasan nilai untuk setiap kategori?

#nilai buruk
z = qnorm(0.3)
miu = 70
sigma = 15
x1 = z*sigma+miu #modifikasi rumus z-score -> z=(x-miu)/sigma
x1

## [1] 62.13399

Batasan nilai ntuk kategori buruk adalah 62.13399, dikatakan kategori buruk jika x<62.13399

#nilai bagus
z = qnorm(1-0.15) #nilainya di atas rata-rata
miu = 70
sigma = 15
x2 = z*sigma+miu
x2

## [1] 85.5465

Batasan nilai ntuk kategori bagus adalah 85.5465, dikatakan kategori bagus jika x>85.5465

#Nilai sedang x1 < x < x2 62,13<x<85,55 berati nilai selang barada diantara 62,13 sampai 85,55

Jika 10% mahasiswa harus mengikuti remedial, berapa batasan minimal nilai UTS mahasiswa yang ikut remedial?

z = qnorm(0.1) #nilai mengikuti remedial
miu = 70
sigma = 15
x1 = z*sigma+miu #modifikasi rumus z-score -> z=(x-miu)/sigma
x1

## [1] 50.77673

batasan minimal nilai UTS mahasiswa yang ikut remedial 50.77673

#soal2 Dua orang anak (A dan B) senang bermain rubik. Berdasarkan pengamatan teman yang lain, dia berpendapat bahwa A memiliki kecepatan yang lebih baik dalam menyelesaikan rubik dibanding B. Pada suatu hari, kedua anak tersebut diminta untuk bermain rubik bersama-sama untuk menyelesaikan 8 rubik. Waktu untuk menyelesaikan tiap rubik dari A dan B dicatat sebagai berikut: Anak A: 59.81, 59.76, 59.70, 60.00, 59.51, 59.63, 59.41, 59.32 Anak B: 60.01, 59.63, 59.65, 59.84, 59.72, 59.74, 59.40, 58.90

Tuliskan hipotesis untuk menguji klaim dari teman tekait kecepatan A dan B dalam bermain rubik. Beri keterangan untuk simbol yang Anda gunakan jawab: simbol yang digunakan: μA: Rata-rata waktu menyelesaikan Rubik oleh anak A. μB: Rata-rata waktu menyelesaikan Rubik oleh anak B.

hipotesis: H0: μA=μB (Tidak ada perbedaan signifikan dalam kecepatan rata-rata antara A dan B dalam menyelesaikan Rubik) H1: μA≠μB (ada perbedaan signifikan dalam kecepatan rata-rata antara A dan B dalam menyelesaikan Rubik)

Hitunglah statistik uji dari hipotesis yang ingin diuji pada poin a jawab: Untuk menghitung statistik uji, kita akan menggunakan uji t-student untuk dua sampel independen karna n< 30 dan ragam beda. Statistik uji (t-statistik) dapat dihitung dengan syntaks berikut:

# Data waktu menyelesaikan Rubik untuk anak A dan B
anakA <- c(59.81, 59.76, 59.70, 60.00, 59.51, 59.63, 59.41, 59.32)
anakB <- c(60.01, 59.63, 59.65, 59.84, 59.72, 59.74, 59.40, 58.90)

# Menghitung rata-rata waktu untuk setiap anak
rata_rata_A <- mean(anakA)
rata_rata_B <- mean(anakB)

# Menghitung standar deviasi
sA <- sd(anakA)
sB <- sd(anakB)

# Menghitung jumlah pengamatan
nA <- length(anakA)
nB <- length(anakB)

# Menghitung
sp <- sqrt(((nA - 1) * sA^2 + (nB - 1) * sB^2) / (nA + nB - 2))

# Menghitung t-uji
t_uji <- (rata_rata_A - rata_rata_B) / (sp * sqrt(1/nA + 1/nB))
t_uji

## [1] 0.2189435

didapatkan statistik uji adalah 0.2189435

Lakukan pengujian hipotesis terhadap hipotesis pada poin a dengan taraf nyata 5%. Uraikan kesimpulan yang Anda peroleh dari pengujian hipotesis tersebut

# Menghitung db
df <- nA + nB - 2

# Menghitung t-kritis untuk α = 0.05
alpha <- 0.05
t_tabel<- qt(1 - alpha/2, df)
t_tabel

## [1] 2.144787

abs(t_uji)

## [1] 0.2189435

# Melakukan pengujian hipotesis
if (abs(t_uji) > t_tabel) {
  cat("Tolak hipotesis nol(konklusif). Terdapat perbedaan signifikan antara A dan B dalam kecepatan menyelesaikan Rubik yang mana A lebih cepat daripada B.\n")
} else {
  cat("Terima H0(inkonklusif) artinya Tidak cukup bukti untuk menolak hipotesis nol. Tidak ada perbedaan signifikan antara A dan B dalam kecepatan menyelesaikan Rubik.\n")
}

## Terima H0(inkonklusif) artinya Tidak cukup bukti untuk menolak hipotesis nol. Tidak ada perbedaan signifikan antara A dan B dalam kecepatan menyelesaikan Rubik.

karena t uji<t tabel atau 0.2189435<2.144787 maka terima H0

Susun selang kepercayaan 95% bagi perbedaan kecepatan menyelesaikan rubik A dan B. Interpretasikan selang kepercayaan tersebut dan jelaskan kaitannya dengan poin c

# Menghitung batas-batas selang kepercayaan
selang_kepercayaan <- t_tabel * sp * sqrt(1/nA + 1/nB)
batas_bawah <- rata_rata_A - rata_rata_B - selang_kepercayaan
batas_atas <- rata_rata_A - rata_rata_B + selang_kepercayaan

batas_bawah

## [1] -0.2748772

batas_atas

## [1] 0.3373772

Selang kepercayaan 95% adalah -0.2748772<μA-μB< 0.3373772. artinya selang kepercayan tersebut akan memberikan perkiraan rentang perbedaan kecepatan antara A dan B. Jika selang kepercayaan mencakup nilai nol, ini menunjukkan bahwa tidak ada perbedaan signifikan antara A dan B dalam kecepatan menyelesaikan Rubik.

#soal3 Berikut adalah data hasil penarikan contah acak 20 pasien tekanan darah tinggi dengan variabel-variabel sebagai berikut: Y: rata-rata tekanan darah (mm Hg) X1: usia (tahun) X2: berat badan (kg) X3: luas permukaan tubuh (sq m) X4: lama mengidap tekanan darah tinggi (tahun) X5: denyut nadi (beatsthn/min) X6: tingkat stres

datareg <- read.csv("C:/Users/HP/Documents/STA S2/semester 1/analisis statistika/tabel uts.csv")
datareg

##      y x1    x2   x3   x4 x5 x6
## 1  105 47  85.4 1.75  5.1 63 33
## 2  115 49  94.2 2.10  3.8 70 14
## 3  116 49  95.3 1.98  8.2 72 10
## 4  117 50  94.7 2.01  5.8 73 99
## 5  112 51  89.4 1.89  7.0 72 95
## 6  121 48  99.5 2.25  9.3 71 10
## 7  121 49  99.8 2.25  2.5 69 42
## 8  110 47  90.9 1.90  6.2 66  8
## 9  110 49  89.2 1.83  7.1 69 62
## 10 114 48  92.7 2.07  5.6 64 35
## 11 114 47  94.4 2.07  5.3 74 90
## 12 115 49  94.1 1.98  5.6 71 21
## 13 114 50  91.6 2.05 10.2 68 47
## 14 106 45  87.1 1.92  5.6 67 80
## 15 125 52 101.3 2.19 10.0 76 98
## 16 114 46  94.5 1.98  7.4 69 95
## 17 106 46  87.0 1.87  3.6 62 18
## 18 113 46  94.5 1.90  4.3 70 12
## 19 110 48  90.5 1.88  9.0 71 99
## 20 122 56  95.7 2.09  7.0 75 99

Buatlah diagram pencar (scatter plot) untuk mengidentifikasi hubungan antara masing-masing X dan Y. Interpretasikan.

library(ggplot2)
ggplot(datareg, aes(x = x1, y = y)) +
  geom_point(col="blue") +  
  geom_smooth(method = "lm", se = TRUE, color = "red", linetype = "solid") +  
  labs(x = "usia", y = "rata-rata tekanan darah", title = "Plot Linier Variabel")

## `geom_smooth()` using formula = 'y ~ x'

ggplot(datareg, aes(x = x2, y = y)) +
  geom_point(col="blue") +  
  geom_smooth(method = "lm", se = TRUE, color = "red", linetype = "solid") +  
  labs(x = "berat badan", y = "rata-rata tekanan darah", title = "Plot Linier Variabel")

## `geom_smooth()` using formula = 'y ~ x'

ggplot(datareg, aes(x = x3, y = y)) +
  geom_point(col="blue") +  
  geom_smooth(method = "lm", se = TRUE, color = "red", linetype = "solid") +  
  labs(x = "luas permukaan tubuh", y = "rata-rata tekanan darah", title = "Plot Linier Variabel")

## `geom_smooth()` using formula = 'y ~ x'

ggplot(datareg, aes(x = x4, y = y)) +
  geom_point(col="blue") +  
  geom_smooth(method = "lm", se = TRUE, color = "red", linetype = "solid") +  
  labs(x = " lama mengidap tekanan darah tinggi", y = "rata-rata tekanan darah", title = "Plot Linier Variabel")

## `geom_smooth()` using formula = 'y ~ x'

ggplot(datareg, aes(x = x5, y = y)) +
  geom_point(col="blue") +  
  geom_smooth(method = "lm", se = TRUE, color = "red", linetype = "solid") +  
  labs(x = "denyut nadi", y = "rata-rata tekanan darah", title = "Plot Linier Variabel")

## `geom_smooth()` using formula = 'y ~ x'

ggplot(datareg, aes(x = x6, y = y)) +
  geom_point(col="blue") +  
  geom_smooth(method = "lm", se = TRUE, color = "red", linetype = "solid") +  
  labs(x = "tingkat stres", y = "rata-rata tekanan darah", title = "Plot Linier Variabel")

## `geom_smooth()` using formula = 'y ~ x'

par(mfrow=c(3,2))

Berdasarkan hasil plot pada gambar diatas bahwa pada plot linier pasien tekanan darah tinggi x1(usia), x2(berat badan), x3(luas permukaan tubuh) dan x5(denyut nadi) dengan y(rata-rata tekanan darah) terlihat bahwa peningkatan nilai y sejalan dengan peningkatan nilai x. Apabila nilai x meningkat, maka nilai y pun meningkat dan sebaliknya. Serta penyebaran titik-titik pasangan data semakin mendekati bentuk garis lurus yang menunjukan bahwa keeratan hubungan variabel antara variabel x dan y semakin kuat, dapat dikatakan bahwa terdapat korelasi tinggi antara x dan y. sementara x4(lama mengidap tekanan darah tinggi (tahun))dan x6(tingkat stres) dengan y(rata-rata tekanan darah) memiliki korelasi yang tidak terlalu tinggi.

Buatlah model regresi berdasarkan data diatas untuk memprediksi rata-rata tekanan darah seseorang. Tentukan persamaan model terbaiknya! jawab: untuk menentukan persamaan model terbaiknya. perlu dilakukuan beberapa urutan tahapan:

Modelkan
Cek multikol & outliers
Uji Asumsi
Uji Simultan
Model terbaik

#Model Regresi
model <- lm(y~., data = datareg)
summary(model)

## 
## Call:
## lm(formula = y ~ ., data = datareg)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.93213 -0.11314  0.03064  0.21834  0.48454 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -12.870476   2.556650  -5.034 0.000229 ***
## x1            0.703259   0.049606  14.177 2.76e-09 ***
## x2            0.969920   0.063108  15.369 1.02e-09 ***
## x3            3.776491   1.580151   2.390 0.032694 *  
## x4            0.068383   0.048441   1.412 0.181534    
## x5           -0.084485   0.051609  -1.637 0.125594    
## x6            0.005572   0.003412   1.633 0.126491    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4072 on 13 degrees of freedom
## Multiple R-squared:  0.9962, Adjusted R-squared:  0.9944 
## F-statistic: 560.6 on 6 and 13 DF,  p-value: 6.395e-15

didapatkan model awal persamaan regresi adalah:

Y = -12.870476 + 0.703259x1 +0.969920x2 + 3.776491x3 + 0.068383x4 - 0.084485x5 + 0.005572

selanjutnya dilakukan Pengecekan Multikolinearitas untuk melihat peubah penjelas saling memiliki hubungan linier, dapat diperiksa melalui nilai VIF.

#Pengecekan Multikolinearitas
car::vif(model)

##       x1       x2       x3       x4       x5       x6 
## 1.762807 8.417035 5.328751 1.237309 4.413575 1.834845

Pada model pertama, nilai VIF untuk peubah x2(berat badan) sangat besar yaitu 8.417035. Peubah x2(berat badan) selanjutnya dibuang dari model dan diperoleh model baru dengan nilai VIF untuk setiap peubah yang sudah di bawah 5.

#Mengeluarkan variabel x2 karena vif nya yang paling tinggi > 5
modelnew <- update(model, ~.-x2)
summary(modelnew)

## 
## Call:
## lm(formula = y ~ x1 + x3 + x4 + x5 + x6, data = datareg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3687 -0.9135  0.1546  0.9053  2.8020 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6.21215    9.42927   0.659   0.5207    
## x1           0.56297    0.20572   2.737   0.0161 *  
## x3          24.55378    3.45160   7.114 5.22e-06 ***
## x4           0.07682    0.20437   0.376   0.7126    
## x5           0.45644    0.15925   2.866   0.0124 *  
## x6          -0.01673    0.01303  -1.284   0.2199    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.718 on 14 degrees of freedom
## Multiple R-squared:  0.9262, Adjusted R-squared:  0.8998 
## F-statistic: 35.14 on 5 and 14 DF,  p-value: 1.921e-07

didapatkan model baru persamaan regresi adalah : Y = 6.21215 + 0.56297x1 + 24.55378x3 + 24.55378x4 + 0.45644x5 - 0.01673 selanjutnya dicek lagi apakah terdapat multikolinearitas melalui VIF.

#Pengecekan Multikolinearitas modelnew
car::vif(modelnew)

##       x1       x3       x4       x5       x6 
## 1.703115 1.428349 1.237151 2.360939 1.502936

berdasarkan data diatas nilai VIF<5, artinya sudah tidak terdapat multikolinearitas

#Pengecekan Outlier
fit2<- lm(y~.-x2, data = datareg)
barplot(hatvalues(modelnew))

h <- 3*(length(names(datareg))-2)/nrow(datareg)
H <- sort(hatvalues(modelnew), decreasing = T)
hasil <- c(H>h)
hasil[1:20]

##    20     7     6    11    13    18     3    10    15     1    17    16    14 
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
##    19     2     5    12     4     8     9 
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE

Berdasarkan hasil diatas, terlihat bahwa tidak ada yang terdapat amatan yang teridentifikasi sebagai pencilan high leverage point.

#Uji Asumsi #Linearitas

library(lmtest)

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

resettest(modelnew)

## 
##  RESET test
## 
## data:  modelnew
## RESET = 0.76473, df1 = 2, df2 = 12, p-value = 0.4869

Berdasarkan uji reset test di atas, diperoleh p − value > 0.05 yang berarti terima H0,artinya tidak cukup bukti hubungan antara variable independen dan dependent tidak linear

#Normalitas
shapiro.test(modelnew$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelnew$residuals
## W = 0.96766, p-value = 0.705

Berdasarkan uji Shapiro-Wilk di atas, diperoleh p − value > 0.05 yang berarti terima H0, tidak cukup bukti bahwa sisaan tidak menyebar normal

#Homokedastisitas
lmtest::bptest(modelnew, data = tabel_uts)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelnew
## BP = 8.6738, df = 5, p-value = 0.1228

Berdasarkan uji studentized Breusch-Pagan test, diperoleh p − value > 0.05 yang berarti terima H0, tidak cukup bukti bahwa terjadi heteroskedastisitas

#Autokorelasi
dwtest(modelnew)

## 
##  Durbin-Watson test
## 
## data:  modelnew
## DW = 2.1507, p-value = 0.6613
## alternative hypothesis: true autocorrelation is greater than 0

Berdasarkan uji Durbin-Watson test, diperoleh p − value > 0.05 yang berarti terima H0, yang artinya tidak cukup bukti bahwa terdapat ada masalah autokorelasi

#Uji Signifikansi parameter
#Uji simultan
summary(modelnew)

## 
## Call:
## lm(formula = y ~ x1 + x3 + x4 + x5 + x6, data = datareg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3687 -0.9135  0.1546  0.9053  2.8020 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6.21215    9.42927   0.659   0.5207    
## x1           0.56297    0.20572   2.737   0.0161 *  
## x3          24.55378    3.45160   7.114 5.22e-06 ***
## x4           0.07682    0.20437   0.376   0.7126    
## x5           0.45644    0.15925   2.866   0.0124 *  
## x6          -0.01673    0.01303  -1.284   0.2199    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.718 on 14 degrees of freedom
## Multiple R-squared:  0.9262, Adjusted R-squared:  0.8998 
## F-statistic: 35.14 on 5 and 14 DF,  p-value: 1.921e-07

nilai F − statistic = 35.14 Nilai F0.05,5,14 = 2.958248913, karena F > Ftabel maka Tolak H0 atau dapat disimpulkan bahwa minimal terdapat satu βj≠0.

Bahwa didapatkan model persamaan regresi linear berganda terbaiknya adalah: Y = 6.21215 + 0.56297x1 + 24.55378x3 + 24.55378x4 + 0.45644x5 - 0.01673 Selanjutnya nilai koefisien-koefisien tersebut dapat diinterpretasikan sebagai berikut: • nilai β0 = 6.21215 : tanpa melihat data tekanan darah maka diduga rata-rata tekanan darah 6.21215 • nilai β1 = 0.5629: rata-rata tekanan darah diduga meningkat sebesar 0.5629 setiap bertambah umur pasien tekanan darah tinggi dengan asumsi x3,x4,x5 dan x6 konstan (tetap) • nilai 24.55378: rata-rata tekanan darah diduga meningkat sebesar 24.55378 setiap kenaikan luas permukaan tubuh (sq m) dengan asumsi x1,x4,x5 dan x6 konstan (tetap) • nilai 0.07682: rata-rata tekanan darah diduga meningkat sebesar 0.07682 setiap kenaikan lama mengidap tekanan darah tinggi (tahun) dengan asumsi x1,x3,x5 dan x6 konstan (tetap) • nilai 0.45644: rata-rata tekanan darah diduga meningkat sebesar 0.45644 setiap kenaikan denyut nadi (beatsthn/min) dengan asumsi x1,x3,x4 dan x6 konstan (tetap) • nilai -0.01673: rata-rata tekanan darah diduga menurun sebesar -0.01673 setiap kenaikan tingkat stres dengan asumsi x1,x3,x4 dan x5 konstan (tetap)

Kebaikan model dapat diakses berdasarkan nilai koefisien determinasi R2 . Nilai adjusted R2 = 0.8998 dapat dimaknai bahwa 89.98% keragaman dari rata-rata tekanan darah dijelaskan oleh variabel peubah x1(usia), x3(luas permukaan tubuh)x4(lama mengidap tekanan darah tinggi (tahun)), x5(denyut nadi) dan x6(tingkat stres) , sementara keragam yang lain dijelaskan oleh peubah lain yang tidak ada dalam model.

Berdasarkan hasil pemodelan pada soal nomor b, lakukan pengujian hipotesis pada taraf nyata 5% peubah mana yang memberikan pengaruh terhadap rata-rata tekanan darah! jawab: Uji parsial digunakan untuk mengetahui seberapa jauh pengaruh satu variabel prediktor secara individual dalam menerangkan variasi variabel respon. Hipotesis secara parsial sebagai berikut
Hipotesis 𝐻0: β = 0 (𝑖 = 1, 2, … , 𝑛) 𝐻0: β ≠ 0 (𝑖 = 1, 2, … , 𝑛)

Tingkat Signifikansi α = 5% atau 0. 05
Daerah Kritis tolak h0 jika pvalue<α

#uji parsial
summary(modelnew)

## 
## Call:
## lm(formula = y ~ x1 + x3 + x4 + x5 + x6, data = datareg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3687 -0.9135  0.1546  0.9053  2.8020 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6.21215    9.42927   0.659   0.5207    
## x1           0.56297    0.20572   2.737   0.0161 *  
## x3          24.55378    3.45160   7.114 5.22e-06 ***
## x4           0.07682    0.20437   0.376   0.7126    
## x5           0.45644    0.15925   2.866   0.0124 *  
## x6          -0.01673    0.01303  -1.284   0.2199    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.718 on 14 degrees of freedom
## Multiple R-squared:  0.9262, Adjusted R-squared:  0.8998 
## F-statistic: 35.14 on 5 and 14 DF,  p-value: 1.921e-07

Berdasarkan ringkasan di atas, Uji hipotesis yang dilakukan dengan menggunakan tingkat signifikansi sebesar 0.05 mendapatkan hasil peubah x4(lama mengidap tekanan darah tinggi (tahun)) dan x6(tingkat stres) tidak signifikan (p − value > 0.05), sementara peubah x1(usia), x5(denyut nadi)dan x3(luas permukaan tubuh) signifikan berpengaruh terhadap rata-rata tekanan darah.

Berdasarkan hasil pemodelan pada soal nomor b, apakah persamaan regresi yang saudara gunakan telah memenuhi syarat dan asumsi? Jika tidak, langkah apa yang saudara lakukan? Jelaskan! jawab: sudah memenuhi sayart dan asumsi, karena sudah dilakukan di tahapan b dan tidak ada yang tidak terpenuhi.

#SOAL4 Seorang petani buah lokal ingin mengetahui apakah terdapat perbedaan rata-rata hasil panen dari beberapa varietas blueberry. Petani tersebut membeli dan menanam masing-masing delapan tanaman dari empat varietas blueberry semak yang berbeda. Satu tahun setelah tanam, hasil panen dari setiap tanaman diukur (dalam pound) dan hasilnya disajikan dalam table sebagai berikut: U1 U2 U3 U4 U5 U6 U7 U8 Berkeley 5.13 5.36 5.20 5.15 4.96 5.14 5.54 5.22 Duke 5.31 4.89 5.09 5.57 5.36 4.71 5.13 5.30 Jersey 5.20 4.92 5.44 5.20 5.17 5.24 5.08 5.13 Sierra 5.08 5.30 5.43 4.99 4.89 5.30 5.35 5.26

y<-c(5.13,5.36,5.20,5.15,4.96,5.14,5.54,5.22,5.31,4.89,5.09,5.57,5.36,4.71,5.13,5.30,5.20,4.92,5.44,5.20,5.17,5.24,5.08,5.13,5.08,5.30,5.43,4.99,4.89,5.30,5.35,5.26)
perlakuan<-c(rep("Berkeley",8),
rep("Duke",8),
rep("Jersey",8),
rep("Sierra",8))
data<-data.frame('Perlakuan'=as.factor(perlakuan),'Respon'=y)
head(data,32)

##    Perlakuan Respon
## 1   Berkeley   5.13
## 2   Berkeley   5.36
## 3   Berkeley   5.20
## 4   Berkeley   5.15
## 5   Berkeley   4.96
## 6   Berkeley   5.14
## 7   Berkeley   5.54
## 8   Berkeley   5.22
## 9       Duke   5.31
## 10      Duke   4.89
## 11      Duke   5.09
## 12      Duke   5.57
## 13      Duke   5.36
## 14      Duke   4.71
## 15      Duke   5.13
## 16      Duke   5.30
## 17    Jersey   5.20
## 18    Jersey   4.92
## 19    Jersey   5.44
## 20    Jersey   5.20
## 21    Jersey   5.17
## 22    Jersey   5.24
## 23    Jersey   5.08
## 24    Jersey   5.13
## 25    Sierra   5.08
## 26    Sierra   5.30
## 27    Sierra   5.43
## 28    Sierra   4.99
## 29    Sierra   4.89
## 30    Sierra   5.30
## 31    Sierra   5.35
## 32    Sierra   5.26

Buatlah suatu plot yang dapat merepresentasikan hasil panen dari varietas blueberry tersebut jawab :

library(ggplot2)
ggplot(data, aes(x = Perlakuan, y = Respon)) +
  geom_boxplot() +
  labs(x = "Varietas Blueberry", y = "Hasil Panen (Pound)") +
  ggtitle("Distribusi Hasil Panen Varian Blueberry")

berdasarkan plot diatas didapatkan bahwa Interpretasi Boxplot : -) Pada Boxplot varietas Blueberry semak jenis Berkeley menunjukkan bahwa hasil panen data cenderung condong ke arah kanan karena jarak antara Q1 dan Q2 lebih panjang dibandingkan jarak antara Q2 dan Q3 sehingga data lebih terpusat disebelah kiri serta terdapat satu outlier yang ditemukan dalam data.

-) Pada Boxplot varietas Blueberry semak jenis Duke menunjukkan bahwa hasil panen data condong ke arah kiri karena jarak antara Q1 dan dan Q2 lebih pendek dibandingkan jarak antara Q2 dan Q3 sehingga data lebih terpusat di sebelah kanan serta tidak terdapat outlier yang ditemukan dalam data.

-) Pada Boxplot varietas Blueberry semak jenis Jersey menunjukkan bahwa hasil panen data condong ke arah kiri karena jarak antara Q1 dan dan Q2 lebih pendek dibandingkanjarak antara Q2 dan Q3 sehingga data lebih terpusat di sebelah kanan serta terdapat dua outlier yang ditemukan dalam data.

-) Pada Boxplot varietas Blueberry semak jenis Sierra menunjukkan bahwa hasil panen data condong ke arah kiri karena jarak antara Q1 dan dan Q2 lebih pendek dibandingkanjarak antara Q2 dan Q3 sehingga data lebih terpusat di sebelah kanan serta tidak terdapat outlier yang ditemukan dalam data.

Gunakan ilmu statistika yang telah anda pelajari dalam Mata Kuliah Analisis Statistika untuk menentukan jenis analisis yang dapat digunakan berdasarkan data tersebut. Jawab : menggunakan Rancangan acak lengkap karna 1 perlakuan yaitu varietas bluberry faktor = varietas bluberry perlakuan = jenis varietas bluberry semak unit percobaan = setiap tanaman respon = hasil panen setiap tanaman ANOVA :

model1<-aov(Respon~Perlakuan, data=data)
summary(model1)

##             Df Sum Sq Mean Sq F value Pr(>F)
## Perlakuan    3 0.0104 0.00348   0.085  0.968
## Residuals   28 1.1449 0.04089

Berdasarkan analisis yang saudara lakukan pada poin b, kesimpulan apa yang saudara peroleh? jawab : Berdasarkan hasil di atas diperoleh p − value = 0.968 > α = 0.05 maka terima H0(inkonklusif). Sehingga tidak cukup bukti untuk mengatakan bahwa terdapat perbedaan rata-rata hasil panen dari beberapa varietas blueberry. sehingga perlu dilakukan uji lanjut.

Analisis Statistika

SITI HAFSAH

2023-10-18