UTS KOMPUTASI STATISTIKA

Nama : Ibnu Raihan

NIM : 2304220044

Matkul : Komputasi Statistika

1. Import Dataset

data = mtcars

a. Hitung statistik deskriptif variabel MPG

data_mpg = mtcars$mpg
summary(data_mpg)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.40   15.43   19.20   20.09   22.80   33.90
print(summary)
## function (object, ...) 
## UseMethod("summary")
## <bytecode: 0x000001dc8757d810>
## <environment: namespace:base>

b. Buat boxplot variabel MPG berdasarkan variabel CYL.

boxplot <- boxplot(mpg ~ cyl, 
        data = mtcars, 
        main = "Boxplot MPG berdasarkan Cyl", 
        xlab = "Variabel Cyl", 
        ylab = "Variabel MPG", 
        col = c("skyblue", "orange", "lightgreen"), 
        border = "black")

print(boxplot)
## $stats
##      [,1]  [,2] [,3]
## [1,] 21.4 17.80 13.3
## [2,] 22.8 18.65 14.3
## [3,] 26.0 19.70 15.2
## [4,] 30.4 21.00 16.4
## [5,] 33.9 21.40 19.2
## 
## $n
## [1] 11  7 14
## 
## $conf
##          [,1]     [,2]     [,3]
## [1,] 22.37945 18.29662 14.31323
## [2,] 29.62055 21.10338 16.08677
## 
## $out
## [1] 10.4 10.4
## 
## $group
## [1] 3 3
## 
## $names
## [1] "4" "6" "8"

2. Buatlah histogram untuk variabel HP (horse power) dan tambahkan garis densitas. Jelaskan distribusi data berdasarkan grafik tersebut

library(ggplot2)
histogram <- ggplot(mtcars, aes(x = hp)) +
  geom_histogram(aes(y = after_stat(density)), binwidth = 40, fill = "skyblue", color = "black") +
  geom_density(color = "red", size = 1) +
  labs(title = "Histogram of Horse Power (hp) with Density Curve",
       x = "Horse Power (hp)",
       y = "Density") +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
print(histogram)

Distribusi yang terlihat disini adalah sebagian besar distribusi mobil memiliki horse power dibawah 200, memiliki konsentrasi tertinggi mobil memiliki horse power di angka 100. Garis densitas (warna merah) menunjukkan distribusi data yang lebih halus dan memberikan gambaran bahwa distribusi ini cenderung skewed ke kanan (positif skew), yang berarti sebagian besar data terpusat di nilai yang lebih rendah, tetapi ada beberapa nilai outlier tinggi di sisi kanan

3. Lakukan uji ANOVA untuk mengetahui apakah terdapat perbedaan signifikan pada rata-rata panjang sepal (Sepal.Length) antar spesies dalam dataset iris.

data(iris)

anova <- aov(Sepal.Length ~ Species, data = iris)
summary(anova)
##              Df Sum Sq Mean Sq F value Pr(>F)    
## Species       2  63.21  31.606   119.3 <2e-16 ***
## Residuals   147  38.96   0.265                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
print(summary)
## function (object, ...) 
## UseMethod("summary")
## <bytecode: 0x000001dc8757d810>
## <environment: namespace:base>

Interpretasi : Berdasarkan hasil uji ANOVA, nilai p-value sangat kecil (<0.05), kita dapat menolak hipotesis nol dan menerima hipotesis alternatif, yakni ada perbedaan signifikan pada rata-rata Sepal.Length antar spesies iris.

4. Lakukan uji t-test dua sampel untuk membandingkan panjang petal (Petal.Length) antara spesies setosa dan versicolor. Berikan kesimpulan dari hasil uji tersebut

data(iris)
setosa_data <- subset(iris, Species == "setosa")
versicolor_data <- subset(iris, Species == "versicolor")

t_test_result <- t.test(setosa_data$Petal.Length, versicolor_data$Petal.Length)

print(t_test_result)
## 
##  Welch Two Sample t-test
## 
## data:  setosa_data$Petal.Length and versicolor_data$Petal.Length
## t = -39.493, df = 62.14, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -2.939618 -2.656382
## sample estimates:
## mean of x mean of y 
##     1.462     4.260

Interpretasi : Berdasarkan hasil uji t-test, p-value yang sangat kecil (< 0.05) menunjukkan bahwa terdapat perbedaan yang signifikan antara panjang petal (Petal.Length) antara spesies setosa dan versicolor. Oleh karena itu, kita menolak hipotesis nol (bahwa tidak ada perbedaan antara kedua spesies) dan menyimpulkan bahwa ada perbedaan yang signifikan pada panjang petal antara kedua spesies tersebut.

5. Bangun model regresi linear sederhana menggunakan dataset mtcars untuk memprediksi MPG berdasarkan WT (berat mobil)

a. Tampilkan ringkasan model menggunakan summary()

model <- lm(mpg ~ wt, data = mtcars)
summary(model)
## 
## Call:
## lm(formula = mpg ~ wt, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5432 -2.3647 -0.1252  1.4096  6.8727 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
## wt           -5.3445     0.5591  -9.559 1.29e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared:  0.7528, Adjusted R-squared:  0.7446 
## F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10
print(summary)
## function (object, ...) 
## UseMethod("summary")
## <bytecode: 0x000001dc8757d810>
## <environment: namespace:base>

b. Buatlah scatter plot dengan garis regresi

plotregresi <- ggplot(mtcars, aes(x = wt, y = mpg)) + 
  geom_point() + 
  geom_smooth(method = "lm")
print(plotregresi)
## `geom_smooth()` using formula = 'y ~ x'

c. Interpretasikan Hasil

Berdasarkan hasil uji model regresi, Variabel independen berpengaruh terhadap variabel dependen. Hal ini dapat di lihar dari nilai p-value yang sangat rendah (<0.05) sehingga kita menolak H0 dan menerima H1. Berikut adalah bentuk Modelnya Model Regresi : -5.3445x + 37.2851 R-Squared : 0.7446 = 74,4% (Sangat Kuat)