Soal Pratik UTS Komputer Statistika

Import Dataset mtcars di R Studio

data(mtcars)

Menghitung Statistik Deskriptif dataset mtcars (mean, median, standar deviasi) untuk variabel mpg

Mengubah data menjadi data numerik

mean_mpg <- mean(mtcars$mpg)
median_mpg <- median(mtcars$mpg)
stdev_mpg <- sd(mtcars$mpg)

Memasukan data numerik ke dalam sebuah data frame

statistics_mpg <- data.frame(
  Statistic = c("Mean", "Median", "Standard Deviation"),
  Value = c(mean_mpg, median_mpg, stdev_mpg)
)

print(statistics_mpg)
##            Statistic     Value
## 1               Mean 20.090625
## 2             Median 19.200000
## 3 Standard Deviation  6.026948

Membuat boxplot variabel mpg berdasarkan variabel cyl

boxplot(mpg ~ cyl, 
        data = mtcars, 
        main = "Boxplot mpg Berdasarkan cyl",
        xlab = "Jumlah Silinder (cyl)",
        ylab = "Miles per Gallon (mpg)",
        col = c("lightblue", "lightgreen", "lightpink"),
        border = "darkblue")

Membuat Histogram untuk variabel Horsepower

hist(mtcars$hp,
     breaks = 10,                     
     col = "lightblue",               
     main = "Histogram Horsepower (hp) dengan garis densitas",
     xlab = "Horsepower (hp)",
     ylab = "Frekuensi",
     freq = FALSE)

### menambahkan garis densitas
lines(density(mtcars$hp),
      col = "darkblue",               
      lwd = 2) ####untuk tebal garis 

Dari histogram diatas, distribusi data menunjukkan pola asimetris positif (positively skewed). Sebagian besar nilai horsepower berkumpul di kisaran 100 hingga 150, yang menjadi pusat konsentrasi data. Hal ini menunjukkan bahwa mayoritas kendaraan memiliki tenaga sedang, sesuai dengan kisaran tersebut.

Selain itu, distribusi memiliki ekor panjang ke arah kanan, yang mengindikasikan adanya beberapa kendaraan dengan horsepower yang jauh lebih tinggi dibandingkan kendaraan lainnya. Nilai horsepower yang sangat tinggi ini dianggap sebagai outlier, dengan jumlah kendaraan yang sangat sedikit pada kisaran lebih dari 250 hingga 300 hp.

Penyebaran data juga terlihat cukup luas, dengan nilai horsepower berkisar dari sekitar 50 hingga lebih dari 300. Hal ini mencerminkan bahwa kendaraan dalam dataset ini memiliki variasi performa yang signifikan, mulai dari kendaraan dengan tenaga rendah hingga kendaraan dengan tenaga yang sangat tinggi. Secara keseluruhan, distribusi ini memperlihatkan mayoritas kendaraan berada pada tenaga sedang, dengan beberapa kendaraan ekstrem di sisi tenaga rendah maupun tinggi.

Uji ANOVA untuk mengetahui perbedaan signifikan pada rata-rata panjang sepal (sepal.length) antar spesies untuk dataset iris

data("iris")

# Melakukan uji ANOVA untuk Sepal.Length berdasarkan spesies
anova_result <- aov(Sepal.Length ~ Species, data = iris)

# Menampilkan hasil uji ANOVA
summary(anova_result)
##              Df Sum Sq Mean Sq F value Pr(>F)    
## Species       2  63.21  31.606   119.3 <2e-16 ***
## Residuals   147  38.96   0.265                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dari hasil diatas p-value yang sangat kecil (kurang dari 0.05) menunjukkan bahwa ada perbedaan signifikan pada rata-rata panjang sepal (Sepal.Length) antar spesies iris. Oleh karena itu, kita dapat menolak hipotesis nol yang menyatakan bahwa tidak ada perbedaan rata-rata panjang sepal antar spesies.

Kesimpulannya terdapat perbedaan yang signifikan pada rata-rata Sepal Length antara spesies dalam dataset iris.

Uji t-test untuk membandingkan petal length antara spesies setosa dan versicolor

data(iris)

# Melakukan uji t dua sampel untuk Petal.Length antara Setosa dan Versicolor
t_test_result <- t.test(Petal.Length ~ Species, data = iris, subset = Species %in% c("setosa", "versicolor"))

# Menampilkan hasil uji t
print(t_test_result)
## 
##  Welch Two Sample t-test
## 
## data:  Petal.Length by Species
## t = -39.493, df = 62.14, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group setosa and group versicolor is not equal to 0
## 95 percent confidence interval:
##  -2.939618 -2.656382
## sample estimates:
##     mean in group setosa mean in group versicolor 
##                    1.462                    4.260

Berdasarkan hasil uji t dua sampel, terdapat perbedaan yang sangat signifikan antara panjang petal spesies Setosa dan Versicolor dalam dataset iris. Hasil uji menunjukkan bahwa rata-rata panjang petal untuk Setosa adalah 1.462, sedangkan untuk Versicolor adalah 4.260. Dengan p-value yang sangat kecil (kurang dari 0.05), kita menolak hipotesis nol yang menyatakan bahwa tidak ada perbedaan rata-rata panjang petal antara kedua spesies. Interval kepercayaan 95% untuk perbedaan rata-rata panjang petal antara Setosa dan Versicolor adalah antara -2.94 dan -2.66, yang tidak mencakup angka 0, semakin menguatkan temuan tersebut. Oleh karena itu, dapat disimpulkan bahwa panjang petal Versicolor secara signifikan lebih panjang dibandingkan Setosa.

Membuat model regresi linear sederhana menggunakan dataset mtcars untuk memprediksi mpg berdasarkan wt (berat mobil)

data(mtcars)

# Membangun model regresi linear sederhana
model <- lm(mpg ~ wt, data = mtcars)

# Menampilkan ringkasan model
summary(model)
## 
## Call:
## lm(formula = mpg ~ wt, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5432 -2.3647 -0.1252  1.4096  6.8727 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
## wt           -5.3445     0.5591  -9.559 1.29e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared:  0.7528, Adjusted R-squared:  0.7446 
## F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10
# Membuat scatter plot dengan garis regresi
library(ggplot2)
ggplot(mtcars, aes(x = wt, y = mpg)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Regresi Linear: mpg vs wt", x = "Berat Mobil (wt)", y = "Miles per Gallon (mpg)")
## `geom_smooth()` using formula = 'y ~ x'

Berdasarkan hasil regresi linear sederhana yang memprediksi mpg (miles per gallon) berdasarkan wt (berat mobil) dalam dataset mtcars, model menunjukkan adanya hubungan negatif yang signifikan antara kedua variabel tersebut. Koefisien regresi menunjukkan bahwa untuk setiap penurunan satu unit dalam berat mobil (wt), nilai mpg diperkirakan akan meningkat dengan jumlah yang ditentukan oleh koefisien slope. Ini mencerminkan bahwa mobil yang lebih ringan cenderung memiliki konsumsi bahan bakar yang lebih efisien, sedangkan mobil yang lebih berat cenderung lebih boros bahan bakar.

Dari ringkasan model, kita dapat melihat nilai R-squared yang menggambarkan seberapa baik model ini dapat menjelaskan variabilitas data. Nilai R-squared yang tinggi menunjukkan bahwa model regresi linear ini cukup baik dalam menjelaskan hubungan antara berat mobil dan konsumsi bahan bakar, meskipun ada faktor lain yang tidak diperhitungkan dalam model ini yang juga mempengaruhi mpg. Selain itu, nilai p-value untuk koefisien regresi yang sangat kecil menunjukkan bahwa hubungan antara wt dan mpg adalah signifikan secara statistik. Dengan kata lain, wt adalah prediktor yang kuat untuk mpg dalam dataset ini.