UTS STATISTIKA KOMPUTASI

Nama    : Ronaldo Situmorang
NIM     : 2304220026
Prodi   : Statistika dan Sains Data

Import dataset mtcart

dataset = mtcars

1a Menghitung statistika deskriptif MEAN,MEDIAN, STANDART DEVIASI

data = mtcars$mpg
summary(data)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.40   15.43   19.20   20.09   22.80   33.90

1b Membuat boxplot variabel mpg berdasarkan cyl

boxplot(mpg ~ cyl, data = mtcars, 
        main = "Boxplot MPG Berdasarkan Cyl",
        xlab = "Jumlah Silinder (cyl)",
        ylab = "Miles per Gallon (mpg)",
        col = c("lightblue", "lightgreen", "lightpink"),
        border = "darkblue")

2 Membuat histogram dengan garis densitas menggunakan ggplot2

hist(mtcars$hp,
     bearks= 12,
     col="skyblue",
     main="histogram untuk variabel hp (horse power)dengan garis densitas",
     xlab="horse power",
     ylab="frekuensi",
     freq=FALSE)
## Warning in plot.window(xlim, ylim, "", ...): "bearks" is not a graphical
## parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...):
## "bearks" is not a graphical parameter
## Warning in axis(1, ...): "bearks" is not a graphical parameter
## Warning in axis(2, at = yt, ...): "bearks" is not a graphical parameter
lines (density(mtcars$hp),
       col="black",
       lwd=3)

Histogram menunjukkan adanya puncak utama (mode) di rentang 100-120 horsepower, yang berarti sebagian besar mobil dalam dataset memiliki tenaga mesin dalam kisaran ini.Distribusi horsepower pada dataset mtcars menunjukkan bahwa sebagian besar mobil memiliki tenaga mesin dalam kisaran menengah, dengan beberapa kendaraan berperforma tinggi sebagai anomali. Pola distribusi ini mungkin mencerminkan jenis mobil dalam dataset, yang mencakup berbagai kelas performa, dari mobil dengan tenaga biasa hingga kendaraan yang lebih bertenaga seperti mobil sport atau balap. Beberapa kendaraan memiliki tenaga mesin yang sangat tinggi (lebih dari 300 horsepower), tetapi jumlahnya sangat sedikit, menunjukkan mereka sebagai outliers.

3. Melakukan ANOVA untuk mengetahui apakah terdapat perbedaan signifikan pada rata-rata panjang sepal (Sepal.Length) antar spesies dalam dataset iris.

data(iris)

anova <- aov(Sepal.Length ~ Species, data = iris)
summary(anova)
##              Df Sum Sq Mean Sq F value Pr(>F)    
## Species       2  63.21  31.606   119.3 <2e-16 ***
## Residuals   147  38.96   0.265                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
print(summary)
## function (object, ...) 
## UseMethod("summary")
## <bytecode: 0x0000018d06a14d88>
## <environment: namespace:base>

Berdasarkan hasil uji ANOVA, nilai p-value sangat kecil (<0.05), kita dapat menolak hipotesis nol dan menerima hipotesis alternatif, yakni ada perbedaan signifikan pada rata-rata Sepal.Length antar spesies iris.

4. Lakukan uji t-test dua sampel untuk membandingkan panjang petal (Petal.Length) antara spesies setosa dan versicolor. Berikan kesimpulan dari hasil uji tersebut

data(iris)
setosa_data <- subset(iris, Species == "setosa")
versicolor_data <- subset(iris, Species == "versicolor")

t_test_result <- t.test(setosa_data$Petal.Length, versicolor_data$Petal.Length)

print(t_test_result)
## 
##  Welch Two Sample t-test
## 
## data:  setosa_data$Petal.Length and versicolor_data$Petal.Length
## t = -39.493, df = 62.14, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -2.939618 -2.656382
## sample estimates:
## mean of x mean of y 
##     1.462     4.260

Hasil uji t-test menunjukkan bahwa nilai p-value yang sangat kecil (di bawah 0,05) memberikan bukti kuat untuk mendukung adanya perbedaan yang signifikan dalam panjang petal (Petal.Length) antara spesies setosa dan versicolor. Dengan demikian, hipotesis nol, yang menyatakan bahwa tidak ada perbedaan panjang petal antara kedua spesies, ditolak. Kesimpulan ini menegaskan bahwa terdapat perbedaan nyata dalam karakteristik panjang petal antara spesies setosa dan versicolor.

5. Bangun model regresi linear sederhana menggunakan dataset mtcars untuk memprediksi mpg berdasarkan wt (berat mobil)

5a. Tampilkan ringkasan model menggunakan summary()

model <- lm(mpg ~ wt, data = mtcars)
summary(model)
## 
## Call:
## lm(formula = mpg ~ wt, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5432 -2.3647 -0.1252  1.4096  6.8727 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
## wt           -5.3445     0.5591  -9.559 1.29e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared:  0.7528, Adjusted R-squared:  0.7446 
## F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10
print(summary)
## function (object, ...) 
## UseMethod("summary")
## <bytecode: 0x0000018d06a14d88>
## <environment: namespace:base>

5b. Buatlah scatter plot dengan garis regresi

library(ggplot2)
plotregresi <- ggplot(mtcars, aes(x = wt, y = mpg)) + 
  geom_point() + 
  geom_smooth(method = "lm")
print(plotregresi)
## `geom_smooth()` using formula = 'y ~ x'

###c. Interpretasikan Hasil Hasil analisis regresi menunjukkan bahwa variabel independen memiliki pengaruh signifikan terhadap variabel dependen. Hal ini terlihat dari nilai p-value yang sangat kecil (kurang dari 0,05), sehingga hipotesis nol (H0) ditolak dan hipotesis alternatif (H1) diterima. Model regresi yang dihasilkan adalah: -5.3445x + 37.2851, dengan nilai R-Squared sebesar 0,7446 atau 74,4%, yang menunjukkan hubungan yang sangat kuat antara variabel-variabel tersebut.