## Memuat dataset airquality
data(airquality)
## Melihat beberapa baris pertama dari data
head(airquality)
##   Ozone Solar.R Wind Temp Month Day
## 1    41     190  7.4   67     5   1
## 2    36     118  8.0   72     5   2
## 3    12     149 12.6   74     5   3
## 4    18     313 11.5   62     5   4
## 5    NA      NA 14.3   56     5   5
## 6    28      NA 14.9   66     5   6
## 2. menggunakan fungsi summary()
summary(airquality$Ozone)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    1.00   18.00   31.50   42.13   63.25  168.00      37
plot(airquality$Wind, airquality$Temp, xlab = "Kecepatan Angin", ylab = "Suhu", main = "Hubungan antara Kecepatan Angin dan Suhu")

data("mtcars")
cyl_freq <- table(mtcars$cyl)
barplot(cyl_freq,
        main = "Bar Chart Variabel Cyl",
        xlab = "Jumlah Silinder", ylab = "Frekuensi",
        col = "navy")
text(x = barplot(cyl_freq, plot = FALSE), 
     y = cyl_freq, 
     labels = cyl_freq, 
     pos = 3, cex = 1.2, col = "red")

## NO 3A
# Memuat dataset iris
data(iris)

# Membuat boxplot
boxplot(Petal.Width ~ Species, data = iris,
        main = "Perbandingan Lebar Petal Berdasarkan Spesies",
        xlab = "Spesies", ylab = "Lebar Petal")

#NO 3B
# Memuat dataset iris
data(iris)

# Menghitung korelasi
korelasi <- cor(iris$Sepal.Length, iris$Petal.Length)

# Menampilkan hasil korelasi
print(paste("Korelasi antara Sepal.Length dan Petal.Length adalah:", korelasi))
## [1] "Korelasi antara Sepal.Length dan Petal.Length adalah: 0.871753775886583"

Penjelasan no 3 b

Nilai korelasi yang dihasilkan akan berada antara -1 dan 1.

Nilai mendekati 1: Menunjukkan korelasi positif yang kuat, artinya semakin besar nilai Sepal.Length, semakin besar pula nilai Petal.Length. Nilai mendekati -1: Menunjukkan korelasi negatif yang kuat, artinya semakin besar nilai Sepal.Length, semakin kecil nilai Petal.Length. Nilai mendekati 0: Menunjukkan tidak ada korelasi yang signifikan antara kedua variabel. hasil yang didapatkan adalah Korelasi antara Sepal.Length dan Petal.Length adalah: 0.87, maka dapat diinterpretasikan bahwa terdapat korelasi positif yang kuat antara panjang sepal dan panjang petal pada bunga iris. Artinya, semakin panjang sepal suatu bunga, cenderung semakin panjang pula petalnya.

## No 3C
# Memuat dataset iris
data(iris)

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
# Membuat scatter plot dengan warna berdasarkan spesies dan garis regresi
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(x = "Panjang Sepal", y = "Lebar Sepal", color = "Spesies",
       title = "Hubungan antara Panjang dan Lebar Sepal")
## `geom_smooth()` using formula = 'y ~ x'

## NO 4
# Memuat dataset mtcars
data(mtcars)

# Membuat tabel kontingensi
tabel_kontingensi <- table(mtcars$vs, mtcars$am)

# Melakukan uji Chi-Square
uji_chi <- chisq.test(tabel_kontingensi)

# Menampilkan hasil uji
print(uji_chi)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabel_kontingensi
## X-squared = 0.34754, df = 1, p-value = 0.5555
## NO 5a
# Memuat dataset airquality
data(airquality)

# Membangun model regresi linear
model_regresi <- lm(Temp ~ Solar.R, data = airquality)

# Menampilkan ringkasan model
summary(model_regresi)
## 
## Call:
## lm(formula = Temp ~ Solar.R, data = airquality)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -22.3787  -4.9572   0.8932   5.9111  18.4013 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 72.863012   1.693951  43.014  < 2e-16 ***
## Solar.R      0.028255   0.008205   3.444 0.000752 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.898 on 144 degrees of freedom
##   (7 observations deleted due to missingness)
## Multiple R-squared:  0.07609,    Adjusted R-squared:  0.06967 
## F-statistic: 11.86 on 1 and 144 DF,  p-value: 0.0007518
## NO 5b
plot(airquality$Solar.R, airquality$Temp,
     main = "Scatter Plot dengan Garis Regresi",
     xlab = "Solar.R", ylab = "Temperature",
     pch = 19, col = "navy")
abline(model_regresi, col = "maroon", lwd = 2)

## NO 5C Interpretasi Hasil Koefisien Regresi: Intercept: menunjukkan nilai prediksi untuk variabel dependen (Temp) ketika nilai variabel independen (Solar.R) adalah 0. Dalam konteks ini, intercept mewakili suhu rata-rata ketika tidak ada radiasi matahari. Model: Model regresi linear kita dapat menjelaskan sekitar 39.35% variabilitas suhu berdasarkan radiasi matahari. Koefisien Solar.R: Setiap peningkatan satu unit radiasi matahari diprediksi akan meningkatkan suhu sebesar 0.0531 derajat. Signifikansi: Koefisien untuk Solar.R sangat signifikan secara statistik (p-value << 0.05), yang berarti ada hubungan yang kuat antara radiasi matahari dan suhu. Kesimpulan:

Model regresi linear yang kita buat menunjukkan bahwa ada hubungan positif yang signifikan antara radiasi matahari dan suhu. Semakin tinggi radiasi matahari, semakin tinggi pula suhu yang diprediksi. Namun, perlu diingat bahwa model ini hanya menjelaskan sekitar 39% variabilitas data, sehingga ada faktor lain yang juga mempengaruhi suhu.

Asumsi Regresi Linear: Model regresi linear memiliki beberapa asumsi yang perlu dipenuhi, seperti linearitas, independensi, homoskedastisitas, dan normalitas residual. Perlu dilakukan pemeriksaan asumsi-asumsi ini untuk memastikan bahwa model yang kita buat valid. Interpretasi dalam Konteks: Interpretasi hasil harus selalu dilakukan dalam konteks data dan tujuan analisis.

Visualisasi:

Visualisasi dengan scatter plot dan garis regresi membantu kita untuk melihat secara visual hubungan antara kedua variabel. Jika garis regresi miring ke atas dan titik-titik data cukup dekat dengan garis, ini mendukung kesimpulan bahwa ada hubungan positif antara radiasi matahari dan suhu.