# Memuat dataset
data(airquality)
# Statistik deskriptif Ozone
ozone_stats <- summary(airquality$Ozone)
print(ozone_stats)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.00 18.00 31.50 42.13 63.25 168.00 37
# Mean, Median, Standar Deviasi
mean_ozone <- mean(airquality$Ozone, na.rm = TRUE)
median_ozone <- median(airquality$Ozone, na.rm = TRUE)
sd_ozone <- sd(airquality$Ozone, na.rm = TRUE)
cat("\nStatistik Deskriptif Ozone:\n")
##
## Statistik Deskriptif Ozone:
cat("Mean:", round(mean_ozone, 2), "\n")
## Mean: 42.13
cat("Median:", round(median_ozone, 2), "\n")
## Median: 31.5
cat("Standar Deviasi:", round(sd_ozone, 2), "\n")
## Standar Deviasi: 32.99
ggplot(airquality, aes(x = Wind, y = Temp)) +
geom_point(alpha = 0.7, color = "green") +
labs(title = "Scatter Plot Wind vs Temp",
x = "Kecepatan Angin",
y = "Temperatur") +
theme_minimal()
# 2 Analisis Bar Chart Dataset mtcars
# Bar chart variabel cyl
mtcars %>%
count(cyl) %>%
ggplot(aes(x = factor(cyl), y = n, fill = factor(cyl))) +
geom_bar(stat = "identity") +
geom_text(aes(label = n), vjust = -0.5) +
labs(title = "Distribusi Jumlah Silinder",
x = "Jumlah Silinder",
y = "Frekuensi") +
theme_minimal()
ggplot(iris, aes(x = Species, y = Petal.Width, fill = Species)) +
geom_boxplot() +
labs(title = "Boxplot Petal Width berdasarkan Species",
x = "Spesies",
y = "Lebar Petal") +
theme_minimal()
# Hitung korelasi
korelasi <- cor(iris$Sepal.Length, iris$Petal.Length)
cat("Korelasi Sepal Length dan Petal Length:", round(korelasi, 3))
## Korelasi Sepal Length dan Petal Length: 0.872
Nilai korelasi antara Sepal Length dan Petal Length sebesar 0.872 menunjukkan hubungan yang kuat dan positif, di mana bunga dengan sepal yang lebih panjang cenderung memiliki petal yang lebih panjang. Nilai ini mengindikasikan bahwa kedua variabel memiliki hubungan linier yang hampir sempurna, dengan perubahan pada Sepal Length cenderung diikuti oleh perubahan searah pada Petal Length. Hubungan ini masuk akal secara biologis, mengingat ukuran sepal dan petal sering mencerminkan ukuran keseluruhan bunga. Meskipun demikian, penting untuk diingat bahwa korelasi ini hanya menggambarkan hubungan linier dan tidak menyiratkan hubungan sebab-akibat.
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
labs(title = "Scatter Plot Sepal Length vs Sepal Width",
x = "Panjang Sepal",
y = "Lebar Sepal") +
theme_minimal()
# Uji Chi-Square mtcars
# Tabel kontingensi
tabel_kontingensi <- table(mtcars$vs, mtcars$am)
print("Tabel Kontingensi:")
## [1] "Tabel Kontingensi:"
print(tabel_kontingensi)
##
## 0 1
## 0 12 6
## 1 7 7
# Uji Chi-Square
uji_chi <- chisq.test(tabel_kontingensi)
print(uji_chi)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabel_kontingensi
## X-squared = 0.34754, df = 1, p-value = 0.5555
Dengan π-value=0.5555 yang jauh lebih besar dari tingkat signifikansi umum (πΌ=0.05), kita gagal menolak H0. Artinya, tidak ada bukti signifikan untuk menyatakan bahwa kedua variabel saling bergantung. Dengan kata lain, variabel-variabel ini tampaknya independen.
# Model regresi
model <- lm(Temp ~ Solar.R, data = airquality)
# Ringkasan model
summary(model)
##
## Call:
## lm(formula = Temp ~ Solar.R, data = airquality)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.3787 -4.9572 0.8932 5.9111 18.4013
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 72.863012 1.693951 43.014 < 2e-16 ***
## Solar.R 0.028255 0.008205 3.444 0.000752 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.898 on 144 degrees of freedom
## (7 observations deleted due to missingness)
## Multiple R-squared: 0.07609, Adjusted R-squared: 0.06967
## F-statistic: 11.86 on 1 and 144 DF, p-value: 0.0007518
# Scatter plot dengan garis regresi
ggplot(airquality, aes(x = Solar.R, y = Temp)) +
geom_point(alpha = 0.7) +
geom_smooth(method = "lm", color = "maroon") +
labs(title = "Regresi Linear Solar.R vs Temp",
x = "Radiasi Matahari",
y = "Temperatur") +
theme_minimal()
Temp =π½0+π½1(Solar.R)+π
di mana:
Min: -22.3787 (residual terkecil), 1Q: -4.9572 (kuartil pertama residual), Median: 0.8932 (residual tengah), 3Q: 5.9111 (kuartil ketiga residual), Max: 18.4013 (residual terbesar). Nilai-nilai ini menunjukkan distribusi residual relatif simetris, dengan beberapa outlier.
Intercept (Ξ²0): 72.863 Artinya, jika Solar.R=0, maka suhu rata-rata diprediksi sebesar 72.863 derajat.
Solar.R (π½1): 0.028255 Setiap peningkatan 1 satuan pada Solar.R (radiasi matahari) dikaitkan dengan peningkatan suhu sebesar 0.028 derajat.
Statistik Koefisien: Std. Error: Ukuran ketidakpastian estimasi koefisien. Untuk π½0: 1.693951 Untuk π½1: 0.008205
t value: Statistik uji untuk menguji hipotesis nol (π»0): koefisien sama dengan nol. π‘Intercept = 43.014 π‘Solar.R = 3.444
Pr(>|t|): Nilai p untuk pengujian signifikansi. Untuk Solar.R,πβ 0.00075, yang lebih kecil dari 0.001, menunjukkan bahwa efek Solar.R signifikan secara statistik terhadap suhu.
Residual Standard Error (RSE) RSE adalah ukuran seberapa baik model memprediksi data. Nilainya adalah 8.898 dengan 144 derajat kebebasan. Nilai ini menunjukkan tingkat penyimpangan prediksi model dari data aktual
Koefisien Determinasi (π Β²) Multiple π Β² : 0.07609 Hanya sekitar 7.6% variansi dalam suhu yang dapat dijelaskan oleh variabel
Adjusted π Β² : 0.06967 Menyesuaikan nilai π Β² dengan mempertimbangkan jumlah prediktor dan ukuran sampel.
Nilai F-statistic adalah 11.86 dengan p-value sebesar 0.0007518. Ini menunjukkan bahwa model secara keseluruhan signifikan, meskipun π Β² cukup rendah
Solar.R berpengaruh signifikan terhadap suhu, tetapi kontribusinya kecil karena π Β² rendah. Model ini memberikan prediksi yang masuk akal tetapi tidak sepenuhnya menjelaskan variasi suhu. Penambahan variabel lain mungkin diperlukan untuk meningkatkan performa model.