ANALISIS HUBUNGAN KARAKTERISTIK MORFOLOGI BUNGA IRIS MENGGUNAKAN MODEL REGRESI LINEAR BERGANDA
Mata Kuliah : Komputasi Statistika Lanjutan
Nama : Jelita Oktaviany Tria Setiawan
NIM : 24050123140164
Universitas : Universitas Diponegoro
07 March 2026
Analisis data merupakan salah satu metode penting dalam statistika yang digunakan untuk memahami pola serta hubungan antar variabel dalam suatu dataset. Salah satu dataset yang sering digunakan dalam pembelajaran statistika dan data science adalah dataset Iris yang diperkenalkan oleh Ronald A. Fisher pada tahun 1936. Dataset ini berisi data morfologi bunga iris yang terdiri dari tiga spesies yaitu setosa, versicolor, dan virginica. Setiap observasi memiliki empat variabel pengukuran yaitu Sepal Length, Sepal Width, Petal Length, dan Petal Width.
Melalui analisis terhadap dataset tersebut, dapat dipelajari hubungan antar karakteristik morfologi bunga iris serta pola keterkaitan antar variabel yang diamati. Salah satu metode statistika yang dapat digunakan untuk menganalisis hubungan tersebut adalah regresi linear berganda, yaitu metode yang digunakan untuk mengetahui pengaruh beberapa variabel independen terhadap satu variabel dependen.
Dengan menggunakan metode regresi linear berganda, hubungan antara variabel morfologi bunga iris dapat dianalisis secara lebih sistematis sehingga dapat diketahui variabel mana yang memiliki pengaruh terhadap panjang petal bunga iris. Oleh karena itu, analisis ini dilakukan untuk memahami hubungan antar variabel dalam dataset iris serta membangun model regresi yang dapat menjelaskan hubungan tersebut.
Berdasarkan latar belakang yang telah diuraikan, maka permasalahan yang akan dikaji dalam analisis ini berkaitan dengan bagaimana karakteristik data pada dataset iris serta bagaimana hubungan antar variabel morfologi bunga iris yang diamati. Selain itu, analisis ini juga berfokus pada bagaimana membangun model regresi linear berganda yang dapat menjelaskan hubungan antara variabel independen dengan variabel dependen yaitu Petal Length serta apakah model regresi yang terbentuk telah memenuhi asumsi dasar dalam analisis regresi.
Tujuan dari analisis ini adalah untuk mendeskripsikan karakteristik dataset iris melalui analisis statistik deskriptif serta mengeksplorasi hubungan antar variabel yang terdapat dalam dataset tersebut. Selain itu, analisis ini juga bertujuan untuk membangun model regresi linear berganda guna mengetahui pengaruh variabel Sepal Length, Sepal Width, dan Petal Width terhadap variabel Petal Length. Selanjutnya, model regresi yang diperoleh akan dievaluasi melalui pengujian asumsi klasik regresi guna memastikan bahwa model yang dihasilkan layak digunakan dalam analisis.
Dataset Iris merupakan dataset klasik yang diperkenalkan oleh Ronald A. Fisher pada tahun 1936 dalam penelitian mengenai klasifikasi spesies bunga iris. Dataset ini terdiri dari 150 observasi dengan empat variabel numerik yang menggambarkan ukuran morfologi bunga serta satu variabel kategorik yang menunjukkan spesies bunga iris.
Regresi linear berganda merupakan metode analisis statistika yang digunakan untuk mengetahui hubungan antara satu variabel dependen dengan lebih dari satu variabel independen. Model regresi linear berganda dapat digunakan untuk mengetahui pengaruh masing-masing variabel independen terhadap variabel dependen serta memprediksi nilai variabel dependen berdasarkan variabel independen yang digunakan.
Secara umum model regresi linear berganda dapat dituliskan sebagai berikut:
\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_kX_k + \epsilon \]
dimana \(Y\) merupakan variabel dependen, \(X\) merupakan variabel independen, \(\beta\) merupakan koefisien regresi, dan \(\epsilon\) merupakan error.
library(ggplot2)
library(car)
library(lmtest)
library(GGally)
library(stargazer)
iris_data <- iris
head(iris_data)
Interpretasi:
Dataset iris memiliki 150 observasi dengan lima variabel.
str(iris_data)
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
Interpretasi:
Empat variabel merupakan numerik dan satu variabel kategorik.
summary(iris_data)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Interpretasi:
Statistik deskriptif menunjukkan nilai minimum, maksimum, mean, dan
kuartil.
ggplot(iris_data, aes(x=Sepal.Length, y=Petal.Length)) +
geom_point(color="#2c5282", size=3) +
geom_smooth(method="lm", color="#c53030") +
theme_classic()
Interpretasi:
Grafik menunjukkan hubungan positif antara Sepal Length dan Petal
Length.
cor(iris_data[,1:4])
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
## Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
## Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
## Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
Interpretasi:
Terdapat korelasi kuat antara Petal Length dan Petal Width.
GGally::ggpairs(iris_data[,1:4])
Interpretasi:
Plot ini menunjukkan hubungan antar variabel numerik.
model_regresi <- lm(Petal.Length ~ Sepal.Length + Sepal.Width + Petal.Width,
data=iris_data)
summary(model_regresi)
##
## Call:
## lm(formula = Petal.Length ~ Sepal.Length + Sepal.Width + Petal.Width,
## data = iris_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.99333 -0.17656 -0.01004 0.18558 1.06909
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.26271 0.29741 -0.883 0.379
## Sepal.Length 0.72914 0.05832 12.502 <2e-16 ***
## Sepal.Width -0.64601 0.06850 -9.431 <2e-16 ***
## Petal.Width 1.44679 0.06761 21.399 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.319 on 146 degrees of freedom
## Multiple R-squared: 0.968, Adjusted R-squared: 0.9674
## F-statistic: 1473 on 3 and 146 DF, p-value: < 2.2e-16
Interpretasi:
Model regresi menunjukkan pengaruh variabel independen terhadap panjang
petal.
stargazer(model_regresi,
type="text",
title="Hasil Regresi Linear Berganda")
##
## Hasil Regresi Linear Berganda
## ===============================================
## Dependent variable:
## ---------------------------
## Petal.Length
## -----------------------------------------------
## Sepal.Length 0.729***
## (0.058)
##
## Sepal.Width -0.646***
## (0.068)
##
## Petal.Width 1.447***
## (0.068)
##
## Constant -0.263
## (0.297)
##
## -----------------------------------------------
## Observations 150
## R2 0.968
## Adjusted R2 0.967
## Residual Std. Error 0.319 (df = 146)
## F Statistic 1,472.726*** (df = 3; 146)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
plot(model_regresi$fitted.values,
model_regresi$residuals)
abline(h=0,col="red")
Interpretasi:
Jika residual menyebar acak maka asumsi linearitas terpenuhi.
hist(residuals(model_regresi),
col="lightblue")
qqnorm(residuals(model_regresi))
qqline(residuals(model_regresi),col="red")
shapiro.test(residuals(model_regresi))
##
## Shapiro-Wilk normality test
##
## data: residuals(model_regresi)
## W = 0.98875, p-value = 0.271
Interpretasi:
Jika p-value > 0.05 maka residual berdistribusi normal.
bptest(model_regresi)
##
## studentized Breusch-Pagan test
##
## data: model_regresi
## BP = 6.0391, df = 3, p-value = 0.1097
Interpretasi:
Jika p-value > 0.05 maka tidak terjadi heteroskedastisitas.
vif(model_regresi)
## Sepal.Length Sepal.Width Petal.Width
## 3.415733 1.305515 3.889961
Interpretasi:
Jika VIF < 10 maka tidak terdapat multikolinearitas.
dwtest(model_regresi)
##
## Durbin-Watson test
##
## data: model_regresi
## DW = 1.783, p-value = 0.07433
## alternative hypothesis: true autocorrelation is greater than 0
Interpretasi:
Jika p-value > 0.05 maka tidak terdapat autokorelasi.
par(mfrow=c(2,2))
plot(model_regresi)
Interpretasi:
Diagnostic plot digunakan untuk mengevaluasi model regresi.
Model regresi linear berganda mampu menjelaskan hubungan antara Petal Length dengan variabel Sepal Length, Sepal Width, dan Petal Width. Hasil pengujian asumsi menunjukkan model memenuhi asumsi regresi sehingga model layak digunakan.
Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems.