ANALISIS HUBUNGAN KARAKTERISTIK MORFOLOGI BUNGA IRIS MENGGUNAKAN MODEL REGRESI LINEAR BERGANDA

Mata Kuliah : Komputasi Statistika Lanjutan

Nama : Jelita Oktaviany Tria Setiawan

NIM : 24050123140164

Universitas : Universitas Diponegoro

07 March 2026

1 Pendahuluan

1.1 Latar Belakang

Analisis data merupakan salah satu metode penting dalam statistika yang digunakan untuk memahami pola serta hubungan antar variabel dalam suatu dataset. Salah satu dataset yang sering digunakan dalam pembelajaran statistika dan data science adalah dataset Iris yang diperkenalkan oleh Ronald A. Fisher pada tahun 1936. Dataset ini berisi data morfologi bunga iris yang terdiri dari tiga spesies yaitu setosa, versicolor, dan virginica. Setiap observasi memiliki empat variabel pengukuran yaitu Sepal Length, Sepal Width, Petal Length, dan Petal Width.

Melalui analisis terhadap dataset tersebut, dapat dipelajari hubungan antar karakteristik morfologi bunga iris serta pola keterkaitan antar variabel yang diamati. Salah satu metode statistika yang dapat digunakan untuk menganalisis hubungan tersebut adalah regresi linear berganda, yaitu metode yang digunakan untuk mengetahui pengaruh beberapa variabel independen terhadap satu variabel dependen.

Dengan menggunakan metode regresi linear berganda, hubungan antara variabel morfologi bunga iris dapat dianalisis secara lebih sistematis sehingga dapat diketahui variabel mana yang memiliki pengaruh terhadap panjang petal bunga iris. Oleh karena itu, analisis ini dilakukan untuk memahami hubungan antar variabel dalam dataset iris serta membangun model regresi yang dapat menjelaskan hubungan tersebut.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan, maka permasalahan yang akan dikaji dalam analisis ini berkaitan dengan bagaimana karakteristik data pada dataset iris serta bagaimana hubungan antar variabel morfologi bunga iris yang diamati. Selain itu, analisis ini juga berfokus pada bagaimana membangun model regresi linear berganda yang dapat menjelaskan hubungan antara variabel independen dengan variabel dependen yaitu Petal Length serta apakah model regresi yang terbentuk telah memenuhi asumsi dasar dalam analisis regresi.

1.3 Tujuan Penelitian

Tujuan dari analisis ini adalah untuk mendeskripsikan karakteristik dataset iris melalui analisis statistik deskriptif serta mengeksplorasi hubungan antar variabel yang terdapat dalam dataset tersebut. Selain itu, analisis ini juga bertujuan untuk membangun model regresi linear berganda guna mengetahui pengaruh variabel Sepal Length, Sepal Width, dan Petal Width terhadap variabel Petal Length. Selanjutnya, model regresi yang diperoleh akan dievaluasi melalui pengujian asumsi klasik regresi guna memastikan bahwa model yang dihasilkan layak digunakan dalam analisis.

1.4 Landasan Teori

1.4.1 Dataset Iris

Dataset Iris merupakan dataset klasik yang diperkenalkan oleh Ronald A. Fisher pada tahun 1936 dalam penelitian mengenai klasifikasi spesies bunga iris. Dataset ini terdiri dari 150 observasi dengan empat variabel numerik yang menggambarkan ukuran morfologi bunga serta satu variabel kategorik yang menunjukkan spesies bunga iris.

1.4.2 Regresi Linear Berganda

Regresi linear berganda merupakan metode analisis statistika yang digunakan untuk mengetahui hubungan antara satu variabel dependen dengan lebih dari satu variabel independen. Model regresi linear berganda dapat digunakan untuk mengetahui pengaruh masing-masing variabel independen terhadap variabel dependen serta memprediksi nilai variabel dependen berdasarkan variabel independen yang digunakan.

Secara umum model regresi linear berganda dapat dituliskan sebagai berikut:

\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_kX_k + \epsilon \]

dimana \(Y\) merupakan variabel dependen, \(X\) merupakan variabel independen, \(\beta\) merupakan koefisien regresi, dan \(\epsilon\) merupakan error.

2 Import Library

library(ggplot2)
library(car)
library(lmtest)
library(GGally)
library(stargazer)

3 Import Dataset

iris_data <- iris
head(iris_data)

Interpretasi:
Dataset iris memiliki 150 observasi dengan lima variabel.

4 Struktur Data

str(iris_data)
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

Interpretasi:
Empat variabel merupakan numerik dan satu variabel kategorik.

5 Statistik Deskriptif

summary(iris_data)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Interpretasi:
Statistik deskriptif menunjukkan nilai minimum, maksimum, mean, dan kuartil.

6 Visualisasi Data

ggplot(iris_data, aes(x=Sepal.Length, y=Petal.Length)) +
geom_point(color="#2c5282", size=3) +
geom_smooth(method="lm", color="#c53030") +
theme_classic()

Interpretasi:
Grafik menunjukkan hubungan positif antara Sepal Length dan Petal Length.

7 Analisis Korelasi

cor(iris_data[,1:4])
##              Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
## Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
## Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
## Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

Interpretasi:
Terdapat korelasi kuat antara Petal Length dan Petal Width.

8 Visualisasi Korelasi

GGally::ggpairs(iris_data[,1:4])

Interpretasi:
Plot ini menunjukkan hubungan antar variabel numerik.

9 Model Regresi Linear Berganda

model_regresi <- lm(Petal.Length ~ Sepal.Length + Sepal.Width + Petal.Width,
data=iris_data)

summary(model_regresi)
## 
## Call:
## lm(formula = Petal.Length ~ Sepal.Length + Sepal.Width + Petal.Width, 
##     data = iris_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.99333 -0.17656 -0.01004  0.18558  1.06909 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.26271    0.29741  -0.883    0.379    
## Sepal.Length  0.72914    0.05832  12.502   <2e-16 ***
## Sepal.Width  -0.64601    0.06850  -9.431   <2e-16 ***
## Petal.Width   1.44679    0.06761  21.399   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.319 on 146 degrees of freedom
## Multiple R-squared:  0.968,  Adjusted R-squared:  0.9674 
## F-statistic:  1473 on 3 and 146 DF,  p-value: < 2.2e-16

Interpretasi:
Model regresi menunjukkan pengaruh variabel independen terhadap panjang petal.

10 Tabel Hasil Regresi

stargazer(model_regresi,
type="text",
title="Hasil Regresi Linear Berganda")
## 
## Hasil Regresi Linear Berganda
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                            Petal.Length        
## -----------------------------------------------
## Sepal.Length                 0.729***          
##                               (0.058)          
##                                                
## Sepal.Width                  -0.646***         
##                               (0.068)          
##                                                
## Petal.Width                  1.447***          
##                               (0.068)          
##                                                
## Constant                      -0.263           
##                               (0.297)          
##                                                
## -----------------------------------------------
## Observations                    150            
## R2                             0.968           
## Adjusted R2                    0.967           
## Residual Std. Error      0.319 (df = 146)      
## F Statistic         1,472.726*** (df = 3; 146) 
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

11 Uji Asumsi Regresi

11.1 Linearitas

plot(model_regresi$fitted.values,
model_regresi$residuals)

abline(h=0,col="red")

Interpretasi:
Jika residual menyebar acak maka asumsi linearitas terpenuhi.

11.2 Normalitas Residual

hist(residuals(model_regresi),
col="lightblue")

qqnorm(residuals(model_regresi))
qqline(residuals(model_regresi),col="red")

11.2.1 Shapiro Test

shapiro.test(residuals(model_regresi))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_regresi)
## W = 0.98875, p-value = 0.271

Interpretasi:
Jika p-value > 0.05 maka residual berdistribusi normal.

11.3 Homoskedastisitas

bptest(model_regresi)
## 
##  studentized Breusch-Pagan test
## 
## data:  model_regresi
## BP = 6.0391, df = 3, p-value = 0.1097

Interpretasi:
Jika p-value > 0.05 maka tidak terjadi heteroskedastisitas.

11.4 Multikolinearitas

vif(model_regresi)
## Sepal.Length  Sepal.Width  Petal.Width 
##     3.415733     1.305515     3.889961

Interpretasi:
Jika VIF < 10 maka tidak terdapat multikolinearitas.

11.5 Independensi Residual

dwtest(model_regresi)
## 
##  Durbin-Watson test
## 
## data:  model_regresi
## DW = 1.783, p-value = 0.07433
## alternative hypothesis: true autocorrelation is greater than 0

Interpretasi:
Jika p-value > 0.05 maka tidak terdapat autokorelasi.

12 Diagnostic Plot

par(mfrow=c(2,2))
plot(model_regresi)

Interpretasi:
Diagnostic plot digunakan untuk mengevaluasi model regresi.

13 Kesimpulan

Model regresi linear berganda mampu menjelaskan hubungan antara Petal Length dengan variabel Sepal Length, Sepal Width, dan Petal Width. Hasil pengujian asumsi menunjukkan model memenuhi asumsi regresi sehingga model layak digunakan.

14 Daftar Pustaka

Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems.