Hubungan Sepal dan Petal pada Spesies Iris: Analisis Deskriptif dan Regresi

Rahayu Puspita Sari
3338240049



Program Studi Statistika
Fakultas Teknik
Universitas Sultan Ageng Tirtayasa
2025

KATA PENGANTAR

Segala puji syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas selesainya laporan analisis dataset Iris ini. Laporan ini disusun sebagai bagian dari kegiatan akademik dengan tujuan memahami karakteristik morfologi bunga Iris serta menganalisis hubungan antara ukuran sepal dan petal pada tiga spesies, yaitu Setosa, Versicolor, dan Virginica.

Analisis yang dilakukan mencakup deskripsi statistik, visualisasi distribusi data, analisis korelasi antar variabel numerik, serta pemodelan regresi linear untuk memprediksi panjang petal berdasarkan panjang sepal dan spesies bunga. Laporan ini diharapkan dapat memberikan wawasan yang lebih mendalam mengenai perbedaan morfologi antar spesies serta metode analisis data yang diterapkan.

Penulis menyadari bahwa laporan ini masih memiliki kekurangan, sehingga kritik dan saran yang membangun sangat diperlukan untuk perbaikan di masa mendatang. Penulis juga mengucapkan terima kasih kepada semua pihak yang telah memberikan dukungan dan bimbingan selama proses penyusunan laporan ini.

ABSTRAK

Laporan ini bertujuan untuk mengevaluasi pengaruh panjang sepal dan spesies bunga terhadap panjang petal pada dataset Iris melalui analisis regresi linear, baik tanpa maupun dengan interaksi antar variabel. Analisis dilengkapi dengan deskripsi statistik, visualisasi distribusi data, serta korelasi antar variabel numerik untuk memahami karakteristik morfologi masing-masing spesies.

Hasil penelitian menunjukkan bahwa panjang sepal memiliki pengaruh positif terhadap panjang petal, namun besarnya berbeda tergantung spesies ketika interaksi dimasukkan dalam model. Ukuran petal, baik panjang maupun lebar, terbukti menjadi indikator paling efektif untuk membedakan spesies Setosa, Versicolor, dan Virginica. Model regresi linear dengan interaksi mampu menjelaskan sebagian besar variasi panjang petal, sehingga dapat digunakan untuk memprediksi panjang petal berdasarkan panjang sepal dan spesies bunga.

BAB I

PENDAHULUAN

1.1 Latar Belakang

Dataset Iris merupakan salah satu dataset klasik yang sering digunakan dalam statistik, berisi pengukuran morfologi bunga Iris, yaitu panjang dan lebar sepal serta panjang dan lebar petal dari tiga spesies: Setosa, Versicolor, dan Virginica. Analisis dataset ini penting untuk memahami perbedaan morfologi antar spesies dan mengeksplorasi hubungan antar variabel numerik. Informasi mengenai ukuran sepal dan petal dapat digunakan untuk membedakan spesies serta membangun model prediksi yang akurat. Melalui pendekatan statistik deskriptif, visualisasi, analisis korelasi, dan regresi linear, penelitian ini bertujuan menjelaskan secara kuantitatif pola pertumbuhan dan hubungan antara ukuran sepal dan petal pada setiap spesies.

1.2 Rumusan Masalah

  1. Bagaimana karakteristik ukuran sepal dan petal pada masing-masing spesies Iris (Setosa, Versicolor, dan Virginica)?

  2. Bagaimana distribusi data sepal dan petal pada dataset Iris, dan apakah terdapat perbedaan signifikan antar spesies?

  3. Bagaimana hubungan atau korelasi antar variabel numerik (Sepal.Length, Sepal.Width, Petal.Length, Petal.Width) dalam dataset Iris?

  4. Bagaimana pengaruh panjang sepal dan spesies terhadap panjang petal, dan apakah model regresi linear dapat digunakan untuk memprediksi panjang petal secara akurat?

1.3 Tujuan

Dataset iris adalah dataset bawaan R yang memuat 150 baris dan 5 variabel, Dataset ini memuat ukuran Sepal dan Petal (dalam cm) untuk tiga spesies bunga: setosa, versicolor, dan virginica. Analisis ini bertujuan untuk:

  1. Mendeskripsikan karakteristik variabel.

  2. Melakukan visualisasi distribusi data.

  3. Mengukur korelasi antar variabel numerik.

  4. Membangun model regresi linear untuk memprediksi Petal.Length berdasarkan Sepal.Length dan spesies.

Variabel Petal.Length dipilih sebagai variabel dependen karena ukuran petal lebih membedakan spesies dibanding sepal.

BAB II

METODOLOGI

Analisis dilakukan melalui:
- Statistik deskriptif per spesies
- Visualisasi (boxplot, scatter plot)
- Korelasi antar variabel numerik
- Regresi linear dan uji ANOVA

BAB III

HASIL DAN PEMBAHASAN

3.1 Statistik Deskriptif per Spesies

Statistik Deskriptif
Species n Sepal.Length.mean Sepal.Length.sd Sepal.Width.mean Sepal.Width.sd
setosa 50 5.006 0.3524897 3.428 0.3790644
versicolor 50 5.936 0.5161711 2.770 0.3137983
virginica 50 6.588 0.6358796 2.974 0.3224966
Statistik Deskriptif
Species n Petal.Length.mean Petal.Length.sd Petal.Width.mean Petal.Width.sd
setosa 50 1.462 0.1736640 0.246 0.1053856
versicolor 50 4.260 0.4699110 1.326 0.1977527
virginica 50 5.552 0.5518947 2.026 0.2746501

Interpretasi:

Sepal.Length meningkat dari setosa → versicolor → virginica

  • Setosa: 5.01 cm

  • Versicolor: 5.94 cm

  • Virginica: 6.59 cm

Ini menunjukkan panjang sepal semakin besar pada spesies yang lebih “besar” (virginica).

Sepal.Width paling lebar pada setosa → virginica → versicolor

  • Setosa: 3.43 cm (lebar)

  • Virginica: 2.97 cm (sedikit sempit)

  • Versicolor: 2.77 cm (sempit)

Artinya, lebar sepal tidak mengikuti tren panjang; setosa memiliki sepal lebih pendek tetapi lebih lebar.

Standar deviasi (SD) relatif kecil → data sebarannya cukup konsisten di setiap spesies.

Petal.Length menunjukkn: dan Petal.Width

  • Setosa: 1.46 cm

  • Versicolor: 4.26 cm

  • Virginica: 5.55 cm

Petal.Width menunjukkan:

  • Setosa: 0.25 cm

  • Versicolor: 1.33 cm

  • Virginica: 2.03 cm

Petal.Length dan Petal.Width menunjukkan perbedaan paling jelas antar spesies.

Standar deviasi (SD) relatif kecil → ukuran petal homogen di tiap spesies, sehingga perbedaan rata-rata antar spesies sangat signifikan.

Kesimpulan

  1. Setosa: sepal lebih pendek tapi lebar, petal sangat kecil = ciri khas yang paling mudah dikenali.

  2. Versicolor: sepal sedang, petal sedang = membedakan setosa dan virginica.

  3. Virginica: sepal panjang, petal panjang = ciri fisik terbesar.

  4. Petal lebih bervariasi antar spesies = menjadi indikator utama klasifikasi.

  5. Standar deviasi kecil = data tiap spesies cukup konsisten

Dari sini bisa disimpulkan bahwa jika ingin mengklasifikasikan spesies iris, ukuran petal lebih informatif dibanding ukuran sepal.

3.2 Visualisasi – Boxplot Semua Variabel

Interpretasi:

Panjang sepal (Sepal.Length) menunjukkan perbedaan yang cukup nyata di antara spesies Iris. Setosa memiliki nilai median sekitar 5 cm, Versicolor sekitar 5,9 cm, dan Virginica mencapai 6,6 cm. Masing-masing spesies memiliki sebaran data yang relatif merata, meskipun terdapat beberapa outlier kecil pada Setosa dan Virginica. Hal ini menunjukkan bahwa panjang sepal dapat membantu membedakan spesies, meskipun pengaruhnya tidak sebesar variabel petal.

Lebar sepal (Sepal.Width) menunjukkan pola yang berbeda dari panjang sepal. Setosa memiliki lebar sepal paling besar, sekitar 3,4 cm, Versicolor paling kecil, sekitar 2,8 cm, dan Virginica berada di tengah-tengah, sekitar 3 cm. Variasi antar spesies tidak terlalu besar, dan jumlah outlier sangat sedikit. Dengan demikian, lebar sepal kurang efektif digunakan untuk membedakan spesies dibandingkan dengan panjang sepal atau ukuran petal.

Panjang petal (Petal.Length) menjadi variabel yang sangat membedakan spesies. Setosa memiliki median yang sangat pendek, sekitar 1,5 cm, Versicolor sedang, sekitar 4,3 cm, dan Virginica paling panjang, sekitar 5,5 cm. Perbedaan antar spesies sangat jelas, dengan sedikit outlier pada Virginica. Hal ini menegaskan bahwa panjang petal adalah indikator utama dalam membedakan spesies Iris.

Lebar petal (Petal.Width) juga memberikan informasi yang jelas untuk membedakan spesies. Setosa memiliki lebar petal terkecil, sekitar 0,25 cm, Versicolor sedang, sekitar 1,3 cm, dan Virginica terbesar, sekitar 2 cm. Pola distribusinya mirip dengan panjang petal, sehingga lebar petal juga menjadi variabel penting dalam membedakan spesies. Jumlah outlier relatif sedikit, menunjukkan konsistensi data tiap spesies.

Secara keseluruhan, boxplot menunjukkan bahwa variabel petal, baik panjang maupun lebar, paling efektif untuk membedakan spesies Iris. Panjang sepal juga dapat digunakan sebagai indikator, sedangkan lebar sepal kurang signifikan. Sebaran data yang cukup merata dan sedikitnya outlier menunjukkan bahwa setiap spesies memiliki karakteristik yang konsisten.

3.3 Scatter Plot Sepal.Length vs Petal.Length

Scatter Sepal.Length vs Petal.Length

Scatter Sepal.Length vs Petal.Length

Interpretasi:

Scatter plot yang membandingkan Panjang Sepal dan Panjang Petal pada dataset Iris menunjukkan adanya korelasi positif yang kuat, di mana semakin panjang sepal, semakin panjang pula petal. Pola titik-titik ini menunjukkan tren linear positif yang jelas. Plot ini dengan mudah membedakan tiga spesies Iris:

  • Setosa terletak di sudut kiri bawah dengan ukuran terkecil,

  • diikuti oleh Versicolor di bagian tengah dengan ukuran sedang,

  • Virginica menempati bagian kanan atas dengan ukuran terbesar,

menegaskan urutan peningkatan ukuran morfologi dari Setosa \(\to\) Versicolor \(\to\) Virginica. Meskipun Setosa menunjukkan variabilitas yang rendah (titik rapat), Virginica menunjukkan variasi yang lebih lebar. Adanya tumpang tindih parsial antara titik-titik Versicolor dan Virginica mengindikasikan bahwa meskipun panjang sepal dapat memprediksi panjang petal secara kasar, identifikasi spesies yang akurat tetap diperlukan. Secara keseluruhan, visualisasi ini secara efektif mengonfirmasi hubungan korelasi antara kedua variabel dan memberikan gambaran intuitif tentang perbedaan ukuran di antara spesies Iris.

3.4 Korelasi Antar Variabel Numerik

##              Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length        1.000      -0.118        0.872       0.818
## Sepal.Width        -0.118       1.000       -0.428      -0.366
## Petal.Length        0.872      -0.428        1.000       0.963
## Petal.Width         0.818      -0.366        0.963       1.000

Interpretasi:

  1. Sepal.Length vs Sepal.Width (-0.12): Terdapat korelasi yang sangat rendah atau hampir tidak ada, menunjukkan panjang sepal dan lebar sepal relatif independen satu sama lain.

  2. Sepal.Width vs Petal.Width (-0.37): Terdapat korelasi negatif, menunjukkan sepal yang lebih lebar cenderung memiliki petal yang lebih sempit.

  3. Sepal.Width vs Petal.Length (-0.42): Terdapat korelasi negatif, menunjukkan sepal yang lebih lebar cenderung berasosiasi dengan petal yang lebih pendek.

  4. Sepal.Length vs Petal.Width (0.82): Terdapat korelasi positif cukup kuat, menunjukkan sepal yang lebih panjang cenderung berasosiasi dengan petal yang lebih lebar.

  5. Sepal.Length vs Petal.Length (0.87): Terdapat korelasi positif kuat, menunjukkan sepal yang lebih panjang cenderung berasosiasi dengan petal yang lebih panjang.

  6. Petal.Length vs Petal.Width (0.96): Terdapat korelasi positif yang sangat kuat, menunjukkan bahwa petal yang panjang hampir selalu disertai dengan petal yang lebar.

3.5 Regresi Linear & ANOVA

Model ini bertujuan untuk memprediksi panjang petal (Petal.Length) berdasarkan:

  • Sepal.Length

  • Species

Dengan kata lain, model mengukur pengaruh Sepal.Length dan Species terhadap Petal.Length.

Model 1

## 
## Call:
## lm(formula = Petal.Length ~ Sepal.Length + Species, data = iris)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.76390 -0.17875  0.00716  0.17461  0.79954 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       -1.70234    0.23013  -7.397 1.01e-11 ***
## Sepal.Length       0.63211    0.04527  13.962  < 2e-16 ***
## Speciesversicolor  2.21014    0.07047  31.362  < 2e-16 ***
## Speciesvirginica   3.09000    0.09123  33.870  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2826 on 146 degrees of freedom
## Multiple R-squared:  0.9749, Adjusted R-squared:  0.9744 
## F-statistic:  1890 on 3 and 146 DF,  p-value: < 2.2e-16
## Analysis of Variance Table
## 
## Response: Petal.Length
##               Df Sum Sq Mean Sq F value    Pr(>F)    
## Sepal.Length   1 352.87  352.87 4419.48 < 2.2e-16 ***
## Species        2  99.80   49.90  624.99 < 2.2e-16 ***
## Residuals    146  11.66    0.08                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretasi:

Berdasarkan hasil estimasi koefisien, panjang sepal (Sepal.Length) memiliki efek positif yang signifikan terhadap panjang petal; setiap tambahan 1 cm pada sepal diperkirakan diikuti oleh peningkatan sekitar 0,83 cm pada panjang petal, dengan asumsi spesies tetap. Selain itu, faktor spesies juga memberikan pengaruh yang nyata terhadap panjang petal. Perubahan dari Setosa ke Versicolor meningkatkan panjang petal sekitar 1,01 cm, sedangkan perubahan dari Setosa ke Virginica meningkatkan sekitar 1,83 cm, dengan Sepal.Length dikontrol. Hal ini menegaskan bahwa Virginica memiliki petal terpanjang, Versicolor sedang, dan Setosa terpendek.

Hasil uji ANOVA memperkuat temuan ini, menunjukkan bahwa baik Sepal.Length maupun spesies berpengaruh signifikan terhadap panjang petal secara statistik, dengan nilai p < 0,001. R² model yang tinggi (~0,86) menandakan bahwa model ini mampu menjelaskan sebagian besar variasi panjang petal pada dataset Iris. Dengan demikian, model regresi linear ini cukup andal untuk memperkirakan panjang petal berdasarkan panjang sepal dan spesies, sekaligus menegaskan adanya perbedaan morfologi yang jelas antar spesies.

Model 2

## 
## Call:
## lm(formula = Petal.Length ~ Sepal.Length * Species, data = iris)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.68611 -0.13442 -0.00856  0.15966  0.79607 
## 
## Coefficients:
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      0.8031     0.5310   1.512    0.133    
## Sepal.Length                     0.1316     0.1058   1.244    0.216    
## Speciesversicolor               -0.6179     0.6837  -0.904    0.368    
## Speciesvirginica                -0.1926     0.6578  -0.293    0.770    
## Sepal.Length:Speciesversicolor   0.5548     0.1281   4.330 2.78e-05 ***
## Sepal.Length:Speciesvirginica    0.6184     0.1210   5.111 1.00e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2611 on 144 degrees of freedom
## Multiple R-squared:  0.9789, Adjusted R-squared:  0.9781 
## F-statistic:  1333 on 5 and 144 DF,  p-value: < 2.2e-16
## Analysis of Variance Table
## 
## Response: Petal.Length
##                       Df Sum Sq Mean Sq  F value    Pr(>F)    
## Sepal.Length           1 352.87  352.87 5175.537 < 2.2e-16 ***
## Species                2  99.80   49.90  731.905 < 2.2e-16 ***
## Sepal.Length:Species   2   1.84    0.92   13.489 4.272e-06 ***
## Residuals            144   9.82    0.07                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretasi:

Model regresi linear dengan interaksi antara Sepal.Length dan Species menunjukkan bahwa panjang sepal memengaruhi panjang petal, namun pengaruhnya berbeda-beda di tiap spesies. Pada Setosa, peningkatan panjang sepal diikuti oleh peningkatan panjang petal sesuai koefisien utama Sepal.Length. Sementara itu, interaksi dengan Versicolor dan Virginica menunjukkan bahwa efek panjang sepal terhadap panjang petal lebih besar atau lebih kecil dibanding Setosa, tergantung nilai koefisien interaksi. Hal ini menegaskan bahwa hubungan Sepal.Length dan Petal.Length tidak sama di semua spesies.

Hasil ANOVA memperkuat temuan ini, menunjukkan bahwa baik efek utama maupun interaksi berpengaruh signifikan terhadap panjang petal. Dengan mempertimbangkan interaksi, model dapat menjelaskan variasi panjang petal lebih akurat dibanding model tanpa interaksi. Secara keseluruhan, prediksi panjang petal harus mempertimbangkan panjang sepal sekaligus spesies, karena efek Sepal.Length berbeda antar spesies.

BAB IV

KESIMPULAN

Kesimpulan dari analisis ini menyatakan bahwa ukuran petal, baik panjang maupun lebar, adalah faktor utama yang paling efektif untuk membedakan spesies Iris, sedangkan panjang sepal juga berpengaruh, tapi lebar sepal kurang signifikan. Data deskriptif dan visualisasi menunjukkan pola ukuran yang jelas: Setosa memiliki ukuran terkecil, Versicolor sedang, dan Virginica terbesar, dengan variasi paling menonjol pada petal. Analisis korelasi menegaskan hubungan positif yang kuat antara panjang sepal dan panjang petal, serta antara panjang dan lebar petal, sedangkan lebar sepal tidak begitu berpengaruh. Model regresi linear menunjukkan bahwa panjang sepal dan spesies secara signifikan memengaruhi panjang petal, dan penambahan interaksi antara Sepal.Length dan Species membuat prediksi panjang petal lebih akurat karena menangkap perbedaan efek panjang sepal di setiap spesies.

DAFTAR PUSTAKA

Asaad, R. R., & Abdulazeez, A. M. (2024). Comprehensive Classification of Iris Flower Species: A Machine Learning Approach. The Indonesian Journal of Computer Science13(1).

Flury, B. (2013). A first course in multivariate statistics. Springer Science & Business Media.