Abstrak

Analisis terhadap dataset Iris dilakukan untuk memahami karakteristik morfologi tiga spesies bunga, yaitu setosa, versicolor, dan virginica. Metode yang digunakan mencakup statistika deskriptif, visualisasi data, korelasi, dan uji ANOVA satu arah. Hasil analisis menunjukkan bahwa variabel petal memiliki variasi paling besar dan mampu membedakan spesies secara jelas, terutama antara setosa dan dua spesies lainnya.

Visualisasi memperlihatkan pola distribusi yang kuat pada variabel petal, sedangkan korelasi menunjukkan hubungan linear yang tinggi antara petal length dan petal width dengan koefisien mencapai 0.96. Uji ANOVA mengonfirmasi bahwa seluruh variabel numerik memiliki perbedaan signifikan antar spesies (p-value < 0.05), dengan variabel petal memberikan pengaruh terbesar.

Secara keseluruhan, hasil analisis menunjukkan bahwa variabel petal merupakan indikator paling efektif dalam membedakan spesies Iris, dan dataset ini sangat sesuai digunakan sebagai media pembelajaran analisis data.

1. Pendahuluan

1.1 Latar Belakang

Dataset Iris merupakan salah satu dataset klasik yang banyak digunakan dalam pembelajaran statistik dan ilmu data. Dataset ini pertama kali diperkenalkan oleh Ronald Fisherpada tahun 1936 dan telah menjadi standar untuk pengujian berbagai algoritma klasifikasi dan analisis statistika. Dataset ini berisi empat variabel numerik yaitu Sepal Length, Sepal Width, Petal Length, dan Petal Width serta satu variabel kategorik yaitu Species yang terdiri dari tiga jenis bunga: setosa, versicolor, dan virginica. Tujuan analisis ini adalah memberikan gambaran umum mengenai karakteristik data melalui statistika deskriptif, visualisasi, analisis korelasi, serta uji ANOVA.

Analisis yang dilakukan pada dataset ini mencakup beberapa metode penting. Pertama, statistika deskriptif digunakan untuk memberikan gambaran awal mengenai karakteristik setiap variabel, seperti nilai minimum, maksimum, rata-rata, dan standar deviasi. Pendekatan ini membantu memahami pola dasar dan sebaran data sebelum dilakukan analisis lebih lanjut.

Kedua, dilakukan visualisasi data berupa histogram, boxplot, dan scatter plot. Histogram dan boxplot membantu melihat distribusi dan persebaran data serta mendeteksi adanya pencilan. Sementara itu, scatter plot digunakan untuk melihat pola hubungan antarvariabel secara visual sehingga dapat memberikan insight awal mengenai potensi korelasi.

Selanjutnya, analisis korelasi dilakukan untuk mengukur seberapa kuat dan arah hubungan antar variabel numerik dalam dalam dataset. Korelasi membantu mengidentifikasi pasangan variabel yang memiliki keterkaitan kuat, seperti hubungan antara Petal Length dan Petal Width, yang sering kali menunjukkan pola linear yang cukup jelas.

Terakhir, uji ANOVA dilakukan untuk menentukan apakah terdapat perbedaan rata-rata di antara spesies pada variabel tertentu. Dengan menggunakan ANOVA, analisis bisa menunjukkan apakah karakteristik morfologis seperti Sepal Length atau Petal Width menunjukkan perbedaan signifikan antara setosa, versicolor, dan virginica.

Dengan menggabungkan statistika deskriptif, visualisasi, korelasi, dan ANOVA, analisis terhadap dataset Iris menjadi lebih komprehensif dan mampu memberikan pemahaman menyeluruh mengenai struktur dan pola data yang terdapat di dalamnya.

1.2 Rumusan Masalah

  1. Bagaimana karakteristik statistika deskriptif dari variabel morfologi bunga Iris, yaitu Sepal Length, Sepal Width, Petal Length, dan Petal Width?
  2. Bagaimana pola distribusi data pada setiap variabel morfologi melalui visualisasi berupa histogram, boxplot, dan scatter plot?
  3. Seberapa kuat hubungan antar variabel numerik pada dataset Iris berdasarkan analisis korelasi Pearson?
  4. Apakah terdapat perbedaan rata-rata yang signifikan antar spesies (setosa, versicolor, virginica) pada masing-masing variabel morfologi berdasarkan hasil uji ANOVA satu arah?
  5. Variabel morfologi apa yang paling efektif dalam membedakan ketiga spesies bunga Iris?

1.3 Tujuan

  1. Menganalisis karakteristik statistika deskriptif dari variabel morfologi bunga Iris (Sepal Length, Sepal Width, Petal Length, dan Petal Width) untuk mengetahui gambaran umum ukuran dan variasi antar spesies.
  2. Menggambarkan dan mengevaluasi pola distribusi data pada setiap variabel morfologi melalui visualisasi histogram, boxplot, dan scatter plot sehingga memberikan pemahaman visual mengenai perbedaan dan pola sebaran antar spesies.
  3. Mengukur kekuatan hubungan antar variabel numerik pada dataset Iris dengan menggunakan analisis korelasi Pearson untuk mengidentifikasi pasangan variabel yang memiliki keterkaitan paling kuat.
  4. Mengetahui adanya perbedaan rata-rata yang signifikan antar spesies Iris (setosa, versicolor, dan virginica) pada masing-masing variabel morfologi melalui uji ANOVA satu arah.
  5. Menentukan variabel morfologi yang paling efektif dalam membedakan ketiga spesies bunga Iris, berdasarkan hasil statistika deskriptif, visualisasi, korelasi, dan uji ANOVA.

2. Metode Analisis

Pada penelitian ini, analisis dilakukan menggunakan dataset Iris dengan bantuan perangkat lunak RStudio. Terdapat empat metode analisis utama yang digunakan, yaitu statistika deskriptif, visualisasi data, analisis korelasi, dan uji ANOVA. Setiap metode memiliki tujuan yang berbeda namun saling melengkapi dalam memberikan gambaran menyeluruh mengenai karakteristik data.

2.1 Statistika Deskriptif

Analisis statistika deskriptif digunakan untuk memperoleh ringkasan informasi dasar dari setiap variabel numerik, seperti nilai minimum, maksimum, rata-rata, median, dan standar deviasi. Langkah ini penting sebagai tahap awal karena membantu memahami kondisi umum data serta mendeteksi adanya nilai ekstrem atau ketidakwajaran sebelum dilakukan analisis lanjutan.

2.2 Visualisasi Data (Histogram, Boxplot, dan Scatter Plot)

Metode visualisasi digunakan untuk melihat pola distribusi dan hubungan antar variabel secara lebih jelas.

  • Histogram dipakai untuk melihat bentuk distribusi variabel numerik, apakah simetris, miring, atau memiliki pola tertentu.
  • Boxplot digunakan untuk mengamati persebaran data dan mendeteksi pencilan pada masing-masing variabel.
  • Scatter plot digunakan untuk menggambarkan hubungan antar variabel numerik, sehingga dapat terlihat pola linear atau pola lain yang mungkin muncul di antara pasangan variabel tertentu.

Visualisasi ini membantu mendukung interpretasi dan memberikan gambaran visual yang lebih mudah dipahami.

2.3 Analisis Korelasi

Analisis korelasi dilakukan untuk mengukur seberapa kuat hubungan antar variabel numerik. Koefisien korelasi Pearson digunakan karena dataset Iris memiliki variabel numerik kontinu. Hasil korelasi ini membantu mengidentifikasi pasangan variabel yang saling berkaitan kuat, yang kemudian dapat digunakan sebagai dasar untuk interpretasi dan analisis lebih lanjut.

2.4 Uji ANOVA

Uji ANOVA (Analysis of Variance) digunakan untuk mengetahui apakah terdapat perbedaan rata-rata antar kelompok spesies (setosa, versicolor, dan virginica) pada variabel tertentu. Uji ini dilakukan secara satu arah (One-way ANOVA) untuk setiap variabel numerik. Jika hasil ANOVA menunjukkan perbedaan yang signifikan, maka dapat disimpulkan bahwa karakteristik morfologis tertentu memang berbeda antar spesies.

3. Hasil dan Pembahasan

3.1 Statistik Deskriptif

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500
## Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
##    0.8280661    0.4358663    1.7652982    0.7622377

Pembahasan

Hasil statistika deskriptif untuk keempat variabel morfologi bunga pada dataset iris—Sepal Length, Sepal Width, Petal Length, dan Petal Width memberikan gambaran awal mengenai karakteristik distribusi dan penyebaran data. Analisis ini mencakup nilai minimum, kuartil, median, mean (rata-rata), maksimum, serta standar deviasi dari masing-masing variabel.

1. Sepal Length

Nilai Sepal Length berkisar antara 4.3 cm hingga 7.9 cm. Nilai median 5.8 dan mean 5.843 menunjukkan bahwa distribusi panjang sepal relatif seimbang (tidak terlalu menceng). Rentang datanya cukup lebar, mencerminkan variasi panjang sepal antar spesies.
Standar deviasi sebesar 0.828 menunjukkan bahwa penyebaran nilai sepal Lenght berada pada tingkat sedang. Variabel ini memiliki variasi yang cukup, namun tidak setajam variabel petal.

2. Sepal Width

Sepal Width memiliki nilai minimum 2.0 cm dan maksimum 4.4 cm. Median dan mean masing-masing adalah 3.0 dan 3.057, menunjukkan bahwa distribusinya sangat dekat dengan simetris.
Standar deviasi sebesar 0.436 jauh lebih kecil dibandingkan variabel lain, sehingga menunjukkan bahwa lebar sepal tidak terlalu bervariasi antar spesies maupun antar bunga dalam dataset. Variabel ini cenderung lebih stabil dan kurang menjadi pembeda utama antar spesies.

3. Petal Length

Petal Length memiliki rentang nilai dari 1.0 cm hingga 6.9 cm, menunjukkan variasi yang sangat besar. Median bernilai 4.35 cm dan mean 3.758 cm, menunjukkan distribusi yang sedikit menceng ke kiri karena banyaknya nilai kecil dari spesies setosa.
Standar deviasinya 1.766, paling besar di antara semua variabel, menandakan bahwa panjang petal memiliki variasi paling tinggi antar bunga. Variabilitas besar ini menggambarkan perbedaan mencolok antar spesies, terutama antara setosa yang memiliki petal sangat pendek dibandingkan dua spesies lainnya.

4. Petal Width

Variabel ini memiliki nilai minimum 0.1 cm dan maksimum 2.5 cm. Mean sebesar 1.199 cm dan median 1.3 cm menunjukkan distribusi yang sedikit miring ke kiri.
Standar deviasi 0.762 juga cukup besar, menunjukkan adanya variasi kuat antar spesies. Sama seperti Petal Length, Petal Width juga menjadi indikator kuat dalam membedakan spesies karena adanya selisih yang tajam antara setosa dan dua spesies lainnya.

3.2 Histogram

Pembahasan

Keempat histogram pada dataset iris memberikan gambaran umum mengenai pola distribusi setiap variabel morfologi bunga.

Pada histogram Sepal Length, distribusi data terlihat menyebar cukup lebar dengan pola yang mendekati normal. Nilai yang paling sering muncul berada di kisaran 5.5 hingga 6.0 cm, serta tidak menunjukkan adanya pencilan ekstrem. Variasi yang luas ini mencerminkan perbedaan ukuran sepal antar spesies.

Selanjutnya, histogram Sepal Width memperlihatkan distribusi yang relatif simetris dengan satu puncak utama. Nilai sepal width paling banyak ditemukan di sekitar 3.0 cm. Distribusi ini memiliki penyebaran yang lebih sempit dibandingkan sepal length, sehingga menunjukkan bahwa ukuran sepal width cenderung lebih seragam.

Pada variabel Petal Length, pola distribusi tampak jelas terbagi dalam dua kelompok. Hal ini disebabkan oleh adanya perbedaan ukuran petal yang signifikan antara spesies setosa yang memiliki petal kecil dan dua spesies lainnya yang memiliki petal lebih panjang. Distribusi terlihat menceng ke kanan, menandakan adanya data yang terkumpul di nilai kecil kemudian meningkat tajam pada nilai yang lebih besar.

Histogram Petal Width menunjukkan pola yang sangat mirip dengan petal length, yaitu adanya dua cluster yang terpisah. Kelompok pertama berada pada kisaran 0 hingga 0.5 cm, sedangkan kelompok kedua berada di kisaran 1.0 hingga 2.5 cm. Distribusi ini juga menceng ke kanan, sehingga mempertegas bahwa variabel petal merupakan pembeda yang sangat kuat antar spesies.

Secara umum, histogram untuk variabel sepal menunjukkan distribusi yang lebih konsisten dan hampir normal, sementara variabel petal menunjukkan perbedaan yang jelas antara spesies. Ini menunjukkan bahwa panjang petal dan lebar petal adalah dua variabel paling signifikan dalam membedakan spesies di dalam dataset iris.

3.3 Boxplot per Spesies

Pembahasan

Boxplot menunjukkan bahwa perbedaan ukuran petal antar spesies sangat jelas. Setosa memiliki petal length dan petal width yang paling kecil dan tidak tumpang tindih dengan dua spesies lain. Sementara itu, Versicolor dan Virginica memiliki petal yang lebih besar, dengan Virginica sebagai yang terbesar.

Untuk sepal length dan sepal width, perbedaannya tidak setegas petal. Sepal antar spesies memiliki rentang yang lebih tumpang tindih, sehingga kurang efektif untuk membedakan spesies.

Secara keseluruhan, variabel petal merupakan indikator paling kuat dalam memisahkan spesies iris, sesuai pola yang tampak pada boxplot.

3.4 Scatter Plot

Pembahasan

Scatter plot berikut menampilkan hubungan antara dua pasang variabel morfologi pada dataset Iris, yaitu Sepal Length vs Sepal Width dan Petal Length vs Petal Width. Kedua grafik menunjukkan pola hubungan yang berbeda sehingga memberikan informasi penting mengenai karakteristik setiap variabel.

1. Scatter Plot Sepal Length vs Sepal Width

Pada scatter plot pertama, persebaran titik terlihat cukup acak dan tidak membentuk pola linear yang jelas. Hal ini menunjukkan bahwa Sepal Length dan Sepal Width tidak memiliki hubungan yang kuat. Nilai panjang sepal tidak berkaitan dengan lebar sepal, sehingga kedua variabel ini cenderung berkembang secara independen. Selain itu, persebaran data yang tumpang tindih mengindikasikan bahwa variabel sepal kurang efektif digunakan untuk membedakan spesies Iris.

2. Scatter Plot Petal Length vs Petal Width

Scatter plot kedua menunjukkan pola yang jauh lebih jelas. Titik-titik data membentuk garis kecenderungan positif, menandakan bahwa semakin panjang petal suatu bunga, semakin lebar pula petalnya. Hubungan linear yang kuat ini sejalan dengan tingginya nilai korelasi antara kedua variabel tersebut. Selain itu, terlihat tiga kelompok data yang terpisah dengan baik, mencerminkan perbedaan ukuran petal antar spesies setosa, versicolor, dan virginica. Pola pemisahan yang tegas menunjukkan bahwa variabel petal merupakan indikator yang sangat efektif dalam membedakan spesies.

Kesimpulan

Dari kedua scatter plot tersebut, dapat disimpulkan bahwa: - Variabel sepal tidak memiliki hubungan yang kuat dan kurang mampu membedakan spesies. - Variabel petal memiliki hubungan positif yang kuat dan menunjukkan pemisahan spesies yang jelas.

3.5 Korelasi

##              Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
## Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
## Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
## Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

Pembahasan

Tabel korelasi di atas menunjukkan hubungan antarempat variabel morfologi utama pada dataset iris, yaitu Sepal Length, Sepal Width, Petal Length, dan Petal Width. Koefisien korelasi Pearson bernilai
antara -1 hingga 1, di mana nilai mendekati 1 menunjukkan hubungan positif yang kuat, nilai mendekati -1 menunjukkan hubungan negatif yang kuat, dan nilai mendekati 0 menunjukkan hubungan yang lemah atau tidak ada hubungan.

Berdasarkan matriks korelasi tersebut, dapat diberikan beberapa interpretasi:

1. Korelasi antara Petal Length dan Petal Width (0.9629)

Hubungan antara kedua variabel ini sangat kuat dan positif.
Nilai korelasinya mendekati 1, artinya semakin panjang petal suatu bunga, semakin lebar pula ukuran petalnya. Pola ini konsisten dengan karakteristik morfologi bunga iris: spesies dengan petal panjang (seperti virginica) juga cenderung memiliki petal yang lebih lebar.

Korelasi yang sangat tinggi ini juga menjelaskan mengapa variabel petal menjadi indikator kuat untuk membedakan spesies. Keduanya bergerak searah, menunjukkan struktur morfologi yang sangat konsisten.

2. Korelasi antara Sepal Length dan Petal Length (0.8718)

Nilai korelasi ini menunjukkan hubungan positif yang kuat. Artinya, bunga dengan sepal lebih panjang juga cenderung memiliki petal yang lebih panjang. Walaupun tidak sekuat hubungan antara variabel petal, pola hubungan ini cukup jelas dan mendukung bahwa ukuran keseluruhan bunga meningkat secara proporsional pada spesies yang lebih besar, seperti virginica.

3. Korelasi antara Sepal Length dan Petal Width (0.8179)

Hubungan positif yang kuat kembali terlihat antara panjang sepal dan lebar petal. Korelasi ini mengindikasikan bahwa bunga dengan sepal panjang juga memiliki petal yang lebih lebar. Meski berada sedikit di bawah nilai korelasi sebelumnya, hubungan ini tetap menunjukkan pola pertumbuhan morfologi yang konsisten antarvariabel.

4. Korelasi antara Sepal Width dan variabel petal (-0.4284 dan -0.3661)

Sepal Width memiliki korelasi negatif terhadap kedua variabel petal. Hubungan negatif ini berarti bunga dengan lebar sepal yang lebih besar cenderung memiliki petal yang lebih kecil. Namun, nilai korelasinya tidak terlalu besar, sehingga hubungan ini tergolong sedang–lemah.

Hal ini menunjukkan bahwa lebar sepal tidak sejalan dengan ukuran petal, dan dapat bervariasi antar spesies tanpa mengikuti pola yang kuat.

5. Korelasi antara Sepal Length dan Sepal Width (-0.1176)

Korelasi ini lemah dan sedikit negatif, yang berarti panjang dan lebar sepal tidak memiliki hubungan yang berarti. Bunga dengan sepal panjang tidak selalu memiliki sepal yang lebih lebar; kedua ukuran tersebut tampaknya berkembang secara independen.

3.6 Uji ANOVA

## [[1]]
##               Df Sum Sq Mean Sq F value Pr(>F)    
## iris$Species   2  63.21  31.606   119.3 <2e-16 ***
## Residuals    147  38.96   0.265                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## [[2]]
##               Df Sum Sq Mean Sq F value Pr(>F)    
## iris$Species   2  11.35   5.672   49.16 <2e-16 ***
## Residuals    147  16.96   0.115                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## [[3]]
##               Df Sum Sq Mean Sq F value Pr(>F)    
## iris$Species   2  437.1  218.55    1180 <2e-16 ***
## Residuals    147   27.2    0.19                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## [[4]]
##               Df Sum Sq Mean Sq F value Pr(>F)    
## iris$Species   2  80.41   40.21     960 <2e-16 ***
## Residuals    147   6.16    0.04                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Pembahasan

Hasil uji ANOVA pada keempat variabel—Sepal Length, Sepal Width, Petal Length, dan Petal Width—menunjukkan pola yang sangat jelas bahwa
terdapat perbedaan yang signifikan antar tiga spesies bunga Iris, yaitu setosa, versicolor, dan virginica. Pada setiap output ANOVA, nilai p-value jauh lebih kecil dari 0.05, bahkan mendekati 0 ( < 2e-16 ), yang berarti bahwa perbedaan rata-rata antar kelompok sangat kuat secara
statistik.

Secara rinci, pembahasan masing-masing variabel adalah sebagai berikut:

1. Sepal Length

Variabel Sepal Length menunjukkan nilai F yang cukup besar dan p-value yang sangat kecil. Hal ini menandakan bahwa rata-rata panjang sepal berbeda secara signifikan antar ketiga spesies. Spesies virginica cenderung memiliki
Sepal Length paling besar, disusul versicolor, dan setosa sebagai yang paling kecil. Walaupun perbedaannya signifikan, rentang nilainya masih sedikit tumpang tindih antar spesies sehingga variabel ini bukan pemisah terbaik.

2. Sepal Width

Sepal Width juga menunjukkan perbedaan signifikan antar spesies, meskipun nilai F yang dihasilkan jauh lebih kecil dibandingkan variabel lain. Variasi Sepal Width lebih tumpang tindih antar spesies, sehingga secara praktis variabel ini tidak sekuat variabel petal dalam membedakan spesies.
Namun, secara statistik tetap terbukti ada perbedaan rata-rata antar kelompok.

3. Petal Length

Petal Length memiliki nilai F yang sangat besar dan p-value yang mendekati 0, menunjukkan perbedaan yang sangat kuat antar spesies. Spesies setosa memiliki nilai Petal Length yang jauh lebih kecil dibandingkan versicolor dan virginica, dan tidak ada tumpang tindih antar rentang nilainya. Ini menjadikan Petal Length sebagai salah satu variabel paling informatif untuk membedakan spesies iris.

4. Petal Width

Hasil ANOVA untuk Petal Width bahkan lebih ekstrem. Nilai F yang sangat tinggi dan p-value yang hampir 0 menunjukkan bahwa variabel ini paling kuat dalam membedakan spesies. Sama seperti Petal Length, setosa memiliki nilai yang
jauh lebih kecil, sedangkan versicolor dan virginica memiliki nilai yang lebih besar dengan pola pemisahan yang sangat jelas.

4. Kesimpulan

Berdasarkan analisis yang dilakukan terhadap dataset iris menggunakan statistika deskriptif, visualisasi data, analisis korelasi, dan uji ANOVA, dapat disimpulkan bahwa masing-masing metode memberikan informasi yang saling melengkapi dalam memahami karakteristik morfologis bunga Iris setosa, versicolor, dan virginica. Hasil analisis menunjukkan bahwa terdapat pola-pola yang jelas dan teratur pada variabel-variabel numerik, terutama pada variabel petal yang menjadi pembeda paling kuat antara ketiga spesies.

Dari statistika deskriptif diperoleh gambaran bahwa ukuran petal memiliki variasi yang lebih besar dibandingkan sepal. Variabilitas yang tinggi pada petal menunjukkan adanya perbedaan morfologi yang tajam antar spesies, terutama antara setosa dan dua spesies lainnya. Hal ini diperkuat oleh hasil visualisasi histogram yang memperlihatkan dua kluster yang jelas pada variabel Petal Length dan Petal Width, di mana setosa berada pada kelompok nilai kecil sedangkan versicolor dan virginica berada pada kelompok nilai lebih besar.

Visualisasi boxplot juga menunjukkan pemisahan yang tegas pada variabel petal. Spesies setosa memiliki rentang nilai petal yang sangat kecil dan tidak tumpang tindih dengan versicolor ataupun virginica. Sebaliknya, variabel sepal menunjukkan perbedaan antar spesies yang lebih samar karena nilai-nilainya saling tumpang tindih, sehingga variabel sepal kurang efektif untuk membedakan spesies secara jelas.

Analisis scatter plot dan korelasi menunjukkan bahwa Petal Length dan Petal Width memiliki hubungan linear yang sangat kuat. Kedua variabel ini bergerak searah dan membentuk pola hubungan paling jelas dibandingkan pasangan variabel lainnya. Sementara itu, Sepal Width memiliki korelasi paling lemah dengan ketiga variabel lainnya, menandakan bahwa lebar sepal bukan indikator utama dalam membedakan spesies.

Hasil uji ANOVA semakin menguatkan temuan sebelumnya. Keempat variabel utama Sepal Length, Sepal Width, Petal Length, dan Petal Width menunjukkan perbedaan rata-rata yang signifikan antar spesies, dengan nilai p yang sangat kecil. Namun, variabel petal kembali muncul sebagai faktor paling kuat dalam membedakan spesies, konsisten dengan hasil visualisasi dan analisis korelasi.

Secara keseluruhan, seluruh hasil analisis menunjukkan bahwa variabel petal merupakan indikator paling efektif dan dominan dalam membedakan ketiga spesies iris. Dataset iris terbukti sangat informatif dan cocok dijadikan media pembelajaran dalam statistika dan ilmu data karena pola-pola yang jelas serta hubungan variabel yang mudah diinterpretasikan.

Daftar Pustaka

Rahman, B., Fauzi, F., & Amri, S. (2023). Perbandingan Hasil Klasifikasi Data Iris menggunakan Algoritma K-Nearest Neighbor dan Random Forest: Comparison of Iris Data Classification Results using the K-Nearest Neighbor and Random Forest Algorithms. Journal Of Data Insights, 1(1), 19–26.

Syahputra, A., Riansyah, R., Aptanta, D. A., Farhan, M., & Furqan, M. (2025). Klasifikasi Jenis Bunga Iris Menggunakan Algoritma Klasifikasi Tradisional. Jurnal Ilmiah Sistem Informasi dan Ilmu Komputer, 5(2), 207–213.

Efendi, M. H., Pratama, W. S., & Daniati, E. (2025, July). Analisis Klasifikasi Spesies Bunga Iris Menggunakan Algoritma K-Nearest Neighbors. In Prosiding SEMNAS INOTEK (Seminar Nasional Inovasi Teknologi) (Vol. 9, No. 3, pp. 1798–1804).