Analisis terhadap dataset Iris dilakukan untuk memahami karakteristik morfologi tiga spesies bunga, yaitu setosa, versicolor, dan virginica. Metode yang digunakan mencakup statistika deskriptif, visualisasi data, korelasi, dan uji ANOVA satu arah. Hasil analisis menunjukkan bahwa variabel petal memiliki variasi paling besar dan mampu membedakan spesies secara jelas, terutama antara setosa dan dua spesies lainnya.
Visualisasi memperlihatkan pola distribusi yang kuat pada variabel petal, sedangkan korelasi menunjukkan hubungan linear yang tinggi antara petal length dan petal width dengan koefisien mencapai 0.96. Uji ANOVA mengonfirmasi bahwa seluruh variabel numerik memiliki perbedaan signifikan antar spesies (p-value < 0.05), dengan variabel petal memberikan pengaruh terbesar.
Secara keseluruhan, hasil analisis menunjukkan bahwa variabel petal merupakan indikator paling efektif dalam membedakan spesies Iris, dan dataset ini sangat sesuai digunakan sebagai media pembelajaran analisis data.
Dataset Iris merupakan salah satu dataset klasik yang banyak digunakan dalam pembelajaran statistik dan ilmu data. Dataset ini pertama kali diperkenalkan oleh Ronald Fisherpada tahun 1936 dan telah menjadi standar untuk pengujian berbagai algoritma klasifikasi dan analisis statistika. Dataset ini berisi empat variabel numerik yaitu Sepal Length, Sepal Width, Petal Length, dan Petal Width serta satu variabel kategorik yaitu Species yang terdiri dari tiga jenis bunga: setosa, versicolor, dan virginica. Tujuan analisis ini adalah memberikan gambaran umum mengenai karakteristik data melalui statistika deskriptif, visualisasi, analisis korelasi, serta uji ANOVA.
Analisis yang dilakukan pada dataset ini mencakup beberapa metode penting. Pertama, statistika deskriptif digunakan untuk memberikan gambaran awal mengenai karakteristik setiap variabel, seperti nilai minimum, maksimum, rata-rata, dan standar deviasi. Pendekatan ini membantu memahami pola dasar dan sebaran data sebelum dilakukan analisis lebih lanjut.
Kedua, dilakukan visualisasi data berupa histogram, boxplot, dan scatter plot. Histogram dan boxplot membantu melihat distribusi dan persebaran data serta mendeteksi adanya pencilan. Sementara itu, scatter plot digunakan untuk melihat pola hubungan antarvariabel secara visual sehingga dapat memberikan insight awal mengenai potensi korelasi.
Selanjutnya, analisis korelasi dilakukan untuk mengukur seberapa kuat dan arah hubungan antar variabel numerik dalam dalam dataset. Korelasi membantu mengidentifikasi pasangan variabel yang memiliki keterkaitan kuat, seperti hubungan antara Petal Length dan Petal Width, yang sering kali menunjukkan pola linear yang cukup jelas.
Terakhir, uji ANOVA dilakukan untuk menentukan apakah terdapat perbedaan rata-rata di antara spesies pada variabel tertentu. Dengan menggunakan ANOVA, analisis bisa menunjukkan apakah karakteristik morfologis seperti Sepal Length atau Petal Width menunjukkan perbedaan signifikan antara setosa, versicolor, dan virginica.
Dengan menggabungkan statistika deskriptif, visualisasi, korelasi, dan ANOVA, analisis terhadap dataset Iris menjadi lebih komprehensif dan mampu memberikan pemahaman menyeluruh mengenai struktur dan pola data yang terdapat di dalamnya.
Pada penelitian ini, analisis dilakukan menggunakan dataset Iris dengan bantuan perangkat lunak RStudio. Terdapat empat metode analisis utama yang digunakan, yaitu statistika deskriptif, visualisasi data, analisis korelasi, dan uji ANOVA. Setiap metode memiliki tujuan yang berbeda namun saling melengkapi dalam memberikan gambaran menyeluruh mengenai karakteristik data.
Analisis statistika deskriptif digunakan untuk memperoleh ringkasan informasi dasar dari setiap variabel numerik, seperti nilai minimum, maksimum, rata-rata, median, dan standar deviasi. Langkah ini penting sebagai tahap awal karena membantu memahami kondisi umum data serta mendeteksi adanya nilai ekstrem atau ketidakwajaran sebelum dilakukan analisis lanjutan.
Metode visualisasi digunakan untuk melihat pola distribusi dan hubungan antar variabel secara lebih jelas.
Visualisasi ini membantu mendukung interpretasi dan memberikan gambaran visual yang lebih mudah dipahami.
Analisis korelasi dilakukan untuk mengukur seberapa kuat hubungan antar variabel numerik. Koefisien korelasi Pearson digunakan karena dataset Iris memiliki variabel numerik kontinu. Hasil korelasi ini membantu mengidentifikasi pasangan variabel yang saling berkaitan kuat, yang kemudian dapat digunakan sebagai dasar untuk interpretasi dan analisis lebih lanjut.
Uji ANOVA (Analysis of Variance) digunakan untuk mengetahui apakah terdapat perbedaan rata-rata antar kelompok spesies (setosa, versicolor, dan virginica) pada variabel tertentu. Uji ini dilakukan secara satu arah (One-way ANOVA) untuk setiap variabel numerik. Jika hasil ANOVA menunjukkan perbedaan yang signifikan, maka dapat disimpulkan bahwa karakteristik morfologis tertentu memang berbeda antar spesies.
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## 0.8280661 0.4358663 1.7652982 0.7622377
Hasil statistika deskriptif untuk keempat variabel morfologi bunga pada dataset iris—Sepal Length, Sepal Width, Petal Length, dan Petal Width memberikan gambaran awal mengenai karakteristik distribusi dan penyebaran data. Analisis ini mencakup nilai minimum, kuartil, median, mean (rata-rata), maksimum, serta standar deviasi dari masing-masing variabel.
Nilai Sepal Length berkisar antara 4.3 cm hingga 7.9
cm. Nilai median 5.8 dan mean 5.843 menunjukkan bahwa
distribusi panjang sepal relatif seimbang (tidak terlalu menceng).
Rentang datanya cukup lebar, mencerminkan variasi panjang sepal antar
spesies.
Standar deviasi sebesar 0.828 menunjukkan bahwa
penyebaran nilai sepal Lenght berada pada tingkat sedang. Variabel ini
memiliki variasi yang cukup, namun tidak setajam variabel petal.
Sepal Width memiliki nilai minimum 2.0 cm dan
maksimum 4.4 cm. Median dan mean masing-masing adalah
3.0 dan 3.057, menunjukkan bahwa distribusinya sangat dekat dengan
simetris.
Standar deviasi sebesar 0.436 jauh lebih kecil
dibandingkan variabel lain, sehingga menunjukkan bahwa lebar sepal tidak
terlalu bervariasi antar spesies maupun antar bunga dalam dataset.
Variabel ini cenderung lebih stabil dan kurang menjadi pembeda utama
antar spesies.
Petal Length memiliki rentang nilai dari 1.0 cm hingga 6.9
cm, menunjukkan variasi yang sangat besar. Median bernilai 4.35
cm dan mean 3.758 cm, menunjukkan distribusi yang sedikit menceng ke
kiri karena banyaknya nilai kecil dari spesies setosa.
Standar deviasinya 1.766, paling besar di antara semua
variabel, menandakan bahwa panjang petal memiliki variasi paling tinggi
antar bunga. Variabilitas besar ini menggambarkan perbedaan mencolok
antar spesies, terutama antara setosa yang memiliki petal
sangat pendek dibandingkan dua spesies lainnya.
Variabel ini memiliki nilai minimum 0.1 cm dan
maksimum 2.5 cm. Mean sebesar 1.199 cm dan median 1.3
cm menunjukkan distribusi yang sedikit miring ke kiri.
Standar deviasi 0.762 juga cukup besar, menunjukkan
adanya variasi kuat antar spesies. Sama seperti Petal Length, Petal
Width juga menjadi indikator kuat dalam membedakan spesies karena adanya
selisih yang tajam antara setosa dan dua spesies lainnya.
Keempat histogram pada dataset iris memberikan gambaran
umum mengenai pola distribusi setiap variabel morfologi bunga.
Pada histogram Sepal Length, distribusi data terlihat menyebar cukup lebar dengan pola yang mendekati normal. Nilai yang paling sering muncul berada di kisaran 5.5 hingga 6.0 cm, serta tidak menunjukkan adanya pencilan ekstrem. Variasi yang luas ini mencerminkan perbedaan ukuran sepal antar spesies.
Selanjutnya, histogram Sepal Width memperlihatkan distribusi yang relatif simetris dengan satu puncak utama. Nilai sepal width paling banyak ditemukan di sekitar 3.0 cm. Distribusi ini memiliki penyebaran yang lebih sempit dibandingkan sepal length, sehingga menunjukkan bahwa ukuran sepal width cenderung lebih seragam.
Pada variabel Petal Length, pola distribusi tampak jelas terbagi dalam dua kelompok. Hal ini disebabkan oleh adanya perbedaan ukuran petal yang signifikan antara spesies setosa yang memiliki petal kecil dan dua spesies lainnya yang memiliki petal lebih panjang. Distribusi terlihat menceng ke kanan, menandakan adanya data yang terkumpul di nilai kecil kemudian meningkat tajam pada nilai yang lebih besar.
Histogram Petal Width menunjukkan pola yang sangat mirip dengan petal length, yaitu adanya dua cluster yang terpisah. Kelompok pertama berada pada kisaran 0 hingga 0.5 cm, sedangkan kelompok kedua berada di kisaran 1.0 hingga 2.5 cm. Distribusi ini juga menceng ke kanan, sehingga mempertegas bahwa variabel petal merupakan pembeda yang sangat kuat antar spesies.
Secara umum, histogram untuk variabel sepal menunjukkan distribusi
yang lebih konsisten dan hampir normal, sementara variabel petal
menunjukkan perbedaan yang jelas antara spesies. Ini menunjukkan bahwa
panjang petal dan lebar petal adalah dua variabel paling signifikan
dalam membedakan spesies di dalam dataset iris.
Boxplot menunjukkan bahwa perbedaan ukuran petal antar spesies sangat jelas. Setosa memiliki petal length dan petal width yang paling kecil dan tidak tumpang tindih dengan dua spesies lain. Sementara itu, Versicolor dan Virginica memiliki petal yang lebih besar, dengan Virginica sebagai yang terbesar.
Untuk sepal length dan sepal width, perbedaannya tidak setegas petal. Sepal antar spesies memiliki rentang yang lebih tumpang tindih, sehingga kurang efektif untuk membedakan spesies.
Secara keseluruhan, variabel petal merupakan indikator paling kuat dalam memisahkan spesies iris, sesuai pola yang tampak pada boxplot.
Scatter plot berikut menampilkan hubungan antara dua pasang variabel morfologi pada dataset Iris, yaitu Sepal Length vs Sepal Width dan Petal Length vs Petal Width. Kedua grafik menunjukkan pola hubungan yang berbeda sehingga memberikan informasi penting mengenai karakteristik setiap variabel.
Pada scatter plot pertama, persebaran titik terlihat cukup acak dan tidak membentuk pola linear yang jelas. Hal ini menunjukkan bahwa Sepal Length dan Sepal Width tidak memiliki hubungan yang kuat. Nilai panjang sepal tidak berkaitan dengan lebar sepal, sehingga kedua variabel ini cenderung berkembang secara independen. Selain itu, persebaran data yang tumpang tindih mengindikasikan bahwa variabel sepal kurang efektif digunakan untuk membedakan spesies Iris.
Scatter plot kedua menunjukkan pola yang jauh lebih jelas. Titik-titik data membentuk garis kecenderungan positif, menandakan bahwa semakin panjang petal suatu bunga, semakin lebar pula petalnya. Hubungan linear yang kuat ini sejalan dengan tingginya nilai korelasi antara kedua variabel tersebut. Selain itu, terlihat tiga kelompok data yang terpisah dengan baik, mencerminkan perbedaan ukuran petal antar spesies setosa, versicolor, dan virginica. Pola pemisahan yang tegas menunjukkan bahwa variabel petal merupakan indikator yang sangat efektif dalam membedakan spesies.
Dari kedua scatter plot tersebut, dapat disimpulkan bahwa: - Variabel sepal tidak memiliki hubungan yang kuat dan kurang mampu membedakan spesies. - Variabel petal memiliki hubungan positif yang kuat dan menunjukkan pemisahan spesies yang jelas.
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
## Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
## Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
## Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
Tabel korelasi di atas menunjukkan hubungan antarempat variabel
morfologi utama pada dataset iris, yaitu Sepal
Length, Sepal Width, Petal
Length, dan Petal Width. Koefisien korelasi
Pearson bernilai
antara -1 hingga 1, di mana nilai mendekati 1 menunjukkan hubungan
positif yang kuat, nilai mendekati -1 menunjukkan hubungan negatif yang
kuat, dan nilai mendekati 0 menunjukkan hubungan yang lemah atau tidak
ada hubungan.
Berdasarkan matriks korelasi tersebut, dapat diberikan beberapa interpretasi:
Hubungan antara kedua variabel ini sangat kuat dan positif.
Nilai korelasinya mendekati 1, artinya semakin panjang petal suatu
bunga, semakin lebar pula ukuran petalnya. Pola ini konsisten dengan
karakteristik morfologi bunga iris: spesies dengan petal panjang
(seperti virginica) juga cenderung memiliki petal yang lebih
lebar.
Korelasi yang sangat tinggi ini juga menjelaskan mengapa variabel petal menjadi indikator kuat untuk membedakan spesies. Keduanya bergerak searah, menunjukkan struktur morfologi yang sangat konsisten.
Nilai korelasi ini menunjukkan hubungan positif yang kuat. Artinya, bunga dengan sepal lebih panjang juga cenderung memiliki petal yang lebih panjang. Walaupun tidak sekuat hubungan antara variabel petal, pola hubungan ini cukup jelas dan mendukung bahwa ukuran keseluruhan bunga meningkat secara proporsional pada spesies yang lebih besar, seperti virginica.
Hubungan positif yang kuat kembali terlihat antara panjang sepal dan lebar petal. Korelasi ini mengindikasikan bahwa bunga dengan sepal panjang juga memiliki petal yang lebih lebar. Meski berada sedikit di bawah nilai korelasi sebelumnya, hubungan ini tetap menunjukkan pola pertumbuhan morfologi yang konsisten antarvariabel.
Sepal Width memiliki korelasi negatif terhadap kedua variabel petal. Hubungan negatif ini berarti bunga dengan lebar sepal yang lebih besar cenderung memiliki petal yang lebih kecil. Namun, nilai korelasinya tidak terlalu besar, sehingga hubungan ini tergolong sedang–lemah.
Hal ini menunjukkan bahwa lebar sepal tidak sejalan dengan ukuran petal, dan dapat bervariasi antar spesies tanpa mengikuti pola yang kuat.
Korelasi ini lemah dan sedikit negatif, yang berarti panjang dan lebar sepal tidak memiliki hubungan yang berarti. Bunga dengan sepal panjang tidak selalu memiliki sepal yang lebih lebar; kedua ukuran tersebut tampaknya berkembang secara independen.
## [[1]]
## Df Sum Sq Mean Sq F value Pr(>F)
## iris$Species 2 63.21 31.606 119.3 <2e-16 ***
## Residuals 147 38.96 0.265
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## [[2]]
## Df Sum Sq Mean Sq F value Pr(>F)
## iris$Species 2 11.35 5.672 49.16 <2e-16 ***
## Residuals 147 16.96 0.115
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## [[3]]
## Df Sum Sq Mean Sq F value Pr(>F)
## iris$Species 2 437.1 218.55 1180 <2e-16 ***
## Residuals 147 27.2 0.19
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## [[4]]
## Df Sum Sq Mean Sq F value Pr(>F)
## iris$Species 2 80.41 40.21 960 <2e-16 ***
## Residuals 147 6.16 0.04
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hasil uji ANOVA pada keempat variabel—Sepal Length,
Sepal Width, Petal Length, dan
Petal Width—menunjukkan pola yang sangat jelas
bahwa
terdapat perbedaan yang signifikan antar tiga spesies bunga
Iris, yaitu setosa, versicolor, dan
virginica. Pada setiap output ANOVA, nilai p-value jauh
lebih kecil dari 0.05, bahkan mendekati 0 ( < 2e-16
), yang berarti bahwa perbedaan rata-rata antar kelompok sangat
kuat secara
statistik.
Secara rinci, pembahasan masing-masing variabel adalah sebagai berikut:
Variabel Sepal Length menunjukkan nilai F yang cukup besar dan
p-value yang sangat kecil. Hal ini menandakan bahwa rata-rata panjang
sepal berbeda secara signifikan antar ketiga spesies. Spesies
virginica cenderung memiliki
Sepal Length paling besar, disusul versicolor, dan
setosa sebagai yang paling kecil. Walaupun perbedaannya
signifikan, rentang nilainya masih sedikit tumpang tindih antar spesies
sehingga variabel ini bukan pemisah terbaik.
Sepal Width juga menunjukkan perbedaan signifikan antar spesies,
meskipun nilai F yang dihasilkan jauh lebih kecil dibandingkan variabel
lain. Variasi Sepal Width lebih tumpang tindih antar spesies, sehingga
secara praktis variabel ini tidak sekuat variabel petal dalam membedakan
spesies.
Namun, secara statistik tetap terbukti ada perbedaan rata-rata antar
kelompok.
Petal Length memiliki nilai F yang sangat besar dan p-value yang mendekati 0, menunjukkan perbedaan yang sangat kuat antar spesies. Spesies setosa memiliki nilai Petal Length yang jauh lebih kecil dibandingkan versicolor dan virginica, dan tidak ada tumpang tindih antar rentang nilainya. Ini menjadikan Petal Length sebagai salah satu variabel paling informatif untuk membedakan spesies iris.
Hasil ANOVA untuk Petal Width bahkan lebih ekstrem. Nilai F yang
sangat tinggi dan p-value yang hampir 0 menunjukkan bahwa variabel ini
paling kuat dalam membedakan spesies. Sama seperti Petal Length,
setosa memiliki nilai yang
jauh lebih kecil, sedangkan versicolor dan virginica
memiliki nilai yang lebih besar dengan pola pemisahan yang sangat
jelas.
Berdasarkan analisis yang dilakukan terhadap dataset iris menggunakan statistika deskriptif, visualisasi data, analisis korelasi, dan uji ANOVA, dapat disimpulkan bahwa masing-masing metode memberikan informasi yang saling melengkapi dalam memahami karakteristik morfologis bunga Iris setosa, versicolor, dan virginica. Hasil analisis menunjukkan bahwa terdapat pola-pola yang jelas dan teratur pada variabel-variabel numerik, terutama pada variabel petal yang menjadi pembeda paling kuat antara ketiga spesies.
Dari statistika deskriptif diperoleh gambaran bahwa ukuran petal memiliki variasi yang lebih besar dibandingkan sepal. Variabilitas yang tinggi pada petal menunjukkan adanya perbedaan morfologi yang tajam antar spesies, terutama antara setosa dan dua spesies lainnya. Hal ini diperkuat oleh hasil visualisasi histogram yang memperlihatkan dua kluster yang jelas pada variabel Petal Length dan Petal Width, di mana setosa berada pada kelompok nilai kecil sedangkan versicolor dan virginica berada pada kelompok nilai lebih besar.
Visualisasi boxplot juga menunjukkan pemisahan yang tegas pada variabel petal. Spesies setosa memiliki rentang nilai petal yang sangat kecil dan tidak tumpang tindih dengan versicolor ataupun virginica. Sebaliknya, variabel sepal menunjukkan perbedaan antar spesies yang lebih samar karena nilai-nilainya saling tumpang tindih, sehingga variabel sepal kurang efektif untuk membedakan spesies secara jelas.
Analisis scatter plot dan korelasi menunjukkan bahwa Petal Length dan Petal Width memiliki hubungan linear yang sangat kuat. Kedua variabel ini bergerak searah dan membentuk pola hubungan paling jelas dibandingkan pasangan variabel lainnya. Sementara itu, Sepal Width memiliki korelasi paling lemah dengan ketiga variabel lainnya, menandakan bahwa lebar sepal bukan indikator utama dalam membedakan spesies.
Hasil uji ANOVA semakin menguatkan temuan sebelumnya. Keempat variabel utama Sepal Length, Sepal Width, Petal Length, dan Petal Width menunjukkan perbedaan rata-rata yang signifikan antar spesies, dengan nilai p yang sangat kecil. Namun, variabel petal kembali muncul sebagai faktor paling kuat dalam membedakan spesies, konsisten dengan hasil visualisasi dan analisis korelasi.
Secara keseluruhan, seluruh hasil analisis menunjukkan bahwa variabel petal merupakan indikator paling efektif dan dominan dalam membedakan ketiga spesies iris. Dataset iris terbukti sangat informatif dan cocok dijadikan media pembelajaran dalam statistika dan ilmu data karena pola-pola yang jelas serta hubungan variabel yang mudah diinterpretasikan.
Rahman, B., Fauzi, F., & Amri, S. (2023). Perbandingan Hasil Klasifikasi Data Iris menggunakan Algoritma K-Nearest Neighbor dan Random Forest: Comparison of Iris Data Classification Results using the K-Nearest Neighbor and Random Forest Algorithms. Journal Of Data Insights, 1(1), 19–26.
Syahputra, A., Riansyah, R., Aptanta, D. A., Farhan, M., & Furqan, M. (2025). Klasifikasi Jenis Bunga Iris Menggunakan Algoritma Klasifikasi Tradisional. Jurnal Ilmiah Sistem Informasi dan Ilmu Komputer, 5(2), 207–213.
Efendi, M. H., Pratama, W. S., & Daniati, E. (2025, July). Analisis Klasifikasi Spesies Bunga Iris Menggunakan Algoritma K-Nearest Neighbors. In Prosiding SEMNAS INOTEK (Seminar Nasional Inovasi Teknologi) (Vol. 9, No. 3, pp. 1798–1804).