Untuk menganalisis data ini, digunakan bahasa pemrograman R dengan bantuan pustaka seperti ggplot2, readxl, ggthemes, dan gridExtra. Berbagai jenis grafik digunakan untuk memberikan gambaran komprehensif mengenai distribusi dan hubungan antarvariabel, di antaranya:
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.2
library(readxl)
## Warning: package 'readxl' was built under R version 4.4.2
library(ggthemes)
## Warning: package 'ggthemes' was built under R version 4.4.2
library(gridExtra)
## Warning: package 'gridExtra' was built under R version 4.4.2
Proyek ini bertujuan untuk menganalisis dan memvisualisasikan data tokoh-tokoh intelektual terkemuka dari berbagai negara di dunia berdasarkan dataset yang diperoleh dari sumber https://www.kaggle.com/datasets. Analisis dilakukan menggunakan berbagai teknik visualisasi data untuk mengidentifikasi pola dan tren dari variabel yang tersedia, seperti negara asal, bidang keahlian, IQ, dan tahun lahir.
setwd("D:/sem2/probabilitas n statistika")
data <- read_excel("Orang-orang Cerdas Teratas di Dunia.xlsx")
head(data)
## # A tibble: 6 × 11
## Name Country `Field of Expertise` IQ Achievements `Birth Year` Gender
## <chr> <chr> <chr> <dbl> <chr> <dbl> <chr>
## 1 Enrico Fe… Austria Polymath 199 Father of C… 1968 Female
## 2 Max Planck Italy Chemistry 159 Theory of E… 1986 Female
## 3 Paul Dirac UK Physics 177 Quantum Mec… 1927 Female
## 4 Erwin Sch… Italy Physics 130 Electromagn… 1921 Female
## 5 Paul Dirac UK Physics 163 Wave Equati… 1964 Female
## 6 Stephen H… USA Astronomy 191 Quantum The… 1990 Male
## # ℹ 4 more variables: `Notable Works` <chr>, Awards <chr>, Education <chr>,
## # Influence <chr>
Dari data sampel yang ada di dalam file excel akan disajikan visualisasi data dalam bentuk Pie Chart. Berikut terlampir hasil visualisasi datanya :
pie_chart <- ggplot(data, aes(x = "", fill = Country)) +
geom_bar(width = 1) +
coord_polar("y", start = 0) +
theme_minimal() +
labs(title = "Country") +
theme(axis.text.x = element_blank())
pie_chart
Pie Chart diatas digunakan untuk merepresentasikan negara yang memiliki tokoh intelektual paling banyak di dunia. UK (United Kingdom) menjadi negara dengan tokoh intelektual terbanyak di dunia.
Dari data sampel yang ada di dalam file excel akan disajikan visualisasi data dalam bentuk Bar Chart. Berikut terlampir hasil visualisasi datanya, Berikut adalah hasil visualisasi dalam bentuk Bar Chart, Berikut adalah hasil visualisasi Pie Chart:
bar_chart <- ggplot(data, aes(x = `Field of Expertise`, fill = `Field of Expertise`)) +
geom_bar() +
theme_minimal() +
labs(title = "Distribusi Field of Expertise", x = "Field of Expertise", y = "Frekuensi")
bar_chart
Bar Chart menggambarkan bidang yang paling banyak dikuasai oleh tokoh-tokoh intelek seluruh dunia.Fisika menjadi bidang yang paling dikuasai, diikuti oleh matematika yang menjadi bidang paling dikuasai setelah fisika. Selain memahami distribusi negara asal, penting juga untuk mengetahui bidang keahlian yang paling banyak dikuasai oleh para tokoh intelektual dunia. Untuk tujuan ini, kita menggunakan Bar Chart, yang mampu menampilkan frekuensi setiap bidang keahlian yang dikuasai oleh individu dalam dataset. Visualisasi ini sangat membantu dalam melihat bidang apa yang paling banyak ditekuni oleh individu ber-IQ tinggi. Dalam analisis ini, kita ingin mengetahui negara mana yang memiliki jumlah tokoh intelektual terbanyak di dunia. Oleh karena itu, visualisasi data dalam bentuk Pie Chart digunakan untuk memberikan gambaran yang lebih jelas mengenai distribusi negara asal dari tokoh-tokoh intelektual terkemuka. Pie Chart membantu dalam memahami proporsi masing-masing negara dalam dataset yang digunakan.
Dari data sampel yang ada di dalam file excel akan disajikan visualisasi data dalam bentuk Dot Plot. Berikut terlampir hasil visualisasi datanya, Berikut adalah visualisasi dalam bentuk Dot Plot :
dot_plot <- ggplot(data, aes(x = `IQ`, y = `Birth Year`)) +
geom_point(color = "purple", size = 2) +
theme_minimal() +
labs(title = "Dot Plot: IQ vs. Birth Year", x = "IQ", y = "Birth Year")
dot_plot
Dot Plot menunjukkan hubungan antara IQ dan tahun lahir. Ini mengindikasikan bahwa hubungan antara IQ dan tahun lahir tidak terlalu kuat atau konsisten. IQ individu tampaknya bervariasi di seluruh rentang tahun lahir, dengan beberapa individu memiliki IQ tinggi maupun rendah pada periode yang sama.Untuk mengeksplorasi hubungan antara IQ dan tahun lahir, digunakan Dot Plot. Dot Plot memungkinkan kita untuk melihat pola distribusi IQ berdasarkan tahun lahir dan mengidentifikasi apakah ada tren tertentu yang muncul dari data ini. Dengan menggunakan Dot Plot, kita dapat mengamati apakah terdapat hubungan antara tingkat kecerdasan seseorang dengan periode waktu kelahirannya.
Dari data sampel yang ada di dalam file excel akan disajikan visualisasi data dalam bentuk Stem and Leaf Plot. Berikut terlampir hasil visualisasi datanya, Berikut adalah hasil dari visualisasi menggunakan metode ini:
stem(data$`IQ`)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 13 | 00000000000000001111111111111111112222222222222222223333333344444444
## 13 | 55555555555556666666666666666666666667777777778888888888888888888999
## 14 | 00000000111111111111111222222333333333333333334444444444444444
## 14 | 55555555555555566666666666666677777777777777777788888888888889999999
## 15 | 00000000000000000011111111111112222222222222222233333333333334444444
## 15 | 55555555555566666666666666667777777777777777777788888888888888999999
## 16 | 00000000000011111111111111122222222222222233333333333344444444444
## 16 | 5555555555555666666666677777777777888888888888899999999999999
## 17 | 000000000000111111122222222222222223333333333333444444444444
## 17 | 55555555555555555556666666667777777777777777778888888888899999999999
## 18 | 00000000000001111111111111112222222222222222222222233333333333333444
## 18 | 55555555555666666666667777777777777777777888888888888888888889999999
## 19 | 00000000000001111111111112222222222222222222223333333333333334444444+1
## 19 | 555555555555666666666666677777777777788888888888999999999
## 20 | 00000000000
Untuk memahami distribusi nilai IQ dengan lebih mendetail, digunakan Stem and Leaf Plot. Plot ini memberikan tampilan lebih rinci dibandingkan histogram, karena menyajikan setiap nilai dalam bentuk yang lebih terstruktur. Dengan Stem and Leaf Plot, kita dapat melihat bagaimana angka-angka IQ tersebar serta mengidentifikasi pola umum dalam data.
Dari data sampel yang ada di dalam file excel akan disajikan visualisasi data dalam bentuk Histogram. Berikut terlampir hasil visualisasi datanya. Berikut adalah hasil visualisasi dalam bentuk Histogram:
histogram <- ggplot(data, aes(x = `Birth Year`)) +
geom_histogram(binwidth = 5, fill = "brown", color = "white", alpha = 0.7) +
theme_minimal() +
labs(title = "Histogram: Birth Year", x = "Frekuensi", y = "IQ")
histogram
Untuk mendapatkan pemahaman yang lebih baik mengenai distribusi tahun lahir dari para tokoh intelektual, digunakan Histogram. Histogram merupakan metode visualisasi yang sangat berguna dalam melihat bagaimana data tersebar dalam rentang waktu tertentu. Dengan menggunakan histogram, kita dapat mengidentifikasi apakah terdapat periode tertentu yang memiliki lebih banyak tokoh intelektual lahir dibandingkan periode lainnya.
Berikut adalah hasil visualisasi dalam bentuk Boxplot:
boxplot_data <- ggplot(data) +
geom_boxplot(aes(y = `IQ`, fill = "IQ"), alpha = 0.6) +
theme_minimal() +
labs(title = "Boxplot: IQ", fill = "Kondisi")
boxplot_data
Untuk melihat distribusi IQ secara keseluruhan dan mendeteksi kemungkinan adanya pencilan (outlier) dalam dataset, digunakan Boxplot. Visualisasi ini membantu kita memahami nilai minimum, maksimum, serta sebaran IQ dalam dataset. Boxplot juga memudahkan kita dalam mengidentifikasi apakah terdapat individu dengan IQ yang sangat tinggi atau rendah dibandingkan dengan mayoritas populasi dalam dataset.
Berikut adalah hasil visualisasi dalam bentuk Density Plot:
density_plot <- ggplot(data, aes(x = `Birth Year`,fill = "Birth Year")) +
geom_density(alpha = 0.5) +
theme_minimal() +
labs(title = "Density Plot: Birth Year", x = "Efisiensi", y = "Density")
density_plot
Untuk melengkapi analisis distribusi tahun lahir, digunakan Density Plot yang memberikan visualisasi lebih halus dibandingkan histogram. Density Plot menunjukkan kepadatan data pada rentang tertentu dan memungkinkan kita melihat bagaimana distribusi kelahiran tersebar dalam dataset. Dengan menggunakan Density Plot, kita dapat memahami apakah ada pola tertentu dalam distribusi tahun kelahiran dari tokoh intelektual ini.
grid.arrange(pie_chart, bar_chart, dot_plot, histogram, boxplot_data, density_plot, ncol = 2)
Berikut adalah hasil perhitungan rata-rata IQ dalam dataset:
mean(data$IQ)
## [1] 164.5455
Salah satu cara untuk memahami distribusi IQ dalam dataset adalah dengan menghitung rata-rata (mean). Rata-rata IQ memberikan gambaran mengenai tingkat kecerdasan rata-rata dari tokoh-tokoh intelektual dalam dataset ini. Nilai mean dihitung dengan menjumlahkan semua nilai IQ dalam dataset, lalu membaginya dengan jumlah individu yang ada.
Berikut adalah hasil perhitungan median IQ dalam dataset:
median(data$`IQ`)
## [1] 164
Selain rata-rata, penting juga untuk mengetahui median dari dataset IQ. Median adalah nilai tengah dari data yang telah diurutkan, yang membagi dataset menjadi dua bagian yang sama besar. Median lebih tahan terhadap outlier, sehingga memberikan gambaran yang lebih akurat dalam beberapa kondisi dibandingkan mean.
Berikut adalah hasil perhitungan modus IQ dalam dataset:
modus <- function(x) {
uniqx <- unique(x)
uniqx[which.max(tabulate(match(x, uniqx)))]
}
modus(data$IQ)
## [1] 136
Untuk memahami nilai IQ yang paling sering muncul dalam dataset, kita perlu menghitung modus. Modus adalah nilai yang memiliki frekuensi tertinggi dalam dataset, yang berarti ada lebih banyak individu dengan IQ tersebut dibandingkan nilai lainnya. Informasi ini berguna untuk melihat apakah ada kecenderungan nilai IQ tertentu yang dominan di antara tokoh-tokoh intelektual.
Berikut adalah hasil ringkasan statistik 5 serangkai dan kuantil untuk dataset ini:
quantile(data$IQ)
## 0% 25% 50% 75% 100%
## 130.0 147.0 164.0 182.5 200.0
Kuantil atau quantile merupakan ukuran statistik yang membagi data menjadi bagian-bagian dengan persentase yang sama. Dalam kasus ini, kita menggunakan kuartil, yang membagi data menjadi empat bagian.
Q1 (Kuartil pertama / Persentil ke-25): Menunjukkan bahwa 25% individu dalam dataset memiliki IQ di bawah nilai ini. Q2 (Median / Persentil ke-50): Membagi data menjadi dua bagian yang sama besar, dengan 50% individu memiliki IQ di bawahnya dan 50% di atasnya. Q3 (Kuartil ketiga / Persentil ke-75): Menunjukkan bahwa 75% individu dalam dataset memiliki IQ di bawah nilai ini, sementara 25% sisanya memiliki IQ lebih tinggi. Statistik ini membantu dalam memahami rentang distribusi IQ dan melihat bagaimana sebarannya dalam dataset.
Berikut adalah hasil ringkasan statistik 5 serangkai untuk dataset ini:
summary(data$IQ)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 130.0 147.0 164.0 164.5 182.5 200.0
Untuk memberikan gambaran lebih lengkap mengenai distribusi IQ, digunakan Statistik 5 Serangkai, yang terdiri dari:
Nilai Minimum (nilai IQ terendah dalam dataset) Kuartil 1 (Q1) (nilai IQ yang membagi 25% data terendah) Median (Q2) (nilai tengah dataset) Kuartil 3 (Q3) (nilai IQ yang membagi 75% data terendah) Nilai Maksimum (nilai IQ tertinggi dalam dataset) Statistik ini membantu dalam memahami rentang distribusi IQ dan melihat bagaimana sebarannya dalam dataset.
Berikut adalah hasil perhitungan varians IQ dalam dataset:
var(data$IQ)
## [1] 425.9195
Selain mengetahui ukuran pemusatan, penting juga untuk memahami bagaimana data menyebar. Salah satu cara untuk mengukur keragaman data adalah dengan menghitung varians. Varians menunjukkan seberapa jauh nilai-nilai dalam dataset tersebar dari rata-rata. Semakin besar varians, semakin besar perbedaan antar individu dalam dataset tersebut.
Berikut adalah hasil perhitungan standar deviasi IQ dalam dataset:
sd(data$IQ)
## [1] 20.63782
Selain varians, ukuran penyebaran lainnya yang sering digunakan adalah standar deviasi. Standar deviasi menunjukkan rata-rata deviasi nilai IQ dari rata-rata keseluruhan. Nilai standar deviasi yang lebih besar menunjukkan bahwa IQ dalam dataset sangat bervariasi, sementara standar deviasi yang lebih kecil menunjukkan bahwa nilai IQ cenderung lebih seragam.