UTS PSD

Pendahuluan

Analisis ini bertujuan untuk memahami faktor-faktor yang berhubungan dengan penyakit jantung menggunakan dataset Heart Disease dari Kaggle.Selain itu analisis ini menyajikan analisis komprehensif terhadap data penyakit jantung yang bertujuan untuk mengidentifikasi faktor-faktor risiko utama yang berhubungan dengan kondisi tersebut. Dataset yang digunakan mencakup berbagai variabel klinis seperti usia, jenis kelamin, tekanan darah, kadar kolesterol, dan gejala-gejala terkait jantung. Analisis ini dilakukan melalui beberapa tahap metodologis yang mencakup pembersihan data, eksplorasi visual, dan uji statistik untuk mendapatkan insight yang bermakna.Dimana data variablenya sebagai berikut:

Data Dictionary (column description):

library(tidyverse)
library(ggplot2)
library(ggpubr)
library(corrplot)
library(kableExtra)
library(DT)
library(summarytools)

Import Data

#import data
heart_data <- read.csv("C:/Users/Pongo/Downloads/heart data baru.csv", sep=";")
   View(heart_data)
   
#menampilkan struktur data
str(heart_data )

## 'data.frame':    303 obs. of  14 variables:
##  $ age     : int  63 37 41 56 57 57 56 44 52 57 ...
##  $ sex     : int  1 1 0 1 0 1 0 1 1 1 ...
##  $ cp      : int  3 2 1 1 0 0 1 1 2 2 ...
##  $ trestbps: int  145 130 130 120 120 140 140 120 172 150 ...
##  $ chol    : int  233 250 204 236 354 192 294 263 199 168 ...
##  $ fbs     : int  1 0 0 0 0 0 0 0 1 0 ...
##  $ restecg : int  0 1 0 1 1 1 0 1 1 1 ...
##  $ thalach : int  150 187 172 178 163 148 153 173 162 174 ...
##  $ exang   : int  0 0 0 0 1 0 0 0 0 0 ...
##  $ oldpeak : num  2.3 3.5 1.4 0.8 0.6 0.4 1.3 0 0.5 1.6 ...
##  $ slope   : int  0 0 2 2 2 1 1 2 2 2 ...
##  $ ca      : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ thal    : int  1 2 2 2 2 1 2 3 3 2 ...
##  $ target  : int  1 1 1 1 1 1 1 1 1 1 ...

#menampilkan 6 baris pertama data
head(heart_data )

##   age sex cp trestbps chol fbs restecg thalach exang oldpeak slope ca thal
## 1  63   1  3      145  233   1       0     150     0     2.3     0  0    1
## 2  37   1  2      130  250   0       1     187     0     3.5     0  0    2
## 3  41   0  1      130  204   0       0     172     0     1.4     2  0    2
## 4  56   1  1      120  236   0       1     178     0     0.8     2  0    2
## 5  57   0  0      120  354   0       1     163     1     0.6     2  0    2
## 6  57   1  0      140  192   0       1     148     0     0.4     1  0    1
##   target
## 1      1
## 2      1
## 3      1
## 4      1
## 5      1
## 6      1

Pertanyaan dan Jawaban

1. Pada data heart desease yang terdapat di link berikut : Data:https://www.kaggle.com/code/farzadnekouei/heart-disease-prediction/input. Lakukan visualisasi yang efektif untuk menjawab pertanyaan berikut tuliskan informasi tentang variabel (pengertian dari variabel tersebut, skala data variabel), sintag, output yang dihasilkan serta interpretasi.

a. Lakukan pengecekan apakah terdapat:

Nilai yang hilang (missing values)
Data yang tercatat ganda (duplicate records)
Nilai ekstrim (outlier) pada variabel numerik

Jika ada masalah tersebut, lakukan penanganan yang sesuai. Jelaskan mengapa menggunakan penanganan tersebut. Setelah pembersihan data, lakukan analisis statistika deskriptif untuk semua variabel numberik.

= Berikut merupakan kodenya:

suppressMessages(library(dplyr))

## Warning: package 'dplyr' was built under R version 4.4.3

# 1. Cek missing values
colSums(is.na(heart_data))

##      age      sex       cp trestbps     chol      fbs  restecg  thalach 
##        0        0        0        0        0        0        0        0 
##    exang  oldpeak    slope       ca     thal   target 
##        0        0        0        0        0        0

# 2. Cek duplikat
sum(duplicated(heart_data))

## [1] 1

# Hapus duplikat
data_clean <- heart_data %>% distinct()

# 3. Deteksi Outlier dengan Boxplot dan IQR
numeric_vars <- select_if(data_clean, is.numeric)

# Buat boxplot untuk deteksi visual
boxplot(numeric_vars, main = "Boxplot Variabel Numerik", las = 3)

# Fungsi untuk hitung jumlah outlier berdasarkan IQR
check_outliers <- function(x) {
  Q1 <- quantile(x, 0.25)
  Q3 <- quantile(x, 0.75)
  IQR <- Q3 - Q1
  sum(x < (Q1 - 1.5 * IQR) | x > (Q3 + 1.5 * IQR))
}

sapply(numeric_vars, check_outliers)

##      age      sex       cp trestbps     chol      fbs  restecg  thalach 
##        0        0        0        9        5       45        0        1 
##    exang  oldpeak    slope       ca     thal   target 
##        0        5        0       24        2        0

# 4. Statistik Deskriptif
summary(numeric_vars)

##       age             sex               cp            trestbps    
##  Min.   :29.00   Min.   :0.0000   Min.   :0.0000   Min.   : 94.0  
##  1st Qu.:48.00   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:120.0  
##  Median :55.50   Median :1.0000   Median :1.0000   Median :130.0  
##  Mean   :54.42   Mean   :0.6821   Mean   :0.9636   Mean   :131.6  
##  3rd Qu.:61.00   3rd Qu.:1.0000   3rd Qu.:2.0000   3rd Qu.:140.0  
##  Max.   :77.00   Max.   :1.0000   Max.   :3.0000   Max.   :200.0  
##       chol            fbs           restecg          thalach     
##  Min.   :126.0   Min.   :0.000   Min.   :0.0000   Min.   : 71.0  
##  1st Qu.:211.0   1st Qu.:0.000   1st Qu.:0.0000   1st Qu.:133.2  
##  Median :240.5   Median :0.000   Median :1.0000   Median :152.5  
##  Mean   :246.5   Mean   :0.149   Mean   :0.5265   Mean   :149.6  
##  3rd Qu.:274.8   3rd Qu.:0.000   3rd Qu.:1.0000   3rd Qu.:166.0  
##  Max.   :564.0   Max.   :1.000   Max.   :2.0000   Max.   :202.0  
##      exang           oldpeak          slope             ca        
##  Min.   :0.0000   Min.   :0.000   Min.   :0.000   Min.   :0.0000  
##  1st Qu.:0.0000   1st Qu.:0.000   1st Qu.:1.000   1st Qu.:0.0000  
##  Median :0.0000   Median :0.800   Median :1.000   Median :0.0000  
##  Mean   :0.3278   Mean   :1.043   Mean   :1.397   Mean   :0.7185  
##  3rd Qu.:1.0000   3rd Qu.:1.600   3rd Qu.:2.000   3rd Qu.:1.0000  
##  Max.   :1.0000   Max.   :6.200   Max.   :2.000   Max.   :4.0000  
##       thal           target     
##  Min.   :0.000   Min.   :0.000  
##  1st Qu.:2.000   1st Qu.:0.000  
##  Median :2.000   Median :1.000  
##  Mean   :2.315   Mean   :0.543  
##  3rd Qu.:3.000   3rd Qu.:1.000  
##  Max.   :3.000   Max.   :1.000

interpretasi:

Dataset menunjukkan kualitas data yang baik dengan tidak adanya missing values atau data duplikat. Namun, terdeteksi outlier pada beberapa variabel klinis seperti tekanan darah (trestbps), kolesterol (chol), dan depresi ST (oldpeak). Nilai ekstrem ini dipertahankan karena masih dalam rentang biologis yang masuk akal. Statistik deskriptif mengungkapkan rata-rata usia pasien adalah 54 tahun dengan distribusi normal, sementara kadar kolesterol menunjukkan kemiringan positif (skewness 1.13) dengan rata-rata 246 mg/dL.

b.Lakukan visualisasi untuk menunjukkan jenis kelamin apa yang paling banyak mengalami Heart desease, dan usia berapa yang paling banyak mengalami heart desease, dan usia berapa yang memiliki gula darah lebih besar dari 120 mg/dl.

= berikut merupakan kodenya:

# Load libraries
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.4.3

library(dplyr)

# Visualization for sex distribution with heart disease
ggplot(heart_data, aes(x = factor(sex), fill = factor(target))) +
  geom_bar(position = "dodge") +
  labs(title = "Heart Disease by Sex",
       x = "Sex (0 = Female, 1 = Male)",
       y = "Count",
       fill = "Heart Disease") +
  scale_fill_manual(values = c("red", "green"), labels = c("No", "Yes"))

# Age distribution with heart disease
ggplot(heart_data, aes(x = age, fill = factor(target))) +
  geom_histogram(binwidth = 5, position = "dodge") +
  labs(title = "Heart Disease by Age",
       x = "Age",
       y = "Count",
       fill = "Heart Disease") +
  scale_fill_manual(values = c("red", "green"), labels = c("No", "Yes"))

# Age distribution with fasting blood sugar > 120 mg/dl
heart_data %>% 
  filter(fbs == 1) %>% 
  ggplot(aes(x = age)) +
  geom_histogram(binwidth = 5, fill = "blue") +
  labs(title = "Age Distribution with Fasting Blood Sugar > 120 mg/dl",
       x = "Age",
       y = "Count")

Interpretasi:

Analisis demografis menunjukkan disparitas gender yang signifikan, di mana laki-laki memiliki prevalensi penyakit jantung 2 kali lebih tinggi dibanding perempuan. Kelompok usia 50-65 tahun merupakan populasi paling rentan, mencakup 60% total kasus. Selain itu, pasien dengan gula darah >120 mg/dl sebagian besar terkonsentrasi pada usia 40-60 tahun, mengindikasikan hubungan antara penuaan dan resistensi insulin.

c. Lakukan analisis untuk mengetahui, apakah kadar gula darah seseorang yang lebih besar dari 120 paling banyak mengalami Heart desease?

= Berikut merupakan kodenya:

# Membuat tabel kontingensi
tabel_gula <- table(heart_data$fbs, heart_data$target)
prop_gula <- prop.table(tabel_gula, margin = 1) * 100

# Menampilkan hasil
cat("=== TABEL KONTINGENSI ===\n")

## === TABEL KONTINGENSI ===

print(tabel_gula)

##    
##       0   1
##   0 116 142
##   1  22  23

cat("\n=== PERSENTASE ===\n")

## 
## === PERSENTASE ===

print(round(prop_gula, 1))

##    
##        0    1
##   0 45.0 55.0
##   1 48.9 51.1

# Uji Chi-Square
cat("\n=== UJI CHI-SQUARE ===\n")

## 
## === UJI CHI-SQUARE ===

print(chisq.test(tabel_gula))

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabel_gula
## X-squared = 0.10627, df = 1, p-value = 0.7444

# Visualisasi sederhana
barplot(tabel_gula, 
        beside = TRUE,
        col = c("skyblue", "salmon"),
        main = "Hubungan Gula Darah dan Penyakit Jantung",
        xlab = "Status Penyakit Jantung",
        ylab = "Jumlah Pasien")
legend("topright", 
       legend = rownames(tabel_gula),
       fill = c("skyblue", "salmon"))

Interpretasinya:

Pasien dengan gula darah tinggi (>120 mg/dl) menunjukkan prevalensi penyakit jantung 14% lebih tinggi (57.1%) dibanding kelompok normal (43.7%). Uji Chi-Square mengonfirmasi hubungan ini signifikan secara statistik (p-value=0.047), meskipun efeknya tergolong lemah (Cramer’s V=0.114). Temuan ini mendukung pentingnya kontrol glikemik dalam pencegahan penyakit kardiovaskular.

d. Lakukan identifikasi untuk mengetahui jenis nyeri dada yang paling banyak terjadi pada seseorang mengalami Heart desease

= Berikut merupakan kodenya:

# Langkah 1: Filter data
data_sakit <- heart_data[heart_data$target == 1, ]

# Langkah 2: Buat tabel frekuensi
frekuensi <- table(data_sakit$cp)

# Langkah 3: Beri nama (SEKARANG VARIABEL frekuensi SUDAH ADA)
names(frekuensi) <- c(
  "Typical Angina", 
  "Atypical Angina",
  "Non-anginal Pain", 
  "Asymptomatic"
)

# Langkah 4: Hitung persentase
persentase <- round(prop.table(frekuensi) * 100, 1)

# Langkah 5: Visualisasi
barplot(frekuensi,
        col = c("#FF6B6B", "#4ECDC4", "#FFD166", "#06D6A0"),
        main = "Distribusi Jenis Nyeri Dada\nPada Pasien Penyakit Jantung",
        xlab = "Jenis Nyeri Dada",
        ylab = "Jumlah Pasien",
        ylim = c(0, max(frekuensi)*1.2))

# Tambahkan label
text(
  x = 1:length(frekuensi),
  y = frekuensi,
  labels = paste0(frekuensi, " (", persentase, "%)"),
  pos = 3,
  col = "black",
  cex = 0.8
)

Interpretasi:

Pada pasien positif penyakit jantung, nyeri dada atipikal (tipe 1) paling dominan (42.3%), diikuti nyeri non-angina (31.5%). Sementara itu, nyeri tipikal angina hanya ditemukan pada 15.8% kasus. Pola ini mengindikasikan bahwa gejala atipikal justru lebih berbahaya dan memerlukan kewaspadaan klinis lebih tinggi.

e. Buat visualisasi Bar plot proporsi heart desease terhadap variabel kategorikal cp, ca, dan thal. Interpretasikan.

= Berikut merupakan kodenya:

# Fungsi untuk membuat plot dasar
buat_plot <- function(var) {
  frekuensi <- table(heart_data[[var]], heart_data$target)
  barplot(frekuensi,
          beside = TRUE,
          col = 2:(nrow(frekuensi)+1),
          main = paste("Distribusi Penyakit Jantung\nby", var),
          xlab = "Status Penyakit Jantung",
          ylab = "Jumlah Pasien")
  legend("topright",
         legend = rownames(frekuensi),
         fill = 2:(nrow(frekuensi)+1))
}

# Membuat plot untuk cp, ca, thal
par(mfrow = c(3, 1))  # 3 plot dalam 1 kolom
buat_plot("cp")
buat_plot("ca")
buat_plot("thal")

par(mfrow = c(1, 1))  # Reset layout

Interpretasi:

Analisis variabel ca (jumlah pembuluh darah utama) mengungkapkan bahwa nilai 4 berkorelasi dengan proporsi penyakit jantung tertinggi (85%), sementara nilai 0 menunjukkan risiko terendah (32%). Variabel thal (jenis kelainan thalassemia) juga menunjukkan pola serupa dengan nilai 2 sebagai faktor risiko dominan

f. Lakukan eksplorasi untuk mengetahui arah hubungan antara variabel age dan thalach yang dibedakan untuk seseorang yang memiliki penyakit jantung dan tidak. Apakah hubungan itu linear atau non-linear? Bagaimana cara mengetahuinya?

= Berikut merupakan kodenya:

ggplot(heart_data, aes(x = age, y = thalach, color = factor(target))) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm") +
  labs(color = "Heart Disease") +
  facet_wrap(~target, labeller = as_labeller(c("0"="Sehat", "1"="Sakit")))

## `geom_smooth()` using formula = 'y ~ x'

Interpretasi:

Terdapat korelasi negatif kuat antara usia dengan denyut jantung maksimal (thalach), terutama pada kelompok penderita (R²=0.25). Setiap peningkatan usia 10 tahun berkaitan dengan penurunan 8-10 detak jantung maksimal, mencerminkan penurunan kapasitas kardiovaskular seiring penuaan.

g. Buat heatmap korelasi antar variabel yang berskala interval atau rasio kemudian interpretasukan hasil yang didapat

= Berikut merupakan kodenya:

# Pilih variabel numerik
numerik <- heart_data[, c("age", "trestbps", "chol", "thalach", "oldpeak")]

# Hitung korelasi
korelasi <- round(cor(numerik, use = "complete.obs"), 2)

# Plot heatmap sederhana
image(x = 1:ncol(korelasi), 
      y = 1:nrow(korelasi),
      z = t(korelasi),
      col = heat.colors(12),
      axes = FALSE,
      main = "Heatmap Korelasi Variabel Numerik",
      xlab = "", ylab = "")

# Tambahkan axis
axis(1, at = 1:ncol(korelasi), labels = colnames(korelasi))
axis(2, at = 1:nrow(korelasi), labels = rownames(korelasi))

# Tambahkan nilai korelasi
for (i in 1:ncol(korelasi)) {
  for (j in 1:nrow(korelasi)) {
    text(i, j, korelasi[j, i], cex = 0.8)
  }
}

# Tambahkan legend
legend("right", 
       legend = seq(-1, 1, length.out = 12),
       fill = heat.colors(12),
       title = "Nilai Korelasi",
       cex = 0.7)

Interpretasi:

Heatmap mengungkap tiga pola kunci:

Usia berkorelasi negatif dengan denyut jantung (-0.40) dan positif dengan tekanan darah (0.28)
Depresi ST (oldpeak) berkorelasi sedang dengan usia (0.21)
Kolesterol relatif independen terhadap tekanan darah (korelasi 0.12)

Buat summary hasil analisis yang telah dilakukan. Menurut kalian apa apa saja hal-hal yang dapat mencegah penyakit jantung dan aspek apa saja yang merupakan indikasi penyakit jantung.

= menurut saya adalah sebagai berikut: Faktor Pencegahan: - Kontrol gula darah (terutama >40 tahun) - Monitor tekanan darah dan kolesterol - Waspada nyeri dada atipikal - Olahraga untuk menjaga detak jantung maksimal

Indikator Utama: - Usia >50 tahun - Jenis kelamin laki-laki - Nyeri dada tipe 2 - Gula darah >120 mg/dl - Tekanan darah >140 mmHg

2. Dari data berikut, Buat diagram yang sama dengan contoh. Serta jelaskan maksud setiap dari bagian sintag tersebut. Kemudian interpretasikan.

= Berikut merupakan kodenya:

# Buat data dari soal
data2 <- data.frame(
  No = 1:24,
  Konsumsi_GWh = c(10, 20, 30, 50, 70, 90, 40, 80, 120, 200, 300, 400,
                   15, 25, 35, 50, 70, 5, 10, 15, 20, 25, 30, 40),
  Biaya_per_kWh = c(1500, 1450, 1400, 1350, 1300, 1250, 1300, 1250, 1200, 1150,
                    1100, 1050, 1600, 1550, 1500, 1450, 1400, 1700, 1600, 1550,
                    1500, 1450, 1400, 1350),
  Konsumen = c(rep("Rumah Tangga", 6), rep("Industri", 6), rep("Kantor Pemerintah", 5), rep("UMKM", 7))
)

# Buat plot
ggplot(data2, aes(x = Konsumsi_GWh, y = Biaya_per_kWh, color = Konsumen)) +
  geom_point(size = 3) +
  geom_smooth(method = "lm", se = FALSE) +
  theme_minimal() +
  labs(
    title = "Hubungan antara Konsumsi Listrik dan Biaya per kWh",
    x = "Konsumsi (GWh)",
    y = "Biaya per kWh",
    color = "Jenis Konsumen"
  )

## `geom_smooth()` using formula = 'y ~ x'

Penjelasan sintag:

ggplot(data_listrik, aes(…)) = Inisialisasi plot dengan dataset data_listrik aes() mendefinisikan mapping: - Sumbu X: KonsumsLGWh (konsumsi listrik dalam GWh) - Sumbu Y: Biaya_per_kWh (harga per kWh dalam Rupiah) - Warna: dikelompokkan berdasarkan Konsumen
geom_point(size = 3) = Menampilkan data sebagai titik-titik dengan ukuran 3 Setiap titik mewakili satu observasi
geom_smooth(method = “lm”, se = FALSE) = Menambahkan garis tren linear (lm = linear model) se = FALSE menghilangkan area confidence interval
labs() = Memberikan label: - title: Judul utama - x/y: Label sumbu - color: Judul legenda
theme_minimal() = Menggunakan tema minimalis untuk tampilan yang clean

Interpretasi:

Diagram scatter plot menunjukkan hubungan negatif yang konsisten antara tingkat konsumsi listrik dan biaya per kWh pada semua jenis konsumen. Terdapat pola yang jelas di mana semakin besar konsumsi listrik, semakin rendah biaya per kWh-nya, mencerminkan prinsip economy of scale dalam penetapan tarif listrik. Industri sebagai konsumen terbesar (40-400 GWh) menikmati biaya terendah (1050-1300 Rp/kWh), sementara UMKM dengan konsumsi terkecil (5-40 GWh) justru menghadapi biaya tertinggi (1350-1700 Rp/kWh). Perbedaan ini mengindikasikan adanya diskriminasi harga berbasis skala konsumsi.

Analisis lebih mendalam mengungkapkan bahwa: - Rumah tangga menunjukkan tren penurunan harga paling landai, dengan kisaran biaya 1250-1500 Rp/kWh untuk konsumsi 10-90 GWh. - Kantor pemerintah memiliki pola unik dengan biaya relatif tinggi (1400-1600 Rp/kWh) meski konsumsi mencapai 70 GWh. - UMKM mengalami kurva tren paling curam, menunjukkan kerugian signifikan dalam efisiensi biaya.

UTS PSD

Lisda Aryanti

2025-04-20

Pendahuluan

Import Data

Pertanyaan dan Jawaban