1 Pendahuluan

1.1 Latar Belakang

Kanker paru-paru merupakan salah satu penyakit yang menjadi ancaman serius bagi kesehatan masyarakat. Penyakit ini tidak hanya berbahaya tetapi juga memiliki angka kematian yang tinggi. Penyakit ini berkembang ketika sel-sel abnormal di paru-paru mulai tumbuh secara tidak terkendali dan menyebabkan kerusakan pada jaringan paru-paru dan sistem tubuh lainnya. Meskipun deteksi dini dan pengobatan kanker paru-paru sudah berkembang, angka kasus dan kematian akibat penyakit ini masih tetap tinggi yang menunjukkan bahwa risiko terkena kanker paru-paru sulit dikendalikan.

Merokok merupakan faktor utama yang dapat meningkatkan risiko kanker paru-paru. Selain merokok, terdapat beberapa faktor lain yang mungkin berpengaruh, seperti usia, kelelahan, tekanan dari lingkungan, serta gejala fisik seperti batuk, sesak napas, dan nyeri dada.

Hasil dari penelitian harapannya dapat memberikan pemahaman yang lebih mendalam mengenai faktor-faktor yang berpengaruh terhadap risiko kanker paru-paru sehingga dapat membantu dalam mengembangkan strategi pencegahan dan intervensi yang lebih efektif dalam mengurangi penyakit kanker paru-paru di masyarakat.

1.2 Rumusan Masalah

Berdasarkan uraian latar belakang dapat dirumuskan masalah sebagai berikut:

  1. Apa saja faktor-faktor yang dapat mempengaruhi risiko kanker paru-paru?

  2. Apa faktor paling dominan yang mempengaruhi risiko kanker paru-paru?

1.3 Tujuan

Penelitian ini bertujuan untuk mengidentifikasi faktor-faktor yang berpengaruh dan paling dominan terhadap risiko kanker paru-paru.

2 Tinjauan Pustaka

2.1 Analisis Faktor

2.1.1 Pengertian

Analisis faktor merupakan salah satu metode analisis multivariat yang digunakan untuk mengidentifikasi faktor-faktor yang paling signifikan di antara berbagai varibel yang ada dengan mengelompokkan variabel-variabel yang saling berhubungan kedalam satu faktor yang sama. Tujuan dari analisis ini adalah untuk mengidentifikasi, mengelompokkan, dan menyederhanakan faktor-faktor yang mewakili dimensi dari suatu variabel tanpa kehilangan informasi penting. Menurut Hair et al. (2010), analisis faktor membantu mengungkap struktur yang mendasari data dan memudahkan interpretasi hubungan antar variabel yang kompleks.

2.1.2 Model Analisis Faktor

Model umum analisis faktor sebagai berikut:

\[ x_1 = \lambda_{11} f_1 + \lambda_{12} f_2 + \dots + \lambda_{1k} f_k + u_1 \]

\[ x_2 = \lambda_{21} f_1 + \lambda_{22} f_2 + \dots + \lambda_{2k} f_k + u_2 \]

\[ \vdots \]

\[ x_q = \lambda_{q1} f_1 + \lambda_{q2} f_2 + \dots + \lambda_{qk} f_k + u_q \]

Keterangan:

  • \(x' = [x_1, x_2, \dots, x_q]\) adalah \(q\) variabel manifes yang dapat diobservasi.
  • \(f' = [f_1, f_2, \dots, f_k]\) adalah \(k\) faktor bersama yang tidak dapat diobservasi dengan \(k < q\).
  • \(\lambda_{ij}\) adalah nilai pembobot faktor ketika diestimasi.

Model analisis faktor menyiratkan bahwa varians variabel manifes \(x_i\) dapat dihitung dengan:

\[ \sigma^2_i = \sum_{j=1}^{k} \lambda^2_{ij} + \psi_i \]

di mana \(\psi_i\) adalah varians dari \(u_i\).

Matriks kovarian populasi dari variabel manifes \(\Sigma\), dinyatakan dalam bentuk:

\[ \Sigma = \Lambda \Lambda' + \Psi \]

\(\Psi = \text{diag}(\psi_i)\).

Jika diestimasi dengan sampel maka:

\[ S = \hat{\Lambda} \hat{\Lambda}' + \hat{\Psi} \]

2.1.3 Asumsi Analisis Faktor

Diperlukan beberapa asumsi yang harus dipenuhi dalam melakukan analisis faktor, yaitu:

  1. Ukuran sampel besar minimal 5-10 kali dari jumlah variabel yang dianalisis.

  2. Korelasi antar variabel cukup kuat dengan nilai korelasi lebih dari 0.6.

  3. Mean dari faktor bersama bernilai 0.

  4. Varians dari faktor bersama bernilai 1.

  5. Hubungan antar variabel bersifat linier.

2.2 Uji Hipotesis

Measure of Sampling Adequacy (MSA)

Measure of Sampling Adequacy digunakan untuk menentukan apakah variabel layak untuk dianalisis lebih lanjut atau tidak. MSA adalah salah satu tahap awal dalam analisis faktor, yang digunakan untuk menilai kualitas data sebelum melanjutkan dengan analisis faktor itu sendiri. Kriteria pengambilan keputusan adalah jika nilai MSA Indikator < 0.5, maka variabel tersebut akan tereliminasi dan tidak dapat diikutsertakan dalam analisis komponen utama.

Kiser-Mayer-Olkin (KMO)

Uji KMO (Kaiser-Meyer-Olkin) digunakan untuk menguji kelayakan sampel dan mengukur seberapa baik variabel-variabel berkorelasi satu sama lain, sehingga dapat dikelompokkan menjadi faktor-faktor yang lebih sedikit. Nilai Uji KMO berkisar antara 0 dan 1, yang menggambarkan seberapa besar variasi dalam data yang dapat dijelaskan oleh faktor-faktor yang ada. Semakin tinggi nilai KMO, semakin baik data tersebut untuk analisis faktor, dan semakin rendah nilai KMO menunjukkan bahwa data kurang sesuai untuk dianalisis menggunakan metode faktor. Kriteria pengambilan keputusan adalah besar nilai statistik KMO minimal sebesar 0.5.

Bartlett’s test of sphericity

Uji Bartlett digunakan untuk menguji apakah matriks korelasi antar variabel yang diamati dapat dianggap sebagai matriks identitas, yang berarti tidak ada hubungan antar variabel tersebut. Uji Bartlett didasarkan pada statistik chi-kuadrat yang mengukur perbedaan antara matriks korelasi yang diperoleh dari data dan matriks identitas.

Hipotesis uji Bartlett, sebagai berikut:

\(H_0:\) Tidak terdapat korelasi yang signifikan antar beberapa variabel

\(H_1:\) Terdapat korelasi yang signifikan antar beberapa variabel

Kriteria pengambilan keputusannya adalah jika nilai p dari uji ini kurang dari tingkat signifikansi, maka hipotesis nol ditolak dan sehingga terdapat hubungan antara variabel-variabel yang diteliti dan analisis faktor dapat dilakukan.

2.3 Metode Ekstrasi Faktor

Principal Component Analysis (PCA) dan Principal Factor Analysis (PFA) merupakan dua metode ekstraksi faktor yang umum digunakan. PCA mengasumsikan bahwa setiap variabel dapat dijelaskan dengan kombinasi linier faktor bersama, yang mencakup variansi total variabel.Sebaliknya, PFA membagi variasi variabel menjadi dua bagian satu bagian yang dijelaskan oleh faktor bersama dan satu bagian yang unik untuk masing-masing variabel.

3 Data

Data yang digunakan dalam penelitian adalah data faktor-faktor yang mempengaruhi risiko kanker paru-paru yang diambil dari sumber Kaggle dengan judul “Lung Cancer”. Variabel-variabel yang digunakan sebagai berikut:

\(X_1\) : Age
\(X_2\) : Smoking (1: Ya, 0: Tidak)
\(X_3\) : Yellow fingers (1: Ya, 0: Tidak)
\(X_4\) : Anxiety (1: Ya, 0: Tidak)
\(X_5\) : Wheezing (1: Ya, 0: Tidak)
\(X_6\) : Alchohol (1: Ya, 0: Tidak)
\(X_7\) : Coughing (1: Ya, 0: Tidak)
\(X_8\) : Swallowing difficulty (1: Ya, 0: Tidak)
\(X_9\) : Chest pain (1: Ya, 0: Tidak)

Berikut merupakan data yang digunakan dalam penelitian ini:

> Data <- readxl::read_excel("D:/Tugas/SEM 5/ANMUL/lung cancer.xlsx")
> knitr::kable(Data,caption = "Data Faktor Kanker Paru-Paru",align="l")
Data Faktor Kanker Paru-Paru
AGE SMOKING YELLOW_FINGERS ANXIETY WHEEZING ALCOHOL COUGHING SWALLOWING_DIFFICULTY CHEST_PAIN
69 0 1 1 1 1 1 1 1
74 1 0 0 0 0 0 1 1
59 0 0 0 1 0 1 0 1
63 1 1 1 0 1 0 1 1
63 0 1 0 1 0 1 0 0
75 0 1 0 1 0 1 0 0
52 1 0 0 1 1 1 0 1
51 1 1 1 0 0 0 1 0
68 1 0 1 0 0 0 0 0
53 1 1 1 0 1 0 1 1
61 1 1 1 1 0 1 1 0
72 0 0 0 1 1 1 0 1
60 1 0 0 0 0 0 0 0
58 1 0 0 1 1 1 0 1
69 1 0 0 1 1 1 0 1
48 0 1 1 1 0 1 1 0
75 1 0 0 1 1 1 0 1
57 1 1 1 0 1 0 1 1
68 1 1 1 0 0 1 0 0
61 0 0 0 0 0 0 0 0
44 1 1 1 0 0 0 1 0
64 0 1 1 1 0 1 1 0
21 1 0 0 0 0 0 0 0
60 1 0 0 1 1 1 0 1
72 1 1 1 1 1 1 1 1
65 0 1 1 1 1 1 1 1
61 1 1 1 0 1 0 1 1
69 0 0 0 1 0 1 0 1
53 1 1 1 1 1 0 1 1
55 0 1 0 1 1 1 0 0
57 1 1 0 0 0 0 0 0
62 1 0 1 1 1 0 1 1
56 1 1 1 0 0 0 1 0
67 1 1 1 0 0 0 1 1
59 0 1 1 0 0 0 1 1
59 1 1 1 0 0 0 1 0
60 0 1 0 1 0 1 0 1
56 0 0 0 1 0 0 1 0
56 1 0 0 1 0 0 0 1
60 1 0 0 1 1 1 0 1
68 1 0 1 0 1 1 0 1
63 0 0 0 1 1 0 1 0
77 0 1 1 1 1 0 0 0
52 1 0 0 1 1 0 0 1
70 1 1 0 0 1 1 1 0
72 1 1 1 1 1 1 1 1
62 1 1 0 0 0 1 1 1
64 1 1 0 1 1 1 1 1
70 0 0 1 1 1 0 1 1
60 0 0 1 0 1 0 0 0
56 0 0 0 1 1 0 0 1
63 1 1 1 1 0 0 0 0
54 1 0 0 1 1 1 1 1
49 1 0 0 1 1 1 1 1
57 0 1 0 0 1 1 0 0
52 0 1 1 1 1 1 1 0
63 0 1 0 0 0 1 0 1
73 0 0 0 0 1 1 1 1
47 0 1 0 1 0 0 1 1
69 1 1 1 0 1 1 0 1
70 0 1 0 1 1 1 1 1
60 0 1 1 0 0 1 0 0
70 0 1 0 1 1 1 0 0
68 0 0 1 1 1 0 1 0
74 0 1 0 1 1 1 0 1
71 1 1 1 1 0 1 1 1
56 0 1 0 1 0 1 0 1
66 1 0 0 1 1 1 0 0
76 1 1 1 0 0 0 1 1
78 1 1 1 1 0 1 1 0
68 1 1 1 0 1 0 1 1
66 1 1 1 1 0 1 1 0
67 0 0 0 1 1 1 0 1
60 1 0 0 0 0 0 0 0
61 1 0 0 1 1 1 0 1
58 1 0 0 1 1 1 0 0
76 0 1 1 1 0 1 1 1
56 1 0 0 1 1 1 0 1
67 1 1 1 0 1 0 1 1
73 1 1 1 0 0 1 1 1
58 0 0 0 0 0 0 0 0
54 1 1 1 0 0 0 1 0
62 1 1 1 1 1 0 1 1
81 0 0 0 0 1 1 0 0
56 0 0 0 0 1 1 0 1
60 0 1 1 1 1 1 1 0
66 0 1 1 0 1 1 0 1
62 0 1 1 1 0 0 1 1
62 1 1 1 0 1 0 0 0
55 1 0 0 1 1 0 1 1
62 0 0 0 1 1 0 1 1
71 0 0 0 0 0 1 0 1
52 1 0 0 1 1 0 1 1
59 0 1 1 1 1 1 1 0
48 1 0 0 0 1 1 1 1
60 0 1 1 0 0 0 1 1
61 1 1 1 0 1 1 0 1
59 1 0 0 0 1 1 0 0
64 0 1 1 0 0 1 1 0
56 1 0 0 1 1 1 0 1
58 1 0 0 1 1 1 0 0
81 0 1 1 1 0 1 1 1
64 1 0 0 1 1 1 0 1
62 1 1 1 0 1 0 1 1
72 1 1 1 0 0 1 1 1
60 0 0 0 0 0 0 0 0
61 1 1 1 0 0 0 1 0
60 1 1 1 1 1 0 1 1
49 0 0 0 0 1 1 0 0
53 0 0 0 0 1 0 0 1
58 0 1 1 1 1 1 1 1
61 1 1 1 0 1 0 1 1
68 0 0 0 1 0 1 0 1
60 1 1 1 0 1 0 1 1
72 0 1 0 1 1 1 0 0
72 0 1 0 1 0 1 0 0
57 1 0 0 1 1 1 0 1
51 1 1 1 0 0 0 1 0
54 1 1 1 1 0 1 1 0
56 0 1 1 0 1 0 1 1
77 1 1 1 1 0 1 1 0
64 0 0 0 1 1 1 0 1
57 1 0 1 0 0 0 0 0
66 1 1 1 1 1 1 0 0
70 1 0 0 0 1 1 0 1
53 0 1 1 0 0 1 0 0
51 1 0 0 1 1 1 0 1
58 1 1 1 0 1 0 1 1
58 1 1 1 0 0 1 1 0
63 0 0 0 0 0 0 0 0
51 1 1 1 0 0 0 1 0
61 0 1 1 1 0 1 1 0
61 1 0 0 0 0 0 0 0
76 1 0 0 1 1 1 0 1
71 1 1 1 1 1 1 1 1
69 0 0 1 1 1 1 1 0
56 1 1 1 0 0 0 0 1
67 0 0 0 1 0 1 0 1
54 1 1 1 1 1 0 1 1
63 0 1 0 1 1 1 0 0
47 1 1 0 1 0 1 0 0
62 1 0 1 1 1 1 0 1
65 1 1 1 0 0 0 1 0
63 1 1 1 1 0 1 1 1
64 0 1 1 0 1 0 1 1
65 1 1 1 1 0 1 1 0
51 0 1 0 1 1 1 0 1
56 0 0 0 0 1 1 1 0
70 1 0 0 1 1 1 0 1
58 1 0 0 1 1 1 0 1
67 1 0 1 0 1 1 0 1
62 0 0 0 1 1 0 1 0
74 0 1 1 1 1 0 0 0
69 1 0 0 0 0 0 0 1
64 1 1 0 0 0 0 0 0
75 1 1 1 0 0 0 0 1
47 1 1 0 0 0 0 0 1
57 1 1 0 0 0 0 0 1
56 0 0 1 1 1 0 1 1
68 0 0 1 0 1 0 0 0
55 0 0 0 1 1 0 0 1
62 1 1 1 1 0 0 0 0
73 1 0 0 1 1 1 1 1
68 1 0 0 1 1 1 1 1
75 0 1 0 0 1 1 0 0
63 0 1 1 1 1 1 1 0
61 0 1 0 0 0 1 0 1
62 0 0 0 0 1 1 1 1
44 0 1 0 1 0 0 1 1
56 1 1 1 0 1 1 0 1
54 0 1 0 1 1 1 1 1
57 0 1 1 0 0 1 0 0
56 0 1 0 1 1 1 0 0
69 0 0 1 1 1 0 1 0
72 0 1 0 1 1 1 0 1
59 1 1 1 1 0 1 1 1
70 0 1 0 1 0 1 0 1
64 1 0 0 1 1 1 0 0
61 1 1 1 0 0 0 1 1
72 1 1 1 1 0 1 1 0
63 1 1 1 0 1 0 1 1
74 1 1 1 1 0 1 1 0
71 0 0 0 1 1 1 0 1
71 1 0 0 0 0 0 0 0
72 1 0 0 1 1 1 0 1
77 1 0 0 1 1 1 0 0
72 0 1 1 0 0 0 0 0
55 1 0 0 0 0 0 0 0
65 1 1 1 0 0 0 0 0
67 1 1 1 0 0 0 0 0
69 0 0 0 0 0 0 0 0
55 1 1 1 0 0 0 0 0
51 1 1 1 0 0 0 0 0
64 0 0 0 0 0 0 0 0
63 0 0 0 0 1 1 0 1
69 0 1 1 1 1 1 1 0
64 0 1 1 0 1 1 0 1
59 0 1 1 1 0 0 1 1
73 1 1 1 0 1 0 0 0
55 1 0 0 1 1 0 1 1
63 0 0 0 1 1 0 1 1
60 0 0 0 0 0 1 0 1
74 1 0 0 1 1 0 1 1
65 0 1 1 1 1 1 1 0
79 1 0 0 0 1 1 1 1
62 0 1 1 0 0 0 1 1
71 1 1 1 0 1 1 0 1
63 1 0 0 0 0 1 0 0
67 0 1 1 0 0 1 1 0
55 1 0 0 1 1 1 0 1
54 1 0 0 1 1 1 0 0
77 0 1 1 1 0 1 1 1
58 1 0 0 1 1 1 0 1
64 1 1 1 0 1 0 1 1
61 1 1 1 0 0 1 1 1
62 0 0 0 0 0 0 0 0
67 1 1 1 0 0 0 1 0
56 1 1 1 1 1 0 1 1
70 0 0 0 0 1 1 0 0
70 0 0 0 0 1 1 0 1
57 0 0 1 1 1 0 1 1
61 0 0 1 0 1 0 0 0
77 0 0 0 1 1 0 0 1
63 1 1 1 1 0 0 0 0
62 1 0 0 1 1 1 1 1
59 1 0 0 1 1 1 1 1
70 0 1 0 0 1 1 0 0
71 0 1 1 1 1 1 1 0
56 0 1 0 0 0 1 0 1
57 0 0 0 0 1 1 1 1
78 0 1 0 1 0 0 1 1
64 1 1 1 0 1 1 0 1
62 0 1 0 1 1 1 1 1
49 0 1 1 0 0 1 0 0
77 0 1 0 1 1 1 0 0
64 0 0 1 1 1 0 1 0
63 0 1 0 1 1 1 0 1
54 1 1 1 1 0 1 1 1
38 0 1 0 1 0 1 0 1
75 0 1 1 1 0 1 1 0
70 1 0 0 0 0 0 0 0
59 1 0 0 1 1 1 0 1
77 1 1 1 1 0 0 1 1
61 0 0 1 1 1 1 1 0
64 1 1 1 0 0 0 0 1
59 0 0 0 1 0 0 0 1
71 1 1 1 1 1 0 1 1
67 0 1 0 1 1 1 0 0
64 1 1 0 1 0 1 0 0
68 1 0 1 0 0 0 0 0
69 1 1 1 0 0 0 1 0
64 1 1 1 1 0 1 1 1
59 0 1 1 0 1 0 1 1
67 1 1 1 1 0 1 1 0
74 0 1 0 1 1 1 0 1
77 0 0 0 0 1 1 1 0
60 1 0 0 1 1 1 0 1
64 1 0 0 1 1 1 0 1
70 1 0 1 0 1 1 0 1
58 0 0 0 1 1 0 1 0
59 0 1 1 1 1 0 0 0
39 1 0 0 1 1 0 0 1
67 0 1 0 1 0 1 0 0
71 0 1 0 1 0 1 0 0
70 1 0 0 1 1 1 0 1
60 1 1 1 0 0 0 1 0
55 1 0 1 0 0 0 0 0
60 1 1 1 0 1 0 1 1
55 1 1 1 1 0 1 1 0
55 0 0 0 1 1 1 0 1
70 1 0 0 0 0 0 0 0
63 1 0 0 1 1 1 0 1
64 1 0 0 1 1 1 0 1
59 0 1 1 1 0 1 1 0
56 1 0 0 1 1 1 0 1
64 1 1 1 0 1 0 1 1
62 1 1 1 0 0 1 0 0
87 0 0 0 0 0 0 0 0
77 1 1 1 0 0 0 1 0
59 0 1 1 1 0 1 1 0
59 1 0 0 0 0 0 0 0
55 1 0 0 0 0 0 0 1
46 0 1 1 0 0 0 1 1
60 0 1 1 1 1 1 1 1
58 1 1 1 0 1 0 1 1
58 1 1 1 0 0 1 1 0
63 0 0 0 0 0 0 0 0
51 1 1 1 0 0 0 1 0
61 0 1 1 1 0 1 1 0
61 1 0 0 0 0 0 0 0
76 1 0 0 1 1 1 0 1
71 1 1 1 1 1 1 1 1
69 0 0 1 1 1 1 1 0
56 1 1 1 0 0 0 0 1
67 0 0 0 1 0 1 0 1
54 1 1 1 1 1 0 1 1
63 0 1 0 1 1 1 0 0
47 1 1 0 1 0 1 0 0
62 1 0 1 1 1 1 0 1
65 1 1 1 0 0 0 1 0
63 1 1 1 1 0 1 1 1
64 0 1 1 0 1 0 1 1
65 1 1 1 1 0 1 1 0
51 0 1 0 1 1 1 0 1
56 0 0 0 0 1 1 1 0
70 1 0 0 1 1 1 0 1
58 1 0 0 1 1 1 0 1
67 1 0 1 0 1 1 0 1
62 0 0 0 1 1 0 1 0

4 Source Code

> library(readxl)
> library(psych)
> library(corrplot)
> library(REdaS)

4.1 Input Data

> Data <- read_excel("D:/Tugas/SEM 5/ANMUL/lung cancer.xlsx")
> data.frame(Data)
> str(Data)

Dapat dilihat, terdapat 309 data dengan 9 variabel. Untuk menampilkan 6 baris pertama data dapat menggunakan fungsi head(Data).

> head(Data)

4.2 Eksplorasi Data

> summary(Data)

Fungsi summary() digunakan untuk menghitung statistika deskriptif yaitu mean, median, nilai maksimum, nilai minimum, kuartil 1, dan kuartil 2.

4.3 Visualisasi Data

4.3.1 Matriks korelasi

> Data2 <- cor(Data)
> corrplot(Data2, method = "number")

Fungsi cor() digunakan untuk menghitung korelasi pada data dan fungsi corrplot() digunakan untuk membuat plot korelasi antar variabel.

4.3.2 Menghitung Nilai Eigen

> eigenvalues <- eigen(Data2)$values
> eigenvalues

Fungsi eigen() digunakan untuk menghitung nilai eigen dari matriks korelasi.

4.3.3 Scree Plot

> scree_plot <- plot(eigenvalues, main = "Scree Plot",
+                   xlab = "Faktor", ylab = "Nilai Eigen",
+                   pch = 20, col = "Blue", type = "o", lwd = 1.5) +
+             axis(1, at = seq(1, 7)) +
+             abline(h = 1, col = "Purple", lty = 2, lwd = 1)

4.4 Uji KMO dan MSA

> KMO <- KMOS(Data)
> KMO

Statistik KMO dan MSA dapat dihitung dengan fungsi KMOS(). Jika nilai MSA < 0.5, maka variabel tidak dapat dianalisis lebih lanjut.

4.5 Bartlett’s Test of Sphericity

> bart_spher(Data)

Pengujian korelasi antar variabel dapat menggunakan fungsi bart_spher().

4.6 Ekstrasi dan Rotasi Faktor

Dengan PCA

> r <- Data
> nfactors <- 3 #Dari Scree Plot
> PCA = principal(r, nfactors, rotate = "varimax")
> PCA$communality

Dengan PFA

> r <- Data
> nfactors <- 3 #D\ari Scree Plot
> PFA <- fa(r, nfactors, rotate = "varimax", fm = "pa")
> PFA

4.7 Interpretasi Analisis Faktor

> fa.diagram(PFA,rsize = 1)

Fungsi fa.diagram() digunakan untuk membuat diagram faktor atau diagram yang menunjukkan hubungan antara variabel-variabel dengan faktor-faktor yang dihasilkan oleh analisis faktor.

5 Hasil dan Pembahasan

5.1 Eksplorasi Data

> summary(Data)
      AGE           SMOKING       YELLOW_FINGERS      ANXIETY      
 Min.   :21.00   Min.   :0.0000   Min.   :0.0000   Min.   :0.0000  
 1st Qu.:57.00   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000  
 Median :62.00   Median :1.0000   Median :1.0000   Median :0.0000  
 Mean   :62.67   Mean   :0.5631   Mean   :0.5696   Mean   :0.4984  
 3rd Qu.:69.00   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1.0000  
 Max.   :87.00   Max.   :1.0000   Max.   :1.0000   Max.   :1.0000  
    WHEEZING         ALCOHOL          COUGHING      SWALLOWING_DIFFICULTY
 Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :0.0000       
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000       
 Median :1.0000   Median :1.0000   Median :1.0000   Median :0.0000       
 Mean   :0.5566   Mean   :0.5566   Mean   :0.5793   Mean   :0.4693       
 3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1.0000       
 Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.0000       
   CHEST_PAIN    
 Min.   :0.0000  
 1st Qu.:0.0000  
 Median :1.0000  
 Mean   :0.5566  
 3rd Qu.:1.0000  
 Max.   :1.0000  

Data ini menunjukkan pola distribusi umum dari kondisi kesehatan dan gaya hidup tertentu pada populasi yang lebih tua, dengan banyaknya individu yang memiliki kebiasaan merokok, konsumsi alkohol, dan beberapa gejala kesehatan seperti batuk dan sesak napas.

5.2 Visualisasi Data

5.2.1 Matriks korelasi

> Data2 <- cor(Data)
> corrplot(Data2, method = "number")

Berdasarkan hasil plot matriks korelasi nilai koefisien korelasi antar variabel tidak sama dengan 0. Sehingga terdapat hubungan antar variabel dan asumsi model analisis faktor.

5.2.2 Menghitung Nilai Eigen

> eigenvalues <- eigen(Data2)$values
> eigenvalues
[1] 2.2538752 1.5146822 1.2851581 0.9584323 0.8744783 0.7043256 0.6209977
[8] 0.4674059 0.3206446

Berdasarkan output nilai eigen, terdapat 3 nilai eigen lebih dari satu yaitu komponen 1, komponen 2, dan komponen 3. Sehingga faktor yang dapat menjelaskan keseluruhan data (faktor bermakna) hanya terdapat 3 faktor.

5.2.3 Scree Plot

> scree_plot <- plot(eigenvalues, main = "Scree Plot",
+                   xlab = "Faktor", ylab = "Nilai Eigen",
+                   pch = 20, col = "Blue", type = "o", lwd = 1.5) +
+             axis(1, at = seq(1, 7)) +
+             abline(h = 1, col = "Purple", lty = 2, lwd = 1)

Berdasarkan scatter plot terlihat terdapat 3 faktor pertama yang memiliki nilai eigen lebih dari 1, sehingga faktor bermakna hanya terdapat 3 faktor.

5.3 Uji KMO dan MSA

> KMO <- KMOS(Data)
> KMO

Kaiser-Meyer-Olkin Statistics

Call: KMOS(x = Data)

Measures of Sampling Adequacy (MSA):
                  AGE               SMOKING        YELLOW_FINGERS 
            0.4602579             0.4489340             0.5841077 
              ANXIETY              WHEEZING               ALCOHOL 
            0.5875642             0.6076268             0.6070760 
             COUGHING SWALLOWING_DIFFICULTY            CHEST_PAIN 
            0.5729165             0.6203065             0.5495881 

KMO-Criterion: 0.5833941

Berdasarkan output, nilai KMO-Criterion sebesar 0.5833941 > 0.5, sehingga analisis faktor dapat diterapkan. Nilai MSA >0.5 pada output dapat diikutsertakan dalam analisis faktor selanjutnya.

5.4 Bartlett’s Test of Sphericity

> bart_spher(Data)
    Bartlett's Test of Sphericity

Call: bart_spher(x = Data)

     X2 = 432.758
     df = 36
p-value < 2.22e-16

Hipotesis

\(H_0:\) Tidak terdapat korelasi yang signifikan antar beberapa variabel

\(H_1:\) Terdapat korelasi yang signifikan antar beberapa variabel

Keputusan

p-value (2.22e-16) < \(a\) (0.05), maka tolak \(H_0\).

Interpretasi

Dengan taraf nyata 5% dapat disimpulkan cukup bukti bahwa terdapat korelasi yang signifikan antar beberapa variabel, sehingga matriks korelasi antar variabel pada data layak digunakan dalam analisis faktor.

5.5 Ekstrasi dan Rotasi Faktor

Dengan PCA

> r <- Data
> nfactors <- 3 #Dari Scree Plot
> PCA = principal(r, nfactors, rotate = "varimax")
> PCA$communality
                  AGE               SMOKING        YELLOW_FINGERS 
            0.2457889             0.4227042             0.6699146 
              ANXIETY              WHEEZING               ALCOHOL 
            0.7582383             0.5489807             0.5752855 
             COUGHING SWALLOWING_DIFFICULTY            CHEST_PAIN 
            0.5607797             0.6480707             0.6239529 

Ouput PCA menunjukkan setiap variabel memiliki nilai < 1, sehingga kurang representatif. Oleh karena itu, PCA kurang tepat digunakan sebagai metode ekstraksi faktor pada kasus ini.

Dengan PFA

> r <- Data
> nfactors <- 3 #D\ari Scree Plot
> PFA <- fa(r, nfactors, rotate = "varimax", fm = "pa")
> PFA
Factor Analysis using method =  pa
Call: fa(r = r, nfactors = nfactors, rotate = "varimax", fm = "pa")
Standardized loadings (pattern matrix) based upon correlation matrix
                        PA1   PA2   PA3    h2   u2 com
AGE                    0.04  0.01  0.21 0.045 0.95 1.1
SMOKING                0.09  0.07 -0.27 0.086 0.91 1.3
YELLOW_FINGERS         0.66 -0.30  0.12 0.535 0.46 1.5
ANXIETY                0.83 -0.14 -0.18 0.738 0.26 1.2
WHEEZING              -0.03  0.34  0.47 0.337 0.66 1.8
ALCOHOL               -0.12  0.63  0.14 0.428 0.57 1.2
COUGHING              -0.12  0.15  0.67 0.482 0.52 1.2
SWALLOWING_DIFFICULTY  0.60  0.14 -0.07 0.388 0.61 1.1
CHEST_PAIN             0.00  0.52 -0.02 0.266 0.73 1.0

                       PA1  PA2  PA3
SS loadings           1.52 0.93 0.86
Proportion Var        0.17 0.10 0.10
Cumulative Var        0.17 0.27 0.37
Proportion Explained  0.46 0.28 0.26
Cumulative Proportion 0.46 0.74 1.00

Mean item complexity =  1.3
Test of the hypothesis that 3 factors are sufficient.

df null model =  36  with the objective function =  1.42 with Chi Square =  432.76
df of  the model are 12  and the objective function was  0.14 

The root mean square of the residuals (RMSR) is  0.04 
The df corrected root mean square of the residuals is  0.06 

The harmonic n.obs is  309 with the empirical chi square  30.17  with prob <  0.0026 
The total n.obs was  309  with Likelihood Chi Square =  41.44  with prob <  4.1e-05 

Tucker Lewis Index of factoring reliability =  0.776
RMSEA index =  0.089  and the 90 % confidence intervals are  0.06 0.12
BIC =  -27.36
Fit based upon off diagonal values = 0.97
Measures of factor score adequacy             
                                                   PA1  PA2  PA3
Correlation of (regression) scores with factors   0.89 0.76 0.76
Multiple R square of scores with factors          0.79 0.57 0.57
Minimum correlation of possible factor scores     0.58 0.14 0.15

Output PFA menunjukkan setiap variabel memiliki nilai < 1, sehingga metode ekstraksi faktor PFA sudah tepat.

Model Analisis Faktor:

\(X_1 = 0.04 F_1 + 0.01 F_2 + 0.21 F_3 + u1\)
\(X_2 = 0.09 F_1 + 0.07 F_2 - 0.27 F_3 + u2\)
\(X_3 = 0.66 F_1 - 0.30 F_2 + 0.12 F_3 + u3\)
\(X_4 = 0.83 F_1 - 0.14 F_2 - 0.18 F_3 + u4\)
\(X_5 = -0.03 F_1 + 0.34 F_2 + 0.47 F_3 + u5\)
\(X_6 = -0.12 F_1 + 0.63 F_2 + 0.14 F_3 + u6\)
\(X_7 = -0.12 F_1 + 0.15 F_2 + 0.67 F_3 + u7\)
\(X_8 = 0.60 F_1 + 0.14 F_2 - 0.07 F_3 + u8\)
\(X_9 = 0.00 F_1 + 0.52 F_2 - 0.02 F_3 + u9\)

Untuk memastikan suatu variabel masuk dalam kelompok faktor 1, 2, atau 3 dapat ditentukan dengan melihat nilai mutlak korelasi terbesar antara variabel dengan faktor yang terbentuk. Tanda positif dan negatif menunjukkan arah korelasi dari variabel tersebut. Faktor 1 terdiri dari variabel \(X_3\), \(X_4\), dan \(X_8\). Faktor 2 terdiri dari variabel \(X_6\) dan \(X_9\). Faktor 3 terdiri dari variabel \(X_5\) dan \(X_7\). Sedangkan variabel \(X_1\) dan \(X_2\) tidak masuk dalam faktor karena memiliki nilai korelasi yang terlalu kecil.

Nilai proporsi ragam setiap faktor sebagai berikut:

Faktor 1 = 0.17
Faktor 2 = 0.10
Faktor 3 = 0.10

Hal ini menunjukkan bahwa faktor 1 merupakan faktor paling dominan karena memiliki nilai proporsi ragam terbesar. Dimana faktor 1 mampu menjelaskan keragaman sebesar 17%, faktor 2 dan faktor 3 sebesar 10%,dan secara kumulatif ketiga faktor mampu menjelaskan keragaman sebesar 37%.

5.6 Interpretasi Analisis Faktor

> fa.diagram(PFA,rsize = 1)

Berdasarkan hasil output tersebut memperkuat pernyataan sebelumnya. Sehingga dapat disimpulkan sebagai berikut:

  • Faktor 1 (PA1) berkorelasi signifikan dengan variabel \(X_3\) (Yellow fingers), \(X_4\) (Anxiety), dan \(X_8\) (Swallowing difficulty). Ketiga variabel ini dapat dikaitkan dengan gejala awal yang meningkatkan risiko kanker paru-paru. Sehingga faktor 1 dapat diinterpretasikan sebagai faktor gejala awal.
  • Faktor 2 (PA2) berkorelasi signifikan dengan variabel \(X_6\) (Alcohol) dan \(X_9\) (Chest pain). Kedua variabel ini lebih terkait dengan kebiasaan dan risiko kesehatan. Sehingga faktor 2 dapat diinterpretasikan sebagai faktor kebiasaan dan risiko kesehatan.
  • Faktor 3 (PA3) berkorelasi signifikan dengan variabel \(X_5\) (Wheezing) dan \(X_7\) (Coughing). Kedua variabel ini dapat dikaitkan dengan gejala yang umum muncul pada penyakit paru-paru yaitu gangguan pernafasan. Sehingga faktor 3 dapat diinterpretasikan sebagai faktor gangguan pernafasan.

6 Penutup

6.1 Kesimpulan

Berdasarkan hasil analisis faktor yang telah dilakukan didapatkan 3 faktor dari 9 variabel yang mempengaruhi risiko kanker paru-paru. Ketiga faktor tersebut diinterpretasikan sebagai faktor gejala awal, kebiasaan dan risiko kesehatan, serta gangguan pernafasan. Variabel age dan smoking tidak memiliki korelasi dengan ketiga faktor yang telah terbentuk. Hal ini mengindikasikan bahwa variabel age dan smoking dapat dijelaskan lebih baik oleh faktor lain di luar model.

Faktor gejla awal merupakan faktor paling dominan karena memiliki nilai proporsi ragam terbesar yaitu 17%, faktor kebiasaaan dan risiko kesehatan memiliki nilai proporsi ragam yaitu 10%, dan faktor gangguan pernafasan memiliki nilai proporsi ragam yaitu 10%. Ketiga faktor tersebut mampu menjelaskan keragaman sebesar 37%.

Melalui penelitian ini, harapannya masyarakat dapat lebih mengetahui dan menyadari faktor-faktor apa saja yang dapat mempengaruhi risiko kanker paru-paru, sehingga dapat melakukan tindakan preventif untuk menjaga kesehatan. Peningkatan kesadaran ini dapat berperan penting dalam pencegahan kanker paru-paru dan membantu masyarakat untuk lebih menjaga kesehatan paru-paru mereka.

6.2 Saran

Saran dalam penelitian ini adalah meneliti variabel-variabel yang berbeda. Sehingga dapat diketahui faktor-faktor apa saja yang mungkin mempengaruhi risiko kanker paru-paru secara lebih lengkap.

7 Daftar Pustaka

Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2010). Multivariate Data Analysis (7th ed.). Pearson.

American Cancer Society. (2023). Lung Cancer.

Sumber data : https://www.kaggle.com/datasets/mysarahmadbhat/lung-cancer/