Principal Component Analysis (PCA) การวิเคราะห์องค์ประกอบหลัก

สมมติให้ \(\vec{{\rm x}}_1, \vec{{\rm x}}_2, \ldots, \vec{{\rm x}}_n\) เป็นตัวอย่างสุ่มขนาด \(n\) โดยที่ \(\vec{{\rm x}}_j=\begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_p \end{bmatrix}\) และให้ \({\rm S}=\begin{bmatrix} s_{11}&s_{12}&\ldots&s_{1p} \\ s_{21}&s_{22}&\ldots&s_{2p} \\ \vdots&\vdots&\ddots&\vdots \\ s_{p1}&s_{p2}&\ldots&s_{pp} \end{bmatrix}\) แทน Covariance matrix ของตัวอย่างที่มีชุด eigenvalue และ eigenvector ดังนี้ \[\left ( \vec{{\rm e}}_1=\begin{bmatrix} e_{11} \\ e_{12} \\ \vdots \\ e_{1p} \end{bmatrix}, \lambda_1 \right ),\left ( \vec{{\rm e}}_2=\begin{bmatrix} e_{21} \\ e_{22} \\ \vdots \\ e_{2p} \end{bmatrix}, \lambda_2 \right ),\ldots,\left ( \vec{{\rm e}}_m=\begin{bmatrix} e_{m1} \\ e_{m2} \\ \vdots \\ e_{mp} \end{bmatrix}, \lambda_m \right )\]

โดยที่ $_1 _2 _m $ และ \(m<p\) เราสามารถประมาณค่า Factor loadings ได้ดังนี้

\[{\rm L}=\begin{bmatrix} \sqrt{\lambda_1}{\rm e}_{11} & \sqrt{\lambda_2}{\rm e}_{21}&\ldots&\sqrt{\lambda_m}{\rm e}_{m1} \\ \sqrt{\lambda_1}{\rm e}_{12} & \sqrt{\lambda_2}{\rm e}_{22}&\ldots&\sqrt{\lambda_m}{\rm e}_{m2} \\ \vdots&\vdots&\ddots&\vdots \\ \sqrt{\lambda_1}{\rm e}_{1p} & \sqrt{\lambda_2}{\rm e}_{2p}&\ldots&\sqrt{\lambda_m}{\rm e}_{mp} \end{bmatrix}\]

และประมาณ communality \((h^2)\) และ specific variance \((\psi _i)\) ที่ \(i\) ได้ด้วย \[h^2_i=l^2_{i1}+l^2_{i2}+\cdots+l^2_{im}\] และ \((\psi _i)=s_{ii}-h^2_i\) และ และ \(s_{ii}=l^2_{i1}+l^2_{i2}+\cdots+l^2_{im}+\psi _i\) นั่นคือ Factor ที่ 1 สามารถอธิบาย \(s_{ii}\) ได้เท่ากับ \(l^2_{i1}\) เนื่องจาก
Total sample variance (\(s_{total}\))

\[s_{total} =s_{11}+s_{22}+\cdots+s_{pp}=\lambda_{1}+\lambda_{2}+\cdots+\lambda_{p}\]

ดังนั้น Total sample variance จะสามารถอธิบายได้โดย Factor ที่ 1 มีค่าเท่ากับ \[\begin{equation} \begin{aligned} l^2_{11}+l^2_{21}+\cdots+l^2_{p1} &=\left ( \sqrt{\lambda_1}e_{11} \right )^2+\left ( \sqrt{\lambda_1}e_{12} \right )^2+\cdots+\left ( \sqrt{\lambda_2}e_{1p} \right )^2\\ &= \lambda_1 \left ( e^2_{11}+e^2_{12}+\cdots+e^2_{1p} \right )\\ &= \lambda_1 \left \| \vec{{\rm e}}_1 \right \|^2 \\ &= \lambda_1 \end{aligned} \end{equation}\]

และในทำนองเดียวกัน จะได้ Total sample variance จะสามารถอธิบายได้โดย Factor ที่ i มีค่าเท่ากับ \(\lambda_i\)

ดังนั้น เราสามารถหา สัดส่วนของ Total sample variance ที่อธิบายได้ด้วย Factor ที่ i ได้ดังนี้ \[\frac{\lambda_i}{s_{11}+s_{22}+\cdots+s_{pp}}\] หรือ \[\frac{\lambda_i}{\lambda_{1}+\lambda_{2}+\cdots+\lambda_{p}}\] ความแปรปรวนร่วมระหว่าง \(X_i\) และ \(F_k\) สำหรับ \(i=1,2,\ldots,p\) และ \(k=1,2,\ldots,m\) สามารถหาได้ดังนี้ \[ Cov[X_i,F_k]=\sigma_{iF_k}=l_{ik} \]

ในทางปฏิบัติเรามักจะกำจัดปัญหาอันเกิดจากความแปรปรวน ที่สูงมากๆในบางตัวแปร ดังนั้นจึงทำการปรับข้อมูลให้เป็น มาตรฐาน หรือที่เรียกว่า Standardized

และเนื่องจาก Covariance matrix ของตัวอย่าง \(\vec{{\rm z}}_1,\vec{{\rm z}}_2,\ldots,\vec{{\rm z}}_n\) มีค่าเท่ากับ Correlation matrix ของตัวอย่าง \(\vec{{\rm x}}_1,\vec{{\rm x}}_2,\ldots,\vec{{\rm x}}_n\) นั่นคือ \[S_Z=R=\begin{bmatrix} 1 & r_{12} &\cdots & r_{1p}\\ r_{21} & 1 &\cdots & r_{2p} \\ \vdots & \vdots & \ddots &\vdots \\ r_{p1} & r_{p2} & \cdots & 1 \end{bmatrix}\]

ดังนั้น Factor ที่ i สามารถอธิบาย Total sample variance เท่ากับ \[\frac{\lambda_i}{s_{11}+s_{22}+\cdots+s_{pp}}=\frac{\lambda_i}{p}\]





Factor Analysis Summary







Factor Analysis by SPSS

วัตถุประสงค์

1. แก้ปัญหาการวิเคราะห์การถดถอยเชิงซ้อน (Multiple Regression Analysis) กรณีที่ตัวแปรอิสระมีจำนวนมากเกินไป และตัวแปรอิสระแต่ละตัวมีความสัมพันธ์กันเองสูง จึงจำเป็นต้องลดจำนวนตัวแปรลง โดยตัวแปรที่มีความสัมพันธ์กันจะจับกลุ่มอยู่ด้วยกัน แล้วกำหนดชื่อให้ใหม่  หรือที่เรียกว่าปัจจัย โดยปัจจัยแต่ละปัจจัยจะไม่มีความสัมพันธ์กัน 
2. นำไปใช้ในการสร้างมาตรวัดองค์ประกอบ (Composite Measurement) ซึ่งเป็นมาตรวัดทางจิตวิทยา ตัวแปรมีลักษณะเป็นนามธรรม (Abstract) ซึ่งมีข้อคำถามหลายข้อมาใช้วัด      เช่น   ความพึงพอใจ บุคลิกภาพ ภาวะผู้นำ ฯลฯ ผู้วิจัยต้องสร้างข้อคำถามหลายข้อในด้านต่างๆ มาใช้วัด ในรูปของคะแนนประเมินค่า 5 ระดับ เช่น เห็นด้วยอย่างยิ่ง  เห็นด้วย  ปานกลาง  ไม่เห็นด้วย และ ไม่เห็นด้วยอย่างยิ่ง โดยให้คะแนนเป็น 5  4  3  2  และ 1 ตามลำดับ ซึ่งวิธีการที่ส่วนใหญ่ใช้กันคือ การนำคะแนนของทุกข้อคำถามมารวมกัน หาคะแนนเฉลี่ย เป็นคะแนนเฉลี่ยในแต่ละด้าน  ซึ่งมีข้อกำหนดเบื้องต้นว่าข้อคำถามแต่ละข้อมีน้ำหนักเท่าๆ กัน แต่ในความเป็นจริงอาจไม่เป็นเช่นนั้น เทคนิคการวิเคราะห์ปัจจัยจะช่วยในการถ่วงน้ำหนักของข้อคำถามแต่ละข้อ (Factor Weights) โดยออกมาในรูปสัมประสิทธิ์ของคะแนนปัจจัย (Factor Score Coefficient)  เช่น คะแนนปัจจัยความพึงพอใจ (Factor Scores)  = 0.657 (คะแนนมาตรฐานคำถามข้อ1) + 0.754 (คะแนนมาตรฐานคำถามข้อ2) +0.005 (คะแนนมาตรฐานคำถามข้อ3) - 0.007 (คะแนนมาตรฐานคำถามข้อ4)

ตัวอย่าง

สมมติว่าคะแนนการสอบเข้าเป็นนักเรียนเตรียมทหารในส่วนของกองทัพอากาศ ใน 4 วิชาคือ วิชาภาษาอังกฤษ (Eng) วิชาภาษาไทย (Thai) วิชาคณิตศาสตร์ (Math) และ วิชาวิทยาศาสตร์ (Science) ของผู้เข้าสอบ 20 คน แสดงได้ใน Data Editor ของ SPSS ดังนี้

ขั้นตอนการใช้ SPSS วิเคราะห์ข้อมูล

  1. Analyze >>Data Reduction>>Factor…

  2. เลือกทุกตัวแปรไปไว้ในกล่อง Variables :

  3. ทำการเลือกการตรวจสอบความเหมาะสมของวิธีการ โดย คลิ๊กที่ปุ่ม Descriptives… เลือกที่ Initial Solution, Coefficients, KMO and Barlett’s test of sphericity

  4. ทำการเลือกวิธีสกัดปัจจัย Extraction… เลือก Method: จาก drop down list ในที่นี้เลือกวิธี Principal components

  5. ทำการเลือกเมทริกซ์ที่จะวิเคราะห์ ในที่นี้เลือก Correlation matrix แสดงผล Unrotated factor solution และ ภาพ Scree plot พร้อมทั้งเลือกวิธีการคัดเลือกปัจจัย โดยในเนื้อหานี้จะเลือกปัจจัยโดยการพิจารณาจากค่า eigenvalue ที่มีค่ามากกว่า 1แสดงดังรูปที่ 6

  6. กดปุ่ม OK


การแปลผล

\[\begin{equation} \begin{aligned} Z_1 &=l_{11}F_1+l_{12}F2\\ Z_2 &=l_{21}F_1+l_{22}F2\\ Z_3 &=l_{31}F_1+l_{32}F2\\ Z_4 &=l_{41}F_1+l_{42}F2 \end{aligned} \end{equation}\]

ตาราง Total Variance Explained อธิบายได้ว่าตัวแปรเดิมทั้ง 4 ตัว เมื่อสกัดปัจจัยแล้วจะเหลือเพียง 2 ปัจจัย (Component1 และ Component2 ) เท่านั้น โดยปัจจัยที่ 1 (ตัวแปรใหม่ที่เกิดจากการรวมตัวแปรเดิมที่มีความสัมพันธ์กันเข้าด้วยกัน) สามารถอธิบายความแปรปรวนของตัวแปรเดิมได้ประมาณ 2 ตัวแปร (ค่า Eigenvalues = 2.057) หรือ คิดเป็นร้อยละ 51.43 ปัจจัยที่ 2 สามารถอธิบายความแปรปรวนของตัวแปรเดิมได้ประมาณ 2 ตัวแปร (ค่า Eigenvalues = 1.892) หรือ คิดเป็นร้อยละ 47.30 ส่วนปัจจัยที่ 3 และ 4 สามารถอธิบายความแปรปรวนของตัวแปรเดิมได้น้อยมาก หรือแทบไม่ได้เลย แปลตรงๆ ได้ว่าการสกัดปัจจัยใหม่นี้มีเพียง 2 ปัจจัยเท่านั้น และสามารถอธิบายความแปรปรวนของตัวแปรเดิมได้ ร้อนละ 98.729

จากตาราง Component Matrix เราสามารถแสดงตัวแบบ Factor Analysis ดังนี้ \[\begin{equation} \begin{aligned} คะแนนมาตรฐานวิชา \;Eng (Z_1) &= 0.689 \times คะแนนปัจจัยที่ 1 \;(F_1)-0.716 \times คะแนนปัจจัยที่ 2 \;(F_2)\\ คะแนนมาตรฐานวิชา \;Thai (Z_2) &= 0.762 \times คะแนนปัจจัยที่ 1 \;(F_1)-0.637 \times คะแนนปัจจัยที่ 2 \;(F_2)\\ คะแนนมาตรฐานวิชา \;Math (Z_3) &= 0.660 \times คะแนนปัจจัยที่ 1 \;(F_1)+0.743 \times คะแนนปัจจัยที่ 2 \;(F_2)\\ คะแนนมาตรฐานวิชา \;Sc (Z_4) &= 0.752 \times คะแนนปัจจัยที่ 1 \;(F_1)+0.649 \times คะแนนปัจจัยที่ 2 \;(F_2) \end{aligned} \end{equation}\]

และเราสามารถนำค่าน้ำหนักปัจจัย (Factor loading) มาคำนวณหาค่า ค่าความร่วมกัน (Communulity) และค่า Eigenvalues ได้ดังนี้

และเราสามารถพล็อตกราฟองค์ประกอบได้ดังนี้

และจากตาราง Component Score Coefficient matrix จะได้สมการคำนวณค่าปัจจัยดังนี้ \[\begin{equation} \begin{aligned} คะแนนปัจจัยที่ 1 (F_1) &= 0.335 \times คะแนนมาตรฐานวิชา \; Eng (Z_1)+0.371 \times คะแนนมาตรฐานวิชา \; Thai (Z_2)+\\ &0.321 \times คะแนนมาตรฐานวิชา \;Math (Z_3)+0.321 \times คะแนนมาตรฐานวิชา \;Sc (Z_4)\\ คะแนนปัจจัยที่ 1 (F_1) &= -0.379 \times คะแนนมาตรฐานวิชา \; Eng (Z_1)-0.371 \times คะแนนมาตรฐานวิชา \; Thai (Z_2)+\\ &0.393 \times คะแนนมาตรฐานวิชา \;Math (Z_3)+0.343 \times คะแนนมาตรฐานวิชา \;Sc (Z_4)\\ \end{aligned} \end{equation}\]

การหมุนแกน

  1. กด Rotation >> เลือก วิธีหมุนแกน Method ในนี้เลือก Varimax และเลือกการแสดงผล Display ในนี้เลือก Rotated solution และ Loadings plot(s)

  2. กด OK


เปรียบเทียบค่า Factor loading ที่ได้จากไม่มีการหมุนแกน และมีการหมุนแกน

ตัวแปร ENG และ THAI มีค่าน้ำหนักปัจจัย (Factor Loading : L) มากในปัจจัยที่ 1 (0.993 และ 0.990) ส่วนตัวแปร MATH และ SCIENCE มีค่าน้ำหนักปัจจัยมากในปัจจัยที่ 2 (0.993 และ 0.990) ดังนั้น 
ปัจจัยที่ 1 จึงเป็นการรวมตัวกันของตัวแปร ENG และ THAI ซึ่งอาจตั้งชื่อปัจจัยที่ 1 นี้ว่า ปัจจัยด้านการบรรยาย 
ปัจจัยที่ 2 เป็นการรวมตัวกันของตัวแปร MATH และ SCIENCE  ซึ่งอาจตั้งชื่อปัจจัยที่ 2 นี้ว่า ปัจจัยด้านการคิดวิเคราะห์ 

และเราสามารถพล็อตกราฟองค์ประกอบหลังจากหมุนแกนได้ ได้ดังนี้

และ

และจะได้ค่าปัจจัยของคะแนนสอบ กรณีไม่มีการหมุนแกน \(fac1\_1\;fac2\_1\) และกรณีมีการหมุนแกน \(fac1\_2\;fac2\_2\) ดังนี้