บทนำ

การวิเคราะห์การจำแนกประเภท (Discriminant Analysis) เป็นวิธีการวิเคราะห์หลายตัวแปรที่ใช้สำหรับแยกประเภทหรือกลุ่มของคน วัตถุ หรือสิ่งของ โดยอาศัยข้อมูลของตัวแปรที่บันทึกได้ พร้อมทั้งนำมาใช้ในการทำนายควรถูกจัดอยู่ในประเภทใดจากชนิดของประเภทที่ได้กำหนดมาก่อน

กำหนดให้ $f_1(\vec{{\rm x}})$ และ $f_2(\vec{{\rm x}})$ แทน ฟังก์ชันความน่าจะเป็นของตัวอย่าง $\vec{{\rm x}}$ สำหรับประชากรประเภทที่ $\pi_1$ และ $\pi_2$ ตามลำดับ โดยที่ $\vec{{\rm x}}$ จะต้องเป็นประเภทที่ 1 หรือ 2 เพียงประเภทเดียวเท่านั้น กำหนดให้ $R_1$ และ $R_2$ แทนเซตของ$\vec{{\rm x}}$ ทั้งหมดที่ถูกจัดให้อยู่ในประเภท $\pi_1$ และ $\pi_2$ ตามลำดับ โดยที่ ไม่มี $\vec{{\rm x}}$ ใดๆ ความน่าจะเป็นแบบมีเงื่อนไข $P(2|1)$ ในการจำแนกวัตถุเป็นประเภทที่ $\pi_2$ โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท ${{\pi }_{1}}$ แสดงได้ดังนี้ ้ดังรูป

ความน่าจะเป็นแบบมีเงื่อนไข $P(2|1)$ ในการจำแนกวัตถุเป็นประเภทที่ 2 โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท ${{\pi }_{1}}$ แสดงได้ดังนี้

\[P(2|1)=P(\vec{{\rm X}}\in {{R}_{2}}|{{\pi }_{1}})=\int\limits_{{{R}_{2}}}{{{f}_{1}}(\vec{{\rm x}})\,}d\vec{{\rm x}}\]

ความน่าจะเป็นแบบมีเงื่อนไข $P(1|2)$ ในการจำแนกวัตถุเป็นประเภทที่ $\pi_2$ โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท ${{\pi }_{2}}$ แสดงได้ดังนี้

\[P(1|2)=P(\vec{{\rm X}}\in {{R}_{1}}|{{\pi }_{2}})=\int\limits_{{{R}_{1}}}{{{f}_{2}}(\vec{{\rm x}})\,}d\vec{{\rm x}}\]

ให้ ${{p}_{1}}$และ ${{p}_{2}}$ แทน ความน่าจะเป็นก่อน (Prior probability) ของประเภท ${{\pi }_{1}}$ และ ${{\pi }_{2}}$ ตามลำดับ และ ${{p}_{1}}+{{p}_{2}}=1$ เราสามารถหาความน่าจะเป็นที่จำแนกวัตถุได้ถูกต้องหรือจำแนกวัตถุผิดจากประเภทที่แท้จริงได้ดังนี้

\[\begin{align} & P({{\pi }_{1}}|\vec{{\rm x}}\in {{R}_{1}})=P(\vec{{\rm x}}\in {{R}_{1}}|{{\pi }_{1}})P({{\pi }_{1}})=P(1|1){{p}_{1}} \\ & P({{\pi }_{2}}|\vec{{\rm x}}\in {{R}_{1}})=P(\vec{{\rm x}}\in {{R}_{1}}|{{\pi }_{2}})P({{\pi }_{2}})=P(1|2){{p}_{2}} \\ & P({{\pi }_{1}}|\vec{{\rm x}}\in {{R}_{2}})=P(\vec{{\rm x}}\in {{R}_{2}}|{{\pi }_{1}})P({{\pi }_{1}})=P(2|1){{p}_{2}} \\ & P({{\pi }_{2}}|\vec{{\rm x}}\in {{R}_{2}})=P(\vec{{\rm x}}\in {{R}_{2}}|{{\pi }_{2}})P({{\pi }_{2}})=P(2|2){{p}_{2}} \\ \end{align}\]

กำหนดค่าความความเสียหายหากจำแนกประเภทผิด ดังนี้

ดังนั้นเราสามารถกฎการจำแนกได้จากการพิจารณา ค่าความเสียหายเฉลี่ยที่เกิดจากการจำแนกผิด (Expected cost of misclassification, ECM) โดยที่

\[ECM=c(2|1)P(2|1){{p}_{1}}+c(1|2)P(1|2){{p}_{2}}\]

โดยที่เราจะต้องพยายามให้ค่า ECM น้อยที่สุด

ผลลัพธ์ที่ 1.1 ขอบเขตของ ${{R}_{1}}$ และ ${{R}_{2}}$ ที่ทำให้ค่า ECM มีค่าน้อยที่สุดคือขอบเขตที่ $\vec{{\rm x}}$ สอดคล้องกับอสมการนี้ \[\begin{align} & {{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right), \\ & {{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right) \\ \end{align}\]

กรณีเฉพาะสำหรับ ผลลัพธ์ที่ 1.1 ดังนี้

กรณีที่ 1 ${{p}_{2}}={{p}_{1}}$ (Equal prior probability) \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{c(1|2)}{c(2|1)} \right),\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{c(1|2)}{c(2|1)} \right)\]

กรณีที่ 2 $c(1|2)=c(2|1)$ (Equal misclassification) \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{{{p}_{2}}}{{{p}_{1}}} \right),\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right)\]

กรณีที่ 3 $\frac{{{p}_{2}}}{{{p}_{1}}}=\frac{c(1|2)}{c(2|1)}=1$ หรือ $\frac{{{p}_{2}}}{{{p}_{1}}}=\frac{1}{\frac{c(1|2)}{c(2|1)}}$ \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge 1,\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<1\]

การจำแนกประเภท 2 ชนิดสำหรับประชากรที่มีการแจกแจงแบบปกติหลายตัวแปร

สมมติให้ ฟังก์ชันความน่าจะเป็นร่วมของ ${{{\rm X}}^{T}}=[X_{1}^{{}}\,\,{{X}_{2}}\,\,\ldots \,\,{{X}_{p}}]$ สำหรับประชากรในประเภทที่ ${{\pi }_{1}}$ และ ${{\pi }_{2}}$ และมีความแปปรปรวนประชากรเท่ากันและเท่ากับ $\sum$ แสดงได้ดังนี้

สำหรับ $i=1,\,\,2$ และทราบค่า ${{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum$ เราจะได้ว่าขอบเขต ${{R}_{1}},\,\,\,{{R}_{2}}$ ที่ทำให้ ค่า ECM มีค่าน้อยที่สุด และไม่เป็นการเสียหายที่จะละเทอม ${{\left( 2\pi \right)}^{\frac{p}{2}}}{{\left| \sum \right|}^{\frac{1}{2}}}$
จาก ผลลัพธ์ที่ 1.1 จะได้ว่า

ผลลัพธ์ 1.2 กำหนดให้ ${{\pi }_{1}}$และ ${{\pi }_{2}}$ แทนประชากรประเภทที่ 1 และ 2 ตามลำดับ ที่มีการแจกแจงแบบปกติหลายตัวแปร แล้วสำหรับ ${ {\vec{{\rm x}}}_{0}}$ ใดๆ

ในทางปฏิบัติแล้ว เรามักจะไม่ทราบค่าของ ${{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum$ ดังนั้น เราจะแทนค่าพารามิเตอร์เหล่านี้ด้วยค่าสถิติ สมมติให้ สุ่มเวกเตอร์ค่าสังเกต ${{n}_{1}}$ หน่วยใน p ตัวแปร จากประชากรประเภท ${{\pi }_{1}}$ และสุ่มเวกเตอร์ค่าสังเกต ${{n}_{2}}$ หน่วยใน p ตัวแปร จากประชากรประเภท ${{\pi }_{2}}$ โดยประชากรทั้งสองประเภทมีการแจกแจงแบบปกติ และ ${{n}_{1}}+\,\,{{n}_{2}}-2\ge p$ และเมทริกซ์ข้อมูลดังนี้

และ

จะได้ว่า

และ

และจากความแปรปรวนประชากรของทั้งสองประเภทเท่ากัน จึงได้ว่า ${{S}_{pooled}}$ เป็น unbiased estimator ของ $\,\sum$ โดยที่

ซึ่งจาก ผลลัพธ์ 1.2 ถ้าเราแทน ${{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum$ ด้วย \[{{\overrightarrow{{\bar{{\rm x}}}}}_{1}},\,\,{{\overrightarrow{{\bar{{\rm x}}}}}_{2}},\,\,{{S}_{pooled}}\] ตามลำดับจะได้ว่า

สำหรับ ${{\vec{{\rm x}}}_{0}}$ ใดๆ

The Estimated Minimum ECM Rule for Two Normal Populations

จากกฎการจำแนกที่ได้

ถ้าเรากำหนดให้ $\left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right)=1$ จะได้ว่า $\ln \left[ \left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right) \right]=0$ และกำหนดฟังก์ชัน $\hat{{\rm y}}(\vec{{\rm x}})$หรือ $\hat{{\rm y}}$ โดยที่

จาก

จะได้ว่า

นั่นคือ

วิธีการ Fisher สำหรับจำแนก 2 ประเภท

แนวคิด: แปลงข้อมูลหลายตัวแปร $\vec{{\rm x}}$ ให้อยู่ในรูปของตัวแปรเดียว $y$โดยที่ $y$ได้มาจากประชากรประเภท ${{\pi }_{1}}$และ ${{\pi }_{2}}$ ซึ่งทั้ง 2 ประเภทนี้จะต้องแยกให้ได้มากที่สุด

กำหนดให้ ${{y}_{11}},\,\,{{y}_{12}},\ldots ,{{y}_{1{{n}_{1}}}}$แทนผลรวมเชิงเส้นของ $\vec{{\rm x}}$ ที่ได้มาจากประชากรประเภท ${{\pi }_{1}}$ และ ${{y}_{21}},\,\,{{y}_{22}},\ldots ,{{y}_{2{{n}_{2}}}}$ แทนผลรวมเชิงเส้นของ ที่ได้มาจากประชากรประเภท ${{\pi }_{2}}$และทั้งสองประเภทมีความแปรปรวนร่วมประชากรเท่ากัน การแบ่ง 2 ประเภทของค่า $y$ สามารถแสดงได้ ดังนี้ \[separation=\frac{\left| {{{\bar{y}}}_{1}}-{{{\bar{y}}}_{2}} \right|}{{{s}_{y}}}\] เมื่อ $s_{y}^{2}=\frac{\sum\limits_{j=1}^{{{n}_{1}}}{{{\left( {{y}_{1j}}-{{{\bar{y}}}_{1}} \right)}^{2}}}+\sum\limits_{j=1}^{{{n}_{2}}}{{{\left( {{y}_{2j}}-{{{\bar{y}}}_{2}} \right)}^{2}}}}{n{}_{1}+n{}_{2}-2}$

โดยมีวัตถุประสงค์ในการแบ่งคือ หาผลรวมเชิงเส้นของ $\vec{{\rm x}}$ ที่ทำให้ $y$ แยกให้ได้มากที่สุด

ตัวอย่างที่ 2 จากตัวอย่างที่ 1 จงหาค่า separation ที่มากที่สุดเมื่อใช้วิธี Fisher

วิธีการ Fisher สำหรับจำแนก $g$ ประเภท เมื่อ $g>2$

แนวคิด: พยายามหาค่าตัวแทนโดยใช้กลุ่มของผลรวมเชิงเส้น เช่น $\vec{a}_{^{1}}^{T}\vec{{\rm x}}, \vec{a}_{^{2}}^{T}\vec{{\rm x}},\,\vec{a}_{^{3}}^{T}\vec{{\rm x}}$ แทนเวกเตอร์ค่าสังเกต $\vec{{\rm x}}$ ซึ่งแนวคิดนี้ข้อดีคือ

สะดวกในการใช้แทนประชากร$g$ ประเภท เพื่อทำให้มิติลดลงด้วยการแทนด้วยกลุ่มของผลรวมเชิงเส้นแทน
เพื่อพลอตกราฟความสัมพันธ์ระหว่างของแต่ละกลุ่ม
ใช้ในการตรวจสอบ outliers จากการพลอตค่าเวกเตอร์ตัวอย่างจาก สอง discriminant แรก

กำหนดให้ เมทริกความแปรปรวนร่วมประชากรของแต่ละประเภทมีค่าเท่ากันและเท่ากับ $$ และมีคุณสมบัติเป็นลำดับชั้นเต็ม (Full rank) นั่นคือ \[{{\sum }_{1}}={{\sum }_{2}}=\cdots ={{\sum }_{q}}=\sum \] และให้ $\vec{\mu }$ แทนเวกเตอร์ค่าเฉลี่ยรวมของประชากรทั้ง $g$ ประเภทและ ${{\rm B}_{{\vec{\mu }}}}$ แทนผลรวมกลุ่มของผลคูณไขว้ สามารถแสดงได้ดังนี้

\[{{\rm B}_{{\vec{\mu }}}}=\sum\limits_{i=1}^{g}{\left( {{{\vec{\mu }}}_{i}}-\vec{\mu } \right){{\left( {{{\vec{\mu }}}_{i}}-\vec{\mu } \right)}^{T}}}\] โดยที่ $\vec{\mu }=\frac{1}{g}\sum\limits_{i=1}^{g}{{{{\vec{\mu }}}_{i}}}$

พิจารณาผลรวมเชิงเส้น $E({{Y}_{i}})={{\vec{\mu }}_{{{Y}_{i}}}}={{\vec{a}}^{T}}E\left[\vec{{\rm X}} \,\,|\,\,{{\pi }_{i}} \right]={{\vec{a}}^{T}}{{\vec{\mu }}_{i}}$ สำหรับประชากรประเภทที่ $i$ และความแปรปรวน $Var({{Y}_{i}})={{\vec{a}}^{T}}Cov\left[ {\vec{{\rm X}}} \right]\vec{a}={{\vec{a}}^{T}}\sum \vec{a}$ สำหรับทุกประชากรและจะได้ว่า

และจาก

หรือ

โดยปกติแล้ว $\sum$ และ ${{\vec{\mu }}_{i}}$ จะไม่ทราบค่าแต่เราจะทราบเพียงเซตข้อมูลที่เราทราบประเภทของข้อมูลมาก่อนหน้านั้น ซึ่งเราจะเรียกเซตนี้ว่าข้อมูลชุดสอน (Training set) สมมติให้ตัวแปรสุ่มขนาด ${{n}_{i}}$ เมื่อ $i=1,2,\cdots ,g$ กำหนดให้ ${{\vec{{\rm X}}}_{i}}$แทนชุดข้อมูลที่ได้จากประชากรประเภทที่ ${{\pi }_{i}}$ และมีขนาด ${{n}_{i}}\times p$ และให้ ${{\vec{{\rm x}}}_{ij}}$ แทนเวกเตอร์ตัวอย่างของประเภทที่ $i$ ในลำดับที่ $j$ จะได้ว่า $j$ จะได้ว่า

และเมทริกซ์ความแปรปรวนร่วมตัวอย่างประเภทที่ $i$ เท่ากับ ${{{\rm S}}_{i}}$ เมื่อ $i=1,2,\cdots ,g$

ให้ $\vec{\bar{{\rm x}}}=\frac{1}{g}\sum\limits_{i=1}^{g}{{{{\vec{\bar{{\rm x}}}}}_{i}}}$ แทนเวกเตอร์ค่าเฉลี่ยรวม และกำหนดให้ ${\rm B}=\sum\limits_{i=1}^{g}{\left( {{{\vec{\bar{{\rm x}}}}}_{i}}_{i}-\vec{\bar{{\rm x}}} \right){{\left( {{{\vec{\bar{{\rm x}}}}}_{i}}-\vec{\bar{{\rm x}}} \right)}^{T}}}$ แทนเมทริกซ์ความแปรผันระหว่างกลุ่ม (Between group) ของเวกเตอร์ตัวอย่าง และจะประมาณ $\sum$ ด้วยเมริกซ์การแปรผันภายในกลุ่ม (Within group)

จะได้ ${{S}_{pooled}}=\frac{1}{{{n}_{1}}+{{n}_{2}}+\cdots +{{n}_{g}}-g}\text{W}$ จะเป็นตัวประมาณของ $\sum$ และจาก ${\rm W}=\left( {{n}_{1}}+{{n}_{2}}+\cdots +{{n}_{g}}-g \right){{S}_{pooled}}$ ซึ่งเป็นเมทริกซ์ค่าคงที่ ดังนั้นจึงได้ว่า $\vec{a}$ ที่ทำให้ $\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}}{{ {\rm S}}_{pooled}}\vec{a}}$ มีค่ามากที่สุดเป็นเวกเตอร์เดียวกันกับที่เวกเตอร์ที่ทำให้ $\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}} {\rm W}\vec{a}}$ ดังนั้นเราจึงทำการหา $\vec{a}$ ที่ทำให้ $\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}}{\rm W}\vec{a}}$ มีค่ามากที่สุดแทน หรือ $\vec{a}$ ที่อยู่ในรูปของ ไอเกนเวกเตอร์ของ ${{ {\rm W}}^{-1}} {\rm B}$

Fisher’s Sample Linear Discriminants

ให้ ${{\lambda }_{1}}>{{\lambda }_{2}}>\cdots >{{\lambda }_{s}}>0$ โดยที่ $s\le \min (g-1,p)$ แทน ไอเกนเวกเตอร์ที่ได้จาก ${{{\rm W}}^{-1}} {\rm B}$ ที่สัมพันธ์กับไอเกนเวกเตอร์ ${{\vec{{\rm e}}}_{1}},{{\vec{{\rm e}}}_{2}},\cdots ,{{ \vec{{\rm e}}}_{s}}$ ตามลำดับ แล้วจะได้ $\vec{a}$ ที่ทำให้สัดส่วน

มีค่ามากที่สุด คือ ${{\vec{a}}_{1}}={{\vec{{\rm e}}}_{1}}$และจะเรียกผลรวมเชิงเส้น ${{\vec{a}}_{1}}\vec{{\rm x}}$ ว่าเป็นตัวจำแนกตัวอย่างอันดับหนึ่ง (Sample first discriminant) หรือ ${{\vec{a}}_{2}}={{\vec{{\rm e}}}_{2}}$และจะเรียกผลรวมเชิงเส้น ${{\vec{a}}_{2}}\vec{{\rm x}}$ ว่าเป็นตัวจำแนกตัวอย่างอันดับสอง (Sample second discriminant) หรือเช่นเดียวกัน ${{\vec{a}}_{k}}={{\vec{{\rm e}}}_{k}}$ และจะเรียกผลรวมเชิงเส้น ${{\vec{a}}_{k}}\vec{{\rm x}}$ ว่าเป็นตัวจำแนกตัวอย่างอันดับ $k$ (Sample $k ^{th}$ discriminant) โดยที่ $k\le s$ และจะได้

$\vec{a}_{i}^{T}{{S}_{pooled}}{{\vec{a}}_{k}}=1$ ถ้า $i=k\le s$ หรือ $\vec{a}_{i}^{T}{{S}_{pooled}}{{\vec{a}}_{k}}=0$ สำหรับกรณีอื่นๆ

Using Fisher’s Discriminant to Classify Objects

ตัวจำแนกฟิชเชอร์ (Fisher’s Discriminant) ถูกสร้างภายใต้วัตถุประสงค์เพื่อการแปลงข้อมูลในหลายตัวแปรให้อยู่ในรูปตัวแปรที่จำนวนตัวแปรลดลงและทำให้ข้อมูลเหล่านี้แยกจากกันให้มากที่สุด กำหนดให้ \[{{Y}_{k}}={{\vec{a}}_{k}}^{T}\vec{{\rm x}},\,\,k\le s\]

เราจะสรุปได้ว่า

ภายใต้ประชากรประเภท ${{\pi }_{i}}$ และ $\vec{Y}$ มีเมทริกซ์ความแปรปรวนร่วมเท่ากับ ${\rm I}$ สำหรับทุกประชากร และจากแต่ละ ${{Y}_{k}}$ มีความแปรปรวนเท่ากับ 1 และมีความแปรปรวนร่วมเท่ากับ 0 ทำให้ได้ว่า ระยะทางจากตัวอย่าง $\vec{{\rm y}}$ ใดๆกับ ${{\vec{\mu }}_{i,\vec{Y}}}$ คำนวณได้จาก

ดังนั้น เราจะได้ว่าเราจะจำแนก $\vec{{\rm y}}$ ให้เป็นประเภทที่ $k$ ถ้าระยะทางระหว่าง $\vec{{\rm y}}$ และ ${{\vec{\mu }}_{k,\vec{Y}}}$ มีค่าน้อยที่สุด นั่นคือเราสามารถสร้างกฎการจำแนกในกรณีที่จำนวนตัวจำแนกเท่ากับ r คือ สำหรับ $\vec{{\rm x}}$ ใดๆ $\vec{{\rm x}}$ จะถูกจัดให้เป็นประเภท ${{\pi }_{k}}$ ก็ต่อเมื่อ

นอกจากนี้เรายังได้ว่า ไม่เป็นการเสียหายถ้าเราแทนข้อมูลเพียงสองตัวจำแนกถ้าสอดคล้องกับเงื่อนไขต่อไปนี้

Discriminant Analysis

Prem Junsawang, Ph.D.

2/18/2020