การวิเคราะห์การจำแนกประเภท (Discriminant Analysis) เป็นวิธีการวิเคราะห์หลายตัวแปรที่ใช้สำหรับแยกประเภทหรือกลุ่มของคน วัตถุ หรือสิ่งของ โดยอาศัยข้อมูลของตัวแปรที่บันทึกได้ พร้อมทั้งนำมาใช้ในการทำนายควรถูกจัดอยู่ในประเภทใดจากชนิดของประเภทที่ได้กำหนดมาก่อน
กำหนดให้ \(f_1(\vec{{\rm x}})\) และ \(f_2(\vec{{\rm x}})\) แทน ฟังก์ชันความน่าจะเป็นของตัวอย่าง \(\vec{{\rm x}}\) สำหรับประชากรประเภทที่ \(\pi_1\) และ \(\pi_2\) ตามลำดับ โดยที่ \(\vec{{\rm x}}\) จะต้องเป็นประเภทที่ 1 หรือ 2 เพียงประเภทเดียวเท่านั้น กำหนดให้ \(R_1\) และ \(R_2\) แทนเซตของ\(\vec{{\rm x}}\) ทั้งหมดที่ถูกจัดให้อยู่ในประเภท \(\pi_1\) และ \(\pi_2\) ตามลำดับ โดยที่ ไม่มี \(\vec{{\rm x}}\) ใดๆ ความน่าจะเป็นแบบมีเงื่อนไข \(P(2|1)\) ในการจำแนกวัตถุเป็นประเภทที่ \(\pi_2\) โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท \({{\pi }_{1}}\) แสดงได้ดังนี้ ้ดังรูป
ความน่าจะเป็นแบบมีเงื่อนไข \(P(2|1)\) ในการจำแนกวัตถุเป็นประเภทที่ 2 โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท \({{\pi }_{1}}\) แสดงได้ดังนี้
\[P(2|1)=P(\vec{{\rm X}}\in {{R}_{2}}|{{\pi }_{1}})=\int\limits_{{{R}_{2}}}{{{f}_{1}}(\vec{{\rm x}})\,}d\vec{{\rm x}}\]
ความน่าจะเป็นแบบมีเงื่อนไข \(P(1|2)\) ในการจำแนกวัตถุเป็นประเภทที่ \(\pi_2\) โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท \({{\pi }_{2}}\) แสดงได้ดังนี้
\[P(1|2)=P(\vec{{\rm X}}\in {{R}_{1}}|{{\pi }_{2}})=\int\limits_{{{R}_{1}}}{{{f}_{2}}(\vec{{\rm x}})\,}d\vec{{\rm x}}\]
ให้ \({{p}_{1}}\)และ \({{p}_{2}}\) แทน ความน่าจะเป็นก่อน (Prior probability) ของประเภท \({{\pi }_{1}}\) และ \({{\pi }_{2}}\) ตามลำดับ และ \({{p}_{1}}+{{p}_{2}}=1\) เราสามารถหาความน่าจะเป็นที่จำแนกวัตถุได้ถูกต้องหรือจำแนกวัตถุผิดจากประเภทที่แท้จริงได้ดังนี้
\[\begin{align} & P({{\pi }_{1}}|\vec{{\rm x}}\in {{R}_{1}})=P(\vec{{\rm x}}\in {{R}_{1}}|{{\pi }_{1}})P({{\pi }_{1}})=P(1|1){{p}_{1}} \\ & P({{\pi }_{2}}|\vec{{\rm x}}\in {{R}_{1}})=P(\vec{{\rm x}}\in {{R}_{1}}|{{\pi }_{2}})P({{\pi }_{2}})=P(1|2){{p}_{2}} \\ & P({{\pi }_{1}}|\vec{{\rm x}}\in {{R}_{2}})=P(\vec{{\rm x}}\in {{R}_{2}}|{{\pi }_{1}})P({{\pi }_{1}})=P(2|1){{p}_{2}} \\ & P({{\pi }_{2}}|\vec{{\rm x}}\in {{R}_{2}})=P(\vec{{\rm x}}\in {{R}_{2}}|{{\pi }_{2}})P({{\pi }_{2}})=P(2|2){{p}_{2}} \\ \end{align}\]
กำหนดค่าความความเสียหายหากจำแนกประเภทผิด ดังนี้
ดังนั้นเราสามารถกฎการจำแนกได้จากการพิจารณา ค่าความเสียหายเฉลี่ยที่เกิดจากการจำแนกผิด (Expected cost of misclassification, ECM) โดยที่
\[ECM=c(2|1)P(2|1){{p}_{1}}+c(1|2)P(1|2){{p}_{2}}\]
โดยที่เราจะต้องพยายามให้ค่า ECM น้อยที่สุด
ผลลัพธ์ที่ 1.1 ขอบเขตของ \({{R}_{1}}\) และ \({{R}_{2}}\) ที่ทำให้ค่า ECM มีค่าน้อยที่สุดคือขอบเขตที่ \(\vec{{\rm x}}\) สอดคล้องกับอสมการนี้ \[\begin{align} & {{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right), \\ & {{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right) \\ \end{align}\]
กรณีเฉพาะสำหรับ ผลลัพธ์ที่ 1.1 ดังนี้
กรณีที่ 1 \({{p}_{2}}={{p}_{1}}\) (Equal prior probability) \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{c(1|2)}{c(2|1)} \right),\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{c(1|2)}{c(2|1)} \right)\]
กรณีที่ 2 \(c(1|2)=c(2|1)\) (Equal misclassification) \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{{{p}_{2}}}{{{p}_{1}}} \right),\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right)\]
กรณีที่ 3 \(\frac{{{p}_{2}}}{{{p}_{1}}}=\frac{c(1|2)}{c(2|1)}=1\) หรือ \(\frac{{{p}_{2}}}{{{p}_{1}}}=\frac{1}{\frac{c(1|2)}{c(2|1)}}\) \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge 1,\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<1\]
สมมติให้ ฟังก์ชันความน่าจะเป็นร่วมของ \({{{\rm X}}^{T}}=[X_{1}^{{}}\,\,{{X}_{2}}\,\,\ldots \,\,{{X}_{p}}]\) สำหรับประชากรในประเภทที่ \({{\pi }_{1}}\) และ \({{\pi }_{2}}\) และมีความแปปรปรวนประชากรเท่ากันและเท่ากับ \(\sum\) แสดงได้ดังนี้
สำหรับ \(i=1,\,\,2\) และทราบค่า \({{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum\) เราจะได้ว่าขอบเขต \({{R}_{1}},\,\,\,{{R}_{2}}\) ที่ทำให้ ค่า ECM มีค่าน้อยที่สุด และไม่เป็นการเสียหายที่จะละเทอม \({{\left( 2\pi \right)}^{\frac{p}{2}}}{{\left| \sum \right|}^{\frac{1}{2}}}\)
จาก ผลลัพธ์ที่ 1.1 จะได้ว่า
ผลลัพธ์ 1.2 กำหนดให้ \({{\pi }_{1}}\)และ \({{\pi }_{2}}\) แทนประชากรประเภทที่ 1 และ 2 ตามลำดับ ที่มีการแจกแจงแบบปกติหลายตัวแปร แล้วสำหรับ \({ {\vec{{\rm x}}}_{0}}\) ใดๆ
ในทางปฏิบัติแล้ว เรามักจะไม่ทราบค่าของ \({{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum\) ดังนั้น เราจะแทนค่าพารามิเตอร์เหล่านี้ด้วยค่าสถิติ สมมติให้ สุ่มเวกเตอร์ค่าสังเกต \({{n}_{1}}\) หน่วยใน p ตัวแปร จากประชากรประเภท \({{\pi }_{1}}\) และสุ่มเวกเตอร์ค่าสังเกต \({{n}_{2}}\) หน่วยใน p ตัวแปร จากประชากรประเภท \({{\pi }_{2}}\) โดยประชากรทั้งสองประเภทมีการแจกแจงแบบปกติ และ \({{n}_{1}}+\,\,{{n}_{2}}-2\ge p\) และเมทริกซ์ข้อมูลดังนี้
ซึ่งจาก ผลลัพธ์ 1.2 ถ้าเราแทน \({{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum\) ด้วย \[{{\overrightarrow{{\bar{{\rm x}}}}}_{1}},\,\,{{\overrightarrow{{\bar{{\rm x}}}}}_{2}},\,\,{{S}_{pooled}}\] ตามลำดับจะได้ว่า
สำหรับ \({{\vec{{\rm x}}}_{0}}\) ใดๆ![]()
ถ้าเรากำหนดให้ \(\left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right)=1\) จะได้ว่า \(\ln \left[ \left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right) \right]=0\) และกำหนดฟังก์ชัน \(\hat{{\rm y}}(\vec{{\rm x}})\)หรือ \(\hat{{\rm y}}\) โดยที่
จาก
จะได้ว่า
นั่นคือ
แนวคิด: แปลงข้อมูลหลายตัวแปร \(\vec{{\rm x}}\) ให้อยู่ในรูปของตัวแปรเดียว \(y\)โดยที่ \(y\)ได้มาจากประชากรประเภท \({{\pi }_{1}}\)และ \({{\pi }_{2}}\) ซึ่งทั้ง 2 ประเภทนี้จะต้องแยกให้ได้มากที่สุด
กำหนดให้ \({{y}_{11}},\,\,{{y}_{12}},\ldots ,{{y}_{1{{n}_{1}}}}\)แทนผลรวมเชิงเส้นของ \(\vec{{\rm x}}\) ที่ได้มาจากประชากรประเภท \({{\pi }_{1}}\) และ \({{y}_{21}},\,\,{{y}_{22}},\ldots ,{{y}_{2{{n}_{2}}}}\) แทนผลรวมเชิงเส้นของ ที่ได้มาจากประชากรประเภท \({{\pi }_{2}}\)และทั้งสองประเภทมีความแปรปรวนร่วมประชากรเท่ากัน การแบ่ง 2 ประเภทของค่า \(y\) สามารถแสดงได้ ดังนี้ \[separation=\frac{\left| {{{\bar{y}}}_{1}}-{{{\bar{y}}}_{2}} \right|}{{{s}_{y}}}\] เมื่อ \(s_{y}^{2}=\frac{\sum\limits_{j=1}^{{{n}_{1}}}{{{\left( {{y}_{1j}}-{{{\bar{y}}}_{1}} \right)}^{2}}}+\sum\limits_{j=1}^{{{n}_{2}}}{{{\left( {{y}_{2j}}-{{{\bar{y}}}_{2}} \right)}^{2}}}}{n{}_{1}+n{}_{2}-2}\)
โดยมีวัตถุประสงค์ในการแบ่งคือ หาผลรวมเชิงเส้นของ \(\vec{{\rm x}}\) ที่ทำให้ \(y\) แยกให้ได้มากที่สุด
ตัวอย่างที่ 2 จากตัวอย่างที่ 1 จงหาค่า separation ที่มากที่สุดเมื่อใช้วิธี Fisher![]()
แนวคิด: พยายามหาค่าตัวแทนโดยใช้กลุ่มของผลรวมเชิงเส้น เช่น \(\vec{a}_{^{1}}^{T}\vec{{\rm x}}, \vec{a}_{^{2}}^{T}\vec{{\rm x}},\,\vec{a}_{^{3}}^{T}\vec{{\rm x}}\) แทนเวกเตอร์ค่าสังเกต \(\vec{{\rm x}}\) ซึ่งแนวคิดนี้ข้อดีคือ
สะดวกในการใช้แทนประชากร\(g\) ประเภท เพื่อทำให้มิติลดลงด้วยการแทนด้วยกลุ่มของผลรวมเชิงเส้นแทน
เพื่อพลอตกราฟความสัมพันธ์ระหว่างของแต่ละกลุ่ม
ใช้ในการตรวจสอบ outliers จากการพลอตค่าเวกเตอร์ตัวอย่างจาก สอง discriminant แรก
กำหนดให้ เมทริกความแปรปรวนร่วมประชากรของแต่ละประเภทมีค่าเท่ากันและเท่ากับ $$ และมีคุณสมบัติเป็นลำดับชั้นเต็ม (Full rank) นั่นคือ \[{{\sum }_{1}}={{\sum }_{2}}=\cdots ={{\sum }_{q}}=\sum \] และให้ \(\vec{\mu }\) แทนเวกเตอร์ค่าเฉลี่ยรวมของประชากรทั้ง \(g\) ประเภทและ \({{\rm B}_{{\vec{\mu }}}}\) แทนผลรวมกลุ่มของผลคูณไขว้ สามารถแสดงได้ดังนี้
\[{{\rm B}_{{\vec{\mu }}}}=\sum\limits_{i=1}^{g}{\left( {{{\vec{\mu }}}_{i}}-\vec{\mu } \right){{\left( {{{\vec{\mu }}}_{i}}-\vec{\mu } \right)}^{T}}}\] โดยที่ \(\vec{\mu }=\frac{1}{g}\sum\limits_{i=1}^{g}{{{{\vec{\mu }}}_{i}}}\)
พิจารณาผลรวมเชิงเส้น \(E({{Y}_{i}})={{\vec{\mu }}_{{{Y}_{i}}}}={{\vec{a}}^{T}}E\left[\vec{{\rm X}} \,\,|\,\,{{\pi }_{i}} \right]={{\vec{a}}^{T}}{{\vec{\mu }}_{i}}\) สำหรับประชากรประเภทที่ \(i\) และความแปรปรวน \(Var({{Y}_{i}})={{\vec{a}}^{T}}Cov\left[ {\vec{{\rm X}}} \right]\vec{a}={{\vec{a}}^{T}}\sum \vec{a}\) สำหรับทุกประชากรและจะได้ว่า
และเมทริกซ์ความแปรปรวนร่วมตัวอย่างประเภทที่ \(i\) เท่ากับ \({{{\rm S}}_{i}}\) เมื่อ \(i=1,2,\cdots ,g\)
ให้ \(\vec{\bar{{\rm x}}}=\frac{1}{g}\sum\limits_{i=1}^{g}{{{{\vec{\bar{{\rm x}}}}}_{i}}}\) แทนเวกเตอร์ค่าเฉลี่ยรวม และกำหนดให้ \({\rm B}=\sum\limits_{i=1}^{g}{\left( {{{\vec{\bar{{\rm x}}}}}_{i}}_{i}-\vec{\bar{{\rm x}}} \right){{\left( {{{\vec{\bar{{\rm x}}}}}_{i}}-\vec{\bar{{\rm x}}} \right)}^{T}}}\) แทนเมทริกซ์ความแปรผันระหว่างกลุ่ม (Between group) ของเวกเตอร์ตัวอย่าง และจะประมาณ \(\sum\) ด้วยเมริกซ์การแปรผันภายในกลุ่ม (Within group)
จะได้ \({{S}_{pooled}}=\frac{1}{{{n}_{1}}+{{n}_{2}}+\cdots +{{n}_{g}}-g}\text{W}\) จะเป็นตัวประมาณของ \(\sum\) และจาก \({\rm W}=\left( {{n}_{1}}+{{n}_{2}}+\cdots +{{n}_{g}}-g \right){{S}_{pooled}}\) ซึ่งเป็นเมทริกซ์ค่าคงที่ ดังนั้นจึงได้ว่า \(\vec{a}\) ที่ทำให้ \(\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}}{{ {\rm S}}_{pooled}}\vec{a}}\) มีค่ามากที่สุดเป็นเวกเตอร์เดียวกันกับที่เวกเตอร์ที่ทำให้ \(\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}} {\rm W}\vec{a}}\) ดังนั้นเราจึงทำการหา \(\vec{a}\) ที่ทำให้ \(\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}}{\rm W}\vec{a}}\) มีค่ามากที่สุดแทน หรือ \(\vec{a}\) ที่อยู่ในรูปของ ไอเกนเวกเตอร์ของ \({{ {\rm W}}^{-1}} {\rm B}\)
มีค่ามากที่สุด คือ \({{\vec{a}}_{1}}={{\vec{{\rm e}}}_{1}}\)และจะเรียกผลรวมเชิงเส้น \({{\vec{a}}_{1}}\vec{{\rm x}}\) ว่าเป็นตัวจำแนกตัวอย่างอันดับหนึ่ง (Sample first discriminant) หรือ \({{\vec{a}}_{2}}={{\vec{{\rm e}}}_{2}}\)และจะเรียกผลรวมเชิงเส้น \({{\vec{a}}_{2}}\vec{{\rm x}}\) ว่าเป็นตัวจำแนกตัวอย่างอันดับสอง (Sample second discriminant) หรือเช่นเดียวกัน \({{\vec{a}}_{k}}={{\vec{{\rm e}}}_{k}}\) และจะเรียกผลรวมเชิงเส้น \({{\vec{a}}_{k}}\vec{{\rm x}}\) ว่าเป็นตัวจำแนกตัวอย่างอันดับ \(k\) (Sample \(k ^{th}\) discriminant) โดยที่ \(k\le s\) และจะได้
\(\vec{a}_{i}^{T}{{S}_{pooled}}{{\vec{a}}_{k}}=1\) ถ้า \(i=k\le s\) หรือ \(\vec{a}_{i}^{T}{{S}_{pooled}}{{\vec{a}}_{k}}=0\) สำหรับกรณีอื่นๆ
ตัวจำแนกฟิชเชอร์ (Fisher’s Discriminant) ถูกสร้างภายใต้วัตถุประสงค์เพื่อการแปลงข้อมูลในหลายตัวแปรให้อยู่ในรูปตัวแปรที่จำนวนตัวแปรลดลงและทำให้ข้อมูลเหล่านี้แยกจากกันให้มากที่สุด กำหนดให้ \[{{Y}_{k}}={{\vec{a}}_{k}}^{T}\vec{{\rm x}},\,\,k\le s\]
เราจะสรุปได้ว่า
ภายใต้ประชากรประเภท \({{\pi }_{i}}\) และ \(\vec{Y}\) มีเมทริกซ์ความแปรปรวนร่วมเท่ากับ \({\rm I}\) สำหรับทุกประชากร และจากแต่ละ \({{Y}_{k}}\) มีความแปรปรวนเท่ากับ 1 และมีความแปรปรวนร่วมเท่ากับ 0 ทำให้ได้ว่า ระยะทางจากตัวอย่าง \(\vec{{\rm y}}\) ใดๆกับ \({{\vec{\mu }}_{i,\vec{Y}}}\) คำนวณได้จาก