บทนำ

การวิเคราะห์การจำแนกประเภท (Discriminant Analysis) เป็นวิธีการวิเคราะห์หลายตัวแปรที่ใช้สำหรับแยกประเภทหรือกลุ่มของคน วัตถุ หรือสิ่งของ โดยอาศัยข้อมูลของตัวแปรที่บันทึกได้ พร้อมทั้งนำมาใช้ในการทำนายควรถูกจัดอยู่ในประเภทใดจากชนิดของประเภทที่ได้กำหนดมาก่อน

กำหนดให้ \(f_1(\vec{{\rm x}})\) และ \(f_2(\vec{{\rm x}})\) แทน ฟังก์ชันความน่าจะเป็นของตัวอย่าง \(\vec{{\rm x}}\) สำหรับประชากรประเภทที่ \(\pi_1\) และ \(\pi_2\) ตามลำดับ โดยที่ \(\vec{{\rm x}}\) จะต้องเป็นประเภทที่ 1 หรือ 2 เพียงประเภทเดียวเท่านั้น กำหนดให้ \(R_1\) และ \(R_2\) แทนเซตของ\(\vec{{\rm x}}\) ทั้งหมดที่ถูกจัดให้อยู่ในประเภท \(\pi_1\) และ \(\pi_2\) ตามลำดับ โดยที่ ไม่มี \(\vec{{\rm x}}\) ใดๆ ความน่าจะเป็นแบบมีเงื่อนไข \(P(2|1)\) ในการจำแนกวัตถุเป็นประเภทที่ \(\pi_2\) โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท \({{\pi }_{1}}\) แสดงได้ดังนี้ ้ดังรูป

ความน่าจะเป็นแบบมีเงื่อนไข \(P(2|1)\) ในการจำแนกวัตถุเป็นประเภทที่ 2 โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท \({{\pi }_{1}}\) แสดงได้ดังนี้

\[P(2|1)=P(\vec{{\rm X}}\in {{R}_{2}}|{{\pi }_{1}})=\int\limits_{{{R}_{2}}}{{{f}_{1}}(\vec{{\rm x}})\,}d\vec{{\rm x}}\]

ความน่าจะเป็นแบบมีเงื่อนไข \(P(1|2)\) ในการจำแนกวัตถุเป็นประเภทที่ \(\pi_2\) โดยเป็นวัตถุที่ถูกจัดว่าเป็นประเภท \({{\pi }_{2}}\) แสดงได้ดังนี้

\[P(1|2)=P(\vec{{\rm X}}\in {{R}_{1}}|{{\pi }_{2}})=\int\limits_{{{R}_{1}}}{{{f}_{2}}(\vec{{\rm x}})\,}d\vec{{\rm x}}\]

ให้ \({{p}_{1}}\)และ \({{p}_{2}}\) แทน ความน่าจะเป็นก่อน (Prior probability) ของประเภท \({{\pi }_{1}}\) และ \({{\pi }_{2}}\) ตามลำดับ และ \({{p}_{1}}+{{p}_{2}}=1\) เราสามารถหาความน่าจะเป็นที่จำแนกวัตถุได้ถูกต้องหรือจำแนกวัตถุผิดจากประเภทที่แท้จริงได้ดังนี้

\[\begin{align} & P({{\pi }_{1}}|\vec{{\rm x}}\in {{R}_{1}})=P(\vec{{\rm x}}\in {{R}_{1}}|{{\pi }_{1}})P({{\pi }_{1}})=P(1|1){{p}_{1}} \\ & P({{\pi }_{2}}|\vec{{\rm x}}\in {{R}_{1}})=P(\vec{{\rm x}}\in {{R}_{1}}|{{\pi }_{2}})P({{\pi }_{2}})=P(1|2){{p}_{2}} \\ & P({{\pi }_{1}}|\vec{{\rm x}}\in {{R}_{2}})=P(\vec{{\rm x}}\in {{R}_{2}}|{{\pi }_{1}})P({{\pi }_{1}})=P(2|1){{p}_{2}} \\ & P({{\pi }_{2}}|\vec{{\rm x}}\in {{R}_{2}})=P(\vec{{\rm x}}\in {{R}_{2}}|{{\pi }_{2}})P({{\pi }_{2}})=P(2|2){{p}_{2}} \\ \end{align}\]

กำหนดค่าความความเสียหายหากจำแนกประเภทผิด ดังนี้

ดังนั้นเราสามารถกฎการจำแนกได้จากการพิจารณา ค่าความเสียหายเฉลี่ยที่เกิดจากการจำแนกผิด (Expected cost of misclassification, ECM) โดยที่

\[ECM=c(2|1)P(2|1){{p}_{1}}+c(1|2)P(1|2){{p}_{2}}\]

โดยที่เราจะต้องพยายามให้ค่า ECM น้อยที่สุด

ผลลัพธ์ที่ 1.1 ขอบเขตของ \({{R}_{1}}\) และ \({{R}_{2}}\) ที่ทำให้ค่า ECM มีค่าน้อยที่สุดคือขอบเขตที่ \(\vec{{\rm x}}\) สอดคล้องกับอสมการนี้ \[\begin{align} & {{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right), \\ & {{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right) \\ \end{align}\]

กรณีเฉพาะสำหรับ ผลลัพธ์ที่ 1.1 ดังนี้

กรณีที่ 1 \({{p}_{2}}={{p}_{1}}\) (Equal prior probability) \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{c(1|2)}{c(2|1)} \right),\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{c(1|2)}{c(2|1)} \right)\]

กรณีที่ 2 \(c(1|2)=c(2|1)\) (Equal misclassification) \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge \left( \frac{{{p}_{2}}}{{{p}_{1}}} \right),\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right)\]

กรณีที่ 3 \(\frac{{{p}_{2}}}{{{p}_{1}}}=\frac{c(1|2)}{c(2|1)}=1\) หรือ \(\frac{{{p}_{2}}}{{{p}_{1}}}=\frac{1}{\frac{c(1|2)}{c(2|1)}}\) \[{{R}_{1}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}\ge 1,\,\,\,\,\,\,{{R}_{2}}:\frac{{{f}_{1}}(\vec{{\rm x}})}{{{f}_{2}}(\vec{{\rm x}})}<1\]

การจำแนกประเภท 2 ชนิดสำหรับประชากรที่มีการแจกแจงแบบปกติหลายตัวแปร

สมมติให้ ฟังก์ชันความน่าจะเป็นร่วมของ \({{{\rm X}}^{T}}=[X_{1}^{{}}\,\,{{X}_{2}}\,\,\ldots \,\,{{X}_{p}}]\) สำหรับประชากรในประเภทที่ \({{\pi }_{1}}\) และ \({{\pi }_{2}}\) และมีความแปปรปรวนประชากรเท่ากันและเท่ากับ \(\sum\) แสดงได้ดังนี้

สำหรับ \(i=1,\,\,2\) และทราบค่า \({{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum\) เราจะได้ว่าขอบเขต \({{R}_{1}},\,\,\,{{R}_{2}}\) ที่ทำให้ ค่า ECM มีค่าน้อยที่สุด และไม่เป็นการเสียหายที่จะละเทอม \({{\left( 2\pi \right)}^{\frac{p}{2}}}{{\left| \sum \right|}^{\frac{1}{2}}}\)
จาก ผลลัพธ์ที่ 1.1 จะได้ว่า

ผลลัพธ์ 1.2 กำหนดให้ \({{\pi }_{1}}\)และ \({{\pi }_{2}}\) แทนประชากรประเภทที่ 1 และ 2 ตามลำดับ ที่มีการแจกแจงแบบปกติหลายตัวแปร แล้วสำหรับ \({ {\vec{{\rm x}}}_{0}}\) ใดๆ

ในทางปฏิบัติแล้ว เรามักจะไม่ทราบค่าของ \({{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum\) ดังนั้น เราจะแทนค่าพารามิเตอร์เหล่านี้ด้วยค่าสถิติ สมมติให้ สุ่มเวกเตอร์ค่าสังเกต \({{n}_{1}}\) หน่วยใน p ตัวแปร จากประชากรประเภท \({{\pi }_{1}}\) และสุ่มเวกเตอร์ค่าสังเกต \({{n}_{2}}\) หน่วยใน p ตัวแปร จากประชากรประเภท \({{\pi }_{2}}\) โดยประชากรทั้งสองประเภทมีการแจกแจงแบบปกติ และ \({{n}_{1}}+\,\,{{n}_{2}}-2\ge p\) และเมทริกซ์ข้อมูลดังนี้

และ

จะได้ว่า

และ

และจากความแปรปรวนประชากรของทั้งสองประเภทเท่ากัน จึงได้ว่า \({{S}_{pooled}}\) เป็น unbiased estimator ของ \(\,\sum\) โดยที่

ซึ่งจาก ผลลัพธ์ 1.2 ถ้าเราแทน \({{\vec{\mu }}_{1}},\,\,{{\vec{\mu }}_{2}},\,\,\sum\) ด้วย \[{{\overrightarrow{{\bar{{\rm x}}}}}_{1}},\,\,{{\overrightarrow{{\bar{{\rm x}}}}}_{2}},\,\,{{S}_{pooled}}\] ตามลำดับจะได้ว่า

สำหรับ \({{\vec{{\rm x}}}_{0}}\) ใดๆ

The Estimated Minimum ECM Rule for Two Normal Populations

จากกฎการจำแนกที่ได้

ถ้าเรากำหนดให้ \(\left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right)=1\) จะได้ว่า \(\ln \left[ \left( \frac{c(1|2)}{c(2|1)} \right)\left( \frac{{{p}_{2}}}{{{p}_{1}}} \right) \right]=0\) และกำหนดฟังก์ชัน \(\hat{{\rm y}}(\vec{{\rm x}})\)หรือ \(\hat{{\rm y}}\) โดยที่

จาก

จะได้ว่า

นั่นคือ

วิธีการ Fisher สำหรับจำแนก 2 ประเภท

แนวคิด: แปลงข้อมูลหลายตัวแปร \(\vec{{\rm x}}\) ให้อยู่ในรูปของตัวแปรเดียว \(y\)โดยที่ \(y\)ได้มาจากประชากรประเภท \({{\pi }_{1}}\)และ \({{\pi }_{2}}\) ซึ่งทั้ง 2 ประเภทนี้จะต้องแยกให้ได้มากที่สุด

กำหนดให้ \({{y}_{11}},\,\,{{y}_{12}},\ldots ,{{y}_{1{{n}_{1}}}}\)แทนผลรวมเชิงเส้นของ \(\vec{{\rm x}}\) ที่ได้มาจากประชากรประเภท \({{\pi }_{1}}\) และ \({{y}_{21}},\,\,{{y}_{22}},\ldots ,{{y}_{2{{n}_{2}}}}\) แทนผลรวมเชิงเส้นของ ที่ได้มาจากประชากรประเภท \({{\pi }_{2}}\)และทั้งสองประเภทมีความแปรปรวนร่วมประชากรเท่ากัน การแบ่ง 2 ประเภทของค่า \(y\) สามารถแสดงได้ ดังนี้ \[separation=\frac{\left| {{{\bar{y}}}_{1}}-{{{\bar{y}}}_{2}} \right|}{{{s}_{y}}}\] เมื่อ \(s_{y}^{2}=\frac{\sum\limits_{j=1}^{{{n}_{1}}}{{{\left( {{y}_{1j}}-{{{\bar{y}}}_{1}} \right)}^{2}}}+\sum\limits_{j=1}^{{{n}_{2}}}{{{\left( {{y}_{2j}}-{{{\bar{y}}}_{2}} \right)}^{2}}}}{n{}_{1}+n{}_{2}-2}\)

โดยมีวัตถุประสงค์ในการแบ่งคือ หาผลรวมเชิงเส้นของ \(\vec{{\rm x}}\) ที่ทำให้ \(y\) แยกให้ได้มากที่สุด

ตัวอย่างที่ 2 จากตัวอย่างที่ 1 จงหาค่า separation ที่มากที่สุดเมื่อใช้วิธี Fisher

วิธีการ Fisher สำหรับจำแนก \(g\) ประเภท เมื่อ \(g>2\)

แนวคิด: พยายามหาค่าตัวแทนโดยใช้กลุ่มของผลรวมเชิงเส้น เช่น \(\vec{a}_{^{1}}^{T}\vec{{\rm x}}, \vec{a}_{^{2}}^{T}\vec{{\rm x}},\,\vec{a}_{^{3}}^{T}\vec{{\rm x}}\) แทนเวกเตอร์ค่าสังเกต \(\vec{{\rm x}}\) ซึ่งแนวคิดนี้ข้อดีคือ

  1. สะดวกในการใช้แทนประชากร\(g\) ประเภท เพื่อทำให้มิติลดลงด้วยการแทนด้วยกลุ่มของผลรวมเชิงเส้นแทน

  2. เพื่อพลอตกราฟความสัมพันธ์ระหว่างของแต่ละกลุ่ม

  3. ใช้ในการตรวจสอบ outliers จากการพลอตค่าเวกเตอร์ตัวอย่างจาก สอง discriminant แรก

กำหนดให้ เมทริกความแปรปรวนร่วมประชากรของแต่ละประเภทมีค่าเท่ากันและเท่ากับ $$ และมีคุณสมบัติเป็นลำดับชั้นเต็ม (Full rank) นั่นคือ \[{{\sum }_{1}}={{\sum }_{2}}=\cdots ={{\sum }_{q}}=\sum \] และให้ \(\vec{\mu }\) แทนเวกเตอร์ค่าเฉลี่ยรวมของประชากรทั้ง \(g\) ประเภทและ \({{\rm B}_{{\vec{\mu }}}}\) แทนผลรวมกลุ่มของผลคูณไขว้ สามารถแสดงได้ดังนี้

\[{{\rm B}_{{\vec{\mu }}}}=\sum\limits_{i=1}^{g}{\left( {{{\vec{\mu }}}_{i}}-\vec{\mu } \right){{\left( {{{\vec{\mu }}}_{i}}-\vec{\mu } \right)}^{T}}}\] โดยที่ \(\vec{\mu }=\frac{1}{g}\sum\limits_{i=1}^{g}{{{{\vec{\mu }}}_{i}}}\)

พิจารณาผลรวมเชิงเส้น \(E({{Y}_{i}})={{\vec{\mu }}_{{{Y}_{i}}}}={{\vec{a}}^{T}}E\left[\vec{{\rm X}} \,\,|\,\,{{\pi }_{i}} \right]={{\vec{a}}^{T}}{{\vec{\mu }}_{i}}\) สำหรับประชากรประเภทที่ \(i\) และความแปรปรวน \(Var({{Y}_{i}})={{\vec{a}}^{T}}Cov\left[ {\vec{{\rm X}}} \right]\vec{a}={{\vec{a}}^{T}}\sum \vec{a}\) สำหรับทุกประชากรและจะได้ว่า

และจาก

หรือ

โดยปกติแล้ว \(\sum\) และ \({{\vec{\mu }}_{i}}\) จะไม่ทราบค่าแต่เราจะทราบเพียงเซตข้อมูลที่เราทราบประเภทของข้อมูลมาก่อนหน้านั้น ซึ่งเราจะเรียกเซตนี้ว่าข้อมูลชุดสอน (Training set) สมมติให้ตัวแปรสุ่มขนาด \({{n}_{i}}\) เมื่อ \(i=1,2,\cdots ,g\) กำหนดให้ \({{\vec{{\rm X}}}_{i}}\)แทนชุดข้อมูลที่ได้จากประชากรประเภทที่ \({{\pi }_{i}}\) และมีขนาด \({{n}_{i}}\times p\) และให้ \({{\vec{{\rm x}}}_{ij}}\) แทนเวกเตอร์ตัวอย่างของประเภทที่ \(i\) ในลำดับที่ \(j\) จะได้ว่า \(j\) จะได้ว่า

และเมทริกซ์ความแปรปรวนร่วมตัวอย่างประเภทที่ \(i\) เท่ากับ \({{{\rm S}}_{i}}\) เมื่อ \(i=1,2,\cdots ,g\)

ให้ \(\vec{\bar{{\rm x}}}=\frac{1}{g}\sum\limits_{i=1}^{g}{{{{\vec{\bar{{\rm x}}}}}_{i}}}\) แทนเวกเตอร์ค่าเฉลี่ยรวม และกำหนดให้ \({\rm B}=\sum\limits_{i=1}^{g}{\left( {{{\vec{\bar{{\rm x}}}}}_{i}}_{i}-\vec{\bar{{\rm x}}} \right){{\left( {{{\vec{\bar{{\rm x}}}}}_{i}}-\vec{\bar{{\rm x}}} \right)}^{T}}}\) แทนเมทริกซ์ความแปรผันระหว่างกลุ่ม (Between group) ของเวกเตอร์ตัวอย่าง และจะประมาณ \(\sum\) ด้วยเมริกซ์การแปรผันภายในกลุ่ม (Within group)

จะได้ \({{S}_{pooled}}=\frac{1}{{{n}_{1}}+{{n}_{2}}+\cdots +{{n}_{g}}-g}\text{W}\) จะเป็นตัวประมาณของ \(\sum\) และจาก \({\rm W}=\left( {{n}_{1}}+{{n}_{2}}+\cdots +{{n}_{g}}-g \right){{S}_{pooled}}\) ซึ่งเป็นเมทริกซ์ค่าคงที่ ดังนั้นจึงได้ว่า \(\vec{a}\) ที่ทำให้ \(\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}}{{ {\rm S}}_{pooled}}\vec{a}}\) มีค่ามากที่สุดเป็นเวกเตอร์เดียวกันกับที่เวกเตอร์ที่ทำให้ \(\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}} {\rm W}\vec{a}}\) ดังนั้นเราจึงทำการหา \(\vec{a}\) ที่ทำให้ \(\frac{{{{\vec{a}}}^{T}} {\rm B}\vec{a}}{{{{\vec{a}}}^{T}}{\rm W}\vec{a}}\) มีค่ามากที่สุดแทน หรือ \(\vec{a}\) ที่อยู่ในรูปของ ไอเกนเวกเตอร์ของ \({{ {\rm W}}^{-1}} {\rm B}\)

Fisher’s Sample Linear Discriminants

ให้ \({{\lambda }_{1}}>{{\lambda }_{2}}>\cdots >{{\lambda }_{s}}>0\) โดยที่ \(s\le \min (g-1,p)\) แทน ไอเกนเวกเตอร์ที่ได้จาก \({{{\rm W}}^{-1}} {\rm B}\) ที่สัมพันธ์กับไอเกนเวกเตอร์ \({{\vec{{\rm e}}}_{1}},{{\vec{{\rm e}}}_{2}},\cdots ,{{ \vec{{\rm e}}}_{s}}\) ตามลำดับ แล้วจะได้ \(\vec{a}\) ที่ทำให้สัดส่วน

มีค่ามากที่สุด คือ \({{\vec{a}}_{1}}={{\vec{{\rm e}}}_{1}}\)และจะเรียกผลรวมเชิงเส้น \({{\vec{a}}_{1}}\vec{{\rm x}}\) ว่าเป็นตัวจำแนกตัวอย่างอันดับหนึ่ง (Sample first discriminant) หรือ \({{\vec{a}}_{2}}={{\vec{{\rm e}}}_{2}}\)และจะเรียกผลรวมเชิงเส้น \({{\vec{a}}_{2}}\vec{{\rm x}}\) ว่าเป็นตัวจำแนกตัวอย่างอันดับสอง (Sample second discriminant) หรือเช่นเดียวกัน \({{\vec{a}}_{k}}={{\vec{{\rm e}}}_{k}}\) และจะเรียกผลรวมเชิงเส้น \({{\vec{a}}_{k}}\vec{{\rm x}}\) ว่าเป็นตัวจำแนกตัวอย่างอันดับ \(k\) (Sample \(k ^{th}\) discriminant) โดยที่ \(k\le s\) และจะได้

\(\vec{a}_{i}^{T}{{S}_{pooled}}{{\vec{a}}_{k}}=1\) ถ้า \(i=k\le s\) หรือ \(\vec{a}_{i}^{T}{{S}_{pooled}}{{\vec{a}}_{k}}=0\) สำหรับกรณีอื่นๆ

Using Fisher’s Discriminant to Classify Objects

ตัวจำแนกฟิชเชอร์ (Fisher’s Discriminant) ถูกสร้างภายใต้วัตถุประสงค์เพื่อการแปลงข้อมูลในหลายตัวแปรให้อยู่ในรูปตัวแปรที่จำนวนตัวแปรลดลงและทำให้ข้อมูลเหล่านี้แยกจากกันให้มากที่สุด กำหนดให้ \[{{Y}_{k}}={{\vec{a}}_{k}}^{T}\vec{{\rm x}},\,\,k\le s\]

เราจะสรุปได้ว่า

ภายใต้ประชากรประเภท \({{\pi }_{i}}\) และ \(\vec{Y}\) มีเมทริกซ์ความแปรปรวนร่วมเท่ากับ \({\rm I}\) สำหรับทุกประชากร และจากแต่ละ \({{Y}_{k}}\) มีความแปรปรวนเท่ากับ 1 และมีความแปรปรวนร่วมเท่ากับ 0 ทำให้ได้ว่า ระยะทางจากตัวอย่าง \(\vec{{\rm y}}\) ใดๆกับ \({{\vec{\mu }}_{i,\vec{Y}}}\) คำนวณได้จาก

ดังนั้น เราจะได้ว่าเราจะจำแนก \(\vec{{\rm y}}\) ให้เป็นประเภทที่ \(k\) ถ้าระยะทางระหว่าง \(\vec{{\rm y}}\) และ \({{\vec{\mu }}_{k,\vec{Y}}}\) มีค่าน้อยที่สุด นั่นคือเราสามารถสร้างกฎการจำแนกในกรณีที่จำนวนตัวจำแนกเท่ากับ r คือ สำหรับ \(\vec{{\rm x}}\) ใดๆ \(\vec{{\rm x}}\) จะถูกจัดให้เป็นประเภท \({{\pi }_{k}}\) ก็ต่อเมื่อ

นอกจากนี้เรายังได้ว่า ไม่เป็นการเสียหายถ้าเราแทนข้อมูลเพียงสองตัวจำแนกถ้าสอดคล้องกับเงื่อนไขต่อไปนี้

Fisher’s Classification Based on Sample Discriminant