โมเดลการเรียนรู้ของเครื่องสำหรับการจำแนกและจัดกลุ่มอะไหล่ของเครื่องจักรในโรงงาน
Machine Learning System for Industrial Spare Parts Classification and Clustering
ผู้จัดทำ: นางสาวรวงข้าว โพธิทอง
อาจารย์ที่ปรึกษา: ผู้ช่วยศาสตราจารย์ ดร.ศรีศุภางค์ ทิ้วสุวรรณ
ที่มาและความสำคัญ
กลุ่มธุรกิจเอสซีจี ซีเมนต์แอนด์กรีนโซลูชันส์ มีรายการอะไหล่เครื่องจักรรวมหลายหมื่นชิ้นจากหลายโรงงาน การจัดกลุ่มอะไหล่ที่ขาดมาตรฐานเดียวกันในรายการสั่งซื้อที่กระจัดกระจาย ส่งผลให้เสียอำนาจในการเจรจาต่อรองราคาและคัดเลือกซัพพลายเออร์ได้ยากขึ้น โครงงานนี้จึงมุ่งพัฒนาโมเดล Machine Learning สำหรับจำแนกและจัดกลุ่มอะไหล่โดยอัตโนมัติ โดยอาศัยเทคนิคการประมวลผลภาษาธรรมชาติ (NLP) ร่วมกับอัลกอริทึมการเรียนรู้แบบมีผู้สอนและไม่มีผู้สอน เพื่อให้การจัดกลุ่มมีความสม่ำเสมอทั่วองค์กร ลดข้อผิดพลาดจากการดำเนินการด้วยมนุษย์ และเปิดโอกาสให้รวมรายการของประเภทเดียวกันเข้าด้วยกัน เพื่อลดต้นทุนการจัดซื้อและบริหารจัดการซัพพลายเออร์ได้อย่างมีประสิทธิภาพมากขึ้น
วัตถุประสงค์
- พัฒนาโมเดล Machine Learning สำหรับจำแนกประเภทอะไหล่โดยอัตโนมัติ โดยใช้การสกัดคุณลักษณะด้วย TF-IDF ร่วมกับ Sentence Embedding และโมเดล Stacking Ensemble สำหรับรายการที่มีป้ายกำกับอยู่แล้ว
- พัฒนาระบบจัดกลุ่มอะไหล่สำหรับรายการที่ยังไม่มีการจัดประเภท โดยใช้อัลกอริทึม HDBSCAN ร่วมกับกระบวนการกู้คืนรายการที่จัดกลุ่มไม่ได้ เพื่อให้ครอบคลุมอะไหล่ทุกรายการในชุดข้อมูล
ชุดข้อมูล
โปรเจกต์ใช้ข้อมูล 4 ชุด ได้แก่:
- รายการอะไหล่ทั้งหมด 27,309 รายการจาก 21 โรงงานใน SCG Cement and Green Solutions โดยใช้ MatDesc (คำอธิบายย่อ) และ Concatenate(Txt) (รายละเอียดฉบับเต็ม) เป็น Input เพื่อกำหนด ProductID ซึ่งเป็นหมวดหมู่อะไหล่
- ข้อมูลฝึกสอน ProductID ที่กำหนดแล้ว 2,119 รายการ ครอบคลุม 51 คลาส
- ข้อมูลอ้างอิง ProductID จำนวน 269 รายการ ใช้เป็นฐานข้อมูลอ้างอิงในขั้นตอน Reference Matching ของ Decision Fusion
- ข้อมูลมาตรฐาน UNSPSC มี 10,849 Commodity กรองเหลือ 14 Segment ที่เกี่ยวข้อง สำหรับจับคู่รหัสสากลให้ทุก ProductID
วิธีการดำเนินงาน
ระบบใช้สถาปัตยกรรม Hybrid Pipeline ประกอบด้วย:
- การสกัดคุณลักษณะด้วย TF-IDF+SVD และ Sentence Embedding
- การฝึกสอน Stacking Ensemble ที่รวม 4 โมเดล
- การตัดสินใจด้วย Decision Fusion ที่รวมสัญญาณจาก Machine Learning, Keyword และ Reference Matching
- การจัดกลุ่มด้วย HDBSCAN สำหรับอะไหล่ที่ระบบยังไม่มั่นใจ
ผลการดำเนินงาน
ผลการเปรียบเทียบโมเดล:
| แบบจำลอง |
Weighted F1 |
SD |
| Random Forest |
0.9246 |
0.0116 |
| Logistic Regression |
0.9192 |
0.0065 |
| XGBoost |
0.9183 |
0.0168 |
| LightGBM |
0.9321 |
0.0190 |
| Stacking Ensemble |
0.9394 |
0.0181 |
ตัวชี้วัดระดับระบบ:
| ตัวชี้วัด |
ผล |
| CV Weighted F1 (Stacking) |
0.939 |
| Test Weighted F1 |
0.899 (95% CI: 0.863–0.934) |
| Test Macro F1 |
0.792 |
| Coverage Rate |
100% |
| Noise Recovery Rate |
100% |
| UNSPSC Mapping Rate |
100% |
| Overall Quality Score |
78.6 / 100 (VERY GOOD) |
HDBSCAN & Noise Recovery สร้างกลุ่มใหม่ได้ 139 กลุ่ม (Silhouette = 0.386, NMI = 0.869, Completeness = 0.997) รายการ Noise 1,571 รายการถูกฟื้นฟูครบ 100% ผ่าน Noise Recovery Pipeline 5 ระดับ โดย Secondary Clustering (KMeans) รับผิดชอบร้อยละ 88.7 และ Post-Processing โดย LLM (phi3:medium) ตั้งชื่อกลุ่มใหม่ครบ 141 กลุ่ม NameNormalizer รวมชื่อที่คล้ายกัน 36 คู่ได้ ProductID สุดท้าย 362 รายการ จับคู่ UNSPSC สำเร็จครบ 100%
สรุปผล
โครงงานนี้พัฒนาระบบ Machine Learning สำหรับจำแนกและจัดกลุ่มอะไหล่อุตสาหกรรม 27,309 รายการจาก 21 โรงงานใน SCG Cement and Green Solutions ระบบสามารถจำแนกอะไหล่ได้ถูกต้องประมาณ 9 ใน 10 รายการ (Weighted F1 = 0.899) โดยค่า Cohen's Kappa ที่ 0.902 ยืนยันว่าความถูกต้องนี้มาจากการเรียนรู้รูปแบบจริงของข้อมูล ไม่ใช่ความบังเอิญ ระบบสามารถกำหนดหมวดหมู่ให้อะไหล่ได้ครบทุกรายการ (Coverage Rate 100%) จับคู่รหัสมาตรฐานสากล UNSPSC ได้ครบถ้วน และได้คะแนนคุณภาพโดยรวม 78.6/100 จึงสรุปได้ว่าระบบบรรลุวัตถุประสงค์ในการจำแนกและจัดกลุ่มอะไหล่ให้มีมาตรฐานเดียวกันทั่วทั้งองค์กรได้อย่างครบถ้วน