นันทวรรณ ปาสาเขา / Thursday, May 14, 2026

โมเดลการเรียนรู้ของเครื่องสำหรับการจำแนกและจัดกลุ่มอะไหล่ของเครื่องจักรในโรงงาน

Machine Learning System for Industrial Spare Parts Classification and Clustering

ผู้จัดทำ: นางสาวรวงข้าว โพธิทอง

อาจารย์ที่ปรึกษา: ผู้ช่วยศาสตราจารย์ ดร.ศรีศุภางค์ ทิ้วสุวรรณ

ที่มาและความสำคัญ

กลุ่มธุรกิจเอสซีจี ซีเมนต์แอนด์กรีนโซลูชันส์ มีรายการอะไหล่เครื่องจักรรวมหลายหมื่นชิ้นจากหลายโรงงาน การจัดกลุ่มอะไหล่ที่ขาดมาตรฐานเดียวกันในรายการสั่งซื้อที่กระจัดกระจาย ส่งผลให้เสียอำนาจในการเจรจาต่อรองราคาและคัดเลือกซัพพลายเออร์ได้ยากขึ้น โครงงานนี้จึงมุ่งพัฒนาโมเดล Machine Learning สำหรับจำแนกและจัดกลุ่มอะไหล่โดยอัตโนมัติ โดยอาศัยเทคนิคการประมวลผลภาษาธรรมชาติ (NLP) ร่วมกับอัลกอริทึมการเรียนรู้แบบมีผู้สอนและไม่มีผู้สอน เพื่อให้การจัดกลุ่มมีความสม่ำเสมอทั่วองค์กร ลดข้อผิดพลาดจากการดำเนินการด้วยมนุษย์ และเปิดโอกาสให้รวมรายการของประเภทเดียวกันเข้าด้วยกัน เพื่อลดต้นทุนการจัดซื้อและบริหารจัดการซัพพลายเออร์ได้อย่างมีประสิทธิภาพมากขึ้น

วัตถุประสงค์

พัฒนาโมเดล Machine Learning สำหรับจำแนกประเภทอะไหล่โดยอัตโนมัติ โดยใช้การสกัดคุณลักษณะด้วย TF-IDF ร่วมกับ Sentence Embedding และโมเดล Stacking Ensemble สำหรับรายการที่มีป้ายกำกับอยู่แล้ว
พัฒนาระบบจัดกลุ่มอะไหล่สำหรับรายการที่ยังไม่มีการจัดประเภท โดยใช้อัลกอริทึม HDBSCAN ร่วมกับกระบวนการกู้คืนรายการที่จัดกลุ่มไม่ได้ เพื่อให้ครอบคลุมอะไหล่ทุกรายการในชุดข้อมูล

ชุดข้อมูล

โปรเจกต์ใช้ข้อมูล 4 ชุด ได้แก่:

รายการอะไหล่ทั้งหมด 27,309 รายการจาก 21 โรงงานใน SCG Cement and Green Solutions โดยใช้ MatDesc (คำอธิบายย่อ) และ Concatenate(Txt) (รายละเอียดฉบับเต็ม) เป็น Input เพื่อกำหนด ProductID ซึ่งเป็นหมวดหมู่อะไหล่
ข้อมูลฝึกสอน ProductID ที่กำหนดแล้ว 2,119 รายการ ครอบคลุม 51 คลาส
ข้อมูลอ้างอิง ProductID จำนวน 269 รายการ ใช้เป็นฐานข้อมูลอ้างอิงในขั้นตอน Reference Matching ของ Decision Fusion
ข้อมูลมาตรฐาน UNSPSC มี 10,849 Commodity กรองเหลือ 14 Segment ที่เกี่ยวข้อง สำหรับจับคู่รหัสสากลให้ทุก ProductID

วิธีการดำเนินงาน

ระบบใช้สถาปัตยกรรม Hybrid Pipeline ประกอบด้วย:

การสกัดคุณลักษณะด้วย TF-IDF+SVD และ Sentence Embedding
การฝึกสอน Stacking Ensemble ที่รวม 4 โมเดล
การตัดสินใจด้วย Decision Fusion ที่รวมสัญญาณจาก Machine Learning, Keyword และ Reference Matching
การจัดกลุ่มด้วย HDBSCAN สำหรับอะไหล่ที่ระบบยังไม่มั่นใจ

ผลการดำเนินงาน

ผลการเปรียบเทียบโมเดล:

แบบจำลอง	Weighted F1	SD
Random Forest	0.9246	0.0116
Logistic Regression	0.9192	0.0065
XGBoost	0.9183	0.0168
LightGBM	0.9321	0.0190
Stacking Ensemble	0.9394	0.0181

ตัวชี้วัดระดับระบบ:

ตัวชี้วัด	ผล
CV Weighted F1 (Stacking)	0.939
Test Weighted F1	0.899 (95% CI: 0.863–0.934)
Test Macro F1	0.792
Coverage Rate	100%
Noise Recovery Rate	100%
UNSPSC Mapping Rate	100%
Overall Quality Score	78.6 / 100 (VERY GOOD)

HDBSCAN & Noise Recovery สร้างกลุ่มใหม่ได้ 139 กลุ่ม (Silhouette = 0.386, NMI = 0.869, Completeness = 0.997) รายการ Noise 1,571 รายการถูกฟื้นฟูครบ 100% ผ่าน Noise Recovery Pipeline 5 ระดับ โดย Secondary Clustering (KMeans) รับผิดชอบร้อยละ 88.7 และ Post-Processing โดย LLM (phi3:medium) ตั้งชื่อกลุ่มใหม่ครบ 141 กลุ่ม NameNormalizer รวมชื่อที่คล้ายกัน 36 คู่ได้ ProductID สุดท้าย 362 รายการ จับคู่ UNSPSC สำเร็จครบ 100%

สรุปผล

โครงงานนี้พัฒนาระบบ Machine Learning สำหรับจำแนกและจัดกลุ่มอะไหล่อุตสาหกรรม 27,309 รายการจาก 21 โรงงานใน SCG Cement and Green Solutions ระบบสามารถจำแนกอะไหล่ได้ถูกต้องประมาณ 9 ใน 10 รายการ (Weighted F1 = 0.899) โดยค่า Cohen's Kappa ที่ 0.902 ยืนยันว่าความถูกต้องนี้มาจากการเรียนรู้รูปแบบจริงของข้อมูล ไม่ใช่ความบังเอิญ ระบบสามารถกำหนดหมวดหมู่ให้อะไหล่ได้ครบทุกรายการ (Coverage Rate 100%) จับคู่รหัสมาตรฐานสากล UNSPSC ได้ครบถ้วน และได้คะแนนคุณภาพโดยรวม 78.6/100 จึงสรุปได้ว่าระบบบรรลุวัตถุประสงค์ในการจำแนกและจัดกลุ่มอะไหล่ให้มีมาตรฐานเดียวกันทั่วทั้งองค์กรได้อย่างครบถ้วน

โมเดลการเรียนรู้ของเครื่องสำหรับการจำแนกและจัดกลุ่มอะไหล่ของเครื่องจักรในโรงงาน

Machine Learning System for Industrial Spare Parts Classification and Clustering

Documents to download