46th WUNCA - Burapha University

การพัฒนาระบบติดตามและแจ้งเตือนการใช้ทรัพยากรบนระบบคอมพิวเตอร์ สมรรถนะสูง (HPC) [รหัส L012]

การบรรยาย
วันที่ 12 กุมภาพันธ์ 2569
เวลา 11.00 - 12.00 น. จำนวน 1 ชั่วโมง
สถานที่ P103 ห้องเฉลิมวงศ์วัจนสุนทร ชั้น 1 อาคารผาสุข กุลละวณิชย์
รับจำนวน 500 ที่นั่ง
คุณสมบัติของผู้เข้าร่วมอบรม -
สิ่งที่ผู้เข้าอบรมต้องจัดเตรียม
วิทยากร
รายละเอียด

ระบบคอมพิวเตอร์สมรรถนะสูง (High Performance Computing: HPC)
เป็นโครงสร้างพื้นฐานสำคัญสำหรับงานวิจัยและการประมวลผลที่ต้องใช้ทรัพยากรจำนวนมาก เช่น CPU, GPU, Memory, Storage และ Network อย่างต่อเนื่อง อย่างไรก็ตาม การขาดเครื่องมือที่ช่วยติดตามสถานะการใช้งานแบบเรียลไทม์
หรือย้อนหลังอย่างมีประสิทธิภาพ ทำให้ผู้ดูแลระบบไม่สามารถมองเห็นภาพรวม
ของการใช้ทรัพยากรได้ชัดเจน ส่งผลให้การแก้ไขปัญหาระบบล่าช้า จึงมุ่งพัฒนาระบบ Dashboard กลางเพื่อให้ผู้ดูแลสามารถเฝ้าติดตามสถานะของ Cluster ได้แบบเรียลไทม์ วิเคราะห์แนวโน้มการใช้งานย้อนหลัง และรับการแจ้งเตือนเมื่อเกิดความผิดปกติ ระบบดึงข้อมูลจาก Slurm และ Metric จาก Prometheus/Node Exporter เช่น CPU load, Memory usage, Disk I/O และ Network traffic มาจัดเก็บและแสดงผลผ่าน Grafana ที่ออกแบบให้เข้าใจง่ายและเชื่อมต่อการแจ้งเตือนผ่าน Microsoft Teams ผลการใช้งานพบว่าระบบช่วยลดเวลาในการตรวจสอบปัญหา เพิ่มประสิทธิภาพการใช้ทรัพยากรของ Cluster ทำให้ผู้ดูแลและผู้ใช้สามารถติดตาม job ได้สะดวกขึ้น เห็นแนวโน้มการใช้งาน เช่น ช่วงเวลาที่โหลดสูงหรือโหนดที่ไม่ได้ใช้งานเต็มที่ ส่งผลให้สามารถวางแผนการจัดสรรทรัพยากรได้เหมาะสม.
Keywords: High Performance Computing, HPC Monitoring, Dashboard System, Slurm, Grafana, Resource Management, Real-time Monitoring