ระบบคอมพิวเตอร์สมรรถนะสูง (High Performance Computing: HPC)
เป็นโครงสร้างพื้นฐานสำคัญสำหรับงานวิจัยและการประมวลผลที่ต้องใช้ทรัพยากรจำนวนมาก เช่น CPU, GPU, Memory, Storage และ Network อย่างต่อเนื่อง อย่างไรก็ตาม การขาดเครื่องมือที่ช่วยติดตามสถานะการใช้งานแบบเรียลไทม์
หรือย้อนหลังอย่างมีประสิทธิภาพ ทำให้ผู้ดูแลระบบไม่สามารถมองเห็นภาพรวม
ของการใช้ทรัพยากรได้ชัดเจน ส่งผลให้การแก้ไขปัญหาระบบล่าช้า จึงมุ่งพัฒนาระบบ Dashboard กลางเพื่อให้ผู้ดูแลสามารถเฝ้าติดตามสถานะของ Cluster ได้แบบเรียลไทม์ วิเคราะห์แนวโน้มการใช้งานย้อนหลัง และรับการแจ้งเตือนเมื่อเกิดความผิดปกติ ระบบดึงข้อมูลจาก Slurm และ Metric จาก Prometheus/Node Exporter เช่น CPU load, Memory usage, Disk I/O และ Network traffic มาจัดเก็บและแสดงผลผ่าน Grafana ที่ออกแบบให้เข้าใจง่ายและเชื่อมต่อการแจ้งเตือนผ่าน Microsoft Teams ผลการใช้งานพบว่าระบบช่วยลดเวลาในการตรวจสอบปัญหา เพิ่มประสิทธิภาพการใช้ทรัพยากรของ Cluster ทำให้ผู้ดูแลและผู้ใช้สามารถติดตาม job ได้สะดวกขึ้น เห็นแนวโน้มการใช้งาน เช่น ช่วงเวลาที่โหลดสูงหรือโหนดที่ไม่ได้ใช้งานเต็มที่ ส่งผลให้สามารถวางแผนการจัดสรรทรัพยากรได้เหมาะสม.
Keywords: High Performance Computing, HPC Monitoring, Dashboard System, Slurm, Grafana, Resource Management, Real-time Monitoring