การพัฒนาระบบติดตามและแจ้งเตือนการใช้ทรัพยากรบนระบบคอมพิวเตอร์ สมรรถนะสูง (HPC)


  • การบรรยาย
  • วันที่ 12 กุมภาพันธ์ 2569
  • เวลา 11.00 - 12.00 น. จำนวน 1
  • สถานที่ P103 ห้องเฉลิมวงศ์วัจนสุนทร ชั้น 1 อาคารผาสุข กุลละวณิชย์
  • รับจำนวน 500 ที่นั่ง
  • คุณสมบัติของผู้เข้าร่วมอบรม -
  • สิ่งที่ผู้เข้าอบรมต้องจัดเตรียม

      -

  • วิทยากร

      -

  • รายละเอียด
ระบบคอมพิวเตอร์สมรรถนะสูง (High Performance Computing: HPC)
เป็นโครงสร้างพื้นฐานสำคัญสำหรับงานวิจัยและการประมวลผลที่ต้องใช้ทรัพยากรจำนวนมาก เช่น CPU, GPU, Memory, Storage และ Network อย่างต่อเนื่อง อย่างไรก็ตาม การขาดเครื่องมือที่ช่วยติดตามสถานะการใช้งานแบบเรียลไทม์
หรือย้อนหลังอย่างมีประสิทธิภาพ ทำให้ผู้ดูแลระบบไม่สามารถมองเห็นภาพรวม
ของการใช้ทรัพยากรได้ชัดเจน ส่งผลให้การแก้ไขปัญหาระบบล่าช้า จึงมุ่งพัฒนาระบบ Dashboard กลางเพื่อให้ผู้ดูแลสามารถเฝ้าติดตามสถานะของ Cluster ได้แบบเรียลไทม์ วิเคราะห์แนวโน้มการใช้งานย้อนหลัง และรับการแจ้งเตือนเมื่อเกิดความผิดปกติ ระบบดึงข้อมูลจาก Slurm และ Metric จาก Prometheus/Node Exporter เช่น CPU load, Memory usage, Disk I/O และ Network traffic มาจัดเก็บและแสดงผลผ่าน Grafana ที่ออกแบบให้เข้าใจง่ายและเชื่อมต่อการแจ้งเตือนผ่าน Microsoft Teams ผลการใช้งานพบว่าระบบช่วยลดเวลาในการตรวจสอบปัญหา เพิ่มประสิทธิภาพการใช้ทรัพยากรของ Cluster ทำให้ผู้ดูแลและผู้ใช้สามารถติดตาม job ได้สะดวกขึ้น เห็นแนวโน้มการใช้งาน เช่น ช่วงเวลาที่โหลดสูงหรือโหนดที่ไม่ได้ใช้งานเต็มที่ ส่งผลให้สามารถวางแผนการจัดสรรทรัพยากรได้เหมาะสม.
Keywords: High Performance Computing, HPC Monitoring, Dashboard System, Slurm, Grafana, Resource Management, Real-time Monitoring
SWU WUNCA Mascot 2
Image 1