点击蓝字 关注我们
随着数智化转型的加速,学校、科研机构、政企单位等组织对异构算力设备的使用与依赖程度日益加深,但这随之也带来诸多挑战。设备使用群体庞大且复杂,在多用户环境下,设备的维护和管理难度显著增加。如何及时发现并解决用户在使用设备过程中遇到的问题,确保算力设备的高效运行,成为亟待解决的难题。
针对这一难题,衍生智算系统提供了一套完整的解决方案。当组织通过衍生智算系统进行异构算力设备统一纳管、人员分级管理以及资源申请与审批后,下一步要做的是如何直观高效观测资源使用情况、如何智能管控资源使用阈值。衍生智算系统的监控告警功能刚好满足这两个需求。
监控告警功能包括资源监控、告警事件、告警通知人三个功能栏。
1.资源监控
资源监控板块能帮助用户直观高效地观察资源使用情况。在该功能栏中,可以选择按资源监控或者按指标监控两种模式。如果选择按资源监控,可以监控单个用户或单个节点 IP 的裸金属服务器或容器资源数据。下方图表将直观显示该用户或节点的 CPU、内存、磁盘使用率、磁盘读写速率、网络速率、进程数。用户也可以在下面看到每张GPU的进程和使用情况。用户通过观察GPU使用情况,可以合理分配和调整资源,确保算力资源的充分利用。若选择按指标监控,可查看所有资源节点的某一指标的全部数据,包括节点 IP、关联用户、集群名称及使用率。

资源监控界面示例
2.告警事件
运管人员可以在告警事件栏设定告警规则。当用户的某个资源使用数据达到设定阈值时,系统将通过短信、邮箱、飞书、钉钉等渠道自动向用户发送告警信息。例如,新增一条告警规则时,需填写规则名称,选择资源类型和关联资源 IP,再根据事件级别选择告警指标、设置阈值,选择通知方式、间隔、通知人及通知时段。如果用户在使用资源时,达到设定阈值,则会收到相关信息。
用户可在告警历史中查看往期告警事件的数据,包括告警开始时间、账号名、告警持续时长、告警等级、规则名称、告警指标等信息。运管人员通过分析告警数据,结合历史数据和使用趋势,可预测未来资源需求,提前规划和采购资源,满足组织发展需求。

告警事件与告警通知人界面示例
3.告警通知人
告警通知人栏服务于“告警事件”,管理员在此可查看和录入通知人信息,方便新增用户的通知设置。
衍生智算系统为学校、政企单位、科研机构等组织提供了算力资源智能化管控的解决方案。高校等组织的运管人员通过衍生智算系统的监控告警功能可以对资源进行精细化管控,进行实时监控告警可以优化资源使用、提高运营效率。如在资源监控栏可动态查看整机设备或单个设备的使用状况,可查看用户对资源的使用情况以提醒相应的用户资源的扩容或回收;基于监控结果,可以通过定义各种告警级别方便运管人员及时介入,运管人员可以制定告警规则,当用户使用资源达到设定阈值时就会收到系统自动发出的告警信息,由此形成监控告警闭环。
衍生智算系统还适用于酒店、医疗、金融、电商零售、制造业等场景,可实现异构设备统一纳管、人员灵活管理、资源灵活调度等,降低其运维成本、提高运营效率。
产品咨询⬇️⬇️⬇️请联系客服
往期文章

