1、虚拟主机(简称主机)管理功能:系统需支持物理算力节点的全生命周期管理 (1)支持手动录入或网段批量扫描添加主机; (2)允许编辑配置、状态及移除主机(保留历史数据); (3)列表展示主机名、IP、标签、状态、到期时间等字段,并支持多维度排序筛选;实时监测在线/离线状态,动态更新展示; (4)支持通过Web界面远程直接进行关开机操作,支持通过Web界面设置定时任务的方式自动进行远程开关机。 (5)支持周期性与非周期性两种任务设置方式,周期性设置支持以天、周、月为周期进行设置,非周期性支持只执行一次开关机操作。 2、资源管理功能 (1)能实现对硬件资源(包括不限于GPU、NPU、CPU、内存、磁盘等)的灵活分配和管理。 (2)管理员创建新的用户账号,并按时间段、授权权限给用户分配相应的资源(同一资源在同一天内可按不同时间段分配给不同用户使用),在分配后,用户只能在所分配时间段内访问所授权的资源; (3)管理员对用户授权访问的资源以及访问的时间段进行更改; (4)管理员对分配的资源进行回收,同时可显示所有用户的用户名,每个用户被授权允许访问的主机数、资源数、回收后保留用户和恢复数据; (5)资源到期前,具备定时提醒用户的功能; (6)资源到期后,管理员有权限将用户强制下线并回收资源。回收后保留用户数据,用户在下个授权有效时间段内可以以相同账号登录并恢复其数据; (7)对云盘等分布式存储资源的管理,支持用户挂载、卸载; (8)支持物理主机、容器、云主机等资源分配方式,实现快速搭建环境、用户开发环境隔离等特性; (9)通过平台以Web的方式直接登录被授权的物理主机、容器以及云主机并进行操作;也可直接通过SSH的方式登录被授权的物理主机进行访问操作。 3、资源监控功能 (1)可查看所有设备整体概况:算力节点数量、算力卡数量、总算力、实时功耗、各台机器基本信息概览; (2)查看设备详情监控:GPU信息、CPU信息、内存使用率; (3)查看算力卡详情监控:算力卡数量、算力卡型号、驱动版本、单卡算力、当前性能等级、实时功耗、实时使用率、实时温度、显存大小、实时显存使用率、显卡带宽、算力卡核心频率等。 (4)支持算力卡设备进行统一监控和预警。 (5)内置集成算力卡使用时长统计功能:支持通过Web界面对每一张算力卡每天的实际使用时间进行实时统计。 4、告警管理功能 (1)基于规则配置,触发告警事件,可利用算力设备基本硬件、软件运行状况实时信息作为告警条件,产生告警事件,告警规则支持实时启用; (2)通过平台直接连接设备终端进行远程故障诊断。 5、系统管理功能 (1)管理员可创建、编辑和删除不同的用户角色,并为每个角色分配相应的权限,以控制访问级别和操作范围。 (2)系统每周自动向管理员发送一次周报,简要汇报上一周计算资源使用情况。 (3)支持对用户资源的快照,以及资源快照的备份、恢复、删除等管理。 6、应用管理功能: (1)支持软件应用的增删改查及配置设置;支持设置当前应用的每个组件,添加应用的版本、组件的版本,设置YML文件;支持应用部署脚本的管理、脚本版本的设置,环境变量的新增、修改、删除、导入;支持基于文件组的方式添加应用的配置文件;支持文件组的新增、修改、导入,允许文件组上传、在线编辑多个文件;允许应用快照的管理,通过快照绑定部署脚本、组件版本、文件组、环境变量再利用快照部署智算软件;能够利用快照对主机进行部署、通过配置部署策略进行部署; (2)支持纳管的算力品牌类型包括:英伟达、华为昇腾、百度昆仑芯等; (3)支持远程纳管算力:在两地网络已构建隧道并处于同一局域网内的情况下,可根据在同一个局域网内的IP地址,通过寻址的方式,对算力服务器进行识别并纳管。 7、AI模型管理模块 (1)支持在线部署和API接入模式实现模型快速纳管,支持模型的试用和订阅; (2)支持插件的管理,支持插件接入,可以通过智能体加载使用; (3)知识库的管理,支持EXCEL、TXT、WORD等各种形式的知识库的一键挂载,并通过向量模型实现知识库匹配检索; 8、提供智能体的使用。 9、提供3年产品质量维保服务,维保期后,产品应能不受限制继续正常使用。 |