Together AI 公司针对其客户的 AI 训练需求,开发了一套系统的验收测试框架,该框架包括以下几个步骤:
※准备和配置:模拟最终使用场景,对新硬件进行配置,并安装必要的驱动和软件,如 NVIDIA 驱动、OFED 驱动、CUDA、NCCL 和 HPCX,以及配置 SLURM 集群和 PCI 设置。
※GPU 验证:使用 NVIDIA 的 DCGM 诊断工具和 gpu-burn 进行 GPU 的压力测试,确保每个 GPU 的性能符合预期。
※NVLink 和 NVSwitch 验证:通过 NCCL 测试和 nvbandwidth 工具验证 GPU 之间的通信性能,确保 NVLink 和 NVSwitch 的正常工作。
※网络验证:使用 ibping、ib_read_bw 和 ib_write_bw 等工具测试 Infiniband 网络的延迟和吞吐量,并通过 NCCL 测试验证 GPUDirect RDMA 的性能。
※存储验证:使用 fio 工具测试存储性能,包括随机读写和连续读写的性能。
※模型构建:运行与客户用例相关的参考任务,如使用 PyTorch 的 FSDP 构建模型,以验证集群的实际训练性能。
※可观测性:使用 Telegraf 等工具进行持续监控,确保能够及时发现并处理硬件故障。