数据中心场景产品更新
时间:2022-03-23 01:21:01 | 来源:行业动态
时间:2022-03-23 01:21:01 来源:行业动态
从NVIDIA的最新财报可以看到,数据中心业务在NVIDIA的营收中的比重越来越高。而在数据中心布局方面,NVIDIA也在不断深入扩展。
基于NVIDIA A100,NVIDIA推出了全新的NVIDIA DGX A100系统和HGX A100服务器构建模块。其中,DGX A100系统具有高达5Petaflops的AI性能,集成了8个全新NVIDIA A100 Tensor Core GPU,具有320GB内存用以训练最大型的AI数据集,以及最新的高速NVIDIA Mellanox HDR 200Gbps互连。
一个由5台DGX A100系统组成的机架可代替一个包括了AI训练和推理基础设施的数据中心,而且功耗仅是其1/20,所占用的空间是其1/25,成本是其1/10。利用A100的多实例GPU功能,每台DGX A100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。
据悉,DGX A100系统首批订单将送往美国能源部的阿贡国家实验室(Argonne National Laboratory)。该实验室将运用该集群的AI和计算力来更好地研究和应对COVID-19。
NVIDIA还展示了新一代DGX SuperPOD并发布了DGX SuperPOD参考架构。该集群由140台DGX A100系统组成, AI计算能力高达700Petaflops。利用Mellanox HDR 200Gbps InfiniBand互连技术,NVIDIA将140台DGX A100系统结合在一起,构建了DGX SuperPOD AI超级计算机。
此外,NVIDIA还推出了NVIDIA DGXpert计划,帮助DGX客户与NVIDIA的AI专家建立联系;还有NVIDIA DGX-Ready软件计划,帮助客户在AI工作流程中充分利用各种经过认证的企业级软件。
硬件的更新是一方面,软件与硬件的协同才能发挥最大价值。NVIDIA还发布了多个软件堆栈更新,使应用程序开发者能够充分发挥A100 GPU的性能。这些更新包括了50多个新版本CUDA-X库,可用于加速图形、模拟和AI;CUDA 11;多模态对话式AI服务框架NVIDIA Jarvis;深度推荐应用框架NVIDIA Merlin;NVIDIA为Apache Spark 3.0带来端到端的GPU加速;以及NVIDIA HPC SDK,其中包括能够帮助HPC开发者调试和优化A100代码的编译器、库和工具。