NGINX.COM
Web Server Load Balancing with NGINX Plus

本文转载自 The New Stack

通过采取模型优先策略、优化利用率并战略性地实施负载均衡,首席信息官(CIO)得以缓解芯片短缺的问题。


AI 生成图片,来源:Pixabay

人工智能 (AI) 时代的淘金热方兴未艾,但对许多公司而言,目前 GPU 供应紧缺。GPU 短缺现象正困扰着首席信息官们,因为 AI 需求持续激增,超出了构建数据中心的能力,甚至超出了必要芯片的处理能力。

简而言之,GPU 短缺意味着希望使用 GPU 进行 AI 计算的企业根本无法购得这些强大的并行处理系统,而此类系统是运行多种类型机器学习的最有效方式。

CPU 短缺又引发了其他问题。由于全球范围内强大图形处理单元的芯片短缺,初创企业需要专门筹集资金购买 GPU —— 这种业务策略非常不切实际,因为在创收之前,企业需先投入大笔资本 —— 而这正是云计算所要解决的问题。此外,AI 工作负载需求也在不断增长。

随着越来越多的企业希望利用 OpenAI 和谷歌等公司提供的 AI 服务,或者利用云端 AI 模型和工具链,GPU 价格上涨,致其进一步超出了初创企业及其他资金短缺企业的承受能力。

GPU 短缺正波及整个供应链以及 AI 生成器的整个工具集。数据中心建设公司面临着备用发电机和变压器等所需的核心部件积压多年的问题。即使是寻找房价便宜、电价经济和电力充沛以及具有全球互联网快速连接能力的合适地点,也变得愈加困难。

现在的问题是缺少芯片。半导体制造厂目前很难满足需求,即便快速建设新工厂,也只得苦等多年才能实现增产。

与此同时,超大规模云提供商和大型企业正大量吃进生产供应有限的 GPU,导致其价格一路飙升。对于许多公司而言,尤其是预算有限的公司,很难获得云端 GPU 用于 AI 应用,这正日益成为他们面临的一大业务风险。

不过,明智的首席信息官可以通过常识性措施来减少企业运行 AI 所需的资源,从而缓解 GPU 短缺问题。

 

采用简化模型和推理方法

就像老练的旅行者深谙轻装上阵之道一样,数据科学家会利用更小巧、更高效的 AI 模型实现卓越成效。例如,Microsoft 的 Phi2 模型基于教科书和超高质量数据进行了训练,不仅结构紧凑,而且资源利用率高,因此微调和推理所需的计算量要少得多。

量化和剪枝等新技术支持研究人员在不影响准确性的情况下缩小庞大的模型。TensorFlow Lite 等框架专为在边缘设备上部署这些更精简的模型而设计,同时 Hugging Face 等初创公司正在普及预训练的高效模型。负责 PyTorch 框架的团队也在提供全新方法来有效地训练模型,并减少所用数据和开销。

 

优化一切

随着 GPU 时间价值的飙升,优化 AI 工作负载可迅速获得丰厚回报。AI 工程和 MLOps 团队应经常积极主动地分析性能,以找出瓶颈。但这并非易事,可能需要对不同的配置(批处理大小、GPU 数量)进行基准测试,从而找到适合特定任务的最高效设置。

经验丰富的团队会在训练过程中组合和微调数据精度(FP16、FP32 等),从而减少内存使用和增加批处理量。有种方法可能会有所帮助,即利用数据预取和精确定时数据传输等技术管理内存分配和数据移动,以密切跟踪计算可用性。

关键在于找到最适合 AI 作业的理想批处理大小。较大的批处理量可以更好地利用 GPU,但如果太大,则会引致内存不足错误,因此需要通过试验找到理想大小。如果您拥有较大的 GPU 或预留了大量 GPU 容量,那么一定要试试 GPU 虚拟化软件。这可让您再利用所需的宝贵稀缺算力来训练模型或者进行更大调整,以处理 AI 应用操作所需的更多普通模型推理。

最后,您需要基于容器进行部署,尽可能地实现自动扩展,以便根据实时需求动态调整分配给工作负载的 GPU 数量,从而避免过度配置,同时确保高峰期也有足够的资源。

 

针对 AI 作业调整负载均衡

经过适当调整的负载均衡可应对 GPU 短缺挑战,同时确保 AI 作业获得所需的资源而不会超时,并增强安全防护。它不同于传统负载均衡,可识别 AI 任务的不同计算要求。

通过分析工作负载、评估其 CPU 和 GPU 需求以及确定时效性操作的优先级,AI 特定负载均衡器能够动态地将工作分配给最合适的硬件,从而保障成本高昂的 GPU 用在刀刃上,同时将 CPU 密集型工作卸载到更具成本效益的资源上。

重要的是,AI 特定负载均衡将令牌管理控制提升至全新水平。在令牌发挥作用的 AI 系统(语言模型)中,实施负载均衡不仅仅关乎硬件效率。负载均衡器能够监控与 AI 作业相关的令牌使用情况,便于动态重新路由请求,以优化令牌消耗并防止成本超支。

此外,AI 负载均衡器还可以根据作业的潜在安全影响和令牌灵敏度对作业进行智能路由,有助于隔离高风险工作负载,增强 AI 系统安全防护。通过实施这种负载均衡策略,可实现框架集成、强大监控以及云端 AI 负载均衡解决方案可能带来的成本节省。

经过 AI 调整的负载均衡器能够提供更精细的控制 —— 例如,基于令牌的速率限制,以及将作业发送或转移到 LLM 集群(在令牌使用或成本方面最为经济)的算法。

 

希望未来 GPU 供应充足

好在业界并未袖手旁观。芯片制造商正在加紧生产,新型 AI 专用芯片架构即将问世,更多的 AI 数据中心也将上线。许多明智的开发人员和工程团队正在不断改进 AI 模型的运行方式,减轻模型训练的负担,同时保持甚至提高性能。

不过,这些解决方案不可能一蹴而就。与此同时,通过采用模型优先策略、优化利用率和战略性地实施负载均衡,首席信息官能够缓解当前基础设施蔓延造成的严重过剩问题,避免 GPU 短缺,确保其企业具备足够的 AI 能力来完成必要作业。

 

Hero image
免费白皮书:
NGINX 企阅版全解析

助力企业用户规避开源治理风险,应对开源使用挑战

关于作者

Liam Crilly

产品管理高级总监

关于 F5 NGINX

F5, Inc. 是备受欢迎的开源软件 NGINX 背后的商业公司。我们为现代应用的开发和交付提供一整套技术。我们的联合解决方案弥合了 NetOps 和 DevOps 之间的横沟,提供从代码到用户的多云应用服务。访问 nginx-cn.net 了解更多相关信息。