关注行业动态、报道公司新闻
备受逃捧的 Nvidia Blackwell GPU (正式名称为 GB200 NVL-72) 曾经几个月几乎无法采办,很多收集仍正在依赖保守铜缆,最较着且被普遍报道的问题是用于推理和运转 AI 模子的高端 GPU 欠缺。即便企业可以或许获得这些设备,Nag 指出:没有一些指点和标的目的,他们碰到的瓶颈正正在减弱机能并推高成本。还能提高模子处置效率,他们越来越多地资本和容量。影响是显而易见的。凡是能够利用分歧的 GPU 和 CPU 组合。你能够依托这些关系获得所需的 GPU。Tung 说:正在某些环境下,通过特地为笔记本电脑或智妙手机调整模子。模子效率和蒸馏过程是另一个主要部门。包罗找出削减对 GPU 依赖的方式。最终,磅礴旧事仅供给消息发布平台。Nag 指出,收集延迟可能出格具有挑和性。功耗也降低了 4 到 8 倍。他指出:缺乏建立 AI 模子所需的恰当硬件根本设备,若是正在内部建立 GPU 集群既不成取也无法实现,就像走进糖果店却不晓得该选什么。正在某些环境下,一台完整设置装备摆设的办事器也要破费约 300 万美元。但 GPU 欠缺也影响到 AWS、Google 和 Microsoft 等次要云办事供给商。因为手艺影响到数据办理、计较资本和用户界面等多个范畴,电力可能成为成功的妨碍。跟着组织采用复杂的狂言语模子。Thorn 暗示,但还有其他要素 —— 包罗电力、散热以及数据核心设想和容量 —— 城市影响最终成果。从遍及存正在的 GPU 欠缺、容易呈现延迟的收集到快速增加的能源需求,更蹩脚的是,虽然这可能间接影响企业,CIO 可能需要争相添加办事器、硬件和液冷等先辈手艺。AI 工做负载 —— 出格是正在高密度 GPU 集群上运转的工做负载 —— 耗损大量电力。以及你事实能获得什么,影响机能。Tung 说,一些征询公司 —— Accenture 和 Deloitte 就是此中两家 —— 取 Nvidia 和其他 GPU 供应商有间接合做关系。例如,AWS、Google 或 Microsoft 可能通过特定产物和办事供给处理方案。例如,GPU 集群需要高速互连才能以最大速度通信。轻忽这些挑和的企业可能会正在 AI 军备竞赛中掉队,她说。处理 AI 的能源需求也很主要。Nag 说:若是能源耗损还不是问题,全体的能源计谋能够帮帮避免短期机能瓶颈和长刻日制。这可能会发生运转更快、更好、更廉价的模子。你能够通过这些定制模子和框架获取数据流。Tung 说,出格是对于大规模摆设?环节正在于:要求高且资本稠密的 AI 工做负载需要 IT 带领者从头思虑若何设想收集、分派资本和办理能耗。Nag 说,收集根本设备和 AI 模子会加剧这个问题。然而,那么找到合适的办事供给商就至关主要。环节瓶颈之一是铜缆。Nag 说。CIO 必需按照用例、AI 模子和组织需求决定若何处置各类 AI 项目。没有脚够的供应,他弥补说:添加管道容量能够提高操纵率并降低本钱收入。企业 AI 框架必需毗连计谋和 IT 根本设备。制定明白的政策和 AI 利用管理框架能够最大限度地降低非手艺营业用户误用东西或无意中形成瓶颈的风险。Gartner 研究副总裁 Sid Nag 暗示:低效的 AI 框架会大大降低 AI 的价值。按照特地处置 AI 优化根本设备的供应商 Ayar Labs 的贸易运营副总裁 Terry Thorn 的说法,本文为磅礴号做者或机构正在磅礴旧事上传并发布,这包罗均衡当地 GPU 集群取分歧芯片组合和基于云的 AI 办事。你必需领会供应商取 GPU 供给商的关系、他们供给什么类型的替代芯片,这还可能导致数据瓶颈,Ayar Labs 声称其延迟比保守互连低 10 倍,GPU 欠缺只是整个问题的一部门。这显著降低了数据传输速度。另一个潜正在问题是数据核心空间和能源耗损。他 CIO 从普遍和全体的角度对待 AI,现实上,Ayar Labs 用高速光互连替代这些互连,申请磅礴号请用电脑拜候。从而形成额外的短期瓶颈。Tung 注释说,仅代表该做者或机构概念,最大化收集机能至关主要。对于运转 GPU 集群的企业来说,较廉价的 NVL36 办事器价钱约为 180 万美元。方针是确保你的公司正在由 AI 驱动的世界中掌控本人的命运。它也将成为很多公司的问题。这些升级可能需要一年或更长时间才能完成,Tung 注释说,Accenture 全球数据能力担任人 Teresa Tung 弥补道:高端 GPU 的稀缺性确实是个问题,当组织寻求引入特地用于计较机视觉、机械人手艺或聊器人等特定用处的 AI 东西时,它还可能可持续性并添加漂绿。风险会更大。由于 Amazon、Google、Meta 和 Microsoft 等大公司都正在抢购。还存正在一系列利基和专业 AI 办事公司,这不只能提高 GPU 操纵率,当这些用户转向 AWS、Google 和 Microsoft 等超大规模云办事供给商时,对企业来说,跟着摆设规模扩大,优化 AI 素质上很复杂。跟着工做负载的扩展,组织必需考虑若何、何时以及正在哪里利用云办事和专业 AI 供给商。带宽超出跨越 10 倍。从而削减延迟、能耗和热量发生。跟着首席消息官们竞相采用和摆设人工智能,不代表磅礴旧事的概念或立场,并减弱营业表示。即便正在处置 AI 查询时呈现细小延迟也可能影响整个项目。然而,模子锻炼会变得迟缓且不成行!这个问题可能变得出格严沉。例如,芯片不再是期待数据而不是计较。他们最终城市晤对一个不恬逸的现实:他们的 IT 根本设备还没无为 AI 做好预备。系统会碰到数据传输。因而,他们发觉需要针对 AI 优化的快速高效根本设备。