而和前述布局稍有不同的是,邬江兴讲述了“软件定义晶上系统(SDSoW)”的新概念。
他提出了一个“SMV困境定理”,即现实工艺物理环境在满足全生命周期可扩展性前提下,任何单一工艺体制都不可能在S、M、V三维空间内同时达到最优,这也是当前国产算力增长之时,所面对的计算架构单一性与算力需求多样性的矛盾所在。
针对这一“不可能三角”,“变结构计算”则是关键突破点。据邬江兴介绍,变结构计算的第一性原理为软件定义的节点+互联,SDSoW 则是这一解法的物理实现载体。
不同的算力处理特征适用场景各有差异,于是芯片也需要实现异构融合,这也同人脑处理任务具有相似之处。沿着这套逻辑,“类脑算力”的概念也成为当前业界前沿的思考之一。
“类脑处理器(BPU)更加接近生物脑信息处理特征,比较适用于一些密度比高的矩阵和稀疏矩阵,以及知识图谱、动力学方程的运算,处理非结构化随机排布的信息运算更有效率。”中国科学院院士张旭如是说道。
当前,在全球范围内均有类脑计算相关布局——去年年底,广东智能科学与工艺研究院发布了天琴芯类脑晶圆计算芯片,今年 4 月,英特尔也发布了 Hala Point 大型神经拟态系统。
不过,类脑芯片在功耗上能够占据一定优势的同时,对于成本问题,在业内仍有部分顾虑的声音存在。
另外,值得一提的是,电力也是算力增长过程中屡屡被强调的关键一环。
“我在一年前预测过芯片短缺,而下一个短缺的将是电力,明年将没有足够的电力来运行所有芯片。”特斯拉首席执行官埃隆·马斯克曾发表过这方面的担忧。
无独有偶,此前,OpenAI 创始人山姆·奥特曼也曾提出类似警告:“下一波生成型机器智能系统消耗的电力将远远超出预期,能源系统将难以应对,未来AI的工艺取决于能源,我们需要更多的光伏和储能。”
美国科技巨头们的焦虑尽显,海外研究机构曾有报告称,ChatGPT 每天要响应大约 2 亿个请求,在此过程中消耗超过 50 万度电力,这基本相当于 1.7 万个美国普通家庭的用电量。
针对国内情况,邬江兴在会上对此发表了不同看法,他强调了“用电力拼算力”这一增长范式的不可持续。“算力的极限不是电力,不应该是电力,电力支持不了算力的持续增长。”邬江兴坚持认为。
「超智融合」已成大势所趋
今年以来,“超智融合”也已成为业界广泛认可的国内 HPC 新趋势,这一点在本次大会上体现尤为明显。
“超算是可以用来训练超大模型的”,清华大学计算机系教授陈文光在演讲中提到,“过去,我国在超算上是有很好的基础的,那为什么到了智算时代,所有人都觉得我们落后了很多,是不是可以把超算领域的经验移植到智算领域里面来,通过‘超智融合’的方式。”
他也在过往实践中验证了这一观点的可行性——
“我们在新神威计算机上研发了一个大模型训练框架叫‘Bagualu’,不过之前没有说要去超智融合,所以在双精度算力和半精度算力上面只做到了 1:4。但是如果这台机器能做到 1:16,用来做 AI 训练的话也会有一定竞争力。”陈文光说道。
他认为,超智融合或为解决国内算力瓶颈的关键路线:
“确实超算过去只有科学和工程计算作为主要的应用,面临商业客户相对来说是比较少的问题,如果能够做到很好的超智融合,也能给国产超级计算及的商业应用,提高整个的投资效率起到很好的作用。”
并行科技董事长、CCF 副理事长陈健对于“超智融合”的趋势也有类似的感受。
在他看来,“在 AI 的进化史中,较长时间内我们理解 AI 是 AI,超算是超算。但从去年开始,AI的大模型训练需求暴涨,这是典型的并行计算应用,底层需要超级计算机,是以 GPU 为主的超级计算机。其实超算也并不是说只有 CPU 的超级计算机,我们去看 top500,70% 是英伟达和 AMD 的 GPU 搭建起来的超级计算机,主要的算力是由 GPU 来组成的。”
自“百模大战”打响后,过去两年,业内不少实践发现,传统的基于云主机、虚拟化所搭建的云支持平台,面对大模型训练并不合适,而最关键的一点在于,没有解决卡与卡之间性能的问题,也就是超算中常用的带宽问题,或者说计算与通信的比例关系。
陈健将当前大模型的算力需求总结为以下方面——超大规模大模型训练供不应求,包括微调在内的常规的大模型训练供大于求。
对于常规大模型训练,目前看到的情况是:“今年上半年大概有 140 多个智算中心在建,全国在规划中的共有 250 多个智算中心,这部分算力搭建出来之后,大概率是 2000 卡以下的集群,而现在这样的需求正在萎缩。”
其中,关键原因在于两方面——“卷”基础大模型的厂商变少以及随着基础大模型版本的更新迭代,许多行业模型的存在价值正在消失。
当前,业内有关“算力网”建设的呼吁,则是在对“超智融合”这一趋势的预判之下给出的解决方案,对此,大会现场也有不少相关讨论。
国防科技大学院士王怀民介绍道,“超算与智算融合不仅体现在算力中心,还出现在更广泛范围内算力中心资源的有效连接和共享,所以我们都在呼唤中国算力网的出现。”
这也是由中美需求上的差异所决定的,美国的算力主要集中在云支持商手里,通信运营商并没有很强的算力,也并没有强调建立算力网,而是利用分布式的系统和编程语言工艺来解决云的孤立的问题。
中国工程院院士李国杰以天空实验室为例介绍了美国的当前情况——
“Spark 的发明人 Ion Stoica 组建了一个 SkyComputing 实验室,2022 年正式启动,主要是想解决云支持平台的孤岛问题,想要增长成一种公共支持。主要包括三层平台,兼容层隐藏云之间的差异,云间层寻找不同支持的最佳性价比,互惠对等层则主要实现免费和快速地在云间传输。”
说回到国内,据李国杰观察,当前,由于在训练过程中需要频繁交换模型参数和梯度信息,所以实现反向传播的延迟通常要控制在毫秒级以下,国内的龙头企业都在做支持 10 万 GPU 卡以上规模的大模型,但采用的都是相对集中的集群系统,并没有采用异地分布式计算。
“他们的集群一般装在一个园区,可能有几个楼,分成几个计算岛,岛里面进行张量并行和流水线并行,岛之间做信息并行。但信息并行有个大问题,它要求一个 GPU 就要把整个模型参数存起来,GPT4 有 1.8 万亿参数,可能需要 10 个 TB 以上的内存,这个成本非常高。”他说道。
同时,他还表示,“在西部建很多小的超算中心、智算中心,联合起来就可以解决我们国家的机器智能训练问题,这样的想法可能并不太靠谱。”
较为可行的解法还是“算力网”。
在李国杰的设想中,“算力网要发挥智能时代的基础设施的作用,也需要像有浏览器、微信一样的全民的普及应用。”
当前算力提供商、政府及学界纷纷在呼吁算力网的建设,在这方面也做出了不同的努力:
运营商布局云网融合,地方政府建算力枢纽中心,计算机界则聚焦于分布式计算的基础研究,例如,中科院计算所在做信息高铁项目、刘韵洁院士在做确定性计算网络、蒋昌俊院士在做机动性的方舱计算。
不过李国杰也发现,目前,真正需要这种远程算力的关键客户到底在哪,暂时还不是很清楚。
未来,在客户需求洞察的基础之上,前述各方布局可以形成一定合力。
“最迫切的一点在于为需要几百卡、几千卡做训练的中小模型单位找到合适的算力,如果把这件事真正做好了,就能打磨出算力网的 1.0 版本。几年后,推理会比训练需要更多算力,等到那时再升级 2.0 版本的算力网。”李国杰预判。
当前,算力网的抽象还涉及以下四个问题:一是怎么统一命名资源空间,也就是实现算力资源的池化;二是怎么提供一个万维网网页一样的运行式抽象;三是怎么提供一个统一的编程方法;四是怎么系统性评价算力网的性能。雷峰网(公众号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
文章版权声明:除非注明,否则均为本站原创文章,转载或复制请以超链接形式并注明出处