首页 > 教育 > 内容页

微软推ZeRO++新系统：减少大模型训练时间和成本

2023-06-27 06:26:28 来源：动点科技

【资料图】

微软研究人员推出了名为ZeRO++的新系统，用于优化训练大型AI模型，以应对高数据传输开销和有限带宽的难题。

ZeRO++ 建立在现有的 ZeRO 优化的基础上，并提供增强的通信策略，以提高训练效率，减少训练时间和成本。

像Turing-NLG、ChatGPT和GPT-4这样的大型模型的训练需要跨多个GPU设备占用大量内存和计算资源。DeepSpeed开发的ZeRO++引入了通信优化策略，以克服在每个GPU上批量大小较小时或在低带宽集群上进行训练时ZeRO的限制。

ZeRO优化系列包括ZeRO-Inference，它使用GPU的集体内存和计算能力，将模型状态分割在多个GPU之间。然而，在训练过程中，ZeRO可能会产生较高的通信开销。ZeRO++通过整合三组通信优化来解决这个问题:量化权重通信（qwZ）、分层权重分割(hpZ)和量化梯度通信(qgZ)。

为了减少参数通信量，ZeRO++对权重进行量化，利用基于块的量化方法来保持训练精度。这种优化的量化过程比基本量化更快更准确。为了在反向传播过程中尽量减少通信开销，ZeRO++通过在每台机器上保持完整的模型副本，以 GPU 内存换取通信。梯度通信方面，ZeRO++引入了一种新的量化梯度通信范式 qgZ，可以减少跨节点的流量和延迟。

这些通信优化大大减少了通信量。与ZeRO相比，ZeRO++实现了减少高达4倍的通信量，提高了训练吞吐量和效率。当在每个GPU上使用小批量大小时，在高带宽集群中，ZeRO++相比ZeRO-3的吞吐量提高了28%至36%。在低带宽集群中，与ZeRO-3相比，ZeRO++实现了平均2倍的加速，使得大模型训练在更多种类的集群上更为可行。

ZeRO++不仅限于训练场景，还可应用于对话模型中使用的人类反馈强化学习（RLHF）训练。通过将ZeRO++与DeepSpeed-Chat集成，RLHF训练可以获得更好的生成和训练吞吐量，生成吞吐量提高了高达2.25倍，训练吞吐量提高了1.26倍，超过了ZeRO。

DeepSpeed已经发布了ZeRO++，以使大型模型的训练在AI社区更加高效和可访问。该系统旨在加快训练速度，减少通信开销，并实现更大的批量大小，从而节省时间和资源。研究人员和实践者可以利用ZeRO++更有效地训练像ChatGPT这样的模型，并在AI领域探索新的可能性。

来源：站长之家

标签：

月均增长达“百亿级” 六问快递业如何实现提速发展_焦点关注

荔枝、樱桃、哈密瓜，生鲜、冷链、次日达。一辆辆快递车、一名名快递小

财经

世界视讯！广州酒家：公司董事长拟减持减持比例不超0.0346%

科技

环球热消息：襄州：文艺演出“话”禁毒助力宣传进万家

襄州：文艺演出“话”禁毒助力宣传进万家---湖北日报客户端讯（通讯...

x 广告

微软推ZeRO++新系统：减少大模型训练时间和成本

微软推ZeRO++新系统：减少大模型训练时间和成本

这些通信优化大大减少了通信量。

月均增长达“百亿级” 六问快递业如何实现提速发展_焦点关注

荔枝、樱桃、哈密瓜，生鲜、冷链、次日达。一辆辆快递车、一名名快递小

天天热议:套餐陷阱

近日，有消费者向记者反映，运营商通过营销电话或其他方式推荐客户升级

全球实现气候目标道阻且长！报告：可再生能源难撼化石燃料主导地位

全球实现气候目标道阻且长！报告：可再生能源难撼化石燃料主导地位

新疆高铁规划线路图_新疆高铁_每日热门

1、乌鲁木齐到上海高铁已开通了，乌鲁木齐24小时抵达上海。2、从2021年

每日消息!天津摇号申请需要有居住证吗？

➤➤天津摇号申请需要有居住证吗？答：有三类非天津市户籍人员需要有居

【环球速看料】我国拟立法保障粮食安全

为保障粮食有效供给，确保国家粮食安全，提高防范和抵御粮食安全风险能

环球热消息：襄州：文艺演出“话”禁毒 助力宣传进万家

襄州：文艺演出“话”禁毒助力宣传进万家---湖北日报客户端讯（通讯...

世界快资讯丨“小哥”获评高层次人才：提升价值认同城市更有未来

黄慧近日，杭州第二届“小哥节”现场，来了三位代表。美团外卖骑手...

世界视讯！广州酒家：公司董事长拟减持 减持比例不超0.0346%

6月26日，广州酒家发布董事集中竞价减持股份计划公告。公司董事长徐伟

武磊的作用不仅是进球 他还代表上港的精神_环球短讯

第二个记录就是代表上海上港夺冠，可能第二次拿到中超最佳射手的机会，

他她商宝靠谱吗_他她商宝

1、有没有包收录的外链代发？他她链宝怎么样？论坛外链很多人都在做，

收评：沪指低开低走跌1.48% 电力股领涨人工智能概念股领跌

两市主要股指26日早间普遍显著低开。沪指及深成指早盘震荡下行，午间收

大连甘井子区：科技创新赋能产业高质量发展

“通过对采购、销售、生产全业务链闭环管理，员工工作效率和业务协...

环球快看点丨千里跟踪“大鱼”、智取持枪嫌犯、追擒亡命之徒……看缉毒警察如何在“刀尖上行走”

人民警察是和平年代流血最多、牺牲最大的一支队伍，而缉毒警一直是警察

河南南阳：中心城区买首套新房契税补贴50％

河南省南阳市人民政府网站消息，6月20日，南阳市在支持中心城区刚需和

世界快讯:《品牌观察》：建筑机械租赁筑牢绿色建造之基

建筑业是国民经济的支柱产业，为我国经济社会发展和民生改善作出了重要

正式投产！华为助力全球最大、海拔最高水光互补电站并网发电

正式投产！华为助力全球最大、海拔最高水光互补电站并网发电,2023年6月

当前简讯:山东省教育厅：扎实推动主题教育检视整改高质量开展

中国山东网-感知山东6月26日讯（记者王浩然）山东省教育厅及时制定出台

wps怎么更改图表坐标轴刻度wps坐标轴刻线教程_全球新消息

wps如何更改图表坐标轴刻度？在wps表格中，图表坐标轴刻度是软件默认，

每日关注!我国拟立法保障粮食安全

为保障粮食有效供给，确保国家粮食安全，提高防范和抵御粮食安全风险能

中国牵头修订的联合国燃料电池电动汽车安全全球技术法规获表决通过

2023年6月20-22日，联合国世界车辆法规协调论坛（WP 29）第190次会议在

海尔热水器怎么样排名第几 海尔热水器怎么样-世界看热讯

1、冬天来了，使用热水器的人是越来越多了，但是如果我们想要购买热水

芗城区石亭街道：“三聚力”开展燃气安全专项整治行动_天天观点

导报讯（通讯员林芷逸）为迅速贯彻落实省、市、区安全防范工作紧急视频

当前简讯:强预期暂未兑现，债市短线走强金十期货6月26日讯，2023年6月中旬以来，先后公布的5月经济数据持续走低，国内经济压力有增无减

强预期暂未兑现，债市短线走强金十期货6月26日讯，2023年6月中旬以来，

数字文明尼山对话｜复旦大学中国研究院院长张维为：人工智能是一把双刃剑 要从中华文明中汲取智慧 全球快消息

齐鲁网·闪电新闻6月26日讯世界互联网大会数字文明尼山对话于6月25...

秋色宜人的意思

深秋温馨，魅力无限深秋是一年四季中最美的季节之一，夜渐长，天渐凉，

调贬261个基点，人民币兑美元中间价报7.2056

6月26日，人民币兑美元中间价报7 2056，调贬261个基点。前一交易日中间

温馨！天宫殿街道这个社区为老人开了个“集体生日趴”

社区还精心为寿星们准备了小游戏，让大家一起在“彩蛋”上面写下生...

武汉5.84亿元出让武汉市江夏区1宗综合用地|世界球精选

6月26日，湖北省武汉市江夏区黄家湖成交1宗综合用地，该地块由武汉市江

月均增长达“百亿级” 六问快递业如何实现提速发展_焦点关注

荔枝、樱桃、哈密瓜，生鲜、冷链、次日达。一辆辆快递车、一名名快递小

环球热消息：襄州：文艺演出“话”禁毒 助力宣传进万家

襄州：文艺演出“话”禁毒助力宣传进万家---湖北日报客户端讯（通讯...

环球热消息：襄州：文艺演出“话”禁毒助力宣传进万家

世界视讯！广州酒家：公司董事长拟减持减持比例不超0.0346%

武磊的作用不仅是进球他还代表上港的精神_环球短讯

海尔热水器怎么样排名第几海尔热水器怎么样-世界看热讯

数字文明尼山对话｜复旦大学中国研究院院长张维为：人工智能是一把双刃剑要从中华文明中汲取智慧全球快消息

环球热消息：襄州：文艺演出“话”禁毒助力宣传进万家