微软和英伟达推出迄今为止训练最大最强的语言模型MT-NLG

10 月 12 日消息 语言模型(Language Model)简单来说就是一串词序列的概率分布,主要作用是为一个长度为 m 的文本确定一个概率分布 P,表示这段文本存在的可能性。

大家之前可能或多或少听说过 GPT-3,OpenAI 最新的语言模型,堪称地表最强语言模型,也被认为是革命性的人工智能模型。除此之外还有 BERT、Switch Transformer 等重量级产品,而且业内其他企业也在努力推出自家的模型。

微软和英伟达今天宣布了由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成模型(MT-NLG),这是迄今为止训练的最大和最强大的解码语言模型。

微软和英伟达推出迄今为止训练最大最强的语言模型MT-NLG

据了解,作为 Turing NLG 17B 和 Megatron-LM 的继任者,这个模型包括 5300 亿个参数,而且 MT-NLG 的参数数量是同类现有最大模型 GPT-3 的 3 倍,并在一系列广泛的自然语言任务中展示了无与伦比的准确性,例如:

  • 完成预测

  • 阅读理解

  • 常识推理

  • 自然语言推理

  • 词义消歧

105 层、基于转换器的 MT-NLG 在零、单和少样本设置中改进了先前最先进的模型,并为两个模型规模的大规模语言模型设定了新标准和质量。

据悉,模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上以混合精度完成的,该超级计算机由 560 个 DGX A100 服务器提供支持,这些服务器以完整的胖树配置与 HDR InfiniBand 联网。每个 DGX A100 有 8 个 NVIDIA A100 80GB Tensor Core GPU,通过 NVLink 和 NVSwitch 相互完全连接。微软 Azure NDv4 云超级计算机使用了类似的参考架构。

更多内容可查看微软和英伟达官方说明:

微软

英伟达

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在!
点赞 (0)

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如果您也有好的资源或教程,您可以投稿发布,成功分享后有金币奖励和额外收入!

第九资源 电脑/软件 微软和英伟达推出迄今为止训练最大最强的语言模型MT-NLG https://www.dir9.com/326.html

情况如我,心伤谁知。

常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 如遇下载不完整等情况,可对比下载完的压缩包与网盘上的容量,若小于网盘提示容量则是这个原因。这是浏览器下载的bug,建议用迅雷下载器!
查看详情

相关文章

评论
暂无评论
微软和英伟达推出迄今为止训练最大最强的语言模型MT-NLG-海报

分享本文封面