新闻详情

DeepSeek发布最新技术论文!梁文锋挂名共创

2月18日,DeepSeek官方在海外交际渠道X上发布了一篇纯技能论文陈述,论文主要内容是关于NSA(Natively Sparse Attention,原生稀少注意力),官方介绍这是一种用于超快速长文本练习与推理的、硬件对齐且可原生练习的稀少注意力机制。

具体来说,NSA针对现代硬件进行了优化规划,可以加快推理进程,一起下降预练习本钱,且不献身功能。它在通用基准测验、长文本使命和根据指令的推理中均能到达或逾越全注意力模型的体现。稀少注意力为进步功率一起坚持模型才能供给了一个有远景的方向。

记者注意到,在这篇名为《原生稀少注意力:硬件对齐且可原生练习的稀少注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。

自1月20日发布DeepSeek-R1并搅动AI圈以来,DeepSeek方面一向较为低沉,这是这么多天以来DeepSeek仅有发布的技能动态。

来历:

一财

返回资讯列表