Transformer
原文来源:量子位 图片来源:由无界 AI生成 2023年大模型千帆竞发,除此外AI领域还有哪些新突破? 来来来,畅销书《Python机器学习》作者Sebastian Raschka的年末总结已经准备好
文章来源:机器之心 图片来源:由无界AI生成 近日,一项视频生成研究收获了大量赞誉,甚至被一位 X 网友评价为「好莱坞的终结」。 真的有这么好吗?我们先看下效果: 很明显,这些视频不仅几乎看不到伪影,
文章来源:新智元 Hyena处理长序列输入比FlashAttention速度高100倍!最新发布的StripedHyena模型可能成下一代AI架构的新标准? 图片来源:由无界 AI生成 最近几年发布的
原文来源:机器之心 图片来源:由无界 AI生成 自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,未来这种情况是一直持续,还是会有新的研究出现,我们不妨先听听身处
文章来源:机器之心 MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。 图片来源:由无界 AI生成 在大模型时代,Transformer 凭一己之力撑起了整个科研领域。自
原文来源:硅星人 图片来源:由无界 AI生成 在 Transformer 的自注意力(self-attention)机制中,每个token都与其他所有的token有关联。所以,如果我们有n个token
文章来源:机器之心 性能与 Mamba 一样,但所需训练步骤数却少 2.2 倍。 图片来源:由无界 AI生成 状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在
文章来源: GenAI新世界 作者:苗正 编辑:王兆洋 图片来源:由无界 AI生成 2017年,来自谷歌的几个研究员写下《Attention is All you need》的题目,给世界带来了Tra
原文来源:机器之心 图片来源:由无界 AI生成 Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种简单方法是将多个相同的 Tra
原文来源:量子位 图片来源:由无界 AI生成 一个来自MIT博士生的惊人发现: 只需对Transformer的特定层进行一种非常简单的修剪 ,即可在缩小模型规模的同时显著提高模型性能。 效果主要体现在
