Transformer - 区块链加密货币研究中心

发表于 2026-01-21 Transformer 训练开源

原文来源：量子位图片来源：由无界 AI生成 2023年大模型千帆竞发，除此外AI领域还有哪些新突破？来来来，畅销书《Python机器学习》作者Sebastian Raschka的年末总结已经准备好

发表于 2026-01-21 Transformer 图像视频

文章来源：机器之心图片来源：由无界AI生成近日，一项视频生成研究收获了大量赞誉，甚至被一位 X 网友评价为「好莱坞的终结」。真的有这么好吗？我们先看下效果：很明显，这些视频不仅几乎看不到伪影，

发表于 2026-01-21 算子 Hyena 序列

文章来源：新智元 Hyena处理长序列输入比FlashAttention速度高100倍！最新发布的StripedHyena模型可能成下一代AI架构的新标准？图片来源：由无界 AI生成最近几年发布的

发表于 2026-01-21 Transformer 状态模型

原文来源：机器之心图片来源：由无界 AI‌生成自 2017 年被提出以来，Transformer 已成为 AI 大模型的主流架构，未来这种情况是一直持续，还是会有新的研究出现，我们不妨先听听身处

发表于 2026-01-21 Laser 研究者 Transformer

文章来源：机器之心 MIT、微软联合研究：不需要额外训练，也能增强大语言模型的任务性能并降低其大小。图片来源：由无界 AI生成在大模型时代，Transformer 凭一己之力撑起了整个科研领域。自

发表于 2026-01-21 Transformer 文本机制

原文来源：硅星人图片来源：由无界 AI生成在 Transformer 的自注意力（self-attention）机制中，每个token都与其他所有的token有关联。所以，如果我们有n个token

发表于 2026-01-21 Mamba Moe Transformer

文章来源：机器之心性能与 Mamba 一样，但所需训练步骤数却少 2.2 倍。图片来源：由无界 AI生成状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在

发表于 2026-01-21 Transformer 论文内存

文章来源： GenAI新世界作者：苗正编辑：王兆洋图片来源：由无界 AI生成 2017年，来自谷歌的几个研究员写下《Attention is All you need》的题目，给世界带来了Tra

发表于 2026-01-21 残差 Pre 研究者

原文来源：机器之心图片来源：由无界 AI生成 Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种简单方法是将多个相同的 Tra

发表于 2026-01-21 Laser Transformer 组件

原文来源：量子位图片来源：由无界 AI生成一个来自MIT博士生的惊人发现：只需对Transformer的特定层进行一种非常简单的修剪，即可在缩小模型规模的同时显著提高模型性能。效果主要体现在