Transformer Exploded

About 50 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › tardis › zm › art
一文了解Transformer全貌（图解Transformer）
Sep 26, 2025 · 网上有关Transformer原理的介绍很多，在本文中我们将尽量模型简化，让普通读者也能轻松理解。 1. Transformer整体结构在机器翻译中，Transformer可以将一种语言翻译成另一种语言， …
zhihu.com
https://www.zhihu.com › question
如何最简单、通俗地理解Transformer？ - 知乎
Transformer最开始应用于NLP领域的机器翻译任务，但是它的通用性很好，除了NLP领域的其他任务，经过变体，还可以用于视觉领域，如ViT（Vision Transformer）。这些特点让Transformer自2017 …
zhihu.com
https://www.zhihu.com › question
如何从浅入深理解 Transformer？ - 知乎
Transformer升级之路：1、Sinusoidal位置编码追根溯源 Transformer升级之路：2、博采众长的旋转式位置编码猛猿：Transformer学习笔记一：Positional Encoding（位置编码）解密旋转位置编码解密 …
zhihu.com
https://www.zhihu.com › column
Transformer模型详解（图解最完整版） - 知乎
Transformer 的整体结构，左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下：第一 …
zhihu.com
https://www.zhihu.com › question › answers › updated
如何从浅入深理解 Transformer？ - 知乎
在过去的文章里我们梳理过Transformer的整体架构，分析过它当中比较重要的组件，比如自注意力机制，但是我们发现真正构建系统化认知的关键，在于理解各个组件如何串联协作以及端到端的数据流。 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
挑战 Transformer：全新架构 Mamba 详解
Sep 23, 2025 · 而就在最近，一名为 Mamba 的架构似乎打破了这一局面。与类似规模的 Transformer 相比， Mamba 具有 5 倍的吞吐量，而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。性 …
zhihu.com
https://www.zhihu.com › question
MoE和transformer有什么区别和联系？ - 知乎
01. Transformer：像“万能翻译官”的神经网络 Transformer 是当今AI大模型（如ChatGPT）的核心架构，最初用于机器翻译，核心是自注意力机制（Self-Attention），能同时分析句子中所有词的关系，而 …
zhihu.com
https://www.zhihu.com › question
有没有比较详细通俗易懂的 Transformer 教程？ - 知乎
Transformer目前没有官方中文译名，暂时就叫Transformer吧。在该论文中，作者主要将Transformer用于机器翻译 [2] 任务，后来研究者们发现Transformer在自然语言处理的很多任务上都展现出了优越 …
zhihu.com
https://www.zhihu.com › question
transformer的细节到底是怎么样的？ - 知乎
近半年来有大量同学来找我问Transformer的一些细节问题，例如Transformer与传统seq2seq RNN的区别、self-attention层的深入理解、masked self-attention的运作机制；以及各种Transformer中的思路如 …
zhihu.com
https://www.zhihu.com › question
transformer是不是深度神经网络？如果是，请回答为什么是？ - 知乎
Transformer 模型最初由 Vaswani 等人在其2017年的论文《Attention Is All You Need》中提出，它通过使用自注意力（self-attention）机制来捕获输入序列中不同元素之间的全局依赖关系，从而有效处理 …

Pagination
- Next