約 11,500 件の結果
リンクを新しいタブで開く
  1. 一文了解Transformer全貌(图解Transformer)

    2025年9月26日 · 网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。 1. Transformer整体结构 在机器翻译中,Transformer可以将一种语言翻译成另一种语 …

  2. 如何最简单、通俗地理解Transformer? - 知乎

    2021年2月21日 · Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点 …

  3. 如何从浅入深理解 Transformer? - 知乎

    2024年7月9日 · Transformer升级之路:12、无限外推的ReRoPE? Transformer升级之路:13、逆用Leaky ReRoPE Transformer升级之路:14、当HWFA遇见ReRoPE 预训练一下,Transformer的长序 …

  4. Transformer模型详解(图解最完整版) - 知乎

    Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下: 第一 …

  5. Transformer 和 cnn 是两条差异巨大的路径吗? - 知乎

    2024年12月20日 · 卷积和注意力:AI 领域的“分手还是复合”剧本? Transformer 和 CNN,真的是两条差异巨大的路径吗? 两者设计逻辑不一样,但目标一致——让机器看懂东西 CNN 是图像领域的老炮, …

  6. 如何最简单、通俗地理解Transformer? - 知乎

    2021年2月21日 · 考虑到Transformer直接建模全局信息的魅力,许多研究尝试对其进行改造,以适应视觉数据分析任务。 自2020年10月,谷歌提出ViT模型开始,Transformer在计算机视觉领域展现出了强 …

  7. MoE和transformer有什么区别和联系? - 知乎

    2025年2月16日 · 01. Transformer:像“万能翻译官”的神经网络 Transformer 是当今AI大模型(如ChatGPT)的核心架构,最初用于机器翻译,核心是自注意力机制(Self-Attention),能同时分析 …

  8. 如何最简单、通俗地理解Transformer? - 知乎

    Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。 之前自然语言处理主要的算法叫RNN(循环 …

  9. 如何最简单、通俗地理解Transformer? - 知乎

    Transformer 模型里面有两大部分,一个叫做 encoder,一个叫 decoder,就是编码器和解码器。 你给它一个“苹果”,它在内部encode 成 1536 维的一个向量, 1536 个数字。

  10. 挑战 Transformer:全新架构 Mamba 详解

    2025年9月23日 · 而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 …