感觉写得很好。可是我有一个问题
trivial
2025-11-26 08:26:00
( reads)
因为觉得写得好,遂去翻看了系列第5篇。觉得两篇有点矛盾。
(here): Transformer 本质上是“短记忆动物”。它的表示空间天生偏向保留局部模式,
VS
(第五篇:)它既不健忘,也不近视。
能不能再具体说说。这是因为在不同的要求下看问题吗,一个目的是宏观叙事,另一个要追问更多细节?
挖矿
2025-11-26 08:57:25哈 指出的很好 第五集主要想说在TRANSFORMER 同一段输入里,它不会像 RNN 那样因为序列太长而丢掉前面的信息