TTT模型可能成为生成式人工智能的下一个前沿

在几年来由变压器形成的AI统治之后,寻找新的架构已经开始。

变压器支撑着OpenAI的视频生成模型Sora,它们也是文本生成模型如Anthropic的Claude,Google的Gemini和GPT-4o的核心。但它们开始遇到技术障碍,特别是与计算相关的障碍。

在现有的硬件上,变压器并不能特别高效地处理和分析大量数据。这导致公司为了满足变压器的要求而建立和扩展基础设施,使能耗急剧增加,可能难以持续。

本月提出了一个有前途的架构——测试时间训练(TTT),这是斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员在一年半的时间内开发的。研究团队声称TTT模型不仅可以处理比变压器更多的数据,而且可以在不消耗太多计算资源的情况下做到这一点。

变压器中的隐藏状态

变压器的一个基本组成部分是“隐藏状态”,本质上是一长串数据。当一个变压器处理信息时,它会向隐藏状态添加条目,以“记住”它刚刚处理的内容。例如,如果模型正在逐渐阅读一本书,隐藏状态的值将是词汇的表示(或词语的部分)。

斯坦福的博士后兼TTT研究的共同贡献者孙宇告诉TechCrunch:“如果把变压器看作一个智能实体,那么查找表——它的隐藏状态——就是变压器的大脑。这种专门的大脑使得变压器具有在上下文中学习等众所周知的能力。”

隐藏状态是使变压器如此强大的一部分。但也局限了它们。仅仅说出一个变压器刚读过一本书的一个词,模型就必须扫描整个查找表——这一任务的计算需求就像重新阅读整本书一样。

因此,孙和他的团队想到了用一个机器学习模型来替换隐藏状态——就像AI的套娃,一个模型内嵌在另一个模型中。

略微技术性,但要点是,TTT模型的内部机器学习模型不像变压器的查找表那样随着处理额外数据而不断增长。相反,它将处理的数据编码成被称为权重的代表性变量,这正是使TTT模型高性能的原因。无论TTT模型处理多少数据,其内部模型的大小都不会改变。

孙认为,未来的TTT模型可以高效地处理从词汇到图像到音频记录到视频等数十亿个数据。这远远超出了现有模型的能力。

孙说:“我们的系统可以谈论关于一本书的X个词,并且不需要重新阅读这本书X遍的计算复杂度。基于变压器的大型视频模型,比如Sora,只能处理10秒的视频,因为它们只有一个查找表“大脑”。我们的最终目标是开发一个系统,可以处理一个类似于人类生活视觉体验的长视频。”

关于TTT模型的怀疑

那么,TTT模型最终会取代变压器吗?可能性是有的。但现在说还为时过早。

TTT模型并不是变压器的直接替代品。而且研究人员仅开发了两个小型模型进行研究,这使得很难将TTT作为方法与目前的一些更大型的变压器实现进行比较。

并不参与TTT研究的伦敦大学国王学院信息学部的高级讲师迈克·库克说:“我认为这是一个非常有趣的创新,如果数据支持它提供了效率提升,那是个好消息,但我不能告诉你它是否比现有架构更好。我在本科时的一个老教授告诉过我一个笑话:如何解决计算机科学中的任何问题?再增加一层抽象。在神经网络内部添加一个神经网络的确让我想起这句话。”

无论如何,对变压器替代品的加速研究步伐表明了对突破的需求日益增长。

本周,人工智能初创公司Mistral发布了一个基于变压器另一替代品称为状态空间模型(SSMs)的模型Codestral Mamba。像TTT模型一样,SSMs似乎比变压器更具计算效率,并且可以扩展到更大量的数据。

AI21 Labs也在探索SSMs。Cartesia也在研究SSMs,该公司创造了一些第一代SSMs和Codestral Mamba的命名者Mamba和Mamba-2。

如果这些努力取得成功,它可能会使生成式人工智能比现在更易接触和普遍-无论是好是坏。