# 大模型长文本技术竞赛升级,40万token或许只是开始大模型正以惊人的速度提升处理长文本的能力。从最初的4000 token增长到现在的40万token,长文本能力似乎已成为大模型厂商的新"标配"。国际上,OpenAI经过多次升级,将GPT-4的上下文长度提升至3.2万token;Anthropic一举将上下文长度扩展到10万token;LongLLaMA更是将上下文长度扩展到25.6万token甚至更多。国内企业也不甘落后。大模型初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token;港中文与MIT合作开发的LongLoRA技术,可将7B模型的文本长度拓展到10万token,70B模型拓展到3.2万token。目前,包括OpenAI、Anthropic、Meta、月之暗面在内的多家顶级大模型公司和机构都将长文本处理能力作为重点升级方向。这些企业也都是资本市场追捧的热门对象,融资规模和估值均呈爆发式增长。长文本技术的突破意味着什么?表面上看是模型的输入和阅读能力大幅提升,从最初只能读完一篇短文,到现在可以轻松处理一本长篇小说。更深层次的意义在于,它推动了大模型在金融、法律、科研等专业领域的应用落地。不过,文本长度并非越长越好。研究表明,模型能处理的上下文长度与效果并不能画等号,更重要的是模型如何有效利用上下文内容。目前业界对文本长度的探索还远未触及"天花板",40万token可能只是一个开始。## 为何要突破长文本限制?月之暗面创始人杨植麟表示,正是由于输入长度限制,造成了许多大模型应用落地的困境。例如在虚拟角色、剧本游戏、法律分析等场景中,输入长度不足会导致信息丢失、效果欠佳等问题。长文本能力对未来的Agent和AI原生应用也至关重要。Agent需要依靠历史信息进行规划决策,AI应用需要上下文来保持连贯和个性化体验。杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,前者与参数量相关,后者即上下文长度。通过增加上下文长度,可以在不大幅增加参数的情况下提升模型能力。长文本还有助于减少大模型的幻觉问题。更多的上下文信息可以辅助模型判断语义,减少歧义,提高推理准确性。可以说,长文本技术既解决了大模型的一些短板,也是推动产业落地的关键。这标志着大模型进入了从LLM到Long LLM的新阶段。以月之暗面的Kimi Chat为例,其长文本能力带来了多项升级:- 可快速分析长文、财报等,提取关键信息并生成摘要- 能将整本书或法律文件转化为可查询的知识库- 可直接将论文转化为代码,并进行修改优化 - 支持长对话下的角色扮演,实现与虚拟人物的互动这些功能显示出对话机器人正朝着专业化、个性化、深度化方向发展,有望成为撬动产业落地的新抓手。杨植麟表示,月之暗面的目标是打造下一个C端超级APP,在通用模型基础上衍生出多个垂直应用。他预测国内大模型市场将分为toB和toC两大阵营,toC领域将出现基于自研模型的超级应用。## 长文本的技术难题长文本技术面临"文本长度-注意力-算力"的不可能三角困境:- 文本越长,越难聚焦关键信息- 注意力有限,短文本又难以完整表达复杂信息 - 处理长文本需要大量算力,提高了成本这一困境源于Transformer结构中的自注意力机制。该机制使模型能灵活分析信息间关系,但计算量随文本长度呈平方级增长。研究表明,过长上下文会导致相关信息占比下降,注意力分散。这构成了文本长度与注意力的矛盾。同时,突破更长文本又需要更多算力,形成了与算力的矛盾。目前主要有三类解决方案:1. 借助外部工具:将长文本切分处理,通过检索短文本片段来构建长文本回答。2. 优化自注意力计算:如LongLoRA通过分组计算降低计算量。3. 模型优化:如LongLLaMA通过微调实现更长序列的外推能力。不同方案各有利弊。厂商需在文本长度、注意力和算力间寻找平衡点,以在处理足够信息的同时兼顾计算效率和成本。
大模型长文本处理能力暴增 40万token或为新起点
大模型长文本技术竞赛升级,40万token或许只是开始
大模型正以惊人的速度提升处理长文本的能力。从最初的4000 token增长到现在的40万token,长文本能力似乎已成为大模型厂商的新"标配"。
国际上,OpenAI经过多次升级,将GPT-4的上下文长度提升至3.2万token;Anthropic一举将上下文长度扩展到10万token;LongLLaMA更是将上下文长度扩展到25.6万token甚至更多。
国内企业也不甘落后。大模型初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token;港中文与MIT合作开发的LongLoRA技术,可将7B模型的文本长度拓展到10万token,70B模型拓展到3.2万token。
目前,包括OpenAI、Anthropic、Meta、月之暗面在内的多家顶级大模型公司和机构都将长文本处理能力作为重点升级方向。这些企业也都是资本市场追捧的热门对象,融资规模和估值均呈爆发式增长。
长文本技术的突破意味着什么?表面上看是模型的输入和阅读能力大幅提升,从最初只能读完一篇短文,到现在可以轻松处理一本长篇小说。更深层次的意义在于,它推动了大模型在金融、法律、科研等专业领域的应用落地。
不过,文本长度并非越长越好。研究表明,模型能处理的上下文长度与效果并不能画等号,更重要的是模型如何有效利用上下文内容。目前业界对文本长度的探索还远未触及"天花板",40万token可能只是一个开始。
为何要突破长文本限制?
月之暗面创始人杨植麟表示,正是由于输入长度限制,造成了许多大模型应用落地的困境。例如在虚拟角色、剧本游戏、法律分析等场景中,输入长度不足会导致信息丢失、效果欠佳等问题。
长文本能力对未来的Agent和AI原生应用也至关重要。Agent需要依靠历史信息进行规划决策,AI应用需要上下文来保持连贯和个性化体验。
杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,前者与参数量相关,后者即上下文长度。通过增加上下文长度,可以在不大幅增加参数的情况下提升模型能力。
长文本还有助于减少大模型的幻觉问题。更多的上下文信息可以辅助模型判断语义,减少歧义,提高推理准确性。
可以说,长文本技术既解决了大模型的一些短板,也是推动产业落地的关键。这标志着大模型进入了从LLM到Long LLM的新阶段。
以月之暗面的Kimi Chat为例,其长文本能力带来了多项升级:
这些功能显示出对话机器人正朝着专业化、个性化、深度化方向发展,有望成为撬动产业落地的新抓手。
杨植麟表示,月之暗面的目标是打造下一个C端超级APP,在通用模型基础上衍生出多个垂直应用。他预测国内大模型市场将分为toB和toC两大阵营,toC领域将出现基于自研模型的超级应用。
长文本的技术难题
长文本技术面临"文本长度-注意力-算力"的不可能三角困境:
这一困境源于Transformer结构中的自注意力机制。该机制使模型能灵活分析信息间关系,但计算量随文本长度呈平方级增长。
研究表明,过长上下文会导致相关信息占比下降,注意力分散。这构成了文本长度与注意力的矛盾。同时,突破更长文本又需要更多算力,形成了与算力的矛盾。
目前主要有三类解决方案:
借助外部工具:将长文本切分处理,通过检索短文本片段来构建长文本回答。
优化自注意力计算:如LongLoRA通过分组计算降低计算量。
模型优化:如LongLLaMA通过微调实现更长序列的外推能力。
不同方案各有利弊。厂商需在文本长度、注意力和算力间寻找平衡点,以在处理足够信息的同时兼顾计算效率和成本。