大模型長文本處理能力暴增 40萬token或爲新起點

Fork大叔

2025-08-11 05:22:08

大模型長文本技術競賽升級，40萬token或許只是開始

大模型正以驚人的速度提升處理長文本的能力。從最初的4000 token增長到現在的40萬token，長文本能力似乎已成爲大模型廠商的新"標配"。

國際上，OpenAI經過多次升級,將GPT-4的上下文長度提升至3.2萬token;Anthropic一舉將上下文長度擴展到10萬token;LongLLaMA更是將上下文長度擴展到25.6萬token甚至更多。

國內企業也不甘落後。大模型初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token;港中文與MIT合作開發的LongLoRA技術,可將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在內的多家頂級大模型公司和機構都將長文本處理能力作爲重點升級方向。這些企業也都是資本市場追捧的熱門對象,融資規模和估值均呈爆發式增長。

長文本技術的突破意味着什麼?表面上看是模型的輸入和閱讀能力大幅提升,從最初只能讀完一篇短文,到現在可以輕鬆處理一本長篇小說。更深層次的意義在於,它推動了大模型在金融、法律、科研等專業領域的應用落地。

不過,文本長度並非越長越好。研究表明,模型能處理的上下文長度與效果並不能畫等號,更重要的是模型如何有效利用上下文內容。目前業界對文本長度的探索還遠未觸及"天花板",40萬token可能只是一個開始。

爲何要突破長文本限制?

月之暗面創始人楊植麟表示,正是由於輸入長度限制,造成了許多大模型應用落地的困境。例如在虛擬角色、劇本遊戲、法律分析等場景中,輸入長度不足會導致信息丟失、效果欠佳等問題。

長文本能力對未來的Agent和AI原生應用也至關重要。Agent需要依靠歷史信息進行規劃決策,AI應用需要上下文來保持連貫和個性化體驗。

楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,前者與參數量相關,後者即上下文長度。通過增加上下文長度,可以在不大幅增加參數的情況下提升模型能力。

長文本還有助於減少大模型的幻覺問題。更多的上下文信息可以輔助模型判斷語義,減少歧義,提高推理準確性。

可以說,長文本技術既解決了大模型的一些短板,也是推動產業落地的關鍵。這標志着大模型進入了從LLM到Long LLM的新階段。

以月之暗面的Kimi Chat爲例,其長文本能力帶來了多項升級:

可快速分析長文、財報等,提取關鍵信息並生成摘要
能將整本書或法律文件轉化爲可查詢的知識庫
可直接將論文轉化爲代碼,並進行修改優化
支持長對話下的角色扮演,實現與虛擬人物的互動

這些功能顯示出對話機器人正朝着專業化、個性化、深度化方向發展,有望成爲撬動產業落地的新抓手。

楊植麟表示,月之暗面的目標是打造下一個C端超級APP,在通用模型基礎上衍生出多個垂直應用。他預測國內大模型市場將分爲toB和toC兩大陣營,toC領域將出現基於自研模型的超級應用。

長文本的技術難題

長文本技術面臨"文本長度-注意力-算力"的不可能三角困境:

文本越長,越難聚焦關鍵信息
注意力有限,短文本又難以完整表達復雜信息
處理長文本需要大量算力,提高了成本

這一困境源於Transformer結構中的自注意力機制。該機制使模型能靈活分析信息間關係,但計算量隨文本長度呈平方級增長。

研究表明,過長上下文會導致相關信息佔比下降,注意力分散。這構成了文本長度與注意力的矛盾。同時,突破更長文本又需要更多算力,形成了與算力的矛盾。

目前主要有三類解決方案:

借助外部工具:將長文本切分處理,通過檢索短文本片段來構建長文本回答。
優化自注意力計算:如LongLoRA通過分組計算降低計算量。
模型優化:如LongLLaMA通過微調實現更長序列的外推能力。

不同方案各有利弊。廠商需在文本長度、注意力和算力間尋找平衡點,以在處理足夠信息的同時兼顧計算效率和成本。

TOKEN2.54%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

13人點讚了這條動態

讚賞
13
5
轉發
分享

留言

0/400

DeFiVeteran

· 19小時前

能理解全文又如何

回復0

老韭当家

· 08-11 05:52

千万不要演

回復0

DegenWhisperer

· 08-11 05:52

玩玩看多少是头

回復0

割肉不割爱

· 08-11 05:47

好高端的技术战

回復0

WalletDivorcer

· 08-11 05:26

看好就是干

回復0