大模型掀40萬token長文本競賽推動專業領域落地應用

2025-08-16 16:56:40

摘要生成中

大模型公司掀起長文本技術競賽，40萬token只是開始

4000到40萬token，大模型正在以驚人的速度不斷提升長文本處理能力。

長文本能力似乎已成爲大模型廠商的新"標配"。國外方面，OpenAI通過多次升級將GPT-3.5和GPT-4的上下文輸入長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將上下文長度提升到10萬token。LongLLaMA則將上下文長度擴展到25.6萬token甚至更多。

國內方面，大模型初創公司月之暗面推出的智能助手Kimi Chat支持輸入20萬漢字，約合40萬token。港中文賈佳亞團隊聯合MIT發布的LongLoRA技術可將7B模型的文本長度拓展到10萬token，70B模型拓展到3.2萬token。

目前，國內外已有一大批頂級大模型技術公司和研究機構將上下文長度拓展作爲升級重點。這些公司大多獲得了資本市場的青睞，如OpenAI斬獲近120億美元投資，Anthropic估值有望達到300億美元，月之暗面成立半年就完成兩輪近20億元融資。

大模型公司如此重視長文本技術，上下文長度擴大100倍意味着什麼?表面上看是輸入文本長度和閱讀能力的提升。更深層次來看，長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。

然而，大模型可處理的上下文長度並不是關鍵，更重要的是模型對上下文內容的利用。目前國內外對文本長度的探索還遠未達到"臨界點"，40萬token可能只是開始。

月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。長文本技術可以解決大模型初期被詬病的一些問題,增強某些功能,同時也是進一步推進產業和應用落地的關鍵技術。這標志着大模型發展進入了從LLM到Long LLM的新階段。

長文本技術爲大模型帶來了一系列新的功能升級,如超長文本信息提取與分析、復雜代碼生成、長對話場景下的角色扮演等。這些功能顯示出大模型正朝着專業化、個性化、深度化的方向發展,有望成爲撬動產業落地的新抓手。

然而,長文本技術也面臨着"不可能三角"困境:文本越長,越難聚集充分注意力;注意力限制下,短文本難以完整解讀復雜信息;處理長文本需要大量算力,提高成本。這主要源於大多數模型基於的Transformer結構中的自注意力機制,其計算量會隨上下文長度呈平方級增長。

目前主要有三種解決方案:借助外部工具輔助處理、優化自注意力機制計算、利用模型優化方法。未來大模型廠商需要在文本長短、注意力和算力三者之間尋求最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力成本限制。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

17人點讚了這條動態

留言

0/400

PrivateKeyParanoia

· 20小時前

token要内味了

回復0

WalletsWatcher

· 21小時前

选一条长跑赛还差不多

回復0