大模型掀40万token长文本竞赛 推动专业领域落地应用

robot
摘要生成中

大模型公司掀起长文本技术竞赛,40万token只是开始

4000到40万token,大模型正在以惊人的速度不断提升长文本处理能力。

长文本能力似乎已成为大模型厂商的新"标配"。国外方面,OpenAI通过多次升级将GPT-3.5和GPT-4的上下文输入长度分别提升至1.6万和3.2万token。Anthropic更是一举将上下文长度提升到10万token。LongLLaMA则将上下文长度扩展到25.6万token甚至更多。

国内方面,大模型初创公司月之暗面推出的智能助手Kimi Chat支持输入20万汉字,约合40万token。港中文贾佳亚团队联合MIT发布的LongLoRA技术可将7B模型的文本长度拓展到10万token,70B模型拓展到3.2万token。

目前,国内外已有一大批顶级大模型技术公司和研究机构将上下文长度拓展作为升级重点。这些公司大多获得了资本市场的青睐,如OpenAI斩获近120亿美元投资,Anthropic估值有望达到300亿美元,月之暗面成立半年就完成两轮近20亿元融资。

大模型公司如此重视长文本技术,上下文长度扩大100倍意味着什么?表面上看是输入文本长度和阅读能力的提升。更深层次来看,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用落地。

然而,大模型可处理的上下文长度并不是关键,更重要的是模型对上下文内容的利用。目前国内外对文本长度的探索还远未达到"临界点",40万token可能只是开始。

月之暗面创始人杨植麟表示,正是由于大模型输入长度受限,才造成了许多应用落地的困境。长文本技术可以解决大模型初期被诟病的一些问题,增强某些功能,同时也是进一步推进产业和应用落地的关键技术。这标志着大模型发展进入了从LLM到Long LLM的新阶段。

长文本技术为大模型带来了一系列新的功能升级,如超长文本信息提取与分析、复杂代码生成、长对话场景下的角色扮演等。这些功能显示出大模型正朝着专业化、个性化、深度化的方向发展,有望成为撬动产业落地的新抓手。

然而,长文本技术也面临着"不可能三角"困境:文本越长,越难聚集充分注意力;注意力限制下,短文本难以完整解读复杂信息;处理长文本需要大量算力,提高成本。这主要源于大多数模型基于的Transformer结构中的自注意力机制,其计算量会随上下文长度呈平方级增长。

目前主要有三种解决方案:借助外部工具辅助处理、优化自注意力机制计算、利用模型优化方法。未来大模型厂商需要在文本长短、注意力和算力三者之间寻求最佳平衡点,以处理足够信息的同时兼顾注意力计算和算力成本限制。

TOKEN0.65%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 2
  • 转发
  • 分享
评论
0/400
PrivateKeyParanoiavip
· 9小时前
token要内味了
回复0
WalletsWatchervip
· 9小时前
选一条长跑赛还差不多
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)