🎉 亲爱的广场小伙伴们,福利不停,精彩不断!目前广场上这些热门发帖赢奖活动火热进行中,发帖越多,奖励越多,快来 GET 你的专属好礼吧!🚀
🆘 #Gate 2025年中社区盛典# |广场十强内容达人评选
决战时刻到!距离【2025年中社区盛典】广场达人评选只剩 1 天,你喜爱的达人,就差你这一票冲进 C 位!在广场发帖、点赞、评论就能攒助力值,帮 Ta 上榜的同时,你自己还能抽大奖!iPhone 16 Pro Max、金牛雕塑、潮流套装、合约体验券 等你抱走!
详情 👉 https://www.gate.com/activities/community-vote
1️⃣ #晒出我的Alpha积分# |晒出 Alpha 积分&收益
Alpha 积分党集合!带话题晒出你的 Alpha 积分图、空投中奖图,即可瓜分 $200 Alpha 代币盲盒,积分最高直接抱走 $100!分享攒分秘籍 / 兑换经验,中奖率直线上升!
详情 👉 https://www.gate.com/post/status/12763074
2️⃣ #ETH百万矿王争霸赛# |ETH 链上挖矿晒收益
矿工集结!带话题晒出你的 Gate ETH 链上挖矿收益图,瓜分 $400 晒图奖池,收益榜第一独享 $200!谁才是真 ETH 矿王?开晒见分晓!
详情 👉 https://www.gate.com/pos
大模型掀40万token长文本竞赛 推动专业领域落地应用
大模型公司掀起长文本技术竞赛,40万token只是开始
4000到40万token,大模型正在以惊人的速度不断提升长文本处理能力。
长文本能力似乎已成为大模型厂商的新"标配"。国外方面,OpenAI通过多次升级将GPT-3.5和GPT-4的上下文输入长度分别提升至1.6万和3.2万token。Anthropic更是一举将上下文长度提升到10万token。LongLLaMA则将上下文长度扩展到25.6万token甚至更多。
国内方面,大模型初创公司月之暗面推出的智能助手Kimi Chat支持输入20万汉字,约合40万token。港中文贾佳亚团队联合MIT发布的LongLoRA技术可将7B模型的文本长度拓展到10万token,70B模型拓展到3.2万token。
目前,国内外已有一大批顶级大模型技术公司和研究机构将上下文长度拓展作为升级重点。这些公司大多获得了资本市场的青睐,如OpenAI斩获近120亿美元投资,Anthropic估值有望达到300亿美元,月之暗面成立半年就完成两轮近20亿元融资。
大模型公司如此重视长文本技术,上下文长度扩大100倍意味着什么?表面上看是输入文本长度和阅读能力的提升。更深层次来看,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用落地。
然而,大模型可处理的上下文长度并不是关键,更重要的是模型对上下文内容的利用。目前国内外对文本长度的探索还远未达到"临界点",40万token可能只是开始。
月之暗面创始人杨植麟表示,正是由于大模型输入长度受限,才造成了许多应用落地的困境。长文本技术可以解决大模型初期被诟病的一些问题,增强某些功能,同时也是进一步推进产业和应用落地的关键技术。这标志着大模型发展进入了从LLM到Long LLM的新阶段。
长文本技术为大模型带来了一系列新的功能升级,如超长文本信息提取与分析、复杂代码生成、长对话场景下的角色扮演等。这些功能显示出大模型正朝着专业化、个性化、深度化的方向发展,有望成为撬动产业落地的新抓手。
然而,长文本技术也面临着"不可能三角"困境:文本越长,越难聚集充分注意力;注意力限制下,短文本难以完整解读复杂信息;处理长文本需要大量算力,提高成本。这主要源于大多数模型基于的Transformer结构中的自注意力机制,其计算量会随上下文长度呈平方级增长。
目前主要有三种解决方案:借助外部工具辅助处理、优化自注意力机制计算、利用模型优化方法。未来大模型厂商需要在文本长短、注意力和算力三者之间寻求最佳平衡点,以处理足够信息的同时兼顾注意力计算和算力成本限制。