🎉 親愛的廣場小夥伴們,福利不停,精彩不斷!目前廣場上這些熱門發帖贏獎活動火熱進行中,發帖越多,獎勵越多,快來 GET 你的專屬好禮吧!🚀
🆘 #Gate 2025年中社区盛典# |廣場十強內容達人評選
決戰時刻到!距離【2025年中社區盛典】廣場達人評選只剩 1 天,你喜愛的達人,就差你這一票衝進 C 位!在廣場發帖、點讚、評論就能攢助力值,幫 Ta 上榜的同時,你自己還能抽大獎!iPhone 16 Pro Max、金牛雕塑、潮流套裝、合約體驗券 等你抱走!
詳情 👉 https://www.gate.com/activities/community-vote
1️⃣ #晒出我的Alpha积分# |曬出 Alpha 積分&收益
Alpha 積分黨集合!帶話題曬出你的 Alpha 積分圖、空投中獎圖,即可瓜分 $200 Alpha 代幣盲盒,積分最高直接抱走 $100!分享攢分祕籍 / 兌換經驗,中獎率直線上升!
詳情 👉 https://www.gate.com/post/status/12763074
2️⃣ #ETH百万矿王争霸赛# |ETH 鏈上挖礦曬收益
礦工集結!帶話題曬出你的 Gate ETH 鏈上挖礦收益圖,瓜分 $400 曬圖獎池,收益榜第一獨享 $200!誰才是真 ETH 礦王?開曬見分曉!
詳情 👉 https://www.gate.com/pos
大模型掀40萬token長文本競賽 推動專業領域落地應用
大模型公司掀起長文本技術競賽,40萬token只是開始
4000到40萬token,大模型正在以驚人的速度不斷提升長文本處理能力。
長文本能力似乎已成爲大模型廠商的新"標配"。國外方面,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文輸入長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將上下文長度提升到10萬token。LongLLaMA則將上下文長度擴展到25.6萬token甚至更多。
國內方面,大模型初創公司月之暗面推出的智能助手Kimi Chat支持輸入20萬漢字,約合40萬token。港中文賈佳亞團隊聯合MIT發布的LongLoRA技術可將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。
目前,國內外已有一大批頂級大模型技術公司和研究機構將上下文長度拓展作爲升級重點。這些公司大多獲得了資本市場的青睞,如OpenAI斬獲近120億美元投資,Anthropic估值有望達到300億美元,月之暗面成立半年就完成兩輪近20億元融資。
大模型公司如此重視長文本技術,上下文長度擴大100倍意味着什麼?表面上看是輸入文本長度和閱讀能力的提升。更深層次來看,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。
然而,大模型可處理的上下文長度並不是關鍵,更重要的是模型對上下文內容的利用。目前國內外對文本長度的探索還遠未達到"臨界點",40萬token可能只是開始。
月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。長文本技術可以解決大模型初期被詬病的一些問題,增強某些功能,同時也是進一步推進產業和應用落地的關鍵技術。這標志着大模型發展進入了從LLM到Long LLM的新階段。
長文本技術爲大模型帶來了一系列新的功能升級,如超長文本信息提取與分析、復雜代碼生成、長對話場景下的角色扮演等。這些功能顯示出大模型正朝着專業化、個性化、深度化的方向發展,有望成爲撬動產業落地的新抓手。
然而,長文本技術也面臨着"不可能三角"困境:文本越長,越難聚集充分注意力;注意力限制下,短文本難以完整解讀復雜信息;處理長文本需要大量算力,提高成本。這主要源於大多數模型基於的Transformer結構中的自注意力機制,其計算量會隨上下文長度呈平方級增長。
目前主要有三種解決方案:借助外部工具輔助處理、優化自注意力機制計算、利用模型優化方法。未來大模型廠商需要在文本長短、注意力和算力三者之間尋求最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力成本限制。