Büyük model şirketleri uzun metin teknolojisi yarışmasını başlattı, 400.000 token sadece başlangıç.
4000 ile 400.000 token arasında, büyük modeller inanılmaz bir hızla uzun metin işleme yeteneklerini sürekli olarak geliştiriyor.
Uzun metin yeteneği, büyük model üreticilerinin yeni "standartı" haline gelmiş gibi görünüyor. Yurt dışında, OpenAI, GPT-3.5 ve GPT-4'ün bağlam girdi uzunluğunu sırasıyla 16.000 ve 32.000 token'a çıkarmak için bir dizi güncelleme yaptı. Anthropic, bağlam uzunluğunu bir hamleyle 100.000 token'a yükseltti. LongLLaMA ise bağlam uzunluğunu 256.000 token'a veya daha fazlasına genişletti.
Ülke içinde, Ayın Karanlığı adlı büyük model girişimi, 20.000 hanzi girişi destekleyen Kimi Chat akıllı asistanını piyasaya sürdü ve bu yaklaşık 400.000 token'a eşdeğerdir. Hong Kong Çincisi, Jia Jiaya ekibi ile MIT'nin ortaklaşa geliştirdiği LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar genişletebilmektedir.
Şu anda, hem yurtiçinde hem de yurtdışında, birçok üst düzey büyük model teknolojisi şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi yükseltme odakları olarak belirlemiştir. Bu şirketlerin çoğu, sermaye piyasalarının ilgisini çekmiştir; örneğin, OpenAI yaklaşık 12 milyar dolar yatırım alırken, Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor, Ay'ın Karanlık Yüzü ise altı ay içinde iki turda yaklaşık 2 milyar yuan finansman sağlamıştır.
Büyük model şirketlerinin uzun metin teknolojisine bu kadar önem vermesi, bağlam uzunluğunun 100 kat artırılmasının ne anlama geldiğini gösteriyor? Yüzeysel olarak bakıldığında, bu girdi metin uzunluğu ve okuma yeteneğinde bir artış anlamına geliyor. Daha derin bir bakış açısıyla, uzun metin teknolojisi büyük modellerin finans, adalet, bilimsel araştırma gibi profesyonel alanlarda uygulanmasını destekliyor.
Ancak, büyük modellerin işleyebileceği bağlam uzunluğu kritik değildir, daha önemli olan modelin bağlam içeriğini kullanma şeklidir. Şu anda hem yurtiçinde hem de yurtdışında metin uzunluğuna yönelik araştırmalar henüz "kritik nokta"ya ulaşmış değil, 400 bin token belki de sadece bir başlangıçtır.
Ay'ın karanlık yüzü kurucusu Yang Zhilin, büyük modelin girdi uzunluğunun sınırlı olmasının birçok uygulamanın hayata geçme zorluğuna neden olduğunu belirtti. Uzun metin teknolojisi, büyük modelin başlangıçta eleştirilen bazı sorunlarını çözebilir, bazı işlevleri güçlendirir ve aynı zamanda endüstrinin ve uygulamanın hayata geçirilmesinde kilit bir teknoloji olmaktadır. Bu, büyük model gelişiminin LLM'den Long LLM'ye geçiş yaptığını gösteriyor.
Uzun metin teknolojisi, büyük modellere bir dizi yeni özellik yükseltmesi getirdi; bunlar arasında ultra uzun metin bilgi çıkarımı ve analizi, karmaşık kod oluşturma, uzun diyalog sahnelerinde rol oynama gibi işlevler bulunmaktadır. Bu işlevler, büyük modellerin uzmanlaşma, kişiselleştirme ve derinleşme yönünde geliştiğini göstermekte ve endüstrinin hayata geçmesi için yeni bir fırsat olma potansiyelini taşımaktadır.
Ancak, uzun metin teknolojisi "imkansız üçgen" zorluğuyla da karşı karşıyadır: Metin ne kadar uzun olursa, yeterli dikkat toplamak o kadar zorlaşır; dikkat kısıtlamaları altında, kısa metinlerin karmaşık bilgileri tam olarak yorumlaması zordur; uzun metinleri işlemek büyük miktarda hesaplama gücü gerektirir, maliyetleri artırır. Bu, çoğu modelin dayandığı Transformer yapısındaki kendi dikkat mekanizmasından kaynaklanmaktadır; bu mekanizmanın hesaplama miktarı, bağlam uzunluğuyla kare oranında artar.
Şu anda üç ana çözüm mevcut: dış araçlar yardımıyla işlem yapma, kendine dikkat mekanizması hesaplamalarını optimize etme, model optimizasyon yöntemlerini kullanma. Gelecekte büyük model üreticileri, yeterli bilgiyi işlemekle birlikte dikkat hesaplamaları ve hesaplama maliyet kısıtlamalarını göz önünde bulundurarak metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi bulmaları gerekecek.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Büyük model 400.000 token uzun metin yarışmasını başlattı, uzmanlık alanında uygulamaların hayata geçirilmesini teşvik ediyor.
Büyük model şirketleri uzun metin teknolojisi yarışmasını başlattı, 400.000 token sadece başlangıç.
4000 ile 400.000 token arasında, büyük modeller inanılmaz bir hızla uzun metin işleme yeteneklerini sürekli olarak geliştiriyor.
Uzun metin yeteneği, büyük model üreticilerinin yeni "standartı" haline gelmiş gibi görünüyor. Yurt dışında, OpenAI, GPT-3.5 ve GPT-4'ün bağlam girdi uzunluğunu sırasıyla 16.000 ve 32.000 token'a çıkarmak için bir dizi güncelleme yaptı. Anthropic, bağlam uzunluğunu bir hamleyle 100.000 token'a yükseltti. LongLLaMA ise bağlam uzunluğunu 256.000 token'a veya daha fazlasına genişletti.
Ülke içinde, Ayın Karanlığı adlı büyük model girişimi, 20.000 hanzi girişi destekleyen Kimi Chat akıllı asistanını piyasaya sürdü ve bu yaklaşık 400.000 token'a eşdeğerdir. Hong Kong Çincisi, Jia Jiaya ekibi ile MIT'nin ortaklaşa geliştirdiği LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar genişletebilmektedir.
Şu anda, hem yurtiçinde hem de yurtdışında, birçok üst düzey büyük model teknolojisi şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi yükseltme odakları olarak belirlemiştir. Bu şirketlerin çoğu, sermaye piyasalarının ilgisini çekmiştir; örneğin, OpenAI yaklaşık 12 milyar dolar yatırım alırken, Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor, Ay'ın Karanlık Yüzü ise altı ay içinde iki turda yaklaşık 2 milyar yuan finansman sağlamıştır.
Büyük model şirketlerinin uzun metin teknolojisine bu kadar önem vermesi, bağlam uzunluğunun 100 kat artırılmasının ne anlama geldiğini gösteriyor? Yüzeysel olarak bakıldığında, bu girdi metin uzunluğu ve okuma yeteneğinde bir artış anlamına geliyor. Daha derin bir bakış açısıyla, uzun metin teknolojisi büyük modellerin finans, adalet, bilimsel araştırma gibi profesyonel alanlarda uygulanmasını destekliyor.
Ancak, büyük modellerin işleyebileceği bağlam uzunluğu kritik değildir, daha önemli olan modelin bağlam içeriğini kullanma şeklidir. Şu anda hem yurtiçinde hem de yurtdışında metin uzunluğuna yönelik araştırmalar henüz "kritik nokta"ya ulaşmış değil, 400 bin token belki de sadece bir başlangıçtır.
Ay'ın karanlık yüzü kurucusu Yang Zhilin, büyük modelin girdi uzunluğunun sınırlı olmasının birçok uygulamanın hayata geçme zorluğuna neden olduğunu belirtti. Uzun metin teknolojisi, büyük modelin başlangıçta eleştirilen bazı sorunlarını çözebilir, bazı işlevleri güçlendirir ve aynı zamanda endüstrinin ve uygulamanın hayata geçirilmesinde kilit bir teknoloji olmaktadır. Bu, büyük model gelişiminin LLM'den Long LLM'ye geçiş yaptığını gösteriyor.
Uzun metin teknolojisi, büyük modellere bir dizi yeni özellik yükseltmesi getirdi; bunlar arasında ultra uzun metin bilgi çıkarımı ve analizi, karmaşık kod oluşturma, uzun diyalog sahnelerinde rol oynama gibi işlevler bulunmaktadır. Bu işlevler, büyük modellerin uzmanlaşma, kişiselleştirme ve derinleşme yönünde geliştiğini göstermekte ve endüstrinin hayata geçmesi için yeni bir fırsat olma potansiyelini taşımaktadır.
Ancak, uzun metin teknolojisi "imkansız üçgen" zorluğuyla da karşı karşıyadır: Metin ne kadar uzun olursa, yeterli dikkat toplamak o kadar zorlaşır; dikkat kısıtlamaları altında, kısa metinlerin karmaşık bilgileri tam olarak yorumlaması zordur; uzun metinleri işlemek büyük miktarda hesaplama gücü gerektirir, maliyetleri artırır. Bu, çoğu modelin dayandığı Transformer yapısındaki kendi dikkat mekanizmasından kaynaklanmaktadır; bu mekanizmanın hesaplama miktarı, bağlam uzunluğuyla kare oranında artar.
Şu anda üç ana çözüm mevcut: dış araçlar yardımıyla işlem yapma, kendine dikkat mekanizması hesaplamalarını optimize etme, model optimizasyon yöntemlerini kullanma. Gelecekte büyük model üreticileri, yeterli bilgiyi işlemekle birlikte dikkat hesaplamaları ve hesaplama maliyet kısıtlamalarını göz önünde bulundurarak metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi bulmaları gerekecek.