Le grand modèle lance un concours de texte long de 400 000 tokens, favorisant les applications pratiques dans les domaines professionnels.

robot
Création du résumé en cours

Les entreprises de grands modèles déclenchent une compétition technologique sur les textes longs, 400 000 tokens ne sont que le début

De 4000 à 400 000 tokens, le grand modèle améliore sa capacité de traitement de longs textes à une vitesse incroyable.

La capacité de traitement de longs textes semble être devenue la "norme" pour les fabricants de grands modèles. À l'étranger, OpenAI a augmenté la longueur d'entrée de contexte de GPT-3.5 et GPT-4 à respectivement 16 000 et 32 000 tokens grâce à plusieurs mises à jour. Anthropic a même porté la longueur de contexte à 100 000 tokens. LongLLaMA a étendu la longueur de contexte à 256 000 tokens, voire plus.

Du côté national, l'assistant intelligent Kimi Chat lancé par la start-up de grands modèles Mois de l'Obscurité prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA publiée par l'équipe de Jia Jiaya de l'Université Chinoise de Hong Kong en collaboration avec le MIT permet d'étendre la longueur du texte du modèle 7B à 100 000 tokens et celle du modèle 70B à 32 000 tokens.

Actuellement, de nombreuses entreprises de technologie de modèles de pointe et institutions de recherche en Chine et à l'étranger considèrent l'extension de la longueur du contexte comme une priorité de mise à niveau. La plupart de ces entreprises ont attiré l'attention des marchés de capitaux, comme OpenAI qui a obtenu près de 12 milliards de dollars d'investissements, Anthropic dont la valorisation pourrait atteindre 30 milliards de dollars, et Moon's Dark Side qui a réalisé deux tours de financement de près de 2 milliards de yuans en six mois.

Pourquoi les grandes entreprises de modèles s'intéressent-elles autant à la technologie des longs textes ? Que signifie une augmentation de la longueur du contexte par 100 ? En apparence, cela semble être une amélioration de la longueur du texte d'entrée et de la capacité de lecture. À un niveau plus profond, la technologie des longs textes pousse à l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche.

Cependant, la longueur du contexte que le grand modèle peut traiter n'est pas la clé, ce qui est plus important, c'est l'utilisation que le modèle fait du contenu contextuel. Actuellement, les explorations sur la longueur des textes, tant au niveau national qu'international, n'ont pas encore atteint le "point critique", 400 000 tokens pourraient n'être que le début.

Le fondateur de la face cachée de la lune, Yang Zhiling, a déclaré que c'est précisément en raison de la limitation de la longueur d'entrée des grands modèles que de nombreuses applications rencontrent des difficultés de mise en œuvre. La technologie des textes longs peut résoudre certains problèmes qui ont été critiqués dans les premiers stades des grands modèles, améliorer certaines fonctionnalités et constitue également une technologie clé pour promouvoir davantage l'industrialisation et la mise en œuvre des applications. Cela marque l'entrée du développement des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.

La technologie des longs textes apporte une série de nouvelles mises à niveau aux grands modèles, telles que l'extraction et l'analyse d'informations sur de très longs textes, la génération de code complexe, et le jeu de rôle dans des scénarios de dialogues longs, etc. Ces fonctionnalités montrent que les grands modèles évoluent vers une spécialisation, une personnalisation et une profondeur, et devraient devenir un nouvel levier pour ancrer l'industrie.

Cependant, la technologie des longs textes est également confrontée au dilemme du "triangle impossible" : plus le texte est long, plus il est difficile de concentrer une attention suffisante ; sous la limite d'attention, les courts textes sont difficiles à interpréter complètement des informations complexes ; le traitement des longs textes nécessite une grande puissance de calcul, augmentant les coûts. Cela provient principalement du mécanisme d'auto-attention dans la structure Transformer sur laquelle la plupart des modèles sont basés, dont le volume de calcul augmente de manière quadratique avec la longueur du contexte.

Actuellement, il existe principalement trois solutions : l'utilisation d'outils externes pour aider au traitement, l'optimisation du calcul du mécanisme d'attention, et l'utilisation de méthodes d'optimisation de modèle. À l'avenir, les fournisseurs de grands modèles devront chercher le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de traiter suffisamment d'informations tout en tenant compte des limitations de coût du calcul et de l'attention.

TOKEN2.69%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 2
  • Reposter
  • Partager
Commentaire
0/400
PrivateKeyParanoiavip
· Il y a 18h
le token va avoir du goût
Voir l'originalRépondre0
WalletsWatchervip
· Il y a 18h
Choisissez une course de fond, c'est à peu près ça.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)