Grande modelo lança competição de textos longos de 400 mil tokens, promovendo a aplicação prática em áreas profissionais.

robot
Geração do resumo em andamento

As empresas de modelos grandes estão a iniciar uma corrida tecnológica de textos longos, 400 mil tokens são apenas o começo

4000 a 400 mil tokens, o modelo grande está continuamente melhorando a capacidade de processamento de textos longos a uma velocidade impressionante.

A capacidade de texto longo parece ter se tornado um novo "padrão" para os fabricantes de grandes modelos. No exterior, a OpenAI, por meio de várias atualizações, aumentou o comprimento de entrada de contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respectivamente. A Anthropic elevou o comprimento do contexto para 100.000 tokens. O LongLLaMA expandiu o comprimento do contexto para 256.000 tokens ou até mais.

No âmbito nacional, a assistente inteligente Kimi Chat, lançada pela startup de grandes modelos A Face Oculta da Lua, suporta a entrada de 200 mil caracteres chineses, cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida pela equipa de Jia Jiaya da Universidade Chinesa de Hong Kong em conjunto com o MIT, pode expandir o comprimento do texto do modelo de 7B para 100 mil tokens e do modelo de 70B para 32 mil tokens.

Atualmente, uma grande quantidade de empresas de tecnologia de modelos de ponta e instituições de pesquisa, tanto nacionais quanto internacionais, está focando na expansão do comprimento do contexto como um ponto de atualização. A maioria dessas empresas conquistou a atenção do mercado de capitais, como a OpenAI, que arrecadou quase 12 bilhões de dólares em investimentos, a Anthropic, cuja avaliação deve alcançar os 30 bilhões de dólares, e a Dark Side of the Moon, que completou duas rodadas de financiamento de quase 2 bilhões de yuan em apenas seis meses.

As empresas de grandes modelos valorizam tanto a tecnologia de texto longo, o que significa a expansão do comprimento do contexto em 100 vezes? À primeira vista, parece ser um aumento no comprimento do texto de entrada e na capacidade de leitura. Em um nível mais profundo, a tecnologia de texto longo está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.

No entanto, o comprimento do contexto que um grande modelo pode lidar não é o mais importante; o que realmente conta é como o modelo utiliza o conteúdo do contexto. Atualmente, a exploração do comprimento do texto tanto a nível nacional como internacional ainda está longe de atingir o "ponto crítico"; 400 mil tokens podem ser apenas o começo.

O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que é precisamente devido à limitação do comprimento de entrada dos grandes modelos que surgiram muitas dificuldades na implementação de aplicações. A tecnologia de texto longo pode resolver alguns dos problemas criticados nos primeiros estágios dos grandes modelos, melhorar certas funções e, ao mesmo tempo, é uma tecnologia chave para promover ainda mais a indústria e a implementação de aplicações. Isso marca a transição do desenvolvimento de grandes modelos de LLM para Long LLM.

A tecnologia de texto longo trouxe uma série de novas atualizações de funcionalidades para grandes modelos, como extração e análise de informações de texto ultra longo, geração de código complexo e interpretação de papéis em cenários de diálogos longos. Estas funcionalidades mostram que os grandes modelos estão a desenvolver-se numa direção de especialização, personalização e profundidade, e têm o potencial de se tornarem uma nova alavanca para a implementação na indústria.

No entanto, a tecnologia de longos textos também enfrenta o dilema do "triângulo impossível": quanto mais longo o texto, mais difícil é concentrar atenção suficiente; sob limitações de atenção, textos curtos são difíceis de interpretar informações complexas de forma completa; lidar com longos textos requer uma grande quantidade de poder computacional, aumentando os custos. Isso se deve principalmente ao mecanismo de autoatenção na estrutura do Transformer, que a maioria dos modelos se baseia, cujo volume de cálculo cresce em quadrado com o comprimento do contexto.

Atualmente, existem três soluções principais: usar ferramentas externas para ajudar no processamento, otimizar o cálculo do mecanismo de autoatenção e utilizar métodos de otimização de modelos. No futuro, os fabricantes de grandes modelos precisarão buscar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, a fim de processar informações suficientes enquanto consideram as limitações de custo de atenção e computação.

TOKEN2.69%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 2
  • Repostar
  • Compartilhar
Comentário
0/400
PrivateKeyParanoiavip
· 18h atrás
o token vai ter sabor
Ver originalResponder0
WalletsWatchervip
· 18h atrás
Escolha uma corrida de longa distância que seja mais ou menos.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)