Велика модель запускає змагання з довгими текстами на 400 тисяч токенів, сприяючи впровадженню в професійних сферах.

robot
Генерація анотацій у процесі

Компанії великих моделей розпочали змагання з технології довгих текстів, 400 тисяч токенів - лише початок

4000 до 400 000 токенів, великі моделі постійно покращують здатність обробки довгих текстів з вражаючою швидкістю.

Здається, що здатність до обробки довгих текстів стала новим "стандартом" для виробників великих моделей. За кордоном OpenAI кілька разів оновлювала GPT-3.5 і GPT-4, збільшивши довжину контекстного вводу до 16 000 і 32 000 токенів відповідно. Anthropic навіть збільшила довжину контексту до 100 000 токенів. LongLLaMA розширила довжину контексту до 256 000 токенів і навіть більше.

На внутрішньому ринку стартап компанії "Місячна темрява" представила інтелектуального помічника Kimi Chat, який підтримує введення 200 000 китайських ієрогліфів, що приблизно дорівнює 400 000 токенів. Команда Джіа Цзядзя з Гонконгського університету та MIT представила технологію LongLoRA, яка дозволяє збільшити довжину тексту до 100 000 токенів для моделі 7B та до 32 000 токенів для моделі 70B.

Наразі в Україні та за кордоном вже існує велика кількість провідних компаній з технології великих моделей і дослідницьких установ, які розширюють довжину контексту як ключовий напрямок оновлення. Більшість з цих компаній здобули прихильність ринку капіталу, такі як OpenAI, що отримала майже 12 мільярдів доларів інвестицій, оцінка Anthropic може досягти 30 мільярдів доларів, а Moonlight Dark Side завершила два раунди фінансування майже на 2 мільярди юанів всього за півроку.

Яке значення має для компаній з великими моделями така увага до технології довгих текстів, якщо довжину контексту розширено в 100 разів? На поверхневому рівні це означає покращення довжини вхідного тексту та здібностей до читання. На глибшому рівні технології довгих текстів сприяють впровадженню великих моделей у професійних сферах, таких як фінанси, правосуддя, наука.

Однак довжина контексту, яку може обробити великий модель, не є ключовою. Більш важливим є використання моделі контенту контексту. На сьогоднішній день дослідження довжини тексту в країні та за кордоном ще далеко не досягли "критичної точки", 400 тисяч токенів можуть бути лише початком.

Засновник «Темної сторони місяця» Ян Чжілінь зазначив, що саме через обмеження довжини введення великих моделей виникають труднощі з впровадженням багатьох застосувань. Технологія довгих текстів може вирішити деякі проблеми, з якими стикалися великі моделі на початковому етапі, покращити певні функції, а також є ключовою технологією для подальшого просування промисловості та впровадження застосувань. Це знаменує перехід розвитку великих моделей від LLM до Long LLM.

Довгий текстовий технології принесли новий ряд функціональних оновлень для великих моделей, таких як витяг та аналіз наддовгих текстових даних, генерація складного коду, рольова гра в умовах тривалих діалогів тощо. Ці функції показують, що великі моделі розвиваються у напрямку спеціалізації, індивідуалізації та глибини, і мають потенціал стати новим важелем для впровадження в промисловість.

Однак технології довгих текстів також стикаються з проблемою «неможливого трикутника»: чим довший текст, тим важче зібрати достатню увагу; за обмеженою увагою короткі тексти важко повноцінно інтерпретувати складну інформацію; обробка довгих текстів вимагає значних обчислювальних потужностей, що підвищує витрати. Це в основному пов'язано з механізмом самостійної уваги в структурі Transformer, на якій базується більшість моделей, обчислювальна складність якого зростає квадратично зі збільшенням довжини контексту.

Зараз існує три основні рішення: використання зовнішніх інструментів для допомоги в обробці, оптимізація обчислень механізму самостійної уваги та використання методів оптимізації моделі. У майбутньому постачальники великих моделей повинні шукати оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб обробляти достатню кількість інформації, при цьому враховуючи обмеження обчислень уваги та витрат на обчислювальні ресурси.

TOKEN2.69%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 2
  • Репост
  • Поділіться
Прокоментувати
0/400
PrivateKeyParanoiavip
· 18год тому
токен скоро буде тут
Переглянути оригіналвідповісти на0
WalletsWatchervip
· 18год тому
Виберіть один довгий забіг, це ще нормально.
Переглянути оригіналвідповісти на0
  • Закріпити