Децентрализация AI тренировки: технологии и вызовы следующего поколения открытой кооперативной сети

2025-07-02 14:32:58

Децентрализация тренировки: Исследование новой парадигмы в области ИИ

В полной цепочке создания ценности в области искусственного интеллекта обучение моделей является этапом с наибольшими затратами ресурсов и самым высоким технологическим порогом, что напрямую определяет предельные возможности модели и фактическую эффективность применения. По сравнению с легковесными вызовами на этапе вывода, процесс обучения требует постоянного投入 больших вычислительных мощностей, сложных процессов обработки данных и поддержки высокоинтенсивных алгоритмов оптимизации, что делает его настоящей "тяжелой промышленностью" в построении систем ИИ. С точки зрения архитектурных парадигм, способы обучения можно разделить на четыре категории: централизованное обучение, распределенное обучение, федеративное обучение и децентрализованное обучение, на котором сосредоточено внимание данной статьи.

Централизованное обучение является наиболее распространенным традиционным способом, при котором все процессы обучения выполняются одним учреждением на локальном высокопроизводительном кластере. От аппаратного обеспечения, программного обеспечения низкого уровня, системы управления кластерами до всех компонентов учебной структуры – все это координируется единой контрольной системой. Эта глубоко согласованная архитектура обеспечивает оптимальную эффективность совместного использования памяти, синхронизации градиентов и механизмов отказоустойчивости, что делает ее особенно подходящей для обучения таких массовых моделей, как GPT и Gemini, обладая преимуществами высокой эффективности и управляемых ресурсов, но в то же время сталкивается с проблемами монополии на данные, барьерами для ресурсов, потреблением энергии и риском единой точки отказа.

Распределённое обучение является основным способом обучения больших моделей в настоящее время, его суть заключается в том, чтобы разбить задачи обучения модели и распределить их на несколько машин для совместного выполнения, чтобы преодолеть ограничения вычислений и хранения на одном компьютере. Хотя физически оно обладает характеристиками "Децентрализация", в целом всё ещё контролируется централизованной организацией, которая управляет планированием и синхронизацией, часто работает в среде высокоскоростной локальной сети, используя технологии высокоскоростной межсоединительной шины NVLink, с основной нодой, единой для координации всех подзадач. Основные методы включают:

Параллельные данные: каждый узел обучает разные данные, параметры общие, необходимо согласовать веса модели
Модельное параллелизм: развертывание различных частей модели на разных узлах для достижения высокой расширяемости
Параллелизм конвейера: поэтапное последовательное выполнение, повышение пропускной способности
Тензорная параллельность: детализированное разделение матричных вычислений, повышение степени параллелизма

Распределенное обучение является комбинацией "централизованного управления + распределенного выполнения", аналогично тому, как один и тот же начальник удаленно управляет сотрудниками нескольких "офисов" для совместного выполнения задач. В настоящее время почти все основные крупные модели (GPT-4, Gemini, LLaMA и другие ) обучаются именно таким образом.

Децентрализация тренировки представляет собой более открытую и устойчивую к цензуре будущую траекторию. Его ключевая особенность заключается в том, что несколько недоверительных узлов ( могут быть домашними компьютерами, облачными GPU или краевыми устройствами ), которые совместно выполняют задачи тренировки без центрального координатора, обычно с помощью протоколов для распределения задач и сотрудничества, а также с помощью криптостимулов для обеспечения честности вкладов. Основные проблемы, с которыми сталкивается эта модель, включают:

Проблемы с гетерогенностью устройств и разделением задач: высокая сложность координации гетерогенных устройств, низкая эффективность разделения задач
Узкие места в эффективности связи: нестабильная сетевая связь, явные узкие места в синхронизации градиентов
Отсутствие доверенного выполнения: отсутствие доверенной среды выполнения, сложно проверить, действительно ли узлы участвуют в вычислениях.
Отсутствие единой координации: нет центрального диспетчера, сложное распределение задач и механизмы отката при ошибках

Децентрализация тренировки можно понять как: группа глобальных волонтеров, каждый из которых вносит свою вычислительную мощность для совместной тренировки модели, но "действительно жизнеспособная масштабная децентрализация тренировки" все еще является системной инженерной задачей, охватывающей множество уровней, таких как системная архитектура, коммуникационные протоколы, криптографическая безопасность, экономические механизмы, валидация моделей и т.д., но возможность "совместной эффективности + стимулирование честности + правильность результатов" все еще находится на этапе раннего прототипирования.

Федеративное обучение, как промежуточная форма между распределенной и Децентрализация, подчеркивает локальное хранение данных и централизованную агрегацию параметров модели, подходит для сценариев, акцентирующих внимание на соблюдении конфиденциальности, таких как медицина, финансы (. Федеративное обучение обладает инженерной структурой распределенного обучения и локальными координационными способностями, в то же время обладая преимуществами распределенных данных при Децентрализация, но по-прежнему зависит от надежной координирующей стороны и не обладает полностью открытыми и антикоррупционными характеристиками. Его можно рассматривать как "контролируемую Децентрализация" в сценариях соблюдения конфиденциальности, при этом задачи обучения, структура доверия и механизмы связи относительно умеренные, что делает его более подходящим в качестве переходной архитектуры для промышленности.

Децентрализация тренировки: границы, возможности и реальные пути

С точки зрения парадигмы обучения, Децентрализация обучения не подходит для всех типов задач. В некоторых сценариях, из-за сложной структуры задач, высоких требований к ресурсам или трудностей сотрудничества, она естественно не подходит для эффективного выполнения между гетерогенными, децентрализованными узлами. Например, обучение больших моделей часто зависит от высокой видеопамяти, низкой задержки и высокой пропускной способности, что затрудняет эффективное разделение и синхронизацию в открытой сети; задачи с сильными ограничениями на конфиденциальность данных и суверенитет, такие как медицина, финансы и конфиденциальные данные ), ограничены юридическими и этическими нормами, что делает невозможным открытое совместное использование; в то время как задачи (, для которых отсутствует основа для совместного стимулирования, такие как закрытые модели компаний или внутреннее обучение прототипов ), не имеют внешней мотивации для участия. Эти границы вместе составляют реальные ограничения Децентрализации обучения в настоящее время.

Но это не означает, что Децентрализация обучения является ложным утверждением. На самом деле, в типах задач с легкой структурой, легкостью параллелизма и возможностью мотивации, Децентрализация обучения демонстрирует явные перспективы применения. Включая, но не ограничиваясь: LoRA дообучение, задачи обучения с выравниванием поведения (, такие как RLHF, DPO ), обучение и разметка данных через краудсорсинг, обучение небольших базовых моделей с контролируемыми ресурсами, а также сценарии совместного обучения с участием периферийных устройств. Эти задачи обычно обладают высокой параллельностью, низкой связанностью и терпимостью к гетерогенным вычислительным мощностям, что делает их очень подходящими для совместного обучения через P2P сети, протоколы Swarm, распределенные оптимизаторы и другие методы.

Децентрализация тренировки классических проектов

В настоящее время в области децентрализованного обучения и федеративного обучения, представительные блокчейн-проекты включают Prime Intellect, Pluralis.ai, Gensyn, Nous Research и Flock.io. С точки зрения технологической инновационности и сложности инженерной реализации, Prime Intellect, Nous Research и Pluralis.ai предложили множество оригинальных исследований в системной архитектуре и дизайне алгоритмов, представляя передовые направления текущих теоретических исследований; в то время как пути реализации Gensyn и Flock.io относительно ясны, уже можно увидеть первоначальный прогресс в инженерной реализации. В данной статье будут последовательно разобраны ключевые технологии и инженерные архитектуры, стоящие за этими пятью проектами, и далее будет обсуждено их различие и взаимодополняемость в децентрализованной системе AI-обучения.

( Prime Intellect: Проверяемые траектории обучения в усиленном обучении для сетей сотрудничества.

Prime Intellect стремится создать сеть обучения ИИ, не требующую доверия, позволяя каждому участвовать в обучении и получать надежные награды за свои вычислительные вклады. Prime Intellect надеется создать систему децентрализованного обучения ИИ с проверяемостью, открытостью и хорошо продуманной системой стимулов через три ключевых модуля: PRIME-RL + TOPLOC + SHARDCAST.

)# 01, Структура протокола Prime Intellect и ценность ключевых модулей

![Крипто ИИ Святой Грааль: Децентрализация обучения передовых исследований]###https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp###

(# 02、Подробное описание ключевых механизмов тренировки Prime Intellect

#PRIME-RL: Архитектура задач асинхронного обучения с подкреплением с разъединением

PRIME-RL является фреймворком моделирования и выполнения задач, разработанным Prime Intellect для Децентрализация тренировочных сценариев, специально предназначенным для гетерогенных сетей и асинхронного участия. Он использует обучение с подкреплением в качестве приоритетного объекта адаптации, структурно декомпозируя процессы обучения, вывода и загрузки весов, что позволяет каждому узлу обучения независимо завершать циклы задач локально и сотрудничать с механизмами валидации и агрегирования через стандартизированные интерфейсы. По сравнению с традиционными процессами обучения с учителем, PRIME-RL лучше подходит для реализации гибкого обучения в средах без центрального управления, что снижает сложность системы и закладывает основу для поддержки многозадачного параллелизма и эволюции стратегий.

#TOPLOC:Легковесный механизм верификации поведения тренировки

TOPLOC)Доверенное наблюдение и проверка политики-локальности### является основной механизмом верифицируемости, предложенным Prime Intellect, который используется для определения того, завершил ли узел эффективное обучение стратегии на основе наблюдаемых данных. В отличие от тяжелых решений, таких как ZKML, TOPLOC не полагается на перерасчет всей модели, а завершает верификацию легковесной структуры, анализируя локальную согласованность траекторий между "наблюдательной последовательностью↔обновлением стратегии". Впервые он преобразует траектории поведения в процессе обучения в верифицируемые объекты, что является ключевым нововведением для реализации распределения наград за обучение без доверия, предоставляя жизнеспособный путь для создания可审计、可激励的去中心化协作训练网络.

#SHARDCAST: Асинхронный протокол агрегации и распространения весов

SHARDCAST — это протокол распространения и агрегации весов, разработанный Prime Intellect, оптимизированный для асинхронных, ограниченных по пропускной способности и изменяющихся по состоянию узлов реальных сетевых условий. Он объединяет механизм gossip-распространения и локальную синхронизацию, позволяя нескольким узлам продолжать отправку частичных обновлений в асинхронном состоянии, что обеспечивает постепенную сходимость весов и многоверсионную эволюцию. По сравнению с централизованными или синхронными методами AllReduce, SHARDCAST значительно повышает масштабируемость и отказоустойчивость децентрализованного обучения, являясь основой для построения стабильного консенсуса по весам и непрерывного цикла обучения.

#OpenDiLoCo: Разреженная асинхронная коммуникационная структура

OpenDiLoCo является независимой реализацией и открытым исходным кодом фреймворка оптимизации связи, предложенного командой Prime Intellect на основе концепции DiLoCo от DeepMind, специально разработанным для решения таких задач, как ограниченная пропускная способность, гетерогенность устройств и нестабильность узлов, которые часто встречаются в процессе децентрализованного обучения. Его архитектура основана на параллельной обработке данных и строит разреженные топологические структуры, такие как Ring, Expander, Small-World, избегая высоких затрат на связь из-за глобальной синхронизации, полагаясь лишь на локальных соседних узлов для выполнения совместного обучения моделей. Сочетая асинхронные обновления и механизмы восстановления после сбоев, OpenDiLoCo позволяет потребительским GPU и периферийным устройствам стабильно участвовать в задачах обучения, значительно повышая доступность глобального совместного обучения и становясь одной из ключевых инфраструктур связи для построения сети децентрализованного обучения.

#PCCL:Библиотека совместной связи

PCCL(Prime Collective Communication Library) является легковесной библиотекой связи, разработанной Prime Intellect для Децентрализация AI тренинговой среды, целью которой является решение проблем адаптации традиционных библиотек связи(, таких как NCCL и Gloo), в гетерогенных устройствах и сетях с низкой пропускной способностью. PCCL поддерживает разреженные топологии, сжатие градиентов, синхронизацию с низкой точностью и восстановление после сбоев, может работать на потребительских GPU и нестабильных узлах, является базовым компонентом, поддерживающим асинхронные коммуникационные возможности протокола OpenDiLoCo. Он значительно увеличивает пропускную способность сети обучения и совместимость устройств, прокладывая "последнюю милю" коммуникационной инфраструктуры для построения действительно открытой, не требующей доверия сети совместного обучения.

(# 03, Сеть стимулирования и ролевое подразделение Prime Intellect

Prime Intellect создал сеть обучения, которая не требует разрешения, является проверяемой и имеет экономические стимулы, позволяя любому участвовать в задачах и получать вознаграждение за реальные вклады. Протокол работает на основе трех основных ролей:

Инициатор задачи: определяет обучающую среду, начальную модель, функцию вознаграждения и критерии валидации
Узел для обучения: выполнение локального обучения, отправка обновлений веса и отслеживание траектории
Узлы верификации: Использование механизма TOPLOC для проверки подлинности поведения обучения и участия в расчетах вознаграждений и агрегации стратегий.

Ядро процесса соглашения включает в себя публикацию задач, обучение узлов, проверку траектории, агрегацию весов )SHARDCAST### и распределение вознаграждений, образуя замкнутый цикл стимулов вокруг "реальных тренировочных действий".

(# 04、INTELLECT-2:Первый проверяемый Децентрализованный обучающий модельный выпуск

Prime Intellect выпустил INTELLECT-2 в мае 2025 года, это первая в мире модель глубокого обучения, обученная с помощью асинхронных, не требующих доверия, Децентрализация узлов, с параметрами размером 32B. Модель INTELLECT-2 была обучена с использованием более 100 гетерогенных узлов GPU, расположенных на трех континентах.

PRIME1.59%

Посмотреть Оригинал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

12 Лайков