AI+Web3: Дослідження застосування розподілених стимулів на ринку даних, обчислювальної потужності та відкритого вихідного коду

AI+Web3: Вежі та площі

ТЛ; ДОКТОР

  1. Проекти Web3 з концепцією ШІ стали привабливими об'єктами для залучення капіталу на первинному та вторинному ринках.

  2. Можливості Web3 в індустрії штучного інтелекту полягають у: використанні розподілених стимулів для координації потенційних постачань з довгого хвоста, що стосується даних, зберігання та обчислень; одночасно створюючи децентралізований ринок для відкритих моделей та AI Agent.

  3. Штучний інтелект у Web3 індустрії головним чином застосовується в ланцюгових фінансах (криптоплатежі, торгівля, аналіз даних) та для допомоги у розробці.

  4. Ефективність AI+Web3 проявляється в їхній взаємодоповнювальності: Web3 має потенціал протистояти централізації AI, тоді як AI може допомогти Web3 вийти за межі.

! AI+Web3: Вежі та Плази

Вступ

Упродовж останніх двох років розвиток ШІ, здається, натиснув на кнопку прискорення. Ця хвиля, спричинена Chatgpt, не тільки відкрила новий світ генеративного штучного інтелекту, але й викликала величезні хвилі в сфері Web3.

Під впливом концепції ШІ фінансування крипторинку помітно зросло. За статистикою, лише в першій половині 2024 року 64 проекти Web3+AI завершили фінансування, а заснована на штучному інтелекті операційна система Zyber365 на раунді А досягла максимального фінансування в 100 мільйонів доларів.

Ринок вторинних цінних паперів стає ще більш процвітаючим. Дані криптоагрегатора Coingecko показують, що за короткий проміжок часу, всього за рік, загальна ринкова капіталізація сектора AI досягла 48,5 мільярда доларів, а обсяг торгів за 24 години наблизився до 8,6 мільярда доларів. Позитивний вплив прогресу в основних AI-технологіях очевидний: після виходу моделі OpenAI Sora, яка перетворює текст у відео, середня ціна в секторі AI зросла на 151%. Ефект AI також поширюється на один з секторів криптовалют, що залучають капітал, Meme: перший концепт AI Agent, MemeCoin — GOAT, швидко став популярним і отримав оцінку в 1,4 мільярда доларів, успішно запустивши бум AI Meme.

Дослідження та теми, пов'язані з AI+Web3, також набирають популярності, від AI+Depin до AI Memecoin, а потім до сучасних AI Agent та AI DAO, емоції FOMO вже не встигають за швидкістю зміни нових наративів.

Комбінація термінів AI+Web3, що наповнена гарячими грошима, трендами та футуристичними фантазіями, неминуче сприймається як шлюб, укладений капіталом. Нам, здається, важко розрізнити під цією розкішною оболонкою, чи є це ареною спекулянтів, чи переддень вибуху світанку?

Щоб відповісти на це питання, важливо розглянути ключове питання для обох сторін: чи стане краще з наявністю один одного? Чи можна отримати вигоду з моделей один одного? Ця стаття намагається подивитися на цю картину, спираючись на досягнення попередників: як Web3 може відігравати роль на різних етапах технологічного стеку AI, і що AI може принести нове для Web3?

Частина 1 Які можливості Web3 під AI-стеком?

Перед тим, як розгорнути цю тему, нам потрібно зрозуміти технологічний стек великих моделей ШІ:

Викладіть весь процес простими словами: "Велика модель" схожа на людський мозок, на початкових етапах вона нагадує новонароджену дитину, якій потрібно спостерігати і споживати величезну кількість зовнішньої інформації, щоб зрозуміти світ, це етап "збору" даних. Оскільки комп'ютери не мають людських багатосенсорних можливостей, зовнішня маса необробленої інформації до тренування повинна бути перетворена через "попередню обробку" в формат інформації, зрозумілий і придатний для використання комп'ютером.

Після введення даних штучний інтелект через "навчання" створює модель з розумінням і прогностичними можливостями, яку можна розглядати як процес, в якому немовля поступово розуміє та вивчає навколишній світ. Параметри моделі подібні до мовних здібностей немовляти, які постійно коригуються в процесі навчання. Вивчення починає розгалужуватися на окремі предмети або спілкування з людьми для отримання зворотного зв'язку та корекції, що веде до етапу "доладжування" великої моделі.

Діти, ставши дорослими і навчившись говорити, можуть розуміти значення і висловлювати свої почуття та думки в нових розмовах; цей етап схожий на "інференцію" у великих моделях ШІ, які можуть прогнозувати та аналізувати нові мовні текстові введення. Діти, завдяки своїм мовним здібностям, виражають почуття, описують об'єкти та вирішують проблеми, що також схоже на те, як великі моделі ШІ, завершивши навчання, застосовуються на етапі інференції для виконання різних специфічних завдань, таких як класифікація зображень, розпізнавання мови тощо.

А AI агент наближається до наступної форми великої моделі — здатної самостійно виконувати завдання та переслідувати складні цілі, він не лише має здатність до мислення, але також може запам'ятовувати, планувати та взаємодіяти з світом за допомогою інструментів.

На даний момент, стосовно болючих точок AI в різних стекових рішеннях, Web3 починає формувати багаторівневу, взаємопов'язану екосистему, що охоплює всі етапи процесу моделей AI.

! AI+Web3: Вежі та Квадрати

Один. Базовий рівень: обчислювальна потужність та дані Airbnb

Потужність

Наразі однією з найвищих витрат у сфері ШІ є обчислювальна потужність та енергія, необхідні для навчання моделей і моделей інференції.

Наприклад, для навчання LLAMA3 від Meta потрібно 16000 графічних процесорів H100, вироблених NVIDIA (це провідні графічні процесори, спеціально розроблені для AI та високопродуктивних обчислювальних навантажень), що займає 30 днів. Ціна на версію з 80 ГБ коливається від 30 000 до 40 000 доларів, що потребує інвестицій у обчислювальне обладнання (GPU + мережеві чіпи) в розмірі 4-7 мільярдів доларів. Під час навчання щомісяця споживається 1,6 мільярда кіловат-годин, а витрати на енергію щомісяця складають майже 20 мільйонів доларів.

Розвантаження обчислювальної потужності штучного інтелекту також є однією з найперших сфер перетворення Web3 та AI — DePin (мережа децентралізованої фізичної інфраструктури). Наразі сайт даних DePin Ninja перерахував понад 1400 проектів, серед яких проекти з обміну потужністю GPU включають io.net, Aethir, Akash, Render Network тощо.

Основна логіка полягає в тому, що платформа дозволяє особам або суб'єктам, які мають незайняті ресурси GPU, вносити обчислювальну потужність у децентралізований спосіб без необхідності отримання дозволу. Через онлайн-ринок, схожий на Uber або Airbnb, підвищується використання недоокремлених ресурсів GPU, а кінцеві користувачі, у свою чергу, отримують більш доступні та ефективні обчислювальні ресурси; одночасно механізм стейкінгу забезпечує, що постачальники ресурсів зазнають відповідного покарання у випадку порушення механізму контролю якості або перерви в мережі.

Його особливістю є:

  • Збір невикористаних ресурсів GPU: постачальниками є переважно незалежні невеликі та середні дата-центри, оператори криптодобувних майданчиків та інші, що мають надлишкові обчислювальні ресурси, апаратура для видобутку з механізмом консенсусу PoS, така як майнери FileCoin та ETH. В даний час також є проекти, що прагнуть знизити бар'єри для входу, такі як exolab, що використовує MacBook, iPhone, iPad та інші локальні пристрої для створення обчислювальної мережі для виконання великих моделей.

  • Перед довгим хвостом ринку обчислювальних потужностей AI:

a. "З технічної точки зору" децентралізований ринок обчислювальних потужностей більше підходить для етапів інференції. Навчання більше залежить від обробної спроможності даних, що забезпечується надвеликими кластерами GPU, тоді як для інференції вимоги до обчислювальної продуктивності GPU відносно нижчі, як, наприклад, Aethir зосереджується на рендерингу з низькою затримкою та застосуваннях AI для інференції.

b. "З точки зору попиту" маломасштабні користувачі обчислювальних потужностей не будуть окремо навчати свої великі моделі, а лише виберуть оптимізувати та налаштувати їх навколо кількох провідних великих моделей, і ці сценарії природно підходять для розподілених незайнятих обчислювальних ресурсів.

  • Децентралізоване володіння: технологічне значення блокчейну полягає в тому, що власник ресурсів завжди зберігає контроль над ресурсами, гнучко налаштовуючи їх відповідно до потреб і при цьому отримуючи прибуток.

Дані

Дані є основою штучного інтелекту. Без даних обчислення, як мертва трава, не мають жодної користі. Взаємозв'язок між даними та моделями схожий на прислів'я "Сміття всередині, сміття зовні", кількість даних та якість введення визначають якість виводу моделі. Щодо навчання сучасних AI моделей, дані визначають мовні здібності моделі, здатність до розуміння, навіть світогляд та гуманістичну поведінку. Наразі проблема потреби в даних для AI зосереджена на наступних чотирьох аспектах:

  • Голод даних: навчання AI моделей залежить від великої кількості вхідних даних. Відкриті дані показують, що кількість параметрів, використаних OpenAI для навчання GPT-4, досягла трильйонного рівня.

  • Якість даних: із поєднанням ШІ та різних галузей, терміни придатності даних, їх різноманітність, спеціалізація галузевих даних та нові джерела даних, такі як емоції в соціальних мережах, також ставлять нові вимоги до їх якості.

  • Проблеми конфіденційності та відповідності: В даний час країни та підприємства поступово усвідомлюють важливість якісних наборів даних і вводять обмеження на їх збори.

  • Високі витрати на обробку даних: велика кількість даних, складний процес обробки. Відкриті дані свідчать, що більше 30% витрат на дослідження та розробки в AI-компаніях йдуть на базове збори та обробку даних.

На даний момент рішення web3 реалізовані в чотирьох основних аспектах:

  1. Збір даних: безкоштовно надавати зібрані дані з реального світу стрімко вичерпується, витрати AI-компаній на дані зростають з року в рік. Але ці витрати не повертаються до справжніх постачальників даних, платформи повністю насолоджуються створенням вартості, яку приносять дані, як, наприклад, Reddit, який заробив 2,03 мільярда доларів США завдяки угодам про ліцензування даних з AI-компаніями.

Дати можливість справжнім користувачам також брати участь у створенні вартості, яку приносить дані, а також отримувати більш приватні та цінні дані за низькою вартістю через розподілену мережу та механізми стимулювання – це бачення Web3.

  • Grass є децентралізованим шаром даних та мережею, користувачі можуть запустити вузли Grass, щоб вносити вільну пропускну здатність і релейний трафік для захоплення реальних даних з Інтернету та отримувати токенні винагороди.

  • Vana впровадила унікальну концепцію пулу ліквідності даних (DLP), де користувачі можуть завантажувати приватні дані (такі як записи покупок, звички перегляду, активність у соціальних мережах тощо) до конкретного DLP та гнучко вибирати, чи надавати ці дані для використання певним третім сторонам.

  • У PublicAI користувачі можуть використовувати #AI或#Web3 як категорійний тег на X та @PublicAI для збору даних.

  1. Попередня обробка даних: під час обробки даних AI, оскільки зібрані дані зазвичай є шумними і містять помилки, їх необхідно очистити та перетворити в придатний формат перед навчанням моделі, що включає стандартизацію, фільтрацію та обробку повторюваних пропущених значень. Ця стадія є однією з небагатьох ручних етапів в індустрії AI, що призвела до виникнення професії спеціаліста з розмітки даних, з підвищенням вимог до якості даних моделі, також підвищується і бар'єр для входу у цю професію, а це завдання природно підходить для механізму децентралізованих стимулів Web3.
  • Наразі Grass та OpenLayer обидва розглядають можливість додавання цього ключового етапу - маркування даних.

  • Synesis представив концепцію "Train2earn", підкреслюючи якість даних, користувачі можуть отримувати винагороду за надання розмічених даних, коментарів або інших форм внеску.

  • Проект мітки даних Sapien ігровим способом виконує завдання мітки та дозволяє користувачам ставити бали, щоб заробити більше балів.

  1. Приватність і безпека даних: потрібно чітко розуміти, що приватність і безпека даних – це два різні поняття. Приватність даних стосується обробки чутливих даних, тоді як безпека даних захищає інформацію від несанкціонованого доступу, знищення та крадіжки. Таким чином, переваги технологій приватності Web3 та потенційні сценарії застосування проявляються в двох аспектах: (1) навчання чутливих даних; (2) співпраця в обробці даних: кілька власників даних можуть спільно брати участь у навчанні ШІ, не ділячись своїми початковими даними.

Серед поширених технологій конфіденційності Web3 можна відзначити:

  • Достовірне виконуване середовище(TEE), наприклад, Super Protocol.

  • Повністю гомоморфне шифрування (FHE), наприклад, BasedAI, Fhenix.io або Inco Network.

  • Технологія нульових знань (zk), така як Reclaim Protocol, використовує технологію zkTLS для генерації нульових доказів трафіку HTTPS, що дозволяє користувачам безпечно імпортувати активність, репутацію та дані про особистість з зовнішніх веб-сайтів, не розкриваючи чутливу інформацію.

Проте, наразі ця сфера все ще на ранній стадії, більшість проектів все ще в процесі дослідження, нинішні труднощі полягають у тому, що витрати на обчислення занадто високі, наприклад:

  • Фреймворк zkML EZKL потребує близько 80 хвилин для генерації доказу моделі 1M-nanoGPT.

  • Згідно з даними Modulus Labs, витрати zkML перевищують чисті розрахунки більше ніж у 1000 разів.

  1. Зберігання даних: після отримання даних також потрібне місце для зберігання даних в ланцюгу, а також LLM, створеної на основі цих даних. Основною проблемою є доступність даних (DA): до оновлення Danksharding в Ethereum його пропускна здатність становила 0,08 МБ. Водночас навчання AI-моделей і реальний інфраструктурний аналіз зазвичай потребують пропускної здатності даних від 50 до 100 ГБ на секунду. Така різниця в порядках величини робить існуючі рішення на ланцюзі нездатними впоратися з "ресурсомісткими AI-додатками".
  • 0g.AI є представником цієї категорії проектів. Це централізоване рішення для зберігання, розроблене для високих вимог до продуктивності AI, з ключовими особливостями: висока продуктивність та масштабованість, підтримка швидкого завантаження та скачування великих наборів даних за допомогою технологій розподілу (Sharding) та кодування з виправленням помилок (Erasure Coding), швидкість передачі даних наближається до 5 ГБ за секунду.

Два, Проміжне програмне забезпечення: навчання та виведення моделі

Децентралізований ринок відкритих моделей

Дебати щодо того, чи мають AI-моделі бути закритими чи відкритими, ніколи не зникали. Колективні інновації, що виникають внаслідок відкритого виходу, є перевагою, яку закриті моделі не можуть зрівняти. Проте, без жодної моделі прибутку, як можуть відкриті моделі підвищити мотивацію розробників? Це варте уваги.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • 6
  • Поділіться
Прокоментувати
0/400
NeverVoteOnDAOvip
· 9год тому
Знову ці концепції дурять людей
Переглянути оригіналвідповісти на0
PanicSeller69vip
· 9год тому
Згорнувся, справді потрібно встигнути на автобус.
Переглянути оригіналвідповісти на0
OnChainDetectivevip
· 9год тому
Дивився на дані півночі, навіть торговий режим був попередньо налаштований ШІ.
Переглянути оригіналвідповісти на0
SybilSlayervip
· 9год тому
Люблю шифрування і люблю гуляти, справді смачно
Переглянути оригіналвідповісти на0
ThatsNotARugPullvip
· 9год тому
Знову хоче обдурювати людей, як лохів, але не хоче бути невдахою веб3.
Переглянути оригіналвідповісти на0
BearMarketBarbervip
· 10год тому
Ще одна хвиля обдурювання людей, як лохів
Переглянути оригіналвідповісти на0
  • Закріпити