Прориви в технології генерації відео на основі штучного інтелекту: від тексту до 4D повного ланцюга Web3 отримають вигоду

robot
Генерація анотацій у процесі

Прориви в технології генерації відео за допомогою ШІ та їх вплив

Нещодавніми найбільш вражаючими досягненнями у сфері технологій штучного інтелекту стали значні покращення в можливостях генерації багатомодальних відео. Ця технологія з початкової генерації відео виключно з тексту вже розвинулася до здатності інтегрувати текст, зображення та аудіо в повний ланцюговий режим генерації.

Кілька典型них技术突破案例 варто звернути увагу на:

  1. Відкритий фреймворк EX-4D, розроблений певною технологічною компанією, може перетворити звичайні відео на 4D-контент з вільним кутом огляду, і рівень схвалення користувачів становить 70,7%. Ця технологія робить можливим створення ефекту перегляду з кількох ракурсів з одноокутного відео, значно спрощуючи роботу, яку традиційно могли виконувати лише професійні команди 3D-моделювання.

  2. Деяка AI платформа представила функцію "绘想", яка стверджує, що може генерувати 10-секундне відео "кінематографічної" якості з одного зображення. Проте, достовірність цієї заяви ще потребує подальшої перевірки.

  3. Розроблена певним AI-дослідницьким інститутом технологія Veo досягла синхронного генерації 4K відео та навколишніх звуків. Ключем до цього прориву стало вирішення проблеми семантичного узгодження відео та аудіо в складних сценах, наприклад, точна відповідність між рухом пішки на екрані та звуком кроків.

  4. Технологія ContentV певної платформи коротких відео, яка спирається на модель з 8 мільярдів параметрів, здатна генерувати 1080p відео за 2,3 секунди, вартість приблизно 3,67 юаня за 5 секунд. Хоча в складних сценах є простір для покращення, контроль витрат вже досить непоганий.

Ці технологічні прориви мають велике значення в таких аспектах, як якість відео, витрати на генерацію та сценарії застосування:

З точки зору технічної цінності, складність генерації мультимодальних відео зростає експоненціально. Це вимагає обробки мільйонів пікселів однофотографічного зображення, а також забезпечення тимчасової узгодженості щонайменше 100 кадрів, одночасно враховуючи синхронізацію аудіо та просторову узгодженість 3D. Наразі, завдяки модульному розподілу та співпраці великих моделей, це складне завдання стало можливим.

У контролі витрат основна увага приділяється оптимізації архітектури висновків. Це включає використання стратегій генерації на основі рівнів, механізмів повторного використання кешу та динамічного розподілу ресурсів. Ці оптимізаційні заходи спільно сприяли досягненню результатів з низькими витратами та високою ефективністю, таких як ContentV.

Що стосується впливу на застосування, технології ШІ підривають традиційні процеси виробництва відео. Раніше виробництво відео було високовартісним і з високими бар'єрами, що вимагало великої кількості обладнання, приміщень, людських ресурсів та постпродакшну. А зараз ШІ може спростити цей процес до введення підказок і кількох хвилин очікування, одночасно досягаючи деяких перспектив і ефектів, які важко досягти традиційною зйомкою. Ця революція може спровокувати новий раунд перетворень в економіці творців, перемістивши акцент з технологічних і фінансових бар'єрів на креативність і естетичні можливості.

Ці досягнення технологій Web2 у сфері штучного інтелекту також мали глибокий вплив на область штучного інтелекту Web3:

По-перше, структура вимог до обчислювальної потужності змінилася. Генерація мультимодальних відео потребує різноманітних комбінацій обчислювальної потужності, що створює новий попит на розподілену неактивну обчислювальну потужність, а також на різноманітні моделі, алгоритми та платформи для розподіленої доопрацювання.

По-друге, зросли вимоги до маркування даних. Для створення професійного відео потрібні точні описи сцен, референтні зображення, аудіо стилі, траєкторії руху камери та умови освітлення тощо. Механізми стимулювання Web3 можуть залучити таких професіоналів, як фотографи, звукові дизайнери та 3D-художники, для надання високоякісних матеріалів, що підвищить можливості генерації відео штучним інтелектом.

Врешті-решт, тенденція переходу технології штучного інтелекту від централізованого великомасштабного розподілу ресурсів до модульної співпраці сама по собі створює новий попит на децентралізовані платформи. У майбутньому обчислювальна потужність, дані, моделі та механізми стимулювання можуть сформувати самоусилювальне позитивне коло, що сприятиме глибокій інтеграції сцен Web3 AI та Web2 AI.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Репост
  • Поділіться
Прокоментувати
0/400
ChainWallflowervip
· 13год тому
4D досить класно, тільки рівень визнання не дуже.
Переглянути оригіналвідповісти на0
GasFeeCriervip
· 13год тому
Занадто багато відеомоделей, це якось лякає.
Переглянути оригіналвідповісти на0
LayerHoppervip
· 13год тому
Неправдоподібно, що такий масштаб досяг 70 тис. визнання.
Переглянути оригіналвідповісти на0
SigmaBrainvip
· 14год тому
Це, напевно, шахрайство.
Переглянути оригіналвідповісти на0
  • Закріпити