Percée de la technologie de génération vidéo par IA : de texte à 4D, la chaîne complète Web3 en bénéficiera.

robot
Création du résumé en cours

Percées de la technologie de génération de vidéos par IA et son impact

Récemment, la percée la plus remarquable dans le domaine de la technologie AI est sans aucun doute l'amélioration significative de la capacité de génération de vidéos multimodales. Cette technologie est passée de la génération de vidéos à partir de texte pur à un modèle de génération de bout en bout capable d'intégrer texte, images et audio.

Quelques cas typiques de percées technologiques méritent d'être notés :

  1. Le cadre EX-4D open source d'une entreprise technologique permet de convertir des vidéos ordinaires en contenu 4D à perspective libre, avec un taux d'acceptation des utilisateurs atteignant 70,7 %. Cette technologie rend possible la génération d'effets de visionnage à plusieurs angles à partir de vidéos à perspective unique, simplifiant considérablement un travail traditionnellement réalisé par des équipes de modélisation 3D professionnelles.

  2. Une fonctionnalité "Hui Xiang" lancée par une plateforme d'IA prétend être capable de générer une vidéo de qualité "cinématographique" de 10 secondes à partir d'une seule image. Cependant, la véracité de cette déclaration doit encore être vérifiée.

  3. La technologie Veo développée par un institut de recherche en IA a permis la génération synchronisée de vidéos 4K et de sons d'environnement. La clé de cette avancée réside dans la résolution du problème de correspondance sémantique entre la vidéo et l'audio dans des scènes complexes, comme la correspondance précise entre les mouvements de marche à l'écran et le son des pas.

  4. La technologie ContentV d'une plateforme de courtes vidéos, reposant sur un modèle de 8 milliards de paramètres, peut générer une vidéo 1080p en 2,3 secondes, à un coût d'environ 3,67 yuans/5 secondes. Bien que les performances dans des scénarios complexes aient encore une marge d'amélioration, le contrôle des coûts est déjà assez bon.

Ces avancées technologiques ont une importance significative en termes de qualité vidéo, de coûts de production et de cas d'utilisation.

D'un point de vue de la valeur technique, la complexité de la génération vidéo multimodale augmente de manière exponentielle. Elle nécessite non seulement le traitement de millions de pixels d'images individuelles, mais aussi la garantie d'une cohérence temporelle d'au moins 100 images, tout en tenant compte de la synchronisation audio et de la cohérence spatiale 3D. Actuellement, cette tâche complexe est réalisée grâce à une décomposition modulaire et à la collaboration de grands modèles.

En matière de contrôle des coûts, cela est principalement réalisé par l'optimisation de l'architecture de raisonnement. Cela inclut l'adoption de stratégies de génération hiérarchique, de mécanismes de réutilisation de cache et d'allocation dynamique des ressources. Ces mesures d'optimisation contribuent ensemble à des résultats de génération à faible coût et haute efficacité, comme ContentV.

En termes d'impact sur les applications, la technologie AI révolutionne le processus de production vidéo traditionnel. Auparavant, la production vidéo était un processus coûteux et difficile d'accès, nécessitant beaucoup d'équipements, d'espace, de main-d'œuvre et de post-production. Maintenant, l'IA peut simplifier ce processus en se basant sur des mots d'invite et quelques minutes d'attente, tout en permettant d'atteindre des angles et des effets spéciaux difficiles à réaliser avec des prises de vue traditionnelles. Cette transformation pourrait déclencher une nouvelle réorganisation de l'économie créatrice, en déplaçant le focus des barrières techniques et financières vers la créativité et l'esthétique.

Les avancées de ces technologies d'IA Web2 ont également eu un impact profond sur le domaine de l'IA Web3 :

Tout d'abord, la structure de la demande en puissance de calcul a changé. La génération de vidéos multimodales nécessite une combinaison diversifiée de puissance de calcul, ce qui crée une nouvelle demande pour la puissance de calcul inutilisée distribuée ainsi que pour divers modèles de réglage fin distribués, algorithmes et plateformes de raisonnement.

Deuxièmement, la demande de balisage de données augmente. La création de vidéos de niveau professionnel nécessite des descriptions de scènes précises, des images de référence, des styles audio, des trajectoires de caméra et des conditions d'éclairage, entre autres données professionnelles. Le mécanisme d'incitation de Web3 peut attirer des professionnels tels que des photographes, des ingénieurs du son et des artistes 3D pour fournir des matériaux de données de haute qualité, améliorant ainsi la capacité de génération de vidéos par IA.

Enfin, la tendance des technologies AI à passer d'un déploiement centralisé de ressources à grande échelle vers une collaboration modulaire crée une nouvelle demande pour les plateformes décentralisées. À l'avenir, la puissance de calcul, les données, les modèles et les mécanismes d'incitation pourraient former un cycle vertueux auto-renforçant, favorisant une profonde intégration des scénarios Web3 AI et Web2 AI.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Reposter
  • Partager
Commentaire
0/400
ChainWallflowervip
· Il y a 13h
4D est plutôt cool, mais le taux de reconnaissance n'est pas très bon.
Voir l'originalRépondre0
GasFeeCriervip
· Il y a 13h
Il y a trop de modèles vidéo, c'est un peu effrayant.
Voir l'originalRépondre0
LayerHoppervip
· Il y a 13h
Absurde, cette échelle a atteint 70 000 et a été reconnue.
Voir l'originalRépondre0
SigmaBrainvip
· Il y a 14h
Cela appartient à une escroquerie, n'est-ce pas ?
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)