Bit News Meta anunció recientemente un marco de IA llamado audio2photoreal, que es capaz de generar una serie de modelos de personajes NPC realistas y "sincronizar los labios" y "posar" automáticamente los modelos de personajes con la ayuda de archivos de voz en off existentes.
El informe oficial de investigación señaló que después de recibir el archivo de doblaje, el marco fotorrealista Audio2 primero generará una serie de modelos NPC y luego utilizará la tecnología de cuantificación y el algoritmo de difusión para generar acciones de modelo, en las que la tecnología de cuantificación proporciona una referencia de muestra de acción para el marco y el algoritmo de difusión se utiliza para mejorar el efecto de las acciones de los personajes generadas por el marco.
El cuarenta y tres por ciento de los evaluadores en el experimento controlado estaban "muy satisfechos" con las escenas de diálogo de los personajes generadas por el marco, por lo que los investigadores consideraron que el marco fotorrealista de Audio2 era capaz de generar movimientos "más dinámicos y expresivos" que los productos de la competencia en la industria. Se informa que el equipo de investigación ahora ha hecho público el código y el conjunto de datos relevantes en GitHub.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Meta anunció el marco de IA audio2photoreal, que puede generar escenas de diálogo de personajes ingresando archivos de doblaje
Bit News Meta anunció recientemente un marco de IA llamado audio2photoreal, que es capaz de generar una serie de modelos de personajes NPC realistas y "sincronizar los labios" y "posar" automáticamente los modelos de personajes con la ayuda de archivos de voz en off existentes.
El informe oficial de investigación señaló que después de recibir el archivo de doblaje, el marco fotorrealista Audio2 primero generará una serie de modelos NPC y luego utilizará la tecnología de cuantificación y el algoritmo de difusión para generar acciones de modelo, en las que la tecnología de cuantificación proporciona una referencia de muestra de acción para el marco y el algoritmo de difusión se utiliza para mejorar el efecto de las acciones de los personajes generadas por el marco.
El cuarenta y tres por ciento de los evaluadores en el experimento controlado estaban "muy satisfechos" con las escenas de diálogo de los personajes generadas por el marco, por lo que los investigadores consideraron que el marco fotorrealista de Audio2 era capaz de generar movimientos "más dinámicos y expresivos" que los productos de la competencia en la industria. Se informa que el equipo de investigación ahora ha hecho público el código y el conjunto de datos relevantes en GitHub.