Imagina a un músico profesional que pueda explorar nuevas composiciones sin tener que tocar una sola nota en un instrumento. O un desarrollador de juegos independiente que puebla mundos virtuales con efectos de sonido realistas y ruido ambiental con un presupuesto reducido. O el propietario de una pequeña empresa que agrega una banda sonora a su última publicación de Instagram con facilidad. Esa es la promesa de AudioCraft: nuestro marco simple que genera audio y música realistas y de alta calidad a partir de entradas de usuario basadas en texto después del entrenamiento con señales de audio sin procesar en lugar de MIDI o piano rolls.
AudioCraft consta de tres modelos: MusicGen , AudioGen y EnCodec. MusicGen, que se entrenó con música propiedad de Meta y con licencia específica, genera música a partir de entradas de usuario basadas en texto, mientras que AudioGen, que se entrenó en efectos de sonido públicos, genera audio a partir de entradas de usuario basadas en texto. Hoy, nos complace lanzar una versión mejorada de nuestro decodificador EnCodec, que permite generar música de mayor calidad con menos artefactos; nuestro modelo AudioGen preentrenado, que le permite generar sonidos ambientales y efectos de sonido como el ladrido de un perro, la bocina de un automóvil o pasos en un piso de madera; y todos los pesos y códigos del modelo AudioCraft. Los modelos están disponibles con fines de investigación y para mejorar la comprensión de la tecnología por parte de las personas.
De texto a audio con facilidad
En los últimos años, los modelos generativos de IA, incluidos los modelos de lenguaje, han dado grandes pasos y han mostrado habilidades excepcionales: desde la generación de una amplia variedad de imágenes y videos, desde descripciones de texto que exhiben comprensión espacial hasta modelos de texto y voz que realizan traducción automática o incluso texto o agentes de diálogo del habla . Sin embargo, aunque hemos visto mucho entusiasmo en torno a la IA generativa para imágenes, video y texto, el audio siempre ha parecido un poco rezagado. Hay algo de trabajo por ahí, pero es muy complicado y no muy abierto, por lo que las personas no pueden jugar fácilmente con él.
La generación de audio de alta fidelidad de cualquier tipo requiere el modelado de señales y patrones complejos en diferentes escalas. Podría decirse que la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos. La generación de música coherente con IA a menudo se ha abordado mediante el uso de representaciones simbólicas como MIDI o rollos de piano. Sin embargo, estos enfoques son incapaces de captar completamente los matices expresivos y los elementos estilísticos que se encuentran en la música. Los avances más recientes aprovechan el aprendizaje de representación de audio autosupervisadoy una serie de modelos jerárquicos o en cascada para generar música, alimentando el audio sin procesar en un sistema complejo para capturar estructuras de largo alcance en la señal mientras genera audio de calidad. Pero sabíamos que se podía hacer más en este campo.
Un enfoque simple para la generación de audio
Generar audio a partir de señales de audio sin procesar es un desafío, ya que requiere modelar secuencias extremadamente largas. Una pista de música típica de unos pocos minutos muestreada a 44,1 kHz (que es la calidad estándar de las grabaciones de música) consta de millones de intervalos de tiempo. En comparación, los modelos generativos basados en texto como Llama y Llama 2 se alimentan con texto procesado como subpalabras que representan solo unos pocos miles de pasos de tiempo por muestra.
Para hacer frente a este desafío, aprendemos tokens de audio discretos de la señal sin procesar utilizando el códec de audio neuronal EnCodec , que nos brinda un nuevo "vocabulario" fijo para las muestras de música. Luego, podemos entrenar modelos de lenguaje autorregresivos sobre estos tokens de audio discretos para generar nuevos tokens y nuevos sonidos y música al convertir los tokens nuevamente al espacio de audio con el decodificador de EnCodec.
En el futuro, la IA generativa podría ayudar a las personas a mejorar enormemente el tiempo de iteración al permitirles obtener comentarios más rápido durante las primeras etapas de creación de prototipos y creación de cajas grises, ya sea un gran desarrollador AAA que construya mundos para el metaverso, un músico (aficionado, profesional o de lo contrario) trabajando en su próxima composición, o el propietario de una pequeña o mediana empresa que busca mejorar sus activos creativos. AudioCraft es un importante paso adelante en la investigación generativa de IA. Creemos que el enfoque simple que desarrollamos para generar con éxito muestras de audio robustas, coherentes y de alta calidad tendrá un impacto significativo en el desarrollo de modelos avanzados de interacción humano-computadora considerando interfaces auditivas y multimodales. Y no podemos esperar a ver lo que la gente crea con él.
Fuente: https://ai.meta.com/