En este post, exploramos el innovador enfoque de Google para entrenar sus notables modelos de conversión de texto en música, incluidos MusicLM y Noise2Music. Profundizaremos en el concepto de conjuntos de datos “falsos” y en cómo se utilizaron en estos modelos rompedores. Si siente curiosidad por el funcionamiento interno de estas técnicas y su impacto en el avance de la IA musical, ha venido al lugar adecuado.
Los grandes modelos lingüísticos (LLM) como ChatGPT o Bard se entrenan con enormes cantidades de datos de texto no estructurados. Aunque puede resultar caro desde el punto de vista computacional recopilar el contenido de millones de sitios web, hay abundancia de datos de entrenamiento en la web pública. Por el contrario, los modelos de texto a imagen como DALL-E 2 requieren un tipo de conjunto de datos totalmente distinto que consiste en pares de imágenes con sus descripciones correspondientes.
Del mismo modo, los modelos de texto a música se basan en canciones con descripciones de su contenido musical. Sin embargo, a diferencia de las imágenes, la música etiquetada es realmente difícil de encontrar en Internet. A veces, se dispone de metadatos como la instrumentación, el género o el estado de ánimo, pero las descripciones completas en profundidad son excepcionalmente difíciles de obtener. Esto supone un grave problema para los investigadores y las empresas que intentan recopilar datos para entrenar modelos musicales generativos.
A principios de 2023, los investigadores de Google crearon un gran revuelo en torno a la IA musical con sus revolucionarios modelos MusicLM y Noise2Music. Sin embargo, entre los músicos se sabe poco sobre cómo se recopilaron los datos para estos modelos. Sumerjámonos juntos en este tema y conozcamos algunos de los trucos aplicados en la investigación sobre IA musical de Google.
Etiquetas débilmente asociadas
Para MusicLM y Noise2Music, Google se basó en otro de sus modelos llamado MuLan, que fue entrenado para calcular la similitud entre cualquier pieza musical y cualquier descripción de texto. Para entrenar MuLan, Google utilizó lo que llamamos “etiquetas débilmente asociadas”. En lugar de curar cuidadosamente un conjunto de datos de música con descripciones de texto de alta calidad, adoptaron a propósito un enfoque diferente.
En primer lugar, extrajeron un fragmento de 30 segundos de 44 millones de vídeos musicales disponibles en YouTube, lo que dio como resultado 370.000 horas de audio. A continuación, etiquetaron la música con diversos textos asociados al vídeo: el título y la descripción del vídeo, comentarios, los nombres de las listas de reproducción en las que aparecía el vídeo, etc. Para reducir el ruido en este conjunto de datos, emplearon un gran modelo de lenguaje para identificar qué información textual asociada tenía contenido relacionado con la música y descartaron todo lo que no lo tenía.
En mi opinión, las etiquetas débilmente asociadas no pueden considerarse un conjunto de datos “falso”, todavía, porque la información de texto seguía siendo escrita por humanos reales y, sin duda, está asociada con la música hasta cierto punto. Sin embargo, este enfoque definitivamente prioriza la cantidad sobre la calidad, lo que habría suscitado preocupación entre la mayoría de los investigadores de aprendizaje automático en el pasado. Y Google no había hecho más que empezar…
Etiquetas falsas
Noise2Music es una IA musical generativa basada en la tecnología de difusión, que también se utilizó en modelos de generación de imágenes como DALL-E o Midjourney.
Para entrenar a Noise2Music, Google llevó al extremo su enfoque anterior y pasó de etiquetas débilmente asociadas a etiquetas totalmente artificiales. En lo que denominan “pseudoetiquetado”, los autores adoptaron un método extraordinario para recopilar textos de descripción musical. Indujeron a un gran modelo lingüístico (LaMDA) a escribir múltiples descripciones para 150k canciones populares, lo que dio como resultado 4 millones de descripciones. He aquí un ejemplo de una descripción de este tipo:
“Don’t Stop Me Now” de Queen : La enérgica canción de rock se construye sobre un piano, un bajo y una batería. Los cantantes están excitados, listos para salir y animados.
Posteriormente, los investigadores eliminaron los nombres de la canción y del artista para producir descripciones que, en principio, también podrían aplicarse a otras canciones. Sin embargo, incluso con estas descripciones en la mano, los investigadores seguían necesitando emparejarlas con canciones adecuadas para obtener un gran conjunto de datos etiquetados. Aquí es donde MuLan, su modelo entrenado en etiquetas débilmente asociadas, demostró su utilidad.
Los investigadores recopilaron un gran conjunto de datos de música sin etiquetar, lo que dio como resultado 340.000 horas de música. Para cada una de estas pistas, utilizaron MuLan para identificar la descripción de la canción generada artificialmente que mejor se ajustaba a ella. Esencialmente, cada pieza musical no se asigna a un texto que describa la canción en sí, sino a una descripción que encapsula música similar a ella.
La cuestión
En el aprendizaje automático tradicional, las etiquetas asignadas a cada observación (en este caso, una pieza musical) deberían representar idealmente una verdad objetiva. Sin embargo, las descripciones musicales carecen inherentemente de objetividad, lo que plantea el primer problema. Además, al utilizar la tecnología de mapeo de audio a texto, las etiquetas ya no reflejan una representación “veraz” de lo que ocurre en la canción. No proporcionan una descripción exacta de la música. Dados estos aparentes defectos, cabe preguntarse por qué este enfoque sigue arrojando resultados útiles.
Sesgo frente a ruido
Cuando las etiquetas de un conjunto de datos no se asignan con precisión, puede haber dos causas principales: el sesgo y el ruido. El sesgo se refiere a una tendencia constante de las etiquetas a no ser veraces en un sentido determinado. Por ejemplo, si el conjunto de datos etiqueta con frecuencia piezas instrumentales como canciones pero nunca identifica canciones como piezas instrumentales, demuestra un sesgo hacia la predicción de la presencia de voces.
Por otro lado, el ruido indica una variabilidad general en las etiquetas, independientemente de la dirección. Por ejemplo, si cada pista se etiqueta como “pieza triste de piano”, el conjunto de datos está muy sesgado, ya que proporciona sistemáticamente una etiqueta inexacta para muchas canciones. Sin embargo, como aplica la misma etiqueta a todas las pistas, no hay variabilidad y, por tanto, no hay ruido presente en el conjunto de datos.
Al asignar pistas a textos descriptivos escritos para otras pistas, introducimos ruido. Esto se debe a que, para la mayoría de las pistas, es poco probable que exista una descripción perfecta para ella en el conjunto de datos. En consecuencia, la mayoría de las etiquetas están un poco desviadas, es decir, son poco veraces, lo que se traduce en ruido. Sin embargo, ¿están sesgadas las etiquetas?
Dado que las descripciones disponibles se generaron para canciones populares, es razonable suponer que el conjunto de descripciones está sesgado hacia la música popular (occidental). No obstante, con 4 millones de descripciones basadas en 150.000 canciones únicas, cabría esperar una gama diversa de descripciones entre las que elegir. Además, la mayoría de los conjuntos de datos de música etiquetada presentan el mismo sesgo, por lo que ésta no es una desventaja única de este enfoque en comparación con otros. Lo que realmente diferencia a este enfoque es la introducción de ruido añadido.
Por qué el ruido puede estar bien en el aprendizaje automático
Entrenar un modelo de aprendizaje automático sobre un conjunto de datos sesgados no suele ser un enfoque deseable porque daría lugar a que el modelo aprendiera y replicara una comprensión sesgada de la tarea en cuestión. Sin embargo, el entrenamiento de un modelo de aprendizaje automático sobre datos no sesgados pero ruidosos aún puede producir resultados impresionantes. Permítame ilustrarlo con un ejemplo.
Considere la siguiente figura, que muestra dos conjuntos de datos formados por puntos naranjas y azules. En el conjunto de datos sin ruido, los puntos azules y naranjas son perfectamente separables. Sin embargo, en el conjunto de datos ruidoso, algunos puntos naranjas se han desplazado hacia el grupo de puntos azules, y viceversa. A pesar de este ruido añadido, si examinamos los modelos entrenados, observamos que ambos modelos identifican aproximadamente los mismos patrones. Esto se debe a que, incluso en presencia de ruido, la IA aprende a identificar el patrón óptimo que minimiza al máximo los errores.
Este ejemplo demuestra que una IA sí puede aprender de conjuntos de datos ruidosos, como el generado por Google. Sin embargo, el principal reto reside en el hecho de que cuanto más ruidoso sea el conjunto de datos, mayor será la cantidad de datos de entrenamiento necesarios para entrenar eficazmente el modelo. Este razonamiento se justifica por el entendimiento de que un conjunto de datos ruidoso contiene intrínsecamente menos información valiosa en comparación con un conjunto de datos equivalente sin ruido del mismo tamaño.
En conclusión, Google empleó técnicas innovadoras para abordar el reto de los limitados datos musicales etiquetados en el entrenamiento de sus modelos generativos de IA musical. Utilizaron etiquetas débilmente asociadas para MuLan, aprovechando la información textual de diversas fuentes relacionadas con los vídeos musicales, y emplearon un modelo lingüístico para filtrar los datos irrelevantes. Al desarrollar Noise2Music, introdujeron etiquetas falsas generando múltiples descripciones de canciones populares y asignándolas a pistas adecuadas mediante su modelo preentrenado.
Aunque estos enfoques pueden desviarse de los métodos tradicionales de etiquetado, siguieron demostrando su eficacia. A pesar de introducir ruido, los modelos siguieron siendo capaces de aprender e identificar patrones óptimos. Aunque la utilización de conjuntos de datos falsos puede considerarse poco convencional, pone de relieve el inmenso potencial de los modelos lingüísticos modernos para crear conjuntos de datos grandes y valiosos para el aprendizaje automático.