Meta lança IA generativa para criar música e sons • The Register

A Meta lançou na quarta-feira o AudioCraft, um conjunto de três modelos de IA capazes de criar som automaticamente a partir de descrições de texto.

À medida que os modelos generativos de IA que recebem instruções escritas e as transformam em imagens ou mais texto continuam a amadurecer, os cientistas da computação estão procurando criar outras formas de mídia usando aprendizado de máquina.

O áudio é difícil para os sistemas de IA, especialmente a música, uma vez que o software tem que aprender a produzir padrões coerentes ao longo de vários minutos e ser criativo o suficiente para gerar algo cativante ou agradável de ouvir.

“Uma faixa musical típica de alguns minutos amostrada em 44,1 kHz (que é a qualidade padrão das gravações musicais) consiste em milhões de passos de tempo”, explicou Team Meta. Ou seja, um modelo de geração de áudio precisa produzir muitos dados para construir uma faixa amigável ao ser humano.

"Em comparação, modelos generativos baseados em texto, como Llama e Llama 2, são alimentados com texto processado como subpalavras que representam apenas alguns milhares de passos de tempo por amostra."

A gigante do Facebook prevê que as pessoas usem o AudioCraft para experimentar a produção de sons gerados por computador sem precisar aprender a tocar nenhum instrumento. O kit de ferramentas é composto por três modelos: MusicGen, AudioGen e EnCodec.

MusicGen foi treinado em 20.000 horas de gravações, de propriedade ou licenciadas pela Meta, juntamente com as descrições de texto correspondentes. A AudioGen está mais focada na geração de efeitos sonoros do que em música e foi treinada com base em dados públicos. Finalmente, o EnCodec é descrito como um codec neural com perdas que pode compactar e descompactar sinais de áudio com alta fidelidade.

Meta disse que era AudioCraft de "código aberto", e até certo ponto. O software necessário para criar e treinar os modelos e executar inferências está disponível sob uma licença de código aberto do MIT. O código pode ser usado em aplicações gratuitas (como em liberdade e cerveja grátis) e comerciais, bem como em projetos de pesquisa.

Dito isto, os pesos do modelo não são de código aberto. Eles são compartilhados sob uma licença Creative Commons que proíbe especificamente o uso comercial. Como vimos no Llama 2, sempre que Meta fala sobre coisas de código aberto, verifique as letras miúdas.

MusicGen e AudioGen geram sons a partir de um prompt de entrada de texto. Você pode ouvir clipes curtos criados a partir das descrições “assobiando com o vento soprando” e “faixa de dança pop com melodias cativantes, percussão tropical e ritmos animados, perfeitos para a praia” na página inicial do AudioCraft da Meta, aqui.

Os efeitos sonoros curtos são realistas, embora os parecidos com música não sejam bons em nossa opinião. Eles soam como jingles repetitivos e genéricos para músicas ruins ou músicas de elevador, em vez de singles de sucesso.

Pesquisadores da Meta disseram que o AudioGen – descrito em detalhes aqui – foi treinado convertendo áudio bruto em uma sequência de tokens e reconstruindo a entrada transformando-os novamente em áudio em alta fidelidade. Um modelo de linguagem mapeia trechos do prompt de texto de entrada para os tokens de áudio para aprender a correlação entre palavras e sons. MusicGen foi treinado usando um processo semelhante em amostras de música, em vez de efeitos sonoros.

"Em vez de manter o trabalho como uma caixa preta impenetrável, ser aberto sobre como desenvolvemos esses modelos e garantir que eles sejam fáceis de usar pelas pessoas - sejam pesquisadores ou a comunidade musical como um todo - ajuda as pessoas a entender o que esses modelos podem fazer, entender o que eles não podem fazer e ter autonomia para realmente usá-los", argumentou Team Meta.

"No futuro, a IA generativa poderá ajudar as pessoas a melhorar enormemente o tempo de iteração, permitindo-lhes obter feedback mais rapidamente durante os estágios iniciais de prototipagem e caixa cinza - sejam eles um grande desenvolvedor construindo mundos para o metaverso, um músico (amador, profissional ou caso contrário) trabalhando em sua próxima composição, ou um proprietário de empresa de pequeno ou médio porte que busca aprimorar seus ativos criativos."

Você pode obter o código AudioCraft aqui e experimentar o MusicGen aqui e experimentá-lo. ®

Envie-nos novidades