O novo modelo de linguagem do Microsoft Vall-E Você pode imitar qualquer voz com apenas uma gravação de amostra de três segundos.
A ferramenta AI lançada recentemente foi testada em 60.000 horas de dados de fala em inglês. Os pesquisadores disseram em um artigo da Cornell University que ele poderia replicar as emoções e o tom de um falante.
Essas descobertas foram aparentemente verdadeiras mesmo ao criar uma gravação de palavras que o orador original nunca disse.
“O Vall-E oferece recursos de aprendizado em contexto e pode ser usado para sintetizar fala personalizada de alta qualidade com apenas uma gravação gravada de 3 segundos de um alto-falante invisível como um aviso acústico. Os resultados dos experimentos mostram que o Vall-E supera significativamente o Zero-Shot de última geração [text to speech] sistema em termos de naturalidade da fala e similaridade do locutor”, escreveram os autores. “Além disso, descobrimos que o Vall-E pode preservar a emoção do locutor e o ambiente acústico da mensagem acústica em síntese.”
ANDROID SPYWARE ATACA INSTITUIÇÕES FINANCEIRAS E SEU DINHEIRO DE NOVO
amostras de Vall-E Os compartilhados no GitHub são estranhamente semelhantes aos prompts do alto-falante, embora variem em qualidade.
Em uma frase sintetizada do banco de dados de vozes emocionais, Vall-E diz sonolento a frase: “Temos que reduzir a quantidade de sacolas plásticas”.
PERSONAGENS DA DISNEY CHEGAM À AMAZON ALEXA COM O COMANDO ‘HEY DISNEY’
No entanto, pesquisas em IA de conversão de texto em fala ele vem com um aviso.
“Como o Vall-E foi capaz de sintetizar a fala que mantém a identidade do locutor, ele pode carregam riscos potenciais no uso indevido do modelo, como forjar identificação de voz ou personificar um falante específico”, dizem os pesquisadores nessa página da web. “Realizamos os experimentos assumindo que o usuário concorda em ser o orador-alvo na síntese de fala. Quando o modelo é generalizado para alto-falantes invisíveis no mundo real, ele deve incluir um protocolo para garantir que o alto-falante aprove o uso de sua voz e um modelo para detecção de fala sintetizada.”
CLIQUE AQUI PARA BAIXAR O APLICATIVO FOX NEWS
No momento, o Vall-E, que a Microsoft chama de “modelo de linguagem de codec neural”, não está disponível publicamente.