Esta nova IA pode simular sua voz a partir de apenas 3 segundos de áudio

O novo modelo de linguagem do Microsoft Vall-E Você pode imitar qualquer voz com apenas uma gravação de amostra de três segundos.

A ferramenta AI lançada recentemente foi testada em 60.000 horas de dados de fala em inglês. Os pesquisadores disseram em um artigo da Cornell University que ele poderia replicar as emoções e o tom de um falante.

Essas descobertas foram aparentemente verdadeiras mesmo ao criar uma gravação de palavras que o orador original nunca disse.

“O Vall-E oferece recursos de aprendizado em contexto e pode ser usado para sintetizar fala personalizada de alta qualidade com apenas uma gravação gravada de 3 segundos de um alto-falante invisível como um aviso acústico. Os resultados dos experimentos mostram que o Vall-E supera significativamente o Zero-Shot de última geração [text to speech] sistema em termos de naturalidade da fala e similaridade do locutor”, escreveram os autores. “Além disso, descobrimos que o Vall-E pode preservar a emoção do locutor e o ambiente acústico da mensagem acústica em síntese.”

ANDROID SPYWARE ATACA INSTITUIÇÕES FINANCEIRAS E SEU DINHEIRO DE NOVO

A sinalização do estande da Microsoft Corporation é exibida na CES 2023 no Las Vegas Convention Center em 6 de janeiro de 2023 em Las Vegas, Nevada.
((Foto de David Becker/Getty Images))

amostras de Vall-E Os compartilhados no GitHub são estranhamente semelhantes aos prompts do alto-falante, embora variem em qualidade.

Em uma frase sintetizada do banco de dados de vozes emocionais, Vall-E diz sonolento a frase: “Temos que reduzir a quantidade de sacolas plásticas”.

PERSONAGENS DA DISNEY CHEGAM À AMAZON ALEXA COM O COMANDO ‘HEY DISNEY’

O novo modelo de linguagem da Microsoft, Vall-E, pode imitar qualquer voz usando apenas uma gravação de amostra de três segundos.
(iStock)

No entanto, pesquisas em IA de conversão de texto em fala ele vem com um aviso.

“Como o Vall-E foi capaz de sintetizar a fala que mantém a identidade do locutor, ele pode carregam riscos potenciais no uso indevido do modelo, como forjar identificação de voz ou personificar um falante específico”, dizem os pesquisadores nessa página da web. “Realizamos os experimentos assumindo que o usuário concorda em ser o orador-alvo na síntese de fala. Quando o modelo é generalizado para alto-falantes invisíveis no mundo real, ele deve incluir um protocolo para garantir que o alto-falante aprove o uso de sua voz e um modelo para detecção de fala sintetizada.”

Sinalização corporativa da Microsoft Corp no Microsoft India Development Center em Noida, Índia, na sexta-feira, 11 de novembro de 2022.
(Fotógrafo: Prakash Singh/Bloomberg via Getty Images)

CLIQUE AQUI PARA BAIXAR O APLICATIVO FOX NEWS

No momento, o Vall-E, que a Microsoft chama de “modelo de linguagem de codec neural”, não está disponível publicamente.

Julia Musto é repórter da Fox News e Fox Business Digital.