Na quinta-feira, pesquisadores da Microsoft anunciaram um novo modelo de IA de conversão de texto em fala chamado VALLEY-E que pode simular de perto a voz de uma pessoa quando recebe uma amostra de áudio de três segundos. Depois de aprender uma voz específica, o VALL-E pode sintetizar o áudio dessa pessoa dizendo qualquer coisa e fazê-lo de forma a preservar o tom emocional do locutor.
Seus criadores especulam que o VALL-E pode ser usado para aplicativos de conversão de texto em fala de alta qualidade, edição de voz em que a gravação de uma pessoa pode ser editada e alterada de uma transcrição de texto (fazendo-a dizer algo que não disse originalmente) e criação de conteúdo de áudio quando combinado com outros modelos generativos de IA, como GPT-3.
A Microsoft chama VALL-E de “modelo de linguagem de codec neural” e é baseado em uma tecnologia chamada EnCodec, que meta anunciou em outubro de 2022. Ao contrário de outros métodos de conversão de texto em fala que normalmente sintetizam a fala por meio da manipulação da forma de onda, o VALL-E gera códigos de codec de áudio discretos a partir de mensagens de texto e acústicas. Basicamente, ele analisa como uma pessoa soa, divide essa informação em componentes discretos (chamados “tokens”) graças ao EnCodec e usa dados de treinamento para comparar o que “sabe” sobre como essa voz soaria se fosse pronunciada além dos três frases. -segunda amostra. Ou, como diz a Microsoft no papel VAL-E:
Para sintetizar a fala personalizada (por exemplo, TTS de disparo zero), o VALL-E gera os tokens acústicos correspondentes condicionados pelos tokens acústicos da gravação de 3 segundos inscrita e o indicador de fonema, que restringem as informações do locutor e o conteúdo, respectivamente . Finalmente, os tokens acústicos gerados são usados para sintetizar a forma de onda final com o decodificador codec neural correspondente.
A Microsoft treinou os recursos de síntese de fala do VALL-E em uma biblioteca de áudio, montada pela Meta, chamada LibriLightName. Contém 60.000 horas de fala em inglês de mais de 7.000 falantes, principalmente provenientes de LibriVoxName audiolivros de domínio público. Para VALL-E gerar um bom resultado, a voz na amostra de três segundos deve corresponder de perto a uma voz nos dados de treinamento.
no VAL-E site de exemplo, a Microsoft fornece dezenas de exemplos de áudio do modelo de IA em ação. Entre as amostras, o “Speaker Prompt” é o áudio de três segundos fornecido ao VALL-E que ele deve imitar. A “Verdade Básica” é uma gravação pré-existente do mesmo falante dizendo uma frase específica para fins de comparação (mais ou menos como o “controle” no experimento). A “linha de base” é um exemplo de síntese fornecida por um método convencional de síntese de texto para fala, e a amostra “VALL-E” é o resultado do modelo VALL-E.
Ao usar o VALL-E para gerar esses resultados, os pesquisadores apenas alimentaram o VALL-E com uma amostra de três segundos do “Speaker Prompt” e uma sequência de texto (o que eles queriam que a voz dissesse). Portanto, compare a amostra “Ground Truth” com a amostra “VALL-E”. Em alguns casos, as duas amostras são muito próximas. Alguns resultados do VALL-E parecem ser gerados por computador, mas outros podem ser confundidos com a fala humana, que é o objetivo do modelo.
Além de preservar o timbre vocal e o tom emocional do alto-falante, o VALL-E também pode imitar o “ambiente acústico” do áudio amostrado. Por exemplo, se a amostra for de uma chamada telefônica, a saída de áudio simulará as propriedades acústicas e de frequência de uma chamada telefônica em sua saída sintetizada (essa é uma maneira sofisticada de dizer que também soará como uma chamada telefônica). e a Microsoft amostras (na seção “Síntese da Diversidade”) demonstram que o VALL-E pode gerar variações no tom da voz alterando a semente aleatória usada no processo de geração.
Talvez devido à capacidade do VALL-E de alimentar travessuras e enganos, a Microsoft não forneceu o código VALL-E para outros experimentarem, portanto, não pudemos testar os recursos do VALL-E. Os pesquisadores parecem estar cientes do potencial dano social que essa tecnologia pode trazer. Para concluir o artigo, eles escrevem:
“Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, pode haver riscos potenciais no uso indevido do modelo, como falsificar a identificação de voz ou personificar um locutor específico. Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado por VALL-E. Princípios de IA da Microsoft na prática quando os modelos são desenvolvidos.