Como Henry Higgins, o fonético de “Pygmalion” de George Bernard Shaw, Marius Cotescu e Georgi Tinchev demonstraram recentemente como seu aluno estava tentando superar as dificuldades de pronúncia.
Os dois cientistas de dados, que trabalham para a Amazon na Europa, estavam ensinando Alexa, a assistente digital da empresa. Sua tarefa: ajudar Alexa a dominar o inglês com sotaque irlandês com a ajuda de inteligência artificial e gravações de falantes nativos.
Durante a demonstração, Alexa falou sobre uma noite memorável. “A festa ontem à noite foi muito divertida”, disse Alexa em tom de voz, usando a palavra irlandesa para diversão. “Tomamos sorvete a caminho de casa e ficamos felizes.”
O Sr. Tinchev balançou a cabeça. Alexa deixou cair o “r” em “festa”, fazendo a palavra soar monótona, como pah-tee. Britânico demais, concluiu.
Os tecnólogos fazem parte de uma equipe da Amazon que trabalha em uma área desafiadora da ciência de dados conhecida como desemaranhamento de voz. É um tópico complicado que ganhou nova relevância em meio a uma onda de desenvolvimentos de IA, com os pesquisadores acreditando que o quebra-cabeça da fala e da tecnologia pode ajudar a tornar os dispositivos, bots e sintetizadores de fala baseados em IA mais conversacionais, ou seja, capazes de alcançar uma infinidade de regionais. acentos
Lidar com o desembaraço da voz envolve muito mais do que entender o vocabulário e a sintaxe. O tom, o timbre e o sotaque do orador muitas vezes dão às palavras um significado matizado e um peso emocional. Os linguistas chamam esse recurso da linguagem de “prosódia”, algo que as máquinas tiveram dificuldade em dominar.
Somente nos últimos anos, graças aos avanços em IA, chips de computador e outros hardwares, os pesquisadores fizeram avanços na solução do problema da revelação da voz, transformando a fala gerada por computador em algo mais agradável ao ouvido.
Esse trabalho pode eventualmente convergir com uma explosão de “IA generativa”, uma tecnologia que permite que os chatbots gerem suas próprias respostas, disseram os pesquisadores. Chatbots como ChatGPT e Bard podem um dia agir totalmente nos comandos de voz dos usuários e responder verbalmente. Ao mesmo tempo, assistentes de voz como Alexa e Siri, da Apple, se tornarão mais conversacionais, potencialmente reacendendo o interesse do consumidor em um segmento de tecnologia que aparentemente estagnou, disseram analistas.
Conseguir que assistentes de voz como Alexa, Siri e Google Assistant falem vários idiomas tem sido um processo caro e demorado. As empresas de tecnologia contrataram dubladores para gravar centenas de horas de fala, ajudando a criar vozes sintéticas para assistentes digitais. Sistemas avançados de inteligência artificial conhecidos como “modelos de conversão de texto em fala” porque convertem texto em fala sintética com som natural. estão começando a simplificar Este processo.
A tecnologia “agora pode criar uma voz humana e áudio sintético com base na entrada de texto, em diferentes idiomas, sotaques e dialetos”, disse Marion Laboure, estrategista sênior do Deutsche Bank Research.
A Amazon está sob pressão para alcançar rivais como Microsoft e Google na corrida da IA. Em abril, Andy Jassy, CEO da Amazon, disse a analistas de Wall Street que a empresa planejava tornar a Alexa “ainda mais proativa e conversacional” com a ajuda de IA generativa sofisticada e Rohit Prasad, cientista-chefe da Amazon para Alexa, disse à CNBC em maio, que viu o assistente de voz como uma “IA pessoal instantaneamente disponível” ativada por voz
A irlandesa Alexa fez sua estreia comercial em novembro, após nove meses de treinamento para entender e depois falar o sotaque irlandês.
“O sotaque é diferente do idioma”, disse Prasad em uma entrevista. As tecnologias de IA devem aprender a separar o sotaque de outras partes do discurso, como tom e frequência, antes que possam replicar as peculiaridades dos dialetos locais; por exemplo, talvez o “a” seja mais plano e o “t” seja pronunciado com mais força.
Esses sistemas precisam descobrir esses padrões “para que você possa sintetizar um sotaque totalmente novo”, disse ele. “Isso é difícil.”
Ainda mais difícil foi tentar fazer com que a tecnologia aprendesse um novo sotaque por conta própria, a partir de um padrão de fala com som diferente. Foi isso que a equipe de Cotescu tentou ao construir a Irish Alexa. Eles se basearam fortemente em um padrão de fala existente principalmente com sotaques britânico-inglês, com uma variedade muito menor de sotaques americanos, canadenses e australianos, para treinar você a falar inglês irlandês.
A equipe enfrentou vários desafios de idioma do inglês irlandês. Os irlandeses tendem a colocar o “h” no “th”, por exemplo, pronunciando as letras como um “t” ou “d” forte, fazendo “banho” soar como “morcego” ou mesmo “ruim”. O inglês irlandês também é rhotic, o que significa que o “r” é pronunciado demais. Isso significa que o “r” em “festa” será mais diferente do que você pode ouvir da boca de um londrino. Alexa teve que aprender esses recursos de fala e dominá-los.
O inglês irlandês, disse Cotescu, que é romeno e foi o principal pesquisador da equipe irlandesa Alexa, “é difícil”.
Os modelos de voz que impulsionam as habilidades verbais de Alexa tornaram-se mais avançados nos últimos anos. Em 2020, pesquisadores da Amazon ensinaram Alexa fala espanhol fluentemente de um modelo de língua inglesa.
O Sr. Cotescu e a equipe viram os sotaques como a próxima fronteira dos recursos de voz do Alexa. Eles projetaram o Alexa irlandês para confiar mais na IA do que nos atores para construir seu modelo de voz. Como resultado, a Alexa irlandesa foi treinada em um corpus relativamente pequeno: cerca de 24 horas de gravações feitas por dubladores recitando 2.000 expressões em inglês com sotaque irlandês.
No início, quando os pesquisadores da Amazon enviaram as gravações irlandesas para o Alexa irlandês ainda aprendendo, algumas coisas estranhas aconteceram.
Ocasionalmente, letras e sílabas escapavam da resposta. Os “S” às vezes são colados. Uma ou duas palavras, às vezes cruciais, foram murmuradas de forma inexplicável e incompreensível. Em pelo menos um caso, a voz feminina de Alexa caiu algumas oitavas, soando mais masculina. Pior ainda, a voz masculina soava distintamente britânica, o tipo de bobagem que poderia virar a cabeça em alguns lares irlandeses.
“Eles são grandes caixas pretas”, disse Tinchev, um cidadão búlgaro que é o principal cientista da Amazon no projeto, sobre os modelos de fala. “Você tem que ter muita experimentação para ajustá-los.”
Foi isso que os técnicos fizeram para consertar o bug da “festa” do Alexa. Eles desembaraçaram a fala, palavra por palavra, fonema (a menor parte de uma palavra audível) por fonema para identificar onde o Alexa estava escorregando e ajustá-lo. Eles então alimentaram o modelo de voz irlandês Alexa com mais dados de voz gravados para corrigir a pronúncia incorreta.
O resultado: o “r” em “match” voltou. Mas então o “p” desapareceu.
Assim, os cientistas de dados passaram pelo mesmo processo novamente. Por fim, eles se concentraram no fonema que continha o “p” ausente. Eles então ajustaram ainda mais o modelo para que o som “p” voltasse e o “r” não desaparecesse. Alexa estava finalmente aprendendo a falar como uma dublinense.
Duas linguistas irlandesas, Elaine Vaughan, que ensina na Universidade de Limerick, e Kate Tallon, uma estudante de doutorado que trabalha no Laboratório de Fonética e Fala do Trinity College Dublin, deram notas altas ao sotaque irlandês de Alexa. A maneira como a Alexa irlandesa enfatizou os “r’s” e os “t’s” suavizados se destacou, disseram eles, e a Amazon entendeu bem o sotaque.
“Parece autêntico para mim”, disse Tallon.
Os pesquisadores da Amazon disseram que ficaram satisfeitos com o feedback amplamente positivo. O fato de seus modelos de fala terem desembaraçado o sotaque irlandês tão rapidamente deu a eles esperança de que poderiam replicar os sotaques em outros lugares.
“Também planejamos estender nossa metodologia para sotaques de outros idiomas além do inglês”, escreveram em um comunicado. trabalho de pesquisa de janeiro sobre o projeto irlandês Alexa.