IA VALL-E da Microsoft pode simular a voz de qualquer pessoa com apenas três segundos de áudio

O modelo pode até captar as nuances da emoção no seu discurso. Não só pode replicar vozes de forma realista, como também tem algumas aplicações poderosas como a edição de fala, onde as palavras de uma pessoa podem ser alteradas e alteradas a partir de uma transcrição de texto ou criação de conteúdo áudio quando combinadas com outros modelos generativos de IA como o GPT-3.

A Microsoft revelou um novo modelo revolucionário de IA que poderia revolucionar a forma como comunicamos e criamos conteúdo áudio. VALL-E, abreviatura de Voice Adaptive Language Learning Encoder, é um sistema avançado de conversão texto-fala que leva apenas três segundos de áudio para imitar a voz de alguém com uma precisão notável. O modelo pode até captar as nuances da emoção no seu discurso.

Não só pode replicar vozes de forma realista, como também tem algumas aplicações poderosas como a edição de fala, onde as palavras de uma pessoa podem ser alteradas e alteradas a partir de uma transcrição de texto ou criação de conteúdo áudio quando combinadas com outros modelos generativos de IA como o GPT-3. Esta tecnologia pode revelar-se útil em muitos campos diferentes, incluindo entretenimento, jornalismo, serviço ao cliente e muito mais.

IA VALL-E da Microsoft pode simular a voz de qualquer pessoa com apenas três segundos de áudio 1

A Microsoft chama ao VALL-E um “modelo de linguagem de codec neural” porque codifica características vocais num conjunto de vocabulário e utiliza-as para gerar novas vozes a partir do zero. Funciona retirando uma amostra de áudio de entrada de alguém que fala e extraindo as suas características acústicas para criar uma representação individualizada da rede neural chamada “embedding” de altifalante. Esta incorporação do altifalante captura a identidade essencial da voz, incluindo o seu tom, cadência, velocidade, entoação, emoção e pronúncia – tudo isto em apenas três segundos! A partir daí pode ser utilizado para gerar versões sintéticas realistas de qualquer frase ou frase que soe quase indistinguível do orador original.

O potencial desta tecnologia é ilimitado com a sua capacidade de replicar a voz de qualquer pessoa com perfeição, a pedido. Pode melhorar drasticamente o serviço ao cliente, permitindo que os agentes gerados por computador soem como pessoas reais ou ajudem a criar personagens de jogos de vídeo convincentes para que os jogadores se sintam mais imersos na experiência. Pode até ser utilizado para recriar vozes de figuras históricas ou celebridades falecidas para que possam continuar a interagir connosco de alguma forma bem após a sua morte.

Na quinta-feira, os investigadores da Microsoft anunciaram um novo modelo de IA texto-para-fala chamado VALL-E que pode simular de perto a voz de uma pessoa quando lhe é dada uma amostra áudio de três segundos. Uma vez aprendida uma voz específica, VALL-E pode sintetizar áudio dessa pessoa dizendo qualquer coisa, e fazê-lo de uma forma que tente preservar o tom emocional do orador.

IA VALL-E da Microsoft pode simular a voz de qualquer pessoa com apenas três segundos de áudio 2
Cyborg woman with deep space and circuit design background

Os seus criadores especulam que VALL-E poderia ser usado para aplicações de alta qualidade de texto-para-fala, edição de fala onde uma gravação de uma pessoa pode ser editada e alterada a partir de uma transcrição de texto (fazendo-os dizer algo que não diziam originalmente), e criação de conteúdo áudio quando combinado com outros modelos generativos de IA como o GPT-3.

A Microsoft chama ao VALL-E um “modelo de linguagem de codec neural”, e é baseado numa tecnologia chamada EnCodec, que foi anunciada pela Meta em Outubro de 2022. Ao contrário de outros métodos texto-fala, que tipicamente sintetizam a fala através da manipulação de formas de onda, o VALL-E gera códigos de codecs de áudio discretos a partir de mensagens de texto e acústicas. Analisa basicamente como uma pessoa soa, dividindo essa informação em componentes discretos (chamados “Tokens”) graças ao EnCodec, e utilizando dados de treino para corresponder ao que “sabe” sobre como essa voz soaria se falasse outras frases fora da amostra de três segundos. Ou, como a Microsoft o coloca na documentação do VALL-E:

Para sintetizar a fala personalizada, VALL-E gera Tokens acústicos correspondentes condicionadas aos Tokens acústicos de uma gravação de 3 segundos e ao prompt do fonema, que respectivamente limitam a informação do orador e do conteúdo. Finalmente, os Tokens acústicos gerados são utilizados para sintetizar a forma de onda final com um correspondente descodificador de codec neural.

A Microsoft treinou as capacidades de síntese de voz do VALL-E usando uma biblioteca de áudio, montada pela Meta e chamada LibriLight. Esta biblioteca contém 60.000 horas de discurso em língua inglesa de mais de 7.000 falantes, a maior parte das quais obtidas a partir dos audiolivros de domínio público da LibriVox. Para que a VALL-E gere um bom resultado, a voz na amostra de três segundos deve corresponder de perto a uma voz encontrada nos dados de formação.

IA VALL-E da Microsoft pode simular a voz de qualquer pessoa com apenas três segundos de áudio 3

No website VALL-E, a Microsoft fornece dezenas de exemplos de áudio do modelo AI em acção. Entre estes exemplos, o “Speaker Prompt” é um áudio de três segundos fornecido ao VALL-E, que deve imitar. A “Ground Truth” é uma gravação pré-existente desse mesmo orador dizendo uma frase específica para fins de comparação (semelhante ao “controlo” numa experiência). A “Baseline” é um exemplo de síntese a partir de um método convencional de síntese texto-fala, e a amostra “VALL-E” é a saída do modelo VALL-E.

Enquanto utilizavam VALL-E para gerar esses resultados, os investigadores apenas alimentaram uma amostra de três segundos de “Speaker Prompt” e uma cadeia de texto (o que queriam que a voz dissesse) em VALL-E. Portanto, comparando a amostra “Ground Truth” com a amostra “VALL-E”, em alguns casos as duas amostras estão muito próximas. Alguns dos resultados da VALL-E podem parecer gerados por computador, enquanto outros podem ser potencialmente confundidos com o discurso de um humano; este é o objectivo do modelo.

Além de preservar o timbre vocal e o tom emocional de um orador, VALL-E também pode imitar o ambiente acústico da amostra de áudio. Por exemplo, se a amostra provém de uma chamada telefónica, a saída de áudio irá simular as suas propriedades acústicas e de frequência para soar também como uma chamada telefónica. As amostras da Microsoft na secção “Síntese da Diversidade” demonstram que o VALL-E pode gerar variações no tom de voz ao alterar a sua semente aleatória utilizada no processo de geração.

Talvez, devido à capacidade potencial do VALL-E para alimentar a maldade e o engano, a Microsoft não tenha fornecido o código VALL-E para que outros o experimentem, pelo que não fomos capazes de testar as capacidades do VALL-E. Os investigadores parecem estar conscientes dos potenciais danos sociais que esta tecnologia poderia trazer. Na conclusão do seu trabalho, eles escreveram:

“Uma vez que a VALL-E pode sintetizar discurso que mantém a identidade do orador, há potencial para o uso indevido do modelo, tal como a identificação de voz falsa ou a personificação de um orador específico. Para mitigar estes riscos, é possível construir um modelo de detecção para discriminar se um clip de áudio foi sintetizado pela VALL-E. Colocaremos também em prática os Princípios de IA da Microsoft quando desenvolvermos mais os modelos”

Conclusão

Em conclusão, o novo modelo VALL-E AI da Microsoft é um desenvolvimento pioneiro no mundo da IA texto-fala. Ao fornecer à IA uma amostra áudio de três segundos, pode simular de perto a voz de uma pessoa – e fá-lo com precisão e emoção. Com potenciais aplicações de alta qualidade texto-fala e edição de voz, esta nova ferramenta poderia revolucionar a forma como interagimos com a tecnologia. Além disso, quando combinado com outros modelos generativos de IA como GPT-3, VALL-E tem o potencial de criar conteúdo áudio inteiramente novo. À medida que a tecnologia continua a evoluir rapidamente, o AndroidGeek está aqui para fornecer aos leitores todas as últimas notícias, críticas e fugas de informação sobre estes avanços – para que esteja sempre actualizado com a tecnologia mais avançada. Entretanto, continue a verificar mais actualizações sobre os desenvolvimentos da IA da Microsoft que certamente irão moldar o nosso futuro digital.

Leiam as últimas notícias do mundo da tecnologia no Google News , Facebook  e Twitter e também no nosso Grupo de Telegram
Todos os dias vos trazemos dezenas de notícias sobre o mundo Android em Português. Sigam-nos no Google Notícias. Cliquem aqui e depois em Seguir. Obrigado!