Translatotron do Google converte um idioma falado para outro, sem texto envolvido

Todos os dias nos aproximamos um pouco mais do famoso e presenciente peixe Babel de Douglas Adams. Um novo projeto de pesquisa do Google leva sentenças faladas em um idioma e produz palavras faladas em outro – mas, diferentemente da maioria das técnicas de tradução, não usa texto intermediário, trabalhando apenas com o áudio. Isso faz com que seja rápido, mas, mais importante, permite que reflita mais facilmente a cadência e o tom da voz do interlocutor.

Translatotron , como o projeto é chamado, é a culminação de vários anos de trabalho relacionado, embora ainda seja um experimento. Pesquisadores do Google, e outros, têm estudado a possibilidade de tradução direta de fala em fala por anos, mas só recentemente esses esforços deram frutos que merecem ser colhidos.

A conversão de fala normalmente é feita dividindo-se o problema em menores sequenciais: transformando o discurso de origem em texto (fala-para-texto ou STT), transformando texto em um idioma em texto em outro (tradução automática) e, em seguida, texto resultante de volta ao discurso (text-to-speech ou TTS). Isso funciona muito bem, na verdade, mas não é perfeito; Cada etapa tem tipos de erros com os quais é propenso, e estes podem compor um ao outro.

Além disso, não é realmente como as pessoas multilíngües traduzem em suas próprias cabeças, como sugere o testemunho sobre seus próprios processos de pensamento. Como exatamente isso funciona é impossível dizer com certeza, mas poucos diriam que eles decompõem o texto e o visualizam mudando para um novo idioma, depois lêem o novo texto. A cognição humana é freqüentemente um guia de como avançar algoritmos de aprendizado de máquina.

Espectrogramas de fonte e fala traduzida. A tradução, vamos admitir, não é a melhor. Mas soa melhor!

Para esse fim, os pesquisadores começaram a investigar a conversão de espectrogramas, detalhados desdobramentos de freqüência de áudio, de fala em um idioma diretamente para espectrogramas em outro. Este é um processo muito diferente do dos três passos, e tem suas próprias fraquezas, mas também tem vantagens.

Uma é que, embora complexa, é essencialmente um processo de etapa única em vez de multi-etapas, o que significa que, supondo que você tenha poder de processamento suficiente, o Translatotron poderia funcionar mais rapidamente. Mas, o que é mais importante para muitos, o processo torna fácil manter o caráter da voz de origem, de modo que a tradução não sai de forma robotizada, mas com o tom e a cadência da frase original.

Naturalmente, isso tem um impacto enorme na expressão, e alguém que confia na tradução ou na síntese da voz regularmente perceberá que não apenas o que dizem chega, mas como o diz. É difícil exagerar o quanto isso é importante para usuários regulares de fala sintética.

A precisão da tradução, admitem os pesquisadores, não é tão boa quanto os sistemas tradicionais, que tiveram mais tempo para aprimorar sua precisão. Mas muitas das traduções resultantes são (pelo menos parcialmente) muito boas, e poder incluir a expressão é uma vantagem muito grande para deixar passar. No final, a equipe descreve modestamente seu trabalho como um ponto de partida para demonstrar a viabilidade da abordagem, embora seja fácil ver que ela também é um importante passo em frente em um domínio importante.

O artigo descrevendo a nova técnica foi publicado no Arxiv , e você pode procurar amostras de fala, da fonte à tradução tradicional para o Translatotron, nesta página . Esteja ciente de que estes não são todos selecionados pela qualidade de sua tradução, mas servem mais como exemplos de como o sistema retém a expressão enquanto obtém a essência do significado.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Verifique também

Fechar
Botão Voltar ao topo