| Foto: /Bigstock

Você pode estudar quatro anos de alemão para tirar proveito total de uma viagem a Alemanha. Talvez mais dois anos de francês, caso queira pedir seu escargot com estilo em um bistrô de Paris. Ou, simplesmente, gastar cerca de US$ 200 (R$ 640) em um tradutor simultâneo como o The Pilot, aparelho que usa fones de ouvido conectados ao smartphone e que promete poupar seu tempo em salas de aula. Foi com essa promessa que a Waverly Labs conseguiu um financiamento de mais de US$ 3 milhões para comercializar o gadget, que chega às lojas em 2017. Assim como ele, outros aparelhos portáteis que dizem reconhecer a voz humana, processá-la e traduzi-la, como o Logbar, começam a pipocar no universo tech.

CARREGANDO :)

Tais produtos ainda são vistos com desconfiança. Afinal, quem já usou uma ferramenta como Google Tradutor sabe que, embora muito úteis, os sistemas de tradução não são 100% confiáveis – às vezes transformam um parágrafo em uma passagem quase nonsense. Não tardará para mudar, defendem muitos especialistas. Entre eles, Alec Ross, ex-conselheiro sênior para inovação da Secretaria de Estado dos Estados Unidos e autor do livro “The Industries of the Future” [“As indústrias do futuro”, em tradução livre]. Em um artigo publicado no Wall Street Journal, ele cravou: “em 10 anos, todos conseguirão conversar em uma dúzia de idiomas, acabando com o conceito de ‘barreira da língua’”.

Ross acredita que a precisão de tais ferramentas se desenvolverá com seu uso – é que estes sistemas aprendem sozinhos, um conceito chamado de “aprendizado de máquina”. “As inovações mais interessantes se darão no desenvolvimento de hardwares para a interface humana. Em uma década, um pequeno ponto vai soprar em sua orelha em tempo real, em sua língua nativa, aquilo que está sendo dito em um idioma estrangeiro. O tempo que esta conversão levará é a velocidade do som”, disse Ross. É quase um descritivo do The Pilot...

Publicidade

“Em uma década, um pequeno ponto vai soprar em sua orelha em tempo real, em sua língua nativa, aquilo que está sendo dito em um idioma estrangeiro.”

Alec Ross  ex-conselheiro sênior para inovação da Secretaria de Estado dos Estados Unidos e autor do livro “The Industries of the Future”

Reconhecimento de voz

Mas ainda existem muitos desafios, pondera um interessante estudo do grupo Pearson, um dos maiores do mundo na área educacional. O relatório ouviu acadêmicos e especialistas no ensino de línguas, como Scott Thornburry e Katherine Nielson. “Pode-se chegar eventualmente a um estágio onde as melhoras [na interpretação de dados] sejam exponenciais, a um ponto onde o céu é o limite! Todavia, há áreas onde é difícil imaginar que a máquina não vá se comportar como... uma máquina. Sua limitação mais séria é a falta de habilidade em interpretar nuances como sarcasmo, humor, ironia e até mesmo a expressar tratos como empatia”, descreveu o estudo.

É uma realidade. Mas que, talvez, esteja na curva de mudança. No fim de outubro, a Microsoft anunciou que seu algoritmo de reconhecimento de voz superou, pela primeira vez, a habilidade humana de reconhecer as palavras e, surpreendentemente, intenções – um avanço que o MIT (o Instituto de Tecnologia de Massachusetts) comparou a outros marcos no desenvolvimento de sistemas inteligentes, como a vitória de um computador no jogo Go e no torneio de perguntas e respostas Jeopardy!.

Foi um longo caminho. Há pouco mais de 50 anos, um computador era capaz de reconhecer apenas 10 palavras. Nos anos 1990, um software conseguiu transcrever com perfeição um artigo do Wall Street Journal ditado por uma pessoa. Porém, as conversas na vida real são bem diferentes de um artigo de jornal, em que as frases são escritas em normas gramaticais corretas, em ordem clara, sem interrupções. Um “hu-hum”, por exemplo, significa que você concorda com o interlocutor e quer que ele prossiga; um “hum” pode ser indicativo de dúvida. É justamente nestes papos de nuances sutis que os algoritmos tropeçam – e foi aí que a equipe de Geoff Zweig se concentrou.

Publicidade

A equipe da Microsoft enviou uma série de conversas via telefone para que uma equipe profissional (de pessoas) transcrevesse. A taxa de erro foi de 5,9% em conversas sobre um tópico determinado e 11,3% quando a conversa era entre pessoas amigas e família e sem tema pré-definido – ou seja, a cada 100 palavras, os humanos erravam 5,9 no primeiro caso e 11,3 no segundo. Quando a tarefa ficou a cargo do software, o número de erros foi similar no primeiro tipo de conversa. Mas, surpreendentemente, menor no segundo caso, a conversa entre amigos/família: 11,3%.

“Pela primeira vez podemos noticiar que o reconhecimento automático de teve uma performance que se iguala à humana nesta tarefa”, disse Zweig no relatório com o resultado do teste.

Ambiente e tradução

Não é o único desafio. As conversas humanas cara a cara não são tão perfeitas quanto uma ligação telefônica. De novo, a Microsoft parece ter a solução. Um estudo da empresa mostra que o reconhecimento de voz diminui à medida que o som ambiente interfere na voz principal – ou seja, seria impraticável usar um tradutor em um restaurante. A solução talvez esteja no VocalZoom, o sistema da empresa que combina o reconhecimento de voz com a leitura de dados da face do interlocutor – ou seja, lê também os lábios, algo que é natural para os humanos (mesmo que não percebamos), conhecido como Efeito MgGurk.

A Microsoft tem embutido este sistema em wearables, dispositivo vestíveis, com lentes capazes de focar a uma distância de centímetros a metros, na sua versão mais avançada.

Publicidade

Reconhecer as palavras é só o primeiro passo. Acertar a tradução e o segundo. E o Google, que tem a ferramenta mais usada do mundo, pretende resolver os problemas de precisão em pouco tempo. Em setembro, a empresa anunciou uma mudança substancial em como faz as traduções de texto. Em vez de usar um método que quebra a frase em pequenas porções, um sistema chamado de Phrase-Based Machine Translation (PBMT), a gigante está investindo cada vez mais em outro, chamado Neural Machine Translation (NMT), que considera a sentença completa. Nos testes, tal sistema teve uma acuidade superior ao outro – ambos ainda abaixo da capacidade humana, no entanto.

“A tradução das máquinas ainda não está resolvida. Google NMT ainda comete erros significantes que humanos nunca cometeriam, como pular palavras ou traduzir erroneamente nomes próprios e termos raros, e traduzir frases isoladamente em vez de considerar o contexto”, descreve a empresa no relatório sobre os avanços de sua ferramenta.

Vai valer a pena?

O caminho parece aberto para a queda da Torre de Babel. Mas em que nível isso se dará está longe de consenso. “É verdade que os aplicativos de tradução simultânea vão ajudar os viajantes e turistas nas trocas linguísticas básicas sem que se precise de muitas aulas antes. Mas este não é um grupo particularmente significante dos alunos de línguas. As pessoas tendem a aprendê-las para outras razões além do lazer, e os professores ainda serão requisitados para os outros tipos de estudantes, que estão aprendendo o idioma porque precisam. Por exemplo, para entrar em uma universidade, conseguir um emprego ou progredir na carreira. Há claramente muitas vantagens em saber se comunicar, persuadir, negociar e colaborar em outra língua. Habilidades que os humanos são superiores quando comparados com as máquinas. Por enquanto, pelo menos, os estudantes precisarão de professores”, defende a Pearson.

“É difícil imaginar sentar-se em um restaurante no Sul da França e conversar com um local pelo seu smartphone. O telefone será útil para pedir uma bebida, mas depois disso, você provavelmente gostará de falar como um humano.”

Relatório da Pearson “Fact or Fiction”

O relatório também descreve uma motivação bem mais subjetiva. “É difícil imaginar sentar-se em um restaurante no Sul da França e conversar com um local pelo seu smartphone. O telefone será útil para pedir uma bebida, mas depois disso, você provavelmente gostará de falar como um humano. Aprender uma língua será provavelmente a melhor forma de se conectar com as pessoas em um nível mais profundo, além do puramente transacional”.

Publicidade

Para Alec Ross, vale o risco. Do ponto de vista econômico, por exemplo, “os benefícios destas novas tecnologias são óbvios. As máquinas de tradução vão pegar mercados vistos hoje como difíceis e abri-los. Pegue um lugar como a Indonésia. Há muitas pessoas fluentes em inglês, mandarim ou francês em Jacarta e Bali, mas poucas nas outras 6 mil ilhas quase inabitadas. Se você não precisar ser fluente em javanês para fazer negócios nestas províncias, então elas se tornam mais acessíveis e o capital estrangeiro se torna mais acessível para elas”, escreveu.