Home / Tecnologia / O que há de tão bom nos “óculos de tradução” do Google?

O que há de tão bom nos “óculos de tradução” do Google?

Fonte: Rafael Romer | 23 de Maio de 2022 às 16h05

Este é o Google Glass, mas desta vez socialmente aceitável – e pode abrir muitas portas de Realidade Aumentada (AR)

O Google fez um teaser com os óculos de tradução na conferência para desenvolvedores do Google I/O, prometendo que um dia você poderá conversar com alguém falando em um idioma estrangeiro e ver a tradução em inglês em seus óculos.

Executivos da empresa demonstraram os óculos em um vídeo; ele mostrava não apenas “closed captioning” – texto em tempo real que soletra no mesmo idioma o que outra pessoa está dizendo – mas também tradução de e para inglês e mandarim ou espanhol, permitindo que pessoas que falam dois idiomas diferentes mantenham uma conversa enquanto também permite que os usuários com deficiência auditiva vejam o que os outros estão dizendo a eles.

Como hardware do Google Tradutor, os óculos resolveriam um grande problema com o uso do Google Tradutor, que é: se você usa tradução de áudio, o áudio da tradução é executado na conversa em tempo real. Ao apresentar a tradução visualmente, você pode acompanhar as conversas com muito mais facilidade e naturalidade.

Ao contrário do Google Glass, o protótipo dos óculos de tradução também é realidade aumentada (AR). Deixe-me explicar o que quero dizer.

A realidade aumentada acontece quando um dispositivo captura dados do mundo e, com base no reconhecimento do que esses dados significam, adiciona informações a ele que estão disponíveis para o usuário.

O Google Glass não era Realidade Aumentada – era uma tela de heads-up. A única consciência contextual ou ambiental com a qual poderia lidar era a localização. Com base na localização, pode fornecer instruções passo a passo ou lembretes com base na localização. Mas normalmente não poderia coletar dados visuais ou de áudio e, em seguida, retornar ao usuário informações sobre o que ele estava vendo ou ouvindo.

Os óculos de tradução do Google são, de fato, AR, essencialmente pegando dados de áudio do ambiente e retornando ao usuário uma transcrição do que está sendo dito no idioma de sua escolha.

Os membros da audiência e a imprensa técnica relataram a função de tradução como o aplicativo exclusivo para esses óculos sem qualquer exploração analítica ou crítica, até onde eu sabia. O fato mais gritante que deveria ter sido mencionado em todos os relatórios é que a tradução é apenas uma escolha arbitrária para processar dados de áudio na nuvem. Há muito mais que os óculos podem fazer!

Eles podem processar facilmente qualquer áudio para qualquer aplicativo e retornar qualquer texto ou áudio para ser consumido pelo usuário. Isso não é óbvio?

Na realidade, o hardware envia ruído para a nuvem e exibe qualquer texto que a nuvem envie de volta. Isso é tudo que os óculos fazem. Enviar ruído. Receber e exibir texto.

As aplicações para processamento de áudio e retorno de informações contextuais acionáveis ou informativas são praticamente ilimitadas. Os óculos podem enviar qualquer ruído e exibir qualquer texto retornado do aplicativo remoto.

O ruído pode até ser codificado, como um modem antigo. Um dispositivo gerador de ruído ou aplicativo de smartphone pode enviar bipes e apitos semelhantes ao R2D2, que podem ser processados na nuvem como um código QR de áudio que, uma vez interpretado pelos servidores, pode retornar qualquer informação a ser exibida nos óculos. Este texto pode ser instruções para operação do equipamento. Pode ser informações sobre um artefato específico em um museu. Pode ser informações sobre um produto específico em uma loja.

Esses são os tipos de aplicativos que esperamos que a AR visual entregue em cinco anos ou mais. Nesse ínterim, a maior parte disso poderia ser feito com áudio.

Um uso obviamente poderoso para os “óculos de tradução” do Google seria usá-los com o Google Assistant. Seria como usar uma tela inteligente com o Google Assistant – um eletrodoméstico que fornece dados visuais, juntamente com os dados de áudio normais, das consultas do Google Assistant. Mas esses dados visuais estariam disponíveis em seus óculos, mãos-livres, não importa onde você esteja. (Isso seria um aplicativo de exibição de heads-up, em vez de AR.)

Mas imagine se os “óculos de tradução” fossem emparelhados com um smartphone. Com a permissão concedida por outras pessoas, as transmissões Bluetooth de dados de contato podem exibir (nos óculos) com quem você está conversando em um evento de negócios e também seu histórico com eles.

Por que a imprensa de tecnologia quebrou o Google Glass

Os críticos do Google Glass criticaram o produto, principalmente por dois motivos. Primeiro, uma câmera frontal montada no fone de ouvido deixou as pessoas desconfortáveis. Se você estivesse conversando com um usuário do Google Glass, a câmera estava apontada diretamente para você, fazendo você se perguntar se estava sendo gravado. (O Google não disse se seus “óculos de tradução” teriam uma câmera, mas o protótipo não tinha uma.)

Em segundo lugar, o hardware excessivo e chamativo fazia os usuários parecerem ciborgues.

A combinação dessas duas transgressões de hardware levou os críticos a afirmar que o Google Glass simplesmente não era socialmente aceitável em uma companhia educada.

Os “óculos de tradução” do Google, por outro lado, não têm câmera nem se parecem com implantes de ciborgue – eles se parecem muito com óculos comuns. E o texto visível para o usuário não é visível para a pessoa com quem está falando. Parece que eles estão fazendo contato visual.

O único ponto remanescente de inaceitabilidade social para o hardware de “óculos de tradução” do Google é o fato de que o Google estaria essencialmente “gravando” as palavras de outros sem permissão, enviando-as para a nuvem para tradução e, presumivelmente, retendo essas gravações como faz com outros produtos relacionados à voz.

Ainda assim, o fato é que a realidade aumentada e até mesmo os displays heads-up são super atraentes, se apenas os fabricantes conseguirem definir o recurso corretamente. Algum dia, teremos AR visual completo em óculos de aparência comum. Enquanto isso, os óculos AR:

1 – Parecem óculos normais.
2 – Podem aceitar lentes de prescrição.
3 – Não têm câmera.
4 – Processam áudio com IA e retornam dados via texto.
5 – Oferecem funcionalidade de assistente, retornando resultados com texto.

Até hoje não existe esse produto. Mas o Google demonstrou que tem a tecnologia para fazer isso.

Embora a legendagem e a tradução de idiomas possam ser os recursos mais atraentes, também são — ou deveriam ser — apenas um Cavalo de Tróia para muitos outros aplicativos de negócios atraentes.

O Google não anunciou quando – ou mesmo se – os “óculos de tradução” serão lançados como um produto comercial. Mas se o Google não os fizer, outra pessoa o fará, e será uma categoria matadora para usuários corporativos.

A capacidade dos óculos comuns de dar acesso aos resultados visuais da interpretação da IA de quem e o que você ouve, além dos resultados visuais e de áudio das consultas do assistente, seria um divisor de águas total.

Estamos em um período difícil no desenvolvimento da tecnologia, onde os aplicativos AR existem principalmente como aplicativos para smartphones (onde eles não pertencem) enquanto esperamos por óculos AR móveis e socialmente aceitáveis que estão muitos anos no futuro.

Enquanto isso, a solução é clara: precisamos de óculos AR centrados em áudio que capturem som e exibam palavras.

Isso é exatamente o que o Google demonstrou.

Leia Fonte Original: itforum / Rafael Romer