Há alguns anos, o Google lançou uma tecnologia baseada em inteligência artificial chamada “Looking to Listen” (“Procurando Ouvir”, na tradução literal), que pode identificar vozes específicas mesmo em um ambientes com diversos ruídos e interferências. Agora, essa tecnologia está sendo disponibilizada para criadores que gravam YouTube Stories (recurso semelhante aos Stories do Instagram) no iOS — apenas em inglês, por enquanto.
De acordo com a empresa, o recurso estabelece uma correlação entre a fala e os sinais visuais, como os movimentos da boca e as expressões faciais do locutor em múltiplos vídeos. Para garantir que a ferramenta funcione para todos e não mostre preconceito, o Google conduziu uma série de testes explorando seu desempenho com base em vários atributos — como idade do falante, tom de pele, linguagem falada, tom de voz, visibilidade de seu rosto, postura da cabeça, pelos faciais, presença de óculos e nível de ruído de fundo.
Veja como a tecnologia funciona na série de vídeos abaixo:
O Google também explicou como melhorou a tecnologia nos últimos dois anos. Para começar, os desenvolvedores certificaram-se de que ele pode fazer todo o processamento no próprio dispositivo — portanto, nenhuma informação é processada nos seus servidores. Eles também usaram uma técnica que permite ao recurso extrair miniaturas com rostos de vídeos para análise de forma muito mais rápida.
A empresa também destacou que otimizou o tempo de execução do recurso para a CPU1Central processing unit, ou unidade central de processamento. do iPhone — portanto isso não será uma tarefa muito “pesada”. Na verdade, a tecnologia leva apenas alguns segundos para processar uma história de 15 segundos.
Para ativar o recurso, os criadores só precisam ativar a opção “Melhorar a fala” nos ajustes de volume do YouTube Stories.
via VentureBeat
Notas de rodapé
- 1Central processing unit, ou unidade central de processamento.