A Apple apresentou [PDF] um novo modelo de inteligência artificial que promete revolucionar as capacidades da Siri — é o chamado ReALM (Reference Resolution As Language Modeling, ou Resolução de Referência como Modelagem de Linguagem).
Ao rodar no dispositivo, ele busca tornar a Siri mais inteligente, permitindo que a assistente compreenda “entidades” na tela do usuário, bem como conversas e processos de fundo, a exemplo de alarmes e músicas, para responder de maneira mais precisa.
São elas: Tela (o que está sendo exibido), Conversacionais (dados relevantes para a conversa, de interações anteriores ou da assistente virtual) e de Fundo (processos em segundo plano, que influenciam o contexto da interação).
Um artigo de pesquisa publicado recentemente explora o ReALM e demonstra que ele pode exceder sistemas já conhecidos, corroborando sua eficácia em aprimorar a utilidade da Siri por meio de modelagem de linguagem avançada.
Demonstramos grandes melhorias em relação a um sistema existente com funcionalidade similar em diferentes tipos de referências, com o nosso modelo mais compacto obtendo ganhos absolutos de mais de 5% para referências na tela. Também realizamos comparações com o GPT-3.5 e o GPT-4, com o nosso modelo mais compacto alcançando um desempenho comparável ao do GPT-4, e os nossos modelos maiores superando-o substancialmente.
Além disso, testes de benchmark contra o GPT-3.5 e o GPT-4, da OpenAI, mostram que o ReALM alcança um desempenho comparável ao do GPT-4, com modelos maiores superando-o consideravelmente.
Nosso objetivo é fazer com que ambas as variantes prevejam uma lista de entidades de um conjunto disponível. No caso do GPT-3.5, que aceita apenas texto, nossa entrada consiste apenas no prompt; no entanto, no caso do GPT-4, que também tem a capacidade de contextualizar imagens, fornecemos ao sistema uma captura de tela para a tarefa de resolução de referências na tela, o que descobrimos ajudar a melhorar substancialmente o desempenho.
Mesmo com menos parâmetros que o GPT-4, tudo indica que o ReALM supere-o em tarefas textuais e de compreensão de comandos do usuário, apesar de o GPT-4 ter a capacidade de contextualizar imagens.
É bem provável que vejamos novidades relacionadas a essas tecnologias em junho próximo, na WWDC24. Este ano, afinal, espera-se que o evento dê ênfase especial à integração de funcionalidades de inteligência artificial nos principais sistemas operacionais da Maçã. Aguardemos!
via 9to5Mac