A Apple divulgou recentemente um novo estudo envolvendo agentes de inteligência artificial (aquelas ferramentas capazes de realizar ações pelo usuário em interfaces) o qual tem como objetivo levantar uma questão que aparentemente tem sido ignorada pelas empresas de tecnologia: essas IAs entendem o impacto das suas ações?
Intitulado “From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts”, o paper introduz um framework para ajudar a responder essa pergunta e também tenta descobrir se essas ferramentas sabem quando realmente devem prosseguir com uma ação, especialmente se ela tiver consequências irreversíveis.
Esse framework é composto por uma série de ações que foram rotuladas com base não só no seu efeito imediato, mas também em fatores como a intenção do usuário, o seu impacto na interface (e também no usuário), a sua reversibilidade e a sua frequência.

Para desenvolver esses rótulos, os pesquisadores por trás desse estudo colocaram usuários reais para realizar tarefas, em seus smartphones, as quais eles consideram desconfortáveis caso seja tocadas por um agente de IA — como enviar mensagens, trocar senhas, interagir com apps financeiros e mais.
Com esse banco de dados em mãos, a Apple então colocou o GPT-4 (da OpenAI), o Gemini (do Google) e o Ferret-UI (da própria Maçã) para batalharem em uma série de testes envolvendo as mais variadas tarefas.
O que se descobriu foi que o Gemini se saiu melhor nos testes zero-shot, que medem o quão bem um modelo vai em tarefas nas quais ele não chegou a ser treinado, com uma precisão de 55,98%. Para efeito de comparação, o Ferret-UI apresentou uma precisão de apenas 13,88%, a menor entre os modelos considerados pelo estudo.

O GPT-4, por sua vez, liderou em precisão (58%) quando esses três modelos foram colocados para determinar o impacto das suas ações quando solicitado a raciocinar passo a passo usando técnicas de cadeia de pensamento (CoT, na siga em inglês). O modelo da Apple, por outro lado, voltou a ficar em último, com uma precisão de 46,89%.
Embora o estudo — feito em conjunto com pesquisadores da Universidade de Washington — não resolva o problema levantado, ele propõe uma forma eficiente de entender como esses agentes de IA estão se saindo ao lidar com ações sensíveis, facilitando seu aprimoramento.
A pesquisa completa pode ser conferida nessa página.
via 9to5Mac