Um estudo de um pesquisador da Aalto University (na Finlândia) em colaboração com pesquisadores da Apple apresentou o ILuvUI, um Modelo de Visão-Linguagem (VLM, na sigla em inglês) ajustado por instruções para interagir e entender melhor o conteúdo presente em interfaces de usuário (UIs).

O trabalho parte do problema atual envolvendo VLMs atuais, os quais geralmente têm um desempenho ruim ao tentar interpretar esse tipo de imagem devido à falta de dados de treinamento suficientes — ao contrário do que acontece com as imagens naturais, por exemplo.

O ILuvUI é uma adaptação do modelo LLaVA, tendo como grande diferencial a geração automática de dados sintéticos a partir de capturas de telas de apps para iPhone e de datasets, combinados com dados textuais gerados pelo grande modelo de linguagem GPT 3.5 Turbo (da OpenAI).

Geramos um conjunto de dados de 335 mil exemplos de conversação emparelhados com UIs que cobrem perguntas e respostas, descrições de interface do usuário e planejamento, e o usamos para ajustar um VLM conversacional para tarefas de interface do usuário.

Não requerendo qualquer anotação humana no processo, o modelo foi capaz de gerar dados como descrições detalhadas das interfaces, possíveis ações em uma tela, previsões de comportamento, identificação de elementos a serem clicados, planejamento, etc.

Seus resultados foram superiores ao do LLaVA original para coisas como detecção de elementos da UI (68% a 52%) e identificação de tipo de elemento (26% a 9%), bem como suas descrições também foram melhores para 72% dos humanos pesquisados.

Segundo o artigo, o novo método pode ser bastante útil para coisas como acessibilidade, automação de testes de interface, assistência por voz ou linguagem natural para navegar em apps.

via 9to5Mac