O melhor pedaço da Maçã.

Estudo da Apple apresenta método para alinhar LLMs ao estilo dos usuários

Divulgação/Apple

Um novo estudo da Apple [PDF] abordou um novo método para alinhar modelos de linguagem às preferências individuais dos usuários. Trata-se do PROSE (Preference Reasoning by Observing and Synthesizing Examples), técnica que infere e refina descrições de preferências humanas com base em amostras de escrita.

Publicidade

O PROSE inova ao apresentar o conceito de refinamento iterativo, que compara a escrita do modelo com a do usuário até que ela corresponda à demonstração, que o número máximo de etapas de iteração seja atingido ou que a descrição de preferência não seja alterada entre as etapas subsequentes de atualização.

Outro ponto importante da nova técnica é a verificação de consistência, que compara cada componente de preferências obtido a partir do refinamento iterativo com o resultado de textos de demonstração enviados pelo usuário anteriormente — descartando aqueles que não forem relevantes ou correspondentes.

Basicamente, o usuário fornece ao modelo um prompt e um exemplo de como ele a escreveria. O modelo infere uma descrição de preferência, gera uma resposta com base nela e, caso ela não seja ideal, o PROSE refina a descrição iterativamente e depois ainda a compara com exemplos prévios para garantir consistência.

Conclusões

Além do PROSE, a Apple também introduziu um novo benchmark denominado PLUME (Preference Learning from User Emails and Memos), o qual usa novas métricas de qualidade para preferência e geração, e permite que o agente e o usuário resolvam cada tarefa de maneira independente para evitar influência nas edições.

Publicidade

Nos testes realizados pela pesquisa, o PROSE bateu o método CIPHER em 33% e superou o ICL em conjuntos de preferências que exigem uma compreensão mais sutil do tom ao ser usado em conjunto com LLMs de maior qualidade (como o GPT-4o) — embora o ICL ainda seja melhor em preferências mais estruturais.

Essa dualidade levou os pesquisadores a analisar, inclusive, o funcionamento dos PROSE e do ICL em conjunto. Eles chegaram à conclusão de que essa combinação resulta em melhorias de 7,8% sobre o PROSE, 8,9% sobre o ICL e 51,1% sobre CIPHER quando usados em conjunto com o modelo supracitado da OpenAI.

via 9to5Mac

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

DuckDuckGo reforça proteção contra fraudes, golpes e vírus

Próx. Post

Beta do macOS Tahoe 26 deixa de reconhecer dispositivos FireWire

Posts relacionados