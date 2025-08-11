Navegue

Apple desenvolve método para gerar respostas de IA até 5x mais rápido

Nova técnica permite que modelos de linguagem sejam mais rápidos, sem comprometer a qualidade
Digitar para a Siri com Apple Intelligence no macOS

A Apple divulgou um estudo no qual descreve um novo método para tornar mais rápidos os modelos de linguagem que alimentam assistentes virtuais e ferramentas de inteligência artificial. Esses sistemas costumam funcionar criando uma frase palavra por palavra (ou mais precisamente, token por token 1Unidade básica de dados que um modelo de IA utiliza para processar informações.). Na prática, isso significa que a cada novo trecho gerado, o modelo precisa analisar tudo o que já foi escrito para decidir qual será o próximo elemento do texto.

No artigo [PDF] “Your LLM 2Large language model, ou modelo de linguagem grande. Knows the Future” (“Seu LLM sabe o futuro”, na tradução literal), a equipe da Maçã explica que, mesmo sendo treinados para prever apenas o próximo token, esses modelos carregam informações sobre vários possíveis tokens futuros. Partindo dessa observação, os pesquisadores desenvolveram um abordagem chamada multi-token prediction (“previsão de tokens múltiplos”, na tradução literal), que permite ao sistema gerar mais de um token por vez.

Para chegar a esse resultado, a Apple combinou diferentes técnicas. Uma delas é a chamada Gated LoRA 3Low-Rank Adaptation, ou adaptação de baixa classificação. que adapta o modelo original para que ele consiga prever múltiplos tokens sem perder a capacidade de funcionar como antes.

Outra é um mecanismo capaz de organizar os tokens previstos em sequências que são coerentes, baseando-se em treinamentos voltar a manter a precisão e a consistência do texto. O estudo apresenta uma estratégia especulativa de geração textual, o que aumenta o número antecipado de tokens de forma acelerada sem que a qualidade se comprometa.

Nos testes, a empresa utilizou o modelo Tulu3-8B, treinado especificamente para prever até oito tokens adicionais a cada passo. Com isso, o resultados indicaram que em tarefas de conversas e perguntas e respostas gerais, a velocidade foi até três vezes maior. Já em áreas mais previsíveis, como programação, matemática e a área de exatas, o ganho chegou a cinco vezes sem perda de qualidade nas respostas, segundo os autores.

A Maçã afirma que essa tecnologia poderá ter impacto direto em aplicações que exigem respostas rápidas e mais precisas, o que passa pelo uso cotidiano de inteligências artificiais como assistentes virtuais até cenários de uso mais profundo e especializado.

Notas de rodapé

  • 1
    Unidade básica de dados que um modelo de IA utiliza para processar informações.
  • 2
    Large language model, ou modelo de linguagem grande.
  • 3
    Low-Rank Adaptation, ou adaptação de baixa classificação.

