A Apple contou com a colaboração da NVIDIA em uma pesquisa [PDF] visando melhorar a eficiência e o desempenho de grandes modelos de linguagem (large language models, ou LLMs) durante a fase de inferência — ou seja, quando eles estão gerando as respostas com base em um determinado prompt de texto.
A Apple implementou uma solução denominada Recurrent Drafter (ReDrafter), a qual tenta melhorar a forma como os modelos grandes operam. Atualmente, eles geram as respostas token por token e precisam revisar tudo o que já foi gerado a cada novo token para garantir consistência — o que consome muito tempo e memória.
O ReDrafter, por sua vez, cria espécies de “rascunhos” utilizando uma rede neural menor e fazendo algo como “suposições” sobre o que modelo maior geraria, reduzindo redundâncias e enviando o rascunho pronto para o modelo principal, o qual revisa e aceita as partes “corretas”, economizando tempo.
Para esse trabalho, a Apple integrou o ReDrafter à TensorRT-LLM, uma biblioteca usada para otimizar a inferência de grandes modelos de linguagem em GPUs 1Graphics processing unit, ou unidade de processamento gráfico. da NVIDIA — que por sua vez fez modificações no sistema para acomodar a novidade da Maçã e permitir que ela tirasse total proveito da sua arquitetura.
Para permitir a integração do ReDrafter, a NVIDIA adicionou novos operadores ou expôs os existentes, o que melhorou consideravelmente a capacidade da TensorRT-LLM de acomodar modelos sofisticados e métodos de decodificação.
Os resultados obtidos com essa parceria foram animadores. Com o ReDrafter, foi constatado um aumento de até 2,7x na velocidade de geração de tokens por segundo, bem como uma aceleração de até 2,8x na inferência do modelo Vicuna no benchmark MT-Bench usando implementação PyTorch em GPUs NVIDIA H100.
Esses e outros resultados indicam que a nova tecnologia é capaz de reduzir significativamente a latência na inferência de tokens enquanto consome menos energia das GPUs — o que pode ser relevante principalmente em dispositivos menores, como Macs e iPhones.
via 9to5Mac
Notas de rodapé
- 1Graphics processing unit, ou unidade de processamento gráfico.