O melhor pedaço da Maçã.

Apple colabora com NVIDIA para diminuir tempo de inferência de LLMs

Midjourney
Logo da Apple e inteligência artificial (IA), large language models (LLM)

A Apple contou com a colaboração da NVIDIA em uma pesquisa [PDF] visando melhorar a eficiência e o desempenho de grandes modelos de linguagem (large language models, ou LLMs) durante a fase de inferência — ou seja, quando eles estão gerando as respostas com base em um determinado prompt de texto.

Publicidade

A Apple implementou uma solução denominada Recurrent Drafter (ReDrafter), a qual tenta melhorar a forma como os modelos grandes operam. Atualmente, eles geram as respostas token por token e precisam revisar tudo o que já foi gerado a cada novo token para garantir consistência — o que consome muito tempo e memória.

O ReDrafter, por sua vez, cria espécies de “rascunhos” utilizando uma rede neural menor e fazendo algo como “suposições” sobre o que modelo maior geraria, reduzindo redundâncias e enviando o rascunho pronto para o modelo principal, o qual revisa e aceita as partes “corretas”, economizando tempo.

Para esse trabalho, a Apple integrou o ReDrafter à TensorRT-LLM, uma biblioteca usada para otimizar a inferência de grandes modelos de linguagem em GPUs 1Graphics processing unit, ou unidade de processamento gráfico. da NVIDIA — que por sua vez fez modificações no sistema para acomodar a novidade da Maçã e permitir que ela tirasse total proveito da sua arquitetura.

Para permitir a integração do ReDrafter, a NVIDIA adicionou novos operadores ou expôs os existentes, o que melhorou consideravelmente a capacidade da TensorRT-LLM de acomodar modelos sofisticados e métodos de decodificação.

Os resultados obtidos com essa parceria foram animadores. Com o ReDrafter, foi constatado um aumento de até 2,7x na velocidade de geração de tokens por segundo, bem como uma aceleração de até 2,8x na inferência do modelo Vicuna no benchmark MT-Bench usando implementação PyTorch em GPUs NVIDIA H100.

Publicidade

Esses e outros resultados indicam que a nova tecnologia é capaz de reduzir significativamente a latência na inferência de tokens enquanto consome menos energia das GPUs — o que pode ser relevante principalmente em dispositivos menores, como Macs e iPhones.

via 9to5Mac

Notas de rodapé

  • 1
    Graphics processing unit, ou unidade de processamento gráfico.

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

TimeCapsule promete estender a bateria do AirTag para 10 anos

Próx. Post

Jonathan Van Tulleken vai dirigir e produzir “Lucky”, série do Apple TV+ com Anya Taylor-Joy

Posts relacionados