De maneira discreta, a Apple lançou nesta semana um novo modelo de IA, no site Hugging Face, capaz de gerar códigos mais rapidamente e rivalizar em matéria de desempenho com os principais modelos de codificação de código aberto.
Intitulado DiffuCode-7B-cpGRPO, o principal diferencial do modelo é que, ao contrário dos LLMs 1 Large language models, ou grandes modelos de linguagens. tradicionais — que escrevem seus códigos gerando texto da esquerda para a direita, de cima para baixo —, ele pode escrever em ordens diferentes, aprimorando vários blocos de uma só vez.
Isso significa que ele foi construído com base no método de difusão (que remove iterativamente o ruído de acordo com o prompt), na contramão de outros modelos populares que funcionam por autorregressão (no qual o prompt é reprocessado diversas vezes para formular a resposta).
Um artigo no qual o modelo se baseou, chamado “DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation”, explica como modelos que adotam a abordagem de difusão para a geração de códigos podem apresentar maior flexibilidade e se libertar das ordens tradicionais de escrita por meio da temperatura, que controla o quão aleatória a saída pode ser.
Quando a temperatura de amostragem é aumentada do padrão 0,2 para 1,2, o DiffuCoder se torna mais flexível na ordem de geração de tokens, libertando-se das restrições rígidas da esquerda para a direita.
Ao ajustar a temperatura, o modelo difusor pode se comportar mais ou menos como um modelo autorregressivo, com temperaturas mais altas permitindo maior flexibilidade para gerar tokens fora de ordem; temperaturas mais baixas, por sua vez, o restringem mais para a decodificação padrão da escrita, da esquerda para a direita.
Como resultado, durante os treinamentos, o modelo foi capaz de gerar códigos de maior qualidade e de forma mais rápida, com menos tentativas.

Ele foi construído sobre o modelo de base de código aberto do Alibaba, Qwen2.5-7B, que foi aprimorado para uma melhor geração de códigos e, posteriormente, adotado pela Apple, que aplicou seus próprios ajustes.
Ele foi transformado em um novo modelo decodificador baseado em difusão e ajustado para seguir melhor as instruções, com mais de 20.000 exemplos de codificação cuidadosamente selecionados como treinamento. Ao final, o DiffuCoder obteve um aumento de 4,4% em um benchmark de codificação popular e manteve uma menor dependência de geração de código estritamente da esquerda para a direita.
Por mais que o modelo ainda não esteja concretizado, ou no mesmo nível do GPT-4 ou do Gemini Diffusion, ele representa um grande avanço e novas oportunidades na codificação, abrindo novas possibilidades para a Apple na área de IA generativa.
via 9to5Mac
Notas de rodapé
- 1Large language models, ou grandes modelos de linguagens.