A Apple lançou hoje uma nova família de SLMs 1Small language models, ou modelos de linguagem pequenos. de código aberto. Ea faz parte do projeto DataComp for Language Models (DCLM), do qual a companhia integra.
Disponíveis no Hugging Face, os modelos são projetados para treinar mecanismos de inteligência artificial, oferecendo uma estrutura padronizada com arquiteturas de modelo fixo, código de treinamento, hiperparâmetros e avaliações para projetar conjuntos de dados de alta qualidade para treinamento.
A Maçã lançou dois modelos para a sua família DCLM: um menor, chamado 7B (com 1,4 bilhão de parâmetros), e o 7B-8k (com 7 bilhões). Ambos são bastante eficientes, visto que usam 40% menos poder computacional em relação ao modelo anterior — o MAP-Neo, o qual foi superado pelo mais atual em 6,6%.
Eles contam com um ótimo desempenho em benchmarks, com o modelo maior superando o Mistral-7B (que é bastante semelhante em termos de tamanho) e estando bastante próximo de modelos abertos populares como o Llama 3 e o Gemma (do Google).
Resumo:
🧠 Modelo base 7B, treinado em 2,5T de tokens em conjuntos de dados abertos
🌐 Principalmente dados em inglês e uma janela de contexto de 2048
📈 Dados combinados DCLM-BASELINE, StarCoder e ProofPile2
🏆 MMLU 0,6372 > Mistral & <Llama3
🔓 Licença aberta com licença de código de amostra da Apple
📊 Corresponde a modelos de conjunto de dados fechado como Mistral
🔬 Treinado usando PyTorch com estrutura OpenLM
🤗 Disponível no @huggingface e no Transformers
Um ponto bastante interessante, como notou o AppleInsider, é que os novos modelos são completamente abertos — tanto o conjunto de dados quanto os parâmetros e o código de treinamento.
Essa é uma abordagem diferente da apresentada pelos modelos de treinamento mais populares atualmente, os quais contam com parâmetros abertos, mas possuem o seu conjunto de dados fechado para pesquisadores.
Notas de rodapé
- 1Small language models, ou modelos de linguagem pequenos.