O melhor pedaço da Maçã.

Apple apresenta conjunto mais eficiente de modelos para treinamento de IAs

Confira as novidades dos dois novos modelos DCLM-7B
Mojahid Mottakin / Shutterstock.com
Apple e inteligência artificial (IA)

A Apple lançou hoje uma nova família de SLMs 1Small language models, ou modelos de linguagem pequenos. de código aberto. Ea faz parte do projeto DataComp for Language Models (DCLM), do qual a companhia integra.

Publicidade

Disponíveis no Hugging Face, os modelos são projetados para treinar mecanismos de inteligência artificial, oferecendo uma estrutura padronizada com arquiteturas de modelo fixo, código de treinamento, hiperparâmetros e avaliações para projetar conjuntos de dados de alta qualidade para treinamento.

A Maçã lançou dois modelos para a sua família DCLM: um menor, chamado 7B (com 1,4 bilhão de parâmetros), e o 7B-8k (com 7 bilhões). Ambos são bastante eficientes, visto que usam 40% menos poder computacional em relação ao modelo anterior — o MAP-Neo, o qual foi superado pelo mais atual em 6,6%.

Estou muito animado para apresentar os DataComp fot Language Models (DCLM), nosso novo ambiente de teste para experimentos controlados de conjuntos de dados destinados a melhorar modelos de linguagem.

Eles contam com um ótimo desempenho em benchmarks, com o modelo maior superando o Mistral-7B (que é bastante semelhante em termos de tamanho) e estando bastante próximo de modelos abertos populares como o Llama 3 e o Gemma (do Google).

A Apple entrou no jogo! A @Apple acaba de lançar um LLM de código aberto 7B, pesos, código de treinamento e conjunto de dados! 👀
Resumo:
🧠 Modelo base 7B, treinado em 2,5T de tokens em conjuntos de dados abertos
🌐 Principalmente dados em inglês e uma janela de contexto de 2048
📈 Dados combinados DCLM-BASELINE, StarCoder e ProofPile2
🏆 MMLU 0,6372 > Mistral & <Llama3
🔓 Licença aberta com licença de código de amostra da Apple
📊 Corresponde a modelos de conjunto de dados fechado como Mistral
🔬 Treinado usando PyTorch com estrutura OpenLM
🤗 Disponível no @huggingface e no Transformers

Um ponto bastante interessante, como notou o AppleInsider, é que os novos modelos são completamente abertos — tanto o conjunto de dados quanto os parâmetros e o código de treinamento.

Essa é uma abordagem diferente da apresentada pelos modelos de treinamento mais populares atualmente, os quais contam com parâmetros abertos, mas possuem o seu conjunto de dados fechado para pesquisadores.

Notas de rodapé

  • 1
    Small language models, ou modelos de linguagem pequenos.

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

Apple está entre as empresas mais bem avaliadas por funcionários jovens

Próx. Post

Apple TV+ compartilha trailer da série infantil “Yo Gabba GabbaLand!”

Posts relacionados