MM1: Apple revela novo modelo multimodal para treinamento de LLMs

Após publicarem detalhes sobre modelos de inteligência artificial de edição e animação de imagens, pesquisadores da Apple revelaram recentemente uma nova família de modelos multimodais, chamada de MM1. O seu principal destaque é combinar diferentes fontes de dados para treinar outros largos modelos de linguagem (LLMs, na sigla em inglês), permitindo que eles sejam mais avançados e flexíveis.

Os resultados do estudo que descreve o modelo foram publicados em um artigo pelos pesquisadores. Com a combinação de vários tipos de dados e arquiteturas, consegue-se atingir um desempenho de ponta em modelos de inteligência artificial. A capacidade é essencial para tarefas que exigem uma compreensão de nuances menores, como interpretar imagens e entender elementos visuais.

São usados, por exemplo, pares de imagem e legendas, imagem e texto separados e dados apenas em texto, essenciais para atingir um resultado avançado. Ou seja, ao treinar modelos usando uma base de dados com informação tanto visual quanto linguística variada, os modelos MM1 são capazes de desempenhar melhor tarefas como legendar imagens, responder questões visuais e inferência de linguagem natural.

Os pesquisadores entenderam, ainda, que a escolha do decodificador de imagens, a resolução das imagens inseridas e a contagem de tokens de imagem têm um grande impacto no desempenho do modelo. Já o design do conector visão-linguagem teria uma importância comparativamente menor. Em outras palavras, com um maior refinamento e desenvolvimento dos componentes visuais, os modelos deverão possibilitar ainda mais ganhos.

Posts relacionados

Também foram destacadas as habilidades contextuais do MM1, em especial da sua configuração mais avançada, que conta com 30 bilhões de parâmetros. Com isso, ele pode realizar a interpretação multipassos de várias imagens usando poucos comandos diretos no estilo “cadeia de pensamento”.

O modelo é capaz, ainda, de realizar previsões contextuais graças ao seu treinamento em larga escala. Isso permite que o MM1 conte objetos e siga uma formatação personalizada, refira-se a partes de uma imagem e realize reconhecimento óptico de caracteres (OCR, na sigla em inglês), demonstre conhecimento sobre objetos e realize operações matemáticas.

Os resultados demonstram o potencial de modelos multimodais de resolver problemas complexos os quais exigem que o sistema compreenda e gere linguagens complexas. O desenvolvimento de modelos como o MM1 é certamente consequência dos investimentos da Apple em IA.

Deveremos ver ao menos parte do reflexo dessa ofensiva em IA com possíveis novos recursos nos próximos sistemas da Maçã. Como ressaltado pelo VentureBeat, a empresa está buscando fortalecer-se na área perante a concorrência ferrenha, sendo o MM1 parte desses esforços em integrar a IA generativa aos seus produtos.

Podcast

Vídeos

Navegue

MM NEWS

NOSSAS REDES SOCIAIS

MM1: Apple revela novo modelo multimodal para treinamento de LLMs

Apple destaca espaço de armazenamento do iPhone 15 em novo comercial

Apple TV+: “Ted Lasso” leva prêmio de Melhor Série de Comédia nos GLAAD Media Awards

Possíveis novidades de IA do iOS 18 são encontradas em servidores da Apple

WhatsApp testa nova interface para atualizações de Status no iOS

Google Fotos liberará recursos de edição com IA para todos os usuários

WhatsApp lança atalho para acessar a fototeca do iPhone rapidamente

Apple aprova (e depois remove) emulador de Game Boy na App Store

Podcast

Vídeos

Navegue

MM NEWS

NOSSAS REDES SOCIAIS

MM1: Apple revela novo modelo multimodal para treinamento de LLMs

Compartilhe este artigo

Apple destaca espaço de armazenamento do iPhone 15 em novo comercial

Apple TV+: “Ted Lasso” leva prêmio de Melhor Série de Comédia nos GLAAD Media Awards

Possíveis novidades de IA do iOS 18 são encontradas em servidores da Apple

WhatsApp testa nova interface para atualizações de Status no iOS

Google Fotos liberará recursos de edição com IA para todos os usuários

WhatsApp lança atalho para acessar a fototeca do iPhone rapidamente

Apple aprova (e depois remove) emulador de Game Boy na App Store

Posts Relacionados