O melhor pedaço da Maçã.
Midjourney
Logo da Apple em estilo futurístico com redes neurais e ideia de inteligência artificial (IA/AI)

MM1: Apple revela novo modelo multimodal para treinamento de LLMs

Após publicarem detalhes sobre modelos de inteligência artificial de edição e animação de imagens, pesquisadores da Apple revelaram recentemente uma nova família de modelos multimodais, chamada de MM1. O seu principal destaque é combinar diferentes fontes de dados para treinar outros largos modelos de linguagem (LLMs, na sigla em inglês), permitindo que eles sejam mais avançados e flexíveis.

Publicidade

Os resultados do estudo que descreve o modelo foram publicados em um artigo pelos pesquisadores. Com a combinação de vários tipos de dados e arquiteturas, consegue-se atingir um desempenho de ponta em modelos de inteligência artificial. A capacidade é essencial para tarefas que exigem uma compreensão de nuances menores, como interpretar imagens e entender elementos visuais.

São usados, por exemplo, pares de imagem e legendas, imagem e texto separados e dados apenas em texto, essenciais para atingir um resultado avançado. Ou seja, ao treinar modelos usando uma base de dados com informação tanto visual quanto linguística variada, os modelos MM1 são capazes de desempenhar melhor tarefas como legendar imagens, responder questões visuais e inferência de linguagem natural.

Os pesquisadores entenderam, ainda, que a escolha do decodificador de imagens, a resolução das imagens inseridas e a contagem de tokens de imagem têm um grande impacto no desempenho do modelo. Já o design do conector visão-linguagem teria uma importância comparativamente menor. Em outras palavras, com um maior refinamento e desenvolvimento dos componentes visuais, os modelos deverão possibilitar ainda mais ganhos.

Também foram destacadas as habilidades contextuais do MM1, em especial da sua configuração mais avançada, que conta com 30 bilhões de parâmetros. Com isso, ele pode realizar a interpretação multipassos de várias imagens usando poucos comandos diretos no estilo “cadeia de pensamento”.

O modelo é capaz, ainda, de realizar previsões contextuais graças ao seu treinamento em larga escala. Isso permite que o MM1 conte objetos e siga uma formatação personalizada, refira-se a partes de uma imagem e realize reconhecimento óptico de caracteres (OCR, na sigla em inglês), demonstre conhecimento sobre objetos e realize operações matemáticas.

Os resultados demonstram o potencial de modelos multimodais de resolver problemas complexos os quais exigem que o sistema compreenda e gere linguagens complexas. O desenvolvimento de modelos como o MM1 é certamente consequência dos investimentos da Apple em IA.

Deveremos ver ao menos parte do reflexo dessa ofensiva em IA com possíveis novos recursos nos próximos sistemas da Maçã. Como ressaltado pelo VentureBeat, a empresa está buscando fortalecer-se na área perante a concorrência ferrenha, sendo o MM1 parte desses esforços em integrar a IA generativa aos seus produtos.

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

Apple destaca espaço de armazenamento do iPhone 15 em novo comercial

Próx. Post

Apple TV+: “Ted Lasso” leva prêmio de Melhor Série de Comédia nos GLAAD Media Awards

Posts Relacionados