O melhor pedaço da Maçã.

Ferret: Apple lança modelo LLM de código aberto para analisar imagens com IA

App com inteligência artificial para iPhone

Quase silenciosamente, a Apple lançou, em outubro deste ano, o Ferret — um modelo largo de linguagem (LLM, na sigla em inglês) multimodal e de código aberto, algo raríssimo para tecnologias em desenvolvimento pela empresa. A ferramenta, porém, foi disponibilizada com uma licença não comercial, o que direciona o seu uso basicamente para pesquisas.

Publicidade

De acordo com o VentureBeat, começou-se a falar mais sobre o Ferret após a divulgação de dois estudos da empresa sobre novas técnicas de criação de avatares 3D e de inferência eficiente em modelos de linguagem. As pesquisas suscitaram expectativas quanto ao potencial de experiências imersivas e o uso de sistemas de inteligência artificial complexos nos dispositivos da Apple.

🚀🚀 Introduzindo o Ferret, um novo MLLM que pode consultar e se basear em qualquer coisa em qualquer lugar de qualquer granularidade.
📰 arxiv.org/abs/2310.07704
1️⃣ O Ferret possibilita o exame de uma região de uma imagem de qualquer forma.
2️⃣ Ele mostra geralmente um entendimento mais preciso de pequenas regiões de imagens do que o GPT-4V (sec 5.6).

O modelo consegue, dessa maneira, analisar elementos em imagens com bastante flexibilidade, assim como determinar e identificar tais elementos. Essas capacidades são especialmente úteis em tarefas como a realização de buscas, por exemplo, de modo que o Ferret pode identificar o que está sendo retratado em imagens e fornecer mais detalhes sobre o objeto em questão e o contexto da foto.

Segundo o artigo no qual pesquisadores da Apple e da Universidade Columbia descreveram o funcionamento do modelo, ele foi treinado com 1,1 milhão de amostras que continham informação hierárquica espacial. Cerca de 95 mil dados negativos também ajudaram a dar mais robustez ao Ferret, que alcança resultados melhores que concorrentes, com capacidade de descrever detalhes de imagens e menor confusão de objetos.

Apesar da surpresa no lançamento do modelo em código aberto, trata-se de uma estratégia da Apple para fazer frente a concorrentes mais avançadas em matéria de IA, como a OpenAI e a Anthropic. Como a infraestrutura da Maçã ainda não é suficiente para alimentar LLMs em larga escala, as opções seriam depender dos servidores de terceiros ou lançar o modelo em código aberto de início, que foi a adotada.

Publicidade

A disponibilização do Ferret em código aberto surpreendeu vários pesquisadores da área de IA e aprendizado de máquina. Como notado na comunidade do Reddit sobre a Apple, a ferramenta está sendo treinada com o uso de oito placas gráficas A100 (da NVIDIA) e 80GB de memória. Nos próximos meses, é possível que mais novidades sobre a solução surjam — tanto da Apple quanto de pesquisadores trabalhando com o Ferret.

Mesmo com a licença atual para uso não comercial, a ferramenta poderá, após avanços no seu desenvolvimento, ser adaptada no futuro para uso em iPhones, iPads, Macs e em outros dispositivos da empresa. Ainda que se trate de uma estratégia, o lançamento em código aberto não deixa de ser diferente da conduta geral da Apple, que é de desenvolver novos recursos/sistemas com o maior sigilo possível e de forma separada dos demais, permitindo o amadurecimento de pesquisas com o Ferret.

O código do Ferret está disponível no GitHub.

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

Governo Biden decide não reverter banimento de Apple Watches nos EUA [atualizado 2x: Apple apela]

Próx. Post

WhatsApp ganha novos atalhos e barra de menus renovada no macOS

Posts Relacionados