Apple apresenta nova versão do Ferret, LLM que analisa imagens com IA

Pesquisadores da Apple e das Universidades Columbia e de Santa Barbara (Califórnia, Estados Unidos) publicaram a versão inicial de um artigo sobre a segunda iteração do Ferret. Trata-se de um modelo de linguagem grande (LLM, na sigla em inglês) multimodal que foi apresentado pela empresa inicialmente no ano passado, também por meio de um artigo.

Entre as suas habilidades originais, está a capacidade de analisar imagens de qualquer forma, tendo sido treinado com mais de 1 milhão de amostras. Ele também tem um entendimento mais preciso de pequenas regiões de fotografias do que o GPT-4, da OpenAI.

O novo artigo reconhece que o modelo original tinha algumas limitações em razão do codificador visual pré-treinado, não conseguindo realizar tarefas mais amplas de forma satisfatória. Com a segunda versão, algumas melhorias foram feitas — de modo que há, principalmente, três novidades.

A capacidade do modelo de processar e entender imagens com mais detalhes foi ampliada, com uma abordagem flexível para lidar com fotos de maior resolução. Além disso, com a integração de um codificador adicional, o modelo aprende melhor contextos subjacentes diversos para uma informação visual global e mais detalhada, permitindo uma codificação multigranular.

Ademais, há agora um paradigma de treinamento com três estágios: além do alinhamento de legendas de imagens, foi adicionada uma etapa adicional para um alinhamento denso de alta resolução antes do ajuste da instrução final.

Segundo os pesquisadores, experimentos mostram que a segunda versão do Ferret oferece melhorias substanciais em relação à primeira e a outros modelos. Numericamente, em testes de benchmark, os resultados aumentaram até 10% com as atualizações.

Podcast

Vídeos

Navegue

MM NEWS

NOSSAS REDES SOCIAIS

Apple apresenta nova versão do Ferret, LLM que analisa imagens com IA

Bokeem Woodbine entra pro elenco de “Government Cheese”, do Apple TV+

AirPods Max lideraram vendas de periféricos da Apple na OLX no 1º bimestre de 2024

Apple se desculpa por comercial do novo iPad Pro e não o veiculará na TV

WhatsApp ganha novo design, melhorias no modo escuro e mais

Fotos (Apple) vs. Google Fotos: confira o nosso comparativo detalhado!

Apple libera RCs do iOS 17.5, iPadOS 17.5, watchOS 10.5 e tvOS 17.5; visionOS 1.2 chega à quinta beta [atualizado 2x]

iPads Pro ficam mais caros, Air e de 10ª geração caem; veja os preços no Brasil

Podcast

Vídeos

Navegue

MM NEWS

NOSSAS REDES SOCIAIS

Apple apresenta nova versão do Ferret, LLM que analisa imagens com IA

Compartilhe este artigo

Bokeem Woodbine entra pro elenco de “Government Cheese”, do Apple TV+

AirPods Max lideraram vendas de periféricos da Apple na OLX no 1º bimestre de 2024

Apple se desculpa por comercial do novo iPad Pro e não o veiculará na TV

WhatsApp ganha novo design, melhorias no modo escuro e mais

Fotos (Apple) vs. Google Fotos: confira o nosso comparativo detalhado!

Apple libera RCs do iOS 17.5, iPadOS 17.5, watchOS 10.5 e tvOS 17.5; visionOS 1.2 chega à quinta beta [atualizado 2x]

iPads Pro ficam mais caros, Air e de 10ª geração caem; veja os preços no Brasil

Posts Relacionados