Pesquisadores da Apple e das Universidades Columbia e de Santa Barbara (Califórnia, Estados Unidos) publicaram a versão inicial de um artigo sobre a segunda iteração do Ferret. Trata-se de um modelo de linguagem grande (LLM, na sigla em inglês) multimodal que foi apresentado pela empresa inicialmente no ano passado, também por meio de um artigo.
Entre as suas habilidades originais, está a capacidade de analisar imagens de qualquer forma, tendo sido treinado com mais de 1 milhão de amostras. Ele também tem um entendimento mais preciso de pequenas regiões de fotografias do que o GPT-4, da OpenAI.
O novo artigo reconhece que o modelo original tinha algumas limitações em razão do codificador visual pré-treinado, não conseguindo realizar tarefas mais amplas de forma satisfatória. Com a segunda versão, algumas melhorias foram feitas — de modo que há, principalmente, três novidades.
A capacidade do modelo de processar e entender imagens com mais detalhes foi ampliada, com uma abordagem flexível para lidar com fotos de maior resolução. Além disso, com a integração de um codificador adicional, o modelo aprende melhor contextos subjacentes diversos para uma informação visual global e mais detalhada, permitindo uma codificação multigranular.
Ademais, há agora um paradigma de treinamento com três estágios: além do alinhamento de legendas de imagens, foi adicionada uma etapa adicional para um alinhamento denso de alta resolução antes do ajuste da instrução final.
Segundo os pesquisadores, experimentos mostram que a segunda versão do Ferret oferece melhorias substanciais em relação à primeira e a outros modelos. Numericamente, em testes de benchmark, os resultados aumentaram até 10% com as atualizações.