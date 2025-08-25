Um novo modelo de linguagem grande (ou LLM, na sigla em inglês) de código aberto da Apple, detalhado pela empresa em um artigo [PDF], traz uma abordagem inovadora e eficiente para a compreensão de vídeos — especialmente de vídeos longos, que geralmente exigem uma grande quantidade de tokens.

O SlowFast-LLaVA-1.5 foi projetado para otimizar o uso de tokens a fim de que consiga apresentar uma grande eficiência mesmo em escalas menores — o que torna seu uso ideal para dispositivos que possuem menor poder de fogo computacional, como smartphones.

O modelo consegue isso graças ao seu mecanismo SlowFast em duas vias, o qual equilibra a necessidade de processar muitos quadros (o que aumenta a quantidade de tokens e requer mais processamento) com a redução de tokens por quadro (o que pode levar à perda de detalhes).

Em sua via lenta, o modelo foca na captura de recursos espaciais detalhados de uma pequena taxa de quadros (como se fossem amostras), enquanto na via rápida ele opera em uma alta taxa de quadros, mas em qualidade reduzida. Depois, ambos os resultados são combinados.

O seu treinamento, que pode ser realizado com datasets acessíveis publicamente, é feito em diferentes etapas. Primeiro, há o estágio focado especificamente na compreensão de imagens; depois, há uma espécie de mistura de imagens e vídeos — uma evolução da etapa anterior.

Em benchmarks, o modelo se mostrou altamente poderoso na compreensão de vídeos de longa duração, bem como mais eficiente que outras alternativas já conhecidas, uma vez que usa menos tokens e chega a processar até o dobro de quadros com um desempenho superior.

Ele também mostrou um forte desempenho na compreensão de imagens, mesmo sendo um modelo originalmente focado em vídeos — algo que provavelmente é resultado do treinamento conjunto de vídeos e imagens supracitado.

