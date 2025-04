Uma equipe de pesquisadores da Apple analisou as capacidades de raciocínio lógico dos grandes modelos de linguagem (Large Language Model, ou LLMs), particularmente em matemática — e descobriram que eles exibem uma variação perceptível ao responder a diferentes formas da mesma pergunta.

Publicidade

Isso indica uma limitação fundamental em como os LLMs processam e interpretam os comandos em geral. De acordo com o estudo, intitulado GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models [PDF], os LLMs dependem da correspondência de padrões probabilísticos, que é diferente do raciocínio lógico formal.

Essa dependência do reconhecimento de padrões torna os modelos sensíveis a pequenas mudanças nos comandos, revelando um forte viés que pode afetar a precisão das respostas, ressaltando a fragilidade e a sensibilidade das IAs.

O artigo explica ainda que tarefas que envolvem a seleção de vários tokens (palavras, conjuntos de caracteres e pontuação que são usados ​​pelos LLMs para processar o comando de entrada e o de saída) diminuem a precisão exponencialmente à medida que o número de tokens ou etapas necessárias aumenta. Essa característica torna os LLMs menos confiáveis ​​em cenários que exigem raciocínio detalhado e multietapas.

Publicidade

A pesquisa também aborda o benchmark GSM8K, comumente usado para avaliar o raciocínio matemático em modelos de IA. Apesar das melhorias significativas no desempenho dos LLMs nesse teste, a equipe da Apple questiona se as habilidades de raciocínio matemático deles realmente avançaram ou se os resultados aprimorados simplesmente refletem uma melhor correspondência de padrões em vez de uma compreensão mais profunda.

Aos interessados, achados mais interessantes (e também técnicos) da pesquisa podem ser conferidos no blog do cientista americano Gary Marcus.

via AppleInsider