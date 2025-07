A Mistral, startup francesa de IA, acaba de anunciar a sua primeira família de modelos de áudio e compreensão de voz open source voltada para o mercado corporativo, chamada Voxtral — apresentada como a capaz de implementar inteligência de fala verdadeiramente utilizável na produção.

Segundo a empresa, à medida que os sistemas digitais se tornam mais eficientes, a fala se torna um aspecto importante na interação entre humanos e computadores. No entanto, os modelos atuais ainda encontram diversas limitações; já os modelos Voxtral seriam capazes de acelerar “o futuro da compreensão de fala”, além de desafiar o domínio de outros gigantes da IA.

Eles estão disponíveis em dois tamanhos: o Small (uma variante de 24 bilhões de parâmetros para aplicações em escala de produção) e o Mini (uma variante de 3 bilhões de parâmetros para implantações locais e de ponta). Ambos são lançados sob a licença Apache 2.0 e disponibilizados na API da Mistral, com um endpoint somente para transcrição altamente otimizado.

A proposta do Small é bater de frente com modelos já estabelecidos, como o Scribe (da ElevenLabs), o GPT-4o mini (da OpenAI) e o Gemini 2.5 Flash (do Google). Já o Mini possui uma API ultrarrápida voltada especificamente para transcrição, chamada Voxtral Mini Transcribe, que concorre com o Whisper da OpenAI por menos de metade do preço.

Para empresas, isso significa, de acordo com a Mistral, uma alternativa de modelo acessível e com ótimo custo-benefício, no qual os desenvolvedores não precisam mais escolher entre um sistema aberto e barato (que reduz a qualidade do entendimento de fala e da transcrição) e um que funciona bem (mas é fechado, limitando os controles sobre a implantação).

A Mistral afirma que o Voxtral é capaz de transcrever até 30 minutos de áudio, e graças ao seu LLM base, o Mistral Small 3.1, consegue compreender até 40 minutos de conteúdo. Isso permite que os usuários façam perguntas sobre o áudio, gerem resumos ou transformem comandos de voz em ações (como chamar APIs ou executar funções) em tempo real.

Além disso, ele é multilíngue, possuindo a capacidade de transcrever e compreender diversos idiomas (como inglês, espanhol, francês, português, hindi, alemão, holandês e italiano).

Os modelos do Voxtral podem ser testados e utilizados gratuitamente por meio do download da API no Hugging Face, ou diretamente pelo chatbot da Mistral, o Le Chat. De acordo com a marca, a integração da API em aplicações tem um custo inicial de US$0,001 por minuto.

via TechCrunch