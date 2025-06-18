Navegue

Framework de transcrição de áudio para texto da Apple bate o Whisper, da OpenAI

Douglas Nascimento
18/06/2025 • 11:21

A Apple atualizou recentemente seu framework Speech com a adição da classe SpeechAnalyzer e do seu módulo SpeechTranscriber. Projetadas para as novas versões dos sistemas da empresa, as novidades prometem aprimorar o processo de transcrição de áudio em texto nos dispositivos.

O fluxo de transcrição tem início com o SpeechAnalyzer, que tem a função de gerenciar o áudio recebido e coordenar os módulos que trabalharão nele, enquanto o módulo SpeechTranscriber efetivamente processa o conteúdo e realiza a transcrição para texto de forma eficiente e bastante rápida.

O uso desses frameworks acaba sendo bem mais eficiente que o de plataformas como o famoso Whisper (da OpenAI), uma vez que foram desenvolvidos e otimizados para os sistemas da Apple, rodam localmente (e offline) e fazem uso inteligente de recursos de concorrência modernos da linguagem Swift.

O MacStories foi capaz de atestar a eficiência e rapidez dessas novas ferramentas por meio da Yap, uma aplicação simples de linha de comando usada para receber um arquivo de áudio ou vídeo, transcrevê-lo usando a API 1Application programming interface, ou interface de programação de aplicações. do framework Speech e gerar um arquivo de texto correspondente.

Um mesmo arquivo de vídeo (em inglês, obviamente) de 34 minutos, que foi transcrito pela Yap em apenas 45 segundos (sem perda na qualidade do texto), demorou 1 minuto e 41 segundos com o modelo Large V3 Turbo, 3 minutos e 55 segundos no Large V2 do Whisper (usando o MacWhisper), e 1 minuto e 55 segundos no VidCap.

Arquivo gerado pelo Yap

Embora essa diferença possa não ser tão perceptível em um vídeo pequeno, ela pode ficar imensa se estivermos falando de um arquivo de áudio maior ou até mesmo de uma tarefa que envolva a transcrição de vários vídeos. Nesses casos, o uso do framework da Apple deverá economizar um bom tempo!

Para usar as novidades do framework Speech, é necessário ter a beta do macOS Tahoe 26 instalada em seu Mac. Caso você não queira ou não tenha conhecimento técnico para fazer uma aplicação do zero e testar as novas ferramentas, o código da Yap foi disponibilizado no GitHub.

