O Google anunciou hoje a mais nova versão do seu modelo de inteligência artificial, o Gemini 2.0 Flash — o qual, segundo a empresa, pode gerar imagens e áudio nativamente, além de texto. Ele também possui a capacidade de utilizar aplicativos e serviços de terceiros, permitindo acesso à pesquisa do Google, execução de códigos e muito mais.
A partir de hoje, uma versão experimental do Gemini 2.0 Flash está disponível através da API 1Application programming interface, ou interface de programação de aplicações. do Gemini e das plataformas de desenvolvedores de IA do Google, como o AI Studio e o Vertex AI. No entanto, os recursos de geração de áudio e imagem serão lançados inicialmente apenas para parceiros com acesso antecipado, enquanto uma implementação mais ampla está prevista para janeiro.
Nos próximos meses, o Google planeja incorporar o Gemini 2.0 Flash em diversos produtos, incluindo o Android Studio, o Chrome DevTools, o Firebase e o Gemini Code Assist.
O modelo de primeira geração, chamado de Gemini 1.5 Flash, pode gerar apenas texto e não foi projetado para cargas de trabalho especialmente exigentes. O novo modelo, no entanto, é mais versátil, uma vez que pode interagir com APIs externas. Tulsee Doshi, chefe de produto do Gemini, destacou que o 2.0 Flash é popular entre os desenvolvedores pelo equilíbrio entre velocidade e desempenho — agora aprimorado com ainda mais poder.
O Google afirma que o 2.0 Flash é duas vezes mais rápido que o modelo 1.5 Pro em certos benchmarks e apresenta melhorias significativas em áreas como programação e análise de imagem. A nova tecnologia substitui o 1.5 Pro como o principal modelo da série Gemini, graças às suas habilidades matemáticas superiores e maior precisão factual.
Além de gerar e modificar imagens junto ao texto, o Gemini 2.0 Flash também pode processar fotos, vídeos e gravações de áudio, respondendo a perguntas específicas sobre esses conteúdos. A geração de áudio, descrita como “orientável” e “personalizável”, permite ao modelo narrar texto com oito vozes otimizadas para diferentes sotaques e idiomas.
O Google está implementando a tecnologia SynthID para adicionar marca d’água em todos os áudios e imagens gerados pelo Gemini 2.0 Flash, sinalizando-os como criações sintéticas para mitigar abusos quanto ao uso, incluindo deepfakes.
Por fim, o Google está lançando a Multimodal Live API para ajudar desenvolvedores a criar aplicativos com streaming de áudio e vídeo em tempo real. Essa API permite a integração de ferramentas para realizar tarefas e pode lidar com padrões naturais de conversação, como interrupções.
O modelo 2.0 Flash já pode ser experimentado pelo app do Gemini disponível na App Store. Para mais informações sobre a nova versão da IA do Google, confira essa página.
Notas de rodapé
- 1Application programming interface, ou interface de programação de aplicações.