O melhor pedaço da Maçã.

Gemini 2.0: IA do Google agora fala, gera imagens, está mais rápida e segura

Gemini 2.0

O Google anunciou hoje a mais nova versão do seu modelo de inteligência artificial, o Gemini 2.0 Flash — o qual, segundo a empresa, pode gerar imagens e áudio nativamente, além de texto. Ele também possui a capacidade de utilizar aplicativos e serviços de terceiros, permitindo acesso à pesquisa do Google, execução de códigos e muito mais.

Publicidade

A partir de hoje, uma versão experimental do Gemini 2.0 Flash está disponível através da API 1Application programming interface, ou interface de programação de aplicações. do Gemini e das plataformas de desenvolvedores de IA do Google, como o AI Studio e o Vertex AI. No entanto, os recursos de geração de áudio e imagem serão lançados inicialmente apenas para parceiros com acesso antecipado, enquanto uma implementação mais ampla está prevista para janeiro.

Apresentando o Gemini 2.0, nosso modelo de IA mais capaz já projetado para a era dos agentes. O Gemini 2.0 traz desempenho aprimorado, mais multimodalidade e novo uso de ferramentas nativas.

Nos próximos meses, o Google planeja incorporar o Gemini 2.0 Flash em diversos produtos, incluindo o Android Studio, o Chrome DevTools, o Firebase e o Gemini Code Assist.

O modelo de primeira geração, chamado de Gemini 1.5 Flash, pode gerar apenas texto e não foi projetado para cargas de trabalho especialmente exigentes. O novo modelo, no entanto, é mais versátil, uma vez que pode interagir com APIs externas. Tulsee Doshi, chefe de produto do Gemini, destacou que o 2.0 Flash é popular entre os desenvolvedores pelo equilíbrio entre velocidade e desempenho — agora aprimorado com ainda mais poder.

O Google afirma que o 2.0 Flash é duas vezes mais rápido que o modelo 1.5 Pro em certos benchmarks e apresenta melhorias significativas em áreas como programação e análise de imagem. A nova tecnologia substitui o 1.5 Pro como o principal modelo da série Gemini, graças às suas habilidades matemáticas superiores e maior precisão factual.

Estamos dando início à nossa era Gemini 2.0 com o Gemini 2.0 Flash, que supera o 1.5 Pro em benchmarks importantes com 2x velocidade (veja o gráfico abaixo). Estou especialmente animado para ver o rápido progresso na programação, com mais por vir. Desenvolvedores podem testar uma versão experimental no AI Studio e no Vertex AI hoje. Também está disponível para teste no @GeminiApp na web hoje, em breve no celular.

Além de gerar e modificar imagens junto ao texto, o Gemini 2.0 Flash também pode processar fotos, vídeos e gravações de áudio, respondendo a perguntas específicas sobre esses conteúdos. A geração de áudio, descrita como “orientável” e “personalizável”, permite ao modelo narrar texto com oito vozes otimizadas para diferentes sotaques e idiomas.

O Google está implementando a tecnologia SynthID para adicionar marca d’água em todos os áudios e imagens gerados pelo Gemini 2.0 Flash, sinalizando-os como criações sintéticas para mitigar abusos quanto ao uso, incluindo deepfakes.

Por fim, o Google está lançando a Multimodal Live API para ajudar desenvolvedores a criar aplicativos com streaming de áudio e vídeo em tempo real. Essa API permite a integração de ferramentas para realizar tarefas e pode lidar com padrões naturais de conversação, como interrupções.

O modelo 2.0 Flash já pode ser experimentado pelo app do Gemini disponível na App Store. Para mais informações sobre a nova versão da IA do Google, confira essa página.

Notas de rodapé

  • 1
    Application programming interface, ou interface de programação de aplicações.

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

macOS Sequoia 15.2 “dedura” MacBooks Air com chip M4

Próx. Post

Microsoft facilita o compartilhamento de arquivos entre iOS e Windows

Posts Relacionados