O melhor pedaço da Maçã.

O “Siri GPT” provavelmente não funcionará como você imagina

Tada Images / Shutterstock.com
Siri no iPhone

Nota rápida antes de começarmos: a Apple ainda não detalhou oficialmente seus planos envolvendo a Siri e LLMs. Para facilitar a vida, vou chamar isso de “Siri GPT” ao longo do texto, mas vale lembrar que esse é apenas um nome especulativo.

Você já reparou que, mesmo dentre empresas que possuem um ou mais produtos de inteligência artificial com base em LLMs1Large language models, ou grandes modelos de linguagem., ninguém lançou ainda um assistente virtual com IA2Inteligência artificial. nos moldes da Siri, da Alexa ou do Google Assistente?

Publicidade

A Microsoft foi quem chegou mais perto até agora, com a implementação do Copilot no Windows. Com ele, você pode utilizar a ferramenta para fazer pesquisas assim como faz via Bing Chat (que agora também se chama Copilot) na web, além de contar com algumas funcionalidades extras, como por exemplo fazer ajustes automáticos no sistema.

Por outro lado, o caso da Microsoft é um pouco excepcional. Primeiro, porque o uso de um assistente virtual no desktop é muito diferente do uso de um assistente virtual no celular.

E em segundo lugar, toda a base do Copilot é o ChatGPT, graças ao investimento multibilionário que a Microsoft fez na OpenAI. E como não existe a menor expectativa — neste momento — de a OpenAI gerar lucro, isso a coloca em uma posição de vantagem competitiva frente a empresas como a Apple, o Google e até mesmo a Meta quando o assunto é a oferta de bons produtos de IA para o grande público. Na prática, a OpenAI pode lançar produtos e funcionalidades, independentemente do quanto isso dê de prejuízo.

Quando custa o ChatGPT para a OpenAI?

Essa é uma informação que a OpenAI guarda sob sete chaves. Mas, em fevereiro de 2023, a SemiAnalysis publicou uma estimativa dizendo que cada prompt enviado ao ChatGPT custava em torno de US$0,36 à OpenAI.

Eles chegaram a esse valor calculando um custo operacional de US$694.444 por dia, graças em grande parte aos mais de 3.610 servidores GHX A100 e suas quase 30.000 GPUs3Graphics processing unit, ou unidade de processamento gráfico. em uso para o alimentar o ChatGPT. Estimaram, então, um uso médio de 2 mil tokens4Unidade de informação que compõe as palavras geradas ou interpretadas pelo modelo. Em média, uma palavra contém de um a dois tokens. por resposta, com 15 respostas por usuário, mas apenas 13 milhões de usuários ativos diários.

Isso, é claro, está muito distante da realidade do final de 2023, com bem mais do que 13 milhões de usuários ativos diários, e com a existência do modelo GPT-4 cujo acesso custa US$20 mensais (o que provavelmente ainda deixa a OpenAI no vermelho) no ChatGPT Plus.

Publicidade

Seja como for, uma coisa é fato: rodar algo como um ChatGPT seria caro demais para a Apple justificar para os seus acionistas.

Mas e o Google Assistente?

Para muitas pessoas, o segundo colocado na corrida dos LLMs é o Google. Ainda assim, a empresa vem implementando sua alternativa ao ChatGPT apenas em doses homeopáticas.

Publicidade

Na web, por exemplo, o Google Bard ainda está a anos-luz da entrega que o próprio Google promete quando o assunto é pesquisa. A qualidade das suas respostas é inferior à do ChatGPT, e não raro ainda é mais eficiente fazer uma pesquisa da forma tradicional.

Publicidade

Já no mundo móvel, o Google lançou nas últimas semanas o Gemini Nano, uma IA para alguns aparelhos da linha Pixel. Longe de ser um “Assistente com Bard” (mais sobre isso abaixo), suas funcionalidades permeiam o sistema com habilidades úteis, como por exemplo a possibilidade de resumir longas gravações de voz, um teclado preditivo mais eficiente, e diversas formas de fazer tratamento de fotos e vídeos.

YouTube video

Para o futuro, o Google planeja lançar uma funcionalidade chamada “Assistant with Bard”. Anunciado em outubro, durante o evento Made by Google, o recurso trouxe o primeiro vislumbre do que significará termos acesso a um assistente virtual com o poder de algo como o ChatGPT. Confira abaixo:

YouTube video

Na demonstração, a executiva Sissie Hsiao disse apenas que isso seria liberado “em breve” para “um grupo seleto de testadores”, antes de abrir “uma experiência opt-in dentro de alguns meses”. Ou seja, até mesmo o Google ainda não tem condições de bancar amplamente um assistente inteligente baseado em LLM e, quando isso acontecer, seu acesso será extremamente limitado por um tempo.

O que esperar, afinal de um “Siri GPT”?

Quando a Apple apresentou a Siri, em 2011, ela prometeu funcionalidades que, ironicamente, só se tornaram realmente possíveis com o advento do modelo GPT5Generative pre-trained transformer, ou transformador pré-treinado generativo.: uma verdadeira interação em linguagem natural, compreensão e permanência de contexto em intervalos mais longos de conversas, e a capacidade de personalizar as respostas de acordo com o contexto do usuário.

YouTube video

Apesar de termos criado a expectativa de que um dia a Siri se tornaria tão útil quanto usar o Google, a verdade é que esse nunca foi o objetivo da Apple. Prova disso é sua perene incompetência para responder a perguntas básicas que ousem ir além de “Vai chover?” ou “Qual é o meu próximo compromisso?”.

Por isso, a notícia de que a Apple, junto do resto do mercado, foi pega de surpresa com o lançamento do ChatGPT não surpreendeu. Mas a falta de notícias sobre o que ela faria em relação a isso, aí sim, preocupou.

Com isso em mente, reportagem de Mark Gurman a qual disse que a Apple vinha trabalhando em algo nos moldes de um “Apple GPT” trouxe um certo alívio. Mas, agora que já sabemos um pouco mais sobre o funcionamento, as possibilidades e os custos de rodar e manter um LLM, acho que chegou o momento de ajustarmos um pouco as expectativas do que isso realmente possa significar.

Adotar um LLM como a base da Siri seria custoso. Tanto do ponto de vista de estrutura e capacidades de hardware (falei sobre isso na coluna da semana passada), quanto do ponto de vista financeiro, a exemplo da estimativa de custo do ChatGPT.

Por isso, não me parece provável que a Apple tenha a intenção de nos oferecer uma espécie de ChatGPT de bolso, com as mesmas possibilidades (e riscos, como por exemplo, as alucinações6Eufemismo técnico para quando a IA inventa alguma coisa.) disponibilizadas hoje em dia pela OpenAI.

Em vez disso, o verdadeiro poder de algo como um “Siri GPT” provavelmente se apoiará em dois pilares: integração com o sistema, e fine-tuning com os dados do usuário7Ou ajuste fino, termo usado para a técnica de complementar os dados gerais de treinamento de um modelo, com dados mais específicos e relacionados com a tarefa que aquele modelo em particular terá de cumprir..

A integração com o sistema

Este é um ponto que a Microsoft já abordou, de certa forma, com o Windows Copilot. Imagine um ChatGPT treinado em 100% dos documentos de ajuda e manuais de uso de todas as funcionalidades, opções, programas e ajustes do Windows. E agora imagine que, além de ter toda essa base de conhecimento, esse ChatGPT também seja capaz de ativar, desativar ou combinar funcionalidades de forma proativa e automática, sem a necessidade da supervisão ou da interação do usuário.

YouTube video

Isso, em parte, já é possível fazer hoje em dia com automações. Quem já usou o app Atalhos (Shortcuts) no iOS, ou então programas mais poderosos no macOS — como por exemplo o nativo Automator ou o Keyboard Maestro — sabe que automações podem agilizar muito o nosso dia a dia. Mas em todos esses casos, é necessário que a pessoa tenha o conhecimento técnico a familiaridade com as possibilidades de cada ferramenta (incluindo linguagens de programação, em alguns casos) para criar as automações.

Com a ajuda das IAs, toda essa complexidade poderá ser abstraída para o usuário, ficando a cargo do sistema. Em breve, pedidos como o exemplificado pela Microsoft: “Me ajude a ajustar o sistema para me deixar mais produtivo”, em que o Windows já liga um timer, troca o sistema para o Modo Escuro, abre os programas de trabalho e os configura na tela dividia de acordo com a preferência do usuário, serão lugar-comum.

Especialmente no caso do iOS, em que os apps praticamente não têm acesso ao sistema, apenas uma IA nativa e feita pela própria Apple poderá oferecer esse nível de automação e inteligência de forma segura e integrada, sendo verdadeiramente útil. (Existe uma questão de anticompetitividade aqui, mas isso fica para outro dia.)

O fine-tuning com os dados do usuário

Aqui, sim, está o maior potencial da utilidade de um possível “Siri GPT”.

Imagine que, além de treinar a IA com todos os aspectos de integração com o sistema descritos acima, essa IA também seja treinada com todos os arquivos, documentos, fotos, emails, mensagens, localizações, hábitos de uso, etc., etc., etc. do usuário. Tudo isso feito localmente, sem a necessidade de acesso à internet, assim como já acontece hoje com a indexação de documentos e seus conteúdos no Finder do macOS, ou então o reconhecimento de pessoas, animais, objetos e lugares no app Fotos.

Ao treinar sua IA para funcionar como, basicamente, um ChatGPT específico da vida e do contexto de cada usuário, a Apple tem a oportunidade de criar o que seria, verdadeiramente, o assistente mais pessoal do mundo, da forma segura e privada que apenas ela tem a possibilidade técnica (além da confiança da maioria dos usuários) para oferecer.

O “Siri GPT” provavelmente não será uma única coisa

Este é um ponto que, de certa forma, já está virando padrão no mercado. A Microsoft, por exemplo, resolveu adotar o Copilot para todos os seus produtos e recursos de IA. Da ferramenta de criação de imagens do Paint, ao assistente de busca na web, passando pelas IAs do Word e do GitHub, ela vem empacotando tudo isso apenas como “Copilot”. Com isso, em vez de precisar explicar cada nova função como se fosse uma IA diferente, ela diz que existe apenas uma IA, e que essa IA sabe fazer coisas diferentes em softwares ou contextos diferentes.

Já o Google, coitado, é o contraponto a essa simplicidade apresentada pela Microsoft. Ele, que sempre teve dificuldade para batizar seus produtos de forma consistente, oferece o Bard, tem o recém-anunciado Gemini que parece ser o sucessor do modelo PaLM, e que se divide em Ultra, Pro e Nano. Algumas IAs sabem resumir mensagens de áudio, outras sabem aplicar filtros em fotos, outras varrem a web em busca das informações solicitadas pelo usuário, etc. Confuso, né? Não parece ser o caminho que a Apple seguiria.

Na verdade, no caso da Apple, ela já vinha adotando com a Siri a mesma estratégia que a Microsoft adotou para o Copilot. A Siri da Apple TV é diferente da Siri do iOS, que é diferente da Siri do Apple Watch, e assim por diante. Além disso, há funcionalidades como as “Sugestões da Siri” do iOS ou do watchOS, que trazem o nome Siri apenas por serem resultado de uma análise de conteúdos para oferecer uma sugestão inteligente ao usuário.

Quando o assunto é a resposta da Apple para o ChatGPT, há quem diga que o nome Siri já está envenenado demais para a Apple conseguir salvar. Daí, talvez, venha a ideia do nome “Apple GPT”. Fato é que, independente do nome, esse LLM provavelmente não será exatamente como muitos imaginam. E talvez, ironicamente, esse se torne o seu maior diferencial.

Notas de rodapé

  • 1
    Large language models, ou grandes modelos de linguagem.
  • 2
    Inteligência artificial.
  • 3
    Graphics processing unit, ou unidade de processamento gráfico.
  • 4
    Unidade de informação que compõe as palavras geradas ou interpretadas pelo modelo. Em média, uma palavra contém de um a dois tokens.
  • 5
    Generative pre-trained transformer, ou transformador pré-treinado generativo.
  • 6
    Eufemismo técnico para quando a IA inventa alguma coisa.
  • 7
    Ou ajuste fino, termo usado para a técnica de complementar os dados gerais de treinamento de um modelo, com dados mais específicos e relacionados com a tarefa que aquele modelo em particular terá de cumprir.

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

MM Fórum: riscos no iPhone 15 Pro Max, ID Apple desativado e mais!

Próx. Post

iPhones 15, Macs, HomePod… os 5 maiores lançamentos da Apple em 2023

Posts Relacionados