O melhor pedaço da Maçã.

A IA generativa ainda vai salvar a sua vida

Em 2017, um grupo de oito pesquisadores do Google publicou um estudo chamado “Attention Is All You Need” 1Ou “Atenção é Tudo o que Você Precisa”., que apresentava o Transformer; uma nova forma de lidar com algo que a comunidade de aprendizado de máquina chamava de mecanismo de atenção.

Publicidade

Em linhas gerais, o mecanismo de atenção funcionava assim: para um conjunto grande de dados a ser usado em um modelo, o mecanismo designava diferentes notas de importância (ou pesos) para cada parte desses dados. Com isso, dependendo da tarefa a ser executada, o modelo priorizava esses dados de modo que os mais relevantes recebessem pesos maiores e, assim, sinalizassem que mereciam mais atenção na hora de processá-los.

O mecanismo de atenção foi essencial para permitir o nascimento ou a evolução de tecnologias como o processamento de linguagem natural (NLP) e os sistemas de recomendação com base na identificação das preferências de usuários. Mas ele também trazia consigo algumas limitações.

YouTube video
Este vídeo do Google Cloud explica a parte mais técnica do mecanismo de atenção, incluindo etapas de codificação e decodificação.

Primeiro, em modelos que usavam o mecanismo de atenção, os dados eram processados de forma sequencial, ou seja, token 2Tokens são parecidos com sílabas, mas com uma lógica diferente na forma de dividir as palavras. Em média, cada palavra costuma ter de 2 a 3 tokens. por token. Isso tornava o processamento bastante lento, especialmente no caso de sequências muito longas 3Estou simplificando bastante aqui. Para ser preciso, a limitação não era do mecanismo de atenção em si, mas dos modelos anteriores, como redes recorrentes, que usavam a atenção como parte do processamento sequencial..

Em segundo lugar, o modelo tinha dificuldade de “lembrar” dos tokens que estivessem muito distantes uns dos outros na sequência, o que exacerbava as limitações ao lidar com sequências longas. Ele podia funcionar relativamente bem para frases curtas, mas enfrentava problemas significativos e se perdia ao tentar processar múltiplos parágrafos.

E foi nesse contexto que surgiu o estudo “Attention Is All You Need”, que resolveu esses (e muitos outros) problemas. Com o Transformer, eles propuseram uma nova arquitetura que eliminou a dependência das redes recorrentes, e passou a basear toda a estrutura apenas no mecanismo de atenção. Com isso, o processamento dos dados tornou-se paralelizável, algo que as GPUs 4Graphics processing units, ou unidades de processamento gráfico. conseguem executar com facilidade, diferentemente da forma sequencial típica de processamento de CPUs 5Central processing units, ou unidades centrais de processamento..

YouTube video
Lex Fridman e Andrej Karpathy (cofundador da OpenAI) discutem os avanços proporcionados pelo estudo “Attention Is All You Need”.

Além disso, o novo mecanismo eliminava o problema da perda de desempenho em casos de tokens muito distantes entre si, já que toda a análise era feita simultaneamente. Na prática, se você está paralelizando todo o processo, a distância entre os tokens torna-se quase irrelevante.

Publicidade

A publicação do estudo caiu como uma bomba no mundo do aprendizado de máquina. Originalmente, a turma do Google havia desenvolvido o Transformer com a função de traduções em mente, mas não demorou para surgirem implementações diferentes.

O próprio Google, por exemplo, anunciou no ano seguinte o BERT 6Bidirectional Encoder Representations from Transformers, ou Representações Codificadoras Bidirecionais de Transformers., desenvolvido para aplicar o Transformer em NLP.

YouTube video
Vídeo demonstra como o BERT foi usado pela ferramenta de busca do Google.

Já a (então) desconhecida OpenAI publicou, também em 2018, um estudo chamado “Improving Language Understanding by Generative Pre-Training” 7Ou “Melhorando a Compreensão de Linguagem por Meio de Pré-Treinamento Generativo”.. Ali, nascia o GPT 8Generative Pre-Trained Transformer, ou Transformer Generativo Pré-Treinado., como uma forma de aplicar o Transformer na compreensão de linguagem sem a necessidade de fazer o modelo passar por um processo supervisionado de treinamento. Soa complicado, e de fato é. Mas foi algo gigante, porque abriu caminho para o ChatGPT.

O boom do ChatGPT

No idioma português, as normas ortográficas ditam que a letra “Q” é sempre seguida pela letra “U” 9Há exceções para nomes próprios e estrangeirismos.. Isso quer dizer que, se você estiver jogando Termo e acertar a posição da letra “Q”, você muito provavelmente terá sucesso se chutar a letra “U” no quadrado seguinte.

No fundo, a lógica acima explica o funcionamento do ChatGPT, mas em uma escala muito maior. Ao ser exposto a um volume gigantesco de textos, o modelo aprende a calcular a probabilidade que cada token tem de ser o fragmento seguinte de um texto, como se estivesse prevendo que depois de um “Q”, provavelmente vem um “U”.

YouTube video
Tá com tempo? Aqui vai um vídeo de 3 horas de duração em que Stephen Wolfram, um dos papas da Ciência da Computação, explica o funcionamento do ChatGPT. Ele também tem um livro publicado gratuitamente que faz o mesmo. Leitura obrigatória para quem se interessa pelo assunto.

Quando você pergunta algo, ele analisa todos os tokens da sua pergunta e calcula qual deve ser o primeiro token da resposta dele. Em seguida, ele recalcula tudo (incluindo o primeiro token dele) para prever o segundo token, e assim por diante.

Publicidade

Um detalhe interessante que fez o ChatGPT dar tão certo foi o fato de que ele nem sempre opta por escolher o token mais provável para dar sequência à geração do texto. Por vezes, ele pode optar por escolher o segundo ou o terceiro colocado na lista de probabilidade, o que lhe confere o ar de “criatividade” que surpreendeu o mundo com seu lançamento, em dezembro de 2022.

Àquela altura, o GPT já estava na versão 3.5, mas o ChatGPT ofereceu um primeiro contato a milhões de pessoas que ou não sabiam da existência do GPT-1, do GPT-2 e do GPT-3, ou que não tinham intimidade com instalação e execução local de modelos, Python, etc. Meu caso, inclusive.

Só melhora

Agora que estabelecemos que (sendo bem reducionista) o Transformer é muito bom para calcular a relação matemática entre tokens para compor textos inteiros, vem a melhor parte: isso não se aplica somente a textos. E é aqui que coisa começa a ficar ainda mais empolgante.

Na divisão DeepMind do Google, por exemplo, os pesquisadores usam no modelo AlphaFold uma variação do Transformer chamada Evoformer 10Combinada, dentre outras coisas, com um modelo de difusão, que é a mesma tecnologia de IA generativa usada por ferramentas como o modelo de imagens DALL·E, da OpenAI. para basicamente prever o formato de uma proteína, com base na sua sequência de aminoácidos que pode ser representada pelas letras “A”, “C”, “D”, “E”, “F”, “G”, “H”, “I”, “K”, “L”, “M”, “N'”, “P”, “Q”, “R”, “S”, “T”, “V”, “W”, “Y” 11Além de alguns caracteres ambíguos, como “B”, “J”, “X” e “Z”..

Tentar prever o formato de uma proteína é algo essencial no mundo da medicina, por exemplo, porque a eficácia de alguns medicamentos depende da forma como seus compostos se conectam com outras proteínas para combater uma doença ou um agente invasor.

YouTube video
DeepMind explica o funcionamento do AlphaFold.

Pense na vacina contra o vírus SARS-CoV-2. Uma das partes do vírus é uma proteína que foi batizada de Spike. O vírus usa essa proteína para se conectar e entrar na célula do hospedeiro. Com a vacina, o corpo passa a produzir anticorpos que têm o formato exato para se acoplar perfeitamente à proteína Spike, essencialmente criando uma barreira física que impede a Spike de entrar em contato direto com a célula.

E para ser claro: a vacina contra o SARS-CoV-2 não foi desenvolvida com a ajuda do Transformer. Mas além de ser uma boa ilustração de como o desenvolvimento correto de uma nova proteína pode ser eficaz contra uma ameaça, um estudo de 2021 mostrou que, com a ajuda do AlphaFold 2, foi possível descobrir novos detalhes a respeito de outra proteína do vírus, o que possibilitou mais avanços nas suas formas de combate.

Tudo isso para dizer o quê? Que entender e dominar a estrutura tridimensional de uma proteína permite antecipar como (ou se) ela poderá interagir com outros compostos. Isso abre caminho para o desenvolvimento de tratamentos cada vez mais precisos e eficazes, contribuir para a criação de terapias personalizadas e direcionadas, além do avanço da biotecnologia como um todo.

Além do exemplo citado acima, o AlphaFold tem possibilitado avanços incríveis na compreensão do próprio proteoma humano. Antes, apenas 17% das proteínas humanas tinham suas estruturas tridimensionais conhecidas. Agora, mais de 98% das nossas proteínas já têm sua estrutura prevista. O potencial disso no combate direcionado a doenças é absolutamente gigantesco.

Mas não é só de AlphaFold que vive esse aspecto da evolução da medicina. Recentemente, um grupo de 29 pesquisadores de faculdades e de institutos médicos de Stanford, de Harvard, do MIT, além de hospitais como o Massachusetts General Hospital e o Cedars-Sinai Medical Center, apresentaram o CHIEF 12Clinical histopathology Imaging Evaluation Foundation, ou Fundação de Avaliação de Imagens em Histopatologia Clínica.: um modelo fundacional que foi capaz de detectar múltiplos tipos de câncer (incluindo de cólon, esôfago, estômago, colo do útero, mama, endométrio, próstata, rim, pele, pâncreas e pulmão) com até 96% de precisão.

Como se isso não fosse suficiente, o CHIEF também superou o desempenho de modelos atuais nos campos de prognóstico e previsão do perfil genético do câncer. De quebra, ele também identifica com precisão características importantes do tecido que envolve a lesão e que são essenciais na hora de medir a resposta de diferentes pacientes a métodos de tratamento como cirurgia, imunoterapia, radioterapia ou quimioterapia. Com isso, ele também faz previsões mais certeiras a respeito da resposta ao tratamento.

Como o CHIEF faz tudo isso? Por meio de modelos baseados justamente em Transformers e no mecanismo de atenção. Parte do seu treinamento envolveu nada menos do que 15 milhões de fragmentos de imagens de biópsias, além de 60.500 imagens completas de 1 gigapixel cada. O resultado é a aplicação do mecanismo de atenção em cima de novas imagens de biópsia, e que consegue fazer todas as detecções que eu citei acima com precisões que, dependendo do caso, beiram os 100%.

Aqui vai uma leitura extra: usando uma arquitetura chamada Surgical Robot Transformer 13Ou Transformer para Robô Cirúrgico, uma equipe de pesquisadores da Universidade Johns Hopkins e da Universidade de Stanford desenvolveu um modelo que aprendeu técnicas cirúrgicas por imitação, utilizando dados clínicos. Com o modelo em ação, um robô do Sistema Cirúrgico da Vinci foi capaz de manipular tecidos, operar agulhas e dar nós com precisão, sem a necessidade de ajustes manuais nos dados. De quebra, ele exibiu sinais de generalização, o que significa a habilidade de executar outros tipos de tarefas, além das usadas durante o aprendizado.

YouTube video
Demonstração do Surgical Robot Transformer

O futuro é sintético

Há tempos, circula na web a teoria de que, mais cedo ou mais tarde, a humanidade esgotará a quantidade de dados disponíveis para treinar novos modelos, e que a solução será usar dados gerados pela própria IA, colapsando a coisa toda.

Felizmente, não parece que esse será o caso. Digo, é verdade que estamos perto de esgotar a quantidade de dados orgânicos disponíveis para treinar a próxima geração de modelos, mas a comunidade de pesquisa de aprendizado de máquina vem se mostrando cada vez mais otimista quanto ao uso de dados sintéticos 14Que sim, soa como um baita eufemismo para dados inventados. Mas esse é o termo técnico que eles usam, e eles — que vivem disso e que sabem do que estão falando — realmente estão otimistas..

O primeiro sinal de otimismo que caiu no meu radar foi um estudo publicado por sete pesquisadores da Universidade de Stanford, incluindo Rafael Rafailov, com quem eu já tive a oportunidade de conversar. O estudo mostra que, dependendo da quantidade de dados reais disponíveis, incorporar uma certa quantidade de dados sintéticos acaba por melhorar a qualidade final do modelo. Um alerta importante feito pelos estudiosos é que acumular dados reais e sintéticos é melhor do que usar apenas dados sintéticos, mas que essencialmente o colapso desses modelos não é tão inevitável com o uso de dados sintéticos quanto se pensava inicialmente.

Já o segundo e o terceiro vieram nos últimos dias, em que eu tive a oportunidade de conversar com Carine Savalli, pesquisadora do LABDAPS-USP (Laboratório de Big Data e Análise Preditiva em Saúde, da Faculdade de Saúde Pública da USP), e também com (e aqui vai um spoiler) Junhan Zhao, um dos pesquisadores responsáveis pelo CHIEF. Eu perguntei a ambos se há espaço para o uso de imagens sintéticas na evolução de modelos de IA relacionados a saúde, e ambos responderam inequivocamente que sim.

Savalli, inclusive, citou especificamente IA generativa como uma das ferramentas que mais poderá contribuir para isso, com a geração de imagens para o treinamento de modelos, enquanto Zhao disse que já vivemos numa realidade em que muitos especialistas em histopatologia não conseguem diferenciar entre imagens reais e sintéticas de tecidos com câncer, e isso representa um grande avanço na capacidade de geração dessas imagens para o uso de modelos ainda maiores e mais capazes.

Resumo da ópera

Leitores mais atentos notarão que absolutamente tudo o que eu citei aqui sequer existia há dez anos. O estopim para todas essas evoluções foi o advento do Transformer apenas em 2017, mas, ainda assim, estamos prestes a entrar em 2025 com avanços tecnológicos embaixo do braço que até bem recentemente não eram previstos para acontecerem antes da próxima década.

É verdade que existe um exagero sobre o potencial da IA generativa? É claro que sim! Porém, quanto mais você compreende sobre ela, mais ficam claros os campos em que ela de fato poderá trazer benefícios incalculáveis. A saúde é um deles.

Da mesma forma, também me parece verdade que estejamos vivendo um momento de bolha. Como uma executiva da Microsoft admitiu para mim recentemente (e estou parafraseando), “atualmente é praticamente impossível conseguir investimento se a sua empresa não tiver algo de IA”. A ironia é que o mercado investidor é quem mais teme e quem mais tem a perder com uma bolha de IA, mas ao mesmo tempo é quem mais a fomenta. ¯\_(ツ)_/¯

Dito tudo isso, é absolutamente ignorante dispensar o momento atual como só uma fase, ou como algum tipo de automação gourmet. Esse tipo de reducionismo fácil acaba por esvaziar as contribuições gigantescas que pessoas extremamente inteligentes e dedicadas vêm fazendo em diversos setores, especialmente o da saúde.

A essa altura, já não parece mais ser uma questão de se, mas sim de quando um medicamento, um tratamento ou um diagnóstico apoiado nessa nova era de IAs irá salvar a sua vida. E se esse tipo de tecnologia não merece ser abordado com a frequência, o respeito e a mais absoluta reverência, eu sinceramente não sei o que merece.

Notas de rodapé

  • 1
    Ou “Atenção é Tudo o que Você Precisa”.
  • 2
    Tokens são parecidos com sílabas, mas com uma lógica diferente na forma de dividir as palavras. Em média, cada palavra costuma ter de 2 a 3 tokens.
  • 3
    Estou simplificando bastante aqui. Para ser preciso, a limitação não era do mecanismo de atenção em si, mas dos modelos anteriores, como redes recorrentes, que usavam a atenção como parte do processamento sequencial.
  • 4
    Graphics processing units, ou unidades de processamento gráfico.
  • 5
    Central processing units, ou unidades centrais de processamento.
  • 6
    Bidirectional Encoder Representations from Transformers, ou Representações Codificadoras Bidirecionais de Transformers.
  • 7
    Ou “Melhorando a Compreensão de Linguagem por Meio de Pré-Treinamento Generativo”.
  • 8
    Generative Pre-Trained Transformer, ou Transformer Generativo Pré-Treinado.
  • 9
    Há exceções para nomes próprios e estrangeirismos.
  • 10
    Combinada, dentre outras coisas, com um modelo de difusão, que é a mesma tecnologia de IA generativa usada por ferramentas como o modelo de imagens DALL·E, da OpenAI.
  • 11
    Além de alguns caracteres ambíguos, como “B”, “J”, “X” e “Z”.
  • 12
    Clinical histopathology Imaging Evaluation Foundation, ou Fundação de Avaliação de Imagens em Histopatologia Clínica.
  • 13
    Ou Transformer para Robô Cirúrgico
  • 14
    Que sim, soa como um baita eufemismo para dados inventados. Mas esse é o termo técnico que eles usam, e eles — que vivem disso e que sabem do que estão falando — realmente estão otimistas.

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

MM Fórum: película para iPhone, barra vertical, captura de tela com áudio e mais!

Próx. Post

Conheça 3 maneiras de fazer ligações de voz em grupo no WhatsApp

Posts Relacionados