O melhor pedaço da Maçã.

Apple lança MGIE, modelo MLLM de IA para edição de imagens por comandos

Shutterstock.com
Inteligência artificial (cérebro flutuando sobre uma mão)

A Apple lançou nesta semana um modelo de inteligência artificial de código aberto chamado MGIE — a sigla significa MLLM-Guided Image Editing, ou Edição de Imagem Guiada por Largo Modelo de Linguagem Multimodal. Com o modelo, é possível editar vários aspectos de imagens a partir de comandos, assim como em ferramentas de geração de imagem e texto, como ChatGPT e Midjourney.

Publicidade

Vale lembrar que a empresa já havia lançado um outro modelo de IA que lida com imagens, o Ferret, no fim do ano passado. Assim como no caso do anterior, o MGIE foi desenvolvido por meio de uma colaboração entre a Apple e pesquisadores (neste caso, da Universidade da Califórnia Santa Barbara).

O resultado da pesquisa foi descrito em um artigo e apresentado em uma conferência com proeminência no campo de IA neste ano. No texto, é demonstrada a efetividade do modelo em melhorar a avaliação humana e a medição automática, mesmo mantendo uma eficiência inferencial competitiva.

Como destacado pelo VentureBeat, o MGIE integra o MLLM à tarefa de edição de imagens — algo pouco explorado até então — usando o modelo para derivar as instruções dadas pelo usuário com o comando, informando o que deve ser feito na imagem para atingir o resultado desejado.

Os MLLMs são, então, usados para gerar imaginações visuais, que são representações da edição pretendida, as quais capturam a essência da edição e podem guiar a manipulação de pixels. O MGIE usa um novo esquema de treinamento de ponta a ponta que otimiza esses processos e os módulos de edição de imagens.

O modelo é capaz de realizar uma série de ajustes em fotografias, desde mudanças mais abrangentes a outras em áreas específicas das imagens. Além de edições convencionais em aspectos como rotação, corte, otimização, melhoria da qualidade, brilho, cor, contraste e afins, pode-se retirar objetos, fundir imagens, modificar planos de fundo, bem como realizar modificações mais específicas a partir dos comandos, como mudar o tom do pôr do sol em uma foto, por exemplo.

Em regiões específicas, é possível editar rostos, olhos, cabelos, roupas e acessórios, e também modificar atributos como forma, cor e tamanho. A ferramenta é capaz, ainda, de inserir efeitos artísticos, como desenhos e afins. Após o modelo retornar a imagem editada a partir do comando, o usuário pode fornecer feedback e refinar as instruções.

O MGIE está disponível como projeto de código aberto no GitHub com o código, modelos pré-treinados e demonstrações, e pode ser testado nesse site. A ferramenta foi feita para ser fácil de ser personalizada e pode ser integrada a outros aplicativos ou plataformas. Vale notar que o modelo ainda se encontra em seus estágios iniciais e ainda há bastante espaço para melhorias.

O lançamento do modelo é um avanço importante em matéria de IA, na medida em que permite uma grande flexibilidade em termos de edições baseadas em instruções, abrindo as portas para a criatividade. O desenvolvimento da ferramenta também é parte dos esforços da Apple no âmbito da IA, que deverão ter também como resultado novos recursos na Siri e em outras áreas dos seus sistemas.

Ver comentários do post

Compartilhe este artigo
URL compartilhável
Post Ant.

Adeus, iTunes! Aplicativos Apple Music e TV são enfim lançados no Windows

Próx. Post

“Manhunt”: minissérie do Apple TV+ ganha trailer

Posts Relacionados