Diferenças em modelos de IA para geração de imagens

Olá pessoal, tudo bem com vocês?

Hoje vamos entender o que são modelos de geração de imagens, como eles funcionam, suas limitações, como utilizar, e como escolher o modelo mais aderente a sua necessidade.
Iremos analisar a mesma requisição de geração de imagens em cenários diferentes.

Tópicos

Plataforma de criação
Comunidade de geração de imagens com Inteligência Artificial
Modelo Flux
Gerando uma imagem com o modelo
Mudança de modelos

Plataforma de criação

Para realizar a criação das imagens, vamos utilizar um ambiente que permita uma fácil interação no qual não ficaremos dependentes da escrita ou análise de códigos.
Com esse fim, utilizaremos o Stability Matrix.

No qual disponibiliza uma interface gráfica de fácil instalação, atualização e escolha de interfaces gráficas como Stable Diffusion, ComfyUI, VoltaML e outros.

Link: https://github.com/LykosAI/StabilityMatrix

Realize a instalação da aplicação Stability Matrix seguindo os passos do link acima, conforme seu sistema operacional.
Em pacotes, escolha instalar a interface gráfica “Stable Diffusion WebUI Forge”.

Esta interface permite que os usuários interajam com o modelo de forma mais intuitiva, sem a necessidade de usar comandos de linha de comando.

A plataforma nos permite realizar diversas configurações que irão impactar na imagem gerada.
Na postagem de hoje iremos passar pelos mais básicos, para fornecer uma visão geral do funcionamento da ferramenta.

Iremos escolher um modelo, especificar um texto, escolher o tamanho da imagem que será gerada e escolher o método de exemplos.

Veremos como cada elemento impactará na geração final da imagem.

Comunidade de geração de imagens com Inteligência Artificial

Há uma ótima comunidade de geração de imagens com inteligência artificial, que é o Civitai, nela podemos ver os modelos disponíveis, avaliações, conteúdos compartilhados pelo usuário, além de podermos gerar nossas imagens na própria plataforma.

Comunidade Civitai: https://civitai.com/

Civitai é uma plataforma online que serve como um repositório e comunidade para modelos de inteligência artificial, especialmente aqueles relacionados à geração de imagens.

Você poderá pesquisar conteúdos para encontrar imagens / vídeos semelhantes ao que você deseja gerar. No contéudo geralmente é informado o modelo utilizado, qual foi o texto escolhido e outros parâmetros.

Você poderá encontrar na comunidade:

Modelos:
O que são: Modelos são conjuntos de dados treinados que podem ser usados para gerar imagens ou realizar outras tarefas de IA.
Uso: Os usuários podem baixar esses modelos para usar em suas próprias ferramentas de geração de imagens, como o Stable Diffusion.
Imagens:
Imagens geradas usando os modelos disponíveis na plataforma. Elas servem como exemplos do que cada modelo pode produzir.
Loras:
O que são: Loras são ajustes ou modificações específicas aplicadas a modelos base. Eles permitem que os usuários personalizem ou melhorem modelos existentes para atender a necessidades específicas.
Uso: Com Loras, é possível adaptar um modelo para gerar imagens em um estilo particular ou melhorar sua performance em certas tarefas.
Avaliações:
Feedback e classificações fornecidos pelos usuários da plataforma sobre os modelos e outros recursos disponíveis.

Modelo Flux

Olhando na comunidade encontramos um modelo Flux, desenvolvido pela Black Forest Labs, em sua página há alguns exemplos de imagens geradas e vemos a boa qualidade delas.

No menu direito vemos alguns detalhes, o tipo, que é um checkpoint.

Um checkpoint é como um ponto de salvamento para o modelo de IA. Ele guarda o que o modelo aprendeu até aquele momento.

Vamos também quantas pessoas baixaram e quantas utilizaram, e qual foi a opinião delas sobre o modelo.

Temos no flux um modelo altamente avaliado positivamente.

Vamos escolher ele para nossos testes. Iremos utilizar a versão ‘schnell’ que é disponível para geração comercial, sendo livre de direitos autorais, devido a base de dados utilizada para treinamento do modelo.

Gerando uma imagem com o modelo

Para comparar as diferenças entre modelos de inteligência artificial, especialmente em termos de geração de imagens, vamos colocar um texto bem detalhado que deixe variações visuais clara.
O que vamos querer gerar é:

Um castelo medieval em uma colina ao pôr do sol, com dragões voando ao redor e um rio brilhante correndo ao lado. O céu está cheio de estrelas começando a aparecer, e há uma floresta densa ao fundo.

O texto em inglês ficará como:

A majestic medieval castle perched atop a hill during a vibrant sunset. Several dragons are gracefully flying around the castle, their scales glistening in the fading light. A shimmering river winds its way beside the hill, reflecting the warm hues of the sunset. The sky is a tapestry of colors, with stars beginning to twinkle as night approaches. In the background, a dense forest stretches out, its trees silhouetted against the colorful sky

A primeira geração temos o seguinte resultado:

Vamos uma bela imagem retratando exatamente o que foi pedido.
As configurações que mais impactaram foi a escolha do tamanho da imagem, no qual escolhemos um tamanho grande de imagem 1000×1000.
Isso faz gerar uma imagem de melhor qualidade, vamos ver como é uma imagem menor.

Percebemos nesse caso uma imagem com menor qualidade e com algumas falhas, por exemplo no dragão, ele gerou incorretamente.

Quanto maior o tamanho da imagem, mais recursos computacionais serão utilizados e mais demorará para gerar a imagem.

Uma técnica interessante é se você não tem muita idéia do que precisa, você pode:

– Gerar pequenas imagens rapidamente e ir modificando o texto de geração, quando chegar próximo ao desejado, você aumenta o tamanho da imagem e obter um resultado com mais qualidade.

Mudança de modelos

Vamos agora utilizar outro modelo de geração de imagem, vamos manter o texto de geração exatamente igual porém vamos utilizar outro modelo.
Iremos utilizar o Absolute Reality, que é outro modelo muito bem avaliado na comunidade e com muitos downloads.

Executamos a geração de imagem e vemos um resultado completamente diferente do nosso primeiro modelo, isso se dá pela diferença no treinado e nas técnicas de geração de imagem de cada um.

Enquanto o flux para o mesmo prompt trouxe um estilo, o absolute reality buscou algo mais realistico, mostrando que o modelo tem essa característica.

Por isso é muito importante escolhermos corretamente o modelo para obter um resultado mais alinhado com o que precisamos.

E por hoje é só,

Espero que tenham gostado, até a próxima!