ComfyUI vs Fooocus, para GenAI em GPUs Intel® Arc™

por Conteúdo |

Duas ferramentas populares de difusão estável, que não poderiam ser mais diferentes.

No verão passado, publiquei um artigo sobre três ferramentas de difusão estável para serem executadas em seu PC, com suporte para GPUs Intel Arc. E, como acontece com a IA, muita coisa avançou. Felizmente, as estruturas e extensões de software da Intel não só permitiram que os recursos mais recentes, como o LCM LoRas rápido, fossem executados nas GPUs Intel Arc, como também oferecemos suporte a mais ferramentas GenAI do que há seis meses.

Neste artigo, abordarei dois webui adicionais para o Stable Diffusion. Ambos são mais avançados do que os que vimos anteriormente e, dependendo do tipo de usuário que você é, um deles provavelmente será a escolha certa para você.

Mas essas novas ferramentas não poderiam ser mais diferentes. Elas estão nos extremos do espectro quando se trata de complexidade e experiência do usuário. O Fooocus é uma interface simples em que as alterações de configuração geralmente são feitas para você, enquanto a ComfyUI tem o poder de um sistema de nós que permite infinitas configurações e fluxos de trabalho personalizados.

Dê uma olhada no vídeo abaixo, no qual mostro como usar cada interface, e continue lendo para obter detalhes e recursos de cada ferramenta. Uma delas pode ser a ferramenta certa para você, e ambas funcionam muito bem usando GPUs Intel Arc discretas. Os detalhes de instalação e suporte estão relacionados abaixo.

Fooocus WebUI:  O webui do Fooocus deve ser a combinação mais interessante de recursos avançados de difusão de imagem e, ao mesmo tempo, uma interface simples e discreta. O Fooocus se diferencia por automatizar muitas etapas que, de outra forma, seriam feitas manualmente pelo usuário. À medida que novos modelos, refinadores e outras técnicas são adicionados à IA generativa, o Fooocus trabalha para facilitar o trabalho. Por exemplo, o Fooocus vem automaticamente com o modelo JuggernaughtXL, que é um excelente modelo multiuso para gerar imagens realistas, cinematográficas e de arte conceitual. Além disso, o Fooocus automatiza recursos como a adição de um refinador para que o resultado seja mais limpo e detalhado. E ao alternar entre SDXL e SDXL com LCM, você só precisa clicar em um botão. Na maioria das outras interfaces de usuário, você faz pelo menos 3 a 5 alterações de configuração ao fazer essa troca. Por fim, o Fooocus tem um dos melhores recursos de entrada de imagem de qualquer ferramenta, especialmente para outpainting, em que você pode estender uma imagem em qualquer direção, adicionando conteúdo que não estava na imagem original.

UI-Image-1

Resumindo, se você quiser algo fácil de usar, altamente intuitivo e que permita recursos avançados e personalização conforme sua necessidade, este é o webui para você. 

Recursos que se destacam

  • Interface simples e limpa, que não sobrecarrega e é muito intuitiva.
  • Saída SDXL. Por padrão, todas as imagens geradas são de alta resolução.
  • Configuração inteligente em que as melhores e mais infalíveis opções de configuração são feitas para você.
  • Instala-se com o modelo Juggernaut SDXL. (não é necessário fazer download do Hugging Face do CivitAI)
  • Recursos de outpainting e inpainting avançados e fáceis de usar.
  • Caixa de seleção simples para 3 velocidades/qualidade de geração de imagem: Rápida (20 amostras), Qualidade (60 amostras), Extremamente rápida (8 amostras LCM Fast LoRa)
  • Opções de estilo que direcionam a saída para visuais e estilos específicos
  • Recursos avançados e de desenvolvedor ocultos, mas acessíveis, que permitem substituir os padrões, possibilitando o ajuste fino da saída

Instruções de instalação e tópico de discussão no Intel Insiders Discord (somente para GPUs discretas)

ComfyUI: No outro extremo do espectro está a cada vez mais popular ferramenta ComfyUI para geração de imagens. Se você assiste a muitos vídeos sobre Stable Diffusion como eu, vi muitos YouTubers mudando do A1111 para o ComfyUI, pois ele suporta um conjunto mais profundo de personalizações com nós personalizados da comunidade. Essa ferramenta é perfeita para quem gosta de mexer nas configurações e ultrapassar os limites do que a atual tecnologia GenAI pode fazer. É uma webui poderosa e estamos apenas arranhando a superfície do que essa ferramenta pode fazer por você.

UI-Image-2

O que diferencia a ComfyUI de outras ferramentas é o uso de um sistema de nós visuais para definir como você deseja gerar sua imagem ou vídeo. Se você conhece o Unreal Engine, o Blender e o Unity, os sistemas de nós são um método de programação visual que não requer codificação. Isso é feito conectando-se a saída de uma função de nó e ligando-a à entrada de outra função de nó. As saídas podem ser conectadas a vários nós que fazem coisas diferentes, criando um fluxo de processos. No Comfy, há nós para coisas como: entrada de imagem, entrada de texto, entrada de modelo, codificação LoRa, pré-processadores ControlNet e assim por diante.

A Comunidade também cria e distribui nós personalizados, permitindo uma arquitetura semelhante a um plug-in para outros aplicativos fora do ComfyUI para operar com esse sistema de nós e adicionar funcionalidade à geração de imagens. Os nós personalizados podem permitir que câmeras da Web ou aplicativos, como editores de imagem com filtros, influenciem o processamento da imagem.

Além disso, os fluxos de trabalho de nós podem ser salvos e recarregados para o futuro ou distribuídos como imagens JSON, permitindo que você arraste e solte fluxos de trabalho visuais diretamente no espaço da interface do usuário para um carregamento rápido. Essa IU está se tornando rapidamente uma plataforma de desenvolvimento extensível que não exige nenhuma habilidade de codificação.

Recursos que se destacam.

  • Sistema complexo e avançado baseado em nós
  • Conjunto amplo e profundo de controles e recursos configuráveis sem a necessidade de codificação
  • Suporte a SD 1.5 e SDXL, com suporte a pontos de verificação personalizados, LoRas, VAEs, refinadores e muito mais.
  • Crescente ecossistema de criadores de nós para 3rd integração de aplicativos de terceiros, como gerenciador de ferramentas avançado, utilização de processador e memória, entrada de vídeo e fluxo da Web e muito mais
  • Suporta ControlNet, pintura/saída de pintura, LCM LoRa rápido, Animate Diff, vídeo SD, troca de faces

Instruções de instalação e tópico de discussão no Intel Insiders Discord (somente para GPUs discretas)

Assista ao vídeo acima para ver essas ferramentas em ação executadas em uma GPU Intel Arc e siga os links abaixo para obter mais informações sobre Intel Arc e IA no hardware Intel. Para obter conteúdo e engajamento contínuos, participe da seção Comunidade do Discord Intel Insiders onde eu e outros membros da Intel conversamos regularmente com a comunidade.