ComfyUI vs Fooocus, pour GenAI sur les GPU Intel® Arc™

par le contenu |

Deux outils populaires de diffusion stable, qui ne pourraient être plus différents.

L'été dernier, j'ai publié un article sur 3 outils de diffusion stable à exécuter sur votre PC, supportant les GPU Intel Arc. Et comme les choses vont avec l'IA, beaucoup de choses ont progressé. Heureusement, les cadres logiciels et les extensions d'Intel n'ont pas seulement permis aux dernières fonctionnalités comme le LCM LoRas rapide de fonctionner sur les GPU Intel Arc, mais nous avons aussi le support de plus d'outils GenAI qu'il y a 6 mois.

Dans cet article, je vais présenter deux webui supplémentaires pour Stable Diffusion. Les deux sont plus puissants que ce que nous avons vu auparavant et selon le type d'utilisateur que vous êtes, l'un d'entre eux est probablement le bon choix pour vous.

Mais ces nouveaux outils ne pourraient pas être plus différents. Ils se situent aux extrémités du spectre en termes de complexité et d'expérience utilisateur. Fooocus est une interface simple où les changements de configuration sont souvent effectués à votre place, tandis que ComfyUI possède la puissance d'un système de nœuds permettant des configurations infinies et des flux de travail personnalisés.

Jetez un coup d'œil dans la vidéo ci-dessous où je vous explique comment utiliser chaque interface, et lisez la suite pour obtenir les détails et les caractéristiques de chaque outil. L'un d'entre eux peut être l'outil qu'il vous faut, et les deux fonctionnent très bien avec des GPU Intel Arc discrets. Les détails de l'installation et de l'assistance sont indiqués ci-dessous.

L'interface Web de Fooocus :  L'interface web de Fooocus est sans doute le mélange le plus intéressant de fonctionnalités avancées de diffusion d'images tout en étant une interface simple et sobre. Fooocus se distingue par l'automatisation de nombreuses étapes que l'utilisateur devrait autrement effectuer manuellement. Au fur et à mesure que de nouveaux modèles, raffineurs et autres techniques sont ajoutés à l'IA générative, Fooocus s'efforce de faciliter le travail. Par exemple, Fooocus est livré automatiquement avec le modèle JuggernaughtXL, qui est un modèle polyvalent idéal pour générer des images réalistes, cinématographiques et de type concept art. De plus, Fooocus automatise des fonctions telles que l'ajout d'un raffineur afin que la sortie soit plus propre et plus détaillée. Et lorsque vous passez de SDXL à SDXL avec LCM, vous ne cliquez que sur un seul bouton. Dans la plupart des autres interfaces utilisateur, vous devez effectuer au moins 3 à 5 changements de configuration lorsque vous effectuez ce changement. Enfin, Fooocus possède l'une des meilleures fonctions de saisie d'image de tous les outils, en particulier pour le outpainting, où vous pouvez étendre une image dans n'importe quelle direction en ajoutant du contenu qui n'était pas dans l'image d'origine.

UI-Image-1

En résumé, si vous voulez quelque chose de convivial, d'extrêmement intuitif à utiliser, tout en permettant des fonctionnalités puissantes et une personnalisation selon vos besoins, c'est le webui qu'il vous faut. 

Caractéristiques distinctives

  • Interface simple et épurée, qui n'est pas envahissante et qui est très intuitive.
  • Sortie SDXL. Par défaut, toutes les images sont générées en haute résolution.
  • Configuration intelligente : les options de configuration les plus performantes et les plus fiables sont réalisées pour vous.
  • S'installe avec le modèle Juggernaut SDXL. (pas besoin de télécharger depuis Hugging Face of CivitAI)
  • Fonctionnalités d'outpainting et d'inpainting puissantes et faciles à utiliser.
  • Case à cocher simple pour 3 vitesses / qualité de génération d'image : Rapide (20 échantillons), Qualité (60 échantillons), Extrêmement rapide (8 échantillons LCM Fast LoRa)
  • Options de style qui orientent la sortie vers des aspects et des styles spécifiques
  • Fonctionnalités avancées et de développement cachées mais accessibles qui vous permettent d'outrepasser les valeurs par défaut et d'affiner le résultat.

Instructions d'installation et fil de discussion sur Intel Insiders Discord (pour les GPU discrets uniquement)

ComfyUI: À l'autre bout du spectre se trouve l'outil ComfyUI, de plus en plus populaire, pour la génération d'images. Si, comme moi, vous regardez beaucoup de vidéos sur la diffusion stable, j'ai vu de nombreux YouTubers passer de l'A1111 à ComfyUI, car cet outil permet une personnalisation plus poussée grâce aux nœuds personnalisés de la communauté. Cet outil est parfait pour ceux qui aiment bricoler avec les paramètres et repousser les limites de ce que la technologie GenAI actuelle peut faire. C'est un webui puissant et nous ne faisons qu'effleurer la surface de ce que cet outil peut faire pour vous.

UI-Image-2

Ce qui différencie ComfyUI des autres outils est son utilisation d'un système de nœuds visuels pour définir comment vous souhaitez générer votre image ou votre vidéo. Si vous êtes familier avec Unreal Engine, Blender et Unity, les systèmes de nœuds sont une méthode de programmation visuelle qui ne nécessite pas de codage. Il s'agit de connecter la sortie d'une fonction de nœud et de la brancher sur l'entrée d'une autre fonction de nœud. Les sorties peuvent être connectées à plusieurs nœuds qui font des choses différentes, créant ainsi un flux de processus. Dans Comfy, il y a des nœuds pour des choses comme l'entrée d'image, l'entrée de texte, l'entrée de modèle, l'encodage LoRa, les préprocesseurs ControlNet, et ainsi de suite.

La communauté crée et distribue également des nœuds personnalisés permettant une architecture de type plug-in pour d'autres applications en dehors de ComfyUI pour fonctionner avec ce système de nœuds afin d'ajouter des fonctionnalités à la génération d'images. Les nœuds personnalisés peuvent permettre l'utilisation de webcams ou d'applications telles que des éditeurs d'images avec des filtres et d'influencer le traitement de l'image.

En outre, les flux de nœuds peuvent être enregistrés et rechargés pour l'avenir, ou distribués sous forme d'images JSON, ce qui vous permet de faire glisser et de déposer des flux visuels directement dans votre espace d'interface utilisateur pour un chargement rapide. Cette interface utilisateur devient rapidement une plateforme de développement extensible qui ne nécessite aucune compétence en matière de codage.

Caractéristiques remarquables.

  • Système complexe et puissant basé sur les nœuds
  • Un ensemble large et profond de contrôles et de fonctionnalités configurables sans avoir à coder
  • Prise en charge de SD 1.5 et SDXL, avec prise en charge des points de contrôle personnalisés, des LoRas, des VAE, des raffineurs, etc.
  • Un écosystème croissant de créateurs de nœuds pour 3rd intégration d'applications tierces telles que : gestionnaire d'outils avancé, utilisation du processeur et de la mémoire, entrée de flux vidéo et web, etc.
  • Prend en charge ControlNet, In painting/outpainting, LCM LoRa rapide, Animate Diff, SD Video, face swap

Instructions d'installation et fil de discussion sur Intel Insiders Discord (pour les GPU discrets uniquement)

Regardez la vidéo ci-dessus pour voir ces outils en action sur un GPU Intel Arc et suivez les liens ci-dessous pour plus d'informations sur Intel Arc et AI on Intel Hardware. Pour un contenu et un engagement continus, rejoignez le Communauté Discord des initiés d'Intel où moi-même et d'autres membres d'Intel regular dialoguons avec la communauté.