Passgenaue Bilder mittels KI | Blog

Willkommen zurück! Wie versprochen gibt es heute den ersten von hoffentlich vielen weiteren Beiträgen. Wie angekündigt, werde ich mich zunächst mal auf meine neuen Abläufe für die Erstellung von Beiträgen konzentrieren. Als erste möchte ich euch daher meinen Flow zur Erstellung passender Bilder vorstellen. Viel Spaß mit den folgenden Ausführungen.

Einführung

Die Erstellung maßgeschneiderter Bilder durch KI hat in den letzten Jahren einen enormen Sprung gemacht. Während frühere Tools wie Stable Diffusion bereits beeindruckend waren, setzen moderne Modelle wie FLUX.1-dev neue Maßstäbe in Sachen Detailtreue und Kreativität. Doch mit dieser Entwicklung steigen auch die technischen Anforderungen: Hochwertige Generierungen benötigen leistungsstarke Hardware, die für viele Privatanwender schlicht zu teuer ist.

Hier kommt RunPod.io ins Spiel – ein Cloud-Dienst, der Zugang zu Highend-Grafikkarten wie der NVIDIA A40 mit 48 GB VRAM ermöglicht, ohne dass man dafür Tausende Euro investieren muss. Kombiniert mit der flexiblen Oberfläche ComfyUI und dem KI-Modell FLUX.1-dev ergibt sich ein Workflow, der nicht nur schnell und kosteneffizient ist, sondern auch künstlerische Freiheit auf Profi-Niveau bietet. Nach Jahren der Nutzung von Stable Diffusion und Tools wie Automatic1111 hat mich diese neue Kombination aber noch mehr überzeugt – warum, erkläre ich euch im Detail.

RunPod.io: Leistung aus der Cloud

Die Herausforderung bei modernen KI-Modellen ist bekannt: Je komplexer die Prompts und je höher die Auflösung, desto mehr Grafikspeicher (VRAM) wird benötigt. Selbst eine RTX 3090 mit 24 GB VRAM stößt hier schnell an Grenzen, insbesondere wenn Batch-Generierungen oder aufwendige Nachbearbeitungsschritte ins Spiel kommen.

RunPod.io löst dieses Problem elegant, indem es GPU-Ressourcen nach Bedarf vermietet. Ein sog. Pod mit einer NVIDIA A40 (48 GB VRAM) kostet beispielsweise nur etwa 40 Cent pro Stunde – und das ohne langfristige Verträge. Praktisch bedeutet das: Ihr startet den Cloud-Server, wenn ihr ihn braucht, und stoppt ihn nach dem Rendern wieder. Die Kosten bleiben so überschaubar, selbst bei intensiven Projekten.

Mein persönlicher Favorit ist das vorkonfigurierte Image valyriantech/comfyui-with-flux, das ComfyUI und FLUX.1-dev bereits vorinstalliert enthält. Nach dem Hochfahren des Pods dauert es nur wenige Minuten, bis die Oberfläche über den Browser erreichbar ist. Die Einrichtung ist damit nahezu plug-and-play, was wertvolle Zeit spart. Ein weiterer Pluspunkt: RunPod.io bietet Spot-Pricing an, bei dem ihr bis zu 70% sparen könnt, wenn ihr flexibel seid und kurzfristige Unterbrechungen akzeptiert. Ich nutze das persönlich gar nicht, da wie erwähnt die Kosten eh meistens im Cent Bereich sind.

ComfyUI: Flexibilität trifft Performance

Wer bereits Erfahrung mit Tools wie Automatic1111 gesammelt hat, weiß, dass die Benutzeroberfläche zwar intuitiv ist, aber bei komplexen Workflows schnell an Grenzen stößt. ComfyUI setzt hier auf einen radikal anderen Ansatz: Statt vordefinierter Buttons und Slider arbeitet man mit einem knoten-basierten System, bei dem jeder Schritt der Bildgenerierung als eigener Baustein dargestellt wird. Hier ein kleiner Eindruck davon:

ComfyUI Beispiel-Workflow

Das mag zunächst abschreckend wirken, entfaltet aber schnell seinen Charme. Beispielsweise lässt sich ein Workflow erstellen, bei dem zunächst ein grobes Bild generiert, dann per ControlNet die Pose optimiert und schließlich ein Gesichtskorrektur-Knoten angewendet wird – alles in einer einzigen Kette. Der Clou: Diese Abläufe lassen sich als JSON-Dateien speichern, wiederverwenden oder mit der Community teilen.

Ein weiterer Vorteil ist die Performance. Im Vergleich zu Automatic1111 ist ComfyUI deutlich ressourcenschonender, insbesondere wenn Plugins oder Custom Nodes im Spiel sind. Es wird für die Ausführung jedes Workflows nämlich nur das geladen, was benötigt wird, während Automatic1111 beim Start der Anwendung bereits alle Plugins in den Speicher lädt. Die Startzeit bleibt bei ComfyUI nahezu gleich, egal wieviele Custom Nodes ihr installiert habt. Auch die Aktualisierung aller Komponenten ist wesentlich weniger Anfällig für Probleme, da jeweils nur das geladen wird, was für den aktuellen Ablauf benötigt wird.

FLUX.1-dev: Das Modell für Perfektionisten

Nach langer Zeit mit Stable Diffusion und SDXL hat mich FLUX.1-dev überzeugt. Was es besonders macht, ist die Präzision. Prompts wie “ein Wikingerschiff im Sturm, mit detaillierten Holztexturen und Runen am Bug, im Stil von John Howe” werden nicht nur verstanden, sondern auch umgesetzt. Farben bleiben klar getrennt, und die Komposition orientiert sich eng an den Vorgaben.

Ein weiterer Durchbruch ist die Texteinbindung. Während viele Modelle scheitern, sobald Schriftzüge Teil des Bildes sein sollen, liefert FLUX.1-dev hier zuverlässige Ergebnisse. In einem Test mit dem Prompt “Streetwear-Logo auf einem grauen Hoodie, Schriftzug CYBERPUNK in Neon-Pink” war das Logo bereits nach wenigen Versuchen lesbar und stylisch integriert – ein Quantensprung gegenüber SDXL, wo solche Szenarien oft 20+ Iterationen benötigten, wenn sie überhaupt jemals funktioniert haben. Hier der Beweis, nach dem ersten Versuch:

ComfyUI Beispiel-Bild

Generell lässt sich sagen, dass es bei einfacheren Texten meist sogar aufs erste Mal funktioniert, während z.B. kurze Sätze durchaus auch mal etwas mehr Versuche benötigen.

Auch die Anatomie überzeugt: Hände mit fünf Fingern, proportionale Gliedmaßen und natürliche Posen sind kein Zufallstreffer mehr, sondern Standard. Das mag trivial klingen, macht aber einen enormen Unterschied, wenn man professionelle Assets erstellen will, die nicht nach „KI-generiert“ aussehen.

Fazit: Warum KI-Bilder meine Workflows revolutioniert haben

Vor einigen Jahren noch habe ich Stunden damit verbracht, passende Stock-Fotos zu suchen oder lizenzfreie Bilder zu suchen. Heute generiere ich die meisten Grafiken selbst – schneller, günstiger und vor allem passgenauer. Die Kombination aus RunPod.io, ComfyUI und FLUX.1-dev hat dabei alles verändert.

Klar, der Einstieg erfordert technisches Know-how. Wer sich aber einmal mit ComfyUI’s Nodes vertraut gemacht hat, entdeckt ein Werkzeug, das kaum Wünsche offenlässt. Und dank RunPod.io muss man nicht einmal tief in die Tasche greifen, um die nötige Power zu nutzen.

Für mich ist klar: KI-Bildgenerierung ist kein Hype mehr, sondern ein fester Bestandteil meines Werkzeugkastens. Ob Social-Media-Inhalte, Concept Art oder Mockups – die Flexibilität, jedes Bild genau nach Vorgabe zu erstellen, ist unschlagbar. Wer bereit ist, sich in die Technik einzuarbeiten, wird belohnt – mit kreativer Freiheit, die früher unvorstellbar war.

Habt ihr eigene Erfahrungen mit Runpod, ComfyUI oder FLUX gemacht? Oder Fragen zu spezifischen Use-Cases? Diskutiert gerne mit auf Slack (Link im Footer) – ich bin gespannt auf eure Insights!

Nun möchte ich euch aber nicht länger aufhalten. Bis zum nächsten Mal auf Next Direction!

P.S. der nächste Beitrag wird sich mit dem gleichen Thema beschäftigen, wird größtenteils von KI generiert sein, aber für weniger technisch versierte Benutzer eher allgemein gehalten.