Close Icon

KI und Kunst — Kunst und KI

Trotz aller Automatik entsteht überzeugende KI-Kunst meist dann, wenn Künstler die Technologie gezielt einsetzen, um ihre Ideen umzusetzen.

Meta Icon

Dirk Habenschaden und ChatGPT, Okt 7, 2025

Was ist KI-Kunst?

KI-Kunst (auch AI-Kunst genannt) bezeichnet Kunstwerke, die mithilfe von künstlicher Intelligenz geschaffen oder beeinflusst wurdend. Dabei kommen KI-Modelle wie künstliche neuronale Netzwerke zum Einsatz, um Bilder, Musik, Texte oder andere Kunstformen zu generieren. Im Grunde ist jedes Kunstwerk, das nicht direkt von einem Menschen, sondern durch eine KI erzeugt wurde, als KI-Kunstwerk einzustufen. Diese KI generierte Kunst umfasst also Gemälde, Musikstücke, Gedichte oder sogar Videos, die von Algorithmen hervorgebracht wurden. Häufig genügen schon wenige Worte als Prompt (Eingabetext), um ein Ergebnis zu erhalten. Trotz menschlicher Einflussnahme bei der Prompt-Erstellung gilt das entstandene Werk schließlich der KI als Urheberin.

Nutzung von KI in der Kunst

Der Einsatz von KI in der Kunst (Kunst mit KI schaffen) eröffnet Künstlerinnen neue Möglichkeiten. Viele Künstlerinnen und Künstler nutzen KI-Tools als kreative Werkzeuge oder Partner, um den künstlerischen Prozess zu erweitern. So gibt es Kollaborationen, bei denen die KI als Werkzeug in der Produktion dient: Beispielsweise erzeugt die Künstlerin Sofia Crespo mit neuronalen Netzwerken neuartige Bildwelten, die Technik und Natur verbinden. Ebenso setzt der deutsche Künstler Mario Klingemann KI als kreativen Partner ein und erforscht mit neuronalen Netzen neue Ausdrucksformen. In solchen Fällen bleibt der Mensch Regisseur, während die KI Variationen und Inspiration liefert. Auch Roboter und KI werden in Installationen einbezogen – etwa beim Künstler Patrick Tresset, der Robotik und KI einsetzt und zugleich das Thema KI-Kunst selbst reflektiert.

Insgesamt kann KI Künstlern helfen, neue Ideen zu generieren, Routinearbeiten (wie Stilübertragungen oder Farbstudien) zu übernehmen und kreative Blockaden zu überwinden. Wichtig ist, KI als Werkzeug und nicht als Bedrohung der eigenen Kreativität zu betrachten – sie ersetzt nicht die künstlerische Idee, sondern kann sie verstärkenkunst. Viele Kreative sehen KI daher als eine Art „künstlerische Muse“ oder Assistent im Atelier. Gleichzeitig wirft die verstärkte KI-Nutzung Fragen zur Urheberschaft und Originalität auf, da KI-Modelle meist auf bestehenden Werken trainieren. Dies führt zu anhaltenden Debatten über den Stellenwert menschlicher Schöpfung im KI-Zeitalter.

Entwicklung der KI-Kunst: Historische Meilensteine und Durchbrüche

Die Verbindung von Kunst und KI hat eine längere Vorgeschichte, als man vermuten könnte. Bereits in den 1960er Jahren experimentierten Pioniere mit Computerkunst, die als Vorläufer der KI-Kunst gelten. 1965 fanden nahezu zeitgleich die ersten Ausstellungen computergenerierter Kunst statt – einerseits in Stuttgart durch Georg Nees und Frieder Nake, andererseits in New York durch A. Michael Noll und Béla Julesz. Diese frühen Werke wurden mit Programmcode (z.B. ALGOL) und plottergesteuerten Maschinen erzeugt. Kurz darauf entwickelte der Künstler Harold Cohen ab Ende der 1960er das KI-Kunstsystem AARON, das autonom zeichnen und malen konnte – ein Meilenstein der frühen KI-Kunst.

Einen wahren Durchbruch erlebte die KI-Kunst jedoch erst im 21. Jahrhundert mit modernen Machine-Learning-Methoden. In den 2010er-Jahren ermöglichte vor allem Deep Learning immer leistungsfähigere kreative KI-Modelle. Die Einführung von Generative Adversarial Networks (GANs) 2014 war ein Wendepunkt: Dieses Ansatzpaar aus Generator und Diskriminator erlaubte es, erstaunlich realistische Bilder zu synthetisieren. Bekannt wurde beispielsweise Googles DeepDream (2015), das aus bestehenden Bildern traumartige Kunst erzeugte.

Jüngere Durchbrüche (frühe 2020er) basieren auf Fortschritten wie CLIP (Contrastive Language-Image Pre-training) von OpenAI, wodurch KI-Modelle auch völlig neuartige Konzepte umsetzen können (sogenanntes Zero-Shot-Learning, etwa ein Bild eines „Avocado-Sessels“ ohne direkten Vorlagen). 2022 markierte ein besonderes Jahr: OpenAI stellte zunächst DALL·E (2021) und DALL·E 2 vor, welche aus Textbeschreibungen vielfältige Bilder generieren. Google präsentierte Modelle wie Imagen (2022), während Stable Diffusion im August 2022 als erstes großes Bildmodell mit offenem Quellcode erschien. Die Open-Source-Verfügbarkeit von Stable Diffusion demokratisierte KI-Kunst weiter, da nun Entwicklerinnen und Künstlerinnen eigene Ableitungen erstellen konnten.

Portrait of Edmond De Belamy
Portrait of Edmond De Belamy – das erste von einer KI geschaffene Kunstwerk, das in einem großen Auktionshaus versteigert wurde. Es stammt vom französischen Künstlerkollektiv Obvious (Hugo Caselles-Dupré, Pierre Fautrel, Gauthier Vernier).

Parallel dazu schaffte KI-Kunst den Einstieg in den Kunstmarkt. Ein berühmtes Beispiel ist Edmond de Belamy – ein KI-generiertes Gemälde, das 2018 vom Künstlerkollektiv Obvious geschaffen und bei Christie’s für 432.500 USD versteigert wurde. Dieser spektakuläre Auktionsverkauf war das erste Mal, dass ein KI-Kunstwerk von einem großen Auktionshaus angeboten wurde, und erregte weltweit Aufsehen über das Potenzial der KI in der Kunst. Seitdem hat sich viel getan: KI-Kunstfestivals (etwa die KI-Biennale seit 2022) und Medienkunst-Events wie Ars Electronica integrieren KI-Arbeiten. 2019 wurde mit Ai-Da sogar der erste humanoide Roboter als KI-Künstler der Öffentlichkeit vorgestellt – Ai-Da malt eigenständig Porträts mit Kameras und Roboterarm. 2023 eröffnete in Amsterdam die erste KI-Kunstgalerie, die ausschließlich KI-generierte Werke zeigte. Für Ende 2025 ist in Los Angeles mit DATALAND gar das weltweit erste Museum für KI-Kunst angekündigt. Diese Entwicklungen zeigen, dass KI-Kunst von einer Nische zu einem etablierten Bestandteil der globalen Kunstszene geworden ist.

Arten von KI-Kunst

KI-Kunst ist vielfältig und lässt sich in unterschiedliche Kategorien einteilen, je nach Rolle der KI im kreativen Prozess. Zu den wichtigsten Arten von KI-Kunst zählen:

Generative KI-Kunst

Dies ist die bekannteste Form, bei der die KI als Generator fungiert. Hier entstehen KI-generierte Kunstwerke nahezu autonom aus Algorithmen, oft auf Basis eines kurzen Text- oder Bildinputs. Beispiele sind die Text-zu-Bild-Generatoren Midjourney oder DALL·E, oder das Open-Source-Modell Stable Diffusion, die aus einer Beschreibung eigenständig Bilder erschaffen. Die generative KI-Kunst ist im Grunde eine Schnittstelle zur traditionellen generativen Kunst, nur dass statt rein zufälliger Algorithmen lernende KI-Modelle verwendet werden.

Ähnliche generative Ansätze gibt es auch für andere Medien: Es existieren KI-Systeme zur Musikkomposition, zur Texterstellung (z.B. KI-Poesie) oder sogar zum Weiterschreiben unvollendeter Werke – so wurde etwa versucht, Beethovens unvollendete 10. Sinfonie mittels KI fortzuführen. Generative KI-Kunst kann völlig neuartige Bilder und Formen hervorbringen, die ein Mensch so nicht ersonnen hätte. Allerdings arbeitet die KI dabei stets auf Grundlage gelernter Daten, was die Frage aufwirft, inwieweit die Schöpfung wirklich „neu“ oder nur rekombiniert ist.

Interaktive KI-Kunst

Bei dieser Form dient KI nicht primär zur Bilderzeugung, sondern steuert Interaktionen oder analysiert Betrachter. Die KI wird in Echtzeit Teil des Kunstwerks. Zum Beispiel gibt es Installationen, die mittels Gesichtserkennung auf das Publikum reagieren: Die Installation „Smile to Vote“ etwa schätzte anhand des Gesichtsausdrucks die politische Präferenz der betrachtenden Person. Ein anderes Beispiel ist „Smart Hans“, eine Installation, bei der eine KI per Mustererkennung zu erraten versucht, an welche Zahl ein Mensch gerade denkt. Hier wird KI in der Kunst genutzt, um ein dynamisches, interaktives Erlebnis zu schaffen – das Kunstwerk verändert sich durch das Eingreifen oder die Daten der Betrachter. Interaktive KI-Kunst überschneidet sich oft mit Bereichen wie Medienkunst und Performance, da Technik, Sensorik und AI-Algorithmen mit einbezogen werden. Wichtig ist, dass in dieser Kategorie keine neuen digitalen Medien generiert werden, sondern KI als Mittler zwischen Mensch und Kunstwerk agiert. Diese Form regt zum Nachdenken über Kommunikation Mensch–Maschine an und stellt oft Fragen über Datenschutz, Überwachung oder das Verhältnis von Mensch und KI.

KI-unterstützte Kunst

Hier bleibt die kreative Hauptrolle beim Menschen, während KI als Werkzeug oder Inspirationsquelle dient. Viele Künstler nutzen KI-Systeme, um ihre Arbeit zu ergänzen, ohne die Kontrolle ganz aus der Hand zu geben. Beispiele sind Stilübertragungen (Style Transfer), bei denen KI ein Bild im Stil eines anderen malen kann, oder KI-gestützte Bildbearbeitung wie DeepDream, das bestehenden Werken psychedelische Muster hinzufügt.

In solchen Fällen entsteht die Kunst mit KI, indem die KI hilft, bestimmte Effekte oder Varianten schnell auszuprobieren. KI kann auch als Ideengeber dienen (KI als Inspiration): Ein Künstler lässt z.B. eine KI viele Entwürfe generieren und wählt daraus interessante Ansätze zur weiteren Ausarbeitung. So beeinflusst KI indirekt das Endergebnis, ohne komplett autonom das Werk zu schaffen. Diese Kategorie umfasst auch kollaborative Projekte, in denen KI und Mensch gemeinsam schöpferisch tätig sind. Ein extremeres Beispiel sind Systeme, bei denen die KI teilweise Autorschaft übernimmt – etwa der dezentrale autonom agierende Künstler-Bot “Botto”, der eigenständig Kunst erstellt und sogar via Smart Contracts seine Werke versteigert. Insgesamt versteht man unter KI-unterstützter Kreativität alles, was den kreativen Prozess assistiert, statt ihn zu ersetzen. Für viele traditionelle Kunstschaffende ist dies der bevorzugte Ansatz: KI als Verstärker menschlicher Kreativität.

Populäre KI-Tools

In den letzten Jahren ist eine Vielzahl von KI-Tools für die Kunst entstanden. Einige der bekanntesten Dienste und Programme, mit denen KI-Kunstwerke geschaffen werden können, sind:

Midjourney: Ein unabhängiges KI-Bildgenerierungsprogramm, das über eine Browser-Chatoberfläche bedient wird. Midjourney ist bekannt für seine hochqualitativen, künstlerischen Bildoutputs und wird von vielen Grafik- und Designschaffenden genutzt, um Illustrationen oder Konzeptkunst zu erstellen. Es gehört zur Kategorie der textbasierten Bildgeneratoren (man gibt eine Beschreibung ein und erhält ein Bild) und liefert oft malerisch anmutende, detailreiche Ergebnisse. Midjourney hat durch die lebhafte Community und einfache Zugänglichkeit die Verbreitung von KI-Bildern stark vorangetrieben.
Midjourney

FLUX (Black Forest Labs): FLUX.1 Kontext ist ein multimodales Bildgenerierungs- und -bearbeitungsmodell, das Text- und Bildeingaben versteht. Es ermöglicht es, Referenzbilder zu nutzen, um dieselbe Person oder das gleiche Objekt konsistent in verschiedenen Szenen erscheinen zu lassen. Diese Charakterkonsistenz über mehrere Bilder hinweg gilt als herausragendes Feature – selbst mit nur einem Foto als Referenz kann man denselben Charakter in neue Umgebungen versetzen, ohne dass seine Identität verloren geht. FLUX erzielt außerdem eine der besten Darstellungen von Text innerhalb von Bildern und beherrscht kontextbasiertes lokales Editieren (z.B. Farben ändern, Objekte hinzufügen) ohne den Rest des Bildes zu zerstören.
Black Forest Labs

Google Nano Banana (Flash 2.5): Nano Banana ist der Codename für Googles internes KI-Bildmodell, das als Bestandteil von Gemini 2.5 Flash Image kürzlich öffentlich bestätigt wurde. Es wurde speziell entwickelt, um zentrale Schwächen früherer Bildgeneratoren zu beheben – vor allem die Konsistenz bei Bild-Edits. Nano Banana beherrscht präzises Inpainting und lokale Änderungen, ohne den Rest des Bildes zu verzerren. Ein Google-Cloud-Entwickler beschreibt, dass dieses Modell „von Grund auf darauf ausgelegt wurde, genau diese Konsistenz-Probleme zu lösen“ – etwa das klassische Szenario: „Mach das Hemd blau“ führt nicht mehr zu extra Fingern oder kaputtem Hintergrund. Stattdessen bleiben Gesichter, Proportionen und Hintergründe stabil, während die gewünschte Änderung durchgeführt wird.
Gemini

Runway ML – KI-Videoerzeugung für Kreative: Runway ML gehört zu den Pionieren der Text-to-Video-Generierung. Gen-2 (Anfang 2023 vorgestellt) war eines der ersten Modelle, mit denen Nutzer rein aus Textbeschreibungen kurze Videoclips (einige Sekunden) generieren konnten. Es verwendet Diffusionsmodelle und entwickelte sich aus Gen-1 (Video-zu-Video-Stilisierung) hin zu vollständiger Generierung. Technisch bietet Gen-2 Text-zu-Video sowie einen Bild-zu-Video-Modus (man kann ein Startbild als Referenz geben). Die Videos sind in der Regel 4–8 Sekunden lang, typischerweise in mittlerer Auflösung (bis zu ~1280×720 oder 768p.
Runway ML

LUMA Dream Machine – Neues Text-zu-Video mit 3D-Verständnis: Luma AI – bekannt für 3D-Capture und NeRF-Technologie – hat mit Dream Machine ein Text-/Bild-zu-Video-Tool veröffentlicht, das mit einem starken zugrunde liegenden Modell (Ray3) arbeitet. Dream Machine kann kurze Videos (~5 Sekunden, aktuell ca. 1360×752 px Auflösung) aus Textbeschreibungen oder Bild-Inputs erstellen. Ein Alleinstellungsmerkmal ist das Verständnis von räumlicher Konsistenz und Physik: Luma betont, dass ihr neues Modell Ray3 „visuell denken und logische Handlungsabläufe darstellen“ kann, inklusive realistischer Physik und stabiler Bewegungen. Tatsächlich generiert Dream Machine flüssigere Kamerafahrten und Objektbewegungen als viele Konkurrenten – es gilt als weltweit erstes generatives Videomodell mit 16-bit HDR-Farbtiefe, was professionelle Farbgebung ermöglicht. Darüber hinaus unterstützt Luma Multi-Shot Storytelling: Das Modell kann nativ mehrere zusammenhängende Einstellungen/Szenen erzeugen, wobei Hauptfigur, Stil und Atmosphäre über Schnitte hinweg konsistent bleiben. Dieses Feature – im ByteDance-Pendant Seedance ähnlich umgesetzt – erlaubt quasi kleine Mini-Stories in einem Rutsch zu generieren. Luma Dream Machine ist als benutzerfreundliche App (iOS und Web) verfügbar.
LUMA Dream Machine

Kling (Kuaishou/TikTok) – Chinesisches KI-Video-Tool der Spitzenklasse: Kling AI ist ein in China entwickelter KI-Videogenerator, der insbesondere durch die Kurzvideo-Plattform Kuaishou bekannt wurde. (Ursprünglich wurde Kling häufig ByteDance/TikTok zugeschrieben, tatsächlich stammt es jedoch von Kuaishou – einem großen Rivalen von ByteDance im Short-Video-Segment.) Kling unterstützt sowohl Text-zu-Video als auch Bild-zu-Video und hat sich in kürzester Zeit millionenfach bewährt: seit dem Launch wurden über 10 Millionen Videos damit generiert. Technisch bietet Kling hochwertige, flüssige Motion und “cinema-grade” Ausgaben. Die Plattform stellt verschiedene Modell-Generationen bereit – von Kling 1.0 bis aktuell Kling 2.5 Turbo. Sie läuft cloudbasiert (u.a. über Dienste wie fal.ai oder pollo.ai nutzbar) und erlaubt HD-Auflösung bis 1080p. Kling’s USP sind die zahlreichen Kontrollmöglichkeiten für Anwender: Es gibt Unterstützung für Negative Prompts (zur gezielten Ausschluss bestimmter Bildelemente), Kamera-Bewegungssteuerung, Start-/End-Frame-Festlegung (man kann z.B. ein Anfangs- und Endbild vorgeben, um Übergänge zu planen), sowie spezielle Modi wie Motion Brush (Bewegungen gezielt in Bildbereiche “malen”), Extend Video (Clips verlängern), Lip Sync mit KI-Sprachvertonung und sogar ein Virtual Try-On-Feature für Kleidung. Diese Features demonstrieren, dass Kling auf professionelle Anwendung zielt.
Kling

Google Veo (DeepMind) – Next-Gen Video-KI mit Audio & Physik: Veo ist Googles neuestes KI-Videomodell, entwickelt von Google DeepMind. Angekündigt im Mai 2024 und mittlerweile in Version 3, setzt Veo neue Maßstäbe in Qualität und Funktionsumfang. Es ist ein Text-zu-Video-Modell, das aber auch Bild-Inputs akzeptiert, und – einzigartig – gleich Audio mitgeneriert. Veo 3 kann zu einem stumm eingegebenen Prompt passende Geräusche, Soundeffekte und sogar Dialoge synthesizieren. Damit entstehen kurze Videos (derzeit ca. 8 Sekunden in AI Studio) mit vollständiger audiovisueller Szene. Technisch beeindruckt Veo mit hoher Treue: Es liefert auf Wunsch native 4K-Auflösung, realistisches Bewegungsverhalten nach physikalischen Gesetzen und deutlich verbesserte Prompt-Adherence. DeepMind spricht von „real world physics“ – d.h. Bewegungen (z.B. fallende Objekte, Kamerafahrten) folgen glaubwürdig der Schwerkraft und anderen physikalischen Regeln. Ein weiterer Fokus ist Konsistenz und Storytelling: Veo 3 wurde so trainiert, dass es über mehrere Einstellungen hinweg den Hauptcharakter, Lichtstimmungen etc. konsistent hält. Tatsächlich unterstützt Veo sog. “multi-shot narratives”, also komplexere Szenen mit Schnitten – etwa verschiedene Kamera-Perspektiven innerhalb eines generierten Videos, ohne dass der rote Faden verloren geht. Diese Fähigkeit, eine zusammenhängende Geschichte mit Anfang und Ende zu erzeugen, hebt Veo ab. Zusätzlich bietet das Modell feinsteuerbare Kameraarbeit (z.B. Close-Up, Tracking Shot – solche Begriffe im Prompt werden verstanden) und sogar Lippensynchronisation bei gesprochenem Text. DeepMind integrierte Veo in seine Gemini-Produktreihe.
Google Veo Veo in Flow

Udio – KI-Musikgenerator für Songs und Sounds: Udio verwandelt einfache Text-Eingaben in komplette Songs – inklusive instrumentaler Begleitung und Gesang mit Lyrics. Dabei sticht vor allem die Klangqualität hervor: Nutzer berichten, dass Udio melodisch und instrumental konkurrenzlos ist. Ein Reddit-Kommentator schreibt etwa, “Melody wise nothing can compete with UDIO” – Udio generiert also Melodien, die andere KI-Musikgeneratoren so nicht erreichen. Die Instrumente klingen bemerkenswert realistisch und differenziert; ein anderer Nutzer meint, Udio “kills it for instrumentals”, die Klangqualität der Begleitung sei „unschlagbar“ im Vergleich zu Alternativen.

Besonders hervorgehoben wird Udio’s Fähigkeit, einzelne Instrumenten-Spuren (Stems) bereitzustellen. Das bedeutet, dass man z.B. Drum-, Bass-, Gitarren- und Vocal-Spur getrennt exportieren kann – ein enormer Vorteil für Musikproduzenten. Zudem ermöglicht Udio die Fortführung eigener Audiodateien: Man kann einen selbst erstellten Track hochladen und von Udio nahtlos weiterkomponieren lassen, wahlweise instrumental oder mit hinzugefügtem Gesang.
Udio

ElevenLabs – KI-Sprachgenerator für Stimmen und Text-to-Speech: ElevenLabs gilt als einer der fortschrittlichsten KI-Stimmgeneratoren, der Texte in äußerst natürliche Sprache umwandelt. Das herausragende Merkmal ist die Realitätsnähe und Ausdrucksstärke der Stimmen: Viele Nutzer empfinden die Qualität als kaum von einer menschlichen Aufnahme zu unterscheiden. In der Praxis sticht ElevenLabs dadurch hervor, dass es “highly realistic and versatile voiceovers” in über 30 Sprachen erzeugen kann. Die Stimmenvielfalt ist enorm – es gibt eine frei zugängliche Bibliothek mit über 3.000 verschiedenen Stimmen aus aller Welt (viele davon von der Community beigesteuert).

Ein weiteres Alleinstellungsmerkmal ist die VoiceLab bzw. das Stimmen-Klonen: Benutzer können mit wenigen Sekunden Audio ihre eigene Stimme klonen oder völlig neue Stimmprofile kreieren. ElevenLabs bietet sowohl ein schnelles „Instant Voice Cloning“ aus kurzen Samples als auch ein professionelleres Klonen mit längeren Trainingsaufnahmen für maximal authentische Stimmen. ElevenLabs wurde bekannt dafür, die Stimmen realer Personen mit “frightening accuracy” nachahmen zu können.
ElevenLabs

Man Made Deserts, 2023 — Tools: Midjourney, Runway

Diese KI-Tools haben die Schwelle zur Kunstproduktion deutlich gesenkt. Ob Malerei, Grafikdesign, Animation oder Musik – für viele Bereiche stehen inzwischen KI-Anwendungen bereit. Wichtig bleibt, dass die Vision des Menschen die KI-Arbeit anleitet: Trotz aller Automatik entsteht überzeugende KI-Kunst meist dann, wenn Künstler die Technologie gezielt einsetzen, um ihre Ideen umzusetzen. So ermöglicht die Symbiose von KI und Kunst einer breiteren Masse, kreativ tätig zu werden (Demokratisierung der Kunst), stellt aber auch traditionelle Auffassungen von Kunstschaffen in Frage.

Klar ist: Die Zusammenarbeit von humaner Kreativität und künstlicher Intelligenz steckt noch in den Anfängen, und die weitere Entwicklung von KI-Kunstwerken wird sowohl künstlerisch als auch gesellschaftlich spannend bleiben.

Dance with the Devil

Limitierte Fine Art Prints aus dem Zeitalter binärer Kontrolle. Was bleibt, wenn Menschlichkeit zur Variable wird? Neun Facetten – poetisch codiert, visuell entfesselt.