Making Of

Wie dieses KI-Kunstprojekt entstand und technisch umgesetzt wurde.

Verwendete KI-Tools

Folgende KI-Tools wurden verwendet:

  • Suno (v3, v3.5) (Erstellung der Audio-Rohtracks)
  • Udio (beta) (Erstellung der Audio-Rohtracks)
  • Midjourney (Erstellung von Grafiken)
  • Ideogram (Erstellung von Grafiken)
  • ChatGPT (v3.5, v4) (Prompt-Engineering)
  • DeepL (Übersetzungen)

Projektzeitraum: Mai-Juli 2024

Weitere Software

Für die Nachbearbeitung kam folgende Software zum Einsatz:

  • Corel Paintshop Pro (Bildbearbeitung)
  • AVS Audio Editor (Audiobearbeitung)
  • MAGIX Samplitude Music Studio (Audio-Mixing und Mastering)
  • DaVinci Resolve (Videoproduktion)

Workflow

1. Erstellung der Audio-Rohtracks

Zu Beginn dieses Projekts benutzte ich zum Generieren der Audiotracks ausschließlich Suno. Später wurde ich auf Udio aufmerksam und experimentierte auch damit.

In beiden KIs benutzte ich ausschließlich den Custom Mode, in dem ich den Text vorgeben und für das gewünschte Genre eigene Begriffe verwenden konnte.

Zunächst fügte ich den Text des jeweiligen Morgensterngedichts ein und gab eine mir zum Thema passend erscheinende Genrebezeichnung vor, ggf. ergänzt durch weitere Angaben zur Instrumentierung und stimmlichen Gestaltung.

Suno und Udio generierten in jedem Durchlauf zwei Audiotracks. Bei Suno waren diese in v3 jeweils 2 Minuten lang, in v3.5 bis zu 4 Minuten. Udio erzeugte Tracks von nur 30 Sekunden Länge. Längere Texte musste ich aufteilen, so dass die einzelnen Teile in diese Zeitfenster passten.

Sofern mir ein Track vielversprechend erschien, erweiterte ich diesen ggf. um weitere Teile. Udio erfreute mich mit der Möglichkeit, neue Teile nicht nur anhängen, sondern auch voranstellen zu können. Sogar eine Nachbearbeitung einzelner Abschnitte innerhalb eines Tracks war mit Udio möglich.

Bei Suno ließ ich am Schluss aus allen zusammengehörenden Teilen einen zusammenhängenden Audiotrack erzeugen. Udio verband alle Track-Erweiterungen automatisch zu einem einzigen Track. Alternativ lud ich die Teiltracks einzeln herunter und mischte sie anschließend manuell zusammen, s. u.

Dies war ein relativ zeitaufwändiger Prozess. Suno und Udio produzierten sehr viel Unbrauchbares, und ich benötigte oft viele Versuche, ehe mich ein Ergebnis zufriedenstellte. Die „Ausschussquote“ war astronomisch: Gegen Ende des Projekts erhielt ich eine Mail von Suno mit Gratulation zu 1.000(!) erstellten Tracks – von denen ich letztlich nur 18 musikalisch passend, interessant und technisch gut genug für eine Verwendung für „Morgenstern reloaded“ befand.

Häufigste Gründe für von mir verworfene Audiotracks

bei Suno in v3:

  • Der Musikstil entsprach nicht meinen Erwartungen und Genrevorgaben.
  • Text wurde am Anfang eines Stückes ausgelassen. Der Audiotrack setzte abrupt erst ab Mitte der ersten Zeile oder Strophe ein.
  • Text wurde innerhalb eines Stückes ausgelassen.
  • Der gesungene Text war seltsam zusammengestellt: Teile wurden isoliert wiederholt und/oder entsprachen nicht der Reihenfolge der Vorgabe. (Je nach Genre schien das eine „künstlerische“ Interpretation des vorgegebenen Textes zu sein. Bei einigen Tracks fand ich das witzig oder sogar passend und habe es weiterverwendet.)
  • Der Gesang hatte einen deutlichen (osteuropäischen) Akzent.
  • Der Audiotrack enthielt keinen Gesang.
  • Der Rhythmus des Gesangs war „holprig“ und entsprach nicht dem Rhythmus des vorgegebenen Textes. (Manche Morgensterngedichte haben eine rhythmisch komplexe Struktur; Suno schaffte es oft nicht, diese zu erkennen und entsprechend umzusetzen.)
  • Einzelne Wörter wurden falsch oder englisch ausgesprochen. (Das war besonders ärgerlich bei musikalisch ansonsten gut umgesetzten Stücken. Die Korrektur eines bestimmten Audiotracks ist mit Suno nicht möglich.)

bei Udio:

  • Der Musikstil entsprach nicht meinen Erwartungen und Genrevorgaben.
  • Am Anfang oder gegen Ende eines Tracks wurden lautmalerische Fantasietexte ausgegeben, die mich an Charlie Chaplins berühmte „Fake German Speech“ Szene in „Der große Diktator“ erinnerten.
  • Einzelne Wörter wurden falsch ausgesprochen. (Das ließ sich bei Udio aber korrigieren.)

Im Laufe des Projekts erarbeitete ich einige Tricks und Kniffe, um den Output der Audio-KIs zu optimieren und einige der o. g. Unzulänglichkeiten abzumildern. Dazu gehörten beispielsweise eine lautmalerische Schreibweise bestimmter Wörter (um die Aussprache zu verbessern) oder das Einfügen von Intros und Outros (um ausgelassene Texte zu vermeiden).

Da etliche der verwendeten Morgensterngedichte sehr kurz sind, erlaubte ich mir bei der Vertonung ein paar Wiederholungsfreiheiten, um die Audiotracks nicht zu kurz werden zu lassen.

2. Audio-Nachbearbeitung

Die Soundqualität der generierten Tracks schwankte, war generell aber eher bescheiden.

Suno v3 erzeugte zum Download MP3-Dateien mit einer Bitrate von 192 kBit/s. In praktisch allen diesen Stücken sind deutliche Artefakte wahrnehmbar. In Suno v3.5 konnten die Tracks auch als WAV heruntergeladen werden. Das verhinderte zwar MP3-Kompressionsartefakte, hob die Audioqualität jedoch nicht auf ein deutlich höheres Niveau.

Udio generierte in höchster Qualitätsstufe MP3-Dateien mit einer Bitrate von 320 kBit/s, aber auch hier nimmt man Artefakte wahr.

Ich bearbeitete fast alle Audiotracks noch einmal nach, vor allem um:

  • Anfang und Ende sauberer ein- bzw. auszublenden
  • Teile zu duplizieren oder neu zu kombinieren
  • Teilstücke aus verschiedenen Versionsketten eines Roh-Tracks zusammenzufügen
  • die Soundqualität zu verbessern

Starke Verbesserungen der Soundqualität waren mit den mir zur Verfügung stehenden Mitteln nicht zu bewirken. Da der Fokus dieses Projekts aber nicht auf der Klangqualität liegt, sind die Ergebnisse für mich akzeptabel.

3. Erstellung der Grafiken zur Visualisierung

Sowohl Suno als auch Udio können Grafiken erstellen, die sie aus dem jeweiligen Textkontext generieren. Das führt jedoch (zumindest bei Morgenstern-Gedichten) in den wenigsten Fällen zu sinnvollen Motiven. Ich habe daher für die Visualisierungen fast ausschließlich externe Bildgeneratoren eingesetzt.

Zu Beginn des Projekts war Midjourney der Klassenprimus unter den KI-Bildgeneratoren. Allerdings war die Bedienung von Midjourney (über Discord) relativ umständlich. Später wurde ich auf Ideogram aufmerksam und erzielte hier mit einem benutzerfreundlicheren Interface fast immer Ergebnisse, die meinen Vorstellungen besser entsprachen. Auch die Ausschussquote war bei Ideogram insgesamt niedriger. Weiterhin experimentierte ich mit Leonardo AI, aber trotz einiger guter Ergebnisse hat es keins der mit dieser KI generierten Bilder in das Projekt geschafft.

Prompt-Engineering

Die Qualität der von den verschiedenen Bildgeneratoren erzeugten Grafiken hängt entscheidend vom Text-Input ab, dem sog. Prompt. Je ausführlicher die textliche Beschreibung des gewünschten Motivs erfolgt, desto besser sind in der Regel die Ergebnisse.

Sowohl Midjourney als auch Ideogram akzeptieren und „verstehen“ Texte in deutscher Sprache. Intern übersetzen die KIs deutschen Input vor der Bildgeneration jedoch offenbar selbst ins Englische; dabei ist nicht ersichtlich, welche englischen Begriffe letztlich verwendet werden.

Erste Ergebnisse mit deutschen Prompts waren oft überraschend und entsprachen manchmal nicht dem intendierten Motiv. Ich formulierte die Prompts für dieses Projekt daher ausschließlich auf Englisch, um volle Kontrolle über die verwendeten Begriffe zu haben.

Um gute, elaborierte englischsprachige Prompts zu erzeugen, setzte ich eine weitere KI ein: ChatGPT.
In ChatGPT gab ich eine kurze Beschreibung des gewünschen Motivs in deutscher Sprache vor und ließ die KI daraus einen englischsprachigen Prompt generieren. Diese Prompts waren zunächst relativ knapp formuliert und regten die Bildgeneratoren nur zu mäßigen Ergebnissen an. Durch gezielte Aufforderung konnte ich ChatGPT jedoch dazu bewegen, sehr ausführliche und poetische Prompts auszugeben. Diese bewirkten deutlich hochwertigere Bildergebnisse.

Hier ein Beispiel für die Visualisierung von „Der Nachtschelm und das Siebenschwein“:

(Anmerkung: Zunächst hatte ich in der Motivbeschreibung Originalbegriffe aus dem Gedicht wie „Nachtschelm“, „Siebenschwein“ und „Schluchtenhund“ verwendet; diese führten jedoch zu eher bizarren Ergebnissen, so dass ich auf allgemeinere Begriffe zurückgriff.)

Überarbeitete Vorgabe:
Bitte nimm die Rolle eines erfahrenen Prompt-Engineers für Midjourney ein. Generiere einen englischsprachigen Prompt für die Darstellung folgender wesentlicher Bildinhalte: eine fantastische Welt voller bizarrer und anmutiger Wesen, darunter ein Kobold, ein Schwein, ein Hund, zwei Rehe, eine Mischung aus Rabe und Maus, eine Schnecke, ein Käuzchen und ein Gürteltier. Der Kobold und das Schwein sind ein glückliches Ehepaar.

Ergebnis von ChatGPT:
In a fantastical realm teeming with bizarre and graceful creatures, you'll find an unlikely couple at the heart of it all: a kobold and a pig. Despite their contrasting appearances, they exude a palpable happiness, their bond transcending the norms of their world.
Surrounding them are an eclectic array of beings, each possessing its own unique charm and allure. A loyal hound stands sentinel nearby, its eyes keen and watchful, while two deer graze peacefully, their elegance juxtaposed against the whimsy of the scene.
But it doesn't stop there. Imagine a creature embodying the fusion of a raven and a mouse, its form both enigmatic and endearing, flitting about with an air of mystery. A snail inches its way across the fantastical landscape, its shell adorned with intricate patterns that seem to tell tales of ancient times.
Overhead, a wise owl perches atop a gnarled branch, its gaze penetrating yet serene, while a curious armadillo scampers along, its armored exterior hinting at a resilience that belies its small stature.
Amidst this menagerie of beings, the kobold and the pig stand out not only for their unusual pairing but also for the palpable joy they radiate, a testament to the power of love in even the most fantastical of worlds.

(Das Gürteltier taucht leider im generierten Bild nicht auf, aber da es ansonsten sehr gelungen ist, habe ich es dennoch verwendet.)

Das Prompt-Engineering umfasste als Prozess oft mehrere Stufen und erforderte Verfeinerungen und Ergänzungen. Im Dialog mit ChatGPT machte ich bei Bedarf weitere Vorgaben wie z. B. „Verfeinere bitte den letzten Prompt. Es soll klar werden, dass…“ Gelegentlich ersetzte ich von ChatGPT verwendete englische Begriffe durch Synonyme oder Alternativen, wenn die grafischen Ergebnisse nicht zufriedenstellend waren. Manchmal war es auch erforderlich, die Reihenfolge der einzelnen Prompt-Absätze zu verändern.

In einem hartnäckigen Fall gelang es mir auch mit Hilfe von ChatGPT nicht, Midjourney zur Ausgabe eines zufriedenstellenden Bildes zu bewegen. Eine besondere Schwierigkeit bei „Die Probe“ bestand darin, dass der zentral wichtige Begriff „Nadelöhr“ im Englischen mit „eye of a needle“ oder „needle eye“ übersetzt wird. Midjourney war nicht in der Lage, dies sinnvoll zu verarbeiten und produzierte etliche Bilder mit Augen und Nadeln… Ich reduzierte die Vorgabe schließlich auf das Kamel und erstellte anschließend eine Fotomontage mit einem echten Nadelöhr.

„Morgenstern reloaded“ Logo

Für das Projektlogo verwendete ich ein Foto des ca. 28jährigen Christian Morgenstern:

Foto von Christian Morgenstern

Dies lud ich bei Midjourney hoch. Als Prompt gab ich zusätzlich zur Bild-Adresse schlicht „he winks headphones cyberspace musical instruments“ ein.

Das letztlich für das Logo dieses Projekts verwendete Bildmotiv war eine von insgesamt zwanzig erzeugten Varianten. (Einige der veworfenen Motive sind unter Outtakes zu sehen.)

4. Videoproduktion

Suno generierte in v3 neben den reinen Audiotracks zusätzlich direkt Videos mit Bildmotiv und karaoke-ähnlichem Lauftext. Die Bildmotive waren jedoch fast immer ungeeignet und der Lauftext war oft nicht synchron. Außerdem wurden strukturierende Anweisungen wie „[intro]“, „[break]“ etc. im Text mit ausgegeben. Daher habe ich die Videos komplett neu erstellt.

Das verwendete Videoformat (Hochformat, 512x768, 24fps, H264 MPEG-4) übernahm ich von Suno; es erschien mir für die Wiedergabe auf Handys am geeignetsten.

Für die Videoproduktion verwendete ich die freie Software DaVinci Resolve.