Interview mit Stefan Schmidt von Metalverse

Stefan Schmidt hat 2006 mit seiner Band Van Canto für ein Novum gesorgt, A-Capella-Metal gab es bis dato nicht. Nun betritt der Musiker und Informatiker mit seinem Start-up Musical Bits wieder neue Pfade: Das Metalverse und die selbstgeschriebene Software dahinter ist die (zukünftige) Heimat von Metalbands, die auf KI-Technologie basieren. Wir sprechen in Teil 7 unseres Specials “MetAI – Künstliche Intelligenz im Metal” mit ihm über die Motivation hinter dem Projekt, die Entstehung der KI-Songs und die Bedeutung von Kreativität und Menschlichkeit hinter all der Technik.

Metalverse Logo

Möchtest du zu Beginn dein Start-up Musical Bits vorstellen, das hinter dem Metalverse steht?
Musical Bits schreibt Software, die beim Komponieren hilft. Dafür nutzen wir auch Verfahren der künstlichen Intelligenz, vieles ist aber auch ganz klassisch programmiert. Die Bands, die sich im Metalvserse tummeln, sind sozusagen unsere eigene Spielwiese und für uns selbst der Beweis, dass das, was wir programmieren, auch funktioniert. Die Idee hinter Musical Bits ist aber, dass Musiker und Produzenten zu Hause selbst Unterstützung bekommen können, wenn sie zum Beispiel zu bestehenden Drumaufnahmen fette Rhythmusgitarren erzeugen wollen.

Musical BitsDu bist selbst Informatiker und die Software, die ihr benutzt, habt ihr zum Teil selbst entwickelt, richtig? Kannst du über die Entstehung und die Entwicklung etwas erzählen?
Richtig, ich bin selbst Informatiker und unsere Software haben wir nicht nur zum Teil, sondern komplett selbst entwickelt, momentan in einem Team von zehn Leuten. Da sind Musiker dabei, Informatiker, Computer-Linguisten, 3D-Modeller und viele mehr.

Ihr wollt dieses Jahr eine Software namens Klangmacht veröffentlichen, mit der man auch selbst Musik erstellen kann. Was soll damit alles möglich sein, welche Zielgruppe wollt ihr ansprechen?
Wir fangen an mit Drumsounds, die direkt in dem Moment, wo du sie benutzt, nach fertiger Produktion klingen. Mit diesen Sounds haben wir zum Beispiel auch die Frostbite Orckings produziert. Später folgen dann Tools zum Texte schreiben, zum Erzeugen von Texten, Bässen, Gitarren und Background Chören.

Wie entstand die grundlegende Idee dazu, mit dem Metalverse eine Umgebung zu erschaffen, in der es mehrere KI-generierte Bands gibt?
Erstmal sind es vor allem virtuelle Bands. Ob alle Bands im Metalverse für alle Zeiten immer ausschließlich auf KI-Technologie zurückzuführen sind oder echte Musiker als “Paten” haben, wird sich noch rausstellen. Letztendlich ist das nur eine konsequente Fortführung des Storytellings, das sich alle Metalbands ja irgendwie selbst mitgeben, sei es durch Artwork, Bandnamen, Kostüme oder Masken. Und in unserem Fall sprechen wir nun eben von komplett virtuellen Bands, die zum Beispiel als Orks durch den kalten Norden ziehen.

Das Metalverse ist in “Origin Lands” aufgeteilt. Was ist die Idee dahinter und wie werden diese Regionen “bevölkert”?
Diese Regionen werden mit verschiedenen Bands verschiedener Stile bevölkert, die dann entweder gegeneinander antreten oder auch miteinander musizieren können.

“The Orcish Eclipse” von den Frostbite Orckings ist das erste KI-generierte Metalalbum. Wie war die Resonanz der Metalgemeinde und Fachpresse darauf?
Die Resonanz war im Rahmen des Möglichen sehr positiv. Viele fanden es wirklich einfach direkt musikalisch – und auch optisch – super, und haben das auch so geschrieben. Die, die es nicht gut fanden, haben vor allem gesagt “Scheiße, klingt das gut”, das heißt sie haben gar nicht die Qualität bemängelt, sondern waren eher erschrocken, dass es so gut klingt, was ja auch wieder ein Lob ist. Wir wollten auch bewusst ein bisschen “aufschrecken”, das gehört zum künstlerischen Ausdruck dazu. Kritiken, die jetzt wirklich musikalisch was zu bemängeln hatten, waren stark in der Unterzahl. Die Metalgemeinde selbst ist so breit gefächert, dass man dort natürlich vor allem Rückmeldung von denen bekommt, die die Band feiern, sehr viele junge Menschen vor allem, was wir auch sehr gut finden. Es soll ja auch in 20 Jahren noch Metaller geben!

Wie entsteht die Musik der Bands wie Frostbite Orckings? Wie und mit welchem Material wird die KI trainiert?
Alles, was der Band zugrunde liegt, wurde von echten Musikern im Team trainiert. Ganz konkret war es bei den Orckings so, dass Bastian Emig und ich 40 Stunden zusammen getrommelt und Gitarre gespielt haben, und zwar so, wie wir uns eine Ork-Band aus dem Norden klanglich vorstellen. Genau so sind wir mit Gesangsfragmenten vorgegangen, die wir ebenfalls selbst produziert haben. Dann ging es weiter mit Akkordfolgen, Lead-Gitarren und so weiter … Diese Trainingsdaten haben wir dann fast eineinhalb Jahre lang aufwändig annotiert, konvertiert und in Formen gebracht, damit sie der Computer erstens versteht und zweitens daraus auch neue Kompositionen Schicht für Schicht zusammenbauen kann.

Spannend ist hierbei immer die Urheberrechtsfrage. Wie stellt ihr sicher, dass die KI keine Songs erstellt, die bestehende Songs oder Elemente daraus nicht kopiert und die generierten Songs auch tatsächlich originär genug sind?
Jeder kleine Schnipsel, den du auf dem Album hörst, basiert auf Aufnahmen von uns. Für zehn fertige Albumsongs haben wir bestimmt weit über 100 Songs – beziehungsweise Teile für 100 Songs – generieren lassen und dann “händisch” bewertet und sortiert. Von daher ist jeder Song, den du hörst, noch mehrfach durch menschliche Ohren bewertet worden. Gemischt wurde zum Großteil auch “klassisch”, also durch einen echten Menschen am Mischpult. Spätestens da muss uns dann natürlich auffallen, wenn das Ding auf einmal den Riff von „Enter Sandman“ nachkomponiert hätte, aber das geht einem menschlichen Komponisten ja auch nicht anders.

Welche Vorgaben gebt ihr der KI beim Erstellen der Musik und der Videos?
Bei den Orckings ist es eine klare Reihenfolge. Zuerst werden Tempo und Abfolge von Teilen bestimmt. Dann kommen die Drums. Dann Harmonien und Akkordfolgen. Mit diesen Infos können dann schon Bass, Gitarre und Keyboards so generiert werden, dass sie zu den Drums passen. Dann kommen Text, Gesang und Chöre und dann wird gemischt. Die Videos sind zum Stand der Veröffentlichung noch komplett “Handarbeit” gewesen, auch da machen wir aber große Fortschritte in Richtung Teil-Automatisierung.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Wenn die KI ein fertiges Lied liefert, inwiefern greift ihr dann ein und ändert im Nachhinein noch etwas daran?
Wir haben uns Mühe gegeben, dass wir nichts groß ändern. Unsere Einflussmöglichkeit bestand vor allem darin, Teile zu verwerfen und solange neue Teile zu generieren, bis uns diese gefallen haben. So ist es eine gute Mischung: Die KI hat wirklich selbst komponiert, wir haben aber die letzte Entscheidung gefällt, wie das Ganze dann auf dem Album zu hören ist.

Kunst ist per Definition etwas vom Menschen in einem kreativen Prozess Geschaffenes. Kann rein durch KI dennoch in irgendeiner Form Kunst entstehen?
Na klar, offensichtlich. Wir verstehen die KI einfach als Instrument, hier sogar im doppelten Sinne als Werkzeug und als musikalisches Instrument. Wo ziehst du die Grenze? Wenn ich als Joey Tempest in den 1980er-Jahren auf eine Taste gedrückt habe, dann kam aber auf einmal ein Trompetensound aus dem Synthesizer und schwupps, konnte ich “The Final Countdown” komponieren und produzieren, ohne jemals eine Trompete in der Hand gehabt zu haben. Es gibt aktuell Metalbands, die als Headliner auf Festivals spielen, aber auf ihren letzten Alben keine einzige Bassdrum, die man hört, wirklich gespielt haben, sondern einfach alles programmiert haben. Es gibt Sänger, die keinen Ton treffen und alles geraderücken lassen. Nicht falsch verstehen: Ich finde diese Entwicklung nicht gut, aber es ist eben nicht so, dass KI jetzt ein einziges, ganz neues Tool wäre, und zum ersten Mal Technik für Musik benutzt würde. Ich finde es sogar sehr inspirierend zu hören, was unser System so komponiert. Ich war am Training ja mit den 40 Stunden Einspielen maßgeblich beteiligt. Ich finde die Band klingt – rein instrumental – sehr danach, wie Basti und ich klingen, wenn wir gemeinsam musizieren. Trotzdem wären uns die Teile so, wie sie sind, nicht direkt selbst eingefallen, sondern wir haben dafür die Inspiration geliefert, ein Instrument hat daraus dann musikalische Elemente erzeugt, die wir kuratiert und ausproduziert haben.

Was unterscheidet Inspiration – etwa, wenn ein Musiker seinen Lieblingsbands nacheifert und deren Songs nachspielt – vom Lernprozess einer KI?
So wie wir das angehen, gibt es da keinen großen Unterschied. Eine Riesenfirma, die einfach das Internet leersaugt und neu zusammensetzt, ohne auf Urheber zu achten, geht da wohl anders ran, aber wir sind eben kein Google oder Open AI, sondern probieren genau das was du sagst, nämlich ein stilistisches “Nacheifern” steuerbar in ein KI-System zu bekommen. Ich weiß gar nicht genau warum, es hat uns ja keiner gezwungen, aber wir wollten es eben machen und haben auch den Anspruch, dass, bevor es irgendwer schlecht macht, wir auch versuchen können es selbst gut zu machen.

Kannst du dir den Einsatz von KI in irgendeiner Art und Weise auch für Van Canto vorstellen?
Die Arbeit für Van Canto ist inzwischen so rückenmarksmäßig für mich, da bin ich hundertmal schneller, wenn ich einfach einen Song schreibe, anstatt erst zwei Jahre ein System zu trainieren. (lacht) Ich könnte es mir beim Songwriting vorstellen. Ich mache zum Beispiel oft Drumlayouts, bei denen Basti dann sagt “Das kann ein Drummer nie spielen”. Mit unseren Tools könnte ich jetzt gleich Drumlayouts machen, die näher an echt gespielten Drums liegen und das ganze Arrangement wäre dann gleich etwas sattelfester und ich könnte mich auf die Gesänge konzentrieren.

Wie kann man als Fan mit den Bands und dem Metalverse interagieren? Ihr bietet zum Beispiel “Origin Lands NFTs” an, was hat es damit auf sich?
Die NFTs sind alle verkauft, das ist auch nur eine Möglichkeit als “Mitglied” oder Fan einer Bands zum Beispiel auf kreative Entscheidungen Einfluss zu nehmen. Wie soll der nächste Song heißen? Ist Riff A oder B besser? Soll das Video auf hoher See oder im tiefen Eis spielen? Die Möglichkeiten sind unbegrenzt, so richtig Spaß wird das aber erst machen, wenn ein paar mehr Bands im Metalverse am Start sind.

In anderen Musikrichtungen – ganz offensichtlich bei elektronischer Musik – ist technisch erzeugtes und KI-unterstütztes Material schon länger gang und gäbe. Was unterscheidet den Metal im Fall von KI und handgemachter Musik von anderen Genres?
Nicht mehr viel, würde ich sagen. Allein was wir mit Van Canto in den letzten zwei Jahrzehnten an Veränderungen erlebt haben. 2006 war es noch total verpönt und hatte Skandalpotential, wenn eine Band mit Playbacks arbeitet. Heute stehen manchmal vier Leute auf der Bühne, du hörst aber vierstimmige Gitarren, ein komplettes Orchester und der Leadsänger säuselt leise eine von drei Stimmen mit, die vom Band kommen. Und ich komme manchmal nach 60 Minuten von der Bühne und kann nicht mehr atmen, weil ich pausenlos „Rakkatakka“ gesungen habe. Für diese Entwicklung brauchst du keine KI, da reichen Computer. Ich finde außerdem, dass viele Bands so klingen, als würden sie genau das, was unser System macht, selbst probieren: “Wie klang nochmal unser letzter Hit? Ich tausch mal zwei Akkorde aus, dann nehmen wir den nochmal”. Oder “Wir brauchen noch einen schnellen Song, auf dem letzten Album waren drei schnelle und bisher haben wir nur zwei”. Nur eben, dass unser System weitaus schneller und variantenreicher variieren kann, es hat kein Ego, es wird nicht müde und es ist auch nicht faul. (lacht)

Aber das sind alles nur die negativen Eigenschaften. Es gibt immer noch tolle Komponisten, super Bands, klasse Sänger und vor allem Menschen und Persönlichkeiten, die was zu erzählen haben und die du treffen kannst, wenn du auf ein Konzert gehst. Daran wird sich nie was ändern. Nur das “reich werden“ wird halt immer schwerer, wenn jeder kostengünstig Mega-Produktionen fahren kann. Dazu tragen solche Firmen wie wir sicher auch bei, aber das ist nur eine Weiterentwicklung einer Tendenz, die sowieso nicht aufzuhalten ist. Musikproduktion ist eben demokratisiert worden und jeder kann ohne Probleme für 1.000 Euro ein Album produzieren. Die Alben, die 30.000 Euro kosten, klingen immer noch besser, verkaufen sich aber nicht automatisch 30-mal so oft. Das war früher vielleicht anders, da konntest du anders rechnen. Ich finde das alles nicht schlimm, Veränderungen halten die Welt spannend, und man muss eben damit umgehen. Oder man darf, ist ja auch ein Privileg, wenn man keine schlimmeren Probleme hat, als sich über sowas Gedanken zu machen.

Frostbite OrckingsSpätestens seit dem kostenlosen Release von ChatGPT und diversen Tools ist KI ein großes und brisantes Thema der breiten Öffentlichkeit geworden. Was waren deine ersten Gedanken dazu?
Für uns war das natürlich vor allem aus unternehmerischer Sicht interessant. Als wir im November 2021 angefangen haben, dachten wir, wir haben sicher so zwei oder drei Jahre Zeit. Dann kam ChatGPT und alles geht seitdem viel schneller. Wir sind aber nischig und hochqualitativ unterwegs, von daher mach ich mir wenig Sorgen. ChatGPT nutze ich selbst ab und zu als kurze Inspirationsquelle, ich kann aber nicht behaupten, dass die Existenz von ChatGPT mein Leben als Privatperson verändert hätte. Da ist auch viel Hype dabei.

Die KI hat dann schnell „gelernt“, auch Bilder zu erschaffen. Nach Anlaufschwierigkeiten ist der Fortschritt in jüngster Vergangenheit jedoch enorm. Wie ist dein Gefühl dazu? Wo siehst du Chancen, wo siehst du Risiken?
Viele dieser Tools eignen sich hervorragend, um einen kurzen einmaligen Wow-Effekt zu erzeugen. Dann denkt man “Krass, so ein Bild hätte ich nie hinbekommen”. Das war es dann aber irgendwie auch schon. Ich weiß nicht, wer wirklich solche Bilder nutzt? Ich würde es nicht machen, allein schon, weil ich nicht weiß, mit was die ihre Systeme trainiert haben. Ich finde es etwa praktisch, in Photoshop einen Hintergrund “auffüllen” zu lassen, was ich vorher “per Hand” mit anderen Photoshop-Werkzeugen gemacht habe. Aber jetzt einfach ein Albumcover in einer Sekunde kostenlos erzeugen lassen? Das kann dann jeder und es bringt meiner Band keinen Vorteil. So sehe ich unsere Tools auch. Wir haben sie für ein komplettes Album genutzt, um zu zeigen, was möglich ist – für den “Wow”-Effekt. Die Anwendung sehe ich aber wie gesagt eher darin, dass man sich mal eine Gitarre erzeugen lässt, weil man sie selbst nicht spielen kann, damit man coolere Songs schreiben kann. Erfolgreich wird dann aber trotzdem die Band sein, die das mit eigener Kreativität verbinden, alles stimmig produzieren und gut präsentieren und verkaufen kann.

Momentan wird in der EU viel über KI-Regulierungen diskutiert. Wie ist deine Meinung dazu, kann man das auf Dauer überhaupt vernünftig regulieren oder ist ein “point of no return” bei der bisherigen Entwicklung schon überschritten? Wo siehst du hierbei Probleme für die Zukunft?
Ich finde das “Point of no return”-Argument nie gut. Bei Piraten-MP3s war es ja auch so, dass es sich gelohnt hat, darüber nochmal ordentlich nachzudenken und damit überhaupt sowas wie Streaming möglich zu machen. Man hätte auch sagen können, “ist eh zu spät, ab jetzt alle Musik umsonst für alle”. Wir haben uns bei Musical Bits zum Beispiel sowohl für die Frostbite Orckings als auch für Klangmacht von “FairlyTrained.org” zertifizieren lassen und verstehen es als eigenes Qualitätsmerkmal, dass wir eben offiziell nach außen hin kommunizieren können, unsere Trainingsdaten selbst erzeugt zu haben. “Regulierung” klingt für viele direkt nach “Verbot” oder “Eingriff des Staates”, ich denke aber, dass es nirgendwo so viel Sinn macht wie im KI-Bereich. Ich sehe viele Möglichkeiten, das ganze fairer und transparenter zu gestalten, ohne gleich die Innovation als solche zu verhindern.

Wie wird sich der anhaltende Fortschritt in der KI auf Kunstschaffende auswirken?
Ich fühle mich nicht befugt genug, das substanziell vorhersagen zu können. Ich habe also keine Ahnung. (lacht) Ich denke zumindest in der Musik – und speziell im Metal – waren Markt und Technik nur in den seltensten Fällen der Antrieb für neue Kunst. Die meisten Musiker wollen sich halt äußern und etwas darbieten. Sich kreativ ausdrücken, vielleicht auch sich den Liebeskummer raussingen. Das wird sich nie ändern. Wenn du aber einfach nur in ein System gehst und promptest “mach mir einen tollen Song”, dann stellen sich diese Effekte ja gar nicht ein. Du bist danach nicht befreit oder fühlst dich beseelt. Das musst du schon noch selbst machen. Aber wenn du einen Mega-Song geschrieben hast und kannst eben nicht trommeln, und lässt dir von einem KI-System beim Produzieren der Drums helfen, damit dein Werk vollständig produziert wird, dann ist das was anderes. Ich sehe es wie gesagt als weiteres Instrument, nicht als Bedrohung, auch nicht als Allheilmittel und schon gar nicht als Ersatz für Kreativität als solche.

Vielleicht ist das vergleichbar mit Apps, die dein Foto so bearbeiten, als hättest du Muskeln. Dann hast du zwar ein einfaches Ergebnis, aber der ganze Spaß, sich täglich zu bewegen und zu trainieren und wirklich innerlich die Veränderung im Körper zu spüren, kann das Foto ja nicht ersetzen. Aber wenn du zum Beispiel mit dem E-Bike zum Fitnessstudio fährst, und es mit dem normalen Fahrrad nicht gemacht hättest, weil dir die Strecke zu weit ist, dann hast du Technik benutzt, um insgesamt etwas Gutes zu tun, nämlich Sport. Also halten wir fest, dass KI-Tools das E-Bike der Musik sein können. (lacht)

Welchen Umgang mit den neuen Möglichkeiten würdest du dir wünschen? Wie könnte es Kunstschaffenden gegenüber fair bleiben?
Alle KI-Systeme sollen klar sagen, woher sie ihre Daten haben. Dann kommt der Rest, zum Beispiel die faire Beteiligung der Erschaffer, von alleine.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Publiziert am von

Dieses Interview wurde per E-Mail geführt.
Zur besseren Lesbarkeit wurden Smilies ersetzt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert