Björn Ommer ist Hauptentwickler der KI-Anwendung "Stable Diffusion". Sein Programm ist imstande aus einfachen Texteingaben Bilder zu kreieren. Damit ist Stable Diffusion neben Midjourney und Dall-E einer der Top drei auf dem Gebiet der bildgebenden Künstlichen Intelligenz (KI). In einem Beitrag im Business Punk gibt der Professor an der Universität München Einblicke in seine Haltung gegenüber gegenwärtigen und künftigen Herausforderungen auf dem Gebiet der KI.
Maschinen das Sehen beibringen
"Seit vielen Jahren ist es eines meiner Ziele, den Maschinen das Sehen beizubringen", erklärt er die Idee hinter seiner Arbeit. Wichtig sei ihm dabei, dass Stable Diffusion so entwickelt wurde, dass er für alle zugänglich und gratis ist. "Denn, und das war meine Antriebsfeder dahinter, es schien so zu sein, dass generative KI in die Richtung steuert, dass in Zukunft nur noch einige wenige große Firmen aus dem Silicon Valley die Computerressourcen haben, um die Modelle laufen zu lassen."
Hinsichtlich des Diskurses rund um Urheberrechte rund um die KI und ihr Training ist Ommer praktisch veranlagt: "Ich könnte mir vorstellen, dass sich das in der Zukunft ähnlich wie in der Musikindustrie auch entwickelt, weil dort ursprünglich ja sehr viel Kritik aus guten Gründen von Künstlern gekommen ist. Aber mittlerweile sieht man, dass die Bands, die früher dagegen waren, auf einmal selber ihre Videos auf YouTube hochladen." Hier habe die digitale Ökonomie auch neue Einkommensquellenerschlossen.
Auf die Frage, ob ein Code mittlerweile mehr könne als der Mensch, entgegnet er: "Ja – und das ist ganz und gar nichts Neues. Wir Menschen waren nie besonders gut darin, schnell zu laufen, hoch zu springen, schwere Dinge zu tragen. Und dafür haben wir uns immer Werkzeuge gebaut. Und wir haben das mit Computern bereits getan, wenn es darum ging, große Zahlen zu rechnen, große Datenbestände auswendig zu lernen."
Ein Werkzeug für die Ungeduldigen
Für die Ungeduldigen könne Stable Diffusion auch ein Anfang sein, sich die Macht der Kunst und des Ausdrucks zunutze zu machen: "Alle Menschen sind auf irgendeine Art und Weise kreativ. Aber nur die wenigsten sind begabt, diese Ideen aus dem Kopf auf das Papier zu bringen."
Die Sorgen der Künstler, dass ihnen Arbeit weggenommen werde, versteht er freilich: "Aber dass mich als Künstler ein System substituiert, bei dem jemand fünf Wörter eingibt, und dann kommt ein Bild heraus – die meisten Künstler sind zu besserer Qualität fähig."
Bilder sollen laufen lernen
Was Bild-KI in Zukunft außerdem noch leisten könne? "Da ist noch die zeitliche Dimension, bei der es nicht nur darum geht, dass die Bilder schön aussehen, sondern dass wir auch Konsistenz bekommen. Konsistenz in der Bewegung. Eine zusätzliche Herausforderung, neben der, dass Videos rechnerisch auch deutlich aufwendiger sind als einzelne Bilder", ist Ommer überzeugt. Dann könne es auch in die Tiefe des Raumes gehen, in aus Texten entstandene 3D-Welten, die dem Metaverse einen Schub verleihen können.
www.stablediffusionweb.com
www.lmu.de
Kommentar schreiben