AIL-Chef Sporn: „KI-Audio im Film geht nicht mehr weg“

Das Publikum gerät nicht automatisch in Ekstase, wenn die KI zum Einsatz kommt. Speziell in traditionellen Medien ist sie für so manchen Rezipienten noch stark gewöhnungsbedürftig. Das trifft offensichtlich auch auf das Kino zu. Hier konnte zwar das Unternehmen Audio Innovation Lab weltweit erstmals eine KI-Synchronisation auf die große Leinwand bringen. Doch, wie letzte Woche gemeldet, gab es Proteste von vielen Seiten. Wir sprachen mit Geschäftsführer Stefan Sporn über diese Aufregung und die mögliche weitere KI-Entwicklung im Kino.  

Black Dog ist der weltweit erste mit KI-Audio synchronisierte Film auf der großen Leinwand. Sie ahnten sicher schon, dass es dazu nicht nur positive Kritik geben würde. Doch hat Sie die Intensität der Proteste auch überrascht?

Sporn: Überrascht nicht, nein. Die Geschichte des Films ist voll von fundamentalen Veränderungen, die immer wieder zu zum Teil heftigen Protesten geführt haben. Der Wechsel vom Stumm- zum Tonfilm ist hier das beste Beispiel. Damals gab es Boykottaufrufe gegen Kinos und Protestplakate an den Eingängen. Das gab es – neben dem zeitgemäßen Shitstorm auf den Social-Media-Plattformen – auch zum Start von Black Dog – History repeated. Es geht um existenzielle Sorgen von Sprechern und Sprecherinnen – dass diese sich überwiegend emotional artikulieren, war erwartbar und ist auch völlig verständlich –  und das müssen und wollen wir auch ernst nehmen.

Was glauben Sie, wieviel Filme werden mit KI-Audio demnächst noch folgen?

Sporn: Vom AIL folgen im 1. Quartal 2025 noch zwei weitere Filme, und unsere grundsätzliche Erwartung ist: Die Veränderung ist nicht mehr aufzuhalten; KI-Audio geht nicht mehr weg, daher wird eine ständig wachsende Zahl von Filmen folgen.

Wieviel KI-Audio verträgt so ein Film überhaupt und welche Einsatzmöglichkeiten sehen Sie noch im Kino?

Sporn: Zu unterscheiden ist zwischen der Synchronisation und dem Sound-Design sowie der Musik eines Films. Das AIL konzentriert sich ausschließlich auf die Synchronisation und/oder das Voice-Over. Hier haben wir gezeigt, dass problemlos ein ganzer Film mit KI-Audio erstellt werden kann. Beim Sound-Design und bei den Musiken ist bekannt, dass auch hier die Entwicklung rasant ist und bereits viel ausprobiert und womöglich auch eingesetzt wird. Hier ist zweifelsohne noch viel Potenzial.

Wie stellen Sie sicher, dass der Einsatz von KI in der Kreativbranche nicht die künstlerische Qualität beeinträchtigt? Wie wird das Ergebnis vom Team konkret gegengecheckt?

Sporn: Die KI ist nur ein neues Werkzeug, das vor allem neue, verbesserte Produktionsprozesse möglich macht. Es arbeitet nicht autonom. Links rein, rechts raus und fertig – das funktioniert nicht. Der entscheidende Faktor für ein qualitativ hochwertiges Ergebnis ist und bleibt der Mensch, der sich dieses Werkzeugs bedient und der die Ergebnisse überprüft und korrigiert. Beispiel: Lippensynchron texten kann keine KI, das kann nur ein erfahrener ausgebildeter Autor. Lippensynchron „sprechen“ kann auch keine KI. Wir haben daher für jeden Produktionsschritt Fachleute, und über allem wacht zusätzlich eine Synchronsupervisorin mit jahrzehntelanger Erfahrung aus der traditionellen Synchronisation.  

Wie genau war der Mensch in den KI-gestützten Synchronisationsprozess eingebunden, und welche Rolle spielten SprecherInnen dabei? Oder anders gefragt: Welche Kriterien wurden bei der Auswahl der synthetischen Stimmen für die Synchronisation von „Black Dog“ angewendet?

Sporn: Es braucht an verschiedenen Prozessschritten den kreativen Menschen. Buch, Cut, KI-Audio-Producing. Und es braucht auch weiterhin immer wieder SprecherInnen. Entweder zur Synthese ihrer Stimmen oder für den Einsatz von „Speech to Speech“, wenn „normales“ KI-Audio beispielsweise wegen der besonderen Emotionalität von Filmpassagen an seine Grenzen kommt. Bei der Auswahl der Stimmen von Black Dog galt, was unabhängig von der Produktionsweise gilt: So nah wie möglich an das Original herankommen.

Ist das eigentlich eine Entwicklung, die ohnehin nicht aufzuhalten ist? Wenn Sie es nicht machen, dann macht es ein anderer?

Sporn: Genau. Wir halten es für schlauer, die nicht aufzuhaltende Entwicklung auch und gerade in Deutschland mit zu entwickeln und zu gestalten, statt uns treiben zu lassen und im Zweifel von neuen, ausländischen Anbietern aus dem Markt gedrängt zu werden.

Welche Bedeutung hat „Black Dog“ für die zukünftige Entwicklung der Film- und Synchronbranche?

Sporn: „Black Dog“ ist einerseits ein Meilenstein der Filmgeschichte und andererseits ein Signal an Produzenten, Verleiher, Vertriebsfirmen, Streamer, TV-Sender im Sinne von: Es funktioniert, und es haben bereits Mutige den ersten Schritt gewagt. Ihr könnt es jetzt auch tun.

Wie sehen Sie die Rolle von Künstlicher Intelligenz langfristig in der Filmproduktion und im Audiobereich allgemein? Wie wurde sichergestellt, dass die deutsche Synchronfassung von „Black Dog“ trotz des Einsatzes von KI-Audio authentisch bleibt?

Sporn: KI hat längst Einzug in die Filmproduktion gefunden, das beginnt beim Drehbuch und endet bei der Synchronisation als letztem Post-Production-Prozess. Wie bereits gesagt, KI-Audio ist nicht aufzuhalten und wird in immer mehr Bereichen und immer umfänglicher eingesetzt werden. Die Authentizität ist quasi die kreative „Killer-Applikation“ von KI-Audio. Die Synchronstimmen bei der traditionellen Herstellung sind oft ganz weit weg vom Original. Sie sind eher eine – mal mehr oder mal weniger – gelungene Interpretation des Originals. KI-Audio kann die Originalstimmen nutzen und in der gewünschten Sprache sprechen lassen. Damit bewahrt sie den Charakter des Originals und reflektiert damit die Persönlichkeit des Originalschauspielers in unvergleichlicher Weise. Näher dran, authentischer geht es nicht. Bei „Black Dog“ konnten wir zwar nicht auf die Originalstimmen zurückgreifen, aber dennoch erlaubte es die Technologie, einfach dichter am Original zu sein.

Gibt es Pläne, die Technologie hinter dem KI-Audio noch weiterzuentwickeln, und wenn ja, in welche Richtung?

Sporn: KI-Audio entwickelt sich rasant weiter und wird immer besser – in jeder Hinsicht. Bezogen auf Synchronisationen sehen wir nicht die Entwicklung, dass irgendwann eine KI noch lippensynchroner als ein Mensch texten kann, sondern dass das Bild lippensynchron durch KI auf den Text angepasst wird. Die Entwicklung ist im vollen Gange, und wir schauen uns diese sehr genau an, um gegebenenfalls zum richtigen Zeitpunkt auch diesen Service anzubieten. Es wird aber wohl noch Jahre dauern, bis das produktreif und finanziell attraktiv ist.

Wie bewerten Sie die wirtschaftlichen Auswirkungen des Einsatzes von KI-Audio auf die Film- und Synchronbranche?

Sporn: Ein sehr wichtiger Aspekt ist folgender: Dank KI-Audio eröffnen sich für viele Firmen neue Märkte und damit große kommerzielle Chancen. Insbesondere viele kleinere Produktionsfirmen, die ihre Filme bisher nicht international auswerten konnten, weil die Synchronisation oder das Voice-Over in unterschiedliche Sprachen schlicht zu teuer wäre, können die Verwertung ihrer Filme anders und verbessert planen. KI-Audio ist günstiger und einfacher gemacht. KI-Audio erfordert außerdem veränderte Prozessschritte, auf die sich alle an den Produktionen Beteiligten einstellen müssen. Sie schafft aber auch eine ganz neue Berufsgruppe: Die des KI-Audio-Producers. Das ist letztlich eine Kombination aus Regisseur und Tonmeister, der der KI „sagt“, wie sie zu sprechen hat.

Und welche Gefahren sehen Sie in der Einführung von KI-Audio-Synchronisation für traditionelle SynchronsprecherInnen, oder eher eine Chance zur Zusammenarbeit?

Sporn: SprecherInnen werden auch zukünftig gebraucht werden – allerdings nicht mehr im gleichen Umfang oder auf dieselbe Weise wie die vergangenen Jahrzehnte. Wenn wir mal ganz produktiv denken: Dank KI-Audio eröffnet sich für SprecherInnen die Möglichkeit, ihre Stimmen zu „lizenzieren“, also die Rechte daran zu verkaufen, ohne dafür einen einzigen Tag im Studio zu verbringen.

Sie waren früher bei RTL Deutschland, wie sind Sie grundsätzlich zur Thematik gekommen?

Mein Schlüsselerlebnis war die Arbeit einer RTL-Kollegin, die die Vorlesefunktion für die ntv-App auf Basis synthetisierter Stimmen entwickelt hat. Zu dem Zeitpunkt war ich nur schwer beeindruckt. Kurze Zeit später war ich aber Geschäftsführer eines traditionellen Synchronstudios und schlagartig besorgt. Denn hier bedurfte es keiner besonderen intellektuellen Transferleistung mehr: Wenn ein solches Unternehmen eine Chance in der Zukunft haben will, muss es sich mit KI-Audio schnell und intensiv auseinandersetzen. Das habe ich getan, und daraus ist letztlich das AIL entstanden.

Interview: dh

Foto: AIL