Wenn KI nicht nur „lesen“ kann, sondern auch selbst eine emotional reiche und charakterklare Mehrpersonen-Hörspielproduktion inszenieren kann, erlebt die Hörinhaltsbranche einen disruptiven Wendepunkt. Kürzlich hat das Voice-Team von Doubao offiziell eine **automatisierte Produktionslösung für „KI-Mehrpersonen-Hörspiele“** vorgestellt. Das ist der erste Versuch, den gesamten Prozess von der ursprünglichen Roman-Textdatei bis zum fertigen Hörspiel vollständig automatisiert zu gestalten – ohne Sprecher, ohne Nachbearbeitung und ohne menschliche Intervention. Die Kosten sinken drastisch, die Effizienz steigt stark, und das Ergebnis erreicht nahezu professionale Hörspielqualität.

image.png

98 % Genauigkeit bei der Erkennung von Rollen, KI „spielt“ die Seele der Figuren

Der Kern dieser Lösung besteht in einer hochnatürlichen TTS-Engine (Text-to-Speech) mit mehreren Rollen. Durch multimodale Vortrainierung mit umfangreichen Roman-Texten und Sprachdaten kann die KI nicht nur präzise zwischen verschiedenen Rollen im Dialog unterscheiden, sondern auch die Rolle mit einer Genauigkeit von über 98 % zuordnen. Zudem verleiht sie jeder Rolle eine Tonlage, Rhythmus und Stimme, die zu ihrer Persönlichkeit, Stimmung und Szene passen. Egal ob ein kalter Antagonist lacht tief und bedrohlich oder die junge Hauptfigur fröhlich und lebendig spricht – die KI kann dies fein nuancieren und verabschiedet sich damit von dem mechanischen „eine Person, tausend Gesichter“-Eindruck traditioneller TTS-Systeme.

Zudem kann das System intelligent Hintergrundmusik, Umgebungsgeräusche und Übergangseffekte hinzufügen – ein Kampf in der Regenzeit wird mit Donner und Schritten begleitet, ein Hofdialog mit einem Guqin und Knacken der Kerzen, was ein filmreifes immersives Hörerlebnis schafft.

Tomato Novel setzt es als erstes um, Reaktionen der Nutzer übertreffen die Erwartungen

Diese Technologie wurde bereits in der ersten kommerziellen Implementierung in der Tomaten-Novel-App von ByteDance umgesetzt. Als die ersten KI-generierten Mehrpersonen-Hörspiele veröffentlicht wurden, erhielten sie rasch positives Feedback von Lesern: „Es fühlt sich an wie ein Hörspiel, das von einem professionellen Sprecher-Team produziert wurde.“ „Die Rollenwechsel fühlen sich völlig natürlich an.“ „Die Aktualisierungsrate ist zehnmal schneller als bei manueller Produktion.“ Dies bereichert nicht nur die Inhalte des Plattformen erheblich, sondern ermöglicht auch erstmals vielen mittleren und langen Romanen eine hochwertige Audio-Umsetzung.

Von „hörbar“ zu „gut hören“, KI verändert die Kulturproduktionskette

Das Voice-Team von Doubao gab an, dass es in Zukunft die emotionale Ausdrucksfähigkeit, Dialektunterstützung und Mehrsprachigkeit weiter optimieren und auf weitere Genres wie Krimi, Sci-Fi und Liebesromane ausweiten werde. Mit täglichem Buchveröffentlichungen können Hörspiele gleichzeitig online gehen und somit „wenn Text veröffentlicht wird, ist auch Audio verfügbar“ wirklich umgesetzt werden.