Lorsque l'IA ne peut pas seulement "lire" un roman, mais aussi diriger une pièce radiophonique à plusieurs personnages pleine d'émotions et bien définie, l'industrie des contenus audio connaît un tournant révolutionnaire. Récemment, l'équipe de Doudou Voice a lancé officiellement une solution complète pour la production automatique de pièces radiophoniques à plusieurs personnages, réalisant pour la première fois une fabrication entièrement automatisée, du texte original d'un roman jusqu'au produit final de la pièce radiophonique : sans acteurs de doublage, sans montage postérieur, sans intervention humaine, les coûts chutent brutalement et l'efficacité augmente considérablement, tout en offrant un résultat qui approche le niveau professionnel des pièces radiophoniques.

Un taux d'identification des personnages de 98 %, l'IA « joue » l'âme des personnages
La percée principale de cette solution réside dans son moteur de synthèse vocale à plusieurs personnages naturelle. Grâce à une pré-formation multimodale sur un grand nombre de textes de romans et de données vocales, l'IA peut non seulement distinguer précisément les différents personnages dans les dialogues, avec un taux de précision supérieur à 98 %, mais aussi attribuer à chaque personnage une intonation, un rythme et un ton adaptés à leur caractère, à leurs émotions et à leur situation. Que ce soit le rire sombre d'un méchant froid ou l'enthousiasme léger d'une héroïne, l'IA sait les interpréter subtilement, éliminant ainsi le sentiment mécanique typique des TTS traditionnels où un seul voix est utilisé pour tous les personnages.
De plus, le système peut ajouter intelligemment de la musique d'arrière-plan, des effets sonores environnementaux et des effets de transition : une bataille sous la pluie accompagnée de grondements de tonnerre et de résonances de pas, des dialogues dans un palais avec des sons de harpe ancienne et des crépitements de bougies, créant ainsi une expérience auditive immersive de qualité cinéma.
Tomato Novel applique la technologie en premier, la réaction des utilisateurs dépasse les attentes
Cette technologie a été déployée commercialement pour la première fois dans l'application Tomato Novel appartenant à ByteDance. Les premières pièces radiophoniques générées par l'IA ont reçu rapidement des retours enthousiastes des lecteurs : « C'est comme si on écoutait une pièce radiophonique produite par une équipe professionnelle de doublage » « Le changement de personnage est parfaitement naturel » « La vitesse de mise à jour est dix fois plus rapide que celle de l'humain ». Cela a non seulement considérablement enrichi l'offre de contenu de la plateforme, mais a également permis aux nombreux romans de moyenne longueur d'accéder pour la première fois à une version audio de qualité.
De « audible » à « agréable », l'IA redéfinit la chaîne de production culturelle
L'équipe de Doudou Voice a déclaré qu'elle continuera à améliorer l'expression émotionnelle, le soutien des dialectes et les capacités multilingues, tout en développant davantage vers des genres tels que le suspense, la science-fiction et les romans d'amour. Avec la publication quotidienne des romans, les pièces radiophoniques peuvent être mises en ligne simultanément, réalisant ainsi véritablement l'idée de « publication du texte immédiatement disponible en audio ».