Quando a IA não só "lê" romances, mas também dirige e atua em uma peça de áudio com emoções intensas e personagens distintos, a indústria de conteúdo de áudio está passando por uma virada disruptiva. Recentemente, a equipe de voz do Dou Bao lançou oficialmente a solução automatizada para "peças de áudio com múltiplos personagens", realizando pela primeira vez a produção completa de um drama de rádio desde o texto original até o produto final, sem intervenção humana: sem atores de voz, sem edição pós-produção e sem intervenção manual, os custos caíram drasticamente e a eficiência aumentou significativamente, enquanto o resultado se aproxima do nível profissional de dramas de rádio.

98% de precisão na identificação de personagens, a IA "interpreta" a alma dos personagens
O principal avanço dessa solução está no motor de síntese de voz com múltiplos personagens de alto realismo (TTS). Através da pré-entrenamento multimodal com grandes volumes de textos de romances e dados de voz, a IA não apenas consegue distinguir com precisão os diferentes personagens nas conversas, com uma taxa de acerto superior a 98%, mas também atribui a cada personagem tons, ritmos e tom adequados à sua personalidade, emoção e cenário. Seja o riso baixo e sombrio de um vilão frio, ou a alegria leve da protagonista feminina, a IA pode interpretar com delicadeza, deixando para trás o sentimento mecânico do TTS tradicional "um personagem para todas as situações".
Além disso, o sistema pode adicionar inteligentemente música de fundo, efeitos sonoros ambientais e efeitos de transição - lutas à noite com trovões e eco de passos, diálogos na corte acompanhados por harpas e estalidos de velas, criando uma experiência auditiva imersiva de nível cinematográfico.
A Xiaolan Novel implementa primeiro, reação dos usuários superou as expectativas
Essa tecnologia foi implantada comercialmente pela primeira vez na aplicação Xiaolan Novel, pertencente ao grupo ByteDance. Após o lançamento das primeiras peças de áudio geradas pela IA, elas receberam rapidamente elogios calorosos dos leitores: "parece estar ouvindo um drama de rádio feito por uma equipe profissional de dublagem", "mudanças de personagens sem desconforto" e "velocidade de atualização dez vezes maior que a dos humanos". Isso não apenas ampliou significativamente a oferta de conteúdo da plataforma, mas também permitiu pela primeira vez que inúmeras novelas de longa duração tivessem a possibilidade de serem transformadas em áudio de alta qualidade.
Da "audição" para a "boa audição", a IA reconfigura a cadeia de produção cultural
A equipe de voz do Dou Bao afirma que continuará a otimizar a expressão emocional, o suporte a dialetos e a capacidade multilíngue, expandindo-a para mais gêneros como mistério, ciência ficção e romance. À medida que os romances são atualizados diariamente, as peças de áudio também podem ser lançadas simultaneamente, realmente realizando a ideia de "publicação de texto imediatamente disponível como áudio".