dots.ttsのTechnical Reportが公開。
音声のトークナイズには、Flow-VAEベースのHoliTokを使用。 潜在空間に対してWavLMの中間層とのアラインメントを取ったり音声認識や感情認識タスクを解いたりすることで、TTSモデルが学習しやすい空間を構築。
TTSモデル学習時には、まずLLMバックボーン(Qwen2.5-1.5B Base) を凍結したままCsaual Semantic Encoder(24層のTransformerで25Hz→6.25Hzに1/4圧縮)とAR-FM(18層のARDiT)を更新してLLMの知識を壊さずに音声の理解と生成を各モジュールが学習。なお、最初から凍結解除すると学習が不安定になったと報告。 この時点ですでにある程度指示通りの音声を合成できるようになる。
その後、LLMの凍結を解除して150万時間の大規模データで十分に学習したのち、厳しいフィルタリングを適用した高品質データで仕上げ学習を行う。
公開されているモデルには、この事前学習済みモデルに加えて、SOARを適用して頑健性を向上したモデルと、さらにそれをMeanFlowで蒸留したモデルが含まれている。