🎙️ MOSS-TTSD 对话语音合成

零样本双说话者对话合成 · 默认中文界面 · 一键加载场景

📝 对话文本

🚀 快速操作

🎭 选择场景

选择一个预设场景,获取不同主题的对话文本

🎵 说话者1 (女声)

🎵 说话者2 (男声)

⚙️ 基础设置

🎯 生成风格控制 - 根据需要调整参数以获得不同的语音风格

🎨 预设风格

⚙️ 自定义参数 - 微调生成效果

0.5 1.5
20 100
0.7 1
1 1.3
512 2048

关闭后使用确定性生成,更稳定但缺乏变化

💡 开箱即用: 页面已预填充默认内容,可直接合成 | 生成优化: 预计20-40秒完成

🎧 生成结果

📚 使用说明

🎯 快速开始:

  1. 【文本】选择场景并点击"📝 加载场景文本",或自己输入对话文本
  2. 【音频】点击"🎧 加载默认音频"使用示例音频,或上传自己的参考音频
  3. 【参考文本】确保参考文本与音频内容完全匹配
  4. 【设置】勾选"文本标准化",可选调整高级参数
  5. 【生成】点击"🎬 开始合成"

📝 格式要求:

  • 使用 [S1]/[S2] 标记不同说话者
  • 参考文本需与参考音频内容完全匹配
  • 支持上传两个参考音频(双说话者)或一个(单说话者)

🎵 音频建议:

  • 格式: WAV, MP3, FLAC
  • 时长: 10-30秒最佳
  • 质量: 清晰无背景噪音
  • 语速: 自然正常语速

💡 提示:

  • 文本标准化开启可提升质量(数字、标点等处理更稳定)
  • 文本尽量短句、自然口语化
  • 生成时间根据文本长度而定,请耐心等待