🎙️ MOSS-TTSD | Hugging Face Space

📝 对话文本

🚀 快速操作

🎭 选择场景

选择一个预设场景，获取不同主题的对话文本

🎵 说话者1 (女声)

参考音频

0:00

0:00

参考文本

🎵 说话者2 (男声)

参考音频

0:00

0:00

参考文本

⚙️ 基础设置

✅ 文本标准化（推荐）

💡 开箱即用: 页面已预填充默认内容，可直接合成 | 生成优化: 预计20-40秒完成

🎧 生成结果

生成的音频

状态信息

📚 使用说明

🎯 快速开始:

【文本】选择场景并点击"📝 加载场景文本"，或自己输入对话文本
【音频】点击"🎧 加载默认音频"使用示例音频，或上传自己的参考音频
【参考文本】确保参考文本与音频内容完全匹配
【设置】勾选"文本标准化"，可选调整高级参数
【生成】点击"🎬 开始合成"

📝 格式要求:

使用 [S1]/[S2] 标记不同说话者
参考文本需与参考音频内容完全匹配
支持上传两个参考音频（双说话者）或一个（单说话者）

🎵 音频建议:

格式: WAV, MP3, FLAC
时长: 10-30秒最佳
质量: 清晰无背景噪音
语速: 自然正常语速

💡 提示:

文本标准化开启可提升质量（数字、标点等处理更稳定）
文本尽量短句、自然口语化
生成时间根据文本长度而定，请耐心等待