硅基流动语音合成
硅基流动语音合成技能提供了通过硅基流动API将文本转换为语音的功能,支持多种模型和发音人,让机器人能够以语音形式回复用户消息。
特点
- 支持硅基流动API进行语音合成
- 支持多种模型,包括Fish Speech等高质量语音模型
- 自定义语速设置,可调节语音播放速度
- 可配置触发概率,灵活控制语音回复的频率
- 能够自动处理不可阅读内容(表情符号、Markdown等)
代码配置
配置参数
typescript
const ppagent = new PPAgent({
// ...其他配置...
skills: [
{
name: "silicon-flow-tts-skill",
options: {
instanceName: "silicon-tts", // 实例名称,必须唯一
apiKey: "your-apikey", // 硅基流动API密钥,必填
model: "fishaudio/fish-speech-1.5", // 模型名称,必填
voice: "配音员名称", // 发音人名称,必填
baseUrl: "https://api.siliconflow.cn/v1", // API基础URL,可选,默认为硅基流动官方服务
speed: 1, // 语速,可选,范围0.25-4,默认1
probability: 0.5, // 语音触发概率,可选,默认0.5
deleteUnreadableText: false // 是否自动移除不可阅读内容,可选,默认false
}
}
],
// ...其他配置...
});
服务器运行请参考 install_code.md 文件。
注意事项
- 在使用之前,必须申请硅基流动API密钥
- 音频采样率固定为16000Hz,16位编码,单声道
- 发音人参数请参考硅基流动官方文档:https://docs.siliconflow.cn/api-reference/audio/create-speech#body-sample-rate
- 如果文本中包含emoji、Markdown等不可读内容,默认情况下不会转换为语音,除非设置
deleteUnreadableText
为true
- 当文本长度超过模型支持的最大长度时,语音合成将失败