Skip to content

硅基流动语音合成

硅基流动语音合成技能提供了通过硅基流动API将文本转换为语音的功能,支持多种模型和发音人,让机器人能够以语音形式回复用户消息。

特点

  • 支持硅基流动API进行语音合成
  • 支持多种模型,包括Fish Speech等高质量语音模型
  • 自定义语速设置,可调节语音播放速度
  • 可配置触发概率,灵活控制语音回复的频率
  • 能够自动处理不可阅读内容(表情符号、Markdown等)

代码配置

配置参数

typescript
const ppagent = new PPAgent({
  // ...其他配置...
  skills: [
    {
      name: "silicon-flow-tts-skill",
      options: {
        instanceName: "silicon-tts", // 实例名称,必须唯一
        apiKey: "your-apikey", // 硅基流动API密钥,必填
        model: "fishaudio/fish-speech-1.5", // 模型名称,必填
        voice: "配音员名称", // 发音人名称,必填
        baseUrl: "https://api.siliconflow.cn/v1", // API基础URL,可选,默认为硅基流动官方服务
        speed: 1, // 语速,可选,范围0.25-4,默认1
        probability: 0.5, // 语音触发概率,可选,默认0.5
        deleteUnreadableText: false // 是否自动移除不可阅读内容,可选,默认false
      }
    }
  ],
  // ...其他配置...
});

服务器运行请参考 install_code.md 文件。

注意事项

  1. 在使用之前,必须申请硅基流动API密钥
  2. 音频采样率固定为16000Hz,16位编码,单声道
  3. 发音人参数请参考硅基流动官方文档:https://docs.siliconflow.cn/api-reference/audio/create-speech#body-sample-rate
  4. 如果文本中包含emoji、Markdown等不可读内容,默认情况下不会转换为语音,除非设置deleteUnreadableTexttrue
  5. 当文本长度超过模型支持的最大长度时,语音合成将失败