Skip to content

百度语音合成

百度语音合成技能(BaiduTTSSkill)是基于百度智能云提供的语音合成服务实现的文字转语音功能,能将文本内容转换为自然流畅的语音。

特点

  • 支持基础(免费使用)、精品和臻品三个系列的多种发音人,包括男声、女声和童声
  • 可自定义语速、音量、音调等多种语音参数
  • 智能处理文本中的特殊内容,如emoji和markdown等
  • 可配置触发语音合成的概率,实现灵活的语音交互体验

代码配置

typescript
const app = new PPAgent({
  // ...其他配置
  skills: [
    {
      name: "baidu-tts-skill",
      options: {
        instanceName: "baidu-tts", // 实例名称,必须全局唯一
        appId: "YOUR_BAIDU_APP_ID", // 百度智能云应用的AppID,必填
        apiKey: "YOUR_BAIDU_API_KEY", // 百度智能云应用的API Key,必填
        secretKey: "YOUR_BAIDU_SECRET_KEY", // 百度智能云应用的Secret Key,必填
        per: 0, // 发音人,默认为0(度小美-标准女声),可选
        spd: 5, // 语速,默认为5(中等语速),范围0-9,可选
        pit: 5, // 音调,默认为5(中等音调),范围0-9,可选
        vol: 5, // 音量,默认为5(中等音量),范围0-15(精品库支持0-15,其他仅支持0-9),可选
        aue: 6, // 音频格式,默认为6(wav格式),可选值:3(mp3)、4(pcm-16k)、5(pcm-8k)、6(wav),可选
        probability: 1, // 触发语音合成的概率,默认为1(100%触发),范围0-1,可选
        deleteUnreadableText: false // 是否自动移除不可朗读的内容(如emoji、markdown等),默认为false,可选
      }
    }
  ],
  // ...source和bot等配置
});

服务器运行请参考 install_code.md 文件。

配置注意事项

  1. 使用前需要在百度智能云开通语音服务,获取AppID、API Key和Secret Key
  2. 发音人选择(per参数)的值对应不同系列的发音人:
    • 基础发音人:度小美(0)、度小宇(1)、度逍遥(3)、度丫丫(4)
    • 精品发音人:度逍遥(5003)、度小鹿(5118)、度博文(106)等
    • 臻品发音人:度逍遥(4003)、度博文(4106)、度小贤(4115)等
  3. 精品库的音量(vol参数)支持范围0-15,而其他库仅支持0-9
  4. 文本长度限制为1024个字符,超过此限制将不会触发语音合成
  5. 当文本中包含emoji、markdown等特殊内容时,默认不会进行语音合成,除非设置deleteUnreadableText为true