百度语音合成
百度语音合成技能(BaiduTTSSkill)是基于百度智能云提供的语音合成服务实现的文字转语音功能,能将文本内容转换为自然流畅的语音。
特点
- 支持基础(免费使用)、精品和臻品三个系列的多种发音人,包括男声、女声和童声
- 可自定义语速、音量、音调等多种语音参数
- 智能处理文本中的特殊内容,如emoji和markdown等
- 可配置触发语音合成的概率,实现灵活的语音交互体验
代码配置
typescript
const app = new PPAgent({
// ...其他配置
skills: [
{
name: "baidu-tts-skill",
options: {
instanceName: "baidu-tts", // 实例名称,必须全局唯一
appId: "YOUR_BAIDU_APP_ID", // 百度智能云应用的AppID,必填
apiKey: "YOUR_BAIDU_API_KEY", // 百度智能云应用的API Key,必填
secretKey: "YOUR_BAIDU_SECRET_KEY", // 百度智能云应用的Secret Key,必填
per: 0, // 发音人,默认为0(度小美-标准女声),可选
spd: 5, // 语速,默认为5(中等语速),范围0-9,可选
pit: 5, // 音调,默认为5(中等音调),范围0-9,可选
vol: 5, // 音量,默认为5(中等音量),范围0-15(精品库支持0-15,其他仅支持0-9),可选
aue: 6, // 音频格式,默认为6(wav格式),可选值:3(mp3)、4(pcm-16k)、5(pcm-8k)、6(wav),可选
probability: 1, // 触发语音合成的概率,默认为1(100%触发),范围0-1,可选
deleteUnreadableText: false // 是否自动移除不可朗读的内容(如emoji、markdown等),默认为false,可选
}
}
],
// ...source和bot等配置
});
服务器运行请参考 install_code.md 文件。
配置注意事项
- 使用前需要在百度智能云开通语音服务,获取AppID、API Key和Secret Key
- 发音人选择(per参数)的值对应不同系列的发音人:
- 基础发音人:度小美(0)、度小宇(1)、度逍遥(3)、度丫丫(4)
- 精品发音人:度逍遥(5003)、度小鹿(5118)、度博文(106)等
- 臻品发音人:度逍遥(4003)、度博文(4106)、度小贤(4115)等
- 精品库的音量(vol参数)支持范围0-15,而其他库仅支持0-9
- 文本长度限制为1024个字符,超过此限制将不会触发语音合成
- 当文本中包含emoji、markdown等特殊内容时,默认不会进行语音合成,除非设置deleteUnreadableText为true