百度语音识别
百度语音识别技能(BaiduSTTSkill)是基于百度语音识别接口实现的语音转文字功能,可以将用户发送的语音消息转为文本内容。
特点
- 基于百度AI开放平台,提供高精度的语音识别服务
- 自动进行音频格式转换,确保音频符合识别引擎要求
- 支持中文及多种语言的语音识别
- 适用于低噪音环境下的语音识别场景
代码配置
使用百度语音识别技能时,需要先在百度AI开放平台创建应用并获取相关的AppID、API Key和Secret Key(有免费额度)。
typescript
const ppagent = new PPAgent({
skills: [
{
name: "baidu-stt",
options: {
instanceName: "baidu-stt-skill", // 实例名称,需要唯一
appId: "百度应用的AppID", // 必填:百度AI平台上创建的应用AppID
apiKey: "百度应用的API Key", // 必填:百度AI平台上创建的应用API Key
secretKey: "百度应用的Secret Key", // 必填:百度AI平台上创建的应用Secret Key
ensureAudioFormat: true, // 可选:是否确保音频格式为支持的格式,默认为true
}
}
],
// source: { ... },
// bot: { ... }
});
服务器运行请参考 install_code.md 文件。
注意事项
- 该技能依赖于百度AI开放平台的语音识别服务,使用前需要创建百度智能云账号并开通语音技术服务。
- 百度语音识别API支持的音频格式为wav,采样率为16kHz,单声道。如果您的音频不符合要求,可以通过设置
ensureAudioFormat
为true来自动转换(默认开启)。 - 百度语音识别对音频文件大小有限制,较大的音频文件可能需要进行分片处理,当前实现对此有自动处理。
- 识别准确率会受到音频质量、背景噪音等因素影响,建议在低噪音环境下使用。
- 请注意控制API调用频率,避免触发百度平台的频率限制。