腾讯语音识别
特点
- 自动处理音频格式转换,确保音频满足识别要求
- 使用腾讯云的一句话识别接口,适合用于短语音消息识别
代码配置
根据腾讯语音识别技能的实现,以下是完整的配置项说明:
typescript
const ppagent = new PPAgent({
// ...
skills: [
{
name: "tencent-stt",
options: {
instanceName: "tencent-stt", // 实例名称,必须唯一
secretId: "您的腾讯云SecretId", // 必填,腾讯云API密钥ID
secretKey: "您的腾讯云SecretKey", // 必填,腾讯云API密钥Key
ensureAudioFormat: true, // 可选,是否确保音频格式为识别引擎支持的格式,默认为true 需正确安装FFMPEG库(正常是自动安装)
}
}
],
// source和bot等配置可以用省略号代替
// ...
});
服务器运行请参考 install_code.md 文件。
注意事项
- 使用前需要在腾讯云官网注册账号并开通语音识别服务
- 获取SecretId和SecretKey需要在腾讯云控制台中的访问密钥管理处创建
- 本技能默认使用的是一句话识别接口(SentenceRecognition),适合较短的语音消息
- 技能默认会将音频转换为16k单声道wav格式,以确保识别质量
- 如果已确认输入音频满足腾讯云语音识别的要求(16k采样率、单声道),可以将
ensureAudioFormat
设置为false以提高处理速度 - 识别支持的音频格式包括wav、mp3等常见格式,ogg格式会自动转换为ogg-opus处理