Skip to content

腾讯语音识别

特点

  • 自动处理音频格式转换,确保音频满足识别要求
  • 使用腾讯云的一句话识别接口,适合用于短语音消息识别

代码配置

根据腾讯语音识别技能的实现,以下是完整的配置项说明:

typescript
const ppagent = new PPAgent({
    // ...
    skills: [
        {
            name: "tencent-stt",
            options: {
                instanceName: "tencent-stt", // 实例名称,必须唯一
                secretId: "您的腾讯云SecretId", // 必填,腾讯云API密钥ID
                secretKey: "您的腾讯云SecretKey", // 必填,腾讯云API密钥Key
                ensureAudioFormat: true, // 可选,是否确保音频格式为识别引擎支持的格式,默认为true 需正确安装FFMPEG库(正常是自动安装)
            }
        }
    ],
    // source和bot等配置可以用省略号代替
    // ...
});

服务器运行请参考 install_code.md 文件。

注意事项

  • 使用前需要在腾讯云官网注册账号并开通语音识别服务
  • 获取SecretId和SecretKey需要在腾讯云控制台中的访问密钥管理处创建
  • 本技能默认使用的是一句话识别接口(SentenceRecognition),适合较短的语音消息
  • 技能默认会将音频转换为16k单声道wav格式,以确保识别质量
  • 如果已确认输入音频满足腾讯云语音识别的要求(16k采样率、单声道),可以将ensureAudioFormat设置为false以提高处理速度
  • 识别支持的音频格式包括wav、mp3等常见格式,ogg格式会自动转换为ogg-opus处理