Skip to content

百度语音识别

百度语音识别技能(BaiduSTTSkill)是基于百度语音识别接口实现的语音转文字功能,可以将用户发送的语音消息转为文本内容。

特点

  • 基于百度AI开放平台,提供高精度的语音识别服务
  • 自动进行音频格式转换,确保音频符合识别引擎要求
  • 支持中文及多种语言的语音识别
  • 适用于低噪音环境下的语音识别场景

代码配置

使用百度语音识别技能时,需要先在百度AI开放平台创建应用并获取相关的AppID、API Key和Secret Key(有免费额度)。

typescript
const ppagent = new PPAgent({
  skills: [
    {
      name: "baidu-stt",
      options: {
        instanceName: "baidu-stt-skill", // 实例名称,需要唯一
        appId: "百度应用的AppID",       // 必填:百度AI平台上创建的应用AppID
        apiKey: "百度应用的API Key",    // 必填:百度AI平台上创建的应用API Key
        secretKey: "百度应用的Secret Key", // 必填:百度AI平台上创建的应用Secret Key
        ensureAudioFormat: true,         // 可选:是否确保音频格式为支持的格式,默认为true
      }
    }
  ],
  // source: { ... },
  // bot: { ... }
});

服务器运行请参考 install_code.md 文件。

注意事项

  1. 该技能依赖于百度AI开放平台的语音识别服务,使用前需要创建百度智能云账号并开通语音技术服务。
  2. 百度语音识别API支持的音频格式为wav,采样率为16kHz,单声道。如果您的音频不符合要求,可以通过设置ensureAudioFormat为true来自动转换(默认开启)。
  3. 百度语音识别对音频文件大小有限制,较大的音频文件可能需要进行分片处理,当前实现对此有自动处理。
  4. 识别准确率会受到音频质量、背景噪音等因素影响,建议在低噪音环境下使用。
  5. 请注意控制API调用频率,避免触发百度平台的频率限制。