百度语音识别

百度语音识别技能（BaiduSTTSkill）是基于百度语音识别接口实现的语音转文字功能，可以将用户发送的语音消息转为文本内容。

特点

基于百度AI开放平台，提供高精度的语音识别服务
自动进行音频格式转换，确保音频符合识别引擎要求
支持中文及多种语言的语音识别
适用于低噪音环境下的语音识别场景

代码配置

使用百度语音识别技能时，需要先在百度AI开放平台创建应用并获取相关的AppID、API Key和Secret Key（有免费额度）。

typescript

const ppagent = new PPAgent({
  skills: [
    {
      name: "baidu-stt",
      options: {
        instanceName: "baidu-stt-skill", // 实例名称，需要唯一
        appId: "百度应用的AppID",       // 必填：百度AI平台上创建的应用AppID
        apiKey: "百度应用的API Key",    // 必填：百度AI平台上创建的应用API Key
        secretKey: "百度应用的Secret Key", // 必填：百度AI平台上创建的应用Secret Key
        ensureAudioFormat: true,         // 可选：是否确保音频格式为支持的格式，默认为true
      }
    }
  ],
  // source: { ... },
  // bot: { ... }
});

服务器运行请参考 install_code.md 文件。

注意事项

该技能依赖于百度AI开放平台的语音识别服务，使用前需要创建百度智能云账号并开通语音技术服务。
百度语音识别API支持的音频格式为wav，采样率为16kHz，单声道。如果您的音频不符合要求，可以通过设置ensureAudioFormat为true来自动转换（默认开启）。
百度语音识别对音频文件大小有限制，较大的音频文件可能需要进行分片处理，当前实现对此有自动处理。
识别准确率会受到音频质量、背景噪音等因素影响，建议在低噪音环境下使用。
请注意控制API调用频率，避免触发百度平台的频率限制。

运行

初步配置

消息源

后端模型

技能

绘图

视频生成

语音识别

语音合成

任务

Enumerations

Classes

Interfaces

Type Aliases

Variables

Functions

百度语音识别

特点

代码配置

注意事项

绘图

视频生成

语音识别

语音合成

百度语音识别 ​

特点 ​

代码配置 ​

注意事项 ​

百度语音识别

特点

代码配置

注意事项