Skip to content

硅基流动语音识别(SiliconFlow)

硅基流动语音识别技能提供了对接硅基流动(SiliconFlow)平台的语音识别能力,可将用户发送的语音消息自动转换为文本内容,方便后端AI模型理解和处理。

特点

  • 支持多种语音识别模型,默认使用 FunAudioLLM/SenseVoiceSmall
  • 自动转换音频格式以适应语音识别要求(默认支持单通道16k采样率wav格式)

代码配置

以下是硅基流动语音识别技能的完整配置:

typescript
const chat = new PPAgent({
    skills: [
        {
            name: SiliconFlowSTTSkill.params.name,
            options: {
                instanceName: "silicon-flow-stt-test", // 实例名称,需全局唯一
                apiKey: "你的硅基流动API密钥", // 必填,硅基流动平台的API Key
                model: "FunAudioLLM/SenseVoiceSmall", // 必填,模型名称
                baseUrl: "https://api.siliconflow.cn/v1", // 可选,API服务地址,默认为硅基流动官方服务
                ensureAudioFormat: true, // 可选,是否确保音频格式符合要求,默认为true
            }
        }
    ],
    // ... source和bot等其他配置 ...
});

以下是各配置项的详细说明:

必填配置

  • instanceName: 技能实例名称,需在全局范围内唯一
  • apiKey: 硅基流动平台的API密钥,用于身份验证
  • model: 语音识别模型名称,如 FunAudioLLM/SenseVoiceSmall

可选配置

  • baseUrl: API服务地址,默认为"https://api.siliconflow.cn/v1",如使用自建服务或私有部署可修改
  • ensureAudioFormat: 是否确保音频格式符合要求,默认为true。开启后会自动将音频转换为单通道16k采样率的wav格式

服务器运行请参考 install_code.md 文件。

注意事项

  • 使用前需确保已注册硅基流动账号并获取有效的API密钥
  • 语音识别支持的音频格式包括:wav、mp3、ogg等常见格式,但最佳效果为16k采样率、单通道的wav格式
  • 如果使用的音频来源已经确保是16k或8k单声道音频,可以将ensureAudioFormat设置为false,以提高性能
  • 默认使用硅基流动官方服务,如需使用私有部署或自建服务,请正确设置baseUrl参数