硅基流动语音识别(SiliconFlow)
硅基流动语音识别技能提供了对接硅基流动(SiliconFlow)平台的语音识别能力,可将用户发送的语音消息自动转换为文本内容,方便后端AI模型理解和处理。
特点
- 支持多种语音识别模型,默认使用 FunAudioLLM/SenseVoiceSmall
- 自动转换音频格式以适应语音识别要求(默认支持单通道16k采样率wav格式)
代码配置
以下是硅基流动语音识别技能的完整配置:
typescript
const chat = new PPAgent({
skills: [
{
name: SiliconFlowSTTSkill.params.name,
options: {
instanceName: "silicon-flow-stt-test", // 实例名称,需全局唯一
apiKey: "你的硅基流动API密钥", // 必填,硅基流动平台的API Key
model: "FunAudioLLM/SenseVoiceSmall", // 必填,模型名称
baseUrl: "https://api.siliconflow.cn/v1", // 可选,API服务地址,默认为硅基流动官方服务
ensureAudioFormat: true, // 可选,是否确保音频格式符合要求,默认为true
}
}
],
// ... source和bot等其他配置 ...
});
以下是各配置项的详细说明:
必填配置
- instanceName: 技能实例名称,需在全局范围内唯一
- apiKey: 硅基流动平台的API密钥,用于身份验证
- model: 语音识别模型名称,如 FunAudioLLM/SenseVoiceSmall
可选配置
- baseUrl: API服务地址,默认为"https://api.siliconflow.cn/v1",如使用自建服务或私有部署可修改
- ensureAudioFormat: 是否确保音频格式符合要求,默认为true。开启后会自动将音频转换为单通道16k采样率的wav格式
服务器运行请参考 install_code.md 文件。
注意事项
- 使用前需确保已注册硅基流动账号并获取有效的API密钥
- 语音识别支持的音频格式包括:wav、mp3、ogg等常见格式,但最佳效果为16k采样率、单通道的wav格式
- 如果使用的音频来源已经确保是16k或8k单声道音频,可以将
ensureAudioFormat
设置为false,以提高性能 - 默认使用硅基流动官方服务,如需使用私有部署或自建服务,请正确设置baseUrl参数