硅基流动语音识别(SiliconFlow)

硅基流动语音识别技能提供了对接硅基流动（SiliconFlow）平台的语音识别能力，可将用户发送的语音消息自动转换为文本内容，方便后端AI模型理解和处理。

特点

支持多种语音识别模型，默认使用 FunAudioLLM/SenseVoiceSmall
自动转换音频格式以适应语音识别要求（默认支持单通道16k采样率wav格式）

代码配置

以下是硅基流动语音识别技能的完整配置：

typescript

const chat = new PPAgent({
    skills: [
        {
            name: SiliconFlowSTTSkill.params.name,
            options: {
                instanceName: "silicon-flow-stt-test", // 实例名称，需全局唯一
                apiKey: "你的硅基流动API密钥", // 必填，硅基流动平台的API Key
                model: "FunAudioLLM/SenseVoiceSmall", // 必填，模型名称
                baseUrl: "https://api.siliconflow.cn/v1", // 可选，API服务地址，默认为硅基流动官方服务
                ensureAudioFormat: true, // 可选，是否确保音频格式符合要求，默认为true
            }
        }
    ],
    // ... source和bot等其他配置 ...
});

以下是各配置项的详细说明：

必填配置

instanceName: 技能实例名称，需在全局范围内唯一
apiKey: 硅基流动平台的API密钥，用于身份验证
model: 语音识别模型名称，如 FunAudioLLM/SenseVoiceSmall

可选配置

baseUrl: API服务地址，默认为"https://api.siliconflow.cn/v1"，如使用自建服务或私有部署可修改
ensureAudioFormat: 是否确保音频格式符合要求，默认为true。开启后会自动将音频转换为单通道16k采样率的wav格式

服务器运行请参考 install_code.md 文件。

注意事项

使用前需确保已注册硅基流动账号并获取有效的API密钥
语音识别支持的音频格式包括：wav、mp3、ogg等常见格式，但最佳效果为16k采样率、单通道的wav格式
如果使用的音频来源已经确保是16k或8k单声道音频，可以将ensureAudioFormat设置为false，以提高性能
默认使用硅基流动官方服务，如需使用私有部署或自建服务，请正确设置baseUrl参数

运行

初步配置

消息源

后端模型

技能

绘图

视频生成

语音识别

语音合成

任务

Enumerations

Classes

Interfaces

Type Aliases

Variables

Functions

硅基流动语音识别(SiliconFlow)

特点

代码配置

必填配置

可选配置

注意事项

绘图

视频生成

语音识别

语音合成

硅基流动语音识别(SiliconFlow) ​

特点 ​

代码配置 ​

必填配置 ​

可选配置 ​

注意事项 ​

硅基流动语音识别(SiliconFlow)

特点

代码配置

必填配置

可选配置

注意事项