OpenAI(兼容)语音识别
OpenAI语音识别技能可以将音频消息转换为文本,支持官方OpenAI API以及兼容OpenAI接口的第三方服务。
特点
- 支持OpenAI官方Whisper模型API以及兼容接口的第三方服务
- 支持多种音频格式,包括flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm
- 自动检测并转换非标准音频格式为16k单声道wav格式(可选)
- 稳定高效的语音识别能力,适用于多种场景
代码配置
typescript
const app = new PPAgent({
skills: [
{
name: "openai-stt",
options: {
instanceName: "openai-stt-skill", // 实例名称,必须唯一
apiKey: "sk-xxxxxxxxxxxxxxxxxxxxxxxx", // API密钥,必填
model: "whisper-1", // 模型名称,必填
baseUrl: "https://api.openai.com/v1", // 服务地址,可选,留空使用OpenAI官方服务
ensureAudioFormat: true // 是否检查并转换非标准音频,可选,默认为true
}
}
],
// ... 其他配置
});
服务器运行请参考 install_code.md 文件。
注意事项
- 确保API密钥有效且具有访问音频API的权限
- 当使用兼容OpenAI接口的第三方服务时,需要确认其是否完全支持OpenAI的音频识别接口
- 如果已经确定输入音频是16k单声道格式,可以将
ensureAudioFormat
设置为false
以提高处理速度 - 最大支持的音频文件大小取决于使用的API服务提供商的限制,OpenAI官方服务限制为25MB