OpenAI(兼容)语音识别

OpenAI语音识别技能可以将音频消息转换为文本，支持官方OpenAI API以及兼容OpenAI接口的第三方服务。

特点

支持OpenAI官方Whisper模型API以及兼容接口的第三方服务
支持多种音频格式，包括flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm
自动检测并转换非标准音频格式为16k单声道wav格式（可选）
稳定高效的语音识别能力，适用于多种场景

代码配置

typescript

const app = new PPAgent({
    skills: [
        {
            name: "openai-stt",
            options: {
                instanceName: "openai-stt-skill", // 实例名称，必须唯一
                apiKey: "sk-xxxxxxxxxxxxxxxxxxxxxxxx", // API密钥，必填
                model: "whisper-1", // 模型名称，必填
                baseUrl: "https://api.openai.com/v1", // 服务地址，可选，留空使用OpenAI官方服务
                ensureAudioFormat: true // 是否检查并转换非标准音频，可选，默认为true
            }
        }
    ],
    // ... 其他配置
});

服务器运行请参考 install_code.md 文件。

注意事项

确保API密钥有效且具有访问音频API的权限
当使用兼容OpenAI接口的第三方服务时，需要确认其是否完全支持OpenAI的音频识别接口
如果已经确定输入音频是16k单声道格式，可以将ensureAudioFormat设置为false以提高处理速度
最大支持的音频文件大小取决于使用的API服务提供商的限制，OpenAI官方服务限制为25MB

运行

初步配置

消息源

后端模型

技能

绘图

视频生成

语音识别

语音合成

任务

Enumerations

Classes

Interfaces

Type Aliases

Variables

Functions

OpenAI(兼容)语音识别

特点

代码配置

注意事项

绘图

视频生成

语音识别

语音合成

OpenAI(兼容)语音识别 ​

特点 ​

代码配置 ​

注意事项 ​

OpenAI(兼容)语音识别

特点

代码配置

注意事项