llmage/docs/API.md
yumoqing df8aafe1d8 feat: add TTS and ASR audio API endpoints
- POST /v1/audio/speech (TTS): MiniMax Speech 2.6 Turbo/HD, 2.5 HD, F5-TTS local
- POST /v1/audio/transcriptions (ASR): qwen3-asr-flash, Nvidia parakeet
- Add comprehensive docs for both endpoints in API.md
- Update load_path.py RBAC (logined + customer roles)
2026-06-04 13:58:26 +08:00

21 KiB
Raw Blame History

llmage API 文档

Base Path: /llmage/v1

所有 API 端点需要 Bearer Token 认证(logined 权限)。


POST /v1/chat/completions

文本生成接口,兼容 OpenAI 格式。

必填参数

参数 类型 说明
model string 模型名称,如 "qwen3-max"
messagesprompt array / string 对话消息数组或文本提示

可选参数

参数 类型 说明
catelogid string 目录类型ID默认 "t2t",也支持中文名(向后兼容)
stream boolean 是否启用流式输出
off_peak boolean 是否使用非高峰时段
transno string 交易流水号(不传则自动生成)

请求示例

{
    "model": "qwen3-max",
    "messages": [
        {"role": "user", "content": "Hello"}
    ],
    "stream": false
}

响应格式

非流式响应:

{
    "id": "luid_xxx",
    "object": "chat.completion",
    "model": "qwen3-max",
    "choices": [{
        "index": 0,
        "message": {"role": "assistant", "content": "Hi there!"},
        "finish_reason": "stop"
    }],
    "usage": {"prompt_tokens": 10, "completion_tokens": 5, "total_tokens": 15}
}

流式响应 (SSE):

data: {"choices": [{"delta": {"content": "Hi"}, "index": 0}]}
data: {"choices": [{"delta": {"content": " there!"}, "index": 0}]}
data: [DONE]

错误响应

状态码 说明
400 缺少必填参数或模型不存在
403 未登录
429 账户余额不足

POST /v1/video/generations

视频生成接口。

必填参数

参数 类型 说明
model string 模型名称,如 "keling-2.1"
catelogid string 目录类型ID"t2v" / "i2v" / "r2v"
prompt string 生成提示词

可选参数

参数 类型 说明
image_url string 图生视频时提供参考图 URL
duration string 视频时长,如 "5s"
resolution string 分辨率,如 "1080p"
n integer 生成数量
transno string 交易流水号

请求示例

{
    "model": "keling-2.1",
    "catelogid": "t2v",
    "prompt": "A beautiful sunset over the ocean",
    "duration": "5s",
    "resolution": "1080p"
}

响应格式

视频生成通常为异步任务,提交后返回任务信息:

{
    "id": "luid_xxx",
    "object": "video.generation",
    "model": "keling-2.1",
    "status": "submitted",
    "taskid": "task_xxx",
    "created": 1716912000
}

通过 /v1/tasks?taskid=xxx 查询任务状态。

各模型输入参数明细

以下为各平台/模型的具体输入参数。调用时通过 model + catelogid 自动路由到对应供应商。


Vidu 平台

T2V - 文生视频
参数名 类型 必填 默认值 说明 可选值
model string viduq3-pro 模型名称 viduq3-turbo, viduq3-pro
prompt string - 提示词 -
off_peak string N 错峰执行 Y, N
duration integer 10 视频长度1-16秒 1-16
ratio string 16:9 长宽比 16:9, 9:16, 4:3, 3:4, 1:1
resolution string 1080p 分辨率 540p, 720p, 1080p
I2V - 图生视频
参数名 类型 必填 默认值 说明 可选值
model string viduq3-pro 模型名称 viduq3-pro, viduq3-turbo
prompt string - 提示词 -
image_file image - 首帧图片 -
off_peak string N 错峰执行 Y, N
duration integer 10 视频长度1-16秒 1-16
ratio string 16:9 长宽比 16:9, 9:16, 4:3, 3:4, 1:1
resolution string 1080p 分辨率 540p, 720p, 1080p
2I2V - 首尾帧生视频
参数名 类型 必填 默认值 说明
model string viduq2 模型名称
payload string 2i2v 固定值
off_peak boolean false 错峰模式
images array - 两张图片URL [首帧, 尾帧]
duration integer 10 视频时长
prompt string - 提示词
audio boolean true 音频直出
seed integer 12345 随机种子
aspect_ratio string 16:9 画面比例
resolution string 1080p 分辨率
Ref2V - 参考生视频 v2主体模式

使用主体(图片/视频/文字)生成视频,支持 viduq3-turbo/q3/q2-pro/q2/q1/2.0

参数名 类型 必填 说明
model string 模型名称
subjects array 主体列表最多7个图片/文字主体每个主体最多3张图
prompt string 提示词
audio boolean 音视频直出
audio_type string 音频类型
duration integer 视频时长
seed integer 随机种子
aspect_ratio string 画面比例
resolution string 分辨率
movement_amplitude string 运动幅度
off_peak boolean 错峰模式
auto_subjects boolean 智能主体
Ref2V - 参考生视频 v2非主体模式

直接上传图片参考生成视频,支持 viduq3-mix/q3-turbo/q3/q2-pro/q2/q1/2.0

参数名 类型 必填 说明
model string 模型名称
images array 参考图片URL列表1-7张
videos array 参考视频URL列表仅viduq2-pro
prompt string 提示词
audio boolean 音视频直出
bgm boolean 背景音乐
duration integer 视频时长
seed integer 随机种子
aspect_ratio string 画面比例
resolution string 分辨率
off_peak boolean 错峰模式
Ref2V - 参考生视频 v1
参数名 类型 必填 默认值 说明 可选值
model string viduq2-pro 模型名称 viduq2, viduq1, vidu2.0
prompt string - 提示词 -
off_peak string N 错峰执行 Y, N
duration integer 10 视频长度 -
ratio string 16:9 长宽比 16:9, 9:16, 4:3, 3:4, 1:1
resolution string 1080p 分辨率 540p, 720p, 1080p

Seedance 平台(火山方舟)

T2V - 文生视频
参数名 类型 必填 默认值 说明 可选值
model string doubao-seedance-2-0-260128 模型名称 doubao-seedance-2-0-260128, doubao-seedance-2-0-fast-260128
prompt string - 提示词 -
resolution string 720p 尺寸 480p, 720p, 1080p
duration integer 8 视频长度 -
ratio string 1:1 宽高比 1:1, 16:9, 9:16, 4:3, 3:4, 21:9, 9:21
TI2V - 文图生视频
参数名 类型 必填 默认值 说明 可选值
model string doubao-seedance-2-0-260128 模型名称 doubao-seedance-2-0-260128, doubao-seedance-2-0-fast-260128
prompt string - 提示词 -
image1_file image - 首帧图片 -
image2_file image - 尾帧图片 -
resolution string 720p 尺寸 480p, 720p, 1080p
duration integer 8 视频长度 -
ratio string 1:1 宽高比 1:1, 16:9, 9:16, 4:3, 3:4, 21:9, 9:21
Ref2V - 参考生视频
参数名 类型 必填 默认值 说明
model string - 模型名称
prompt string - 提示词
image_file image - 参考图片(支持数组,多张参考图)
video_file video - 参考视频(支持数组)
audio_file audio - 参考音频(支持数组)
duration integer 12 视频长度
resolution string 720p 尺寸
ratio string - 宽高比

通义万象DashScope

T2V - 文生视频
参数名 类型 必填 默认值 说明
model string - 模型名称(如 wan2.6-t2v
prompt string - 提示词
negative_prompt string - 反向提示词
audio_file audio - 配音文件
size string 1920*1080 视频尺寸
duration string 15 视频时长

size 可选值: 832*480, 480*832, 624*624, 1280*720, 720*1280, 960*960, 1088*832, 832*1088, 1920*1080, 1080*1920, 1440*1440, 1632*1248, 1248*1632

duration 可选值: 5, 10, 15

I2V - 图生视频

可用模型:wan2.6-i2v, wan2.6-i2v-flash

输入参数与 T2V 类似,额外需要首帧图片。

2I2V - 首尾帧生视频
参数名 类型 必填 默认值 说明
model string - 模型名称
prompt string - 提示词
negative_prompt string - 反向提示词
image1_file image - 首帧图片
image2_file image - 尾帧图片
resolution string 1080P 分辨率
duration integer - 5 固定5秒
Ref2V - 角色参考生视频

参考输入视频中的角色形象和音色搭配提示词生成保持角色一致性的视频。可以输入1-3个人物视频每个视频一个角色。

参数名 类型 必填 默认值 说明
model string - 模型名称(如 wan2.6-r2v
prompt string - 提示词
video1_file video - 角色一视频
video2_file video - 角色二视频
video3_file video - 角色三视频
size string 1920*1080 视频尺寸
duration string 10 视频时长

size 可选值: 同 T2V

duration 可选值: 10, 15

IA2V - 图像音频生视频
参数名 类型 必填 说明
image_file image 图像
audio_file audio 音频

可灵Kling

T2V - 文生视频
参数名 类型 必填 默认值 说明 可选值
model string - 模型名称 kling-v2-1-master, kling-v2-master, kling-v1-6, kling-v1
prompt string - 提示词 -
negative_prompt string - 反向提示词 -

海螺Hailuo/MiniMax

TI2V - 图生视频
参数名 类型 必填 默认值 说明 可选值
prompt string - 提示词 -
image_file image - 首帧图片 -
image_file1 image - 尾帧图片 -
resolution string 768P 尺寸 768P, 1080P
duration integer 6 视频长度 66秒, 1010秒

快乐马HappyHorse

基于通义万象平台tongyi-wan输入参数与通义万象对应类型一致。

T2V - 文生视频

输入参数同通义万象 T2V。可用模型happyhorse-1.0-t2v

I2V - 图生视频

输入参数同通义万象 I2V。可用模型happyhorse-1.0-i2v

注意: 图片参数名为 image_file(非 image_url),传入图片 URL。

Ref2V - 参考生视频

输入参数同通义万象 Ref2V额外支持

参数名 说明
resolution 可选 1080P(默认), 720P
ratio 可选 16:9(默认), 9:16, 3:4, 4:3

可用模型:happyhorse-1.0-r2v参考图像数量1-9张支持多角色参考


POST /v1/image/generations

图像生成接口。

必填参数

参数 类型 说明
model string 模型名称,如 "jimeng-4.0"
catelogid string 目录类型ID"t2i"
prompt string 生成提示词

可选参数

参数 类型 说明
image_url string 图生图时提供参考图 URL
size string 尺寸,如 "1024x1024"
n integer 生成数量
style string 风格参数
quality string 质量参数
transno string 交易流水号

请求示例

{
    "model": "jimeng-4.0",
    "catelogid": "t2i",
    "prompt": "A beautiful sunset over the ocean",
    "size": "1024x1024",
    "n": 1
}

响应格式

响应格式取决于上游模型配置(同步返回图像数据,异步返回任务信息):

{
    "id": "luid_xxx",
    "object": "image.generation",
    "model": "jimeng-4.0",
    "status": "submitted",
    "taskid": "task_xxx",
    "created": 1716912000
}

POST /v1/music/generations

音乐生成接口。

必填参数

参数 类型 说明
model string 模型名称,如 "music-2.6", "music-2.5"
catelogid string 目录类型ID固定为 "music_gen"
prompt string 音乐风格描述(风格、情绪、场景),如 "流行音乐, 开心, 适合阳光明媚的下午"
lyrics string 歌词内容,使用 \n 分隔每行,可包含结构标签

歌词结构标签

歌词中可包含以下结构标签来优化生成的音乐结构:

  • [Intro] - 前奏
  • [Verse] - 主歌
  • [Pre Chorus] - 预副歌
  • [Chorus] - 副歌
  • [Bridge] - 桥段
  • [Outro] - 尾声
  • [Interlude] - 间奏
  • [Hook] - 记忆点
  • [Build Up] - 情绪铺垫
  • [Solo] - 独奏

请求示例

{
    "model": "music-2.6",
    "catelogid": "music_gen",
    "prompt": "Pop music, happy, suitable for a sunny day",
    "lyrics": "[Intro]\n\n[Verse]\nWalking down the street\nFeeling the beat\n\n[Chorus]\nDancing in the sun\nHaving so much fun"
}

响应格式

MiniMax 音乐生成为同步接口直接返回音频URL

{
    "id": "luid_xxx",
    "object": "music.generation",
    "model": "music-2.6",
    "status": "SUCCEEDED",
    "audio": "https://...",
    "created": 1716912000
}

可用模型

模型名称 model 参数 说明
MiniMax Music 2.6 music-2.6 最新版本,音质最佳
MiniMax Music 2.5 music-2.5 支持14种段落级结构标签物理级高保真

MiniMax Music 2.5 特性

Music 2.5 在「段落级强控制」与「物理级高保真」两大技术难题上实现突破:

  • 开放全段落标签控制精准支持14种结构变体
  • 长度限制:歌词内容 [1, 3500] 个字符
  • prompt 长度限制:[10, 300] 个字符

MiniMax Music 2.0 特性(已过期)

Music 2.0 能根据文本描述和歌词直接生成包含人声的完整歌曲:

  • prompt 长度限制:[10, 300] 个字符
  • lyrics 长度限制:[10, 3000] 个字符
  • 状态已过期expired_date: 2026-01-01

错误响应

状态码 说明
400 缺少必填参数或模型不存在
403 未登录
429 账户余额不足

POST /v1/audio/speech

文本转语音TTS接口。

必填参数

参数 类型 说明
model string 模型名称,如 "speech-2.6-turbo", "speech-2.6-hd"
catelogid string 目录类型ID固定为 "tts"
prompt string 需要合成的文本内容,最长 10,000 字符

可选参数

参数 类型 说明
speaker string 说话人/音色ID"female-tianmei"
speed float 语速,默认 1.0
emotion string 情感,如 "happy", "sad"
transno string 交易流水号

请求示例

{
    "model": "speech-2.6-turbo",
    "catelogid": "tts",
    "prompt": "你好,欢迎使用语音合成服务",
    "speaker": "female-tianmei",
    "speed": 1.0,
    "emotion": "happy"
}

响应格式

MiniMax TTS 为流式接口逐块返回音频数据hex编码自动转base64

{
    "status": "SUCCEEDED",
    "audio": "base64_encoded_audio_data"
}

可用模型

模型名称 model 参数 说明
MiniMax Speech 2.6 Turbo speech-2.6-turbo 极速版,更快更优惠,适用于语音聊天和数字人
MiniMax Speech 2.6 HD speech-2.6-hd 高清版,超低延时,更高自然度
MiniMax Speech 2.5 HD speech-2.5-hd-preview Preview版本
F5-TTS 本地 f5tts 本地部署,零样本声音克隆,多语言支持

错误响应

状态码 说明
400 缺少必填参数或模型不存在
403 未登录
429 账户余额不足

POST /v1/audio/transcriptions

语音识别ASR接口将音频转为文本。

必填参数

参数 类型 说明
model string 模型名称,如 "qwen3-asr-flash", "parakeet-tdt-0.6b-v2"
catelogid string 目录类型ID固定为 "asr"
audio_file string 音频文件URL

可选参数

参数 类型 说明
language string 语言代码(部分模型支持)
transno string 交易流水号

请求示例

{
    "model": "qwen3-asr-flash",
    "catelogid": "asr",
    "audio_file": "https://example.com/audio.wav"
}

响应格式

{
    "text": "识别出的文本内容",
    "usage": {
        "duration_seconds": 5.2
    }
}

可用模型

模型名称 model 参数 说明
通义千问 ASR qwen3-asr-flash 多语种识别、歌唱识别、情感识别、噪声拒识0.00026元/秒
Nvidia ASR parakeet-tdt-0.6b-v2 仅支持英文6亿参数支持标点/大小写/时间戳

通义千问 ASR 核心功能

  • 多语种识别:涵盖普通话及多种方言(粤语、四川话等)
  • 复杂环境适应:自动语种检测与智能非人声过滤
  • 歌唱识别伴随BGM下也能实现整首歌曲转写
  • 上下文增强:通过配置上下文提高识别准确率
  • 情感识别:支持惊讶、平静、愉快、悲伤、厌恶、愤怒、恐惧

错误响应

状态码 说明
400 缺少必填参数或模型不存在
403 未登录
429 账户余额不足

GET /v1/tasks

查询异步任务状态。

必填参数

参数 类型 说明
taskid string 任务 ID

请求示例

GET /llmage/v1/tasks?taskid=task_xxx

响应格式

{
    "status": "ok",
    "data": {
        "status": "SUCCEEDED",
        "output": [...]
    }
}

任务状态值: UNKNOWN / SUCCEEDED / FAILED


GET /v1/models

列出可用模型列表。

可选参数

参数 类型 说明
catelogid string 按目录类型过滤
orderby string 排序字段

请求示例

GET /llmage/v1/models

响应格式

{
    "object": "list",
    "data": [
        {
            "id": "qwen3-max",
            "object": "model",
            "created": 1748044800,
            "owned_by": "opencomputing.ai"
        }
    ]
}

通用说明

catelogid 目录类型ID对照表

ID 中文名 说明
t2t 文生文 文本生成(默认)
t2i 文生图 图像生成
t2v 文生视频 文本生成视频
i2v 图生视频 图像生成视频
r2v 参考生视频 参考图像生成视频
tts 语音合成 文本转语音
asr 语音识别 语音转文本
vision 图理解 图像理解
ai_search AI搜索 AI搜索
digital_human 数字人 数字人
music_gen 音乐生成 音乐生成
text_cls 文本分类 文本分类
3d_gen 3D生成 3D模型生成
video_tool 视频工具 视频处理工具
translate 翻译 文本翻译

向后兼容catelogid 参数同时支持新ID"t2v")和旧中文名(如 "文生视频"推荐使用新ID。

参数统一

所有 v1 接口统一使用 catelogid 参数标识目录类型,替代原有的 lctype / llmcatelogid

认证

所有接口需要 Bearer Token 认证,请求头中携带:

Authorization: Bearer ***

余额检查

每次请求都会自动调用 checkCustomerBalance() 进行余额检查:

  • 如果模型属于用户所在组织(llm.ownerid == userorgid),则跳过余额检查
  • 否则检查 tpac 余额或本地余额
  • 余额不足时返回 429 状态码

计费

请求成功后自动创建 llmusage 记录,状态为 created。后台定时任务会定期执行计费流程。