omnihuman-video
✓Verified·Scanned 2/18/2026
使用 OmniHuman v1.5 生成音频驱动的口型同步视频。当用户想要让图片中的人物说话、配音、口型同步,或提到 omnihuman 时使用此 skill。
from clawhub.ai·v0314fdc·3.8 KB·0 installs
Scanned from 1.0.0 at 0314fdc · Transparency log ↗
$ vett add clawhub.ai/hexiaochun/omnihuman-video
OmniHuman v1.5 音频驱动视频
字节跳动 OmniHuman v1.5 是一款音频驱动的视频生成模型。输入一张人物图片和一段音频,即可生成口型同步、表情生动的高质量视频。角色的情感和动作与音频高度关联。
可用模型
| 模型 ID | 功能 | 说明 |
|---|---|---|
fal-ai/bytedance/omnihuman/v1.5 | 图片+音频→视频 | 口型同步、表情驱动,$0.16/秒 |
工作流
1. 调用 submit_task
使用 MCP 工具 submit_task 提交任务:
{
"model_id": "fal-ai/bytedance/omnihuman/v1.5",
"parameters": {
"image_url": "人物图片URL",
"audio_url": "音频文件URL"
}
}
参数说明
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| image_url | string | 是 | - | 人物图片 URL,需要清晰的人物形象 |
| audio_url | string | 是 | - | 音频文件 URL(mp3/wav/m4a/ogg/aac) |
| prompt | string | 否 | - | 文本提示词,引导视频生成风格 |
| resolution | string | 否 | "1080p" | 视频分辨率:720p 或 1080p |
| turbo_mode | boolean | 否 | false | 加速模式,更快但画质略降 |
分辨率限制
| 分辨率 | 最大音频时长 | 说明 |
|---|---|---|
| 1080p | 30 秒 | 高清画质,时长受限 |
| 720p | 60 秒 | 画质高且生成更快,支持更长音频 |
查询任务状态
提交任务后会返回 task_id,使用 get_task 查询结果:
{
"task_id": "返回的任务ID"
}
任务状态:
pending- 排队中processing- 处理中completed- 完成,结果在result中failed- 失败,查看error字段
完整示例
示例 1:基础用法(人物说话)
用户请求:让这张图片里的人说这段话
执行步骤:
- 先用 TTS 生成音频(可选,如果用户没有提供音频)
- 调用
submit_task:
{
"model_id": "fal-ai/bytedance/omnihuman/v1.5",
"parameters": {
"image_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_v15_input_image.png",
"audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_v15_input_audio.mp3",
"resolution": "1080p"
}
}
- 获取
task_id后调用get_task查询结果
示例 2:使用加速模式
{
"model_id": "fal-ai/bytedance/omnihuman/v1.5",
"parameters": {
"image_url": "https://example.com/portrait.jpg",
"audio_url": "https://example.com/speech.mp3",
"resolution": "720p",
"turbo_mode": true
}
}
计费说明
- 按秒计费:64 积分/秒($0.16/秒)
- 视频时长由音频长度决定
- 最低计费 3 秒
| 音频时长 | 费用(积分) |
|---|---|
| 5 秒 | 320 |
| 10 秒 | 640 |
| 20 秒 | 1,280 |
| 30 秒 | 1,920 |
使用技巧
- 图片要求:使用清晰的人物正面或半侧面照片,人脸占比适中
- 音频质量:使用清晰的语音音频,背景噪音越少效果越好
- 分辨率选择:短音频(< 30s)推荐 1080p;长音频推荐 720p
- 加速模式:测试阶段可开启 turbo_mode 加快生成速度
- 配合 TTS:可先用海螺语音合成生成音频,再用 OmniHuman 生成视频
常见问题
| 问题 | 解决方案 |
|---|---|
| 口型不同步 | 确保音频清晰,避免过多背景音乐 |
| 生成失败 | 检查图片是否包含清晰人物,音频时长是否超限 |
| 画质不够好 | 使用 1080p 分辨率,关闭 turbo_mode |