omnihuman-video

Verified·Scanned 2/18/2026

使用 OmniHuman v1.5 生成音频驱动的口型同步视频。当用户想要让图片中的人物说话、配音、口型同步,或提到 omnihuman 时使用此 skill。

from clawhub.ai·v0314fdc·3.8 KB·0 installs
Scanned from 1.0.0 at 0314fdc · Transparency log ↗
$ vett add clawhub.ai/hexiaochun/omnihuman-video

OmniHuman v1.5 音频驱动视频

字节跳动 OmniHuman v1.5 是一款音频驱动的视频生成模型。输入一张人物图片和一段音频,即可生成口型同步、表情生动的高质量视频。角色的情感和动作与音频高度关联。

可用模型

模型 ID功能说明
fal-ai/bytedance/omnihuman/v1.5图片+音频→视频口型同步、表情驱动,$0.16/秒

工作流

1. 调用 submit_task

使用 MCP 工具 submit_task 提交任务:

{
  "model_id": "fal-ai/bytedance/omnihuman/v1.5",
  "parameters": {
    "image_url": "人物图片URL",
    "audio_url": "音频文件URL"
  }
}

参数说明

参数类型必填默认值说明
image_urlstring-人物图片 URL,需要清晰的人物形象
audio_urlstring-音频文件 URL(mp3/wav/m4a/ogg/aac)
promptstring-文本提示词,引导视频生成风格
resolutionstring"1080p"视频分辨率:720p 或 1080p
turbo_modebooleanfalse加速模式,更快但画质略降

分辨率限制

分辨率最大音频时长说明
1080p30 秒高清画质,时长受限
720p60 秒画质高且生成更快,支持更长音频

查询任务状态

提交任务后会返回 task_id,使用 get_task 查询结果:

{
  "task_id": "返回的任务ID"
}

任务状态:

  • pending - 排队中
  • processing - 处理中
  • completed - 完成,结果在 result
  • failed - 失败,查看 error 字段

完整示例

示例 1:基础用法(人物说话)

用户请求:让这张图片里的人说这段话

执行步骤

  1. 先用 TTS 生成音频(可选,如果用户没有提供音频)
  2. 调用 submit_task
{
  "model_id": "fal-ai/bytedance/omnihuman/v1.5",
  "parameters": {
    "image_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_v15_input_image.png",
    "audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_v15_input_audio.mp3",
    "resolution": "1080p"
  }
}
  1. 获取 task_id 后调用 get_task 查询结果

示例 2:使用加速模式

{
  "model_id": "fal-ai/bytedance/omnihuman/v1.5",
  "parameters": {
    "image_url": "https://example.com/portrait.jpg",
    "audio_url": "https://example.com/speech.mp3",
    "resolution": "720p",
    "turbo_mode": true
  }
}

计费说明

  • 按秒计费:64 积分/秒($0.16/秒)
  • 视频时长由音频长度决定
  • 最低计费 3 秒
音频时长费用(积分)
5 秒320
10 秒640
20 秒1,280
30 秒1,920

使用技巧

  1. 图片要求:使用清晰的人物正面或半侧面照片,人脸占比适中
  2. 音频质量:使用清晰的语音音频,背景噪音越少效果越好
  3. 分辨率选择:短音频(< 30s)推荐 1080p;长音频推荐 720p
  4. 加速模式:测试阶段可开启 turbo_mode 加快生成速度
  5. 配合 TTS:可先用海螺语音合成生成音频,再用 OmniHuman 生成视频

常见问题

问题解决方案
口型不同步确保音频清晰,避免过多背景音乐
生成失败检查图片是否包含清晰人物,音频时长是否超限
画质不够好使用 1080p 分辨率,关闭 turbo_mode