image-model-evaluation

Verified·Scanned 2/18/2026

评估图像生成模型的效果。对指定模型进行全面的文生图、图生图测试,包括不同参数、不同提示词、人物一致性等测试项,生成详细的HTML测试报告。当用户想要测试、评估、对比图像模型效果时使用此 skill。

from clawhub.ai·v9dc4099·35.7 KB·0 installs
Scanned from 1.0.0 at 9dc4099 · Transparency log ↗
$ vett add clawhub.ai/hexiaochun/image-model-evaluation

图像模型效果评估

对图像生成模型进行全面的效果评估,包括文生图、图生图、人物一致性等多维度测试。

工作流

1. 分析用户需求

获取用户想要评估的模型和测试范围:

  • 目标模型名称
  • 测试类型(完整测试/快速测试)
  • 特定测试场景(可选)

2. 验证模型

  1. 检查模型是否在支持列表中
  2. 如不支持,提示用户选择可用模型
  3. 确认模型功能特性(文生图/图生图支持)

参考文档:支持的模型列表见 references/models.md

3. 制定测试计划

根据测试类型选择测试方案:

测试类型测试项数预计耗时适用场景
快速测试10 项3-5 分钟快速验证模型能力
完整测试31 项15-20 分钟全面评估模型效果

使用 AskQuestion 让用户确认测试计划:

即将对 jimeng-4.5 进行快速测试:

测试项目:
- 文生图 5 项(尺寸+风格)
- 图生图 5 项(编辑+转换)

预估费用:约 0.18 元

是否开始测试?

参考文档:完整测试用例见 references/test-cases.md 参考文档:快速测试方案见 references/quick-test.md

4. 执行文生图测试

按类型分组执行测试:

4.1 尺寸测试

验证模型对不同画幅比例的支持(16:9、9:16、1:1、4:3)

4.2 风格测试

验证模型对不同艺术风格的理解(写实、动漫、油画、水彩、3D)

4.3 复杂场景测试

验证模型处理复杂需求的能力(多人、动态、文字生成)

5. 执行人物一致性测试(核心测试)

先生成一张高质量的全身人物基准图(清晰面部、简单背景、自然站姿),然后进行一致性测试:

5.1 场景+姿态大幅变化测试

重点:不是简单的背景替换,而是测试人物在完全不同的场景和姿态下能否保持特征一致

测试类型示例
动态姿态站立 → 奔跑、跳跃、游泳
静态姿态站立 → 坐着、躺着、蹲着
场景切换室内 → 海滩/雪山/健身房/舞台
视角变化正面 → 侧面、背面、俯视
服装变化休闲装 → 正装/运动装/泳装/冬装

5.2 评估人物一致性

对每个测试结果评估:

  • 面部特征保持度(眼睛、鼻子、嘴巴、脸型)
  • 体型比例一致性
  • 发型发色一致性
  • 整体辨识度(能否一眼认出是同一人)

5.3 风格转换测试(可选)

测试将照片转换为不同艺术风格的能力

参考文档:API 调用方式见 references/api-usage.md

6. 收集测试结果

每个测试任务记录:

  • 模型名称
  • 测试类型(文生图/图生图)
  • 输入参数(提示词、原图等)
  • 生成耗时
  • 输出图片 URL
  • 质量评分

7. 生成 HTML 报告

使用模板生成精美的测试报告。

模板文件assets/report-template.html

报告结构:

  1. 测试概览 - 模型信息、测试总数、成功率、费用
  2. 文生图结果 - 按测试类型分组展示
  3. 图生图结果 - 原图与编辑结果对比
  4. 人物一致性分析 - 多场景对比
  5. 测试结论 - 优缺点总结

8. 输出文件

生成以下文件到 {output_dir}/{model_name}_evaluation/ 目录:

{output_dir}/{model_name}_evaluation/
├── index.html           # 测试报告(浏览器打开)
├── t2i_*.json          # 文生图结果数据
├── i2i_*.json          # 图生图结果数据
└── summary.json        # 测试摘要

默认输出目录:当前工作目录下的 evaluation_output/

完整示例

用户请求

帮我测试一下 jimeng-4.5 模型的效果

执行步骤

1. 验证模型 → jimeng-4.5 在支持列表中,支持文生图和图生图

2. 确认测试计划 → 用户选择快速测试(10项)

3. 执行文生图测试 → 并行执行 5 个测试

4. 生成基准人物图 → 作为图生图的输入

5. 执行图生图测试 → 并行执行 5 个编辑测试

6. 生成报告 → 填充模板,输出 HTML

7. 输出结果

jimeng-4.5 模型评估完成!

📊 测试概览:
- 测试总数:10 项
- 成功率:100%
- 平均耗时:8.5 秒
- 总费用:0.18 元

📁 输出文件:
- evaluation_output/jimeng-4.5_evaluation/index.html

💡 提示:在浏览器中打开 index.html 查看详细报告

注意事项

  1. 并行限制:同时最多发起 4 个请求
  2. 超时处理:单个请求最长等待 120 秒
  3. 错误重试:失败的测试可选择重试
  4. 费用预估:执行前提示预计费用