image-model-evaluation
评估图像生成模型的效果。对指定模型进行全面的文生图、图生图测试,包括不同参数、不同提示词、人物一致性等测试项,生成详细的HTML测试报告。当用户想要测试、评估、对比图像模型效果时使用此 skill。
图像模型效果评估
对图像生成模型进行全面的效果评估,包括文生图、图生图、人物一致性等多维度测试。
工作流
1. 分析用户需求
获取用户想要评估的模型和测试范围:
- 目标模型名称
- 测试类型(完整测试/快速测试)
- 特定测试场景(可选)
2. 验证模型
- 检查模型是否在支持列表中
- 如不支持,提示用户选择可用模型
- 确认模型功能特性(文生图/图生图支持)
参考文档:支持的模型列表见 references/models.md
3. 制定测试计划
根据测试类型选择测试方案:
| 测试类型 | 测试项数 | 预计耗时 | 适用场景 |
|---|---|---|---|
| 快速测试 | 10 项 | 3-5 分钟 | 快速验证模型能力 |
| 完整测试 | 31 项 | 15-20 分钟 | 全面评估模型效果 |
使用 AskQuestion 让用户确认测试计划:
即将对 jimeng-4.5 进行快速测试:
测试项目:
- 文生图 5 项(尺寸+风格)
- 图生图 5 项(编辑+转换)
预估费用:约 0.18 元
是否开始测试?
参考文档:完整测试用例见 references/test-cases.md 参考文档:快速测试方案见 references/quick-test.md
4. 执行文生图测试
按类型分组执行测试:
4.1 尺寸测试
验证模型对不同画幅比例的支持(16:9、9:16、1:1、4:3)
4.2 风格测试
验证模型对不同艺术风格的理解(写实、动漫、油画、水彩、3D)
4.3 复杂场景测试
验证模型处理复杂需求的能力(多人、动态、文字生成)
5. 执行人物一致性测试(核心测试)
先生成一张高质量的全身人物基准图(清晰面部、简单背景、自然站姿),然后进行一致性测试:
5.1 场景+姿态大幅变化测试
重点:不是简单的背景替换,而是测试人物在完全不同的场景和姿态下能否保持特征一致
| 测试类型 | 示例 |
|---|---|
| 动态姿态 | 站立 → 奔跑、跳跃、游泳 |
| 静态姿态 | 站立 → 坐着、躺着、蹲着 |
| 场景切换 | 室内 → 海滩/雪山/健身房/舞台 |
| 视角变化 | 正面 → 侧面、背面、俯视 |
| 服装变化 | 休闲装 → 正装/运动装/泳装/冬装 |
5.2 评估人物一致性
对每个测试结果评估:
- 面部特征保持度(眼睛、鼻子、嘴巴、脸型)
- 体型比例一致性
- 发型发色一致性
- 整体辨识度(能否一眼认出是同一人)
5.3 风格转换测试(可选)
测试将照片转换为不同艺术风格的能力
参考文档:API 调用方式见 references/api-usage.md
6. 收集测试结果
每个测试任务记录:
- 模型名称
- 测试类型(文生图/图生图)
- 输入参数(提示词、原图等)
- 生成耗时
- 输出图片 URL
- 质量评分
7. 生成 HTML 报告
使用模板生成精美的测试报告。
模板文件:assets/report-template.html
报告结构:
- 测试概览 - 模型信息、测试总数、成功率、费用
- 文生图结果 - 按测试类型分组展示
- 图生图结果 - 原图与编辑结果对比
- 人物一致性分析 - 多场景对比
- 测试结论 - 优缺点总结
8. 输出文件
生成以下文件到 {output_dir}/{model_name}_evaluation/ 目录:
{output_dir}/{model_name}_evaluation/
├── index.html # 测试报告(浏览器打开)
├── t2i_*.json # 文生图结果数据
├── i2i_*.json # 图生图结果数据
└── summary.json # 测试摘要
默认输出目录:当前工作目录下的 evaluation_output/
完整示例
用户请求
帮我测试一下 jimeng-4.5 模型的效果
执行步骤
1. 验证模型 → jimeng-4.5 在支持列表中,支持文生图和图生图
2. 确认测试计划 → 用户选择快速测试(10项)
3. 执行文生图测试 → 并行执行 5 个测试
4. 生成基准人物图 → 作为图生图的输入
5. 执行图生图测试 → 并行执行 5 个编辑测试
6. 生成报告 → 填充模板,输出 HTML
7. 输出结果
jimeng-4.5 模型评估完成!
📊 测试概览:
- 测试总数:10 项
- 成功率:100%
- 平均耗时:8.5 秒
- 总费用:0.18 元
📁 输出文件:
- evaluation_output/jimeng-4.5_evaluation/index.html
💡 提示:在浏览器中打开 index.html 查看详细报告
注意事项
- 并行限制:同时最多发起 4 个请求
- 超时处理:单个请求最长等待 120 秒
- 错误重试:失败的测试可选择重试
- 费用预估:执行前提示预计费用