image-model-evaluation

✓Verified·Scanned 2/18/2026

评估图像生成模型的效果。对指定模型进行全面的文生图、图生图测试，包括不同参数、不同提示词、人物一致性等测试项，生成详细的HTML测试报告。当用户想要测试、评估、对比图像模型效果时使用此 skill。

from clawhub.ai·v9dc4099·35.7 KB·0 installs

Scanned from 1.0.0 at 9dc4099 · Transparency log ↗

$ vett add clawhub.ai/hexiaochun/image-model-evaluation

图像模型效果评估

对图像生成模型进行全面的效果评估，包括文生图、图生图、人物一致性等多维度测试。

工作流

1. 分析用户需求

获取用户想要评估的模型和测试范围：

目标模型名称
测试类型（完整测试/快速测试）
特定测试场景（可选）

2. 验证模型

检查模型是否在支持列表中
如不支持，提示用户选择可用模型
确认模型功能特性（文生图/图生图支持）

参考文档：支持的模型列表见 references/models.md

3. 制定测试计划

根据测试类型选择测试方案：

测试类型	测试项数	预计耗时	适用场景
快速测试	10 项	3-5 分钟	快速验证模型能力
完整测试	31 项	15-20 分钟	全面评估模型效果

使用 AskQuestion 让用户确认测试计划：

即将对 jimeng-4.5 进行快速测试：

测试项目：
- 文生图 5 项（尺寸+风格）
- 图生图 5 项（编辑+转换）

预估费用：约 0.18 元

是否开始测试？

参考文档：完整测试用例见 references/test-cases.md 参考文档：快速测试方案见 references/quick-test.md

4. 执行文生图测试

按类型分组执行测试：

4.1 尺寸测试

验证模型对不同画幅比例的支持（16:9、9:16、1:1、4:3）

4.2 风格测试

验证模型对不同艺术风格的理解（写实、动漫、油画、水彩、3D）

4.3 复杂场景测试

验证模型处理复杂需求的能力（多人、动态、文字生成）

5. 执行人物一致性测试（核心测试）

先生成一张高质量的全身人物基准图（清晰面部、简单背景、自然站姿），然后进行一致性测试：

5.1 场景+姿态大幅变化测试

重点：不是简单的背景替换，而是测试人物在完全不同的场景和姿态下能否保持特征一致

测试类型	示例
动态姿态	站立 → 奔跑、跳跃、游泳
静态姿态	站立 → 坐着、躺着、蹲着
场景切换	室内 → 海滩/雪山/健身房/舞台
视角变化	正面 → 侧面、背面、俯视
服装变化	休闲装 → 正装/运动装/泳装/冬装

5.2 评估人物一致性

对每个测试结果评估：

面部特征保持度（眼睛、鼻子、嘴巴、脸型）
体型比例一致性
发型发色一致性
整体辨识度（能否一眼认出是同一人）

5.3 风格转换测试（可选）

测试将照片转换为不同艺术风格的能力

参考文档：API 调用方式见 references/api-usage.md

6. 收集测试结果

每个测试任务记录：

模型名称
测试类型（文生图/图生图）
输入参数（提示词、原图等）
生成耗时
输出图片 URL
质量评分

7. 生成 HTML 报告

使用模板生成精美的测试报告。

模板文件：assets/report-template.html

报告结构：

测试概览 - 模型信息、测试总数、成功率、费用
文生图结果 - 按测试类型分组展示
图生图结果 - 原图与编辑结果对比
人物一致性分析 - 多场景对比
测试结论 - 优缺点总结

8. 输出文件

生成以下文件到 {output_dir}/{model_name}_evaluation/ 目录：

{output_dir}/{model_name}_evaluation/
├── index.html           # 测试报告（浏览器打开）
├── t2i_*.json          # 文生图结果数据
├── i2i_*.json          # 图生图结果数据
└── summary.json        # 测试摘要

默认输出目录：当前工作目录下的 evaluation_output/

完整示例

用户请求

帮我测试一下 jimeng-4.5 模型的效果

执行步骤

1. 验证模型 → jimeng-4.5 在支持列表中，支持文生图和图生图

2. 确认测试计划 → 用户选择快速测试（10项）

3. 执行文生图测试 → 并行执行 5 个测试

4. 生成基准人物图 → 作为图生图的输入

5. 执行图生图测试 → 并行执行 5 个编辑测试

6. 生成报告 → 填充模板，输出 HTML

7. 输出结果

jimeng-4.5 模型评估完成！

📊 测试概览：
- 测试总数：10 项
- 成功率：100%
- 平均耗时：8.5 秒
- 总费用：0.18 元

📁 输出文件：
- evaluation_output/jimeng-4.5_evaluation/index.html

💡 提示：在浏览器中打开 index.html 查看详细报告

注意事项

并行限制：同时最多发起 4 个请求
超时处理：单个请求最长等待 120 秒
错误重试：失败的测试可选择重试
费用预估：执行前提示预计费用