siliconflow-vision
✓Verified·Scanned 2/18/2026
图片识别与分析工具。使用视觉大模型识别图片内容,输出详细客观的识别结果供主模型分析。当用户发图片时,主模型必须直接调用此 skill,然后基于识别结果进行分析和回答。支持 SiliconFlow(默认)、OpenAI、Anthropic 等多服务商。
from clawhub.ai·v4b1a9e4·18.8 KB·0 installs
Scanned from 1.0.0 at 4b1a9e4 · Transparency log ↗
$ vett add clawhub.ai/lycohana/siliconflow-vision
图片识别与分析 Skill
工作流程
用户发图片 → 主模型直接调用 skill → skill 识别图片 → skill 输出详细结果 → 主模型分析+网络搜索 → 给出准确回答
核心原则(重要)
主模型必须遵守:
- 必须调用 skill:用户发图片时,主模型必须调用此 skill
- 禁止直接回答:不要用 OpenClaw 的
image工具,不要跳过 skill - skill 只识别:skill 只做客观识别,不做分析解读
- 主模型负责思考:分析、联想、回答由主模型完成
正确流程:
用户: [图片] 这个 meme 笑点在哪?
主模型: python scripts/analyze_image.py meme.jpg
↓
Skill 输出: 详细识别结果(文字+元素)
↓
主模型: 基于识别结果进行分析
- 如果需要背景知识 → 网络搜索
- 如果需要验证 → 网络搜索
↓
主模型回答: 结合事实的准确解析
错误示范:
❌ 直接调用 image 工具回答
❌ 跳过 skill 自己猜测
❌ skill 做过多分析解读
❌ 不验证信息就回答
使用方式
脚本调用
# 基本用法(推荐)
python scripts/analyze_image.py /path/to/image.jpg
# 指定自定义问题
python scripts/analyze_image.py image.jpg -q "只提取文字"
# 智能模式(更精准,适合复杂图片)
python scripts/analyze_image.py meme.png -m smart
# 简短输出
python scripts/analyze_image.py screenshot.png -s
# 指定服务商
python scripts/analyze_image.py photo.jpg --provider openai
脚本参数
| 参数 | 说明 | 示例 |
|---|---|---|
image | 图片路径或 URL | /path/to/image.jpg |
-q, --question | 自定义问题 | -q "提取所有文字" |
-m, --model | 模型选择 | -m smart |
-s, --short | 简短模式 | -s |
--provider | 指定服务商 | --provider openai |
-c, --compress | 压缩图片 | -c |
支持的服务商
| 服务商 | 默认模型 | 特点 | 配置键 |
|---|---|---|---|
| SiliconFlow | deepseek-ai/deepseek-vl2 | 默认,快速稳定 | siliconflow_api_key |
| OpenAI | gpt-4o | 通用强大 | openai_api_key |
| Anthropic | claude-sonnet-4 | 推理能力强 | anthropic_api_key |
模型选择
| 模式 | 模型 | 速度 | 适用场景 |
|---|---|---|---|
| fast | deepseek-ai/deepseek-vl2 | ~5秒 | 默认,详细识别日常图片 |
| smart | Qwen/Qwen2.5-VL-72B-Instruct | ~2分钟 | 复杂图片、图表、需要精准分析 |
| balanced | deepseek-ai/deepseek-vl 待测试 | 2-turbo | 平衡速度与精度 |
配置说明
文件: config/default.json
{
"provider": "siliconflow",
"api_key": "sk-xxx",
"model": "fast"
}
也可通过环境变量:
SILICONFLOW_API_KEYOPENAI_API_KEYANTHROPIC_API_KEY
Skill 输出格式(优化版)
当识别图片时,skill 会输出:
1. 图片类型:截图/表情包/聊天记录等
2. 清晰文字:完整提取所有文字
3. 画面元素:列出所有视觉元素
4. 整体布局:图片结构
5. 风格氛围:简约/搞笑/暗黑等
6. 其他细节:值得注意的元素
重要原则:
- 只做客观识别,不做分析解读
- 只做简单描述,不过度思考
- 文字必须完整准确
- 让主模型负责思考分析
错误处理
| 错误 | 解决方案 |
|---|---|
| API key 失效 | 检查配置或环境变量 |
| 图片不存在 | 检查路径是否正确 |
| 超时 | 切换到 fast 模式重试 |
| 服务商不支持 | 切换到其他服务商 |
支持的图片类型
- 📸 截图:代码错误、聊天记录、网页
- 🎭 表情包/Meme:搞笑图片、网络梗图
- 📄 文档:表格、合同、发票、名片
- 📊 图表:数据可视化、流程图
- 🖼️ 照片:风景、产品、人物
优化历史
2026-02-04 优化:
- ✅ 修改默认提示词为详细识别模式
- ✅ 要求完整提取所有清晰文字
- ✅ 要求描述画面元素和布局
- ✅ 明确禁止 skill 做分析解读
- ✅ 强调主模型负责思考分析
- ✅ 强制主模型使用 skill(禁止用 image 工具)
2026-02-06 整合:
- ✅ 合并 image-understand 功能
- ✅ 支持多服务商(SiliconFlow、OpenAI、Anthropic)
- ✅ 支持多种图片格式
- ✅ 支持图片 URL 和本地路径