skills$openclaw/ms-qwen-vl
crocketc3.0k

by crocketc

ms-qwen-vl – OpenClaw Skill

ms-qwen-vl is an OpenClaw Skills integration for coding workflows. 调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。

3.0k stars7.9k forksSecurity L1
Updated Feb 7, 2026Created Feb 7, 2026coding

Skill Snapshot

namems-qwen-vl
description调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。 OpenClaw Skills integration.
ownercrocketc
repositorycrocketc/ms-qwen-vl
languageMarkdown
licenseMIT
topics
securityL1
installopenclaw add @crocketc/ms-qwen-vl
last updatedFeb 7, 2026

Maintainer

crocketc

crocketc

Maintains ms-qwen-vl in the OpenClaw Skills directory.

View GitHub profile
File Explorer
9 files
.
references
api-guide.md
3.2 KB
models.md
1.8 KB
scripts
ms_qwen_vl.py
7.0 KB
_meta.json
274 B
README.md
3.1 KB
requirements.txt
212 B
SKILL.md
3.9 KB
SKILL.md

name: ms-qwen-vl description: 调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。

MS-Qwen-VL Skill

基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能,使用 OpenAI SDK 兼容方式调用。

功能特点

  • OpenAI SDK 兼容:使用标准 OpenAI SDK 调用 API
  • 多种任务支持:图像描述、OCR、视觉问答、目标检测、图表解析
  • 双模型模式:默认快速模型(30B)+ 精细高精度模型(235B)
  • 灵活输入:支持本地图片和 URL

安装与配置

# 安装依赖
pip install -r requirements.txt

# 配置 API Key
cp .env.example .env

编辑 .env 文件,填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key:

MODELSCOPE_API_KEY=your_api_key_here

Claude Code 使用方式

重要:处理本地图片

当用户提供本地图片路径时(如桌面截图),必须使用 Python 脚本处理

python scripts/ms_qwen_vl.py "<图片路径>" --task <任务类型>

脚本会自动将本地文件转换为 ModelScope API 需要的 base64 格式。

处理 URL 图片

当用户提供网络 URL 时,同样使用上述命令,脚本会自动识别:

python scripts/ms_qwen_vl.py "<URL>" --task <任务类型>

Claude Code 对话示例

场景 1:分析桌面截图

用户: 请帮我描述这张图片 C:\Users\...\Desktop\screenshot.png
助手: [执行] python scripts/ms_qwen_vl.py "C:\Users\...\Desktop\screenshot.png"

场景 2:OCR 识别本地图片

用户: 识别这张图中的文字: D:\Documents\invoice.jpg
助手: [执行] python scripts/ms_qwen_vl.py "D:\Documents\invoice.jpg" --task ocr

场景 3:分析网络图片

用户: 分析这张图片 https://example.com/photo.jpg
助手: [执行] python scripts/ms_qwen_vl.py "https://example.com/photo.jpg" --task describe

场景 4:视觉问答

用户: 这张图里有几个人?C:\Users\...\Desktop\photo.png
助手: [执行] python scripts/ms_qwen_vl.py "C:\Users\...\Desktop\photo.png" --task ask --question "图片里有几个人?"

任务类型对照

用户需求--task 参数
描述图片内容describe
识别文字/OCRocr
回答关于图片的问题ask(需要 --question)
检测物体detect
解析图表chart

快速使用

# 图像描述(默认)
python scripts/ms_qwen_vl.py image.jpg

# OCR 文字识别
python scripts/ms_qwen_vl.py image.jpg --task ocr

# 视觉问答
python scripts/ms_qwen_vl.py image.jpg --task ask --question "图片里有什么?"

# 使用精细模式(235B 模型)
python scripts/ms_qwen_vl.py image.jpg --task describe --precise

Python 代码调用:

from scripts.ms_qwen_vl import analyze_image

result = analyze_image("image.jpg", task="ocr")
print(result)

任务类型

任务参数说明
图像描述describe详细描述图片内容(默认)
OCR 识别ocr识别图片中的文字
视觉问答ask回答关于图片的问题
目标检测detect检测图片中的物体
图表解析chart解析图表数据

环境变量

变量名说明
MODELSCOPE_API_KEYAPI 密钥(必需)
MODELSCOPE_MODEL默认模型(可选)
MODELSCOPE_MODEL_PRECISE精细模式模型(可选)

Resources

scripts/

ms_qwen_vl.py - 核心解析脚本,提供 analyze_image() 统一接口

references/

api-guide.md - OpenAI SDK 兼容调用方式详细说明 models.md - Qwen3-VL 系列模型及推荐使用场景

README.md

MS-Qwen-VL

基于 ModelScope Qwen3-VL 多模态 API 的视觉识别技能,专为 Claude Code 设计。

功能特点

  • OpenAI SDK 兼容:使用标准 OpenAI SDK 调用 API
  • 多种任务支持:图像描述、OCR、视觉问答、目标检测、图表解析
  • 双模型模式
    • 快速模式:Qwen3-VL-30B(默认)
    • 精细模式:Qwen3-VL-235B
  • 灵活输入:支持本地图片和 URL

安装

# 安装依赖
pip install -r requirements.txt

# 配置 API Key
cp scripts/.env.example scripts/.env

编辑 scripts/.env 文件,填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key:

MODELSCOPE_API_KEY=your_api_key_here

使用方法

命令行

# 图像描述(默认)
python scripts/ms_qwen_vl.py image.jpg

# OCR 文字识别
python scripts/ms_qwen_vl.py image.jpg --task ocr

# 视觉问答
python scripts/ms_qwen_vl.py image.jpg --task ask --question "图片里有什么?"

# 目标检测
python scripts/ms_qwen_vl.py image.jpg --task detect

# 图表解析
python scripts/ms_qwen_vl.py image.jpg --task chart

# 使用精细模式(235B 模型)
python scripts/ms_qwen_vl.py image.jpg --task describe --precise

# 输出到文件
python scripts/ms_qwen_vl.py image.jpg --task ocr --output result.txt

Python 代码

from scripts.ms_qwen_vl import analyze_image

# 图像描述
result = analyze_image("image.jpg")
print(result)

# OCR 识别
result = analyze_image("image.jpg", task="ocr")
print(result)

# 视觉问答
result = analyze_image("image.jpg", task="ask", question="这是什么?")
print(result)

# 使用精细模式
result = analyze_image("image.jpg", task="describe", precise=True)
print(result)

任务类型

任务参数说明
图像描述describe详细描述图片内容(默认)
OCR 识别ocr识别图片中的文字
视觉问答ask回答关于图片的问题
目标检测detect检测图片中的物体
图表解析chart解析图表数据

环境变量

变量名说明默认值
MODELSCOPE_API_KEYAPI 密钥(必需)-
MODELSCOPE_MODEL默认模型Qwen/Qwen3-VL-30B-A3B-Instruct
MODELSCOPE_MODEL_PRECISE精细模式模型Qwen/Qwen3-VL-235B-A22B-Instruct

获取 API Key

访问 https://modelscope.cn/my/myaccesstoken 登录后获取 API Key。

文件结构

ms-qwen-vl/
├── SKILL.md              # Claude Code Skill 定义
├── README.md             # 项目说明
├── requirements.txt      # Python 依赖
├── .gitignore            # Git 忽略配置
├── scripts/
│   ├── .env.example      # 环境变量示例
│   └── ms_qwen_vl.py     # 核心解析脚本
└── references/
    ├── api-guide.md      # OpenAI SDK 兼容调用说明
    └── models.md         # Qwen3-VL 系列模型说明

依赖

  • openai >= 1.0.0 - OpenAI SDK
  • Pillow >= 9.0.0 - 图像处理
  • python-dotenv >= 1.0.0 - 环境变量加载

许可证

MIT License

Permissions & Security

Security level L1: Low-risk skills with minimal permissions. Review inputs and outputs before running in production.

Requirements

  • OpenClaw CLI installed and configured.
  • Language: Markdown
  • License: MIT
  • Topics:

FAQ

How do I install ms-qwen-vl?

Run openclaw add @crocketc/ms-qwen-vl in your terminal. This installs ms-qwen-vl into your OpenClaw Skills catalog.

Does this skill run locally or in the cloud?

OpenClaw Skills execute locally by default. Review the SKILL.md and permissions before running any skill.

Where can I verify the source code?

The source repository is available at https://github.com/openclaw/skills/tree/main/skills/crocketc/ms-qwen-vl. Review commits and README documentation before installing.