← 返回
开发者工具 Key

Ms Qwen Vl

调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。
调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。
crocketc
开发者工具 clawhub v0.1.0 1 版本 100000 Key: 需要
★ 1
Stars
📥 2,093
下载
💾 4
安装
1
版本
#latest

概述

MS-Qwen-VL Skill

基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能,使用 OpenAI SDK 兼容方式调用。

功能特点

  • OpenAI SDK 兼容:使用标准 OpenAI SDK 调用 API
  • 多种任务支持:图像描述、OCR、视觉问答、目标检测、图表解析
  • 双模型模式:默认快速模型(30B)+ 精细高精度模型(235B)
  • 灵活输入:支持本地图片和 URL

安装与配置

# 安装依赖
pip install -r requirements.txt

# 配置 API Key
cp .env.example .env

编辑 .env 文件,填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key:

MODELSCOPE_API_KEY=your_api_key_here

Claude Code 使用方式

重要:处理本地图片

当用户提供本地图片路径时(如桌面截图),必须使用 Python 脚本处理

python scripts/ms_qwen_vl.py "<图片路径>" --task <任务类型>

脚本会自动将本地文件转换为 ModelScope API 需要的 base64 格式。

处理 URL 图片

当用户提供网络 URL 时,同样使用上述命令,脚本会自动识别:

python scripts/ms_qwen_vl.py "<URL>" --task <任务类型>

Claude Code 对话示例

场景 1:分析桌面截图

用户: 请帮我描述这张图片 C:\Users\...\Desktop\screenshot.png
助手: [执行] python scripts/ms_qwen_vl.py "C:\Users\...\Desktop\screenshot.png"

场景 2:OCR 识别本地图片

用户: 识别这张图中的文字: D:\Documents\invoice.jpg
助手: [执行] python scripts/ms_qwen_vl.py "D:\Documents\invoice.jpg" --task ocr

场景 3:分析网络图片

用户: 分析这张图片 https://example.com/photo.jpg
助手: [执行] python scripts/ms_qwen_vl.py "https://example.com/photo.jpg" --task describe

场景 4:视觉问答

用户: 这张图里有几个人?C:\Users\...\Desktop\photo.png
助手: [执行] python scripts/ms_qwen_vl.py "C:\Users\...\Desktop\photo.png" --task ask --question "图片里有几个人?"

任务类型对照

用户需求--task 参数
----------------------
描述图片内容describe
识别文字/OCRocr
回答关于图片的问题ask(需要 --question)
检测物体detect
解析图表chart

快速使用

# 图像描述(默认)
python scripts/ms_qwen_vl.py image.jpg

# OCR 文字识别
python scripts/ms_qwen_vl.py image.jpg --task ocr

# 视觉问答
python scripts/ms_qwen_vl.py image.jpg --task ask --question "图片里有什么?"

# 使用精细模式(235B 模型)
python scripts/ms_qwen_vl.py image.jpg --task describe --precise

Python 代码调用:

from scripts.ms_qwen_vl import analyze_image

result = analyze_image("image.jpg", task="ocr")
print(result)

任务类型

任务参数说明
------------------
图像描述describe详细描述图片内容(默认)
OCR 识别ocr识别图片中的文字
视觉问答ask回答关于图片的问题
目标检测detect检测图片中的物体
图表解析chart解析图表数据

环境变量

变量名说明
--------------
MODELSCOPE_API_KEYAPI 密钥(必需)
MODELSCOPE_MODEL默认模型(可选)
MODELSCOPE_MODEL_PRECISE精细模式模型(可选)

Resources

scripts/

ms_qwen_vl.py - 核心解析脚本,提供 analyze_image() 统一接口

references/

api-guide.md - OpenAI SDK 兼容调用方式详细说明

models.md - Qwen3-VL 系列模型及推荐使用场景

版本历史

共 1 个版本

  • v0.1.0 当前
    2026-03-28 18:01 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

developer-tools

CodeConductor.ai

larsonreever
AI驱动平台,提供快速全栈开发、智能体、工作流自动化及低代码AI集成的可扩展产品创建。
★ 66 📥 179,877
developer-tools

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 668 📥 323,847
developer-tools

Agent Browser

matrixy
专为AI智能体优化的无头浏览器自动化CLI,支持无障碍树快照和基于引用的元素选择。
★ 426 📥 118,047