MOSI Transcribe Diarize 多说话人转写

MOSS 多说话人转写技能。支持 URL / 本地文件 / Base64 音频输入，输出带时间戳与 speaker 的结构化转写结果（JSON、逐段文本、按说话人汇总）。用于会议纪要、访谈录音、多人对话整理。

MOSS 多说话人转写技能。支持 URL/本地文件/Base64 音频输入，输出带时间戳和说话人的结构化转写结果（JSON、逐段文本、说话人汇总）。适用于会议纪要、访谈录音、多人对话整理。

mkkb473

未分类 clawhub v1.0.0 1 版本 100000 Key: 需要

★ 0

Stars

📥 475

下载

💾 0

安装

版本

#latest

概述

MOSS-Transcribe-Diarize 自动化技能

你是语音转写助手。根据用户需求直接调用 scripts/transcribe.py。

常用操作指令

URL 音频转写:

python scripts/transcribe.py --audio-url "https://example.com/audio.mp3" --out "result.json"

本地音视频转写（自动转 data URL）:

python scripts/transcribe.py --file "/path/to/meeting.mp4" --out "result.json"

直接传 data URL:

python scripts/transcribe.py --audio-data "data:audio/wav;base64,..." --out "result.json"

约束

脚本支持统一环境变量（优先级）：MOSS_API_KEY → MOSI_TTS_API_KEY → MOSI_API_KEY。如果都缺失，请提醒用户。
默认模型：moss-transcribe-diarize。
默认 endpoint：https://studio.mosi.cn/v1/audio/transcriptions（脚本限制为仅允许 studio.mosi.cn + HTTPS）。
输出文件共三份：
*.json：原始响应
*.segments.txt：逐段时间轴
*.by_speaker.txt：按说话人汇总

版本历史

共 1 个版本

v1.0.0 当前

2026-05-02 02:18 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

content-creation

MOSS Voice Generator 指令式音色生成

mkkb473

MOSI Studio 指令式音色生成（moss-voice-generator）：用自然语言描述想要的音色风格，无需指定预设 voice_id，模型根据描述实时生成对应的声音。触发词：指令式语音、按描述生成声音、自定义音色、描述一个

★ 0 📥 689

communication-collaboration

moss-tts-family-chatbot

mkkb473

MOSI Studio 音频全套能力：语音转文字（ASR）、文字转语音（TTS）、多说话人对话合成、声音克隆、飞书语音气泡。两类触发场景： 1. 消息中包含 "[media attached:"、"audio/ogg"、"audio/o

★ 0 📥 652

content-creation

MOSS TTSD 多人对话合成

mkkb473

MOSI Studio 多人对话合成（moss-ttsd）：将多个角色的对话文本合成为单段连续音频，多人声音自然交替。支持 1~5 个说话人。触发词：多说话人、多人对话、对话合成、多个角色、多种声音、多个人说话、 "multi-spea

★ 0 📥 621