Whisper 语音转文字技能

将音频/语音文件识别并转换为文字。

使用方式

自动处理（推荐）

当用户发送语音/音频文件时，自动：

识别语音内容
转换为文字
发送文字到飞书

手动命令

用户发送音频文件后，技能自动处理。

支持格式

MP3, WAV, M4A, OGG, FLAC, WebM
任何音频格式（FFmpeg支持即可）

模型选择

模型	大小	速度	精度
------	------	------	------
tiny	~1GB	最快	基础
base	~1GB	快	一般
small	~2GB	中等	较好
medium	~5GB	较慢	很好
large	~10GB	最慢	最佳
turbo	~6GB	快	接近large

技术实现

import whisper

# 加载模型（首次使用会下载）
model = whisper.load_model("base")  # 可选: tiny/base/small/medium/large/turbo

# 识别语音
result = model.transcribe("audio.mp3")

# 输出文字
print(result["text"])

依赖

Python 3.8+
PyTorch
openai-whisper
ffmpeg

注意事项

首次使用会下载模型（1-10GB）
大模型需要较多内存
中文识别效果很好

版本历史

共 1 个版本

v0.1.0 当前

2026-03-30 01:03 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

ai-intelligence

ontology

oswalpalash

类型化知识图谱，用于结构化智能体记忆与可组合技能。支持创建/查询实体（人员、项目、任务、事件、文档）及关联...

★ 709 📥 243,525

ai-intelligence

self-improving agent

pskoett

捕获经验教训、错误和纠正，以实现持续改进。使用时机：（1）命令或操作意外失败；（2）用户纠正……

★ 4,055 📥 795,849

content-creation

cutmv

qiaotucodes

使用FFmpeg的视频处理工具，可剪切、格式转换、压缩、提取帧/音频、加水印和添加字幕。

★ 0 📥 845