← 返回
AI智能

Whisper Stt

语音转文字 - 使用OpenAI Whisper将音频文件识别为文字
语音转文字 - 使用OpenAI Whisper将音频文件识别为文字
qiaotucodes
AI智能 clawhub v0.1.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 755
下载
💾 32
安装
1
版本
#latest

概述

Whisper 语音转文字技能

将音频/语音文件识别并转换为文字。

使用方式

自动处理(推荐)

当用户发送语音/音频文件时,自动:

  1. 识别语音内容
  2. 转换为文字
  3. 发送文字到飞书

手动命令

用户发送音频文件后,技能自动处理。

支持格式

  • MP3, WAV, M4A, OGG, FLAC, WebM
  • 任何音频格式(FFmpeg支持即可)

模型选择

模型大小速度精度
------------------------
tiny~1GB最快基础
base~1GB一般
small~2GB中等较好
medium~5GB较慢很好
large~10GB最慢最佳
turbo~6GB接近large

技术实现

import whisper

# 加载模型(首次使用会下载)
model = whisper.load_model("base")  # 可选: tiny/base/small/medium/large/turbo

# 识别语音
result = model.transcribe("audio.mp3")

# 输出文字
print(result["text"])

依赖

  • Python 3.8+
  • PyTorch
  • openai-whisper
  • ffmpeg

注意事项

  1. 首次使用会下载模型(1-10GB)
  2. 大模型需要较多内存
  3. 中文识别效果很好

版本历史

共 1 个版本

  • v0.1.0 当前
    2026-03-30 01:03 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

ontology

oswalpalash
类型化知识图谱,用于结构化智能体记忆与可组合技能。支持创建/查询实体(人员、项目、任务、事件、文档)及关联...
★ 709 📥 243,525
ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误和纠正,以实现持续改进。使用时机:(1)命令或操作意外失败;(2)用户纠正……
★ 4,055 📥 795,849
content-creation

cutmv

qiaotucodes
使用FFmpeg的视频处理工具,可剪切、格式转换、压缩、提取帧/音频、加水印和添加字幕。
★ 0 📥 845