如何安装 Gemini STT？

运行命令：codeskills install gemini-stt

Gemini STT

使用Google Gemini API或Vertex AI转录音频文件

SkillHub2,846 下载2v1.1.0更新于 2026-03-25

codeskills install gemini-stt

该技能详情正在完善中。

基于分类和标签推荐

通过Groq兼容OpenAI的语音转文本API转录音频，适用于用户发送语音消息或音频文件时的快速云端语音识别。

使用 OpenAI Whisper 或 ElevenLabs Scribe API 将音频转录为带时间戳的歌词，输出 LRC、SRT 或 JSON 格式（支持单词级时间戳）。适用于歌曲转录、生成 LRC 文件或提取带时间戳的歌词。

通用语音识别 Skill。支持多种音频格式（ogg/mp3/wav/m4a），使用硅基流动 SenseVoice API 进行语音转文字。当用户发送语音消息、音频文件，或需要转录音频时触发。

使用科大讯飞 API 将音频/视频转换为文字。支持本地音频文件转录、YouTube 视频下载并转文字。适用于会议记录、视频字幕、语音笔记等场景。当用户需要语音转文字、音频转录、YouTube 视频转文字时触发。