内容创作 nlp voice video audio

Audio Video To Text

音视频转文字技能，使用 Whisper 进行语音识别。支持多种音视频格式，可输出纯文本、SRT/VTT 字幕或 JSON 格式。适用于会议记录、视频字幕生成、采访整理、播客转录等场景。

SkillHub181 下载v1.0.0更新于 2026-03-25

codeskills install audio-video-to-text

该技能详情正在完善中。

查看原文获取完整内容

相关技能

基于分类和标签推荐

内容创作nlp

OpenClaw YouTube Transcript

使用 yt-dlp 直接从 YouTube 视频链接提取字幕文本，无需音频处理。

内容创作nlp

Summarize

使用 summarize CLI 总结 URL 或文件（网页、PDF、图片、音频、YouTube），支持 50+ 模型进行图像生成、视频生成、文本转语音

内容创作nlp

Video Transcript Downloader

从 YouTube 及 yt-dlp 支持站点下载视频、音频、字幕与整洁段落式转录文本。用于“下载视频”“保存片段”“提取音频”“获取字幕/转录”或排查 yt-dlp/ffmpeg 及格式/播放列表问题。

内容创作nlp

AudioPod

使用 AudioPod AI API 进行音频处理，包括 AI 音乐生成（文生音乐、文生说唱、伴奏、采样、人声）、音轨分离、文本转语音、降噪、语音转文字、说话人分离和媒体提取。适用于从文本生成音乐/歌曲/说唱、分离歌曲音轨/人声/乐器、文本生成语音、清理嘈杂音频、转录音视频或从 YouTube/链接提取音频。需要提供 AUDIOPOD_API_KEY 环境变量或直接传入 api_key。