Audio Video To Text
音视频转文字技能,使用 Whisper 进行语音识别。支持多种音视频格式,可输出纯文本、SRT/VTT 字幕或 JSON 格式。适用于会议记录、视频字幕生成、采访整理、播客转录等场景。
SkillHub181 下载v1.0.0更新于 2026-03-25
codeskills install audio-video-to-text该技能详情正在完善中。
查看原文获取完整内容音视频转文字技能,使用 Whisper 进行语音识别。支持多种音视频格式,可输出纯文本、SRT/VTT 字幕或 JSON 格式。适用于会议记录、视频字幕生成、采访整理、播客转录等场景。
codeskills install audio-video-to-text该技能详情正在完善中。
查看原文获取完整内容基于分类和标签推荐
使用 yt-dlp 直接从 YouTube 视频链接提取字幕文本,无需音频处理。
使用 summarize CLI 总结 URL 或文件(网页、PDF、图片、音频、YouTube),支持 50+ 模型进行图像生成、视频生成、文本转语音
从 YouTube 及 yt-dlp 支持站点下载视频、音频、字幕与整洁段落式转录文本。用于“下载视频”“保存片段”“提取音频”“获取字幕/转录”或排查 yt-dlp/ffmpeg 及格式/播放列表问题。
使用 AudioPod AI API 进行音频处理,包括 AI 音乐生成(文生音乐、文生说唱、伴奏、采样、人声)、音轨分离、文本转语音、降噪、语音转文字、说话人分离和媒体提取。适用于从文本生成音乐/歌曲/说唱、分离歌曲音轨/人声/乐器、文本生成语音、清理嘈杂音频、转录音视频或从 YouTube/链接提取音频。需要提供 AUDIOPOD_API_KEY 环境变量或直接传入 api_key。