shumianyu
将分段 asr 文本流在结束时统一整理成流畅书面语,并在用户指定 target_language 时输出译文。适用于语音听写、会议转写、采访整理、播客或视频字幕后处理等场景,尤其适合不需要实时字幕、只需要在整段结束后得到最终书面结果的任务。保持接口抽象、可替换,不绑定任何特定厂商 api。
codeskills install shumianyu该技能详情正在完善中。
查看原文获取完整内容将分段 asr 文本流在结束时统一整理成流畅书面语,并在用户指定 target_language 时输出译文。适用于语音听写、会议转写、采访整理、播客或视频字幕后处理等场景,尤其适合不需要实时字幕、只需要在整段结束后得到最终书面结果的任务。保持接口抽象、可替换,不绑定任何特定厂商 api。
codeskills install shumianyu该技能详情正在完善中。
查看原文获取完整内容基于分类和标签推荐
使用 AudioPod AI API 进行音频处理,包括 AI 音乐生成(文生音乐、文生说唱、伴奏、采样、人声)、音轨分离、文本转语音、降噪、语音转文字、说话人分离和媒体提取。适用于从文本生成音乐/歌曲/说唱、分离歌曲音轨/人声/乐器、文本生成语音、清理嘈杂音频、转录音视频或从 YouTube/链接提取音频。需要提供 AUDIOPOD_API_KEY 环境变量或直接传入 api_key。
The cheapest AI media API on the market. Transcribe YouTube videos, generate images with Flux and Z-Image models, convert text to speech in 54+ voices across 8 languages, extract text with OCR, create videos, remove backgrounds, upscale images, apply style transfer - all through one unified API. Free $5 credit on signup - enough for hundreds of hours of transcription or thousands of generated images. Fraction of the cost of any alternative.
使用LLMWhisperer API提取图片和PDF中的文本与布局,擅长手写内容和复杂表单。
使用MiniMax语音API和FFmpeg实现语音合成、声音克隆、声音设计及音频后处理。适用于文本转语音等场景。