内容创作 llm nlp vision voice audio image pdf

multimodal-parser

统一多模态解析器，支持图像、PDF、DOCX及音频的自动OCR识别与语音转录，输出结构化文本供LLM处理

SkillHub150 下载v1.0.1更新于 2026-03-25

codeskills install multimodal-parser

该技能详情正在完善中。

查看原文获取完整内容

使用示例

快速上手这个技能

示例 1

参数说明

可配置的选项

参数	说明	默认值
`parser`	统一多模态解析器，支持图像、PDF、DOCX及音频的自动OCR识别与语音转录，输出结构化文本供LLM处理	无

相关技能

基于分类和标签推荐

内容创作nlp

Summarize

使用 summarize CLI 总结 URL 或文件（网页、PDF、图片、音频、YouTube），支持 50+ 模型进行图像生成、视频生成、文本转语音

内容创作llm

Openai

集成OpenAI API，支持聊天补全、嵌入、图像生成、音频转录、文件管理、微调及助手功能。

数据分析llm

Markdown Converter

使用 markitdown 将 PDF、Word(.docx)、PowerPoint(.pptx)、Excel(.xlsx/.xls)、HTML、CSV、JSON、XML、图片(含EXIF/OCR)、音频(含转录)、ZIP压缩包、YouTube链接或EPub转换为Markdown格式，便于LLM处理或文本分析。

内容创作vision

Summarize

使用summarize CLI总结URL或文件（支持网页、PDF、图片、音频、YouTube）。