Computer Vision Expert
SOTA计算机视觉专家(2026)。专精YOLO26、SAM 3、视觉语言模型及实时空间分析。
SkillHub3,504 下载2v1.0.0更新于 2026-03-26
codeskills install computer-vision-expert该技能详情正在完善中。
查看原文获取完整内容SOTA计算机视觉专家(2026)。专精YOLO26、SAM 3、视觉语言模型及实时空间分析。
codeskills install computer-vision-expert该技能详情正在完善中。
查看原文获取完整内容基于分类和标签推荐
使用 markitdown 将 PDF、Word(.docx)、PowerPoint(.pptx)、Excel(.xlsx/.xls)、HTML、CSV、JSON、XML、图片(含EXIF/OCR)、音频(含转录)、ZIP压缩包、YouTube链接或EPub转换为Markdown格式,便于LLM处理或文本分析。
豆包图像分析技能:调用豆包(字节跳动)视觉大模型,分析图片内容。AI agent 调用时,必须使用 --output 将结果写入临时文件(如 /tmp/doubao_result.txt),再通过读文件工具获取结果,禁止直接解析 stdout。
使用 Gemini Vision AI 提取分析视频广告内容,支持帧提取、OCR 文字识别、音频转录及 AI 场景分析。适用于分析视频创意、提取文字叠加层或生成逐场景描述。
将粗略构思转化为专业级LLM提示词,分析文本、图像、链接与文档,运用成熟框架生成优化提示。