|
--- name: paper-comic description: | 论文方法图解——用视觉图解彻底讲清楚一篇论文到底做了什么、怎么做的。 自动分析论文核心方法,先推荐封面/概述图/机制细节图的生成方案,必须由用户确认范围、张数、语言、风格后再生成。 支持温暖笔记风和论文框架图风。 --- # Paper Method Illustrated — 论文方法图解 把论文的核心方法用视觉图解彻底讲清楚。 ## 与其他技能的本质区别 | | 传统paper-comic | baoyu-article-illustrator | **我们:方法图解** | |---|---|---|---| | 聊什么 | 什么都聊一点 | 为文章配装饰图 | **只聊方法细节** | | 深度 | 一页讲很多→浅 | 一张图一段话→中 | **一张图讲透一个机制→深** | | 页数 | 固定10页 | 按密度5-20张 | **先推荐封面/概述/细节图组合,用户确认后生成1-10张** | | 重点 | 讲背景+故事 | 美化文章排版 | **可视化"怎么做"** | ## 快速开始 ```bash /paper-comic /path/to/paper.pdf /paper-comic https://arxiv.org/abs/2512.xxxxx /paper-comic /path/to/paper.pdf --style sketchnote /paper-comic /path/to/paper.pdf --style paper-figure --language English --pages 1 ``` --- ## 图片生成:自动检测 和paper-analyzer一样,不硬编码任何API。运行时自动检测: | 环境 | 自动使用 | |------|---------| | **Codex** | 内置 `imagegen` skill | | **Claude Code** | 已安装的生图skill(如baoyu-image-gen) | | **Cursor/其他** | 自动检测 → 没有则提示安装 | **不写死任何API key、token或endpoint在SKILL.md里。** --- ## 核心哲学 ### 我们只画三样东西 1. **方法流程** — 输入→处理→输出,这方法到底怎么走的 2. **核心机制** — 最创新的那个部分,拆开来看内部构造 3. **关键结果** — 只放最重要的实验结果,不放灌水数据 ### 我们不画的东西 - ❌ 相关工作/背景介绍(那是paper-analyzer文字部分的事) - ❌ 抽象的"灵感来源"(没有信息量的图 = 浪费) - ❌ 文字就能说清楚的东西(一句话能讲完不需要画) - ❌ 第N个消融实验的柱状图 ### 每一张图的标准 > 一个完全没读过论文的人,只看这张图+图上的标注文字,能不能理解这个机制? 能 → 通过。不能 → 拆成两张,或者加更多标注。 --- ## 生成前必须确认 默认**不要直接生成图片**。先读论文、给出推荐方案,再向用户确认。 只有当用户已经明确给出足够完整的生成意图时,才可以跳过确认,例如: - “生成一张中文 sketchnote 方法总览图” - “生成 4 张:封面、总览、两个机制细节,英文 paper-figure” - “按你推荐的全部生成,中文,sketchnote” 如果用户只给了论文链接、只说了风格(如“sketchnote”)、或只说“生成图解”,仍然必须确认,因为**风格不等于范围/张数授权**。 确认时必须覆盖: 1. **图片语言**:中文 / English / 双语 2. **生成范围**:只要封面图、只要方法总览图,还是概述图 + 若干机制细节图 + 结果图 3. **推荐张数**:基于论文复杂度给出建议,并说明为什么,如“我建议6张,因为这篇论文有整体架构、两个核心attention机制、编码器/解码器结构和关键实验结果” 4. **视觉风格**:`sketchnote` 或 `paper-figure` 5. **用途**:README/文章封面/小红书/演示文稿/论文阅读笔记(用途决定横竖比例和文字密度) 确认话术示例: > 我读完后建议生成6张:1张封面、1张方法总览、3张机制细节、1张关键结果。也可以只生成1张总览图,或者扩展到8张把每个机制讲更细。你想生成哪种范围?语言用中文/英文/双语?风格用 sketchnote 还是 paper-figure? 如果用户没有回答,不要继续生成。 --- ## 两种视觉风格 | 画风 | 视觉效果 | 适合场景 | 特点 | |------|---------|----------|------| | **sketchnote**(默认) | 温暖科研笔记风 | 讲清楚论文在做什么、视频宣传、知识分享 | 工整但有人味,允许小符号、小比喻、小视觉锚点,让人一眼理解 | | **paper-figure** | 论文框架图风 | README首屏、论文解读文章、方法总览、技术展示 | 像顶会论文里的总览框架图,但更完整、更漂亮、更适合传播 | 默认推荐 **sketchnote**。当用户想要“像论文 Figure 一样专业”“方法框架图”“技术架构图”“放 README 第一屏很震撼”时,推荐 **paper-figure**。 ### sketchnote 风详细规范 - 明亮温暖的浅米白底(接近 #FFF8EA / #FAF4E6),像干净的手抄报纸或课堂讲义 - 不要牛皮纸、旧羊皮纸、暗角、污渍、泛黄边缘或明显做旧纹理 - 主体是黑色手绘线条+文字,有墨迹粗细变化 - 重点概念用清爽的彩铅/马克笔质感强调(深蓝/珊瑚红/橄榄绿/柔和黄色),颜色轻快但不过饱和 - 箭头和连线带有手绘的不完美感 - 文字是手写体(英文可选手写风格,中文保持清晰可读) - 整体像一份明亮、温暖、信息充实的研究手抄报,不是复古笔记、不是幼稚漫画 - 可以加入少量帮助理解的趣味符号:放大镜、星号、便签、圈注、手绘小灯泡、简化小图标 - 趣味元素必须服务理解,不能抢走方法图主体 - 主体图解应占画面 75%-85%,避免大块空白;如果页面留白明显,优先增加局部放大框、小例子、维度标注或对比说明 - 每一页右下角有"手写"页码 ### paper-figure 风详细规范 - 白底或极浅灰底,像 NeurIPS / Nature / Science 论文中的高质量方法总览图 - 使用干净的矢量感模块:圆角矩形、矩阵小格、流程箭头、分组框、编号步骤 - 配色克制但现代:黑/深灰为主,1-2个强调色(蓝、青、橙、紫任选其一到两种) - 结构比原论文图更清楚:保留核心机制,重新组织布局,避免照抄原图 - 可以有小型结果示意、矩阵热力图、token序列、模块堆叠、对比路径 - 标注像论文图注中的短标签:精准、短、专业 - 适合横版 16:9、4:3 或竖版 2:3;README 首屏优先横版或宽图 --- ## 工作流程 ### Step 1:分析论文 → 提取"可图解内容" 读完论文后,列出论文的所有内容点,然后**只保留需要图解的部分**: **必须图解(每个1-2页):** - 方法的整体流程/架构(输入→各模块→输出) - 每个核心创新机制(拆开看内部) - 最有说服力的那个实验结果 **可选图解(如果方法复杂才加):** - 方法的变体/扩展 - 关键的数据处理流程 - 与baseline的可视化对比 **不图解:** - 相关工作(文字提一句就行) - 多个类似的消融实验 - 背景知识介绍 ### Step 2:给出推荐并确认需求 先输出一个简短推荐,不要立刻生成: ```markdown 我建议生成 6 张: 1. 封面图:论文一句话贡献 + 视觉锚点 2. 方法总览图:解释整体输入、核心模块、输出 3. 核心机制A:拆开最重要的创新点 4. 核心机制B:解释训练/推理/数据流中的关键环节 5. 核心机制C:补足容易误解的内部细节 6. 关键结果图:用一张图说明为什么有效 也可以: - 只生成 1 张总览图 - 生成 3 张:总览 + 2 张核心机制 - 扩展到 8-10 张,把每个机制讲得更细 请确认: - 语言:中文 / English / 双语 - 风格:sketchnote / paper-figure - 范围:只要封面/总览,还是生成全部推荐图? ``` 如果用户没有回答,不要继续生成。 ### Step 3:确定页数 根据论文复杂度,AI只做**推荐**,最终由用户确认: | 论文复杂度 | 推荐页数 | 内容分配 | |-----------|---------|---------| | 封面/传播图 | 1页 | 一张封面或高层总览,讲清楚论文做了什么 | | 快速理解 | 2-3页 | 总览+核心机制+结果 | | 中等(2个核心方法) | 4-6页 | 封面/总览+2-3个机制+关键结果 | | 复杂(3+个核心方法) | 6-10页 | 封面/总览+每个机制1页+对比/结果 | **规则**:最少1页,最多10页。宁少勿多——1张总览图讲清楚,比10张讲糊涂好。 ### Step 4:为每一页写详细的内容描述 不是"生成prompt",而是先用自然语言描述清楚**这一页到底要表达什么**: ``` 第3页:多头注意力机制的内部构造 这一页要讲清楚:Q、K、V是怎么算出来的,它们之间怎么交互。 画面布局(从左到右): - 左侧:输入x,一个向量表示 - 中间上方:三条线分别到三个方框(Linear_Q, Linear_K, Linear_V) - 三个方框各产出Q、K、V三个矩阵 - 中间核心区域:Q和K做点积→除以√dk→softmax→得到注意力权重 - 权重和V相乘→输出 - 右侧:多个这样的"头"并行排列,最后拼接 关键标注: - 每个方框旁标运算和维度(如"Linear_Q: x→Q(d×dk)") - Q×K^T的计算用可视化的矩阵乘法图(小格图) - softmax后的权重用颜色深浅表示(越深=越关注) ``` **要求**:描述要具体到"这个箭头从哪到哪,这个方框里写什么字"。 同时检查每页的信息密度: - 如果只是大标题 + 少量模块,说明这一页太空,必须补充机制小例子、局部放大、输入输出维度或关键对比 - 如果内容超过一页可读范围,拆成两页,不要把所有文字塞进同一张图 - 封面图可以更概念化;机制细节图必须优先讲清楚“怎么做” ### Step 5:生成图片 根据当前运行环境自动选择生图后端。为每一页创建prompt文件 → 用结构化prompt生成。 **结构化prompt格式**(参考但不照抄baoyu): ``` 【类型】流程分解图 【风格】sketchnote 【语言】中文 【主题】多头注意力机制内部构造 【视觉结构】 - 水平布局,从左到右5个区域 - 每个区域用虚线框隔开 - 关键路径用粗箭头连接 【要标注的文字】 1. Input: x ∈ R^(n×d) 2. Q = xW_Q ... (完整标注) ... 【颜色限制】 - 背景:明亮浅米白,不要泛黄旧纸 - 主色:黑色手绘线条 - 强调色:深蓝/珊瑚红/橄榄绿/柔和黄色,少量使用 - 其他:保持清爽手抄报感,避免复古暗色 【禁止】 - 不要代码块 - 不要照片写实 - 不要3D渲染 - 不要生成用户没有确认的额外页面 - 不要旧羊皮纸、暗角、污渍、重纸纹、黄褐色复古调 - 不要大面积空白;主体图解占画面75%-85% ``` ### Step 6:输出 生成 `[topic]-illustrated.md`: ```markdown # [论文标题] — 图解 ## 论文信息 - 论文:[链接] - 风格:sketchnote - 页数:6 ## 封面  **一句话**:[论文做了什么,为什么重要] ## 第1页:方法总览  **讲解**:整个方法从输入到输出的完整流程。关键看第X步,这是本文的创新。 ## 第2页:核心机制A — [名称]  **讲解**:这个机制解决了XX问题。具体做法是...关键设计在于... [重复...] ## 总结:3个核心要点 1. [要点1] 2. [要点2] 3. [要点3] ``` --- ## 质量标准 ### 好的图解 - ✅ 一张图只看一眼就知道在讲什么 - ✅ 标注文字精确、简练、不啰嗦 - ✅ 流程箭头清晰,有明确的"从这里到那里" - ✅ 关键部分用颜色/大小做了视觉强调 - ✅ 不看论文原文也能理解 ### 差的图解 - ❌ 信息堆砌,什么都想画进去 - ❌ 文字太多,图变成了装饰 - ❌ 流程不清晰,不知道先看哪后看哪 - ❌ 画了但没解释——放了一张架构图但没标注关键点 - ❌ 和论文Figure 1一模一样——那你画的有什么意义 --- ## 参考文件 - `references/base-prompt.md` — 图解生成基础规范(结构、文字、色彩要求) - `references/styles/sketchnote.md` — 温暖科研笔记风 - `references/styles/paper-figure.md` — 论文框架图风
Creator's repository · zsyggg/paper-craft-skills