paper-comic

Skill file

Preview skill file↓↑
---
name: paper-comic
description: |
  论文方法图解——用视觉图解彻底讲清楚一篇论文到底做了什么、怎么做的。
  自动分析论文核心方法，先推荐封面/概述图/机制细节图的生成方案，必须由用户确认范围、张数、语言、风格后再生成。
  支持温暖笔记风和论文框架图风。
---

# Paper Method Illustrated — 论文方法图解

把论文的核心方法用视觉图解彻底讲清楚。

## 与其他技能的本质区别

| | 传统paper-comic | baoyu-article-illustrator | **我们：方法图解** |
|---|---|---|---|
| 聊什么 | 什么都聊一点 | 为文章配装饰图 | **只聊方法细节** |
| 深度 | 一页讲很多→浅 | 一张图一段话→中 | **一张图讲透一个机制→深** |
| 页数 | 固定10页 | 按密度5-20张 | **先推荐封面/概述/细节图组合，用户确认后生成1-10张** |
| 重点 | 讲背景+故事 | 美化文章排版 | **可视化"怎么做"** |

## 快速开始

```bash
/paper-comic /path/to/paper.pdf
/paper-comic https://arxiv.org/abs/2512.xxxxx
/paper-comic /path/to/paper.pdf --style sketchnote
/paper-comic /path/to/paper.pdf --style paper-figure --language English --pages 1
```

---

## 图片生成：自动检测

和paper-analyzer一样，不硬编码任何API。运行时自动检测：

| 环境 | 自动使用 |
|------|---------|
| **Codex** | 内置 `imagegen` skill |
| **Claude Code** | 已安装的生图skill（如baoyu-image-gen） |
| **Cursor/其他** | 自动检测 → 没有则提示安装 |

**不写死任何API key、token或endpoint在SKILL.md里。**

---

## 核心哲学

### 我们只画三样东西

1. **方法流程** — 输入→处理→输出，这方法到底怎么走的
2. **核心机制** — 最创新的那个部分，拆开来看内部构造
3. **关键结果** — 只放最重要的实验结果，不放灌水数据

### 我们不画的东西

- ❌ 相关工作/背景介绍（那是paper-analyzer文字部分的事）
- ❌ 抽象的"灵感来源"（没有信息量的图 = 浪费）
- ❌ 文字就能说清楚的东西（一句话能讲完不需要画）
- ❌ 第N个消融实验的柱状图

### 每一张图的标准

> 一个完全没读过论文的人，只看这张图+图上的标注文字，能不能理解这个机制？

能 → 通过。不能 → 拆成两张，或者加更多标注。

---

## 生成前必须确认

默认**不要直接生成图片**。先读论文、给出推荐方案，再向用户确认。

只有当用户已经明确给出足够完整的生成意图时，才可以跳过确认，例如：
- “生成一张中文 sketchnote 方法总览图”
- “生成 4 张：封面、总览、两个机制细节，英文 paper-figure”
- “按你推荐的全部生成，中文，sketchnote”

如果用户只给了论文链接、只说了风格（如“sketchnote”）、或只说“生成图解”，仍然必须确认，因为**风格不等于范围/张数授权**。

确认时必须覆盖：

1. **图片语言**：中文 / English / 双语
2. **生成范围**：只要封面图、只要方法总览图，还是概述图 + 若干机制细节图 + 结果图
3. **推荐张数**：基于论文复杂度给出建议，并说明为什么，如“我建议6张，因为这篇论文有整体架构、两个核心attention机制、编码器/解码器结构和关键实验结果”
4. **视觉风格**：`sketchnote` 或 `paper-figure`
5. **用途**：README/文章封面/小红书/演示文稿/论文阅读笔记（用途决定横竖比例和文字密度）

确认话术示例：

> 我读完后建议生成6张：1张封面、1张方法总览、3张机制细节、1张关键结果。也可以只生成1张总览图，或者扩展到8张把每个机制讲更细。你想生成哪种范围？语言用中文/英文/双语？风格用 sketchnote 还是 paper-figure？

如果用户没有回答，不要继续生成。

---

## 两种视觉风格

| 画风 | 视觉效果 | 适合场景 | 特点 |
|------|---------|----------|------|
| **sketchnote**（默认） | 温暖科研笔记风 | 讲清楚论文在做什么、视频宣传、知识分享 | 工整但有人味，允许小符号、小比喻、小视觉锚点，让人一眼理解 |
| **paper-figure** | 论文框架图风 | README首屏、论文解读文章、方法总览、技术展示 | 像顶会论文里的总览框架图，但更完整、更漂亮、更适合传播 |

默认推荐 **sketchnote**。当用户想要“像论文 Figure 一样专业”“方法框架图”“技术架构图”“放 README 第一屏很震撼”时，推荐 **paper-figure**。

### sketchnote 风详细规范

- 明亮温暖的浅米白底（接近 #FFF8EA / #FAF4E6），像干净的手抄报纸或课堂讲义
- 不要牛皮纸、旧羊皮纸、暗角、污渍、泛黄边缘或明显做旧纹理
- 主体是黑色手绘线条+文字，有墨迹粗细变化
- 重点概念用清爽的彩铅/马克笔质感强调（深蓝/珊瑚红/橄榄绿/柔和黄色），颜色轻快但不过饱和
- 箭头和连线带有手绘的不完美感
- 文字是手写体（英文可选手写风格，中文保持清晰可读）
- 整体像一份明亮、温暖、信息充实的研究手抄报，不是复古笔记、不是幼稚漫画
- 可以加入少量帮助理解的趣味符号：放大镜、星号、便签、圈注、手绘小灯泡、简化小图标
- 趣味元素必须服务理解，不能抢走方法图主体
- 主体图解应占画面 75%-85%，避免大块空白；如果页面留白明显，优先增加局部放大框、小例子、维度标注或对比说明
- 每一页右下角有"手写"页码

### paper-figure 风详细规范

- 白底或极浅灰底，像 NeurIPS / Nature / Science 论文中的高质量方法总览图
- 使用干净的矢量感模块：圆角矩形、矩阵小格、流程箭头、分组框、编号步骤
- 配色克制但现代：黑/深灰为主，1-2个强调色（蓝、青、橙、紫任选其一到两种）
- 结构比原论文图更清楚：保留核心机制，重新组织布局，避免照抄原图
- 可以有小型结果示意、矩阵热力图、token序列、模块堆叠、对比路径
- 标注像论文图注中的短标签：精准、短、专业
- 适合横版 16:9、4:3 或竖版 2:3；README 首屏优先横版或宽图

---

## 工作流程

### Step 1：分析论文 → 提取"可图解内容"

读完论文后，列出论文的所有内容点，然后**只保留需要图解的部分**：

**必须图解（每个1-2页）：**
- 方法的整体流程/架构（输入→各模块→输出）
- 每个核心创新机制（拆开看内部）
- 最有说服力的那个实验结果

**可选图解（如果方法复杂才加）：**
- 方法的变体/扩展
- 关键的数据处理流程
- 与baseline的可视化对比

**不图解：**
- 相关工作（文字提一句就行）
- 多个类似的消融实验
- 背景知识介绍

### Step 2：给出推荐并确认需求

先输出一个简短推荐，不要立刻生成：

```markdown
我建议生成 6 张：
1. 封面图：论文一句话贡献 + 视觉锚点
2. 方法总览图：解释整体输入、核心模块、输出
3. 核心机制A：拆开最重要的创新点
4. 核心机制B：解释训练/推理/数据流中的关键环节
5. 核心机制C：补足容易误解的内部细节
6. 关键结果图：用一张图说明为什么有效

也可以：
- 只生成 1 张总览图
- 生成 3 张：总览 + 2 张核心机制
- 扩展到 8-10 张，把每个机制讲得更细

请确认：
- 语言：中文 / English / 双语
- 风格：sketchnote / paper-figure
- 范围：只要封面/总览，还是生成全部推荐图？
```

如果用户没有回答，不要继续生成。

### Step 3：确定页数

根据论文复杂度，AI只做**推荐**，最终由用户确认：

| 论文复杂度 | 推荐页数 | 内容分配 |
|-----------|---------|---------|
| 封面/传播图 | 1页 | 一张封面或高层总览，讲清楚论文做了什么 |
| 快速理解 | 2-3页 | 总览+核心机制+结果 |
| 中等（2个核心方法） | 4-6页 | 封面/总览+2-3个机制+关键结果 |
| 复杂（3+个核心方法） | 6-10页 | 封面/总览+每个机制1页+对比/结果 |

**规则**：最少1页，最多10页。宁少勿多——1张总览图讲清楚，比10张讲糊涂好。

### Step 4：为每一页写详细的内容描述

不是"生成prompt"，而是先用自然语言描述清楚**这一页到底要表达什么**：

```
第3页：多头注意力机制的内部构造

这一页要讲清楚：Q、K、V是怎么算出来的，它们之间怎么交互。

画面布局（从左到右）：
- 左侧：输入x，一个向量表示
- 中间上方：三条线分别到三个方框（Linear_Q, Linear_K, Linear_V）
- 三个方框各产出Q、K、V三个矩阵
- 中间核心区域：Q和K做点积→除以√dk→softmax→得到注意力权重
- 权重和V相乘→输出
- 右侧：多个这样的"头"并行排列，最后拼接

关键标注：
- 每个方框旁标运算和维度（如"Linear_Q: x→Q(d×dk)"）
- Q×K^T的计算用可视化的矩阵乘法图（小格图）
- softmax后的权重用颜色深浅表示（越深=越关注）
```

**要求**：描述要具体到"这个箭头从哪到哪，这个方框里写什么字"。

同时检查每页的信息密度：
- 如果只是大标题 + 少量模块，说明这一页太空，必须补充机制小例子、局部放大、输入输出维度或关键对比
- 如果内容超过一页可读范围，拆成两页，不要把所有文字塞进同一张图
- 封面图可以更概念化；机制细节图必须优先讲清楚“怎么做”

### Step 5：生成图片

根据当前运行环境自动选择生图后端。为每一页创建prompt文件 → 用结构化prompt生成。

**结构化prompt格式**（参考但不照抄baoyu）：
```
【类型】流程分解图
【风格】sketchnote
【语言】中文
【主题】多头注意力机制内部构造
【视觉结构】
- 水平布局，从左到右5个区域
- 每个区域用虚线框隔开
- 关键路径用粗箭头连接

【要标注的文字】
1. Input: x ∈ R^(n×d)
2. Q = xW_Q ... (完整标注)
...

【颜色限制】
- 背景：明亮浅米白，不要泛黄旧纸
- 主色：黑色手绘线条
- 强调色：深蓝/珊瑚红/橄榄绿/柔和黄色，少量使用
- 其他：保持清爽手抄报感，避免复古暗色

【禁止】
- 不要代码块
- 不要照片写实
- 不要3D渲染
- 不要生成用户没有确认的额外页面
- 不要旧羊皮纸、暗角、污渍、重纸纹、黄褐色复古调
- 不要大面积空白；主体图解占画面75%-85%
```

### Step 6：输出

生成 `[topic]-illustrated.md`：

```markdown
# [论文标题] — 图解

## 论文信息
- 论文：[链接]
- 风格：sketchnote
- 页数：6

## 封面
![封面](00-cover.png)
**一句话**：[论文做了什么，为什么重要]

## 第1页：方法总览
![方法流程](01-method-overview.png)
**讲解**：整个方法从输入到输出的完整流程。关键看第X步，这是本文的创新。

## 第2页：核心机制A — [名称]
![核心机制A](02-mechanism-a.png)
**讲解**：这个机制解决了XX问题。具体做法是...关键设计在于...

[重复...]

## 总结：3个核心要点
1. [要点1]
2. [要点2]  
3. [要点3]
```

---

## 质量标准

### 好的图解
- ✅ 一张图只看一眼就知道在讲什么
- ✅ 标注文字精确、简练、不啰嗦
- ✅ 流程箭头清晰，有明确的"从这里到那里"
- ✅ 关键部分用颜色/大小做了视觉强调
- ✅ 不看论文原文也能理解

### 差的图解
- ❌ 信息堆砌，什么都想画进去
- ❌ 文字太多，图变成了装饰
- ❌ 流程不清晰，不知道先看哪后看哪
- ❌ 画了但没解释——放了一张架构图但没标注关键点
- ❌ 和论文Figure 1一模一样——那你画的有什么意义

---

## 参考文件

- `references/base-prompt.md` — 图解生成基础规范（结构、文字、色彩要求）
- `references/styles/sketchnote.md` — 温暖科研笔记风
- `references/styles/paper-figure.md` — 论文框架图风
Source

Creator's repository · zsyggg/paper-craft-skills
View on GitHub ↗
Security

Security checks in progress
Results will appear here once audits complete
Checked by 3 independent security firms
Does it try to trick the AI?Not yet checkedPending · Gen Agent Trust Hub
Does it sneak in hidden code?Not yet checkedPending · Socket
Does it have known bugs?Not yet checkedPending · Snyk