不用学 PS，也能画出 NeurIPS 级论文图：手把手教你用 Gemini 做科研绘图



不用学 PS，也能画出 NeurIPS 级论文图：手把手教你用 Gemini 做科研绘图

RUC电子商务创新创业案例

2025-12-02

导读：把 Gemini 当成“学术美工”，用几段精心设计的 Prompt，就能自动生成顶会风格的框架图，让审稿人一眼看懂你的创新点，把画图时间省下来做更重要的研究。

手把手教你：用 Gemini 画科研框架图

你是不是也有过这些痛苦瞬间：

论文内容写完了，卡在“Figure 1”…
想画个框架图，结果 Visio / PPT 里线条拉了两小时还丑得不忍直视…
想突出“创新点”，但图画出来跟普通流程图没啥区别…

其实，现在你完全可以把“画图”这件事交给大模型。下面是一份将 Google Gemini 当作“学术美工”的完整上手指南，专门帮你生成科研框架图与流程图。

不是在“画图”，而是在“写画图的说明书”

使用大模型绘图的关键在于精准描述需求。一个完整的科研绘图 Prompt 应包含以下四个部分：

1. 角色与目标

说明图像用途（如顶会投稿、期刊发表或课题汇报）
定义整体风格要求（如学术、简洁、专业）

2. 核心内容与流程结构

列出图中需包含的模块
明确排列方式（横向、纵向或分层）
描述连接关系及核心模块位置

3. 视觉风格与美学约束

规定字体、颜色、线条粗细、圆角、阴影和背景色等细节
确保视觉呈现符合高水平学术论文标准

4. 图注（可选）

添加一句“Figure 1: ……”形式的说明文字
引导读者聚焦关键信息

Prompt 极简框架如下：

[角色与目标]
[说明：描述要生成什么类型的图、用于什么场景、需要达到什么质量标准]

[核心内容与流程图结构]
[说明：详细描述图中包含哪些模块、它们如何排列、如何连接、哪些需要强调]

[视觉风格与美学约束]
[说明：规定字体、颜色、线条、布局等视觉元素的具体要求]

[图注]
[说明：可选，添加图表底部的说明文字]

三步走完：从 0 到 1 生成你的第一张图

操作非常简单，只需三步：

准备 Prompt（按照“四件套”写）
打开 Gemini（https://gemini.google.com），并选择「Create images」
把写好的 Prompt 粘进去，回车生成

若对结果不满意，无需重写，直接用自然语言指令调整，例如：

“请把核心模块的颜色改为浅蓝色”
“请增大所有标题字号，并把箭头加粗”

Gemini 会根据中文指令迭代优化图像。

懒人福音：让 Gemini 帮你写 Prompt，再用 Prompt 画图

1. 把你的研究框架“用自然语言”告诉 Gemini

以 EvolveSearch 框架为例，在第一步只需清晰描述：

系统名称
核心模块（基础模型、SFT 模块、RL 模块、数据过滤模块、数据池等）
模块间连接方式（数据流转路径、闭环结构）
需强调的创新点（如“零人工标注”“SFT+RL 协同”）
适用领域或会议类型（NLP 顶会、AI/ML 顶会等）

然后提示 Gemini：“请根据以下需求，为我生成一个科研绘图的完整 Prompt，并包含：角色与目标、核心内容与流程图结构、视觉风格与美学约束、图注。”

2. 复制 Prompt，再开一个新对话生成图片

在新对话中粘贴由 Gemini 生成的 Prompt
切换至“绘图模式”，即可输出符合要求的架构图

3. 看图挑毛病，再用自然语言微调

例如，初版图可能缺少最终输出模块（Output），仅显示循环过程而未标明成果。解决方法是补充指令：

“请在最右侧补充最终输出模块，包含：
– 经过训练得到的 RL Model
– 最终累积的数据（高质量过滤后的数据池）。”

Gemini 将自动完善图像，使整个闭环逻辑更完整：从原始数据 → SFT → RL → 过滤 → 新数据 → 再训练 → 最终模型 & 数据。

让图看起来“很专业”的几个小 Tips

颜色要“稳”，不要炫：采用低饱和度蓝、绿、紫、橙；背景保持纯白或极浅灰；全图配色控制在 3–5 种以内。
线条、圆角、阴影要统一：主模块线宽建议 3px，子模块可设为 2px；统一圆角大小（如 10px）；为核心模块添加轻微阴影以突出重点。
字体层次要清晰：模块标题使用稍大字号并加粗；说明文字用常规字号；参数信息推荐使用等宽字体以便识别。
用“虚线框”和“高亮边框”标出贡献点：对融合核心、奖励机制、过滤策略等创新模块进行视觉强化，使其在图中脱颖而出。
记得画 Output！：对于迭代或闭环系统，务必在右侧或下方标明最终输出项，如最终模型、预测结果或构建的数据集。

用三个具体场景，快速掌握科研绘图的套路

1. 场景一：入门级——横向数据处理流程图

适用于展示“从原始数据到模型训练”的线性流程。

结构设计：

从左至右设置 4 个矩形框：数据输入 → 数据清洗 → 特征提取 → 模型训练
使用实线箭头依次连接
背景为纯白，框体为白底深灰边，箭头为黑色实线
字体选用无衬线体（如 Arial），确保标签清晰可读

完整 Prompt 示例：

[角色与目标]
生成一个简洁的学术流程图，展示数据处理的基本流程。图像应符合学术论文的专业规范，简洁清晰。

[核心内容与流程图结构]
从左到右包含 4 个主要步骤：
1. **数据输入** (Data Input) - 最左侧矩形框
2. **数据清洗** (Data Cleaning) - 第二个矩形框
3. **特征提取** (Feature Extraction) - 第三个矩形框
4. **模型训练** (Model Training) - 最右侧矩形框
用实线箭头从左到右依次连接这 4 个模块。

[视觉风格与美学约束]
- 风格：简洁学术流程图，清晰线条
- 字体：无衬线字体，标签清晰
- 布局：水平排列，间距均匀
- 方框：矩形框，白色填充，深灰色边框
- 箭头：黑色实线箭头
- 背景：纯白色

[图注]
图 1：数据处理基本流程。系统依次完成数据输入、清洗、特征提取和模型训练。

此类图像的核心价值在于让审稿人快速理解 pipeline 结构，突出步骤顺序而非视觉复杂度。

2. 场景二：进阶级——多模态神经网络架构图

适合 NeurIPS、CVPR 等顶会投稿，体现技术深度与专业性。

典型五层结构：

多模态输入层（顶部）：文本、RGB 图像、音频波形、深度图等，每种模态用圆角矩形加小图标表示，颜色采用柔和浅灰渐变。
特征编码器层：对应各模态配置编码器（如 BERT、ViT、Wav2Vec、ResNet），内部可用小矩形表示多层结构。
特征对齐与投影层：横跨全图的矩形框标注“Linear Projection + Layer Normalization”，外加虚线框注明“Feature Alignment Module”。
跨模态融合核心层：作为创新点区域，用深色虚线框加粗边框圈出，内含多头自注意力、跨模态注意力与前馈网络，辅以残差连接（弧形虚线箭头）。
任务特定输出层（底部）：分类头、生成解码器、检索模块等水平排布，颜色按功能区分（如分类用蓝、生成用绿）。

可在右侧添加参数信息小面板，列明总参数量、FLOPs、训练数据量等，提升信息密度与专业感。

3. 场景三：进阶级——强化学习智能体-环境闭环图

适用于 RL 论文、智能体框架或控制系统设计。

设计要点：

左右对称布局：
- 左侧为智能体（Agent），内含感知层（CNN + LSTM）、决策层（策略网络 π(a|s) + 价值网络 V(s)）、学习层（经验回放缓冲区）、优化层（Adam 等）
- 右侧为环境（Environment），包含状态空间、动力学模型、奖励函数、终止条件
中间三股“流”形成闭环：
- 动作流 a_t：Agent → Environment
- 下一状态 s_{t+1}：Environment → Agent
- 奖励 r_t：从环境奖励模块返回至 Agent 的经验回放
三条弧形箭头围绕中心形成“8 字形”闭环，增强视觉流动感。
色彩策略：智能体使用蓝色系（象征智能决策），环境使用绿色系（象征自然生态）
附加信息区：顶部标注“Gradient Update”表示梯度更新循环；底部用虚线框整体圈出训练过程。