手把手教你:用 Gemini 画科研框架图
你是不是也有过这些痛苦瞬间:
论文内容写完了,卡在“Figure 1”…
想画个框架图,结果 Visio / PPT 里线条拉了两小时还丑得不忍直视…
想突出“创新点”,但图画出来跟普通流程图没啥区别…
其实,现在你完全可以把“画图”这件事交给大模型。下面是一份将 Google Gemini 当作“学术美工”的完整上手指南,专门帮你生成科研框架图与流程图。
不是在“画图”,而是在“写画图的说明书”
使用大模型绘图的关键在于精准描述需求。一个完整的科研绘图 Prompt 应包含以下四个部分:
1. 角色与目标
- 说明图像用途(如顶会投稿、期刊发表或课题汇报)
- 定义整体风格要求(如学术、简洁、专业)
2. 核心内容与流程结构
- 列出图中需包含的模块
- 明确排列方式(横向、纵向或分层)
- 描述连接关系及核心模块位置
3. 视觉风格与美学约束
- 规定字体、颜色、线条粗细、圆角、阴影和背景色等细节
- 确保视觉呈现符合高水平学术论文标准
4. 图注(可选)
- 添加一句“Figure 1: ……”形式的说明文字
- 引导读者聚焦关键信息
Prompt 极简框架如下:
[角色与目标]
[说明:描述要生成什么类型的图、用于什么场景、需要达到什么质量标准]
[核心内容与流程图结构]
[说明:详细描述图中包含哪些模块、它们如何排列、如何连接、哪些需要强调]
[视觉风格与美学约束]
[说明:规定字体、颜色、线条、布局等视觉元素的具体要求]
[图注]
[说明:可选,添加图表底部的说明文字]
三步走完:从 0 到 1 生成你的第一张图
操作非常简单,只需三步:
准备 Prompt(按照“四件套”写)
打开 Gemini(https://gemini.google.com),并选择「Create images」
把写好的 Prompt 粘进去,回车生成
若对结果不满意,无需重写,直接用自然语言指令调整,例如:
- “请把核心模块的颜色改为浅蓝色”
- “请增大所有标题字号,并把箭头加粗”
Gemini 会根据中文指令迭代优化图像。
懒人福音:让 Gemini 帮你写 Prompt,再用 Prompt 画图
1. 把你的研究框架“用自然语言”告诉 Gemini
以 EvolveSearch 框架为例,在第一步只需清晰描述:
- 系统名称
- 核心模块(基础模型、SFT 模块、RL 模块、数据过滤模块、数据池等)
- 模块间连接方式(数据流转路径、闭环结构)
- 需强调的创新点(如“零人工标注”“SFT+RL 协同”)
- 适用领域或会议类型(NLP 顶会、AI/ML 顶会等)
然后提示 Gemini:“请根据以下需求,为我生成一个科研绘图的完整 Prompt,并包含:角色与目标、核心内容与流程图结构、视觉风格与美学约束、图注。”
2. 复制 Prompt,再开一个新对话生成图片
- 在新对话中粘贴由 Gemini 生成的 Prompt
- 切换至“绘图模式”,即可输出符合要求的架构图
3. 看图挑毛病,再用自然语言微调
例如,初版图可能缺少最终输出模块(Output),仅显示循环过程而未标明成果。解决方法是补充指令:
“请在最右侧补充最终输出模块,包含:
– 经过训练得到的 RL Model
– 最终累积的数据(高质量过滤后的数据池)。”
Gemini 将自动完善图像,使整个闭环逻辑更完整:从原始数据 → SFT → RL → 过滤 → 新数据 → 再训练 → 最终模型 & 数据。
让图看起来“很专业”的几个小 Tips
- 颜色要“稳”,不要炫:采用低饱和度蓝、绿、紫、橙;背景保持纯白或极浅灰;全图配色控制在 3–5 种以内。
- 线条、圆角、阴影要统一:主模块线宽建议 3px,子模块可设为 2px;统一圆角大小(如 10px);为核心模块添加轻微阴影以突出重点。
- 字体层次要清晰:模块标题使用稍大字号并加粗;说明文字用常规字号;参数信息推荐使用等宽字体以便识别。
- 用“虚线框”和“高亮边框”标出贡献点:对融合核心、奖励机制、过滤策略等创新模块进行视觉强化,使其在图中脱颖而出。
- 记得画 Output!:对于迭代或闭环系统,务必在右侧或下方标明最终输出项,如最终模型、预测结果或构建的数据集。
用三个具体场景,快速掌握科研绘图的套路
1. 场景一:入门级——横向数据处理流程图
适用于展示“从原始数据到模型训练”的线性流程。
结构设计:
- 从左至右设置 4 个矩形框:数据输入 → 数据清洗 → 特征提取 → 模型训练
- 使用实线箭头依次连接
- 背景为纯白,框体为白底深灰边,箭头为黑色实线
- 字体选用无衬线体(如 Arial),确保标签清晰可读
完整 Prompt 示例:
[角色与目标]
生成一个简洁的学术流程图,展示数据处理的基本流程。图像应符合学术论文的专业规范,简洁清晰。
[核心内容与流程图结构]
从左到右包含 4 个主要步骤:
1. **数据输入** (Data Input) - 最左侧矩形框
2. **数据清洗** (Data Cleaning) - 第二个矩形框
3. **特征提取** (Feature Extraction) - 第三个矩形框
4. **模型训练** (Model Training) - 最右侧矩形框
用实线箭头从左到右依次连接这 4 个模块。
[视觉风格与美学约束]
- 风格:简洁学术流程图,清晰线条
- 字体:无衬线字体,标签清晰
- 布局:水平排列,间距均匀
- 方框:矩形框,白色填充,深灰色边框
- 箭头:黑色实线箭头
- 背景:纯白色
[图注]
图 1:数据处理基本流程。系统依次完成数据输入、清洗、特征提取和模型训练。
此类图像的核心价值在于让审稿人快速理解 pipeline 结构,突出步骤顺序而非视觉复杂度。
2. 场景二:进阶级——多模态神经网络架构图
适合 NeurIPS、CVPR 等顶会投稿,体现技术深度与专业性。
典型五层结构:
- 多模态输入层(顶部):文本、RGB 图像、音频波形、深度图等,每种模态用圆角矩形加小图标表示,颜色采用柔和浅灰渐变。
- 特征编码器层:对应各模态配置编码器(如 BERT、ViT、Wav2Vec、ResNet),内部可用小矩形表示多层结构。
- 特征对齐与投影层:横跨全图的矩形框标注“Linear Projection + Layer Normalization”,外加虚线框注明“Feature Alignment Module”。
- 跨模态融合核心层:作为创新点区域,用深色虚线框加粗边框圈出,内含多头自注意力、跨模态注意力与前馈网络,辅以残差连接(弧形虚线箭头)。
- 任务特定输出层(底部):分类头、生成解码器、检索模块等水平排布,颜色按功能区分(如分类用蓝、生成用绿)。
可在右侧添加参数信息小面板,列明总参数量、FLOPs、训练数据量等,提升信息密度与专业感。
3. 场景三:进阶级——强化学习智能体-环境闭环图
适用于 RL 论文、智能体框架或控制系统设计。
设计要点:
- 左右对称布局:
- 左侧为智能体(Agent),内含感知层(CNN + LSTM)、决策层(策略网络 π(a|s) + 价值网络 V(s))、学习层(经验回放缓冲区)、优化层(Adam 等)
- 右侧为环境(Environment),包含状态空间、动力学模型、奖励函数、终止条件
- 中间三股“流”形成闭环:
- 动作流 a_t:Agent → Environment
- 下一状态 s_{t+1}:Environment → Agent
- 奖励 r_t:从环境奖励模块返回至 Agent 的经验回放
- 三条弧形箭头围绕中心形成“8 字形”闭环,增强视觉流动感。
- 色彩策略:智能体使用蓝色系(象征智能决策),环境使用绿色系(象征自然生态)
- 附加信息区:顶部标注“Gradient Update”表示梯度更新循环;底部用虚线框整体圈出训练过程。
现在就可以动手试一张
如果你正在撰写以下类型的研究:
- 深度学习模型架构
- 数据处理流程
- 强化学习 / 多智能体系统
- 自进化 Agent 或搜索框架
不妨立即尝试:
- 用中文写下你的研究框架
- 让 Gemini 帮你生成科研绘图 Prompt
- 复制 Prompt 至新对话并生成图像
- 根据需要进行自然语言微调
也许一晚时间,你就能完成过去需耗时数天的手工绘图工作,且效果更为专业。
作者信息:
刘浩宇
中国人民大学信息学院
数智赋能DEMI实验室博士生

