大数跨境
0
0

让科研人不再熬夜秃头!一键Get神仙项目主页!

让科研人不再熬夜秃头!一键Get神仙项目主页! 极市平台
2025-10-28
2
↑ 点击蓝字 关注极市平台
作者丨马千里
编辑丨极市平台

极市导读

 

AutoPage 多智能体协作把论文 PDF 一键变交互主页:15 分钟、0.1 美元生成结构-图表-文案-排版俱全的网站,支持自然语言微调,代码与 Hugging Face Demo 已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿

每年,AI 领域有数以万计的论文涌现,但大多数研究者都会遇到同一个问题:如何让我的工作脱颖而出?

一份精美的项目主页,往往是论文“出圈”的第一步。它不仅是成果展示的窗口,更是吸引合作、获得引用的重要渠道。然而,从论文PDF 到交互式网页,这其中充满了重复、琐碎和低效的工作:筛选模版,从论文中挑选文字、复制粘贴、贴图排版、写 HTML, CSS……足以让科研人头秃。

为了破解这一难题,研究者们提出了 AutoPage,一个将学术论文一键转化为高质量、交互式项目主页的多智能体协作框架。它就像一个专业团队一样,自动解析论文、生成内容、设计排版,让学术论文网页自动化,快速,低成本的生成。

论文题目:

Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1

论文地址:https://arxiv.org/abs/2510.19600

代码:https://github.com/AutoLab-SAI-SJTU/AutoPage

Huggingface Paper: https://huggingface.co/papers/2510.19600

Huggingface Space: https://huggingface.co/spaces/Mqleet/AutoPage

01 效果展示

只需输入论文 PDF,AutoPage 就能在 15 分钟内自动生成一份结构清晰、图文丰富、可交互的研究主页:

  • 自动解析章节结构与图表信息

  • 智能生成叙事文本与模块化内容块

  • 自动调整图像大小和排版

  • 一键渲染出支持动态交互的网页结构

示例项目主页实拍:

这些页面不仅忠实呈现了论文的核心思想,还能根据用户指令快速微调样式、调整内容结构,让研究者无需写一行代码,就能拥有一份足以出现在顶会主页的“在线论文名片”。

02 方法介绍:三步协作,让 AI 像团队一样工作

用传统的大模型端到端生成常常导致页面结构混乱、内容失真。AutoPage 的创新在于它把复杂任务拆解为一条“从粗到精”的协作管线,由多智能体分工协作、层层递进完成生成任务:

2.1 叙事规划与结构设计(Narrative Planning & Structuring)

“规划师”智能体首先深度解析 PDF,将文本、图表、表格等信息解构为可用素材,并重新组织为网页友好的叙事蓝图,确保逻辑清晰、结构合理。

2.2 多模态内容生成(Multimodal Content Generation)

“内容生成器”智能体撰写精炼的版块文案,并智能选择最契合的图表进行嵌入;“核查员”智能体则逐句比对,确保内容精准忠实于原文。

2.3 交互式页面渲染(Interactive Page Rendering)

“渲染工程师”根据叙事蓝图和用户偏好,自动生成网页内容和风格文件,实现交互性布局和模块化组件,并支持自然语言指令进行微调。

在整个流程中,AutoPage 还设置了多个“人工校验点”,让你可以随时人工介入修改结构或调整风格,就像和一个真实的网页设计团队协作一样自然。

03 实验效果:内容、视觉与效率全面领先(放结果对比图)

我们收集了超过1500个学术主页作为模版提供用户任意选取使用,并且通过聚类挑选了接近100个风格差异较大的模版构建评测基准 PageBench 。自此基础上,我们系统评估了 本文提出的AutoPage 的表现,结果表明:

  • 速度优势:端到端生成的时间少于15分钟,相比传统手工制作的方式的大幅减少时间开销

  • 成本低廉:生成一个完整项目主页成本 < $0.1(不到1元人民币)

  • 质量优秀:在内容保真度、视觉美感、布局合理性等指标上,AutoPage 显著优于 GPT-4o-mini 和 Gemini-2.5-Flash 等模型

  • 用户更偏爱:真实用户盲评得分最高,被认为“内容更连贯、视觉更吸睛”

03 总结:让学术论文自己动起来

AutoPage 的使命,是让每一篇论文都能“自己长出”一个项目主页。它不仅是一个工具,更是研究者的协作伙伴,让科研成果的传播从此不再是负担,而成为成果价值放大的重要一环。

所有代码已开源,hugging face上可以直接上传论文pdf适用。我们的算法不是针对某个大模型调参,我们适配了多种模型,你可以自由的选择使用qwen的api,还是gemini或者gpt的api。我们自己的经验是使用gemini2.5 flash的性价比最高,可以参考

欢迎试用~

如果觉得工作对您有帮助,欢迎在HuggingFace上帮我们点个赞


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k