Deep Research Tulu:低成本高可信度AI科研助手面世
美国华盛顿大学博士生邵如琳与合作团队研发出新型AI科研助手Deep Research Tulu(DR Tulu)。单次调用OpenAI Deep Research服务成本约1.8美元,而DR Tulu仅需不足0.002美元,成本降低超99.9%,显著提升个人及小团队获取高质量AI研究服务的可行性。
具备主动研究能力的AI助手
DR Tulu并非简单返回网页链接,而是模拟真实研究员行为:先分析问题本质,再主动检索网页、学术论文等多源资料,最终生成逻辑清晰、论据充分、附带详细出处的长篇答案。
(来源:资料图)
性能对标商用顶级系统
DR Tulu在多项公开深度研究基准测试中达到当前最优水平(SOTA),表现匹敌甚至超越OpenAI Deep Research、Google Gemini Pro + Search等闭源商用系统。其优势在于“小模型+好方法”路径验证了高效架构与先进训练范式的协同价值。
可信机制:减少幻觉,强化可验证性
该模型主动承认知识边界,通过实时检索与交叉验证降低事实性错误(幻觉);所有回答均附带详尽文献依据,支持用户追溯核实。该能力源于创新性协同进化训练框架——AI推理模型与评估器在训练中同步迭代、相互提升。
图 | 邵如琳(来源:邵如琳)
两阶段训练:模仿学习+动态进化评估
第一阶段为“名师引导”:研究人员以GPT-5等高性能AI为教师,记录其解答数千问题的完整思维链(含搜索策略、信息整合逻辑等),形成DR Tulu的基础学习范本。
第二阶段为“实战进化”:采用带进化评分标准的强化学习方法。评估AI不依赖静态打分表,而是根据DR Tulu当前生成的多版本答案,动态识别新优缺点并更新评分维度,确保标准始终贴合模型真实能力与最新实证知识。
(来源:资料图)
跨领域泛化能力获实证
在涵盖学术、医疗等四类深度研究基准测试中,DR Tulu性能与OpenAI Deep Research相当,成本仅为千分之一。针对医学遗传学难题——致病基因变异分析,团队构建47题专业数据集。DR Tulu虽在最终结论准确率上略逊于最强商用大模型,但在证据检索完整性、组织逻辑性及引文可追溯性方面表现突出,更契合专业用户对可验证性的核心需求。
(来源:资料图)
全栈开源,推动AI科研民主化
项目已实现完全开源,包括训练代码、数据集、模型权重等全部资源均已公开发布。

