大数跨境
0
0

0.002美元撬动顶级研究力,开源AI助手匹敌OpenAI商用系统

0.002美元撬动顶级研究力,开源AI助手匹敌OpenAI商用系统 DeepTech深科技
2025-12-31
2
导读:近日,美国华盛顿大学博士生邵如琳和合作团队打造出一个名为 Deep Research Tulu(DR Tulu)的深度研究小助手。

Deep Research Tulu:低成本高可信度AI科研助手面世

美国华盛顿大学博士生邵如琳与合作团队研发出新型AI科研助手Deep Research Tulu(DR Tulu)。单次调用OpenAI Deep Research服务成本约1.8美元,而DR Tulu仅需不足0.002美元,成本降低超99.9%,显著提升个人及小团队获取高质量AI研究服务的可行性。

具备主动研究能力的AI助手

DR Tulu并非简单返回网页链接,而是模拟真实研究员行为:先分析问题本质,再主动检索网页、学术论文等多源资料,最终生成逻辑清晰、论据充分、附带详细出处的长篇答案。

(来源:资料图)

性能对标商用顶级系统

DR Tulu在多项公开深度研究基准测试中达到当前最优水平(SOTA),表现匹敌甚至超越OpenAI Deep Research、Google Gemini Pro + Search等闭源商用系统。其优势在于“小模型+好方法”路径验证了高效架构与先进训练范式的协同价值。

可信机制:减少幻觉,强化可验证性

该模型主动承认知识边界,通过实时检索与交叉验证降低事实性错误(幻觉);所有回答均附带详尽文献依据,支持用户追溯核实。该能力源于创新性协同进化训练框架——AI推理模型与评估器在训练中同步迭代、相互提升。

图 | 邵如琳(来源:邵如琳)

两阶段训练:模仿学习+动态进化评估

第一阶段为“名师引导”:研究人员以GPT-5等高性能AI为教师,记录其解答数千问题的完整思维链(含搜索策略、信息整合逻辑等),形成DR Tulu的基础学习范本。

第二阶段为“实战进化”:采用带进化评分标准的强化学习方法。评估AI不依赖静态打分表,而是根据DR Tulu当前生成的多版本答案,动态识别新优缺点并更新评分维度,确保标准始终贴合模型真实能力与最新实证知识。

(来源:资料图)

跨领域泛化能力获实证

在涵盖学术、医疗等四类深度研究基准测试中,DR Tulu性能与OpenAI Deep Research相当,成本仅为千分之一。针对医学遗传学难题——致病基因变异分析,团队构建47题专业数据集。DR Tulu虽在最终结论准确率上略逊于最强商用大模型,但在证据检索完整性、组织逻辑性及引文可追溯性方面表现突出,更契合专业用户对可验证性的核心需求。

(来源:资料图)

全栈开源,推动AI科研民主化

项目已实现完全开源,包括训练代码、数据集、模型权重等全部资源均已公开发布。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 4867
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读28.0k
粉丝0
内容4.9k