大家好,我是白祚,财跃星辰的CTO,很高兴可以在这里跟大家交流。
AI小财神Pro这个产品想必大家并不陌生,他可以帮助大家快速处理金融深度研究的复杂任务,像一个专业的金融分析师一样帮助大家解决各类问题,自从产品上线以来,受到了大家的广泛好评。
比起继续介绍小财神Pro的各项能力,我今天更想跟大家分享的是小财神Pro背后,由财跃星辰自主搭建的FinResearchBench,正是这个金融研究智能体框架,让AI小财神Pro的能力得到了显著的提升
我们知道,近年来,AI智能体发展迅速,正被广泛应用于金融、STEM(科学、技术、工程和数学)、软件开发等专业研究领域
在这些智能体中,“深度研究智能体”(deep research agent)是一个关键类别,因为它们可以执行长周期任务并解决更复杂的问题。
我们在研发AI小财神Pro的过程中,发现了2个问题
1.缺乏有效的评估工具: 尽管AI智能体用途广泛,但目前市场上缺少能够系统性、自动化地评估这些深度研究智能体能力的框架和基准 。
2.金融领域有一定特殊性:现有的评估基准大多是通用的,而金融研究问题具有独特的复杂性和精妙性(例如,特定的术语、逻辑和领域洞察),这使得通用评估方法难以胜任。
你还记得 2007 年第一款 iPhone 刚出来的时候吗?当时市面上只有功能机 —— 大家评判手机的标准很明确,无非是‘打电话清不清晰’‘待机时间长不长’‘按键好不好按’
但iPhone 突然带来了触摸屏、APP 商店、能上网看视频的新形态,它既不是传统功能机,也不是电脑,整个行业根本没有一套现成的标准来评价它:你没法用‘按键好不好按’来衡量它,也没法用‘待机时间’来定义它的价值。
既然没有裁判,那我们就来造一个裁判吧!
为了解决上述问题,提出一个专门针对金融研究智能体的评估框架,我们做了2个核心的动作:
1.创新的“逻辑树”评估法:
我们首创了一个基于“逻辑树”(logic tree)的“智能体充当评判者”(Agent-as-a-Judge) 系统 。
它不像传统方法那样直接评估最终报告,而是首先从智能体生成的研究报告中提取出底层的逻辑结构(即“逻辑树”),这个结构包含了核心论点、子论点和支持证据 。
然后,该框架利用这个提取出来的“逻辑树”作为中间信息,来对报告进行更全面、可靠和稳健的自动化评估。
这个评估过程结合了基于“逻辑树”形态的规则指标(如分析宽度、分析深度、信息密度 )LLM评估(如逻辑一致性、清晰度、专业性 )。
2.专注金融垂直领域
这是一个“金融导向”的框架,专门为评估金融研究智能体而设计。
为了确保评估的实用性和覆盖面,我们构建了一个包含70个典型金融研究问题的数据集。
这些问题覆盖了金融领域中7种最常见的任务类型 ,例如“特定股票分析”(Stock-Specific Analysis)、“行业分析”(Sector Analysis) 和“事件分析”(Event Analysis) 等
我们和近百位券商等金融机构资深从业者进行了数十场调研,访谈,以确保我们最终的评测框架是基于真正的金融研究工作中产生的,而不是我们的空想。
与其说我们帮AI小财神Pro 造了一个裁判,不如说是一个“金融专业的资深教练”
FinResearchBench的专业性和创新性,也得到了行业内权威机构的认可,我们的论文已被2025年第六届ACM人工智能金融国际会议 (ICAIF '25) 正式接收,并且,这项研究成果在会议上,作为案例进行了展示
ICAIF 是全球范围内AI和金融这个交叉领域重要的学术和行业会议,被收录的论文需要经过严格双盲同行评审 (Double-blind Peer Review),
这意味着提交的论文必须经过多位(通常是三位或更多)该领域的匿名专家评审,只有高质量、具有创新性的研究才能被录用。
从发现金融AI 深度研究 “无标可依” 的痛点,到走访近百位金融从业者挖掘真实需求,再到首创 “逻辑树” 评估法、构建 70 个典型问题数据集 ——FinResearchBench 的每一步,其实都是财跃星辰在金融 AI 赛道上 “啃硬骨头” 的过程。
我们深知,金融领域的智能研究从不是简单的技术堆砌,它要贴合行业的精妙逻辑,要经得起真实业务的检验,更要突破 “通用框架难适配”“评估标准模糊” 的行业共性难题。
如今,FinResearchBench 获 ICAIF 收录,是认可,更是新的起点。未来在金融 AI 的探索之路上,还会有更多技术壁垒、场景适配的挑战等着我们。
但财跃星辰不会停下脚步 —— 我们会继续以 “解决行业真问题” 为初心,在复杂的金融逻辑与前沿的 AI 技术之间搭建桥梁,持续攻克难题。
逢山开路遇水搭桥,财跃的金融AI探索之路,也想邀请各位一同加入!
以下为完整的论文链接
https://arxiv.org/pdf/2507.16248

