——Asimov Press 中国团队
Bryan Duoto 是纳米工程博士生,2021 年加入加州大学圣地亚哥分校的 Steinmetz Lab。在此之前,他曾在 Juno Therapeutics 担任细胞治疗 Breyanzi 的技术开发工程师。他在圣何塞州立大学与斯坦福大学联合项目中获得细胞、分子与微生物学硕士学位,并研究皮肤纤维化的小分子与细胞疗法。Bryan 还曾在 Buck Institute for Research on Aging 参与研究 mTOR 通路与寿命的关系。业余时间,他喜欢运动、DIY 项目、阅读和木工。

旧金山 FutureHouse 总部外景。
在旧金山 Dogpatch 区的一座工业风建筑内,一只乌鸦展翅飞翔。这只擅长使用工具的鸦科鸟类( tool-using corvid ),正是 FutureHouse 的吉祥物。这家非营利机构致力于利用人工智能( AI )自动化科学发现——让 AI 代理生成假设、整合现有研究成果,甚至提出实验建议 ( a nonprofit determined to automate scientific discovery using AI agents that can generate hypotheses, connect existing findings, and even suggest experiments )。
自两年前成立以来,FutureHouse 逐步推出了一系列以“乌鸦”(Crow)为主题的研究工具:
• ChemCrow:帮助设计并执行化学反应;
• WikiCrow:通过分析成千上万篇论文,为人类蛋白质编写百科全书式的摘要,包括其结构与已知功能;
• ContraCrow:筛查学术文献,找出其中的矛盾性论述;
• PaperQA 及其升级版 PaperQA2:让用户查询 PDF 文件,并获取无“幻觉”误导信息的可靠答案( glean reliable answers without “hallucinated” misinformation );
• LAB-Bench:一套基准测试程序集,用于评估这些 AI 代理在现实生物学任务中的表现;
• Aviary:一款专门设计的软件,旨在让语言模型拥有与人类研究者相同的工具访问权限。它使开源大语言模型( LLMs )能够在两项实验基准任务( 科学文献研究和 DNA 结构推理 )上超越人类水平,并且仅需较低的计算资源。
图片来源:futurehouse.org
尽管这些工具各有侧重,它们都遵循一个核心理念:让 AI 系统能够阅读并推理生物数据,以加速科学发现 ( letting an AI system read and reason about biological data to accelerate discoveries )。
FutureHouse 专注于科学文献并非偶然。其首席执行官 Sam Rodriques 长期以来对学术出版现状深感不满,他曾写道:“生物医学文献规模庞大,却面临三大问题:无法被有效地归纳进教材、内容存在误导性,以及遗漏重要信息( the biomedical literature is vast and suffers from three problems: it does not lend itself to summarization in textbooks; it is unreliable by commission; and it is unreliable by omission )。”许多科学家对此深有同感。
早在 2015 年,艾伦人工智能研究所( Allen Institute for AI )就推出了 Semantic Scholar,成为最早利用机器学习( 而非单纯引用次数 )来评估研究相关性的学术平台之一。2023 年秋季上线的 Elicit,凭借口碑迅速吸引了 20 万用户,它承诺提供“一键式文献综述( one-click literature review )”,在受控测试中,其筛选论文的时间比传统方法缩短了一半。此外,OpenAI 的 “Deep Research” 现已提供自动化服务,涵盖从期刊文章摘要到实验设计生成等任务。
虽然这些工具让生物学知识的获取变得更为便捷,但 FutureHouse 的目标更为远大。该团队不仅希望简化科学文献的使用方式( streamline access to the scientific literature ),还希望从中挖掘尚未被探索的研究方向( mine it for untapped research directions ),即“未知的未知”( unknown unknowns ),从而促成突破性发现。他们的十年使命是打造半自主 AI 科学家( semi-autonomous AIs for science )——从探索基因变异的预测模型,到未来可能独立开展整个实验的人形机器人( humanoid robots )。
为了深入了解 FutureHouse 的愿景,我们采访了两位联合创始人 Sam Rodriques 和 Andrew White。
>登录 press.asimov.com 输入邮箱成为订阅会员<
FutureHouse 的两位联合创始人:Andrew White 和 Sam Rodriques。
Q1
你们的很多工具名称都与乌鸦有关,这是为什么?
Andrew White:
2022 年 10 月,我刚开始涉足这一领域时,正在对 GPT-4 进行红队测试( red-teaming )。当时,一篇名为《语言模型是随机鹦鹉》( Language Models are Stochastic Parrots )的论文广为流传,围绕这些模型究竟是在机械复述训练数据( regurgitating their training data ),还是在真正进行推理( truly reasoning )的讨论也愈演愈烈。这个比喻确实很形象,毕竟鹦鹉以模仿人类语言闻名。但我们发现,一旦让这些语言模型与外部工具结合,它们的准确性就大幅提升——这就像乌鸦能够利用工具解开难题一样。
以 ChemCrow 为例,在相关研究中(注1),我们发现,如果让大型语言模型( LLM )访问计算器或化学软件,它的解答质量会显著提高。因此,我们后来“反向补充设定”( retconned )了“乌鸦”这一概念,将其定义为“能够使用自然语言与工具交互的 AI 代理”( agents that can interact with tools using natural language )。
Q2
FutureHouse 已成立两年多。最初在打造 AI 科学家的过程中,你们觉得哪些任务会很简单?哪些问题又出乎意料地难以解决?
Sam Rodriques:
在构思“AI 科学家”这一想法时——那是在 ChatGPT 于 2022 年 9 月推出之前不久——我首先考虑的是哪些任务对人类来说容易,而哪些任务对 AI 模型来说更简单。一个很好的例子是翻转汉堡( flipping burgers ):这种任务对人类来说相对简单,但对机器人而言却极其困难。相比之下,解数学证明似乎更容易被 AI 模型掌握,而对人类来说却更具挑战。
从实际操作的角度来看,我们遇到的一大难题是如何构建这些 AI 代理所需的基础设施,并为它们提供数据和各种网络资源的访问权限( one thing we found difficult was creating the infrastructure for these agents and getting them access to data and various web sources )。与此同时,我们和许多人一样感到惊讶的是,这些模型在认知工作( cognitive work )上的表现出乎意料地强大——它们在假设生成( hypothesis generation )和推理分析( drawing conclusions )方面极为出色。
Andrew White:
起初,我以为大多数事情都会很难。但事实证明,最难的部分其实和 AI 本身无关,而是工程和产品化的过程( engineering and production work ),这些比我们预想的要复杂得多。从一个在 Jupyter Notebook( 用于编写 Python 代码的工具 )中的演示程序,到真正能大规模运行的系统,这中间的工作量非常庞大。
2023 年 1 月,PaperQA 的表现已经相当不错,但与人类相比得分仍然不理想——当时模型的能力仅为人类的一半左右。然而,当我们改进了解析能力( added better parsing ),并开发工具以更好地检索开放获取论文( open-access papers )后,PaperQA 的性能几乎翻倍,而且这一提升并非算法本身的突破,而只是优化了基础工程架构。这项改进整整花了一年时间。
打造 WikiCrow 也面临巨大工程挑战。我们的目标是为人类基因组中的每个蛋白编码基因编写一篇 Wikipedia 文章,总共需要撰写 20000 篇文章,而每篇文章都依赖五次 PaperQA 查询,也就是说,整个系统总共需要运行 100000 次查询。如何让这一流程在合理的时间内完成,成了我们面临的最艰巨的任务之一。
Q3
还需要哪些数据来完善 AI 代理?
Sam Rodriques:
数据无疑是当前的一大限制因素。我们需要更多、更优质的数据,尤其是关于人类如何进行科学研究的数据,包括记录人们实际讨论科学问题的方式( We need both better and more data on how humans do science, including recordings of how people actually talk about it )。而这一类数据目前几乎是空白的,但如果想要构建具备人类前沿水平的 AI 科学家( a human-level AI scientist ),它们至关重要。
FutureHouse 总部内的实验室。
Q4
如何确保你们构建的 AI 代理提供的信息是可靠的?毕竟,一个说话足够权威的人,即使在知识上存在漏洞,也有可能让专家信服。
Sam Rodriques:
这是个很好的问题。这和人与人之间的交流很相似——当一个人告诉你该做什么,并且听起来非常权威时,作为科学家,你仍然需要思考并验证它是否正确。如果有人盲目相信 AI 模型的结论,而不加以思考,他们很可能也是那些不会质疑他人观点的人。在合适的情况下,保持批判性和怀疑态度是非常重要的( People need to be critical and skeptical when it makes sense to )。
我对 AI 科学家在提高科研的复现性方面的作用持乐观态度( I’m optimistic that an AI scientist will help with reproducibility overall )。你是否真正进行了实验?你是否完整记录了所有变量,并且能够准确报告实验细节?显然,如果有人捏造实验数据,无论是人还是 AI 都很难检测出来。
但另一种更常见的复现性问题,是数据本身没有问题,但由于分析方式不当,导致错误的结论。例如:
假设你对数据进行了 20 次分析,直到发现一个 p 值小于 0.05 的结果。这种情况正是我们构建的 AI 代理能发挥作用的地方。你可以对 AI 代理说:“这里有一些论文和分析方法,请在这组数据上复现它们。” 代理应该能够访问数据并运行分析,看看结果是否一致。同时,它也应该能够运行额外的 20 次分析,并检查整体结果的分布情况。
如果能够系统性地进行大规模数据分析,那么 p-hacking( p 值操纵,指通过多次分析寻找偶然显著性结果的行为 )就不再是问题。与其只报告一个 p 值( 例如 100 次测试中的 1 次显著性结果 ),AI 代理可以运行 100 次分析,并生成 p 值分布图。这种方法能更全面地揭示数据特征,尤其是当你了解不同统计测试之间的相关性时,它比单次测试的 p 值更具信息量。
Q5
如何评估 AI 科学家在科学文献任务中的表现?它们与人类科学家相比如何?
Andrew White:
我们开发了 LitQA,因为我们需要一种快速、自动化的评估方式,以便快速迭代。LitQA 由 250 道极具挑战性的科学问题组成,人类的得分大约是 67%,而我们最新的 AI 模型已经达到了 90%,远超人类水平。而且,这些人类受试者是受过博士级训练的的专业生物学家,他们是受雇来回答问题的,并且有动力表现出色。当然,这并不代表这些模型可以真正进行科学研究,它更像是测验类的问题( trivia questions )。
我们还让 WikiCrow 撰写维基百科文章,并与人工撰写的版本进行盲测评估。这是一个很好的例子,展示了即使最初训练时只是针对测验类问题,最终模型仍然可以在人类的一般知识水平上超越人类。
然而,作为一个研究机构,我们的最终目标是衡量 AI 在全新科学发现中的表现( we want to measure our performance on novel scientific discoveries )。这类似于我们的五年关键绩效指标( KPI )。我们会知道 PaperQA 运行良好,当它真正被整合到研究流程中并对科学发现做出贡献时。
归根结底,随着这些模型越来越接近人类水平,我们将以评估人类的方式来评估它们。比如,一个优秀的博士生应该具备哪些能力?他们应该提出好的研究想法、正确界定研究范围、推动研究进展,并撰写论文。最终,我们也会以相同的标准来评估这些 AI 模型。
但这就像评估博士生的能力一样困难——你无法仅通过课程成绩或入学考试来判断他们的研究能力——我们也无法单凭某些测试来判断这些模型的真正水平。只有把它们放进实验室,看它们能做出什么成果,我们才能真正评估它们的能力。
Q6
FutureHouse 是一家非营利研究机构,但并非“聚焦研究组织( FRO )”。两者有何区别?你们未来会发展出一个商业公司吗?
Sam Rodriques:
我认为,未来我们开发的技术一定会有足够的商业价值,最终可能会拆分出( spin out )一家盈利公司。很多非营利机构都会这样做,大学也是如此。
聚焦研究组织( FRO )是一种非营利科研组织,专门解决那些对于学术界来说规模太大、但又无法以盈利性模式运作的研究项目。从这个角度来看,FutureHouse 在很大程度上确实符合 FRO 的特征。
然而,我们在最初设计 FRO 模型时,为其设定了一些特定的运作方式,但这些并不适用于 FutureHouse,因为我们希望能够吸引特定的资助方。FRO 通常有固定的五年资助期,并且需要按照特定规模进行资助,同时它们的研究通常是以里程碑为导向的( milestone-driven )。当我们刚开始构想打造 AI 科学家时,这一想法还是全新的、充满不确定性的( a new and nebulous idea )。与现在相比,那时候我们对这个概念的理解远不够清晰。
但正因为如此,当时我们无法清晰地定义 FutureHouse 的研究目标或具体的里程碑,因为我们不知道接下来会发生什么。所以现在,我们的资金并不限于五年,而且融资模式也不同于传统的 FRO。这样的灵活结构让我们可以保持敏捷性( This structure allows us to stay nimble )。
Q7
人们对你们的工作有哪些常见的误解?
Sam Rodriques:
很多人误以为我们专注于湿实验室的自动化( wet lab automation )。虽然这确实是一个值得探索的方向,我们也在研究相关可能性,但真正最大的机遇其实是在认知层面(the biggest opportunities are actually on the cognitive side)。
此外,我们还需要应对许多关于生物安全( biosecurity )的误解。有一部分人对生物安全问题非常关注,甚至有人假设我们正在开发的技术可能会带来危险。我想特别强调的是,在生物学研究中,你必须将某些事物带入现实世界( fundamentally in biology, you have to bring things into the world )。生物安全始终是一个复杂且具有挑战性的问题,因为我们的目标是通过操控人类生物学来治愈疾病( our goal is to manipulate human biology to cure disease )。然而,如果你能够操控生物学,那同样也意味着你有能力创造出潜在危险的东西。这确实是我们非常重视的问题,我们对此思考得很多。
Q8
关于将研究成果应用于现实世界:你们的湿实验室自动化进展如何?
Sam Rodriques:
正如我之前所说,这并不是我们工作的主要重点。不过,AI 模型在这一领域的表现最终会远超人类,尤其是在高通量(high-throughput)湿实验室自动化的情况下。对于从事实验室工作的科学家来说,最难的部分往往是记住所有正在同时进行的几十种实验条件——但这正是 AI 系统擅长处理的事情。
我们真正感兴趣的是构建实验之上的“认知层”(cognition layer)。例如,在决定进行某项实验时,已经有成熟的方法(比如实验设计,design-of-experiments),可以用来定义参数空间并帮助决定测试哪些变量。
换句话说,今天 AI 的真正特别之处在于,借助语言模型( language models ),我们能够将 AI 应用于”弱结构化的空间”( poorly structured spaces )。在一个“高度结构化的空间“( well-structured space )里,比如蛋白质序列、DNA 序列的结构,或者已定义的实验参数空间( 如化学浓度 )( or even defined experimental spaces like chemical concentrations ),有许多经典的 AI 方法可用于训练基础模型( foundation model )或贝叶斯优化( Bayesian optimization )。
但在”弱结构化的空间“( poorly defined spaces )中,比如自然语言,其中的假设可以朝着无数种可能性进行探索,传统的方法往往难以奏效。因此,真正的革命,将来自于AI 在这些“弱结构化空间”中的应用( the revolution is really going to come from being able to apply AI to those poorly structured spaces )。
Q9
在最近的一条推文中,你展示了一台人形机器人坐在你们总部的沙发上。为什么你们选择人形机器人,而不是专门为生物实验设计的传统机器人?
Sam Rodriques:
在自动化生物实验时,有一个关键区别:单次实验( one-off experiments )与大规模实验( running experiments at scale )。两者所需的工具完全不同。
想象一下,你要造一辆汽车。这里有两种完全不同的情况:
“我从未造过汽车,但我想造一辆”( 单次实验 )
“我已经造过汽车,但我想造 10 万辆”( 大规模实验 )
如果你要批量生产 10 万辆汽车,你会搭建一个装配线( assembly line ),并配备一堆专门设计的机器人,它们各司其职。如果你想更改轮子的大小,你可能得换掉一部分机器人。更别提如果你突然想造一架直升机——那就完全行不通了,对吧?
但如果你从未造过汽车,只是想尝试造一辆,你不会去建装配线或采购各种特定用途的机器人,而是会去买一个机械加工车间( machine shop ),用各种通用工具,手工打造出这辆车( you build the car as a one-off )。
基础科研( basic discovery research )更像是这种“单次实验”( one-off experiments ):想象一名研究生每个实验都只做一次,而且是首次尝试,就意外做出了惊人的发现。这种类型的科学研究正是我们想要自动化完成的,但它并不适合依赖庞大的自动化机器人系统。
目前,大部分实验仍然是由人类设计和执行的,因此我们的下一个阶段是让 AI 辅助人类实验,而最终目标是 AI 引导通用机器人( general-purpose robotics )来执行实验。我们关注人形机器人,是因为它们的能力更符合我们希望实现的实验模式( because they more closely map the kind of experimentation we are looking to emulate )。
Q10
在你的文章中,Sam,你提到实验室自动化之所以困难,部分原因是机器人无法适应突发情况( can’t adapt to surprises )。在你的实验室里,你们曾遇到一个意外:一个损坏的垫圈悄无声息地向细胞培养基中渗入化学物质( a broken gasket was leaching a chemical into your cell cultures ),影响了实验结果,而团队对此毫不知情。机器人未来能否具备诊断和解决这类问题的能力?
Sam Rodriques:
让机器人执行湿实验室( wet lab )实验,最终是一个感知问题( a sensing problem )。人类的感知能力非常强大,而生物学实验的很多操作都依赖于直觉式的感知能力。例如,有时候你需要调整试管的角度,让光线穿过特定角度,才能看到液体的状态。试着让一个装有摄像头的机器人做到这一点,几乎不可能。如果机器人无法像人类一样感知环境,那么像化学物质意外渗入实验这种情况,对它们来说将极难察觉。
从进化的角度来看,人类的感知运动系统( human sensory motor function )比认知系统要发达得多。感知运动功能自寒武纪( 约 5 亿年前 )就开始演化,而人类的高级认知才演化了几百万年。因此,并不奇怪的是,AI 模型可能会在认知水平上先赶上人类,而机器人和传感系统想要匹敌人类感知能力,还需要更长的时间。
Q11
好的,最后一个问题。你们是如何让科学家使用你们的工具的?你们如何发展用户社区?
Sam Rodriques:
我们仍在探索这个问题。首先需要明确的是,我们的使命是自动化科学研究并扩展科学研究的规模( our mission here is to automate scientific research and scale scientific research )。这是核心目标。我们的目标并不是单纯创造生产力工具( productivity tools ),而是要确保我们能够持续构建,而不是陷入商业化的循环( don’t end up in a commercialization cycle )。我们不希望商业化影响我们正在构建的技术质量,这也是我们作为非营利组织运作的原因。
我们的计划是最终推出一个平台( launch a platform ),让大家使用我们的工具。但在可预见的未来,我们的“北极星”目标仍然是构建更强大的 AI 代理,因为这才是最终创造价值的关键。
Andrew White:
最终的目标是打造一个平台,使科学智能能够大规模运行,并足够强大,能够应用于所有基因、所有蛋白质、所有疾病的研究( The end goal is to have a platform that runs scientific intelligence at a scale that is good enough to work on all genes, all proteins, all diseases )。
本文已经过编辑,以确保内容简洁清晰。
摄影:Xiaofan Fang
封面图片:Ella Watkins-Dulaney
注释:
1. 一个能够规划并执行化学合成步骤的大型语言模型。该研究于 2023 年 4 月预印(arxiv.org/abs/2304.05376v1),2024 年 5 月正式发表(nature.com/articles/s42256-024-00832-8)。
引用:
Duoto, B. "Meet the Humans Building AI Scientists." Asimov Press (2025). DOI: 10.62211/42py-87gh
原文发表于 2025 年 3 月 19 日。
英文原文链接:https://press.asimov.com/articles/futurehouse
∗∗∗
如果你想对这篇文章提出问题,以及希望加入 Asimov Press 的中国读者社区,欢迎发送一句话的简介,到联系邮箱:asimovpresschina@163.com,期待与你交流。如果你有具体的问题和合作意向,可以添加个人微信 ID: 2871981198,请附上一句话介绍。期待与你交流。
点击“阅读原文”即可查看英文原文
请星标我们🌟,欢迎点赞+在看+转发!:)
版权声明:Asimov Press 发布的所有内容,包括英文原版及中文版本,均受版权保护,未经授权严禁转载、翻译或发布。如有疑问或合作需求,请联系邮箱:asimovpresschina@163.com。
Copyright © 2024 Asimov Press
>登录 press.asimov.com 输入邮箱成为订阅会员<

