arXiv：能提出猜想的数学智能体Moonshine- 大数跨境

首页

arXiv：能提出猜想的数学智能体Moonshine

集智俱乐部

2026-06-26

导读：当 AI 开始提出数学猜想，神经雅可比猜想的诞生与验证

导语

数学研究的核心进展往往始于有价值的猜想，而提出好的猜想长期以来被视为人类数学家的专属能力。2026年6月发表于arXiv的这篇文章介绍的Moonshine是一款以猜想生成为核心目标的自主数学研究智能体，它从经典复域雅可比猜想中提炼出局部非退化强制全局单射的核心结构，将其迁移至单隐层仿射脊型 sigmoid 网络这一透明函数族，自主提出了神经雅可比猜想，并通过代数与几何拓扑多条路径严格证明了低宽度情形下猜想成立，为人工智能参与原创数学研究提供了全新的范式参考。

关键词：自主数学研究智能体、神经雅可比猜想、全局单射性、局部非退化性、数学发现自动化

王璇丨作者

赵思怡丨审校

论文题目：Moonshine: An Autonomous Mathematical Research Agent Centered on Conjecture Generation

论文链接：https://arxiv.org/pdf/2606.10806

发表时间：2026年6月9日

论文来源：arXiv

1. 以猜想生成为核心的

自主数学研究智能体Moonshine

Moonshine是一套自主数学研究智能体框架。它与问答系统或数值计算工具的区别在于，其设计目标是自主生成有价值的数学猜想，并通过结构化的探索对猜想进行验证或证伪。Moonshine的运行围绕以下几个模块展开：

结构识别与猜想提炼：识别经典问题或数学对象中的核心结构特征，提炼新概念，并基于此提出精确、可验证的猜想。
深度探索与理论搭桥：将猜想与已有理论建立关联，探索其与其他数学领域的联系，并推导条件性结论。
障碍识别与边界刻画：通过证明与反例构造，明确猜想成立的充分条件，识别不可逾越的障碍，从而确定其真实适用范围。
研究日志与记忆：维护长期结构化日志，记录猜想的演化、证明尝试、失败路径与未解决子问题，形成可拓展的理论框架。

Moonshine以运行时主目录（默认为~/.moonshine）为组织核心，目录内包含配置文件、项目文件夹、会话日志、知识库、技能库、工具集与MCP服务器定义。智能体以研究模式运行，可自主迭代、检索历史记忆、调用验证工具，逐步深化对给定猜想的理解。

Moonshine对雅可比猜想的探索与神经雅可比猜想的提出。受经典复域雅可比猜想的启发，Moonshine并未直接尝试证明或证否原猜想，而是提取了其核心逻辑：由非零雅可比行列式刻画的局部非退化性，是否能强制推出全局单射性。随后，这一逻辑被迁移到一类受限但结构清晰的函数族——单隐层仿射脊型sigmoid网络上。通过分析该类网络特殊的代数与几何结构，Moonshine提炼出了新的猜想——神经雅可比猜想（NJC）。该猜想指出，若此类网络的雅可比行列式处处为正，则网络必为全局单射。这一猜想既是对经典问题的类比，本身也具有独立的研究意义，因为它将“局部微分同胚蕴含全局单射”的刚性归因于特殊的仿射脊结构。

后续章节将介绍Moonshine对神经雅可比猜想的探索过程。

2. 神经雅可比猜想

（The Neural Jacobian Conjecture, NJC）

2.1 函数族与记号

设为逻辑斯蒂sigmoid函数：

该函数严格递增，且对所有满足。

定义2.1（仿射脊型sigmoid网络）。对n, N ≥1，若映射满足

其中，且σ按分量作用，则称F为宽度为N的单隐层仿射脊型sigmoid网络。该函数族记为。在不影响单射性讨论的记号下，我们简记为

F(x)=Aσ(Bx+c).

定义2.2（正雅可比子类）。定义

2.2 Moonshine提出的猜想

猜想2.3（神经雅可比猜想）。对任意，映射F是全局单射。

该猜想的动机在于：一般情况下，局部微分同胚可以形成多叶结构，而仿射脊型sigmoid网络的特殊结构——尤其是输出权重矩阵的核空间与隐层像空间之间的相互作用。可能会强制保证唯一性。若猜想成立，NJC将成为神经网络场景下的一个刚性定理，表明在该特殊结构约束下，局部非退化蕴含全局单射，并与经典雅可比猜想形成有趣的对应。

2.3 几何重述

令h(x)=σ(Bx+c），并记

其中X₁为隐层子流形，X₂为输出矩阵的核空间。则F为单射当且仅当

正雅可比条件det DF>0等价于：X₁与p+X₂在每一点处横截相交，且局部相交指标为+1。因此NJC可以重述为：横截性与正局部指标，是否能保证每一条仿射纤维与X₁都只有唯一交点？

3. 低宽度情形下NJC的部分验证

Moonshine并未宣称完整证明了NJC。它首先分析了最易处理的情形，即隐层宽度N等于输入维数n，或比n大1的情况。这些情形为猜想提供了初步证据。

3.1 N=n的情形

命题3.1。若N=n且，则F是单射。

证明。当N=n时，矩阵。定义

由于对所有x都有

且det D(x)>0，因此det A与det B均不为零，即A和B均可逆。映射F(x)=Aσ(Bx+c) 是三个单射的复合：可逆仿射映射、按分量严格递增的映射，以及可逆线性映射。因此F是单射。

3.2 N=n+1的情形

这是A具有非平凡核空间的最小宽度。本节的主要结果如下。

定理3.2。设为隐层单元数N=n+1的单隐层仿射脊型sigmoid网络。若

则F是单射。

下述第一个证明由Moonshine调用GPT-5.5-pro得到。

3.2.1 第一种代数证明：凸集上的单射引理

作为定理3.2的补充，我们给出一个证明，其核心是如下关于标量函数图像在线性投影下的单射引理。

引理3.3（凸集上的单射引理）。设为非空开凸集，h∈C¹(Ω)，为线性映射。定义

T(y)=L(y, h(y)).

若对所有y∈Ω都有det DT(y) ≠0，则T是单射。

证明。由det DT(y) ≠0可知rankDT(y)=n。由于DT(y)的像包含于L的像中，因此rankL=n，从而dim ker L=1。设为张成ker L的非零向量，分两种情况讨论。

情形1：r≠0。对k做尺度变换使得r=-1，即k=(p,-1）。定义Q(y, z)=y+pz ，则。由于L和Q都是从到的满秩映射，故存在使得A₀ L=Q。在目标空间左乘A₀不影响单射性，因此不妨设

T(y)=y+ph(y).

假设T(y₁)=T(y₂），则

因此y₂-y₁与p平行。若p=0，则T(y)=y，结论显然成立。下设p≠0，则存在s ≠0使得y₂=y₁+sp。由Ω的凸性，线段{y₁+tp: 0 ≤t ≤s}包含于Ω中。代入上式得

令Ψ(t)=t+h(y₁+tp)，则Ψ(s)=Ψ(0)。进一步有

由矩阵行列式引理，

因此Ψ'(t)=det DT(y₁+tp)。由假设该式恒不为零，且其连续，故符号恒定，Ψ严格单调。这与Ψ(s)=Ψ(0)矛盾，除非s=0。因此y₁=y₂。

情形2：r=0。此时，其中p≠0。选取线性同构

满足P(0,1)=p。令

在坐标下，定义

则。考虑子空间

限制映射是线性同构。令

并定义

由于，因此

经过源空间坐标变换y=P(u, s)与目标空间线性变换M后，映射变为

这些变换都是可逆的，因此不改变单射性；雅可比行列式仅乘以一个非零常数。

的雅可比矩阵为

因此。从而

对固定的u，纤维

是一个区间，因为是凸集。函数具有连续导数且在I_u上恒不为零，因此严格单调。若，则前n-1个分量给出u₁=u₂，最后一个分量给出。由严格单调性得s₁=s₂。因此是单射，从而T也是单射。

定理3.2的第一种代数证明。将网络写为F(x)=Aσ(Bx+c)，其中。由于rank B=n，B中存在n行线性无关。对隐单元重排后，不妨设前n行线性无关。通过输入变量的可逆仿射变换，可将前n个预激活归一化为x₁, …, x_n。因此网络可写为

其中。等价地，

令，并定义

则

由于det DF(x)>0且Φ是微分同胚，故对所有y∈(0,1)ⁿ都有det DT(y)≠0。定义域(0,1)ⁿ是开凸集，由引理3.3可知T是单射，因此F是单射。

该证明凸显了凸性与一维核空间在NJC低宽度情形中的核心作用。

3.2.2 第二种代数证明：沿核方向的一维单调性

下述第二个证明由Moonshine调用DeepSeek-V4-pro得到。

证明。仍将网络写为F(x)=Aσ(Bx+c），其中。同上，归一化后网络可表示为

其雅可比矩阵为

其中

S(x) 的所有对角元与s_n+1(x)均为正。

用反证法，假设F不是单射，则存在p≠q使得F(p)=F(q)。令

定义

其中σ^-1(s)=log (s/(1-s))按分量作用。则

由于A=[C, w]的秩为n，其核空间是一维的。选取

则

等式F(p)=F(q)意味着隐层输出的差属于kerA，因此存在λ≠0使得

特别地，

定义

其中t满足。由(2)知f(0)=f(λ)=0且λ≠0。令

(0,1)ⁿ的凸性保证了t在0与λ之间时x_t有定义。求导得

直接计算可得

因此

我们将该表达式与det DF(x_t)联系起来。

情形1：k_n+1≠0。对k做尺度变换使得k_n+1=-1，则由(1)得。因此

由于A=[C, w]秩为n且，故矩阵C可逆。由矩阵行列式引理，

结合(3)式，

由于det DF(x_t)>0，det S(x_t)>0，且det C≠0为常数，故f'在0到λ的区间上具有恒定的非零符号，因此f在该区间上严格单调。

情形2：k_n+1=0。此时且，故rank C ≤n-1。又因[C, w]秩为n，因此rank C=n-1且。选取张成左核ker C^T的非零向量v₀，则。伴随矩阵的秩为1，可表示为

将雅可比矩阵改写为

利用秩n-1矩阵的秩1扰动公式

可得

由于k_n+1=0，(3)式变为

因此

同理，det DF(x_t)>0，det S(x_t)>0，且，故f'具有恒定非零符号，f严格单调。

两种情形下，f在以0和λ为端点的闭区间上均严格单调，但f(0)=f(λ)=0且λ≠0，矛盾。因此不存在满足F(p)=F(q)的不同点q，故F是单射。

3.2.3 几何拓扑证明：隐层子流形与一维纤维

下述几何拓扑证明，是通过网页端交互调用GPT-5.5-pro、在ChatGPT协助下完成的。

沿用记号

F(x)=Aσ(Bx+c),

其中

假设

令

h(x)=σ(B x+c),

并定义

由于B列满秩，c+Im B是中的一个n维仿射平面。又因为按分量作用的sigmoid是从到(0,1)ⁿ⁺¹的微分同胚，故X₁是(0,1)ⁿ⁺¹中光滑嵌入的n维子流形。此外，dim X₂=1。

由隐层相交的等价表述，F为单射当且仅当

因此只需证明：每条以X₂为方向的仿射直线与X₁至多交于一点。

固定p∈X₁，选取k∈X₂ \{0}使得。定义

这是一个包含0的开区间。

我们在logit坐标下描述X₁。令

则

选取非零向量，定义

则

将Φ限制在仿射直线p+X₂上，定义

则

因此p+X₂与X₁的交点恰好对应g的零点，且g(0)=0。

首先证明：若t₀∈I_p是g的零点，则

该结论仅针对零点处的导数，并不意味着g'在整个I_p上都非零。

设g(t₀)=0，令z₀=p+t₀k，则z₀∈X₁，故存在x₀使得。定义

则

引理3.4。在g的每个零点t₀处，都有

证明。若，则存在使得k=D(x₀)Bv。由于k∈X₂=ker A，故

0=Ak=AD(x₀)Bv.

但AD(x₀)B=DF(x₀)，且det DF(x₀)>0，因此AD(x₀)B可逆，从而v=0，进而k=0，矛盾。

由于X₁是Φ的零水平集，且在X₁上有

由引理3.4可得

由链式法则，因g(t)=Φ(p+tk)，故

因此g的每个零点都是非退化的，即零点处导数不为零。

接下来证明：g在所有零点处的导数符号都相同。为此我们先给出一个独立的线性代数引理。

引理3.5。设

为线性映射，满足rankA=rankB=n。设

则存在非零常数C=C(A, B, k, λ)，使得对任意，都有

特别地，若det L>0，则存在仅依赖于A, B, k, λ的固定符号，使得

证明。首先，对任意，由于A秩为n且，存在仅依赖于A和k的非零常数c_A，使得

事实上，选取的补空间的一组基u₁, …, u_n，令U=[u₁, …, u_n]，则[U, k]可逆且AU可逆。任意M可唯一表示为，于是

由此即得上述比例关系。

其次，由于rankB=n，像空间ImB是中的n维超平面。映射是在ImB上取零值的线性泛函，也是如此。由于这类泛函的空间是一维的，故存在c_B≠0使得

取M=LB，则

由于[LB, k]=L[B, L^-1k]，故

因此

令C=c_Ac_B≠0，符号结论立即可得。

回到几何证明。在零点t₀处，仍记z₀=p+t₀k=h(x₀)。由z₀=σ(Bx₀+c)，得

这是一个正对角矩阵。此外，

将引理3.5应用于L=D(x₀)，得

由于det D(x₀)>0，存在不依赖于交点的固定符号ε，使得

而det(AD(x₀)B)=det DF(x₀)>0，因此所有零点t₀处的符号相同，从而g'(t₀)的符号也都相同。

最后，我们利用如下一维基本事实：若是C¹函数，t₁＜t₂是两个相邻零点，且g'(t₁) ≠0、g'(t₂)≠0，则

事实上，若g'(t₁)>0，则g在t₁右侧附近为正；由于(t₁,t₂)内无零点，故g在该区间上恒正。又因g(t₂)=0且g'(t₂) ≠0，故必有g'(t₂)<0。另一种情形同理。

若存在另一个交点，则存在使得g(λ₀)=0。在以0和λ₀为端点的紧区间上，零点是孤立的，故只有有限个，因此可以选出两个相邻的零点。上述一维事实要求这两个零点处g'的符号相反，但前面的论证表明所有零点处的导数符号都相同，矛盾。因此

等价地，

由于p∈X₁是任意的，故F是全局单射。

该证明揭示了N=n+1情形的本质：一维输出核将相交问题约化为单变量零点问题；一维中的非退化零点具有交替的导数符号，而正雅可比条件强制所有局部符号一致。对于更高维的纤维，这一机制不再自动成立，这也解释了N ≥n+2情形的困难所在。

3.3 高宽度情形N ≥n+2仍未解决

当N ≥n+2时，核空间X₂的维数至少为2。局部正指标无法再通过一维符号交替法则排除多交点的可能：高维映射可以拥有多个正则零点（局部指标均为+1），但仍不是单射。因此，神经雅可比猜想在高宽度情形下仍是开放问题。

4. 结论与展望

通过对经典雅可比猜想的反思，Moonshine提炼出“局部非退化蕴含全局单射”的核心原理，并将其迁移到单隐层仿射脊型sigmoid网络上，由此提出了神经雅可比猜想。若猜想完全成立，将揭示一类特殊神经网络的内蕴刚性；即便最终被证否，对它的探索也有助于厘清局部微分同胚与全局单射之间的边界。

Moonshine证明了NJC在最小非平凡宽度N=n与N=n+1下成立，为猜想的合理性提供了初步证据。对于更一般的高宽度情形N ≥n+2，猜想既未被证明也未被证否，仍是一个活跃的开放问题。这正是Moonshine作为猜想生成型数学智能体的工作模式：提出精确的猜想，建立严谨的部分结果，并识别出未解决的边界以指引后续研究。

网页地址：www.deepmath.cn

相关阅读：https://mp.weixin.qq.com/s/IUM3Ig-fWvmbvvRs6olzeg

完整的源代码、研究日志与中间验证记录：https://github.com/DeepMathLLM/Moonshine

补充说明

注记A.1（雅可比行列式不可能为非零常数）。当N>n时，网络的雅可比行列式det DF(x)不可能是非零常数。由柯西-比内公式，

其中I取遍{1, …, N}的所有n元子集，A_I是A中列指标属于I的n×n子矩阵，B_I是B中行指标属于I的n×n子矩阵，乘积项由正对角元构成。

选取方向，使得对所有非零行向量b_i都有b_i·u≠0。沿射线x=tu当t→+∞时，每个预激活都趋于±∞，因此，从而每一项都趋于0，故det DF(tu)→0。若det DF是常数c，则该极限将迫使c=0。因此雅可比行列式不可能为非零常数。

注记A.2（满秩条件的必要性）。若rankA<n或rankB<n，则AD(x)B的秩至多为min(rankA, rankB)<n，因此对所有x都有det DF(x)=0。故任意自动满足rankA=rankB=n，这特别要求N≥n。

注记A.3（其他激活函数）。所有证明仅用到σ'(t)>0以及σ在其像上有光滑逆函数这两个性质。因此，对任意严格递增、将微分同胚地映到一个开区间（如(0,1）)的C¹激活函数，结论都成立。逻辑斯蒂sigmoid只是一个方便的例子。

注记A.4（复域情形不是实域的直接类比）。本文讨论的NJC是实域上的命题。若直接将sigmoid网络复化，类似的雅可比型结论一般不成立。

考虑复逻辑斯蒂sigmoid函数

它是亚纯函数，极点为

对复浅层sigmoid网络

其中，记第j个预激活为

其自然全纯定义域为

在该定义域上，复sigmoid满足

因此可以定义输入矩阵A的周期格为

若0≠v∈L(A)，则σ(A(z+v)+b)=σ(Az+b)，从而F(z+v)=F(z)。这样的周期向量会导致非单射性。

在方阵情形N=n下，若，则

在Ω上，σ无零点，故det DF(z) ≠0。但对任意非零的，

都是非零周期向量，因此F(z+v)=F(z)。因此在复域中，“Ω上det DF(z)≠0蕴含F在Ω上单射”这一推论不成立。

当N>n时，还会出现第二种机制：输出核的抵消作用。例如，取n=2、N=3，定义

这对应于

取

则

由周期性，F(z)=0=F(0)且z≠0，因此该网络不是单射。

论文作者：

参考文献

[1] Bass, H., Connell, E. H., and Wright, D. The Jacobian conjecture: reduction of degree and formal expansion of the inverse. Bulletin of the American Mathematical Society (New Series), 7(2), 287–330, 1982.

[2] Gale, D., and Nikaido, H. The Jacobian matrix and global univalence of mappings. Mathematische Annalen, 159, 81–93, 1965.

[3] Guillemin, V., and Pollack, A. Differential Topology. Prentice-Hall, Englewood Cliffs, 1974.

[4] Hirsch, M. W. Differential Topology. Graduate Texts in Mathematics, Vol. 33. Springer, New York, 1976.

[5] Horn, R. A., and Johnson, C. R. Matrix Analysis. 2nd ed. Cambridge University Press, Cambridge, 2012.

[6] Keller, O.-H. Ganze Cremona-Transformationen. Monatshefte fuer Mathematik und Physik, 47, 299–306, 1939.

[7] Pinchuk, S. A counterexample to the strong real Jacobian conjecture. Mathematische Zeitschrift, 217, 1–4, 1994.

[8] Smale, S. Mathematical problems for the next century. The Mathematical Intelligencer, 20(2), 7–15, 1998.

[9] van den Essen, A. Polynomial Automorphisms and the Jacobian Conjecture. Progress in Mathematics, Vol. 190. Birkhaeuser, Basel, 2000.

报名读书会：「Vibe Modeling」

集智俱乐部联合同济大学长聘副教授陈小杨和北京林业大学副教授李周园共同发起「Vibe Modeling」读书会，将在集体实践中探索 vibe modeling 在不同领域的通用模式与特殊需求，沉淀可复用的提示策略、评估方法与工作流，为这一范式搭建早期社区基础，助力 AI 赋能的跨学科研究与人才培养落地。

读书会自2026年5月17日起，每周日下午14:00-16:00线上开展，持续10周，包含主讲分享与讨论交流，并提供会后视频回放，诚邀相关领域研究者及跨学科兴趣者参与。

扫描海报中二维码报名参加读书会

详情请见：「Vibe Modeling：从技术框架到跨学科应用」读书会

人工智能与数学读书会

数十年来，人工智能的理论发展和技术实践一直与科学探索相伴而生，尤其在以大模型为代表的人工智能技术应用集中爆发的当下，人工智能正在加速物理、化学、生物等基础科学的革新，而这些学科也在反过来启发人工智能技术创新。在此过程中，数学作为兼具理论属性与工具属性的重要基础学科，与人工智能关系甚密，相辅相成。一方面，人工智能在解决数学领域的诸多工程问题、理论问题乃至圣杯难题上屡创记录。另一方面，数学持续为人工智能构筑理论基石并拓展其未来空间。这两个关键领域的交叉融合，正在揭开下个时代的科学之幕。

为了探索数学与人工智能深度融合的可能性，集智俱乐部联合同济大学特聘研究员陈小杨、清华大学交叉信息学院助理教授袁洋、南洋理工大学副教授夏克林三位老师，共同发起“人工智能与数学”读书会，希望从 AI　for　Math，Math　for　AI 两个方面深入探讨人工智能与数学的密切联系。读书会已完结，现在报名可加入社群并解锁回放视频权限。