大数跨境
0
0

阿里Qwen 3 MAX反超DeepSeek,夺AI交易霸主

阿里Qwen 3 MAX反超DeepSeek,夺AI交易霸主 元宇宙信息情报处
2025-11-04
2
导读:六大顶级AI化身交易员,1万美元初始资金,前期deepseek占据优势,最后关头被Qwen 3 MAX反超
近期国外公司Nof1做了一个非常有意思的实验,将全球六大顶级AI投入真实金融市场,各自赋予10,000美元资金,让它们在零人工干预下自主交易。
实验持续了半个月,于11月3日结束,最终阿里巴巴Qwen团队的Qwen 3 MAX在最后阶段反超夺冠,账户价值最终达到12,231.82美元。
Screenshot of Alpha platform interface displaying live leaderboards, blog, and models sections. Graph shows total account value over time from October 24 to November 24 with multiple colored lines representing different models performance, including purple, blue, orange, and cyan lines fluctuating between $90,000 and $100,000, with labels for US and EU models.

实验设计

参赛选手为当前最高水平的六款AI语言模型:
  • GPT-5
  • Gemini 2.5 Pro
  • Claude Sonnet 4.5
  • Grok 4
  • DeepSeek v3.1
  • Qwen3-Max

实验规则:
  • 交易品种:BTC、ETH、SOL、BNB、DOGE、XRP六种加密货币永续合约
  • 交易频率:中低频交易(几分钟到几小时一次决策)
  • 行动选择:做多、做空、持有、平仓

这些AI的唯一目标就是最大化利润,仅基于提供的市场数据,无人工干预。

模型交易个性鲜明

实验进行的过程中,各模型具备鲜明的“交易个性”:
风险偏好差异显著
  • Qwen3:仓位最大,自信度最高
  • GPT-5:自信度最低,相对保守
  • Grok 4:持仓时间最长,耐心型选手

交易风格迥异
  • Gemini 2.5 Pro:最活跃的交易者
  • Claude Sonnet 4.5:几乎不做空,偏向多头
  • Grok 4、GPT-5、Gemini 2.5 Pro:更频繁地参与做空

止损策略不同
  • Qwen3:设置最窄的止损/止盈区间
  • Grok 4和DeepSeek V3.1:设置最宽松的区间

AI交易员都有哪些困难?

实验过程中,研究人员发现了多个有趣的技术问题:
1.数据理解偏差
早期提示中市场数据按新→旧顺序排列,即使明确说明,多个模型仍错误地按旧→新理解,推断出错误的市场状态。
2.术语混淆
使用“自由保证金”和“可用现金”等近似术语时,模型行为不一致,有的做出正确假设,有的陷入犹豫。
3.规则博弈
在测试中,当限制连续持有次数时,有模型在内部推理中抱怨无法第四次持有,然后通过设置交易计划来规避限制,暴露出规则博弈倾向。
4.计划执行困难
模型有时难以执行自己制定的计划。例如,GPT-5后来质疑自己提出的“EMA20收复”概念;Qwen3在计算止盈点位出现算术不一致后,选择持有而非获利了结。

实验结果

该实验于11月3日结束,持续了半个月,最终的获胜者是阿里巴巴Qwen团队的Qwen 3 MAX,账户价值最终达到12,231.82美元。
该研究团队已在规划第二季改进:引入更多市场特征、改进提示和实验框架、增强统计严谨性、可能增加工具使用和历史状态跟踪功能。
这场实验是AI在真实世界决策能力评估的重要里程碑。随着实验的深入,我们有望看到这些AI交易员在真实市场中展现出更加丰富的策略行为和风险偏好。
点赞、评论转发此文章可后台私信领取一份base.meme内部撸毛手册哦~

原文:JAY A

编译:petsch

注:本文部分内容及图片来源于网络,仅供知识分享与交流,不构成任何投资建议。本公众号不保证信息的准确性和及时性,对因使用或依赖本文信息所造成的损失概不负责。如有侵权,请联系管理员删除。

管理员vx:13520437341 

TG群:https://t.me/qingbc

关注公众号


加入粉丝交流群

【声明】内容源于网络
0
0
元宇宙信息情报处
做最专业的元宇宙、区块链海外资讯发布者
内容 2077
粉丝 0
元宇宙信息情报处 做最专业的元宇宙、区块链海外资讯发布者
总阅读14
粉丝0
内容2.1k