MiroThinker首个版本发布时,已在高难度基准测试中表现超越GPT-5;作为深度研究型模型,支持单任务最多600次工具调用。
近日,MiroThinker正式发布v1.5版本,登顶当前最强搜索智能体。
MiroThinker v1.5通过引入“交互式扩展”这一新维度,在30B与235B参数规模下突破单纯依赖模型体积的传统范式,重新定义复杂环境中的推理与搜索能力。
该版本推动工具增强型推理与信息检索能力跃升,不再局限于参数堆叠,而是以环境交互为路径拓展智能边界。
交互式扩展
MiroThinker v1.5首创“交互式扩展(Interactive Scaling)”,将其确立为继模型规模、上下文长度之后的第三大性能提升维度,显著区别于仅在静态参数上优化的传统智能体。
其核心在于系统性训练模型,使其具备更高频次、更深层次的智能体—环境交互能力。
该机制模拟人类面对陌生问题时的试错—反馈认知过程,借助环境反馈与外部信息持续校正推理路径。
不同于传统一次性输出模式,交互式扩展框架下,模型可在最终输出前完成多轮自我审视与外部验证,确保逻辑严密、结论可靠。
实证表明:随交互深度与频率提升,模型在多项基准测试中性能呈现稳定、可预测增长,印证智能能力提升关键在于对工具与环境的有效协同,而非单纯算力堆砌。
MiroThinker v1.5支持256K上下文窗口,支撑长程推理(Long-horizon Reasoning);单任务最高支持400次工具调用(Tool Calls),涵盖搜索、网页浏览、代码执行、数据比对等全流程操作。
高强度交互能力使其胜任法律文书梳理、金融链路追踪等需极高耐心与逻辑一致性的科研级任务。
搜索与推理新高度
在多项权威基准测试中,MiroThinker v1.5展现出卓越的通用研究能力,尤其在浏览与搜索类任务中,表现超越部分闭源顶尖模型。
其在HLE、BrowseComp、GAIA等主流榜单中全面领先,包括GPT-5-High、Gemini-3-Pro等模型。
- HLE(Humanities & Law Exams):聚焦人文与法律领域长文本理解及高精度逻辑推理,对上下文关联性与答案准确性要求严苛;
- BrowseComp / BrowseComp-ZH:专注网页浏览与中文信息检索能力,得分分别达69.8%与71.5%;
- GAIA-Val-165:评估通用AI解决现实复杂问题能力的高挑战性基准,得分为80.8%。
MiroThinker v1.5提供30B与235B双参数版本:
- 30B版基于Qwen3-30B-A3B-Thinking-2507微调,兼顾资源效率与响应速度,适用于轻量部署场景;
- 235B版基于Qwen3-235B-A22B-Thinking-2507,面向极致推理深度与复杂任务处理需求。
双版本策略配合统一工具链与工作流,适配个人开发者至大型研究机构的多样化算力预算与研发目标。
架构设计支撑长程复杂任务
MiroThinker v1.5的高性能不仅源于交互式扩展理念,更依托底层对工具使用(Tool Use)与复杂工作流的深度优化。
模型采用标准化的XML包裹JSON格式描述全部工具,保障指令解析与执行的一致性与兼容性。
在系统提示词(System Prompt)中,MiroThinker被明确定义为具备特定工具集的高级AI助手,并严格执行“一次一步”原则:每条消息仅调用一个工具,且后续动作严格依赖前序执行结果。该机制显著抑制幻觉,提升推理稳健性。
模型原生支持MCP协议,可调用tool-python服务器下的create_sandbox(创建沙箱)与run_python_code(运行Python代码)等功能。
例如处理数据分析任务时,模型可先申请带超时设定的Linux沙箱,在安全隔离环境中执行Python脚本并获取标准输出或错误日志,大幅提升代码执行安全性与稳定性。
在搜索与抓取方面,MiroThinker集成search_and_scrape_webpage服务,支持google_search精细化网络检索——可通过gl(地区)、hl(语言)、tbs(时间过滤器)等参数精准控制结果范围。
对返回网页,模型可调用jina_scrape_llm_summary服务下的scrape_and_extract_info工具,直接从URL抓取内容,并由大语言模型(LLM)完成关键信息提取。这一“搜索—抓取—提取”闭环能力,是其在BrowseComp系列基准中取得高分的核心技术支撑。
本地部署推荐SGLang或vLLM框架,推理参数配置如下:
MiroThinker v1.5凭借交互式扩展范式、强健工具链集成与灵活部署方案,为开发者构建定制化专属智能体系统提供坚实底座。
参考资料:

