大数跨境
0
0

智谱清言的Zero推理模型终于来了

智谱清言的Zero推理模型终于来了 路上侠客
2025-01-06
0
导读:智谱清言的Zero推理模型是GLM - Zero的初代版本GLM - Zero - Preview。它于2024年12月31日推出,是智谱GLM模型家族 中专注于增强AI推理能力的一个重要成员 。这个

智谱清言的Zero推理模型来了。

官方网址:

https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh


支持的文档格式:

目前没有视觉功能无法读图。

对输入的Prompt进行编程还是不在话下的。

只是说编程能力目前并不是很强。程序的实现和执行效果并不是很好。

我们在尝试使用ASCII代码绘制一个简单动物图形,执行Prompt进行推理时似乎会进入无限循环状态。

提示词:为了庆祝你的孩子学会编程,你决定制作一个像素画风格的恐龙头像。请编写一个 Python 程序,在命令行中使用循环结构绘制出这个恐龙头像。

最后路上侠客进行了手动停止继续执行。

推理模型应该更多的是对数学题目的思考和解决。

有完整详细的推理过程,也有完整的解题步骤。

排列组合的数学题解题。

这个功能对于之后教育行业尤其是数学教学和学习应该有很大的应用空间。

补充知识:

智谱清言的Zero推理模型:基于扩展强化学习技术的智能推理新力量

智谱清言的Zero推理模型是GLM - Zero的初代版本GLM - Zero - Preview。它于2024年12月31日推出,是智谱GLM模型家族 中专注于增强AI推理能力的一个重要成员 。

这个模型应用了扩展强化学习技术进行训练,在智谱的一系列模型布局中有独特的地位。从年初到年末,智谱在推出多种类型的模型,如新一代基座大模型、多模态模型、视频生成模型以及语音模型之后,Zero推理模型的推出补上了推理模型这块拼图。

该模型擅长处理数理逻辑、代码和需要深度推理的复杂问题。以数理逻辑来说,在数学方面展现出较强的能力,比如让它做2025年考研数学一整套试题能得到126分的成绩,达到优秀研究生水平,并且模型还能给出详细的解题步骤。这其中涵盖了像代数、微积分、概率统计等多领域的数学知识应用。从代码层面看,它熟练掌握多种编程语言,能够独立使用HTML语言编写如第一人称射击游戏这样较为复杂的代码,同时还可以调试代码,快速地识别出错误并给出合理的修复建议,这对于开发人员来讲是非常有帮助的一种能力,可以在编写代码过程中更高效地处理问题和优化代码。

智谱清言的Zero推理模型的特点

强大稳固的深度推理能力

由于采用扩展强化学习技术训练,并且增加了强化学习训练量,Zero推理模型的深度推理能力稳步提升。在推理阶段,随着模型可以思考的token数增多以及计算量增加,其输出结果质量也相应稳步提升。这使得模型表现出类人的思考决策过程,初步具备了「推理过程中自主决策、问题拆解、尝试多种方式解决问题」等能力。在面对数学问题时,这种深度推理效果明显,以一些经典数学题如青蛙爬井问题为例,该模型不仅给出正确答案,还能总结经验心得;对于数列求解问题,在深度思考中能够很好地观察规律、找出规律再进行规律验证。另外,在处理诸如2024高考数学北京卷的条件判断题时,也可以通过等价代换方式得出正确答案。这种深度推理能力是其作为推理模型的核心竞争力之一 。

多种推理场景下的出色表现

数理逻辑方面

在数学基准测试例如AIME2024、MATH500等测试中,与OpenAIo1 - preview互有胜负且实现小幅超越。它在处理复杂数学运算时能够专注于逻辑推理,从不同角度思考解题思路。例如面对小数比大小这种看似简单却容易让大模型出错的问题,它能轻松搞定,在理解问题和解题关键基础上从不同视角分析、验证答案,有点“PUA”自己似的多次检查确保答案无误。而且在有干扰项的数学推理问题上,能够不为干扰所动,快速理清思路作答。

模型在逻辑推理中善于识别逻辑漏洞,能够模拟多种假设和可能性。像在7、9、11、13中如何用3个数字相加得到30这样的问题,它能识别出9可以倒置为6从而发现答案(6 + 11+13 = 30)。

应对语言陷阱的能力

在中文语境下的推理表现优秀。因为中文有很多的陷阱,像歧义性、语境依赖、隐含信息、文化背景等。Zero推理模型能够“吃透”语言特点,在面对有这些陷阱特点的题目时,结合上下文信息、语义知识和常识进行推理。例如在一些中文逻辑陷阱题目中,从不同视角考虑和深度推理,排除一切不合理的可能后确定合理的解释和答案;在复杂中文逻辑推理问题,尤其是涉及多个角色人物时,不会混淆,通过深度思考进行情形罗列与假设分析,并配合缜密的条件验证,给出逻辑清晰的解题步骤。

常识和时间推理能力

在常识推理上没什么压力,当大模型获取足够多高质量数据后像人类一样掌握丰富常识后,对于常识类推理题能很好作答。在时间推理这种需要理解时间顺序、事件发生的时序关系类型题目中,也有着清晰的预测和推断能力。例如在复杂的多角色参与的时间关系判断场景下,能够准确判断时间关系,而这类情况往往会使很多人被绕晕。

与通用任务和专家任务能力的良好平衡

同基座模型相比,Zero推理模型既没有显著降低通用任务能力,又在专家任务能力方面大幅提升。这意味着它不仅可以在复杂的推理任务(如专家任务范畴的深度数理逻辑处理,代码编写和调试等)中有着出色表现,在一般性的任务中也不会出现能力大幅下降的情况,保证了模型在多种任务场景下的可用性。在与OpenAI相关模型的对比评测如LiveCodeBench评测等中,效果与OpenAIo1 - preview相当,从侧面反映出它在任务处理能力上的综合水平较高。不过也要注意目前的GLM - Zero - Preview与OpenAI的o3模型还有不少的差距,智谱后续也将持续优化迭代强化学习技术 。

智谱清言的Zero推理模型的应用场景

在数学学习与研究中的应用

学习辅助

对于学生来讲,无论是在日常学习代数、微积分、概率统计等数学知识,还是准备像考研数学这样的重大考试,Zero推理模型都可以作为一个有效的辅助学习工具。它可以为学生详细解答各类数学问题,比如学生在学习中遇到函数定义域求解不清晰、数列求和找不到思路等问题时,能得到详细的解题过程和思路讲解。正如2025年考研数学一的真题测试,它的解题过程全方位地展示了模型解决复杂数学问题的能力,可以为备考学生提供清晰的解题模板。

在数学概念理解方面,该模型可以通过实例辅助学生理解抽象的数学概念。例如在阐述极限概念时,利用具体的函数极限求解过程加深学生对极限趋近状态的认知。

研究拓展

在数学研究领域,当数学家或者科研工作者遇到复杂的数学定理证明、难题攻坚阶段时,Zero推理模型可能会从不同的角度提供思路。例如在数论中的某些未被完全证明的猜想,科研人员可以将猜想相关的条件输入给模型,基于模型的深度推理能力或许能得到一些潜在的思路方向。虽然不能完全替代科研人员的智慧和创造力,但模型在提供新思路、进行初步验证等方面有一定的价值。

在代码编写与开发中的应用

代码生成方面

对于开发者来说,在开发一些小规模项目或者编写单个功能模块代码时,Zero推理模型熟练掌握的多种编程语言能力就可以发挥作用。例如在前端开发中,如果你要快速生成一个HTML页面的轮播图功能。之前可能需要查找相关文档或者参考以往的代码库,但使用Zero推理模型,只要你准确描述需求,它就能为你快速生成 相关的HTML、CSS和JavaScript代码片段。当你要进行简单的Python脚本编写,如数据读取和初步处理脚本,模型也可以快速提供可用的代码方案。

代码调试方面

在调试代码阶段,如果遇到一些找不到头绪的错误,比如程序的逻辑错误或者复杂的语法错误,将报错的部分代码(可能需要加上前后相关的逻辑代码片段以便模型理解上下文)提供给Zero推理模型,它就能快速识别错误所在,并给出修复建议。例如在一段较为复杂的C++程序中,函数调用出现了数据类型不匹配的错误,模型可以准确指出问题点在函数参数的数据类型定义,并给予正确修改的思路。

在语言逻辑分析中的应用

应对日常逻辑谜题

在日常生活或者逻辑思维训练中,我们经常会遇到一些逻辑谜题或者需要推理的小游戏。Zero推理模型可以用于分析问题和找出答案。像一些经典的逻辑推理谜题,如猜盒子里的球颜色,你可以将谜题相关信息输入模型,它能够进行逻辑推理给出可能的答案。再比如在一些推理性质的文字冒险游戏中,模型可以根据游戏中的情节描述,对下一步决策或者结局走向进行推理判断。

分析文本中的逻辑关系

对于一些较长和复杂的文本内容,如学术论文、新闻报道等,需要剖析其中逻辑关系的时候,Zero推理模型也有用武之地。例如在分析学术论文中论点和论据之间的逻辑连贯性时,可以将论文的相关部分输入模型,让它判断是否存在逻辑跳跃或者逻辑不清晰的地方;在新闻报道分析中,对于事件发生的因果关系等逻辑关系的梳理,模型也能够提供一定的辅助分析。

智谱清言的Zero推理模型与其他模型的比较

与OpenAI相关模型的对比

性能对比

在AIME2024、MATH500以及LiveCodeBench评测中,Zero推理模型与OpenAIo1 - preview互有胜负,并且在部分测试中有小幅超越。然而,目前的GLM - Zero - Preview与OpenAI的o3模型还存在不少差距。这种差距反映在多个方面,例如模型的深度思考能力的广度和深度,以及在处理复杂任务时的准确性等。虽然还不及o3模型,但Zero推理模型后续还有提升空间,因为智谱将持续优化迭代强化学习技术。

推理能力特性对比

Zero推理模型在对数理逻辑、代码和深度推理复杂问题上有自身特性。例如在处理数学问题呈现详细的解题步骤这一特性上与OpenAI一些模型类似,但可能在解题的思路和算法优化上会因为模型结构和训练机制的不同而有所差异。在推理过程中,Zero推理模型的类人思考决策过程(自主决策、问题拆解、尝试多种方式解决问题等)与OpenAI模型对比,在重点和方式上可能存在区别,具体表现为对于中文语境下逻辑推理的处理方式,Zero推理模型更能深入理解中文语言的陷阱并准确推理,这是由于它可能在中文数据的挖掘和处理上有独特之处。

与自身基座模型比较

能力平衡方面

与智谱自家的基座模型做比较,Zero推理模型在不显著降低通用任务能力的同时,大幅提升了专家任务能力。这是一个非常重要的特性区别,例如在常规的问答任务中,基座模型可能和Zero推理模型都能进行回答,但在需要深度数理逻辑推理或者复杂代码编写优化等专家类型任务中,Zero推理模型表现更为出色。这是由于Zero推理模型专注于增强AI推理能力,采用了扩展强化学习技术训练,使得在处理这些需要深度技术能力的任务时表现优异。

任务表现侧重方面

对于基座模型而言,可能在一般性信息处理、基础的问答交互等方面比较擅长,而Zero推理模型因为更专注推理属性任务,所以在像数学运算推理、代码深度分析与调试等任务上表现更加突出。例如在同是对一个代码片段进行分析时,基座模型可能只是给出一般性的代码功能描述,而Zero推理模型能够深入到代码逻辑中,识别潜在的性能优化点,甚至调试代码中的错误。

如何使用智谱清言的Zero推理模型

普通用户的使用方式

网页端使用

用户可以在智谱清言网页端(chatglm.cn )进行使用。首先打开智谱清言网页,在其中找到「Zero推理模型」智能体选项。然后就可以输入文字内容与模型进行交互,例如你想让它解答一道数学题,就将题目准确无误地输入进去;如果是一个逻辑谜题或者是对某个代码片段有疑问,也可以输入相关的文字描述。另外,该模型还支持上传图片输入,可以在需要分析图片中的逻辑元素或者与图片相关的数理逻辑、代码等问题场景使用。模型会针对用户的输入内容输出完整的推理过程,这有助于用户了解模型是如何一步步得出答案的,对于学习或者探索问题相当有帮助 。

资源包与体验细节

官方为用户提供了2000万token免费体验资源包,用户可以领取后在与Zero推理模型交互过程中使用。这就为用户免费体验和初步探索模型的能力提供了足够的资源支撑。在使用中,如果遇到问题或者想深入了解更多关于模型的功能等,可以查看相关的帮助文档或者智谱清言的官方公告获取更多资讯。

开发者的使用方式

API调用

开发者可以在智谱开放平台(bigmodel.cn )通过API来调用Zero推理模型。这为开发者将Zero推理模型集成到自己开发的应用程序或者其他项目中提供了便利。例如,开发者如果正在开发一个线上数学学习辅助平台,就可以调用该模型的API,让用户在平台上直接使用Zero推理模型求解数学问题;如果是在开发一个代码编辑工具,也可以集成该模型,从而能让用户直接利用模型进行代码调试等操作。不过,在进行API调用时,需要按照智谱开放平台的相关规定和文档来执行操作,包括请求的格式、流量的限制以及安全性等方面的要求等 。

需要更多免费AI工具、最新Ai信息、详细使用和丰富Ai教程、Ai变现方法的小伙伴可以加入路上侠客的知识星球,一年会员,原价199元,现在只需99元

【声明】内容源于网络
0
0
路上侠客
谈讨、研究、实践AI智能和跨境电商之间的联系和应用。旨在和科技浪潮对冲时产生一些火花,提高工作效率。网站:www.roadheroai.com
内容 818
粉丝 0
路上侠客 谈讨、研究、实践AI智能和跨境电商之间的联系和应用。旨在和科技浪潮对冲时产生一些火花,提高工作效率。网站:www.roadheroai.com
总阅读301
粉丝0
内容818