大数跨境
0
0

AI觉醒?软件工程师Genie刷爆朋友圈!可以像人类一样思考!

AI觉醒?软件工程师Genie刷爆朋友圈!可以像人类一样思考! 软积木
2024-08-13
0
导读:Genie是世界上第一位接受过数据培训的人工智能软件工程同事,完美模拟了人类工程师的认知过程、逻辑和工作流程。
8月12日, Cosine宣布自己打造出了世界上最强的AI编程Agents产品。
Genie是世界上第一位接受过数据培训的人工智能软件工程同事,完美模拟了人类工程师的认知过程、逻辑和工作流程。

超牛的软件工程模型

根据SWE-Bench的数据,Genie是综合能力最出众的软件工程模型。
该模型旨在模拟人类工程师的认知过程,能够完全自主地或与用户配对来解决错误、构建功能、重构代码等。
下图为仅用了84s,Genie跑通了相关代码。
根据创始人之一Alistair的描述,团队在2022年底就提出了构建Genie的想法。
当时需要克服的最大挑战之一是,希望Genie能够对其所看到的内容做出反应,并以最合乎逻辑的方式继续进行,但是他们需要一个可以代表这一点的数据集。

Genie训练过程

该团队早期探索时,在超过1亿个token的大量数据集上对它们进行训练。
但是,信息量仍然受限,唯一的方法是使用更大的上下文模型。
这时候OpenAI出现了。
所以在推出本次产品的时候,该团队特别感谢了OpenAI的FT团队。

非常感谢OpenAI的FT团队,如果没有这个模型,我们不可能做到这一点!

接着,在最近的训练中,Genie接受了数十亿个数据标记的训练。
这些数据的训练提供了更多用户当前关心的语言。
后续,该团队还对模型检索任务信息的能力进行了基准测试,特别是检索进行更改所需的代码文件的正确部分的能力。

测评数据有看点

该团队开发过程中使用了两个核心基准SWE-Bench和HumanEval来评估模型的性能
前者是对模型解决软件工程问题能力的最佳测试,涵盖分解问题、查找相关代码、对代码进行分类以及实现工作解决方案,后者更专注于编写代码。
抛出的测评报告,该模型在SWE-Bench上取得了30.08%的成绩。
数据看起来一般,但是不妨看看对比。
该分数远高于亚马逊Q和Code Factory。
就上下文而言,甚至超过了OpenAI的GPT-4。

小而强的团队

根据公司官网介绍,这只是一个五人团队。
主要研究如何准确地编写人类执行任务的方式,然后教人工智能模仿、擅长并扩展相同的工作。

END


ChatU可免费申请试用,支持企业私有部署,多引擎AIGC操作系统安全稳定,点击下方公众号一键试用!


【声明】内容源于网络
0
0
软积木
🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
内容 157
粉丝 0
软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
总阅读154
粉丝0
内容157