

AI觉醒？软件工程师Genie刷爆朋友圈！可以像人类一样思考！

软积木

2024-08-13

导读：Genie是世界上第一位接受过数据培训的人工智能软件工程同事，完美模拟了人类工程师的认知过程、逻辑和工作流程。

8月12日， Cosine宣布自己打造出了世界上最强的AI编程Agents产品。

Genie是世界上第一位接受过数据培训的人工智能软件工程同事，完美模拟了人类工程师的认知过程、逻辑和工作流程。

超牛的软件工程模型

根据SWE-Bench的数据，Genie是综合能力最出众的软件工程模型。

该模型旨在模拟人类工程师的认知过程，能够完全自主地或与用户配对来解决错误、构建功能、重构代码等。

下图为仅用了84s，Genie跑通了相关代码。

根据创始人之一Alistair的描述，团队在2022年底就提出了构建Genie的想法。

当时需要克服的最大挑战之一是，希望Genie能够对其所看到的内容做出反应，并以最合乎逻辑的方式继续进行，但是他们需要一个可以代表这一点的数据集。

Genie训练过程

该团队早期探索时，在超过1亿个token的大量数据集上对它们进行训练。

但是，信息量仍然受限，唯一的方法是使用更大的上下文模型。

这时候OpenAI出现了。

所以在推出本次产品的时候，该团队特别感谢了OpenAI的FT团队。

非常感谢OpenAI的FT团队，如果没有这个模型，我们不可能做到这一点！

接着，在最近的训练中，Genie接受了数十亿个数据标记的训练。

这些数据的训练提供了更多用户当前关心的语言。

后续，该团队还对模型检索任务信息的能力进行了基准测试，特别是检索进行更改所需的代码文件的正确部分的能力。

测评数据有看点

该团队开发过程中使用了两个核心基准SWE-Bench和HumanEval来评估模型的性能。

前者是对模型解决软件工程问题能力的最佳测试，涵盖分解问题、查找相关代码、对代码进行分类以及实现工作解决方案，后者更专注于编写代码。

抛出的测评报告，该模型在SWE-Bench上取得了30.08%的成绩。

数据看起来一般，但是不妨看看对比。

该分数远高于亚马逊Q和Code Factory。

就上下文而言，甚至超过了OpenAI的GPT-4。

小而强的团队

根据公司官网介绍，这只是一个五人团队。

主要研究如何准确地编写人类执行任务的方式，然后教人工智能模仿、擅长并扩展相同的工作。

END

ChatU可免费申请试用，支持企业私有部署，多引擎AIGC操作系统安全稳定，点击下方公众号一键试用！

【声明】内容源于网络

软积木

🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

内容 157

粉丝 0

软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

总阅读154

粉丝0

内容157