1、马斯克旗下大模型 Grok-2 Beta 推出,可在 X 上生成图像
2、OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现
-
单元测试过于严格:用于评估解决方案正确性的单元测试往往过于具体,有时甚至与问题无关,这可能导致拒绝正确的解决方案。
-
问题描述不明确:许多样本的问题描述不够具体,导致问题是什么以及应如何解决含糊不清。
-
开发环境难以设置:有时很难可靠地为代理设置 SWE-bench 开发环境,从而无意中导致单元测试失败。
3、腾讯首个开源多模态大语言模型 VITA,可与用户进行无障碍沟通
4、力压 DALL-E 3 等顶级模型,谷歌开放 Imagen 3 文生图 AI 访问
5、昆仑万维发布全球首个 AI 流媒体音乐平台 Melodio
6、HeadGAP:三张视角图片即可生成逼真 3D 虚拟人
1、Reid Hoffman 对话 OpenAI 董事会主席:AI 处在 PC 早期,LLM 是一类新的软件,社会需要时间适应

