

LLM 评估综述论文问世，还带资料库丨RTE开发者日报 Vol.18

RTE开发者社区

2023-08-02

导读：本期关键词：IPv4、GPT-5

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE (Real Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Asui，@CY，@Tricker

有话题的新闻

1、全球 43 亿 IPv4 地址耗尽的四年后，亚马逊：明年，将对所有公共 IPv4 地址收费！

近日，亚马逊首席布道师 Jeff Barr 发布了一篇博客，对外宣布即将对公共 IPv4 地址实行新的收费政策，所有的公共 IPv4 地址按每个 IP 每小时 0.005 美元的价格收费，而且无论其是否附加到服务中，都要收费。执行时间为 2024 年 2 月 1 日起。

对此，据亚马逊透露，在过去五年中，由于难以获得公共 IPv4 地址，单个地址的获取成本上涨了 300% 以上。在云计算巨头亚马逊看来，这是一笔不菲的支出，为了缩减成本，AWS 才做下此番决定，宣布将从明年开始对 IPv4 公网地址收费。

Jeff Barr 在公告中写道，“这一变化反映了我们自身的成本，同时也是为了鼓励大家在使用公共 IPv4 地址时更加节俭，并考虑加快采用 IPv6 作为现代化和保护措施。”未来，亚马逊将从 2024 年 2 月 1 日开始，对所有公共 IPv4 地址以每小时每个 IP 地址收取 0.005 美元的政策来收费。亚马逊表示，这些收费将适用于所有 AWS 服务，包括 EC2、关系数据库服务（RDS）数据库实例、Elastic Kubernetes Service (EKS)，并将适用于所有 AWS 区域（商业、AWS China 和 GovCloud）。（@CSDN）

2、苹果和 Pixar, Adobe, Autodesk, NVIDA, JDF 成立 AOUSD

openUSD 是 Pixar 创建的高性能 3D 场景描述技术，提供跨工具、数据、工作流的强大互操作性， AOUSD(alliance for OpenUSD) 通过推进 OpenUSD 的能力促进 3D 生态系统的标准化，使得开发者和内容创作者可以描述、组合和模拟大规模的 3D 项目，并且扩大3D 产品和服务。OpenUSD 是 visionOS 和 Reality Composer Pro 的基本技术，AOUSD 的成立有望加速 3D 内容创作和空间计算应用构建。（@cool3c）

3、室温超导首批重复实验结果出炉：三篇论文两篇来自中国，理论可行但未复现

在LK-99的两篇论文于7月22日上午首次在预印本网站公开约一周后，目前至少又有三篇与LK-99相关的新论文在预印本网站arXiv上公开。其中两篇来自中国，另一篇来自美国。从计算结果来看，LK-99有室温超导的“可能性”，但未观察到超导现象或超导磁悬浮现象。（@澎湃新闻）

4、苹果取得新专利，能够使 Vision Pro 模拟生成气味

2日讯，综合美国商标和专利局 (USPTO）公示的专利清单以及多家外媒消息，近日苹果公司获得了编号为 US11715301B2 的技术专利。该项专利能够让 Vision Pro 头显实现“非可见现象的可视化” ，例如能够让佩戴者看到无线电信号、声音，并且可以模拟生成各种气味。（@财联社电报）

5、OpenAI 提交 GPT-5 商标申请

在生成式 AI 领域，OpenAI 的 GPT 已经成为标杆，而且他们升级的速度实在太快了，别人追 GPT-3.5 的时候 GPT-4 横空出世，差距被拉开了，现在 GPT-5 就要来了。来自商标律师的泄露消息显示，OpenAI 已经在 7 月 18 日注册了 GPT-5 商标。（@亿邦动力）

6、Rust 基金会发布首份安全倡议成就报告

2022 年，Rust 基金会成立了安全倡议，旨在支持 Rust 编程语言生态系统的安全改进。基金会详细介绍了最近的 Rust 安全重点领域、里程碑和即将推出的计划。这份报告包含的内容有：对 Rust 生态系统进行了全面的安全审计，并取得了可观进展、完成了多个威胁模型，使Rust 基金会和 Rust 项目能够更好地理解安全审计中发现的风险、开发了几个新工具，以增强 Rust 维护人员的安全工作流程，并深入洞察漏洞情况，其中包括 Painter。crates.io 技术债务减少和API 令牌改进等。

详细报告可查看：https://foundation.rust-lang.org/news/new-rust-foundation-report-details-security-initiative-progress/

有态度的观点

1、原苹果首任 AI 总监：真正的智能，需要与世界互动

作为一名人工智能领域的资深学者，原苹果首任AI总监Salakhutdinov表达了乐观的态度。他表示，对这一轮AI所展现出的能力感到兴奋，且并不认为人工智能目前的发展会对人类生存带来威胁；他同时表示，大语言模型，虽然不一定是通用人工智能的唯一路径，但却是重要的基础，这方面的进展为学术界探索通用人工智能提供了更多的启发和信心。（@AI未来指北）

有思考的文章

《LLM评估综述论文问世，分三方面全面总结，还带资料库》（@机器之心）

目前而言，学术界和产业界最感兴趣的技术方法是大型语言模型（LLM）。已有的研究表明：LLM 表现优异，已经成为 AGI 的有力候选。相比于之前受限于特定任务的模型，LLM 有能力解决多种不同任务。由于 LLM 既能应对一般性自然语言任务，又能处理特定领域的任务，因此越来越受有特定信息需求的人的欢迎，比如学生和病人。评估对于 LLM 的成功来说至关重要，原因如下。

首先，评估 LLM 有助于我们更好地了解 LLM 的优势和劣势。举个例子，PromptBench 基准测试表明，当前的 LLM 对对抗性 prompt 很敏感，因此为了更好的性能，必需仔细设计 prompt。

第二，更好的评估可以为人类与 LLM 的交互提供更好的指引，这能为未来的交互设计和实现提供思路。

第三，LLM 由于广泛适用于多种任务，因此确保其安全性和可靠性就至关重要了，尤其是在金融和医疗等行业。

最后，随着 LLM 能力增多，其也在越来越大，因此现有的评估方法可能不足以评估它们的能力和潜在风险。这就引出了这篇综述论文的目标：让 AI 社区认识到 LLM 评估的重要性并指引有关 LLM 评估协议的未来新研究。

随着 ChatGPT 和 GPT-4 的推出，已经出现了一些旨在从不同方面评估 ChatGPT 和其它 LLM 的研究工作，其中涵盖很多因素，包括自然语言任务、推理、稳健性、可信度、医学应用和道德考量。尽管如此，仍然缺乏一篇涵盖整个评估图景的全面综述。此外，LLM 的持续演进还会引入需要评估的新方面，这会给现有评估带来困难，并由此更加需要彻底的和多方面的评估技术。尽管有一些研究工作宣传 GPT-4 可以被视为 AGI 的星星之火，但另一些人则反对这个说法，因为 GPT-4 的评估方法本质上还是启发式的。

这篇来自吉林大学、微软亚洲研究院和卡内基・梅隆大学等机构论文对大型语言模型评估进行了全面综述。如图 1 所示，作者从三个维度对现有研究工作进行了探索：

评估什么
何处评估
如何评估

不仅如此，该论文作者还创建了一个开源资料库，让用户可以方便地添加和共享相关的新研究：https://github.com/MLGroupJLU/LLM-eval-survey

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

【声明】内容源于网络

RTE开发者社区

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

内容 1122

粉丝 0

RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

总阅读653

粉丝0

内容1.1k