大数跨境
0
0

LLM 评估综述论文问世,还带资料库丨RTE开发者日报 Vol.18

LLM 评估综述论文问世,还带资料库丨RTE开发者日报 Vol.18 RTE开发者社区
2023-08-02
0
导读:本期关键词:IPv4、GPT-5


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE (Real Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Asui,@CY,@Tricker



01

有话题的新闻



1、全球 43 亿 IPv4 地址耗尽的四年后,亚马逊:明年,将对所有公共 IPv4 地址收费!

近日,亚马逊首席布道师 Jeff Barr 发布了一篇博客,对外宣布即将对公共 IPv4 地址实行新的收费政策,所有的公共 IPv4 地址按每个 IP 每小时 0.005 美元的价格收费,而且无论其是否附加到服务中,都要收费。执行时间为 2024 年 2 月 1 日起。

对此,据亚马逊透露,在过去五年中,由于难以获得公共 IPv4 地址,单个地址的获取成本上涨了 300% 以上。在云计算巨头亚马逊看来,这是一笔不菲的支出,为了缩减成本,AWS 才做下此番决定,宣布将从明年开始对 IPv4 公网地址收费。

Jeff Barr 在公告中写道,“这一变化反映了我们自身的成本,同时也是为了鼓励大家在使用公共 IPv4 地址时更加节俭,并考虑加快采用 IPv6 作为现代化和保护措施。”未来,亚马逊将从 2024 年 2 月 1 日开始,对所有公共 IPv4 地址以每小时每个 IP 地址收取 0.005 美元的政策来收费。亚马逊表示,这些收费将适用于所有 AWS 服务,包括 EC2、关系数据库服务(RDS)数据库实例、Elastic Kubernetes Service (EKS),并将适用于所有 AWS 区域(商业、AWS China 和 GovCloud)(@CSDN)


2、苹果和 Pixar, Adobe, Autodesk, NVIDA, JDF 成立 AOUSD

openUSD 是 Pixar 创建的高性能 3D 场景描述技术,提供跨工 具、数据、工作流的强大互操作性, AOUSD(alliance for OpenUSD) 通过推进 OpenUSD 的能力促进 3D 生态系统的标准化,使得开发者和内容创作者可以描述、组合和模拟大规模的 3D 项目,并且扩大3D 产品和服务。OpenUSD 是 visionOS 和 Reality Composer Pro 的基本技术,AOUSD 的成立有望加速 3D 内容创作和空间计算应用构建。(@cool3c)


3、室温超导首批重复实验结果出炉:三篇论文两篇来自中国,理论可行但未复现

在LK-99的两篇论文于7月22日上午首次在预印本网站公开约一周后,目前至少又有三篇与LK-99相关的新论文在预印本网站arXiv上公开。其中两篇来自中国,另一篇来自美国。从计算结果来看,LK-99有室温超导的“可能性”,但未观察到超导现象或超导磁悬浮现象。(@澎湃新闻)


4、苹果取得新专利,能够使 Vision Pro 模拟生成气味

2日讯,综合美国商标和专利局 (USPTO)公示的专利清单以及多家外媒消息,近日苹果公司获得了编号为 US11715301B2 的技术专利。该项专利能够让 Vision Pro 头显实现“非可见现象的可视化” ,例如能够让佩戴者看到无线电信号、声音,并且可以模拟生成各种气味。(@财联社电报)


5、OpenAI 提交 GPT-5 商标申请

在生成式 AI 领域,OpenAI 的 GPT 已经成为标杆,而且他们升级的速度实在太快了,别人追 GPT-3.5 的时候 GPT-4 横空出世,差距被拉开了,现在 GPT-5 就要来了。来自商标律师的泄露消息显示,OpenAI 已经在 7 月 18 日注册了 GPT-5 商标。(@亿邦动力)


6、Rust 基金会发布首份安全倡议成就报告

2022 年,Rust 基金会成立了安全倡议,旨在支持 Rust 编程语言生态系统的安全改进。基金会详细介绍了最近的 Rust 安全重点领域、里程碑和即将推出的计划。这份报告包含的内容有:对 Rust 生态系统进行了全面的安全审计,并取得了可观进展、完成了多个威胁模型,使Rust 基金会和 Rust 项目能够更好地理解安全审计中发现的风险、开发了几个新工具,以增强 Rust 维护人员的安全工作流程,并深入洞察漏洞情况,其中包括 Painter。crates.io 技术债务减少和API 令牌改进等。
详细报告可查看:https://foundation.rust-lang.org/news/new-rust-foundation-report-details-security-initiative-progress/





02

有态度的观点



1、原苹果首任 AI 总监:真正的智能,需要与世界互动

作为一名人工智能领域的资深学者,原苹果首任AI总监Salakhutdinov表达了乐观的态度。他表示,对这一轮AI所展现出的能力感到兴奋,且并不认为人工智能目前的发展会对人类生存带来威胁;他同时表示,大语言模型,虽然不一定是通用人工智能的唯一路径,但却是重要的基础,这方面的进展为学术界探索通用人工智能提供了更多的启发和信心。(@AI未来指北)




03

有思考的文章



《LLM评估综述论文问世,分三方面全面总结,还带资料库》(@机器之心)

目前而言,学术界和产业界最感兴趣的技术方法是大型语言模型(LLM)。已有的研究表明:LLM 表现优异,已经成为 AGI 的有力候选。相比于之前受限于特定任务的模型,LLM 有能力解决多种不同任务。由于 LLM 既能应对一般性自然语言任务,又能处理特定领域的任务,因此越来越受有特定信息需求的人的欢迎,比如学生和病人。评估对于 LLM 的成功来说至关重要,原因如下。

首先,评估 LLM 有助于我们更好地了解 LLM 的优势和劣势。举个例子,PromptBench 基准测试表明,当前的 LLM 对对抗性 prompt 很敏感,因此为了更好的性能,必需仔细设计 prompt。

第二,更好的评估可以为人类与 LLM 的交互提供更好的指引,这能为未来的交互设计和实现提供思路。

第三,LLM 由于广泛适用于多种任务,因此确保其安全性和可靠性就至关重要了,尤其是在金融和医疗等行业。

最后,随着 LLM 能力增多,其也在越来越大,因此现有的评估方法可能不足以评估它们的能力和潜在风险。这就引出了这篇综述论文的目标:让 AI 社区认识到 LLM 评估的重要性并指引有关 LLM 评估协议的未来新研究。

随着 ChatGPT 和 GPT-4 的推出,已经出现了一些旨在从不同方面评估 ChatGPT 和其它 LLM 的研究工作,其中涵盖很多因素,包括自然语言任务、推理、稳健性、可信度、医学应用和道德考量。尽管如此,仍然缺乏一篇涵盖整个评估图景的全面综述。此外,LLM 的持续演进还会引入需要评估的新方面,这会给现有评估带来困难,并由此更加需要彻底的和多方面的评估技术。尽管有一些研究工作宣传 GPT-4 可以被视为 AGI 的星星之火,但另一些人则反对这个说法,因为 GPT-4 的评估方法本质上还是启发式的。

这篇来自吉林大学、微软亚洲研究院和卡内基・梅隆大学等机构论文对大型语言模型评估进行了全面综述。如图 1 所示,作者从三个维度对现有研究工作进行了探索:

  • 评估什么
  • 何处评估
  • 如何评估

不仅如此,该论文作者还创建了一个开源资料库,让用户可以方便地添加和共享相关的新研究:https://github.com/MLGroupJLU/LLM-eval-survey




写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读653
粉丝0
内容1.1k