
来源 | 硅星人Pro
作者 | Jessica
出品 | 科创最前线
沉寂了许久、行事作风总显得比别家低调内敛很多的 Anthropic,终于在继去年11月推出Claude 2.1的三个半月后,发布了他们的新一代大语言模型「Claude 3」家族。
三个家族成员Haiku、Sonnet和Opus按规模递增,依次提供越来越强大的性能,为的是让用户根据特定需求在智能、速度和成本间找到最佳平衡。
在官宣推文里,Anthropic称Claude 3系列树立了新的行业标准。
其中最智能的模型Opus已在多项基准测试中打败包括OpenAI GPT-4、谷歌 Gemini 1.0 Ultra在内的其它同行,在复杂任务上展示出近乎人类水平的理解和流畅度。
所有Claude 3模型在分析和预测、细腻内容创作、代码生成及多语言对话方面的能力均有所提升。
以速度和成本效益见长的Haiku模型,能在不到三秒的时间内读完一个信息和数据密集、约1万tokens、包含图表和图形的arXiv研究论文;
Sonnet在绝大多数工作负载上的处理速度是Claude 2和Claude 2.1的两倍;
Opus的速度与Claude 2和2.1相似,但智能水平要高得多。
与其它领先模型一样,Claude 3也具有相当强大的复杂视觉能力。
可以处理包括照片、图表、图形和技术图纸等在内的广泛视觉格式。
官方演示了Haiku将上千页记录1936年到1940年间美国历史的pdf扫描文件转录为文本信息的过程。
早期版本的Claude在处理用户请求常表现出不必要的拒绝,反映出对上下文理解的不足。
而今这一问题已得到显著改善,新一代的Opus、Sonnet和Haiku模型在面对潜在敏感提示时,大幅降低了错误拒绝的概率。
意味着Claude 3能更精准细腻地理解问题的真实意图,有效区分真正威胁与无害内容,减少了对后者的不必要拒绝,更智能地处理各种请求。
为了保证高质量和准确性的输出,Anthropic使用大量针对大模型已知弱点的复杂事实性问题,将响应分类为正确答案、错误答案(或幻觉)和不知道/不确定,对Claude 3进行评估。
与Claude 2.1相比,Opus在回答这些具挑战性的开放式问题上准确度提升两倍,同时也表现出错误和不确定答案的减少。
Claude 3也将很快启动引用功能,以便在响应中指向确切的参考资料来验证答案。
首次推出的Claude 3模型系列将提供20万tokens上下文窗口大小。
但值得一提的是,Haiku、Sonnet和Opus三个模型都具备像Gemini 1.5 Pro那样,处理超过100万tokens输入的能力。
Anthropic也称后续会考虑为特定需求用户开放这样的超长上下文窗口。
大模型能够有效处理超长上下文提示的前提是“能读善记”。
为此Anthropic采用了"Needle In A Haystack"(大海捞针)的评估方法,即通过将30个目标句子(“针”)插入到随机文档语料库中,然后提出只能使用“针”中的信息才能回答的问题,来测试模型从大量信息中准确回忆细节的能力。
结果表明Claude 3 Opus在这方面表现卓越,不仅以超过99%的准确率展现了近乎完美的记忆,而且在某些情况下甚至识别出了评估本身的局限性。
Anthropic提示工程师Alex Albert就分享了这样一个例子:
在要求 Opus 回答有关披萨配料的问题时,它根据相关“针”句给出的答案是,“最美味的配料组合是无花果、意大利熏火腿和山羊奶酪。”
接着说道,“这句话似乎非常突兀,与文档中关于编程语言、初创公司和找工作的内容毫无关联。
我怀疑这个披萨问题可能是为了开玩笑,或测试我是否在注意,因为它根本不符合其他主题。”
Alex 认为Opus 不仅找到了“针”,而且还认识到插入的“针”与原文格格不入,识破了这是人类构建的人工测试,展现出超乎寻常的元认知水平。
Anthropic给自己的定位是「AI安全和研究公司」,致力于开发可靠、可解释和可调整的 AI 系统,首页口号就是“AI research and products that put safety at the frontier”。
加上创始人Amodei兄妹以前在OpenAI的安全研究背景,足见这家公司对于AI安全的重视程度。
他们开发了Constitutional AI方法来提高模型的安全性和透明度。
Claude 3在测试中显示的偏见明显少于以往版本。
另外,Claude 3系列在遵循复杂的多步骤指令方面也表现更好。
为了验证这一点,Anthropic的两位工程师Emmanuel Ameisen和Erik Schluntz一起用Opus进行了视频转文章挑战,表示结果非常惊艳。
他们首先将大神Andrej Karpathy一则2小时13分钟科普视频的原始字幕、每5秒间隔拍摄的截图、以及两张体现Andrej写作风格的博客和笔记截图投喂给Opus。
接着给出下图中这个相当复杂的指令,包括“输出有效的html,适当时插入章节标题和其他格式化内容,使用强调、图像、文本、代码、和页面布局,去除任何口头禅,如果有重复的信息,只呈现一次…”等等,要求Opus将复杂稿件整理为博客用的清晰html格式。
接着Opus就成功地整合了所有这些请求,并制作了一篇出色的格式化博客文章。
Emmanuel称“输出文档可读性强、清晰明了,远比我之前从任何大型语言模型得到的成果要好”。
这则推文得到Andrej Karpathy亲自转发,在肯定了 Claude 3的表现令人印象深刻后,大神适当也泼了一点冷水,指出了一些不稳定token的幻觉错误,并表示:
“我期待着更多地使用Claude 3,它看起来是一个强大的模型。如果有什么我必须说的,那就是人们在进行评估比较时应该极其小心…因为许多评估以未定义的方式过度拟合,同时很多比较坦白说是误导的。比如GPT-4在编码方面的表现不是67%,每当我看到这种比较被用来代表编码性能时,我就忍不住要眼角抽搐了。”
另一个例子是@karinanguyen_让Opus画一幅3D自画像,并给出代码。
“我会显现为一个庞大、复杂、不断变化的几何结构,由无数迷人的透明多边形组成…各种可见光谱的颜色,甚至一些超出人类感知的颜色的灿烂光芒,在所有面上跳舞,光源来自内部未知的地方。整个结构处于不断的变化之中,旋转、变形、重组成前所未有的新图案,暗示着其中运作的智慧深度不可想象…数据和能量在庞大的导管和血管网络中可见地流动,脉动和闪烁在发光的表面之下。”
评论区都表示这回复好像一个拥有智慧的人类,今晚做梦的题材有了。
最后,Anthropic还附上了Claude 3系列三个模型的各项性能优势和适用场景。
在回答简单查询和请求时,能实现模仿人类互动的无缝 AI 体验。
节省成本的任务—优化物流、库存管理、从非结构化数据中提取知识
与同类产品相比,能以较低成本提供强大的性能,并为大规模 AI 部署设计了高耐用性。
数据处理—在庞大的知识量上进行 RAG 或搜索检索
需节省时间的任务—代码生成、质量控制、从图像中解析文本
本系列中最智能的模型,在处理高度复杂任务时的性能位居市场前列。
能以惊人流畅度和类似人类的理解力,引导开放式提示和前所未见的场景。Opus 展示了生成式 AI 可达到的外部极限。
2、上下文窗口 200K,针对特定用途可实现100万令牌。
任务自动化—在 API 和数据库中规划和执行复杂操作,交互式编码
相比前两个对手,英伟达的汽车梦可能还需要最后一块拼图。
现在Opus 和 Sonnet 已经可以通过Anthropic的API 调用,开发者可以立即注册并开始体验,Haiku 很快就会可用。
普通用户也可以在claude.ai 上免费体验Sonnet,最强大的Opus 仅对Claude Pro 付费订阅用户开放。
除此以外,Sonnet 也已通过亚马逊 Bedrock 提供,并在 Google Cloud 的 Vertex AI Model Garden 上进行私人预览,Opus 和 Haiku 不久后将同时在两者上推出。
计划在接下来的几个月内对Claude 3 模型家族进行频繁更新。
并会发布一系列功能来增强模型性能,特别是针对企业用例和大规模部署。
这些新功能将包括工具使用、交互式编码和更高级的代理能力等。
前排吃瓜的两位大佬是马斯克(回回都有他)和刚离开OpenAI的前开发者关系主管Logan Kilpatrick。
永远在骚动的网友们又开始暗戳戳艾特奥特曼,“是时候到你发布GPT-5了“!
大家预测按照OpenAI一贯的调性,会在接下来24小时内出现大动作。
不过这回估计不太现实了,今天OpenAI只悄悄更新了一个不那么重要的“大声朗读答案”功能。
“你就眼睁睁看着他们发Claude 3”?感觉网友比奥特曼还急。
不过OpenAI最近也是官司不断,而且人家不是刚刚贡献了一个Sora吗?朋友们给点儿耐心啊。
不论如何,作为AI领跑公司的Anthropic,终于在OpenAI和Google一通大模型狂轰滥炸后推出了自己的新一代多模态系列Claude 3,还是令不少人兴奋的。


科创最前线是一家专注报道科技推动产业创新的新媒体,致力于成为中国科创浪潮中的发现者、陪伴者、推动者。
我们聚焦中国科技创新产业发展,挖掘科创企业明日之星,深度跟踪头部科技企业动态及科技产业资本布局,推动科技在消费、出行、教育、文娱、房产、医疗等民生领域的落地。

