

人工智能和你：OpenAI 的 Sora 预览文本到视频的未来

俏千金做外贸

2024-02-22

4793

导读：通过我们对本周发展的综述，了解快速发展的人工智能世界。

人工智能的发展速度非常快。如果你不偶尔停下来看看周围，你可能会错过他们。幸运的是，我正在四处寻找你，本周我看到的是ChatGPT和 Dall-E 的制造商 OpenAI 与 Google 之间的竞争持续升温，值得关注。

在更新 Bard 聊天机器人并将名称更改为 Gemini 一周后，谷歌旗下 DeepMind AI 子公司预览了其生成式 AI 聊天机器人的下一版本。DeepMind 告诉 CNET 的 Lisa Lacy，Gemini 1.5 将“缓慢”地向注册等候名单的普通用户推出，现在仅向开发人员和企业客户提供。

Lacy 报告称，Gemini 1.5 Pro 的性能与 Google 2 月 8 日发布的 Gemini 1.0 Ultra 型号“一样强大”。1.5 Pro 型号的获胜率（衡量它可以超越多少基准的指标）为 87与 1.0 Pro 相比减少了 %，与 1.0 Ultra 相比减少了 55%。所以1.5 Pro本质上是现在最好的可用型号的升级版本。

Lacy 补充道，Gemini 1.5 Pro 可以摄取视频、图像、音频和文本来回答问题。Google DeepMind 研究副总裁兼 Gemini 联合负责人 Oriol Vinyals 将 1.5 描述为“研究版本”，并表示该模型“非常高效”，这要归功于独特的架构，可以通过专注于专家来源来回答问题。特定的主题，而不是从所有可能的来源寻求答案。
与此同时，OpenAI 宣布了一种名为 Sora 的新文本转视频模型，该模型因其能够生成逼真的视频而引起了广泛关注。Sora 可以“创建长达 60 秒的视频，其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。” OpenAI上周与谷歌和Meta 共同做出了为人工智能生成的图像和视频添加水印的承诺，并表示它还在创建工具来检测使用 Sora 创建的视频，以便将它们识别为人工智能生成的。

谷歌和Meta也宣布了他们自己的新一代人工智能文本到视频创作者。

Sora 在日语中的意思是“天空”，也被称为实验性的，OpenAI 目前限制所谓的“红队成员”的访问，这些安全专家和研究人员将评估该工具的潜在危害或风险。这兑现了乔·拜登总统去年人工智能行政命令的一部分所做出的承诺，要求开发人员在公开发布其新一代人工智能聊天机器人之前提交安全检查结果。OpenAI 表示，它还在寻求一些视觉艺术家、设计师和电影制作人对 Sora 的反馈。
逼真的视频看起来如何？很现实。我同意《纽约时报》的观点，它描述了简短的演示视频——“毛茸茸的猛犸象在白雪皑皑的草地上小跑，怪物凝视着融化的蜡烛，东京街景似乎是由俯冲穿过城市的摄像机拍摄的”—— - 作为“令人瞠目结舌”。

《麻省理工评论》也对 Sora 进行了预览，称“这项技术已经突破了文本到视频生成的可能性极限”。与此同时，《华盛顿邮报》指出，Sora 可能会加剧已经日益严重的视频深度造假问题，该问题已被用来“欺骗选民”和欺骗消费者。

一位 X 评论员这样总结道：“哦，天哪，我们来看看真实的东西了。” OpenAI 首席执行官 Sam Altman 称有关其视频生成模型的消息是一个“非凡的时刻”。

您可以在 OpenAI 的介绍网站上看到 Sora 可以生成的四个示例，其中指出该工具“能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该模型不理解“不仅包括用户在提示中提出的要求，还包括这些东西在物理世界中的存在方式。该模型对语言有深入的理解，使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。”
但 Sora 有其弱点，这就是为什么 OpenAI 尚未表示是否会真正将其纳入其聊天机器人中。Sora“可能很难准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后，饼干可能没有咬痕。该模型还可能会混淆提示的空间细节，例如混淆左右。”

所有这一切都是为了提醒我们，技术是一种工具，由我们人类来决定如何、何时、何地以及为何使用该技术。如果你没看过，新小黄人电影（《卑鄙的我 4：小黄人智能》）的预告片巧妙地阐述了这一点，其中对 gen AI Deepfakes 的讽刺和乔恩·哈姆 (Jon Hamm) 的画外音讲述了“人工智能正在改变我们的观看方式”世界……改变我们开展业务的方式。” “有了人工智能，”哈姆在小黄人的笑声中补充道，“未来就掌握在好人手中。”
以下是人工智能领域其他值得您关注的事情。

科技领导者对人工智能生成的选举错误信息采取“合理的预防措施”，但是……
Adobe、亚马逊、Anthropic、ElevenLabs、谷歌、IBM、Meta、微软、OpenAI、Snap、TikTok 和 X 等 20 家科技公司在慕尼黑举行的安全会议上同意，他们将自愿采取“合理的预防措施”来防范人工智能工具在选举前被用来误导或欺骗选民。

据 NPR报道，该协议文本称：“故意且未公开地生成和传播欺骗性人工智能选举内容可能会以危害选举过程完整性的方式欺骗公众。” “我们申明，保护选举诚信和公众信任是一项超越党派利益和国界的共同责任和共同利益。”

但美联社报道称，该协议“很大程度上是象征性的” ，并指出“合理的预防措施”有点含糊。
美联社表示：“这些公司并未承诺禁止或删除深度造假产品。” “相反，该协议概述了他们将用来尝试检测和标记在其平台上创建或分发的欺骗性人工智能内容的方法。它指出，这些公司将相互分享最佳实践，并在出现这种情况时提供“迅速和适当的响应”。内容开始传播。”

人工智能已经被用来试图欺骗美国和国外的选民。在新罕布什尔州总统初选前几天，诈骗者模仿拜登总统的声音发出了人工智能机器人电话，要求他们不要在初选中投票。这促使联邦通信委员会本月将人工智能生成的机器人电话定为非法。美联社表示，“就在11 月份斯洛伐克大选前几天，人工智能生成的录音冒充了一名候选人，讨论提高啤酒价格和操纵选举的计划。当这些录音在社交媒体上传播时，事实核查人员争先恐后地认定这些录音是虚假的。”
Meta 全球事务总裁尼克·克莱格 (Nick Clegg)表示：“每个人都认识到，没有一家科技公司、没有一个政府、没有一个民间社会组织能够独自应对这项技术的出现及其可能的恶意使用。”美联社在峰会前接受采访。

今年将有超过 40 亿人在 40 多个国家的重要选举中投票。据《国会山报》报道，其中包括美国。

是时候想出家庭安全词或密码了，如果你担心深度假货可能会被用来欺骗你或你的家人——有人打电话给你的祖父，冒充你向他们要钱——彭博社记者雷切尔·梅茨有一个好主意。她建议我们所有人可能是时候创建一个“家庭密码”或安全词或短语来与我们的家人或个人网络分享，我们可以要求这些密码来确保我们正在与我们认为正在交谈的人交谈。。

“敲诈勒索从未如此简单，”梅茨报告道。“过去需要时间、金钱和技术知识的造假现在几乎任何人都可以快速且廉价地完成。”梅茨说，这就是家庭密码的用武之地，因为它们“简单且免费”。“选择一个你和你的家人（或另一个值得信赖的团体）可以轻松记住的词。然后，如果其中一个人以一种看起来有点奇怪的方式伸出援手——比如说，他们突然要求你交付 5,000 金币阿拉斯加的一个邮政信箱的密码——首先询问他们密码是什么。”

如何选择一个好的密码？她提供了一些建议，包括使用您不常说的词，并且在休闲对话中不太可能出现。另外，“避免将密码设为宠物的名字，因为这些名字很容易被猜到。”

宾夕法尼亚大学宣布首个常春藤盟校人工智能本科学位

招聘专家告诉我，考虑到像 ChatGPT 这样的新一代人工智能工具要到 2022 年底才发布，建立一支受过人工智能教育的劳动力队伍需要数年时间。因此， Coursera、Udemy、Udacity、Khan Academy等学习平台是有道理的。许多大学都提供在线课程和证书来提高当今工人的技能。现在宾夕法尼亚大学工程与应用科学学院表示，它是第一所提供人工智能本科专业的常春藤盟校。
“生成式人工智能的迅速崛起正在改变生活的几乎各个方面：健康、能源、交通、机器人、计算机视觉、商业、学习甚至国家安全，”佩恩大学在 2 月 13 日的新闻稿中表示。“这迫切需要创新、领先的人工智能工程师，他们了解人工智能的原理以及如何以负责任和道德的方式应用它们。”

宾夕法尼亚大学教授扎卡里·艾夫斯（Zachary Ives）表示，人工智能理学学士课程提供机器学习、计算算法、数据分析和高级机器人技术方面的课程，并将让学生解决有关“如何使人工智能与我们的社会价值观保持一致以及如何构建值得信赖的人工智能系统”的问题。。

宾夕法尼亚大学工程学院本科教育副院长罗伯特·格里斯特（Robert Ghrist）补充道：“我们正在培训学生从事尚不存在的工作，这些领域在他们毕业时可能是全新的或革命性的。”

仅供参考，宾夕法尼亚大学本科教育的费用通常为四年，每年超过 88,000 美元（包括住宿和食物）。

提高当今工人的技能，使其具备人工智能能力

对于那些没有上大学或尚未注册任何在线人工智能证书的人来说，他们的人工智能技能提升可能来自于他们现任员工的帮助。波士顿咨询集团在其 2 月 9 日的报告《GenAI 表现最佳者的不同之处》中对 10 个行业的 150 多名高级管理人员进行了调查。一般来说：

23% 的公司正在制定新一代人工智能人才计划，其中包括“识别和绘制受影响角色”的举措以及“解决人才缺口的路线图”
14% 的人研究过职业道路，并根据人工智能对这些角色的影响“重新构想”它们
17% 的公司开展了通用或个性化培训，以提高员工的业务技能
38% 的公司为数据科学家员工提供通用或个性化培训
32% 的公司对应用工程师员工进行了通用或个性化培训

底线：公司开始关注现有的职位描述和职业轨迹，以及在考虑新一代人工智能将如何影响他们的业务时他们在劳动力中看到的差距。他们还开始提供新一代人工智能培训计划。但这些努力并没有减少当今工人了解新一代人工智能以及人工智能如何改变他们的工作方式和工作的需要。
在相关新闻中，软件制造商 SAP查看了谷歌搜索数据，以了解美国哪些州对“人工智能工作和人工智能业务采用”最感兴趣。

毫不奇怪，加州在“开放式人工智能工作”和“机器学习工作”的搜索中排名第一。华盛顿州排名第二，佛蒙特州排名第三，马萨诸塞州排名第四，马里兰州排名第五。

加州是“硅谷的所在地，也是著名的全球科技中心，对人工智能及相关领域表现出浓厚的兴趣，6.3%的加州企业表示，他们目前利用人工智能技术来生产商品和服务，另有8.4%的企业计划利用人工智能技术来生产商品和服务。”研究发现，在未来六个月内实施人工智能，这一数字比全国平均水平高出 85%。

弗吉尼亚州、纽约州、特拉华州、科罗拉多州和新泽西州依次进入前十名。

AI 词汇表：7 个值得了解的术语

在过去的几个月里，如果你想了解与人工智能相关的正在发生的事情，我强调了你应该知道的术语。因此，本周我将退后一步，为您提供词汇回顾，并提供定义来源的链接。
值得您花几分钟时间来了解这七个术语。

拟人化：人们倾向于将人类的品质或特征归因于人工智能聊天机器人。例如，你可能会根据它的答案认为它是仁慈的还是残忍的，即使它没有情感，或者你可能认为人工智能是有感知的，因为它非常擅长模仿人类语言。

通用人工智能 (AGI)：对与人类同等能力甚至更强的程序的描述。虽然未来仍无法实现全面的通用智能，但模型正在变得越来越复杂。有些人展示了从化学到心理学等多个领域的技能，其任务表现与人类基准相当。

生成人工智能 (gen AI )：通过识别大量训练数据中的模式，然后创建具有相似特征的原始材料来创建内容（包括文本、图像、视频和计算机代码）的技术。
幻觉：幻觉是人工智能程序意外且不正确的反应，其产生原因尚不完全清楚。当你询问有关种植果树的问题时，语言模型可能会突然提出水果沙拉食谱。它还可能会编造学术引文，对您要求其分析的数据撒谎，或者编造有关不在其训练数据中的事件的事实。目前尚不完全清楚为什么会发生这种情况，但可能是由于数据稀疏、信息差距和错误分类造成的。

大语言模型 (LLM)：一种人工智能模型，可以生成类似人类的文本，并在广泛的数据集上进行训练。

即时工程：这是向人工智能发出指令的行为，以便它拥有实现目标所需的背景。即时工程与 OpenAI 的 ChatGPT 最为相关，它描述了用户输入算法的任务。（例如“给我五个流行的婴儿名字。”）

温度：简单来说，模型温度是控制语言模型输出的随机性的参数。较高的温度意味着模型承担更多的风险，从而为您提供多样化的单词组合。另一方面，较低的温度使模型能够安全行事，坚持更有针对性和可预测的响应。

模型温度对文本生成、摘要和翻译等一系列[自然语言处理]任务中生成的文本质量有很大影响。棘手的部分是找到适合特定任务的完美模型温度。这有点像金发姑娘试图找到一碗完美的粥——不太热，不太冷，但恰到好处。最佳温度取决于任务的复杂程度以及您在输出中寻找多少创造力等因素。
原文链接；https://www.cnet.com/tech/computing/ai-and-you-openais-sora-previews-text-to-video-future-first-ivy-league-ai-degree/

【声明】内容源于网络

OpenAI

俏千金做外贸

内容 58

粉丝 2

俏千金做外贸俏千金做外贸

总阅读226.3k

粉丝2

内容58