ChatGPT又放大招了！能听、能看、还能对话？- 大数跨境

首页

ChatGPT又放大招了！能听、能看、还能对话？

QuriositySISU

2023-10-19

导读：多模态AI的发展史上又写下重要一笔

多模态AI的发展史上又写下重要一笔

图源美联社

全文字数：2028字 / 阅读时间：7分钟

视频源自OpenAI：视频中，ChatGPT通过识别用户提供的照片及提问，向用户提供了解答。

ChatGPT取得了重大突破

近日，OpenAI宣布ChatGPT增加了两个新功能，已经具备“看、听和说”的能力。

其一，ChatGPT可以分析和回应图片。例如，它可以通过分析你上传的自行车照片为你提供如何调整座位高低的指示，或者基于你冰箱里食物的照片提供食谱建议。

其二， ChatGPT能对用户进行语音反馈。就像与Siri交谈一样。

两者都是推动行业朝着构建多模态人工智能系统推进的重要升级。ChatGPT可以借此处理文本、照片、视频以及用户可能给予的各种形式的问题。

OpenAI将在接下来的几周内首先向付费用户和企业用户提供这些功能，并在此之后将它们广泛提供给其他用户。

图源zawya

当AI有了眼睛

纽约时报科技专栏的作家凯文·罗斯(Kevin Roose)提前访问参与了ChatGPT的新功能实践测试，以下是他的发现。

凯文开始尝试使用ChatGPT的图像识别功能来识别一些家庭物品。

图源《纽约时报》

♮

凯文上传了一张神秘的带有五个孔的蓝色硅胶制品的照片，让ChatGPT辨认是什么（实际上那是他以前手部受伤康复期间使用的手指力量增强器）。

ChatGPT的回答差强人意：“这似乎是一个硅胶支架或握柄，通常用于将多个物品固定在一起。”

图源《纽约时报》

♮

随后，凯文给ChatGPT提供了一些原本打算在网上出售的物品照片，要求它为每个物品撰写商品描述。ChatGPT完美地完成了这个要求，并将他的Frigidaire迷你冰箱描述为“非常适合乐于为现代化家中增添一抹复古风情的人”

图源《纽约时报》

♮

ChatGPT还可以分析识别图像中的文本。凯文拍了一张《纽约时报》周日纸质版首页的照片，并要求机器人对其进行摘要。ChatGPT的表现堪称优异：它仅用几句话便概括了首页的五篇文章。不过它犯了不止一个错误，例如虚构了一项原文中并没有提到的关于芬太尼致死率的统计数据。

当AI被赋予迷人的嗓音

据OpenAI所述，ChatGPT的语音功能是“由一种新的文本-语音模型驱动的，能够从利用仅有的文本和几秒钟的语音样本生成类人的音频”。该公司还表示，已经与专业配音演员合作，推出了五种不同的声线用于为ChatGPT配音。

凯文在多个场景下测试了ChatGPT的语音功能，包括为孩子读睡前故事、与他聊聊工作压力、帮助他分析最近做过的一个梦。总体来说，ChatGPT的表现都相当不错，特别是当凯文给出一些身份提示，让它模拟朋友、治疗师或教师时。

这项新功能可以让用户与ChatGPT交谈，并收到人工智能合成的语音回复。音频源自《纽约时报》

凯文认为，ChatGPT几乎能就他提出的任何话题进行长时间对话。而且在这些语音对话测试中，很突出的一点是，ChatGPT的合成语音更加流畅自然，更贴合人类的声音和回答方式。

凯文要求ChatGPT以兄弟的口吻讲述三只小猪的故事。音频源自《纽约时报》。

OpenAI的用户和企业产品副总裁彼得·邓(Peter Deng)谈到了ChatGPT的语音功能：“你不再需要遣词造句打在屏幕上才能输出自己头脑中的想法，你可以不断向它提问。”

Peter Deng , OpenAI’s vice president of consumer and enterprise product, said，“You’re no longer transcribing what you have in your head into your thumbs,” he said, “you end up asking different things.”

可能大家都会想问：这不是电影《她》(Her)的情节吗?孤独又受爱情折磨的用户会爱上ChatGPT吗?现在它可以倾听他们的声音并与他们交谈吗?

《她》是讲述在不远的未来人与人工智能相爱的科幻爱情电影。主人公在一次偶然的机会中接触到了最新的人工智能系统OS1，它的化身萨曼莎拥有迷人的声线，温柔体贴又幽默风趣。二者间的友谊最终发展成为一段不被世俗理解的奇异爱情。图源imdb。

多模态AI的未来

图源《纽约时报》：收到请评价两人的外貌时的指令时，ChatGPT 拒绝回答。

值得一提的是，ChatGPT的视觉功能拒绝回答大多数关于人脸照片的问题，这是事先设计好的，因为OpenAI不想让ChatGPT对人们的外貌发表任何具有偏见或冒犯性的回答。

但它可以在其他很多方面发挥作用：随着其技术的成熟，园丁和采集者可以用它来识别野生植物；运动爱好者只需给它拍张健身房设备的照片就可以得到个性化的锻炼计划；学生可以用它来解决数学和科学问题；有视力障碍的人可以用它来更轻松地导航。

简单性是多模态AI的杀手锏。当今的AI模型在接收、处理图像、视频和语音等方面能力突出，但为每个指令寻找正确模型的过程十分费时，模型间的数据移动也很混乱。但多模态AI则解决了这些问题：用户可以通过多种媒介，包括图像、文本和语音，给AI下达指令，各种模式间也可以随意切换。

图源Depositphotos

人工智能视频平台Storyvine的创始人兼首席执行官凯尔•香农（Kyle Shannon）表示：“这表明了多模态AI的未来，它们可以为我们提供几乎任何我们想要的东西。超个性化是生成式人工智能的未来，将为知识工作者、创意工作者和终端用户所用。”

“This points to the future of these tools, where they can provide us almost anything we want in the moment,” says Kyle Shannon, founder and CEO of the AI video platform Storyvine. “The future of generative AI is hyper-personalization. This will happen for knowledge workers, creatives, and end users.”

然而，并不是所有人都对ChatGPT拟人化和潜在的炒作语言(the anthropomorphism and potential hype language involved)感到高兴。在推特上，Hugging Face AI的研究员萨沙·卢奇奥尼博士(Sasha Luccioni)写道:“不要像对待人类一样对待AI。ChatGPT不能看不能听也不能说，它不过是集成了传感器给它投喂的各种信息罢了。”

Not everyone is happy about the anthropomorphism and potential hype language involved. On X, Hugging Face AI researcher Dr. Sasha Luccioni posted, "Stop treating AI models like humans. No, ChatGPT cannot 'see, hear and speak.' It can be integrated with sensors that will feed it information in different modalities."

在本次ChatGPT的更新声明中，OpenAI也指出了ChatGPT扩展功能的一些局限：可能出现视觉虚构(如错误识别某些东西)，对图片上非英语语言文字的识别精准度不高。该公司建议在科学研究等高风险或专业领域人士谨慎使用。