大数跨境
0
0

最快的 GPT-4 语音对话项目,延迟只有 1.8 秒!丨RTE开发者日报 Vol.05

最快的 GPT-4 语音对话项目,延迟只有 1.8 秒!丨RTE开发者日报 Vol.05 RTE开发者社区
2023-07-14
0
导读:本期关键词:提速与变形


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE (Real Time Engagement) 领域内「有话题的新闻「有态度的观点「有意思的数据「有思考的文章「有看点的活动」等,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Asui,@CY


01

有话题的新闻



1、Bard 已支持中文,扩展到欧洲和巴西

谷歌在欧洲和巴西推出了人工智能聊天机器人 Bard,这是自 2 月份该产品发布以来最大规模的扩张,并将与微软支持的 ChatGPT 竞争。谷歌现在还向 Bard 添加了适用于全球的新功能。尽管如此,聊天机器人的吸引力可能正在减弱。(@腾讯科技)



2、全新的驾驶姿势,福特新专利可实现站立驾驶



7 月 13 日凌晨,马斯克在 Twitter 上透过自己的账号宣布由他参组织及领导的 近日,汽车制造商福特向美国专利和商标局申请了一项新技术专利。


专利内容是一个主要应用在越野车型上的站立驾驶系统,正式名称为“基于用户存在性和位置的车辆冗余控制系统”,从示意图中可以看出,驾驶员可以“站着开车”,并将头部直接伸出这辆Bronco敞篷版的车顶。


越野车在野外驾驶的时候,因为各种复杂的状况,有时候会出现视野受阻的情况,福特介绍这一专利可以帮助司机应对这样的状况,通过采用站立驾驶的姿势,以获得更好的视野以判断前方的路况。(@鞭牛士、@ZAKER)



3、三星宣布正在开发可用于 AR 设备的 LEDoS 技术

The Elec 消息,三星 Display 研发中心技术战略团队执行董事金恭民于 11 日参加在韩国首尔东北亚贸易大厦举行的“Deep Tech Forum 2023”活动,并宣布三星 Display 正在开发可用于 AR 设备的 LEDoS 技术。

苹果在 6 月发布的 MR 设备 Vision Pro 采用了在硅基板上沉积有机发光二极管(OLED)的 OLEDoS 技术。OLEDoS 可用于阻挡外部环境的 VR 设备,但由于亮度的限制,很难将 OLEDoS 用于可看到外部环境的 AR 设备。


4、国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》

网信中国官微消息称,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布了《生成式人工智能服务管理暂行办法》(以下简称「办法」)

其中,《办法》明确生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。此外,明确了数据标注的相关要求。

同时,《办法》中所称生成式人工智能服务提供者,是指利用生成式人工智能技术提供生成式人工智能服务(包括通过提供可编程接口等方式提供生成式人工智能服务)的组织、个人。(@极客公园)



03

有思考的文章



《AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步》(@海外独角兽)

AI Agent 被认为是 OpenAI 发力的下一个方向。OpenAI 的联合创始人 Andrej Karpathy 在近期的一次公开活动上提到“相比模型训练方法,OpenAI 内部目前更关注 Agent 领域的变化,每当有新的 AI Agents 论文出来的时候,内部都会很兴奋并且认真地讨论”,而在更早之前,Andrej  还评价 AutoGPT 是 Prompt Engineering 下一阶段的探索方向。

Lilian Weng 的这篇 Blog 可以说是目前 AI Agent 领域优质论文的系统综述,她将 Agents 定义为 LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use)的集合,其中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件,在文章中,她还对每个模块下实现路径进行了细致的梳理和说明。

到今天,构建 AI Agent 的工具箱已经相对完善,但仍需要面对一些限制,例如上下文长度、长期规划和任务分解,以及 LLM 能力的稳定性等。

从今年 3 月 AutoGPT 推出后,Generative Agent、GPT-Engineer、BabyAGI 项目的爆发将 LLM 的叙事代入了新的阶段,从“超级大脑”到真正有可能成为“全能助手”。Lillian 在自己的 Twitter 中也认为“This is probably just a new era”


 

04

有意思的数据


目前最快的 GPT-4 语音对话项目:延迟只有1.8秒!


与使用 GPT-4 的 AI 实时对话正在成为现实!@itsalfredw 和他的团队最近开发出了全球最快的 GPT4 实时语音对话工具,体验上来看几乎可以做到实时对话!


这个工具的工作原理是:你的语音输入会被实时录制并转录,一旦你停止说话,转录的文字就会被送到 GPT4 进行处理。GPT4 会实时地返回响应,一旦形成了一个完整的句子,就会将这段文字发送到语音合成服务器。服务器会将合成的语音实时返回,并在接收到数据的同时播放出来。


这个过程的延迟时间如下:


- 最后一段音频转录:500 毫秒

- OpenAI 处理时间:500毫秒

- 流式传输第一个半句:300毫秒

- 语音合成延迟:500毫秒

总计:1.8秒


大家有兴趣可以试玩一下~ 已经基本体验不到延迟了(@卡尔的AI沃茨)

项目地址:http://talktomerlin.com/s/audio)




写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

点击底部阅读原文」进入「RTE开发者日报 - 协作版」参与进一步的互动讨论。


【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读1.1k
粉丝0
内容1.1k