Fish Agent：多语言 Voice-to-Voice 开源语音模型；Runway 推出摄像机运镜功能丨 RTE 开发者日报



Fish Agent：多语言 Voice-to-Voice 开源语音模型；Runway 推出摄像机运镜功能丨 RTE 开发者日报

RTE开发者社区

2024-11-04

导读：本期关键词：AI 热潮、PDF 文件处理功能、人是 AI 的目的

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

有话题的新闻

1、AI 热潮推动！Python 超越 JavaScript，成 GitHub 最受欢迎编程语言

在最新的开发者平台 GitHub 的报告中，Python 已经成功超越 JavaScript，成为使用最广泛的编程语言。这一变化主要源于当前持续火热的生成式人工智能（AI）热潮。

Python 在机器学习、数据科学和科学计算领域的日益重要性，推动了其在开源社区的崛起。GitHub 指出，Python 的流行与越来越多的 STEM（科学、技术、工程和数学）开发者加入开源社区密切相关。

尽管有人担心人工智能驱动的编码可能导致开源项目中的代码质量下降，GitHub 却表示没有看到 AI 导致低质量贡献的迹象。实际上，生成式 AI 项目的贡献在 2024 年增长了 59%，而 AI 项目的总数几乎翻了一番，增长率达到了 98%。

虽然美国的开发者在 AI 贡献方面仍然处于领先地位，但来自印度、德国、日本和新加坡的开发者在整体活动方面表现出更高的活跃度。

与此同时，GitHub 观察到开发者越来越多地将 AI 模型集成到他们的工具链中，并且在向更小、更高效的模型转变，这些模型能够在本地运行，并嵌入到移动应用中。2024 年增长最快的开源 AI 项目是「ollama/ollama」，这是一款用于在本地计算机上运行语言模型的工具。

除了对小型开源模型的关注，GitHub 还指出，开发者对图像生成和 AI 代理进行过程自动化表现出强烈的兴趣，他们正在开发更多针对特定用途的 AI 工具，例如用于学术研究的工具。在比较最受欢迎的开源 AI 项目时，虽然一些顶级项目保持稳定，但像 ollama 和 ComfyUI 这样的新项目在 2024 年日益重要。

在其 2024 年宇宙大会上，GitHub 宣布了新的语言模型集成，包括 Anthropic 的 Claude3.5Sonnet、Google 的 Gemini1.5Pro，以及 OpenAI 的 o1-preview 和 o1-mini 模型。作为微软旗下的 GitHub 正在与其合作伙伴 OpenAI 在开发者工具市场展开竞争，这一扩展标志着战略的转变。其他编程工具如 Cursor 也通过利用 Anthropic 的 Sonnet 模型获得了越来越多的开发者青睐。（@AIbase 基地）

2、Claude 3.5 Sonnet 模型增加 PDF 文件处理功能可分析文档图像、图表和表格

近日，人工智能公司 Anthropic 宣布，在其 Claude 3.5 Sonnet 模型中增加了 PDF 文件处理的功能，目前该功能已进入公共测试阶段。用户现在可以使用该模型分析 PDF 文档中的文本和视觉元素，包括图像、图表和表格等，适用于金融报告、法律文件以及文档翻译等多种场景。

Claude 3.5 Sonnet 的 PDF 处理过程分为三个步骤。首先，系统会从文档中提取文本内容。接着，每一页文档会被转换为图像，以便进行更深入的分析。这样一来，用户不仅可以获取文本信息，还能够洞悉 PDF 文件中的视觉信息。

值得一提的是，Claude 的 PDF 功能还可以与其他功能结合使用，比如提取特定信息并将其用作工具输入。需要注意的是，上传的文件必须小于 32MB，且页面数量不得超过 100 页。该系统目前不支持加密或密码保护的文档。（@AIbase 基地）

3、迪士尼成立新 AI 部门，探索人工智能、混合现实等新型技术的潜力

据路透社报道，华特迪士尼正在组建一个新的小组，以协调公司对人工智能和混合现实等新兴技术的使用，这家媒体巨头正积极探索 AI 等技术在电影、电视和主题公园等业务中的潜力。

根据路透社获取的电子邮件，新成立的「技术赋能办公室」（Office of Technology Enablement）将由杰米・沃里斯（Jamie Voris）领导，他是迪士尼电影制片厂的首席技术官，此前主导了迪士尼为苹果 Vision Pro 混合现实设备开发应用的工作。

迪士尼娱乐联合主席艾伦・伯格曼（Alan Bergman）在邮件中写道：「人工智能和 XR（扩展现实）技术发展迅速，将对未来的消费者体验、创意项目以及我们的业务产生深远影响。因此，迪士尼必须抓住这一激动人心的机遇，同时审慎管理其中的潜在风险。」

此前报道，迪士尼集团去年成立了一个特别工作组，致力于研究人工智能以及如何将其应用于整个集团，尽管好莱坞的编剧和演员们正努力抵制这项技术的入侵。

迪士尼去年就寻求在内部开发人工智能应用程序，并与初创公司建立合作伙伴关系。（@IT 之家）

4、苹果收购图像编辑应用 Pixelmator

iOS 和 macOS 平台的图像编辑应用 Pixelmator 发布公告，宣布团队将加入苹果公司。

公告显示，Pixelmator 已经签署了一份被苹果收购的协议，目前正在等待监管部门的批准。就目前而言，Pixelmator Pro 以及 iOS 版本的 Pixelmator 应用不会有任何重大变化，但 Pixelmator 预告接下来会有「令人兴奋」的更新。

预计在收购后，Pixelmator 会和 Final Cut 和 Logic Pro 等专业应用一样，保留独立的应用形式，并进行单独售卖，而不会像天气应用 Dark Sky 般在苹果收购后被关闭，相关技术整合入苹果自带天气应用。

Pixelmator 在 iOS 平台上售价 68 元，而进阶版的 Pixelmator Pro 在 Mac App Store 上售价 328 元，这款应用的定位类似 Adobe 的 Photoshop，不过更强调易用性和高性能（@APPSO）

5、告别随机生成！Runway 推出高级摄像机控制像导演一样掌控镜头

知名 AI 视频生成平台 Runway 近日宣布推出全新功能——高级摄像机控制。该功能允许用户像操控真实摄影机一样，精准控制虚拟场景中的镜头移动，为 AI 视频创作带来前所未有的灵活性和掌控力。

用户可以自定义镜头移动的方向和力度，实现水平移动、环绕拍摄、位置探索、循环拍摄、快速缩放和慢速滑动等多种效果。结合速度变化的循环拍摄功能尤其适合生成吸睛的视觉循环或过渡，极大拓展了创作潜力。快速缩放则可以像电影镜头一样深入场景，而慢速滑动则能让镜头平稳地滑过场景，突出细节或营造悬念。

Runway 表示，此次更新旨在改变用户对数码相机工作的看法，实现无缝过渡和增强场景构图。高级摄像机控制功能现已在 Runway 平台上线，用户可以通过 Gen-3Alpha Turbo 模型体验。

这意味着，用户在使用文本提示、图像或视频生成新视频时，不再局限于随机生成的结果。通过高级摄像机控制，用户可以精确控制场景和主题的呈现方式，将观众带入一个栩栩如生、看似 3D 的世界，就像置身于真实的电影场景之中（@AIbase 基地）

6、Fish Agent：多语言 Voice-to-Voice 开源语音模型

Fish Agent V0.1 3B 是 FishAudio 的一个突破性的 Voice-to-Voice 模型，最大特点是不需要传统的语义编码器/解码器（如 Whisper 和 CosyVoice）。

基于 Qwen-2.5-3B-Instruct 模型继续预训练，使用了 2000 亿语音和文本 tokens。

模型能力：

主要功能：语音到语音转换、文字到语音合成
能准确捕捉和生成环境音频信息
支持 8 种语言的音频处理

官方 GitHub 介绍的特性：

零样本 & 小样本 TTS：输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。
多语言 & 跨语言支持：只需复制并粘贴多语言文本到输入框中，无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖：模型具备强大的泛化能力，不依赖音素进行 TTS，能够处理任何文字表示的语言。
高准确率：在 5 分钟的英文文本上，达到了约 2% 的 CER（字符错误率）和 WER（词错误率）。
快速：通过 fish-tech 加速，在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5，在 Nvidia RTX 4090 上约为 1:15。
WebUI 推理：提供易于使用的基于 Gradio 的网页用户界面，兼容 Chrome、Firefox、Edge 等浏览器。
GUI 推理：提供 PyQt6 图形界面，与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。查看 GUI。
易于部署：轻松设置推理服务器，原生支持 Linux、Windows 和 macOS，最大程度减少速度损失。

模型地址：https://huggingface.co/fishaudio/fish-agent-v0.1-3b（@Mengshao@X&Fish Agent GitHub）

有态度的观点

1、知乎 CEO：人是 AI 的目的

腾讯科技《潜望》栏目与知乎 CEO 周源进行了访谈，双方谈到了内容平台的创新和 AI 技术带来的影响。

在 AI 和社区的关系问题上，周源认为「人是 AI 的目的」，AI 是服务于人、赋能于人的。周源表示，AI 技术的升级是一种新的生产力，但是没有诞生新的媒介，要将新生产力的新产出写到现有媒介上，会带来机会和挑战。

周源称，知乎是人和人进行交流的平台，人和人的互动和人和 AI 的互动，是两种不同范式，它都可以成立。但把两者混为一谈，会产生很多混乱。

周源也认为把 AI 放在社区，让它跟真人交流或扮演一个用户的方式也是走不通的，因为人和人的交流需要信赖，用户必须得知道你是什么样的人。(@ APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

【声明】内容源于网络

RTE开发者社区

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

内容 1122

粉丝 0

RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

总阅读653

粉丝0

内容1.1k

Fish Agent：多语言 Voice-to-Voice 开源语音模型；Runway 推出摄像机运镜功能丨 RTE 开发者日报

1、AI 热潮推动！Python 超越 JavaScript，成 GitHub 最受欢迎编程语言

2、Claude 3.5 Sonnet 模型增加 PDF 文件处理功能 可分析文档图像、图表和表格

3、迪士尼成立新 AI 部门，探索人工智能、混合现实等新型技术的潜力

4、苹果收购图像编辑应用 Pixelmator

5、告别随机生成！Runway 推出高级摄像机控制 像导演一样掌控镜头

知名 AI 视频生成平台 Runway 近日宣布推出全新功能——高级摄像机控制。该功能允许用户像操控真实摄影机一样，精准控制虚拟场景中的镜头移动，为 AI 视频创作带来前所未有的灵活性和掌控力。

6、Fish Agent：多语言 Voice-to-Voice 开源语音模型

1、知乎 CEO：人是 AI 的目的

2、Claude 3.5 Sonnet 模型增加 PDF 文件处理功能可分析文档图像、图表和表格

5、告别随机生成！Runway 推出高级摄像机控制像导演一样掌控镜头