01
1、AI 热潮推动!Python 超越 JavaScript,成 GitHub 最受欢迎编程语言
2、Claude 3.5 Sonnet 模型增加 PDF 文件处理功能 可分析文档图像、图表和表格
近日,人工智能公司 Anthropic 宣布,在其 Claude 3.5 Sonnet 模型中增加了 PDF 文件处理的功能,目前该功能已进入公共测试阶段。用户现在可以使用该模型分析 PDF 文档中的文本和视觉元素,包括图像、图表和表格等,适用于金融报告、法律文件以及文档翻译等多种场景。
3、迪士尼成立新 AI 部门,探索人工智能、混合现实等新型技术的潜力
4、苹果收购图像编辑应用 Pixelmator
5、告别随机生成!Runway 推出高级摄像机控制 像导演一样掌控镜头
知名 AI 视频生成平台 Runway 近日宣布推出全新功能——高级摄像机控制。该功能允许用户像操控真实摄影机一样,精准控制虚拟场景中的镜头移动,为 AI 视频创作带来前所未有的灵活性和掌控力。
6、Fish Agent:多语言 Voice-to-Voice 开源语音模型
Fish Agent V0.1 3B 是 FishAudio 的一个突破性的 Voice-to-Voice 模型, 最大特点是不需要传统的语义编码器/解码器(如 Whisper 和 CosyVoice)。
主要功能:语音到语音转换、文字到语音合成
能准确捕捉和生成环境音频信息
-
支持 8 种语言的音频处理
零样本 & 小样本 TTS:输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。
多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。
高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。
快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
WebUI 推理:提供易于使用的基于 Gradio 的网页用户界面,兼容 Chrome、Firefox、Edge 等浏览器。
GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。查看 GUI。
-
易于部署:轻松设置推理服务器,原生支持 Linux、Windows 和 macOS,最大程度减少速度损失。
1、知乎 CEO:人是 AI 的目的
写在最后:

