大数跨境
0
0

Gemini 2.5 Computer Use模型:AI Agent性能再定义,引领新时代!

Gemini 2.5 Computer Use模型:AI Agent性能再定义,引领新时代! Tina讲出海
2025-10-08
226
导读:Google DeepMind发布的Gemini 2.5 Computer Use模型在AI agent领域树立新标杆,其SOTA性能和成本优势引人瞩目。同时,OpenAI开发者日带来Agentic

摘要: Google DeepMind发布的Gemini 2.5 Computer Use模型在AI agent领域树立新标杆,其SOTA性能和成本优势引人瞩目。同时,OpenAI开发者日带来Agentic Apps构建模块、GPT-5 Pro和Sora 2新进展。从模型开源竞赛到前沿研究突破,再到基础设施与工具创新,AI生态正加速演进,预示着AGI迈向通用应用的长尾市场。

一、Google DeepMind:Gemini 2.5 Computer Use模型重塑Agentic AI

在Google I/O大会的后续报道中,Google DeepMind发布了全新的Gemini 2.5 Computer Use模型。这款模型在计算机使用任务上展现出卓越的性能,已独立获得Browserbase[5]的评估,被确认为SOTA(State-of-the-Art)级别,超越了此前Anthropic的Sonnet 4.5和OpenAI的Operator CUA。这无疑是AI Agent领域的一个重要里程碑。

“计算机使用”模型的核心在于,让AI能够通过视觉感知与推理,像人类一样操作计算机界面,无论是浏览器还是Android应用。尽管自Anthropic近一年前高调推出Sonnet 3.6[6]以及OpenAI在今年1月推出Operator[7]以来,这一领域曾一度趋于沉寂,但它对于实现通用人工智能(AGI)至关重要。全球仍有大量的应用和网站缺乏完善的API和MCPs(多方计算协议),AI Agent若能直接通过界面进行交互,将极大拓宽AI的适用范围,触达这些“长尾”应用市场。

Gemini 2.5 Computer Use模型不仅在质量上表现出色,其延迟(latency)和成本(cost)也达到了同类最佳水平。这意味着开发者和企业可以以更高效、更经济的方式部署AI Agent,从而加速自动化进程和创新应用场景的落地。这是继模型能力提升之外,AI实用化道路上的又一大进步。

二、OpenAI开发者日:Agent生态系统与新模型揭秘

OpenAI开发者日发布了一系列构建Agentic Apps的基石,包括Apps SDK、AgentKit、ChatKit Studio、Guardrails和Evals。这些工具的推出,旨在为开发者提供更全面的支持,以构建更强大、更安全的AI Agent应用。知名开发者@swyx[8]对这些官方链接进行了详细梳理,其中亮点包括:ChatGPT中的AppsApps SDK,用于构建特定应用的集成;AgentKitChatKit Studio,为Agent的开发和调试提供了更强大的框架;Guardrails则专注于确保AI行为的安全性与合规性;而Evals则为Agent的性能评估提供了标准化的工具。

在模型方面,OpenAI也带来了重磅升级,发布了新模型GPT-5 Pro,以及实时/音频/图像迷你模型。更令人振奋的是,Sora 2和Sora 2 Pro也开放了API访问,预示着视频生成领域将迎来新的爆发点。早期开发者反馈普遍积极,赞扬其易于上手和快速的MCP服务器连接能力[9]。

开发工具链与Agent范式探讨

  • Codex全面发布:OpenAI内部开发工具Codex已全面上线,其Slack集成受到内部广泛好评,显著加速了工作流程。同时,OpenAI内部也积极推崇“1T token奖励”文化,鼓励开发者进行大规模模型使用与创新[10, 11, 12]。
  • Cursor的“计划模式”:AI编程助手Cursor新增了“计划模式”,允许Agent通过可编辑的Markdown计划运行更长时间,提升了Agent的自主性和任务复杂性处理能力[13]。
  • 工作流构建器之辩:社区对“工作流构建器”展开热烈讨论。部分观点认为,视觉流程图虽然直观,但在复杂场景下显得脆弱且局限,相比之下,代码优先的编排方式带有工具的Agent循环更为灵活和强大。多位专家分享了他们的批判性观点和替代方案[14, 15, 16, 17]。此外,关于Agent语义的澄清也备受关注[18, 19]。

三、Agent、程序合成与UI控制的广泛应用

AI Agent的能力不仅限于模型本身,更在于其与现实世界的交互和问题解决能力。以下是Agent领域的一些重要进展:

  • Google DeepMind的CodeMender(安全Agent):这是一款能够自动发现并大规模修复关键漏洞的安全Agent。它已成功向上游项目提交了72个修复方案,能够处理高达450万行代码的代码库,并利用程序分析进行验证[20, 21]。这标志着AI在软件安全领域的深度应用。
  • Microsoft Agent Framework(AutoGen + Semantic Kernel):微软发布了一个统一的开源SDK,用于构建企业级多Agent系统。该框架以Azure AI Foundry优先,支持长时间运行的工作流、OpenTelemetry追踪、语音实时API的全面发布以及负责任的AI工具[22, 23]。
  • Gemini 2.5 Computer Use(UI Agent):如前所述,这款新模型能够通过视觉感知和推理来控制浏览器和Android界面,其API预览和集成案例(如Browserbase)已由Google DeepMind[24]和@osanseviero[25]分享,进一步推动了UI自动化Agent的发展。
  • Agent课程与框架:为普及Agent技术,Andrew Ng推出了“Agentic AI”课程[26],重点教授Agent的反射、工具使用、规划和多Agent协作等核心能力。LlamaIndex也发布了其“工作流/Agent”框架,强调代码优先的编排、状态管理和部署[27]。此外,关于多Agent共享内存的讨论也在持续进行[28]。

四、开放模型与基准测试:性能竞赛与多模态突破

开源社区在推动AI技术普及和创新方面发挥着越来越重要的作用,各大厂商也积极投入到开放模型的研发与竞争中。

  • GLM-4.6更新(智谱AI):智谱AI的GLM-4.6模型迎来了更新,采用MIT许可,MoE架构总参数355B,激活参数32B,上下文窗口扩展至200K。独立评估报告显示,在推理模式下,其性能比4.5版本提升了5个百分点(AAI榜单56分),在相似质量下token效率提升14%。该模型已广泛提供API访问,并支持自托管部署[29, 30]。
  • 开源模型缩小Agentic差距:在Agentic任务上,开源模型正迅速追赶闭源模型。在Terminal-Bench Hard(编码+终端)基准测试中,DeepSeek V3.2 Exp、Kimi K2 0905和GLM-4.6均展现出显著进步,其中DeepSeek甚至超越了Gemini 2.5 Pro[31]。在GAIA2榜单上,DeepSeek v3.1 Terminus在OSS Agent中表现强劲[32]。
  • 视觉榜单领跑者Qwen3-VL登上视觉榜单第二名,使Qwen成为首个同时在文本和视觉榜单上占据领先地位的开源模型家族[33]。腾讯的Hunyuan-Vision-1.5-Thinking在LMArena上也达到了第三名[34]。此外,Sora 2和Sora 2 Pro已加入Video Arena,进行头对头对比评估[35]。
  • Liquid AI的边缘MoE模型:Liquid AI推出了LFM2-8B-A1B,这是一款小型MoE模型,总参数8.3B,激活参数1.5B,预训练了12T tokens。早期报告显示,它在Galaxy S24 Ultra和AMD HX370等边缘设备上运行速度超越了Qwen3-1.7B[36, 37, 38, 39]。

五、值得关注的前沿研究

AI研究领域不断涌现新的思路和技术,以下是一些值得深入阅读的最新研究进展:

  • 新型注意力机制(CCA):Zyphra提出的压缩卷积注意力(CCA)在压缩的潜在空间中执行注意力计算,声称可降低FLOPs,KV缓存与GQA/MLA相当,并且参数量比MHA少3倍,通过融合内核实现实际加速[40, 41]。
  • 微型递归模型(TRM,7M参数):TRM是一款递归推理模型,在ARC-AGI-1上达到45%的准确率,在ARC-AGI-2上达到8%,以远低于大型语言模型的参数量超越了许多LLM。它是HRM的后续版本,参数量减少了75%[42, 43]。
  • 训练与强化学习进展
    • 大规模进化策略:在某些LLM微调场景下,大规模进化策略的表现优于PPO/GRPO[44]。
    • Reinforce-Ada:该方法解决了GRPO信号崩溃问题,可直接替换使用,提供更尖锐的梯度[45]。
    • BroRL:研究表明,扩展rollouts(更广阔的探索)能有效解决步长缩放平台期问题[46]。
    • TRL在线训练:TRL现在支持使用vLLM进行高效在线训练,实现了从Colab到多GPU的扩展[47]。
  • 压缩、视觉、分词与仿真
    • SSDD(单步扩散解码器):通过单步解码改进了图像自编码器重建效果[48]。
    • VideoRAG:通过图谱多模态索引实现对134小时以上视频的可扩展检索与推理[49]。
    • SuperBPE分词器:通过跨词合并实现了20%的训练样本效率提升,被称为“从第一性原理出发的分词”[50]。
    • iMac:通过想象的自适应课程进行世界模型训练,以实现更好的泛化能力[51]。
    • REFRAG:一份分析报告指出,矢量条件生成能显著提升TTFT(首次生成时间)和吞吐量,这是一项值得探索的社区分析[52]。

六、AI基础设施、推理与工具链创新

AI技术的飞速发展离不开底层基础设施和开发工具的支撑,以下是该领域的一些重要更新:

  • Hugging Face生态
    • GGUF元数据浏览器内编辑:Hugging Face支持通过基于Xet的部分文件更新在浏览器内编辑GGUF模型的元数据[53, 54]。
    • TRL简化RFC:TRL正在征集RFC,旨在将训练器简化为最常用的路径,提升易用性[55]。
    • Academia Hub新增合作:Hugging Face的Academia Hub新增苏黎世大学,提供ZeroGPU访问和协作功能[56]。
  • 扩展与运维
    • SkyPilot文档更新:SkyPilot发布了新文档,支持将TorchTitan工作负载扩展到Slurm之外的Kubernetes/云环境[57, 58]。
    • 分布式训练运维:提供了实用的MPI可视化PDF[59]和异步发送/接收的详细教程[60],帮助开发者更好地理解和管理分布式训练。
    • KV缓存解析:详细解释了KV缓存及其对推理速度的影响,并附有简洁的可视化总结[61]。
    • GPU集群健康检查:Hugging Face的gpu-friends工具被用于节点压力测试[62]。当前关于云H100定价和容量的讨论也十分活跃[63]。

七、行业动态与社区热议

除了技术本身,AI行业的基准评估、社区活动和投融资也反映了当前的趋势:

  • 基准与评估
    • Agentic任务上开放与闭源模型差距缩小:在Agentic任务上,开放模型的表现正迅速追平闭源模型,差距不断缩小[64]。Qwen3-VL和Hunyuan-Vision在视觉榜单上的出色表现也再次印证了这一点。此外,斯坦福大学自然语言处理组(Stanford NLP)列出了多篇COLM论文,涵盖推理、心智理论(ToM)、长上下文编码、遗忘等多个方面[65, 66]。
  • 课程、活动与工具
    • DeepLearning.AI的Agentic AI课程:由Andrew Ng主导的DeepLearning.AI[67]的Agentic AI课程[26]正式上线,旨在赋能开发者。
    • NVIDIA Robotics炉边谈话:NVIDIA Robotics邀请到了李飞飞教授[69]进行了一场关于BEHAVIOR基准的炉边谈话。
    • Together的批量推理API升级:Together宣布其批量推理API升级,支持更大的数据集和更低的成本[70]。

AI Twitter热门话题回顾

在Twitter(X)上,以下热门推文引起了广泛关注:

  • 2025年诺贝尔物理学奖揭晓:Clarke、Devoret和Martinis因其在宏观量子隧穿和电路能量量子化方面的贡献而获得诺贝尔物理学奖[67]。Google CEO Sundar Pichai[68]和Google官方[69]也发文祝贺。
  • Figure 03机器人预告:Figure AI预告将于10月9日发布其下一代人形机器人Figure 03[70]。
  • Gemini 2.5 Computer Use模型演示:Google DeepMind[24]发布了Gemini 2.5 Computer Use模型的演示和API预览,进一步展示了其强大的UI控制能力。
  • GPT-5“新颖研究”征集:Kevin Weil[71]发起了关于GPT-5在数学、物理、生物和计算机科学等领域“新颖研究”的案例征集。
  • Agentic AI课程发布:Andrew Ng[26]宣布其Agentic AI课程正式上线,吸引了大量学习者。

八、AI Reddit社区洞察

Reddit社区对AI的讨论充满活力,从本地化模型到机器人产品,再到AI生成的娱乐内容,包罗万象。

本地LLaMA与本地LLM子版块回顾

  • GLM-4.6 Air发布预告:关于“GLM-4.6 Air即将到来”的预告[72]引发了社区热议。由于没有提供具体规格、基准或发布说明,评论集中在发布速度之快,并质疑此前关于不会有“Air”版本的消息。还有传言称“GLM-5”可能在年底前发布。

非技术性AI子版块回顾

涵盖了/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo等子版块。

  • 机器人产品新闻
    • Figure 03即将发布:Figure AI预告将于10月9日揭示其下一代人形机器人Figure 03[73, 74]。虽然视频无法访问,但根据评论,预告片似乎展示了机器人防护性的、类似衣物的防水外壳,旨在简化清洁并保护表面免受磨损,表明机器人设计正趋向更集成化的外观。评论还提到了脚趾关节的重要性,它能显著提升机器人在不平坦地形上的平衡和动态机动性[75]。
    • Walmart出售中国机器人:有帖子展示了Walmart Marketplace上第三方卖家以远高于宇树科技(Unitree)官方价格出售的中国制造Unitree机器人(可能是紧凑型G1人形机器人)[76]。这引发了对第三方市场质量控制、保修和售后服务与直接从制造商购买相比的质疑[77]。评论中还有用户指出,该机器人“什么都做不了”,暗示其开箱即用功能有限,需要额外软件集成。
    • Neuralink参与者控制机械臂:一段视频显示,一名Neuralink人体试验参与者通过一个皮层内只读脑机接口(BCI),通过意念控制机械臂[78, 79]。该帖子未提供协议或性能细节,但评论指出,当前的BCI主要是“只读”的,而未来若能实现“可写”(神经刺激),将带来更沉浸/精确的控制和VR应用。此外,评论还讨论了为截肢者提供可控仿生臂/手的可能性。
  • 新型视觉模型发布与演示
    • Qwen-Image - 手机快照真实感LoRA发布:LD2WDavid/AI_Characters发布了针对Qwen-Image的LoRA模型“Smartphone Snapshot Photo Reality”,旨在实现文本到图像生成中的日常手机相机真实感,并提供了推荐的ComfyUI text2image工作流JSON文件[80, 81, 82]。作者指出,“前80%很容易,后20%很难”,强调了调优的复杂性和收益递减。评论称该模型能可靠地渲染键盘等复杂物体,表明其结构保真度强。
    • 使用Wan 2.2实现近乎完美的360度视频:一位用户展示了使用开源Wan 2.2视频模型生成的近乎360度的人物旋转视频[84, 85, 86],明确指出未使用LoRA。视频中仍存在时间/几何一致性问题(如头发/马尾辫漂移和轻微拓扑变形),这是没有多视图先验或关键帧约束下常见的失败模式。有评论建议使用Qwen Edit 2509合成背视图参考图像,然后结合Wan 2.2进行初始和最终帧条件生成,以提高身份和姿态的一致性[87]。
  • AI病毒式迷因与ChatGPT幽默/投诉
    • 奥运菜肴锦标赛:一个名为“奥运菜肴锦标赛”的视频帖子[88],由于访问限制无法直接观看[89],但评论暗示这是一个多片段的幽默序列。
    • David Bowie VS Freddie Mercury WCW:一个视频帖子[90]似乎展示了虚构的“David Bowie vs. Freddie Mercury”职业摔跤比赛,但由于访问限制无法观看[91]。评论普遍赞扬了其概念和执行的“搞笑”程度,并将其与MTV的“名人死斗”相提并论。
    • 一群人玩跑酷:一个视频帖子[92] purportedly showing a group doing parkour, but the linked media at [91] returns 403 Forbidden, citing network security and requiring Reddit authentication or an OAuth developer token per the error page。评论多为笑话和梗。
    • 请ChatGPT想个有趣标题:一位用户分享了自己请ChatGPT想“有趣标题”的视频[93, 94],并对比了自己此前认为ChatGPT最好用作起草/构建工具的观点。评论指出,用户实际行为(用于创意/幽默)与预期生产力用途之间存在差距,一些人认为这是一种正常的涌现使用模式。

九、AI Discord社区动态回顾

Discord社区的讨论聚焦于模型定价、访问策略、新工具和前沿系统研究:

  • Sora 2定价、集成与基准
    • Sora 2价格引发震撼:OpenRouter用户透露,Sora 2 Pro API定价为0.3美元/秒,Sora 2为0.1美元/秒[95]。这一按秒计费的模式引发了社区关于成本的调侃,有人戏称“花4.5美元就能生成15秒的犯罪视频,把人送进监狱”。
    • Arena新增Sora模型:LMArena的视频Arena新增了sora-2和sora-2-pro用于文本到视频任务。然而,用户反馈仍无法选择特定模型进行生成[35, 96]。
    • Sora在科学领域的惊喜表现:据Epoch AI[97]报道,Sora 2在GPQA Diamond科学基准测试中得分55%。开发者猜测,这可能得益于一个隐藏的LLM提示词重写层(如GPT-4o/5或Gemini),在视频生成前提高了提示词的保真度[98]。
  • 模型访问经济学与平台政策
    • DeepSeek免费版因高成本关闭:OpenRouter停止了DeepInfra上的DeepSeek v3.1免费版,原因是每天成本高达约7000美元[99]。用户转向Soji和venice等替代品,但遭遇速率限制和审查问题。
    • BYOK(Bring Your Own Key)福利与争议:OpenRouter宣布每月提供1,000,000次免费BYOK请求[100],超出部分按5%费率计费。然而,这一宣传被部分用户批评为“欺骗性”和“接近欺诈”,随后OpenRouter澄清了每月配额重置和正常计费机制。
  • 新工具:本地运行时、ReAct改进与Python多线程
    • LM Studio支持OpenAI /v1/responses API:LM Studio 0.3.29[101]新增了OpenAI /v1/responses兼容性,允许使用lms ls --variants命令列出本地模型变体,并通过发送对话ID和新消息来减少流量。其新的远程(remote)功能使得可以在高性能设备上托管模型,并通过轻量级客户端(配合Tailscale)进行访问。
    • ReAct机制改进:DSPy-ReAct-Machina发布:社区发布了DSPy-ReAct-Machina[102],通过单一上下文历史和状态机实现多轮ReAct。在对30个问题的测试中,Machina的缓存命中率达到47.1%(标准ReAct为20.2%),但由于结构化输入,成本增加了36.4%。作者指出,DSPy急需某种内存抽象[103]。
    • Python 3.14释放线程能力(PEP 779):Python 3.14[104]正式支持自由线程Python(PEP 779),并在标准库中增加了多解释器支持(PEP 734)和零开销外部调试器API(PEP 768),以及新的zstd模块。开发者就其对Mojo/MAX生态系统和GPU工作流的影响展开讨论,普遍对更好的并发性和更清晰的错误报告感到兴奋。
  • 系统与研究:更快的训练、新的生成前沿
    • Mercury加速多GPU内存移动:论文《Mercury: Unlocking Multi-GPU Operator Optimization for LLMs via Remote Memory Scheduling》[105]报道了一种编译器,在LLM工作负载中实现1.56倍的平均加速,最高可达1.62倍,超越了手动调优的基线。Mercury将远程GPU内存视为扩展层级,通过调度数据移动来重构操作,以提高设备利用率[106, 107]。
    • Whisper vLLM补丁实现3倍吞吐量提升:一位社区成员通过修改vLLM的Whisper实现,移除了填充(padding),据报道实现了3倍的吞吐量提升[108, 109]。进一步调整注意力分数在损失约1.2倍WER(词错误率)的情况下,实现了2.5倍的加速,因为分析显示编码器约80%的推理时间都花在短音频上。
    • RWKV自我搜索:上下文内求解数独:RWKV 6[110]展示了通过学习内部搜索实现上下文内数独求解的能力。社区贡献者建议尝试RWKV 7或其他带有状态跟踪的SSM(如门控Deltanet或混合注意力)来处理类似的推理密集型任务。
  • 融资与新项目启动
    • Supermemory AI获300万美元种子轮融资:Supermemory AI[111, 112]获得了Susa Ventures和Browder Capital等机构领投的300万美元种子轮融资,谷歌和Cloudflare的天使投资人也参与其中。创始人Dhravya Shah表示,公司正在工程、研究和产品等领域招聘人才,已服务数百家企业客户。
    • Adaption Labs上线:Sara Hooker[113]创立了Adaption Labs,致力于开发持续学习、自适应的AI系统。该公司正在全球范围内招聘工程、运营和设计人才,专注于构建自适应的产品循环。
    • 去中心化扩散模型:Bagel的“Paris”发布:Bagel.com[114]发布了“Paris”[115],这是一款在无需跨节点同步的情况下训练的扩散模型,并以MIT许可发布了权重和完整技术报告,供研究和商业使用。社区将其视为向开源超智能迈进的一步,鼓励在独立节点上进行复制和扩展实验。

综上所述,AI领域正经历一场全面的技术革新。从大型模型的性能突破,到Agentic AI的普及,再到开源生态的繁荣,每一个环节都在以前所未有的速度发展。这些进展不仅预示着AI技术将深入更多应用场景,也为AGI的最终实现奠定了坚实的基础。

参考链接

  • [1] https://news.smol.ai/
  • [2] https://x.com/Smol_AI
  • [3] https://news.smol.ai/issues/25-05-20-google-io
  • [4] https://blog.google/technology/google-deepmind/gemini-computer-use-model/
  • [5] https://browserbase.com/blog/evaluating-browser-agents
  • [6] https://news.smol.ai/issues/24-10-22-ainews-claude-35-sonnet-new-gets-computer-use
  • [7] https://news.smol.ai/issues/25-01-23-ainews-openai-launches-operator-its-first-agent
  • [8] https://twitter.com/swyx/status/1975339546217947230
  • [9] https://twitter.com/AAAzzam/status/1975339820626157777
  • [10] https://twitter.com/gdb/status/1975375271781146786
  • [11] https://twitter.com/gdb/status/1975429633291256150
  • [12] https://twitter.com/gdb/status/1975380046534897959
  • [13] https://twitter.com/cursor_ai/status/1975605632096215328
  • [14] https://twitter.com/assaf_elovic/status/1975470718725890060
  • [15] https://twitter.com/hwchase17/status/1975603633791377920
  • [16] https://twitter.com/jerryjliu0/status/1975590066274902424
  • [17] https://twitter.com/skirano/status/1975594683951947846
  • [18] https://twitter.com/fabianstelzer/status/1975455000525738302
  • [19] https://twitter.com/BlackHC/status/1975628056556437937
  • [20] https://twitter.com/demishassabis/status/1975551657514791272
  • [21] https://twitter.com/_philschmid/status/1975372666862510260
  • [22] https://twitter.com/TheTuringPost/status/1975490337239179612
  • [23] https://twitter.com/TheTuringPost/status/1975490349759148242
  • [24] https://twitter.com/GoogleDeepMind/status/1975648789911224793
  • [25] https://twitter.com/osanseviero/status/1975652741642096708
  • [26] https://twitter.com/AndrewYNg/status/1975614372799283423
  • [27] https://twitter.com/llama_index/status/1975587234247286921
  • [28] https://www.mongodb.com/blog/post/shared-memory-multi-agent-systems-with-mongodb
  • [29] https://twitter.com/ArtificialAnlys/status/1975425594679496979
  • [30] https://twitter.com/ArtificialAnlys/status/1975425599285149822
  • [31] https://twitter.com/ArtificialAnlys/status/1975468544973545810
  • [32] https://twitter.com/clefourrier/status/1975469097174634854
  • [33] https://twitter.com/Alibaba_Qwen/status/1975360868092420345
  • [34] https://twitter.com/TencentHunyuan/status/1975345525903008246
  • [35] https://twitter.com/arena/status/1975618056106995944
  • [36] https://twitter.com/maximelabonne/status/1975561460798628199
  • [37] https://twitter.com/maximelabonne/status/1975562643126821019
  • [38] https://twitter.com/maximelabonne/status/1975563262017347836
  • [39] https://twitter.com/TheZachMueller/status/1975562741055430861
  • [40] https://twitter.com/ZyphraAI/status/1975689420952232161
  • [41] https://twitter.com/teortaxesTex/status/1975401062157652266
  • [42] https://twitter.com/jm_alexia/status/1975560628657164426
  • [43] https://twitter.com/paul_cal/status/1975617733405647153
  • [44] https://twitter.com/hardmaru/status/1975463342576918845
  • [45] https://twitter.com/hendrydong/status/1975534417654538422
  • [46] https://twitter.com/shizhediao/status/1975337618855632920
  • [47] https://twitter.com/SergioPaniego/status/1975498366084923899
  • [48] https://twitter.com/webalorn/status/1975555815294791719
  • [49] https://twitter.com/LearnOpenCV/status/1975593558523715921
  • [50] https://twitter.com/iamgrigorev/status/1975562834793607464
  • [51] https://twitter.com/ahguzelUK/status/1975576573446398038
  • [52] https://twitter.com/CShorten30/status/1975569368709804044
  • [53] https://twitter.com/ngxson/status/1975563987736748455
  • [54] https://twitter.com/ggerganov/status/1975573120770842847
  • [55] https://twitter.com/_lewtun/status/1975691100728782870
  • [56] https://twitter.com/julien_c/status/1975515541700841935
  • [57] https://twitter.com/skypilot_org/status/1975587168312865048
  • [58] https://twitter.com/AIatMeta/status/1975595924794843283
  • [59] https://twitter.com/TheZachMueller/status/1975624506262851676
  • [60] https://twitter.com/TheZachMueller/status/1975558921193484423
  • [61] https://twitter.com/_avichawla/status/1975448869266989435
  • [62] https://twitter.com/_lewtun/status/1975403104586563625
  • [63] https://twitter.com/scaling01/status/1975598023834280111
  • [64] https://twitter.com/hardmaru/status/1975472195066568736
  • [65] https://twitter.com/stanfordnlp/status/1975574899428139413
  • [66] https://twitter.com/gneubig/status/1975574510209519870
  • [67] https://twitter.com/NobelPrize/status/1975498493218394168
  • [68] https://twitter.com/sundarpichai/status/1975590130690781463
  • [69] https://twitter.com/Google/status/1975623817943752714
  • [70] https://twitter.com/adcock_brett/status/1975586121607487597
  • [71] https://twitter.com/kevinweil/status/1975588839436497162
  • [72] https://www.reddit.com/r/LocalLLaMA/comments/1o0ifyr/glm_46_air_is_coming/
  • [73] https://www.reddit.com/r/singularity/comments/1o0j79s/figure_03_coming_109/
  • [74] https://www.figure.ai/
  • [75] https://en.wikipedia.org/wiki/Zero_moment_point
  • [76] https://www.reddit.com/r/singularity/comments/1o0hzlj/you_can_already_order_a_chinese_robot_at_walmart/
  • [77] https://store.unitree.com/
  • [78] https://www.reddit.com/r/singularity/comments/1o06f8u/neuralink_participant_controlling_robotic_arm/
  • [79] https://v.redd.it/9v1a22u6nmtf1
  • [80] https://www.reddit.com/r/StableDiffusion/comments/1o05bmq/qwenimage_smartphone_snapshot_photo_reality_lora/
  • [81] https://civitai.com/models/2022854/qwen-image-smartphone-snapshot-photo-reality-style
  • [82] https://www.dropbox.com/scl/fi/u5x0aehj9qvumx0uyb55c/Qwen-Image_recommended_default_text2image_inference_workflow_by_AI_Characters.json?rlkey=8xf1fian7xcoxpckswq7f8ip9&st=bwijiu0a&dl=1
  • [83] https://ko-fi.com/aicharacters
  • [84] https://www.reddit.com/r/StableDiffusion/comments/1o0ixm2/finally_did_a_nearly_perfect_360_with_wan_22/
  • [85] https://i.redd.it/fa04y0e8brtf1.gif
  • [86] https://v.redd.it/9r3n3hwlqptf1
  • [87] https://i.redd.it/p8pv10680qtf1.gif
  • [88] https://www.reddit.com/r/aivideo/comments/1o0ay20/olympic_dishes_championship/
  • [89] https://v.redd.it/53dt69862otf1
  • [90] https://www.reddit.com/r/aivideo/comments/1o00vv5/david_bowie_vs_freddie_mercury_wcw/
  • [91] https://v.redd.it/xq2x52cvtmtf1
  • [92] https://www.reddit.com/r/aivideo/comments/1o071pz/bunch_of_dudes_doing_parkour/
  • [93] https://www.reddit.com/r/ChatGPT/comments/1o0c5w2/asked_chatgpt_for_ideas_for_a_funny_title/
  • [94] https://v.redd.it/w83gtuludotf1
  • [95] https://discord.com/channels/1091220969173028894/1195014798837043240/1424873730408185887
  • [96] https://link.to/leaderboard
  • [97] https://x.com/EpochAIResearch/status/1974172794012459296
  • [98] https://x.com/AndrewCurran_/status/1974191838920945873
  • [99] https://discord.com/channels/1091220969173028894/1195014798837043240/1425201699950178425
  • [100] https://discord.com/channels/1091220969173028894/1195014798837043240/1424988427024760882
  • [101] https://lmstudio.ai/blog/lmstudio-v0.3.29
  • [102] https://dev.to/armoucar/dspy-react-machina-an-alternative-multi-turn-react-module-for-dspy-2ee9
  • [103] https://github.com/armoucar/dspy-react-machina
  • [104] https://www.python.org/downloads/release/python-3140/
  • [105] https://dl.acm.org/doi/abs/10.1145/3731569.3764798
  • [106] https://storage.googleapis.com/yuke_profile/sosp25ae-paper4.pdf
  • [107] https://github.com/ChandlerGuan/mercury_artifact
  • [108] https://github.com/huggingface/transformers/issues/25744
  • [109] https://github.com/openai/whisper/discussions/1913
  • [110] https://vxtwitter.com/BlinkDL_AI/status/1859578512988147889
  • [111] https://www.susaventures.com/
  • [112] https://browdercapital.com/
  • [113] https://x.com/sarahookr/status/1975581548121628920
  • [114] http://Bagel.com
  • [115] https://x.com/bageldotcom/status/1975596255624769858
  • [116] https://www.deeplearning.ai/


标签: 人工智能,大语言模型,AI Agent,多模态AI,机器学习


AI群: 欢迎加我微信 tsla10times,备注AI交流,拉你进群!我们刚刚建立这个AI交流社群,正在寻找志同道合的朋友一起成长!

【声明】内容源于网络
0
0
Tina讲出海
跨境分享间 | 每日提供跨境资讯
内容 47307
粉丝 1
Tina讲出海 跨境分享间 | 每日提供跨境资讯
总阅读255.0k
粉丝1
内容47.3k