二、【手脚篇】Tool Use: 给大厨配上刀具,从“陪聊”到“实干”
光有个聪明的脑子还不够,为了让他能干活,你得给他配上器官和手脚。
1. 多模态 (Multimodality) —— 【眼睛和耳朵】
早期的 AI 只能读文字(像是通过传纸条交流)。现在的 AI 能看懂图片、能听懂语音。这就是“多模态”——你让他具备了五官,能感知真实世界,而不只是处理文本。
2. 工具 / API 调用 (Tool Use) —— 【双手】
这是 AI 从“陪聊”进化到“实干”的关键转折点。
如果 AI 只能聊天,那他的价值很有限。但如果你给他一个计算器(API),他能算账;给他一个联网搜索权限,他能查新闻。
Tool Use 就是给 AI 装上“机械臂”,让他能去操作外部软件,真正解决问题。
3. 流式传输 (Streaming) —— 【即时反馈】
你看 ChatGPT 打字时是一个字一个字蹦出来的,这就叫流式传输。
如果不流式传输,AI 就像“卡顿”了一样,思考 10 秒钟,然后一次性把一大段话甩出来。流式传输就是让他“一边思考一边说话”,让用户感觉他在实时响应。

