到底遵循怎么样的原则才能利用好AI模型的能力,做出一个比较优秀的产品呢?质子梯度在研究了近半年以来500个AI的产品的基础上,得出了以下经验:
卓越的意图理解能力,这是一个基本素质,并且能够在不超过二阶(最多三阶)引导的前提下,准确的把握用户的意图。
长期记忆与短期记忆都必须具备。
聊天(或者是交互)与意图展示最好显示在一屏,展示占据绝大部分,所想即所得一定要为一体。
用户的意图也有可能不是完备和完全的,对话(或者交互)不能无限制递归下.在必要时候引导结束是必要的。
做好能做到用户的Profile预先植入,这样可以针对不同的用户群体提供不同口味的服务身份,也更加温暖和人性化。
多模态的支持是必要的,也就是至少文本与图片,最好都必须具备。
500AI产品列表,欢迎找我来取,呕心沥血整理
质子梯度在设计趣玩吧交互的时候,先后一共采取了三种不同的方案,在这里可以简单的给大家分享一下:
方案一
在方案一中,我们预先植入了一个默认的用户角色,比如这里的“卡戴珊”,同时为了准确把握用户的意图,我们也同时内置了已经微调好的用户意图模板,比如图片里的“CityWalk”与“我是特种兵”等这些比较流行的年轻人喜欢的旅行方案.
然后我们引导用户进入到了意图细化环节,也就是对话界面。并在对话的右测限制了对话的意图结果展示,以此来减少用户的意图迭代次数。同时我们也在对话中进行了操作绑定,比如行程中的景点名称,如果用户点击了喜欢,我们就会把ta放到了右侧意图展示中。当用户完成必要的对话之后,我们就会根据右侧的所有意图,让AI去生成符合意图要求的规划方案。
这里的方案一,我们在设计上,只会采用一个代理,也就是一个Agent.
经过内部评审之后,我们对方案一不是很满意,于是又改了一个版本.
方案二
方案二最大的不同,在于:
我们缩减了意图数量为3个,也就是从行程/酒店/交通/美食等5个缩减为景点/美食/住宿等3个。
我们设计了 Main Agent<->Sub Agent 这样的架构,如下图所示:

一开始设计到这里的时候,我们颇为自豪,因为我们充分利用了总分总的设计思想,把单个规划任务拆分为了多个子任务,并且子任务所属的Sub Agent同时也具备其他另外两个Sub Agent和一个Main Agent的记忆Summarize,也顺带实现一把Memory Streaming.
在用户流程上,甚至可以从主对话离开,单独打开一个Agent进行对话沟通。也就是方案二中的2-1-1.
但是这里最大的问题也与方案一相同,那就是太灵活了。为了充分照顾和理解用户的意图,我们把灵活性交给了用户。而用户的输入被左移了之后,会给微调模型带来意想不到的hallucination甚至会偏离主题。以至于当最终去生成规划的时候,还甚至不如一句话的效果来的好。
经过2轮的设计与评审之后,我们认为,单对话模式并不适合,尤其是无限制的对话。微调后的模型针对特定的任务具备特别的响应能力,所以我们就需要控制好用户的意图输入,也即是在前端上,收集用户的指令,在后端进行指令的组装,然后交付给模型才是最好最简单的方案。
所以最终形成了我们现在看到的方案三:

方案三
考虑到规划后的方案在很大程度上不一定适合最初的用户意图,我们保留了最终的用户干涉能力,使用户可以在最终的结果上进行一些局部调整。然后可以生成与分享最终比较满意的旅游规划。
不过在研发中,我们也意识到,目前的AI离我们所期望的能力还有比较不短的路要走,不管是Open AI还是Anthropic还是谷歌自己的等等,尤其是在面临长上下文和意图理解时,往往不能满足用户的要求。
并且由于各种垂类数据的封闭,AI在发挥能力时就像没有四肢的大脑,总是需要我们去扶持一下。这么一想来看,未来人的价值会更大😄。
有关趣玩吧的更多信息欢迎大家我关注我们的公众号,在一切准备就绪之后,我们就会及时推出来让大家用一用,趣一趣,玩一玩。

