“一键接受”成了最有争议的需求
玛卡合同上线后,我们已经处理了海量用户反馈的各类需求,但内部讨论最多,至今仍未完全达成共识的就是“一键接受”这个需求。
与这个需求有关的各类衍生需求呼声最高,反馈最多,但也是产品团队内部关于该不该听用户上的最大分歧点。
作为一个有追求的产品团队,我们一直困惑,有“一键接受“需求的用户是否真的在意AI审查结果的好坏,还是只要一个形式上过得去的结果随便交差应付了事就行?
那我们每天努力想办法提升审查效果是否真的有价值?用户是否真的能感受到差异?这一度让大家感到非常沮丧。
越深入调研,越让人困惑
为了获得更多真实反馈,我们找了不同使用习惯的用户进行调研,先给大家看看关于审查效果的三类典型用户反馈:
1. 审的很行派:大体看了意见后,审的比律师助理要好,觉得AI给的都能接受,没什么需要优化的。
2. 审的还行派:会认真判断每个条款,只把AI建议作为辅助,把AI“审得还行”的地方拿来作为参考。
3. 审的不行派:觉得“看起来像那么回事,但离能用还差多了”,常见于复杂专业领域的合同,比如像投融资协议。
咋看这个调研貌似没有任何意义,因为用户给了我们3种答案,也就是我们的产品审的行/还行/不行。
那到底是行还是不行呢?
AI审不好合同的真相
如果进一步分析这里面行和不行的理由,你会发现:
AI处理一些基础事实错误或者逻辑错误时已经表现的不错,如果只关注这些错误,那会觉得审的还行。
如果更关注合同实质内容(如交易安排),由于AI对交易背景缺乏了解,不知道代表阵营的喜好和倾向,会提出一些不具备实操可行性的审查意见,或者遗漏一些交易的关键问题,那你会觉得AI审查的结果总是差点意思。
进一步的,如果你越专业,越客户导向,这个“不行”的感觉就会变得更明显。
“审的好”是一件个性化的事情
我们在如何让AI审的效果更好上做过很多尝试,你会发现虽然影响AI审查结果好坏有诸多原因(比如模型能力,提示词设计,法律知识工程以及任务上下文工程的编排等等),但有一个更关键的问题,就是在如何评价审查结果好坏这件事情上,并没有一个标准。
不同经验不同水平不同行业背景的律师,对同一个合同都会有不一样的理解,同一个人同一份合同在不同时间,不同条件,不同立场,不同谈判地位下会有不一样的解读,最后导致每个人对于好的评价标准都是不一样的,并且评价标准还会视条件发生动态变化。
这就导致一个问题,从产品开发角度来看, 你甚至不知道朝哪个方向努力才是对的。
为AI提供审查标准这个事,现有的解题思路有2种:
第一种是人为制定一个标准,让其他人参照这个标准,但这大概跟秦始皇统一六国一样,是一件非常有挑战的事情。
第二种是放弃追求标准,直接根据客户判断做定制开发,这种方法当然有一定效果,但开发和应用的成本高昂,复用性差,为了覆盖成本就必须选择企业客户,并不利于Scale。
我们之前也做过诸多尝试,试图抽象出通用的标准,但会发现不管怎么调整策略,效果都差强人意,事实上,你就是很难简单直接地评价某个人的观点是好的,另一个人就是差的。
既然每个人都有自己好坏的标准,这些标准也都是为了服务自己的商业诉求,我们既没有能力也没有资格评价每个人标准的好坏,那不如试着想办法了解用户的标准并记住它,然后让审查结果更符合这个标准。
这就好比一个助理,在和老板合作一段时间后就会发现,知道老板心中的喜好,围绕老板的喜好拿结果才能让你升职加薪。
所以,构建一个有效的记忆模块,了解用户心中的标准,提供更符合用户个性化的“审的好”的结果,就是玛卡这个阶段产品研发的关键目标。
记忆模块到底该记录什么
给AI添加记忆能力已经不是什么新鲜话题,不管是通用还是垂类的AI产品,市面上已经有可以快速借鉴的记忆方案,但是我们发现简单套用这些技术方案并不奏效,而对于合同审查,记忆模块到底该记录什么,更多取决于在具体任务中,记忆是被如何有效使用的。
让我们假定一个经验丰富认真负责的律师来审合同,那么他可能会应用到两种类型的记忆:
1. 针对任务的短期记忆:了解这个合同的前因后果,之前修改的历次版本,哪些建议已经被采纳,哪些建议被反复调整或者驳回过,客户或者Senior对你千叮万嘱过的需求,这些信息都可以帮助律师在审查时避免一些没有必要的修改,更有针对性地审查合同。
2. 更抽象的长期记忆:除了个人语言风格,风险偏好,修改习惯的应用外,更多是对于这类合同/交易,甚至是对客户的记忆,这里面既有对于某类交易常见交易安排的细节,也有同类交易的高发争议点/风险的insight,还有对客户在某个交易安排或条款上的关注或偏好的理解,这样才能让客户觉得你专业懂行,又能改到客户的心坎里,服务到位。
仅靠网页采集不到有效记忆
知道了什么该被记录,记录后该怎么应用,接下来的问题就是怎么获取这些记忆了,这就要提到为啥我们很烦一开始说的“一键接受”这个需求。
我们最初设计了这么一个机制,每次AI针对合同会给n个修改建议,用户选择采纳其中的几个建议,那么没有被采纳的建议就相当于是用户判断没有价值的,然后我们再进一步分析用户接受或者不接受的动机,这样我们既能通过用户对审查结果的采纳率观测AI审查的表现,又能采集和分析用户对审查结果的反馈进一步进行优化训练,听起来简直是一举两得的妙招。
但实际上用户完全没有没有按照我们的设想来使用产品,首先是大量选择一键接受的用户,这类反馈毫无价值所以被排除在整个评价体系之外,但更惨的是即便是我们通过访谈发现的那些认真对待每个AI审查建议的用户,他们的使用习惯也是通过复制或者选择性接受的方式采纳AI提供的结果,再粘贴到Word上,并无法被有效记录。
而记忆的关键在于,我们得知道一个合同从原始版本到最终版本的历次变化过程,你不能祈求用户把每次的变化情况回传给系统,我们需要一个更自然,更优雅的方案。
造成这个问题主要原因还是出在用户网页端结果和Word的切换上,用网页编辑器改合同就是不太方便,所以大家不爱用,大量有效的反馈都停留在Word编辑器上,因此,只有通过Word插件主动融入到用户的工作流当中,才能更自然地获取记忆。
产品重构:插件+记忆能有什么不一样的效果?
好的,为了记忆模块这碟醋,我们基于Word插件重新设计了玛卡的产品形态,又又又重构了整个产品,在效果上当然有了很多优化,我们会在近期陆续进行更新,先列一些近期能够感受到的直观变化吧:
1. 更快速便捷的使用体验:首先是可以直接在Word原文上进行审查、定位和修改了,没了WPS网页编辑器这个猪队友的限制,定位更准,速度更快,所见即所得。
2. 更灵活的对话模块:对话向前进了一个层级,不需要提交审查任务就可以通过对话指挥玛卡干活了,像我平常改个合同条款已经很少再自己写具体条款完全靠使唤玛卡了,特别有一点,我们给玛卡加了一种能力,让它在执行任务时还会灵活判断是否需要向你提问并记录背景信息,而这些回答都会影响他针对这份合同相关任务的短期记忆。

3. 版本的记录和对比:通过玛卡改完一个文件发给对方,对方反馈后,再打开就会自动和上个版本进行精确对比,并告诉你修改了什么条款,有什么影响,进一步再做接力调整,也不会再傻傻从头去审了。
4. 模版的识别和分析:如果审一个常用模版写出来的合同,会自动对比其他同类合同内容的条款差异,比如缺了什么条款,多了什么条款,又或者是一些特别具体的交易安排的变化,比如最近几份的合同的逾期罚息都是万分之三,这次改成万分之五了。
更进一步的就是对于某类合同,某个交易,某种条款写法,某个客户的审查倾向等内容的记忆和优化了,这些东西有的会以功能特性或者提示的方式显现出来,有的则会内化到审查结果里,这部分的内容涉及面较多,我们会对效果进行更系统的观察后陆续跟大家分享和展示。
当然,Word插件的适配涉及面较广,我们第一版只做了Windosw版本的Word,后续会陆续提供Mac版以及WPS编辑器的适配方案,大家也可以通过 markup.cc 下载我们的产品进行体验。
一个需要耐心但让人兴奋的方向
现阶段的更新包括陆续将上线的功能都是为了追求同一个目标:让AI的审查结果更符合每个用户个性化的评价标准,这样即便未来通用模型的能力继续提升,玛卡在记忆这件事情也仍然对用户有价值,并且会随着模型能力的提升表现得越来越好。
不仅是合同,记忆的记录和有效应用也会是其他其他法律领域提升效果的关键,而在我们看来他们的原理也都是相同的。
当然一切也只是刚刚开始,要想让记忆模块发挥大家设想的训练一个人AI的效果,仍有非常长的一条路要走,这就需要保持足够的耐心。
记得8月底的某个晚上,讨论完记忆方案后下班走到园区门口,我跟同事感慨,玛卡这个产品是去年10月发布的,从最开始的灵感涌现大步更新到现在每天做点小修小补,已经有半年多让人提不起什么干劲了,能找到一个值得做且能做好的点,真是一件令人感到兴奋的事情,期待接下来探索出更有意思的变化。
与君共勉,一起在这快速变化的时代中找到值得长期投入的事情。

