一、前言
美国《时代》2014年9月8日的一篇关于世界进入“答案时代”的文章,揭示了大数据对人类未来生活所产生的深远影响。当人类社会广泛使用互联网、社交网络和智能手机从事各种活动时,海量数据正以前所未有的速度爆炸式地增长着,这就是我们所说的“大数据”(Big data)。而当全世界的计算能力正以每10年10000%的速度提高着的时候,这些看似无关、零散的海量数据正在被挖掘出巨大的商机。
大数据的广泛应用正在迅速地改变着各行各业的运作模式。Amazon运用大数据,通过检索、分析关键字和点击率发现用户的喜好,挖掘商机。在医学界,人们正在通过“大数据与精准医学”(Big Data and Precision Medicine)来发现和研究各类疾病的发病史﹑发病原因和治疗方法。安全执法部门通过处理几百亿个电邮、电话等记录,成功破获了几十起恐怖案件。大数据是自Internet之后的又一次革命。
二﹑大数据在美国法律界的应用

虽然,传统﹑保守的法律界在大数据方面的应用还相对滞后,但这个以信息和数据驱动的行业已有先行者意识到,这一来势凶猛的科技大潮将不可避免地给整个法律界带来革命性的变化,并已启动了法律大数据的研发项目。
在介绍美国法律界运用大数据的现状和探讨未来趋势之前,有必要简单回顾一下现代电脑科技和互联网对美国法律界的影响。可以说,美国法律界在这些方面是领先其他国家法律界的,其经验和研发成果对大数据在中国法律界的应用可以起到一定的借鉴作用。美国法律界在这方面的发展大体上讲可以分为如下三个阶段。
1. 法律数据库阶段
法律数据库阶段始于上个世纪70年代初,在个人电脑尚未问世之前,美国法律界已率先提出“电脑辅助法律研究”(Computer-assisted legal research)的构想,并开发了两个著名的“在线法律数据库”,即Lexis和Westlaw。今天,这两个著名的在线法律数据库已发展成为全球最大的法律数据库,除美国各级法院的判例﹑法律﹑法规和其它法律文献外,还有世界各主要国家的法律﹑法规,为律师﹑法官和其他法律人员提供法律信息的收费检索服务。
1988年,美国政府推出了一个类似的法律数据库,即“联邦法院公用电子记录”(Public Access to CourtElectronic Records,简称“Pacer”),它至少存储了6亿份法院文档。该数据库的检索收费较为便宜。
2. 法律互联网阶段
法律互联网阶段始于上个世纪90年代,互联网技术的应用使得“在线法律数据库”的开发变得越来越容易,免费的“在线法律数据库”大量涌现,打破了Lexis和Westlaw对法律信息的垄断。而Google/Google Scholar这样强有力的搜索引擎的问世,使法律工作者可以更加快捷﹑免费搜索更多有关法律的信息和数据。可以说,Google本身就是一个最大的免费大数据库,为今天的法律大数据开发和应用奠定了坚实的基础。
此外,互联网还使在线法律服务成为可能。2001年,一个称为“Legal Zoom”的在线法律服务网站推出,人们可以通过互联网自行完成公司登记、专利、商标注册、房屋租赁、离婚、遗产和遗嘱等法律事务。令人遗憾的是,“Legal Zoom”的应用也给法律界带来不小的冲击,使得上述的法律业务已逐渐消失了。
3. 法律大数据的初始阶段
法律大数据的初始阶段始于2008年金融海啸后,企业因收入下降,开始着手降低各类成本,包括昂贵的律师费。为了应对这一市场变化,美国律师事务所开始使用“电子取证软件”(E-discovery)和大数据智能分析软件,从大量数据中挖掘出最有价值的证据和数据,完成过去需要几十个律师才能承担的工作,不仅质量高,而且大大降低了费用。一些用于筛选律师和评估律师费用的大数据平台,可将美国50个州的律师平均收费标准﹑某个律师的胜诉率,以及某类案件的收费标准进行量化,使律师更加了解市场和竞争对手的情况,也使企业能更加有效地筛选律师和聘用律师。
三、法律大数据的在美国的兴起和研发成果
应该说,真正意义上的法律大数据的研发和应用在美国也还是刚刚起步。不同于一般法律数据库的开发,法律大数据是一项技术性极强的研发项目,需要法律专家﹑大数据专家﹑统计专家、机器学习专家和语言识别专家的通力合作。依托硅谷在上述方面的领先优势和硅谷的创新精神,几年前,斯坦福大学法学院的教授和法学院的学生们看到了法律大数据的潜能,率先研发并推出了“法律机器人”(Lex Machina)。他们将2000年以来所有的140,000件专利案件通过“案例法解析技术”辅助人工审核专利案件,从而推算出某项专利申请所需的时间和获批的可能性,以及专利案件胜诉的机率和是否应该和解等问题,甚至推翻了一些专利领域固有的法律信条。法律机器人的做法是,从Pacer中取得起诉书﹑法院判例﹑动议﹑法庭意见和当事人情况等非结构性数据,转换成结构性数据,再通过大数据﹑机器学习和自然语言处理技术进行可视化分析。
斯坦福大学法学院的学生们还在进行着另一个更加大胆的尝试,他们利用Google scholar获取美国联邦法院所有的案例,使用大数据、机器学习、自然语言处理和案例法解析技术开发出一个结合法律搜索﹑法律分析和可视化的大数据平台,辅助律师从海量的案例中发现最有利的判例、分析案情﹑优化诉讼策略和预测诉讼结果。另一家硅谷的法律大数据公司(Judicata)则尝试通过大数据用“图谱法律基因组”(Mapping legal genome)的方式揭示法律的内在奥秘。上述两个开创性的法律大数据平台,将对法律界的传统运作模式产生深远的影响。
四、大数据在法律界应用的未来趋势

美国法律界在法律大数据方面开创性的尝试反映了一个大趋势,即如何通过大幅提高的电脑运算速度,大数据﹑机器学习和自然语言处理等高科技的应用,解决对海量法律数据的量化分析,从而挖掘出最有价值的案例﹑证据和数据找到最佳的法律答案。随着法律数据爆炸式的增长,以Lexis和Westlaw为代表的,单纯的法律搜索数据库已无法满足法律界的需求,大数据和机器学习等人工智能科技将越来越多地应用到法律领域,使法律界传统的思维方式和运作模式发生革命性的变化,例如,基于“因果关系”(Causation)的传统法律信条,正在因大数据的应用被“相关性”(Correlation)所取代。而法律大数据最大的优势,则是可以从海量数据中寻找相关性来回答法律问题,也就是说,越来越多的法律问题将成为的大数据问题。可以预见的是,随着法律大数据和人工智能的日臻完善,越来越多的律师事务所将使用大数据降低交易成本,提高竞争力。法院也将借助大数据进行案件审理,从而提高办案质量和办案效率。总之,法律大数据的应用将使整个法律过程变得更加科学﹑更加透明和更加高效。
五﹑结束语
大数据将是下一个互联网。随着互联网﹑大数据以及人工智能技术的突飞猛进,可以预见,法律界传统的运作模式将在未来5至10年发生革命性的变化。正如互联网改变了我们的生活方式一样,法律大数据也将改变传统的法律思维方式和运作模式。无论是律师事务所,还是司法系统,无论是法学院,还是立法机构,都将面临大数据革命带来的机遇和挑战。总之,大数据是一个不可逆转的大趋势,谁能更快﹑更好地抓住这个难得的机遇,挖掘、分析数据,发现新的商机,谁就能在下一波的竞争中脱颖而出,成为法律界未来的引领者。人类在机器人研发方面的突破,也许有一天我们可以模拟最优秀的法官和律师的思维模式制造出一个“超级法律机器人”。这里所说的绝对不是什么法律科幻,而是一个崭新的法律大数据和人工智能时代的到来。
作者:张力行 [ 原北京大学国际经济法教研室副主任、中国第一个法律数据库的创建人 ]
李铭锐 [ 中国法律服务(香港)有限公司 综合研究部 研究员 ]

为了迎接这一时代的到来,我们将用“法律实验室”这个全新的平台向法律人提供原创、创新的法律知识,尝试法律大数据、可视化在移动互联网上的应用。感谢您的关注和参与。
欢迎关注“法律实验室”微信公众号:微信号:legallab

