人工智能——数据喂养的超脑- 大数跨境

首页

人工智能——数据喂养的超脑

右上角法律

2024-01-09

导读：聚焦前沿人工智能的审视逻辑人工智能对人的替代可能是21世纪最大的挑战性问题，法律现阶段虽不能承认人工智能的独

聚焦前沿

人工智能的审视逻辑

人工智能对人的替代可能是21世纪最大的挑战性问题，法律现阶段虽不能承认人工智能的独立身份，但必须重新审视人工智能引发的各种问题。

不一定是模仿人脑

在某百科的词条中“人工智能”被描述成：“人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的‘容器’。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能”，这个词条上面标注了是由“科普中国”的认证专家贡献。

这个看上去权威的解释似乎符合人们对“人工智能”直观的理解，从文意上看也就是对“人的意识、思维的信息过程的模拟”，但是人工智能技术的发展路径却并非完全像仿生学一样对人脑进行模仿而实现。

2018年首届中国国际智能产业博览会大数据智能化高峰会上，百度创始人李彦宏发表题为《智慧城市的AI新思维》主旨演讲，他表示人工智能不是仿生学，不是模仿人脑的工作原理，通过研究人脑工作来让机器像人一样思考是行不通的。现在的人工智能技术，各种各样的算法，近些年的创新跟人脑的工作原理其实没有太大关系。所以人工智能不是模仿人脑的工作原理，而是要用机器的方式实现人脑能够实现的价值或者作用。

笔者最早深入的了解人工智能概念是读了李开复博士的《人工智能》，这本书讲到人工智能领域的研究经历过一段漫长的挫折，当时的方向就是研究让机器学会像人一样思考问题，但最后发现是一条死胡同，人脑经过亿万年的进化而来，到目前为止我们的科学也没弄明白它真正的工作原理，更何谈让机器去模拟人脑呢？人工智能从之前的“死胡同”走出来是直到互联网技术的普及，网络上沉淀下来巨大体量的数据，研究人员想到既然机器很难学会像人一样思考，那就索性就直接告诉它答案好了。

比如，我们每天在搜索引擎上输入大量的问题，这些问题和对应的结果都被搜索引擎所记录，这些海量数据就可以拿来直接给到机器，让它记住并且回答同类型的问题，于是看上去机器也有了智能。用数据训练机器使之具备类似人一样的回答和解决问题的能力，这便成了人工智能的新研究方向，也是今天各种人工智能应用成果的基本原理。

当然，人工智能技术并不是简单的编写程序，从一个装满了答案的数据库中找到与问题匹配的选项这么简单。既然有“智能”，那么显然它要有一定的学习能力，能够抽象出一定的模型从而解决某一类的问题。

另外一本数据领域专家涂子沛先生写的《数文明》一书中介绍了人工智能这种学习能力是怎么来的，靠的是一种叫做“深度学习”（又叫做“多层神经网络”）的算法（实际上肯定不止一种算法，我们姑且这么理解）。

《数文明》中提到：“之前的人工智能都采用数理派的做法，通过程序员编写代码，告诉计算机要做什么……如果符合某条件，就输出某参数……这本质上是为计算机定义规则，是一种自上而下的思路……机器学习反其道而行之……一开始不定规则，而是给计算机’喂’数据，即从局部的结果出发，让机器去学习和推测可能的、最佳的规则。这个规则就是各个自变量的权重以及最后的函数关系，一旦确定了这个函数关系，就可以用它去预测未来。这是一种自下而上的思路”。

为了便于理解，笔者举一个非常粗糙的例子，比如如何训练机器学会识别人脸，如果给到机器一百张人脸的照片，它就会从中总结出一些基本的“规律”，例如人脸由几个必备的要素组成：两只眼睛、一个位于眼睛下方居中位置的鼻子、鼻子下部的嘴、侧方两只对称的耳朵（有没有联想到刷脸支付时系统要求你露出两只耳朵并且眨眨眼）等，这时候机器会总结出一个识别人脸的算法，把刚才那几个要素的权重都设置为1（0权重代表完全不需要这个特征，而1代表必须要有这个特征，0-1之间的权重则代表着特征的程度越来越高），也就是说必须同时具备这些要素才能判断为一张脸。

而这时如果给机器几张猴子的脸，也同样具备上述几个要素，这时机器就可能把猴脸当成人脸，于是我们又要给机器更多张人脸进行训练，直到机器发现人脸上面（非头顶）没有毛发，然后把这个特征的权重也设置成为1，这时候机器基本上就把人脸和动物脸区分开了。这个过程就是机器“深度学习”的过程，通过大量的人脸图片的训练，机器会自己得出一个识别算法：

这个算法也许可以描述为：两只眼睛（权重1）+一个位于眼睛下方居中位置的鼻子（权重1）+鼻子下部的嘴（权重1）+侧方两只对称的耳朵（权重1）+脸上没有毛发（权重1）=人脸

当然，这个笔者臆想出来的粗糙无比的算法肯定不是真正的人脸识别算法，但机器就是这样通过数据训练不断增加或者减少判断“要素”（参数）和对应的权重，最终得到一个最接近正确答案的算法模型，直到有一天机器看到一张脸之后比人看到一张脸还能更准确地识别，我们就认为这个面部识别领域的人工智能可以投入使用了。

深度学习算法一定程度上模仿了人脑神经元的工作原理，具体的实现路径超出了笔者的技术能力，毕竟那些硅谷的巨头都是用年薪数百万美金来抢这方面的人才，所以我们就不展开介绍了。但是，我们可以把深度学习领域目前关注度最高的打赢围棋冠军柯洁的“阿尔法狗”简单介绍一下，加深大家对这个问题的了解。

Github上一位来自华为的技术专家Xijun (Ted) LI写过两篇分析阿尔法狗的文章，其中讲到：“Alpha Go的两个最主要的组件：卷积神经网络和蒙特卡洛树搜索”，此处我们略去对“蒙特卡洛树搜索”模块的介绍，只关注文章中关于“卷积神经网络”——也就是阿尔法狗的“深度学习”算法的内容部分。

根据文章介绍，阿尔法狗的“深度学习”算法由两个模块组成，一个是“策略算法”，另一个是“价值判断算法”。“策略算法”可以大致理解为琢磨下一步棋怎么走，这个算法是通过给定计算机围棋规则之后，将大量的人类围棋棋谱（下法）“喂”给机器，然后不断的由机器自我训练，尽量学会走出一步好棋而非臭棋（在算法的定义里，好棋可以被定义为每下一步使得赢棋概率在所有选择中最高，臭棋刚好相反）。

光有“策略算法”是不够的，这就好像一个棋手只知道看接下来的一步怎么走，而优秀的棋手应该是能够算到后面的5-10步，这就是所谓的“大局观”，因此在“策略算法”之外，阿尔法狗还有一个“价值判断算法”负责思考全局，即每走一步之前，都分析一下这一步之后整个棋局在未来十几步之内的胜负概率，然后把棋子落在那个最终赢棋概率最高的位置上，所以我们会发现顶尖高手跟阿尔法狗对弈之后，对它的一些走法完全一头雾水，这也许是因为“价值判断算法”看到了人类棋手无法预见到的全局，因此局部下出一些“匪夷所思”甚至看似“臭棋”的落子最终的目的都是最大程度增加赢棋概率。

AlphaGo之父杰米斯·哈萨比斯（Demis Hassabis）英国剑桥大学做了一场题为“超越人类认知的极限”的演讲，提到在阿尔法狗对阵李世石的比赛中，第二局第三十七步阿尔法狗落子在了第五条线，进军棋局的中部区域，下出了令所有人震惊的一着，哈萨比斯认为过去3000年里人类低估了棋局中部区域的重要性，而阿尔法狗靠着自己“价值判断”算法的指引做出了这样的正确判断，这样的惊人之举在之后阿尔法狗的比赛中不断上演。

图左：第二局里，第37步，黑棋的落子位置

图右：之前貌似陷入困境的两个棋子

要知道，围棋对弈的可能性一共有10的170次方种可能性，这个数字比整个宇宙中的原子总数目10的80次方还要大得多，计算机不可能通过把所有可能的下法都测试一遍从而找到必胜策略（当年象棋人机大战，计算机使用的就是穷尽所有可能走法的暴力算法，因为象棋所有的走法数量有限），因此只能通过前面介绍的“策略算法”和“价值判断算法”在实战中不断摸索更加靠近赢棋结果的方案，计算机最牛的地方是它的计算能力远超人类，“DeepMind”（阿尔法狗研发团队）研究人员大卫·希尔韦表示：“普通人一生时间能够进行的比赛数量是有限的，一年可能下一千盘，但阿尔法狗每天能下三百万盘棋”，通过自己跟自己不断对弈，机器算法就被训练得越来越纯熟，最终超过了人类最好的棋手。

四大应用场景

我们现在的生活中充满了人工智能的概念，似乎什么东西都要跟智能搭上点边才算先进，但从整体上概括，人工智能基本上在四个领域发挥作用：

博弈

对抗类的比赛或者游戏中，人工智能已经表现出比人类更强的能力，前面已经介绍过阿尔法狗的例子，除此之外，由腾讯公司开发的王者荣耀AI“绝悟”在2019年王者荣耀世界杯半决赛上击败了五位顶尖的电竞职业选手，在此之前人工智能也已经在星际争霸、DOTA2等电竞项目上击败了人类。

感知

感知就是让机器具备跟人的视觉、语言同样的能力，例如识别人脸、识别语音等，在这方面科大讯飞的语音识别人工智能产品已经几乎要取代传统翻译的工作。视觉方面，旷世科技、商汤科技等独角兽公司研发的视觉AI产品也已经广泛应用到电商、安防、社交、游戏等诸多领域。

决策

决策也许是我们作为普通用户最为熟悉的人工智能应用，我们平时使用各种互联网服务，背后都有AI算法根据我们的行为轨迹和习惯进行推荐、广告，这就是典型的决策类人工智能应用，例如google的广告推荐系统，再比如金融领域大量的决策（放贷、股票交易等）也都越来越借助人工智能来完成。

反馈

反馈是人工智能与人之间进行交流互动方面的应用，例如无人驾驶（特斯拉FSD、百度Apollo）、无人送货（菜鸟无人送货车）、软银Pepper机器人、智能客服等。

法律问题

人工智能对人的挑战不仅仅是工作上的替代，同时也伴随着大量的法律和伦理问题，主要集中在安全与侵权、个人信息及隐私保护、算法歧视、数据垄断等。

安全与侵权方面

人工智能面对的直接挑战就是侵权责任归属，2018年8月20日，腾讯证券网站上首次发表了标题为《午评：沪指小幅上涨0．11％报2671．93点通信运营、石油开采等板块领涨》的财经报道文章，末尾注明“本文由腾讯机器人Dreamwriter自动撰写”，上海盈某公司通过其经营的“网贷之家”网站复制此篇文章后向公众传播。

腾讯公司遂将盈某科技诉至南山区法院，主张涉案文章是由其组织的主创团队利用Dreamwriter软件，在大量采集并分析股市财经类文章的文字结构、不同类型股民读者需求的基础上，根据其独特的表达意愿形成文章结构，并利用其收集的股市历史数据和实时收集的当日上午的股市数据，于股市结束的2分钟内完成写作并发表，因此涉案文章作品的著作权应归其所有，盈某科技的行为侵犯了其信息网络传播权并构成不正当竞争。

南山区法院审理后认为，涉案文章是否构成文字作品的关键在于判断涉案文章是否具有独创性，而判断步骤应当分为两步：首先，应当从是否独立创作及外在表现上是否与已有作品存在一定程度的差异，或具备最低程度的创造性进行分析判断；其次，应当从涉案文章的生成过程来分析是否体现了创作者的个性化选择、判断及技巧等因素。在具体认定相关人员的行为是否属于著作权法意义上的创作行为时，应当考虑该行为是否属于一种智力活动，以及该行为与作品的特定表现形式之间是否具有直接的联系。

法院同时认为，涉案文章是由原告主持的多团队、多人分工形成的整体智力创作完成的作品，整体体现原告对于发布股评综述类文章的需求和意图，是原告主持创作的法人作品。从涉案文章的外在表现形式与生成过程来分析，该文章的特定表现形式及其源于创作者个性化的选择与安排，并由Dreamwriter软件在技术上“生成”的创作过程，均满足著作权法对文字作品的保护条件，最终认定涉案文章属于著作权法所保护的文字作品。

这是一个人工智能生成作品权利归属的典型案件，法院的逻辑是认为人工智能体现的是背后开发团队对作品的个性化选择与安排，因此仍然是人的创作，应当将作品权利归属于AI的创作者（权利人），这个思路应该会在未来相当长的时间影响到此类人工智能所导致的法律问题的主体责任认定，毕竟法律目前还无法承认人工智能有独立人格。

此后不久，笔者便代理了一则洗稿机器人引发的不正当竞争案，被告开发的洗稿机器人程序可将第三方原创文章经过自动化的语意处理，“清洗”出一篇内容雷同但表达不同的文章，并且这篇文章甚至可以骗过一些内容平台的“反抄袭”机制，堂而皇之的以“原创”的身份出现和传播。

网上可以检索到的洗稿工具示意图，通过机器语意替换，可以根据原文生成同样意思的不同表达

对于这样的行为，被告方主张“技术中立”抗辩，认为这项技术可以辅助作者对已有文章进行改编和优化等，并且只是一种过渡技术，未来必然要升级成可以自主撰写文章的AI产品，因此不构成侵权，甚至有观点认为洗稿后的文章不但不侵权还应该获得著作权保护，因为从表达上看洗稿和原告已经不一样了，《著作权法》保护表达而非思想，这些都会成为AI带给法律人的新型疑难复杂问题。

个人信息及隐私保护方面

通过前文的介绍我们发现，现阶段的人工智能必须大量数据进行训练，某种程度上如果把人工智能比做一台发动机的话，那么数据就是驱动发动机运转的汽油，所以人工智能产品应用过程中对数据的渴求是可想而知的。在这些数据中，最具商业价值的当然那些是跟人密切联系的信息，要么能够体现个人身份，要么能够记载个人的行为记录及生理特征，这些信息往往都是个人信息或者个人隐私。

笔者代理了国内“人脸识别第一案”，被告方作为一家动物园通过发短信告知办理了年卡的消费者，必须配合进行人脸信息的采集和激活，否则无法正常入园，这样的操作恐怕在当下的社会日常生活中已经司空见惯，小区无刷脸无法进入、商场实时收集着人脸图像，甚至有新闻媒体爆出有购房者戴着头盔到售楼处，为的就是不被采集到人脸，看上去颇像是行为艺术。

企业对于人脸信息的渴求是显而易见的，没有大量的人脸信息作为训练素材，面部识别的智能化水平很难突破，所以才出现了大量部署的摄像头和面部识别分析设备，对此，2021年7月28日，最高人民法院发布《关于审理使用人脸识别技术处理个人信息相关民事案件适用法律若干问题的规定》，其中明确“在宾馆、商场、银行、车站、机场、体育场馆、娱乐场所等经营场所、公共场所违反法律、行政法规的规定使用人脸识别技术进行人脸验证、辨识或者分析”的属于侵权行为。

算法安全性审查

算法歧视我们在本书中做过介绍了，算法歧视只不过是算法决策的一种表现，算法决策正在有成为全面取代人类自主决策的趋势，毕竟网络社会的运转越来越复杂，单凭人的判断恐怕难以得出最佳方案，小到导航到目的地这种决策，大到城市交通、防疫等决策。

但把决策权让渡给算法恐怕也会引发诸多未知的风险，至少需要一些提前的评估，就在本文完成之时，《信息安全技术：机器学习算法安全评估规范》国家标准开始征求意见，这次的标准给出了一个机器学习算法安全评估指标体系，包括保密性、完整性、可用性、可控性、鲁棒性和隐私性。

相信，随着人工智能渗透到各个领域，我们的立法必然会对算法审查做出更细致的要求和规定，一个显而易见的道理是：我们不可能对跟自己一样有决策能力的事物不闻不问。

本文作者

张延来

浙江垦丁律师事务所创始合伙人主任律师

中国政法大学实务导师

西南政法大学法律硕士实务导师

浙江省反垄断专家指导委员会委员

杭州市律师协会西湖分会副会长

民建会员

杭州仲裁委员会仲裁员

执业以来完全专注于互联网法律实务工作，担任数十家头部网络公司常年法律顾问，并代理NFT数字藏品侵权第一案、群控第一案、微信小程序第一案、智能手机刷机第一案、5G云游戏第一案、人脸识别第一案、风险app治理第一案等多个标杆涉网诉讼案件，代理的案例分别多次入选“最高院十大知产典型案件”、“最高院五十大知产典型案件”、“中国最具研究价值知识产权案件”、“中国十大宪法事例”以及各级人民法院十大典型案例。

深度参与中国《电子商务法》、工商总局《网络交易管理办法》、杭州市《网络交易管理办法》的立法工作，作为起草人参与《平台经济数据治理评价指南标准》、《生成式人工智能数据应用合规指南》等标准化工作。

个人专著《法眼电商》、《网络法战地笔记》、《无技术不法律》已由法律出版社和法制出版社出版发行。

END