

漫谈爬虫与合规

智能晒客

2019-10-07

导读：暝槿无风落，秋虫欲雨鸣。

本文由William供稿，Shairk INT团队推出。

写在前面

2019年9月6日，杭州知名大数据服务公司杭州魔蝎数据科技有限公司被警方调查。同日，聚信立发布公告暂停提供爬虫服务。紧随其后，新颜科技、公信宝、天翼征信也被警方调查，一时间风声鹤唳。短短数日，就似乎宣告了一个行业的终结。联想到爬虫公司主要客户行业（互联网金融）目前的局势，一下感到如鲠在喉，甚至可谓是成也萧何败萧何。

但是“爬虫”与“违法”，中间不应该是“=”的关系，想着一直以来都想写写爬虫合规这个话题，就以漫谈的方式深入聊一聊。既然是漫谈，一方面不会像正经的学术文章那么严谨，不会贴那些找不到源头的定义，另一方面更多的是自己的概括，用大白话点到即止。

爬虫到底是什么

记得第一次接触爬虫，还是读书时玩着尝试搭博客网站、写个人博客的时候。因为网站需要做SEO，接触到了“爬虫”这个概念。

当时对爬虫的理解，是搜索引擎使用的一种自动访问、抓取网站的工具，会读取网站下robots.txt文件、会通过sitemap.xml之类的文件识别网站结构、会索引发现的网页内容。这种理解放在现在可以说是非常片面的，但在当时似乎也只有搜索引擎在使用爬虫。

然后，随着互联网的兴起，互联网逐渐成为获取信息的主要途径，也逐渐成为信息的主要载体，数据便随着互联网的崛起拥有了如同石油一般的战略地位，而原先设计被用于自动索引网页内容的爬虫也逐渐向掠夺战略物资这一功能倾斜发展。

可以说，曾经的爬虫，其目的在于索引互联网的内容、方便用户搜索互联网信息，这种爬虫也被称为善意爬虫，比如百度搜索引擎的爬虫叫做百度蜘蛛(Baiduspider)。而现在很多爬虫，特别是在不断触碰合规边界的爬虫，属于恶意爬虫，其目的在于通过自动化方式获取其他网站（有价值）的信息。

所以要谈爬虫与合规的话题，就要分两个要件来谈：

1）获取（有价值的）信息；

2）利用自动化方式;

要件1：获取（有价值的）信息

之所以把这一要件放在前面讲，是因为有些合规问题其实并非是因爬虫技术所产生。我们试想一个场景，某公司利用人工，手动Ctrl+C、Ctrl+V复制其他网站的信息（数据），虽然没有使用爬虫工具，但也存在合规风险。

1. 考虑个人信息的合规性

在互联网语境下，最需要关注的就是获取的信息是否构成个人信息。在隐私保护与网络安全受到格外重视的今天，个人信息（尤其是个人敏感信息）是受到严格保护的。

我们知道，个人信息一般包括姓名、出生日期、身份证件号码、个人生物识别信息、住址、通信联系方式、通信记录和内容、账号密码、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息等。一般而言，符合以下任一标准的信息都可以被认为是个人信息：

（1）识别标准：即有助于识别、定位到特定个人的信息；

（2）关联标准：即能够反映特定个人的活动情况的信息。

至于更为严格的个人敏感信息，是指一旦泄露、非法提供或滥用可能危害人身和财产安全，极易导致个人名誉、身心健康受到损害或歧视性待遇等个人信息。一般认为个人敏感信息包括个人财产信息、健康生理信息、生物识别信息、身份信息、其他如电话号码、行踪轨迹、网页浏览记录、住宿信息、精准定位信息等。通常情况下，14 周岁以下（含）儿童的个人信息和自然人的隐私信息属于个人敏感信息。

考虑到《网络安全法》及配套的相关规定均明确规定了收集个人信息的明示同意制度，如果获取的信息中包含个人信息（甚至是个人敏感信息），因为爬虫并不会就此向用户申请授权，很难做到合规收集此类信息。

一旦有意或无意获取了这些个人信息，轻则引发侵犯个人隐私的侵权纠纷，重则涉嫌构成非法获取公民个人信息罪。至于如何收集个人信息则又是另一个老生常谈但规定尚不明晰的话题，也就不多赘述。

2. 考虑智力成果的合规性

大众点评诉百度地图一案，再次引发了人们对互联网发帖内容著作权归属的讨论与争议。对于未遵守Robots协议引发的恶意爬虫爬取信息的情节，虽然不乏认为Robots协议并非法律意义上的协议、仅体现行业道德规范与准则的观点，但也不可否认收集、处理并展现这些信息本身也是一种智力成果，也需要视情况认可相应的著作权。

更何况，被恶意爬虫所爬取的网站，往往与爬虫使用方处于同业地位，一旦使用方利用这些“顺手牵羊”来的信息开展业务，即实质上构成替代同业经营者向用户提供信息，这样的行为具有明显的“搭便车”、“不劳而获”的特点，会给被侵害方造成损害。

因此在爬取经整理的数据、信息（往往是有价值的信息）时，需要考虑著作权侵权以及不正当竞争侵权的民事侵权风险，而对于其中的著作权侵权问题，还需要考虑涉嫌构成侵犯著作权罪的刑事风险。

要件2：利用自动化方式

之所以要把自动化单独拿出来讲，是因为单纯的“获取信息”这个行为并非必须依赖爬虫才能实现，换言之前面提到的这些风险并不是爬虫所独有的合规风险。但是一旦利用爬虫工具进行自动化，又会牵扯出许多合规问题。

自动化带来的主要变化在两个方面：快又多、可伪造。

1. 快又多带来的问题

相信大家都有过想查工商信息却一天打不开工商信息公示系统的经历，而爬虫既快又多的特性可能正是罪魁祸首。

爬虫能够在非常短的时间内，访问同一个网站的很多页面，甚至可能在同一时间对同一网页发起多次同样的请求，这对网站而言是很大的负担。一旦这样的爬虫访问请求超过网站服务器负荷能力后，就可能造成网站瘫痪、无法向普通用户提供服务。这样的结果甚至已经可以归类于DDoS攻击，并涉嫌构成破坏计算机信息系统罪。

正是因此，《数据安全管理办法（征求意见稿）》第十六条规定了，网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。

当然，目前这样的规定尚较笼统，因为光是识别爬虫的使用者，本身就是一个非常困难的问题。

对此很多网站也采取了一定的反爬措施，例如限制Header、限制User-Agent、限制IP、限制访问频率、限制登录用户、采用Ajax异步加载、js混淆加密等等。这些反爬措施对于正常浏览网页的用户而言，并不会感受到异样，但对于既快又多、模拟用户访问的爬虫而言，则会构成很大的困扰。可以理解的是，恶意爬虫往往针对少数特定的竞品网站，因此有针对性的设计相应的反爬措施具备相应的可行性与经济性，因此很多爬虫会有针对性的绕过这些反爬措施。

由此引申出一个话题，便是对于这样看似是技术对抗的反爬措施与反反爬措施，深究其法律含义，也可以将反爬措施视为一种对外声明，“本网站不允许XXXX这样的爬虫抓取”、“本网站不允许爬虫抓取数据”，那么在这种情况下突破反爬措施的行为，本身就不具备正当性，并视情节面临相应的风险。

2. 可伪造是达摩克利斯之剑

普通用户浏览网页，都会限于网站所设定的业务逻辑范围内，浏览器的请求也只会按照网页载明的方式发送。但是爬虫不同，爬虫可以随意构建Header、Referer、User-Agent、Cookies等信息，并更改访问的URL，甚至变更用户ID、数据库查询区间，以各种方式访问原先网站设计时并不希望用户访问的内容。

这就是所谓的自动化爬虫带来的可伪造问题，而某些伪造行为在一定程度上也与很多的黑客手法相类似。严格而言，如果通过伪造方式突破网站原先设定的权限（或范围）获取到信息，就已经涉嫌构成非法获取计算机信息系统数据罪。

我们总说技术无罪，但也期待完善的立法、制度明确合规的界限。毕竟谁也不希望，“爬虫用得好，监狱进得早；数据玩得溜，牢饭吃个够。”

- END -

扫码关注，更多精彩！

【声明】内容源于网络

智能晒客

将智能科技跃然纸上，继而为之析法清障。

内容 131

粉丝 0

智能晒客将智能科技跃然纸上，继而为之析法清障。

总阅读157

粉丝0

内容131