

网络爬虫行为中的刑法问题
Criminal law issues in web crawlers
随着网络技术的飞速发展,网络爬虫技术凸显日渐“异化”的影响,成为了当前威胁网络安全的重要因素之一,本文介绍了网络爬虫行为中的刑法问题,通过具体分析恶意网络爬虫行为所侵害的法益类型来准确把握具体罪名的认定。
一、背景

近年来,随着大数据产业和人工智能技术的飞速发展,Python以其语法简洁、功能强大等优势成为了目前最流行的人工智能编程语言之一,同时也引起了人么对网络爬虫技术的广泛关注。但是,网络爬虫本身并不是一项新兴技术,它最早被用于搜索引擎的开发之中,是一种按照特定规则自动获取万维网数据的脚本或程序。最初技术人员为了提高工作效率和获取信息的便捷性,该项技术主要用于专业技术领域,但是随着科技的发展,人们的生活方式和价值观念也发生了改变,数据化的个人信息成为了富有价值的资源,网络爬虫便开始被广泛运用于生产和生活的各个领域,几乎遍布了网络空间的各个层面。


加之,自从《刑法修正案(七)》开始,增加了数个新的以数据、个人信息为犯罪对象的罪名,人们愈发开始注重个人信息的保护,网络爬虫技术凸显日渐“异化”的影响,成为了当前威胁网络安全的重要因素之一,因此网络爬虫行为便成为了刑法学界众多学者关注的焦点。2017年至今,刑法学者分别通过不同角度评析了“网络爬虫第一案”——晟品公司非法抓取视频数据案,从而扩展至整个网络爬虫行为,来探寻其中存在的刑法问题,试图在技术发展与数据利用中找到平衡点。
二、案情引入

2016年至2017年间,被告单位上海晟品网络有限公司张洪禹等三名主管人员共谋采取技术手段突破被害公司反爬措施,使用脚本文件“tt_spider”爬取被害公司服务器中存储的视频数据,致使被害公司服务器崩溃,损失人民币两万元的技术维护费。经技术部门鉴定,“tt_spider”的脚本文件逻辑是通过包含有分类视频列表、头条号视频列表、相关视频及其评论的三个应用程序编程接口对被害公司服务器进行数据抓取,将抓取到的数据结果存储到自己的服务器中。并且使用伪造“Device_ID”的方法来绕开被害单位服务器的身份校验,为了防止触发被害单位服务器的访问频率限制机制假造了大量UA(用户代理)及IP地址来进行数据爬取行为。被告人落网后如实供述了上述罪行,北京市海淀区人民法院于2017年11月24日作出刑事判决,判决认为被告人违反国家规定,采用技术手段获取被害公司计算机信息系统中存储的数据,情节严重,构成非法获取计算机信息系统数据罪,应予惩处。
从这个案件中分析行为手段,被告人实施了破解反爬措施、绕过服务器身份校验的行为,从而被法庭认定为“构成非法获取计算机信息系统数据罪”。从这里看,法院认为反爬措施和身份校验等措施,可以用来反映被害人的态度,以说明“侵入”行为和“非法获取”的行为。在本案中,法官开创性地将攻破常见的“反爬虫”技术措施纳入对计算机信息系统实施“侵入”行为的考量之内,“这其实相当于在数据流转领域创造了新的技术规范,在规范数据流转的行为方面发挥了积极的作用。”
三、网络爬虫的危害性

网络爬虫技术作为一项抓取数据的技术,其本身是无好坏之分的,所以一直以来都因为“技术中立”而游离于刑法规制之外,但是技术的使用方法不同,造就的结果也会不同,因为此案的发生,恶意的网络爬虫行为逐渐被人们所重视,成为法律关注的重点所在。网络爬虫的恶意使用会造成多种危害结果。
第一,恶意使用这一行为本身造成数据的来源不合规,不合法,侵犯他人的合法权益。如上述提及的案例,就是利用网络爬虫行为恶意违反网络协议,突破网站设置的反爬虫措施来抓取数据,损害了网站所有者享有的数据权及其带来的收益。
第二,恶意使用行为可能造成目标网站的拥挤甚至是瘫痪,严重危及计算机信息系统的安全,因为网络爬虫在短时间内对目标网站进行的大量访问会影响该网站的其他用户正常访问,从而影响网站的正常运行。
第三,通过网络爬虫技术恶意抓取的数据在后续的使用过程中可能也会侵犯刑法所保护的法益,从而构成犯罪。使用爬虫技术获得的数据可能包括国家信息,个人隐私信息或者商业秘密等,如果这些数据被不合法地利用,不仅会危害国家安全、侵犯个人隐私,同时还会衍生出一系列下游犯罪,如电信诈骗罪。
四、网络爬虫的行为类型

通过对爬虫技术使用的方法不同,结合刑法分则对网络犯罪的规定,网络爬虫技术可能存在不同的犯罪风险,根据爬虫技术的功能差异,可以将网络爬虫行为分为三大类型。
(一)“非法侵入”型
网络爬虫技术在违法性方面主要体现在“非法访问”,实践中以爬取的网站或平台是否同意或者授权为判断标准。理论层面通常认为“未经授权”或者“超越授权”是网络爬虫行为非法性的客观标准,而判断被访问网站或平台的主观意愿则以Robots协议为重要依据。我国法律规范、司法实践中对网络爬虫行为非法性的判断均体现了“代码理论”,认为只要避开或者突破了计算机信息系统设置的“代码屏障”即构成刑法意义上的“非法访问”。根据《刑法》第二百八十五条,针对特定领域的计算机信息系统的入侵行为单独成立犯罪,不以抓取数据为构成要件。因此,可以将网络爬虫入罪的第一种行为类型划分为“非法侵入”型。司法实践中主要表现为:使用爬虫软件登录交通安全综合服务管理平台,爬取车牌放号信息,经过与查询系统对比,获取未注册的车牌号。
(二)“非法获取”型
随着网络技术的发展,数据已经成为一种具有巨大经济价值的生产资料,为了应对这一变化,刑法新增了非法获取计算机系统数据罪。网络爬虫行为中非法获取受到保护的数据或者信息便符合该罪的客观行为构成要件,但是与日常生活中理解的先“非访访问”再“非法获取”的常规方式不同,从技术角度的获取数据方式更为多样,例如行为人利用ARP(地址解析协议)欺骗或DNP(域名解析服务器)劫持使受害者访问虚假钓鱼网站以获取账号、支付密码等重要个人数据信息,对于此类行为,不能片面认为网络爬虫程序必须侵入计算机信息系统才能获取数据,作为技术手段其可以通过代码编写具备多种多样的功能,从而达到获取数据的非法目的,此为“非法获取”型。司法实践的典型案例中常见的行为方式有:1.虽为合法访问,但是爬取数据销售牟利或者爬取公开数据后经技术处理获得个人信息进行出售;2.访问数据的行为便是非法的,利用系统漏洞侵入网站并获取数据或者如前述案例所提及的突破反扒措施限制访问网站并获取数据,在这一点上,“非法获取”型和“非法侵入”型是相通的;3.数据劫持,利用爬虫技术聚合视频,再实施加框链接行为,或者通过爬虫程序将他人的应用程序接口与自己的对接。
(三)“破坏或控制”型
值得一提的是,牟利虽然是多数实施网络爬虫的行为人的主观目的,但并不是法定的构成要件。利用多线程式网络爬虫对网站进行DDOS攻击也可以成为网络犯罪的行为方式之一。《刑法》第二百八十五、二百八十六条正是对非法控制和破坏计算机信息系统正常运行行为的规制。通过爬虫技术产生的程序可以模拟人工访问目标网站,但是访问的频率和次数远远高于真人,所以会在短时间内占据大量的网站服务器资源,轻则或造成正常用户的访问受限或者卡顿,重则干扰计算机系统的正常运行造成系统的瘫痪。这种行为在实践中并不罕见,最常见的便是抢票软件的爬虫程序。通过爬虫程序其中的特定代码或者携带的计算机病毒可以对计算机系统的数据进行增加,删除或者修改等破坏行为,造成的后果可能是因删除关键程序代码而造成APP无法正常运行,也可能导致网络系统无法正常运行,因此破坏和控制行为都可能使计算机系统暂时丧失或者永久丧失原有的功能,所以二者可以归为同于类型。进一步细化的行为方式有:使用爬虫程序频繁访问特定网站,造成网站无法正常运行或者在爬虫程序中增加删除功能,破坏被侵入系统的正常运行。