爬虫涉刑事案件的辩护【T00ls法律讲堂第四十九期】
爬虫作为一项功能软件而言,在行为上就只是获取数据的动作,技术本身确实是没有对错的,但使用技术的人是有对错的。提及爬虫涉罪,往往会想到非法获取计算机信息系统数据罪。本文中,笔者仅就爬虫软件涉嫌犯非法获取计算机信息系统数据罪的辩护思路,做以下分享。
爬虫作为一项互联网技术,因功能强大并能满足企业对信息的各项需求,被频繁使用。据说互联网的全网浏览有高达百分之七十是爬虫流量,真正的用户访问量占比只有百分之三十。但那么多人和企业同样是在使用爬虫技术,为什么有的人就会涉嫌刑事犯罪?
这主要是因为爬虫作为一项功能软件而言,在行为上就只是获取数据的动作,技术本身确实是没有对错的,但使用技术的人是有对错的。提及爬虫涉罪,往往会想到非法获取计算机信息系统数据罪。本文中,笔者仅就爬虫软件涉嫌犯非法获取计算机信息系统数据罪的辩护思路,做以下分享。
首先,在对该类案件进行辩护前应当了解一些基础概念,比如,什么是爬虫以及与爬虫权限相应的协议。
1、什么是爬虫?
爬虫是目前互联网获取第三方网站信息和数据的最常用技术手段之一,是通过编程来自动实现对目标站点和目标信息的批量获取。最早的爬虫技术应用就是搜索引擎,它可以检索网站的信息并按序提供给用户进行访问。
2、什么是ROBOTS 协议?
ROBOTS 协议并不是法律法规,也不是规章制度和行业政策,它是搜索引擎行业内公认的,应当被遵守的商业道德。早期的爬虫技术使用者为了对外表明自身对爬取内容的态度和限度,会制作一个技术声明文件,这就是“ROBOTS协议”,也称“爬虫协议”,全称为“网络爬虫排除标准”(Robots Exclusion Protocol),强调的是网络通信协议。
3、什么是对应的权限?
ROBOTS协议是网站所有者通过置于网站根目录下的文本文件ROBOTS.TXT来提示网络机器人哪些网页不应被抓取,而哪些网页可以抓取。理论上,当爬虫访问某站点的时候,第一个读取到的文件应当就是这个文本文件,如果该文件不存在,就意味着爬虫能够访问网站上所有没有设置口令保护或技术防范的页面;如果存在,就应该按照文件里的要求来爬取允许被爬取的网站内容。
4、爬虫的功能?
从爬虫功能来看,可以分为网页爬虫和接口爬虫。搜索引擎就是典型的网页爬虫,它可以根据网页上的超链接进行遍历爬取,即爬取各个超链接的展示内容。而接口爬虫则是通过编程依照自身所需求的内容来精准构造特定的API接口请求数据,从而获取大量需求的数据信息。
5、爬虫授权情况?
从授权情况来看,可以分为合法爬虫和恶意爬虫。合法爬虫是按照ROBOTS协议规范的行为爬取网页或通过网络公开接口、授权接口进行爬取;而恶意爬虫则是通过编程构造的各种参数对目标网站的非公开接口、非授权接口进行数据的爬取,从而获得目标网站不愿意被机器人或蜘蛛大量获取的数据。
到这里,相信很多人已经对爬虫技术为何涉罪有了初步的判断,笔者结合自身实务经验,以我所代理的案件作为出发点,对这类案件的辩护提供一些思路以供参考:
首先,该类刑事案件的受理往往是基于其影响了被获取数据企业的系统稳定性,或者破坏了企业的商业运营环境等因素。之所以能够立案,通常系因为受害企业的陈述以及受害企业所提供的其禁止机器人爬取相关数据技术措施的相关证据。
其次,本罪的犯罪主体包含单位,作为辩护人应当立即想到结合现行的司法政策及时了解、判断该案是否涉嫌单位犯罪。辩护人可从单位的主营业务情况、爬虫软件业务的占比情况以及企业的规模等与现行政策关联的信息作为辩护切入点。其次就是使用爬虫的目的和用途,是自身合法的商业化运营还是贩卖等违法行为;爬虫的频次和范围等特征,是否影响对方企业的系统稳定性。
再者,获取的数据特征在本类案件中尤为重要,比如,数据是否包含后端服务器数据库中的商业秘密,其中最为典型的就是用户注册信息。大多数人会陷入一个误区,认为爬虫技术所获取的数据都是对方公司在前端公开的,且很多都是属于无需注册或者无需VIP便可登录访问的信息内容,这种情况所获取的数据不应该涉罪。其实并不然,信息内容的公开呈现是为了真实用户的感官体验和信息浏览,并非允许机器人对信息的任意索取,即使是搜索引擎的蜘蛛来了,也一样。但是,从辩护的角度来看,对公开信息非法获取的主观恶性和社会危害性程度都明显低于对秘密信息非法获取的程度。
最后,对于该罪如何定罪量刑?基于我们司法解释中对该罪中的“数据”做的明释,即数据应当以“账号+密码”为一组加以呈现。当前尤其保护与金融相关的账号密码数据,但是在实务中打击处理的案件中的“数据”,很多都是司法解释中并未提及到的。对于此,我认为这是刑事辩护中的一个争议焦点,但不能过于执着,要学会抓住重点,毕竟在现行生效判决中也有很多非法获取普通数据的情形是被处以刑罚的。不可忽视的重点是数据条数的计算,针对普通数据的条数,是不适宜以解释中账号密码为一组数据的条数来计算的。目前的司法实务中,部分检察官法官也会注意此点,于是在给被告量刑的时候,往往只能以金额来认定幅度进行计算;如果金额也无法认定或者不足时,只好以对企业造成的损失来认定幅度量刑,而对于损失的认定我们可以结合代理破坏计算机信息系统罪的思路予以辩护,这里不再赘述。
以上是对该类案件辩护思路的简单分享,个案之间都有不同,需要通过会见以及后续阅卷具体问题具体分析,本文不考虑管辖以及对电子数据等证据进行三性审查的情况,不当之处敬请拍砖。
这主要是因为爬虫作为一项功能软件而言,在行为上就只是获取数据的动作,技术本身确实是没有对错的,但使用技术的人是有对错的。提及爬虫涉罪,往往会想到非法获取计算机信息系统数据罪。本文中,笔者仅就爬虫软件涉嫌犯非法获取计算机信息系统数据罪的辩护思路,做以下分享。
首先,在对该类案件进行辩护前应当了解一些基础概念,比如,什么是爬虫以及与爬虫权限相应的协议。
1、什么是爬虫?
爬虫是目前互联网获取第三方网站信息和数据的最常用技术手段之一,是通过编程来自动实现对目标站点和目标信息的批量获取。最早的爬虫技术应用就是搜索引擎,它可以检索网站的信息并按序提供给用户进行访问。
2、什么是ROBOTS 协议?
ROBOTS 协议并不是法律法规,也不是规章制度和行业政策,它是搜索引擎行业内公认的,应当被遵守的商业道德。早期的爬虫技术使用者为了对外表明自身对爬取内容的态度和限度,会制作一个技术声明文件,这就是“ROBOTS协议”,也称“爬虫协议”,全称为“网络爬虫排除标准”(Robots Exclusion Protocol),强调的是网络通信协议。
3、什么是对应的权限?
ROBOTS协议是网站所有者通过置于网站根目录下的文本文件ROBOTS.TXT来提示网络机器人哪些网页不应被抓取,而哪些网页可以抓取。理论上,当爬虫访问某站点的时候,第一个读取到的文件应当就是这个文本文件,如果该文件不存在,就意味着爬虫能够访问网站上所有没有设置口令保护或技术防范的页面;如果存在,就应该按照文件里的要求来爬取允许被爬取的网站内容。
4、爬虫的功能?
从爬虫功能来看,可以分为网页爬虫和接口爬虫。搜索引擎就是典型的网页爬虫,它可以根据网页上的超链接进行遍历爬取,即爬取各个超链接的展示内容。而接口爬虫则是通过编程依照自身所需求的内容来精准构造特定的API接口请求数据,从而获取大量需求的数据信息。
5、爬虫授权情况?
从授权情况来看,可以分为合法爬虫和恶意爬虫。合法爬虫是按照ROBOTS协议规范的行为爬取网页或通过网络公开接口、授权接口进行爬取;而恶意爬虫则是通过编程构造的各种参数对目标网站的非公开接口、非授权接口进行数据的爬取,从而获得目标网站不愿意被机器人或蜘蛛大量获取的数据。
到这里,相信很多人已经对爬虫技术为何涉罪有了初步的判断,笔者结合自身实务经验,以我所代理的案件作为出发点,对这类案件的辩护提供一些思路以供参考:
首先,该类刑事案件的受理往往是基于其影响了被获取数据企业的系统稳定性,或者破坏了企业的商业运营环境等因素。之所以能够立案,通常系因为受害企业的陈述以及受害企业所提供的其禁止机器人爬取相关数据技术措施的相关证据。
其次,本罪的犯罪主体包含单位,作为辩护人应当立即想到结合现行的司法政策及时了解、判断该案是否涉嫌单位犯罪。辩护人可从单位的主营业务情况、爬虫软件业务的占比情况以及企业的规模等与现行政策关联的信息作为辩护切入点。其次就是使用爬虫的目的和用途,是自身合法的商业化运营还是贩卖等违法行为;爬虫的频次和范围等特征,是否影响对方企业的系统稳定性。
再者,获取的数据特征在本类案件中尤为重要,比如,数据是否包含后端服务器数据库中的商业秘密,其中最为典型的就是用户注册信息。大多数人会陷入一个误区,认为爬虫技术所获取的数据都是对方公司在前端公开的,且很多都是属于无需注册或者无需VIP便可登录访问的信息内容,这种情况所获取的数据不应该涉罪。其实并不然,信息内容的公开呈现是为了真实用户的感官体验和信息浏览,并非允许机器人对信息的任意索取,即使是搜索引擎的蜘蛛来了,也一样。但是,从辩护的角度来看,对公开信息非法获取的主观恶性和社会危害性程度都明显低于对秘密信息非法获取的程度。
最后,对于该罪如何定罪量刑?基于我们司法解释中对该罪中的“数据”做的明释,即数据应当以“账号+密码”为一组加以呈现。当前尤其保护与金融相关的账号密码数据,但是在实务中打击处理的案件中的“数据”,很多都是司法解释中并未提及到的。对于此,我认为这是刑事辩护中的一个争议焦点,但不能过于执着,要学会抓住重点,毕竟在现行生效判决中也有很多非法获取普通数据的情形是被处以刑罚的。不可忽视的重点是数据条数的计算,针对普通数据的条数,是不适宜以解释中账号密码为一组数据的条数来计算的。目前的司法实务中,部分检察官法官也会注意此点,于是在给被告量刑的时候,往往只能以金额来认定幅度进行计算;如果金额也无法认定或者不足时,只好以对企业造成的损失来认定幅度量刑,而对于损失的认定我们可以结合代理破坏计算机信息系统罪的思路予以辩护,这里不再赘述。
以上是对该类案件辩护思路的简单分享,个案之间都有不同,需要通过会见以及后续阅卷具体问题具体分析,本文不考虑管辖以及对电子数据等证据进行三性审查的情况,不当之处敬请拍砖。
评论15次
这就是看谁爬 定义不一样
如果都不让爬,那搜索引擎是如何规避这个问题的了,rebots吗,那如果没有在rebots里是不是就能爬
前车之鉴,莫爬数据~!
如何判定接口是非公开的呢?
看来爬取数据需谨慎
仅个人轻收集应该没什么问题
所以如何防止被溯源呢?挂代理?
爬数据确实容易入狱
使用F12不知道算不算逆向手段 ...
感觉百度,谷歌这种搜索引擎大厂遇到的法律问题应该也不少!
说简单点,只要是数据是公开的,并且没加密,采集是有没问题的(不包括采集个人信息相关的,采集个人信息是绝对违法的),但是不可大并发对对方网站造成网络拥堵,不然对方公司报警 ,照样坐牢,另外一种就是数据虽然是公开的,但是公开的数据是加密形式进行展示的,采用逆向手段进行获取采集,这种判的时候要比前面的要重一点.就这2个区别
爬虫入门到入狱
哈哈 技术本来就是双刃剑
爬虫入门到入狱
自己去爬一些公开的数据,量比较少的话,也算是犯法吗?
微博开放的API里面可以查询到很多用户信息,那这些软件自己开放的API是不是可以默认为是公司开放的数据。