新闻中心
News center

网络爬虫抓取数据的刑法回应

发布日期:2020-12-18 来源:大成辩护人公众号 作者: 大成刑辩网编辑

  近日,杭州知名大数据服务公司杭州魔蝎数据科技有限公司疑似被相关执法人员控制,魔蝎科技CEO周江翔被警方带走;

  大数据金融风控公司新颜科技CEO黄向前传出被警方带走调查;

  公信宝运营公司杭州存信数据科技有限公司已经被杭州市公安局西湖分局古荡派出所查封;

  知名第三方数据服务公司聚信立向用户发布消息称,为积极迎合国家监管政策,保证所有商户业务运作合法合规,聚信立对其业务板块做出相应调整,于2019年9月6日停止对外提供用户授权的运营商爬虫服务。

  数据公司接连被调查的原因几乎都是——疑似进行或参与爬虫业务。随着互联网、物联网、云计算等新信息技术的不断成熟与普及,人类已经进入大数据时代。数据已经从简单的信息转变为一种经济资源,蕴含着巨大的价值。在互金浪潮中,崛起了上千家的大数据供应商,他们通过爬虫采集数据,然后进行清洗加工,针对不同的应用场景,再输出不同的产品。能够管理并运用好数据的企业将会获得巨大的竞争优势,但如果忽视数据合规,将会面临一定的刑事风险。

  一、网络爬虫是什么?

  网络爬虫(Web Crawler)(简称爬虫),也被称为网络蜘蛛、蜘蛛爬虫(Web Spider)或网络机器人(Web Robot),是互联网时代一项运用非常普遍的网络信息搜索技术。爬虫技术的本质是一套实现高效下载的系统,通过遍历网络内容,按照指定规则提取所需的网页数据,并下载到本地形成互联网网页镜像备份的程序。

  这一技术最早应用于搜索引擎,是搜索引擎获取数据来源的支撑性技术之一,其性能表现直接决定了整个搜索引擎的信息捕获效果。随着商业模式的不断创新,经营者运用爬虫技术开发的应用场景和商业模式越来越多。例如在互联网新闻资讯的抓取、金融数据抓取、天气预报信息抓取、招投标信息抓取等。

  二、网络爬虫刑事案件特点

  对于爬虫技术本身来说,技术创新具有推动社会经济发展的积极意义,但是,技术也存在被恶意使用的问题。因此,基于爬虫技术抓取数据的创新行为与随之而来的诸多法律风险之间的矛盾也日益凸显。笔者以“爬虫”“刑事”为关键词,在威科、北大法宝案例库进行检索,经过筛选后共得出12份有效案例,经过对上述案例的分析,主要发现以下几点:

  (一)网络爬虫刑事案件集中于侵犯著作权罪(5)、侵犯公民个人信息罪(4)、非法获取计算机信息系统数据罪(2)、破坏计算机信息系统罪(1)、非法侵入计算机信息系统罪(1)等罪名。

  (二)网络爬虫刑事案件多发于经济发达城市,北京与上海占据了案件总数的50%。具体案件分布见图2。

  三、网络爬虫刑事案件具体分析

  (一)侵犯著作权罪

  侵犯著作权罪,是指自然人或单位,以营利为目的,侵犯他人著作权,违法所得数额较大或者有其他严重情节的行为。

  根据我国刑法第217条规定,本罪的客观行为有以下四类:

  1、未经著作权人许可,复制发行其文字作品、音乐、电影、电视、录像作品、计算机软件及其他作品的;

  2、出版他人享有专有出版权的图书的;

  3、未经录音录像制作者许可,复制发行其制作的录音录像的;

  4、制作、出售假冒他人署名的美术作品的。

  司法实践中,数据公司符合的均为上述第一类构成要件行为,即通过爬虫技术非法获取他人文字作品、音乐、电影等作品并使用的行为。如李金波等侵犯著作权一案中【(2014)浦刑(知)初字第24号】, 被告人李金波等人共同开发一款供使用者免费阅读的APP。为配合该APP的开发设计了一款爬虫软件。爬虫是APP内置的搜索引擎,它好比是一个搬运工,可以从正规的网站上将小说内容搬运到快读的服务器上,不需要支付任何费用。这些网站只要有内容更新,仅过半小时左右,爬虫便可攫取到更新后的内容。如此,需要在正规网站付费阅读的小说,便能够在手机上轻松获取,并且不需要支付任何费用,这也是该APP能够迅速占领市场并保有大量活跃用户的秘诀所在。

  另外,在段某某侵犯著作权一案【(2017)沪0104刑初325号判决】中,被告人段某某利用视频“搜索爬虫”技术,针对其他视频网站的影视作品设置加框链接,并设置目录、索引、内容简介、排行榜等,吸引用户点击播放,另屏蔽所链影视作品的片头广告,在所设网站网页内发布广告后从网络“广告联盟”处收取费用牟利。整个行为从性质看系聚合相关内容以后的加框链接,属网络服务提供行为,法院因此认定该行为属于司法解释中广义的“通过信息网络向公众传播他人作品”,进而认定被告人构成侵犯著作权罪。

  (二)侵犯公民个人信息罪

  本罪是指违反国家有关规定,向他人出售或者提供公民个人信息,或者将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人,以及窃取或者以其他方法非法获取公民个人信息,情节严重的行为。

  根据《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第一条之规定,“公民个人信息”是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。

  在于剑、宁某侵犯公民个人信息一案【(2018)苏0803刑初644号】中,被告人为牟取非法利益,合谋开发某“黑爬虫”网站,该网站利用爬虫技术非法获取多家小额贷款平台内公民个人借贷信息、身份证照片信息等公民个人信息,用户充值后,经付费可以通过“黑爬虫”网站查询公民个人信息。

  (三)非法侵入计算机信息系统罪

  本罪是指自然人或者单位违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的行为。

  李文环、王硕、卢晓燕等非法侵入计算机信息系统一案【(2018)川3424刑初169号】中, 被告人李文环使用“爬虫”软件,大量爬取全国各地及凉山州公安局交警支队车管所公告的车牌放号信息,之后使用软件采用多线程提交、批量刷单、验证码自动识别等方式,突破系统安全保护措施,将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统,进行对比,并根据反馈情况自动记录未注册车牌号,建立全国未注册车牌号数据库。之后,李文环编写客户端查询软件,由李文环通过QQ、淘宝、微信等方式,以300-3000元每月的价格,分省市贩卖数据库查阅权限。

  (四)非法获取计算机信息系统数据罪

  本罪是指自然人或者单位违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据。

  在黄后荣等非法获取计算机信息系统数据【(2014)杭余刑初字第1231号】一案中,为了增加公司派发优惠券的淘宝店铺数量,被告人翁秀豪在被告人黄后荣的授意下以非法获取cookie数据为目的,编写了用于获取cookie的javascript,存储在被告人黄后荣租用的阿里云服务器中。通过上述方法,被告人黄后荣、翁秀豪非法获取淘宝用户cookie达2600万余组,并将获取的cookie存放在虚拟队列中。被告人黄后荣还利用自己编写的网络爬虫程序读取虚拟队列中的cookie,并利用cookie获取相应淘宝用户的交易订单数据(内容包含用户昵称、姓名、商品价格、交易创建时间、收货人姓名、收货人电话、收货地址等)达1亿条左右。

  (五)提供侵入计算机信息系统的程序罪

  本罪是指自然人或者单位提供专门用于侵入计算机信息系统的程序,或者明知他人实施侵入计算机信息系统的违法犯罪行为而为其提供程序,情节严重的行为。

  在马小辉、王贵兴侵犯公民个人信息【(2016)浙0602刑初1145号】一案中,被告人张大云伙同他人开发制作“林某2”、“凌某”系列软件并出售。该系列软件在未获得淘宝公司授权、账号权利人许可的情况下,故意规避淘宝、支付宝公司的安全防护系统,批量提取淘宝、支付宝系统内的数据信息,通过系列软件实现以下功能:邮箱状态、绑定身份证信息查询,支付宝登录、支付密码获取、修改,密码保护问题、答案获取,淘宝登录密码、状态、昵称、买家信誉、卖家信誉、注册时间、交易情况、是否实名、认证状态、开通方式等信息获取,支付宝登录密码、支付密码、余额支付、密保、支付认证方式、手机状态、实名状态、身份证姓名及号码、余额、余额宝等信息的获取。

  (六)破坏计算机信息系统罪

  本罪是指违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,或者故意制作、传播计算机病毒等破坏性程序,影响计算机系统的正常运行,后果严重的行为。

  在王博一文、黄业兴破坏计算机信息系统【(2017)津0104刑初740号】一案中,被告人使用电脑通过Python软件编写“爬虫”程序,以该“爬虫”程序植入第十三届全运会接待服务系统的方式对该系统进行攻击,删除了该系统内大量参赛运动员及技术官员的抵离信息、酒店住宿信息、人员简要身份信息,致使当日天津市全运会组委会接待服务部39台计算机无法正常运行接待服务系统。

  四、网络爬虫涉刑行为分析

  通过对上述案例进行分析,目前我国司法实践中,网络爬虫技术涉及刑事风险主要分为两个层面,第一个层面是爬虫技术使用行为本身,第二个层面是对所获取数据的提供、传播等后续的数据使用行为。数据公司在对使用网络爬虫获取数据合规自查时,应当从对数据的收集、使用、存储方面进行多维审查。

  (一)技术使用行为

  1.侵入行为

  网站为了保护自己的数据安全,会采取一些反爬虫措施防止网页信息和数据被爬取。例如:通过对端口、接口等禁止访问限制或通过网页访问口令、JS脚本、robots协议等来阻止爬虫。如果爬虫程序规避反爬虫措施,未经授权侵入计算机信息系统,非法侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统,那么该侵入行为本身便会触犯非法侵入计算机信息系统罪。

  2.破坏行为

  破坏行为是指对计算机信息系统功能或计算机信息系统中存储、处理或者传输的数据和应用程序进行破坏,或者故意制作、传播计算机病毒等破坏性程序。例如将爬虫程序植入计算机信息系统,对系统中存储的数据进行删除,将触犯破坏计算机信息系统罪。

  3.获取行为

  若使用爬虫技术,非法侵入属于国家事务、国防建设、尖端科学技术领域之外的计算机信息系统,并且获取了该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,则会构成非法获取计算机信息系统数据罪;如果非法抓取(窃取)的数据信息属于公民个人信息,或者商业秘密并给商业秘密权利人造成重大损失的,则有可能会构成侵犯公民个人信息罪或侵犯商业秘密罪。

  (二)数据使用行为

  数据使用行为根据数据类型的不同,涉及的刑事风险也存在区别。如果被传播的数据内容系淫秽物品,或用于牟利的数据内容系淫秽物品,或者是对公民个人信息实施的出售、非法提供行为,或者使用或允许他人使用其所掌握的或获取的商业秘密,达到所规定行为后果的,则会存在构成传播淫秽物品罪、传播污秽物品牟利罪、出售、非法提供公民个人信息罪以及侵犯商业秘密罪等法律风险。

  如果是知识产权保护范围内的数据,侵害著作权罪则是最主要的刑事风险。这里需要进一步区分网站或软件提供的仅仅是搜索链接服务,还是通过爬虫软件爬取数据并缓存于自己的服务器中,进而提供涉案作品的在线下载服务。如果利用爬虫技术以相对稳定和长期的方式将目标网页中的内容抓取并存储于自己的服务器中,在用户进行搜索操作时,从自己服务器中调取并提供给用户,用户在浏览器中浏览的是事先存储于自己服务器中的网页内容。这种行为本质上仍属于《著作权法》意义上的复制行为,而非对原网页的搜索或者链接服务,可能面临侵犯著作权罪的刑事风险。

  五、结语

  正如麦肯锡咨询公司在2016年的报告中指出,大数据正成为创新和竞争的新战线,同时,也成为经济的巨大推动力量。在人工智能技术下,数据不仅成为AI的“神经元细胞”,更成为个人、企业、国家据以预测和决策的基础和依据。随之而来的是数据和信息安全面临的被过度挖掘、恶意盗用等巨大风险。

  网络爬虫技术的初衷是为了提高搜集信息的效率,扩大数据的抓取范围,该技术提供行为本身秉持中立原则。但是,技术中立原则并不是技术使用者的豁免条款,恶意使用该项技术掠夺他人既有商业利益而自肥的行为,将会面对法律的制裁。

律师简介

  马成律师系北京大成律师事务所高级合伙人,大成中国区刑委会副主任,大成刑辩学院职务犯罪研究中心执行主任,广东省律协刑委会委员,深圳市律协刑委会副主任。

  马成律师团队系由马成律师于2012年创建的专注经济犯罪、商业犯罪、职务犯罪案件的刑事法律服务团队。团队成员均毕业于中国一流法律院校,多数成员拥有硕士和博士学位,法学专业知识扎实,学术理论功底深厚。部分成员具有在公、检、法等国家机关从事司法工作的丰富经验,擅长处理各类重大、疑难、复杂的刑事案件。团队成立以来,先后邀请多名高校教授、大成dentons总部刑事业务负责人担任重大疑难案件专家顾问团,力求理论与司法实践相结合,最大程度的维护客户的权益。目前团队已承办诸多在国内外有重大影响的大案、要案,部分案件属于公安部督办的特大案件。许多经典案例案情复杂,涉案标的大,广受社会关注,办案成果获得客户与同行的一致好评,例如:

  ★ 公安部督办的“闪电一号”骗取出口退税案

  ★ 阿里巴巴集团某副总裁非国家工作人员受贿案

  ★ 中兴通讯某高管职务侵占案

  ★ 河南省某市农行14.5亿诈骗案

  ★ 新加坡某上市公司某首席财务官涉嫌合同诈骗、职务侵占案

  ★ 胡润富豪榜前二十富豪、全国政协委员某知名企业家逃税案