尚权推荐SHANGQUAN RECOMMENDATION

尚权推荐丨李雪健:平台数据爬取行为的刑法规制

作者:尚权律所 时间:2024-02-01

摘要

 

网络爬虫技术为平台数据保护带来了巨大的挑战,厘清平台数据承载的法益、明确非法网络爬虫的不法内涵,进而划定网络爬虫合法与非法的边界、防止非法网络爬虫不当损害企业利益已经成为刑法的重要命题。平台数据法益在理解路径上存在信息法益与数据法益的分歧。信息法益路径下,无论是将平台数据评价为信息财产还是商业秘密皆不足取。基于信息网络特性、社会需求及立法导向三点理由,以数据作为独立刑法评价对象具有必要性,数据法益路径具有可行性。平台数据承载法益为平台数据的保密性,即平台企业对平台数据的排他性控制,公开平台数据缺乏需保护性。基于数据流通的情境化与生成性特征,司法机关在解释构成要件时需注意司法判断的个别化与要件解释的常人化。平台数据爬取行为的不法内涵为“未经或超越授权访问数据”,司法机关需结合平台数据法益,对“未经授权”及“超越授权”访问平台数据的爬虫行为进行精准认定。

 

关键词:网络爬虫;平台数据;信息数据;非法获取计算机信息系统数据罪

 

一、问题的提出

 

大数据时代下,数字经济的崛起对社会发展产生了重大影响,而数字经济的基础便是数据。《经济学人》曾指出,数据就是新时代的石油。党的十九届四中全会明确将数据同劳动、资本、土地等传统生产要素相并列。近日中共中央、国务院更是明确发文指出数据是数字时代的重要生产要素,具有基础性和战略性地位。数字经济为法律领域带来了诸多新难题,在公民个人信息保护日益受到重视的同时,平台数据保护也日渐受到关注。

 

由于运营、财务等数据一般储存于公司内部的私人服务器之中,且不接入信息网络,仅在公司局域网范围内访问,对于此类数据,学理上一般评价为商业秘密并无争议。而本文所讨论的平台数据,是指平台企业(下文称“企业”)在信息网络中实际控制和使用的包括合法收集并脱敏的用户数据、经过加工、计算、聚合而成的可读取、具有使用价值的衍生数据以及其他储存于公共服务器中、可为社会公众访问的数据。在近年来发生的“晟品公司、侯某等爬取数据案”、“邵凌霜等非法爬取数据案”等轰动一时的爬虫案件中,涉案数据皆为此类数据,由于法律对此类数据的法律性质留有余白,故而此类数据是本文讨论的重点。

 

作为大数据时代的高效、快捷的数据获取方式,网络爬虫技术为平台数据保护带来了巨大的挑战。网络爬虫(web crawler),又称浏览器蜘蛛(web spider),是一种持续“浏览”网站、以网络索引(web index)为目标的网络机器人,其功能在于自动遍历浏览器链接,通过“访问——响应——储存”的基础数据传输模式进行数据收集。尽管对于互联网的历史而言,网络爬虫并不属于新生事物,但得益于多核处理与超线程技术,如今的网络爬虫可以实现多线程、高频次的访问,故而网络爬虫所爬取的平台数据往往具有规模化特点。在平台数据已经成为企业重要生产要素的今天,划定网络爬虫合法与非法的边界,以有效防止非法网络爬虫不当损害企业利益已经成为域内外理论与实践的重要命题。因此,厘定被爬取平台数据的法益,确定具有需保护性的平台数据的范围,研判平台数据爬取行为的不法内涵,明确平台数据爬取行为的不法判断规则以实现刑法对平台数据保护的“不偏不倚”是本文的写作思路。

 

行为对象是法益的载体,确定刑法评价的行为对象是厘清刑法法益的前提。显然,企业仅是掌握数据并享有利益的主体,但对这种利益的理解离不开数据本身。根据尤查·本科勒(Yochai Benkler)的通信层级理论,计算机通信系统可在物理层、代码层与内容层三个层面理解。物理层是指计算机、网线等指出数据运行、储存等功能的硬件设备;代码层是指以0/1二进制比特形式储存在系统、网络,且无法为人体感官直接感知的数据;而内容层则是承载于数据之上,具备特定内容,且具有一定结构和层次并为人所感知的信息。平台数据主要涉及代码层与内容层,故而其既可以被理解成为计算机所储存、加工、传输的标准化、可再处理的数据,又可以被理解成为表征一定内容的信息。由此,刑法评价对象到底是企业所掌握的“数据”还是“信息”的分歧,直接导致学理上衍生出信息法益与数据法益两种不同路径。

 

二、平台数据信息法益路径的检讨

 

信息法益路径坚持以信息作为刑法评价对象,以信息内容为核心,通过提炼企业信息的典型特征,进而利用既有信息犯罪形成对平台数据的有效保护。由于企业需对收集而来的海量个人信息进行脱敏处理,平台数据已无同个人直接关联,蕴涵其中的人格因素亦不复存在,故而学理讨论重点皆集中于企业对脱敏后的大数据享有何种非人格性利益。平台数据在信息法益路径下,存在信息财产、商业秘密两种不同观点,下文分别予以评析。

 

(一)对信息财产路径之检讨

 

信息财产路径视平台数据为信息财产。企业在信息主体授权的法定范围内,以生产经营为目的,对处理原始数据所获得的信息享有占有、使用、收益、处分权利,即信息财产权,网络爬虫所侵犯的是平台信息占有权,理应适用非法获取计算机信息系统数据罪予以规制。然而,这一观点在权利客体、价值层面、体系解释上皆存在问题。

 

“数据处理目的”未必能定型企业信息

 

平台数据的明确化、类型化不但是罪刑法定的要求,更是财产权这一法益的前提。财产权作为一项专有且排他的绝对权,必须建立在一个外在的、可归属的权利客体之上,唯有如此,他人的自由才不会受到无限度的限制。然而,信息显然无法承担这一重任。《剑桥哲学词典》将“信息”定义为“一种客观且独立于心灵的实体”,是蕴涵于消息或其他解释者结论中的“意义”。信息缺乏如有体物一样的物质基础,更缺乏稳定的外在表现形式。正因如此,论者试图比照个人信息的“目的限定”原则,以客观的生产经营目的限定信息范畴,进而为财产权寻找稳定的锚定物,但这一做法存在实践与理论的双重缺陷。

 

一方面,对平台数据施加“目的限制”缺乏实践可能。作为市场主体,企业目的多样复杂,严格的“目的限定”往往会被信息处理者规避,且我国互联网行业“寡头化”严重,在资本的加持下,企业涉猎行业广泛,欲求明确且有限制的数据处理目的较为困难。另一方面,对平台数据施加“目的限制”缺乏学理支撑。为支持数字经济发展,“加工风险”同“目的限制”成正比的“风险原则”已成为企业加工个人信息的基本原则。在企业采取有效脱敏措施的前提下,平台数据鲜受或不受目的限制,以促进数据潜力释放几乎已成共识,将企业所控制的加工目的之外的数据置于法秩序荫蔽之外缺乏学理支撑。因此,这种实践与理论的缺陷将导致“目的限制”原则不但难以起到定型行为对象的功能,反而会导致平台数据外延宽窄两难。

 

2.赋予平台数据以财产权缺乏价值论基础

 

从信息自由出发,信息物质、能量、信息是人类活动必备的三个要素,是人类交往行动的产物与前提,信息的分享是常态,在法律上拟制信息的稀缺性,无异于禁锢思想,严重损害信息自由这一基本价值。无论是民法一般的私法,还是如刑法一般的公法,对信息进行法律上的控制需要充足的理由,这种理由往往源于基本法中的重要价值。例如,个人信息立基于人格尊严与自由,国家秘密立基于国家安全等等,而除此之外的信息一般被置于公共领域流通而鲜为法律规制。当前,公众对企业所分享的信息已产生了极大的依赖性,手机、电脑等电子设备已成为人类的“第二大脑”,5G网络的普及与发展更为“万物互联”提供了技术保障,网络世界早已渗透并融合于生活世界之中,将早已融入生活世界、为企业所分享且成为社会公众生活一部分的信息纳入专有且排他的绝对权范畴显然缺乏正当性与合理性。

 

从竞争秩序正当性出发,同传统工业社会的企业竞争秩序不同,在企业市场竞争中,围绕平台数据,上下游竞争者产生了巨大的利益冲突,上游企业期望通过控制信息攫取经济利益,而下游企业基于互联网“互通互联”精神要求信息开放共享。赋予企业以专有且排他的绝对权将极大提高下游企业的经营成本及其他市场参与者的市场准入门槛,极易造成竞争秩序失衡。在美国NFL vs. Governor of Delaware案中,法院认为,尽管原告对信息产生投入了商业活动成本,但不应阻止他人通过原告产出信息所附随的其他商业机会获益。

 

3.存在对非法获取计算机信息系统数据罪过度解读的嫌疑

 

尽管法律的生命在于解释,但是正如艾柯所言:“不能随心所欲地使用敞开的文本,而只能随文本所欲;敞开的文本无论有多么‘敞开’,也不可能任意读解”,否则就是“过度解释”。信息财产路径视平台数据为承载信息财产权的信息财产,但在具体规范上却适用非法获取计算机信息系统数据罪予以保护,这无疑造成了刑法体系上的解释谬误。非法获取计算机信息系统数据罪隶属我国《刑法》妨害社会管理秩序罪一章中的扰乱公共秩序节,其保护法益为数据安全,是一种公共秩序法益。该观点利用公共秩序法益去保护企业的信息财产权,二者并不匹配。有学者归纳总结出我国《刑法》对数据保护的四种模式,分别为经济秩序保护模式、人格权保护模式、物权保护模式与公共秩序保护模式。若将平台数据以信息财产论,适用以盗窃罪、诈骗罪为代表的物权保护模式岂不更为合适?但作者并没有给出明确的理由,这不禁让人怀疑是否存在对非法获取计算机信息系统数据罪的过度解读的嫌疑。

 

(二)对商业秘密路径之检讨

 

另有观点认为,平台数据拥有非公知性、保密性、价值性、实用性的法律特征,可以涵摄为“商业秘密”,在规范上适用侵犯商业秘密罪。这一观点的理由在于:第一,平台数据一般储存于平台服务器,对其获取需符合特定条件,故仅限于一定范围的人知悉而具有非公知性。第二,企业往往采取技术措施进而对平台数据加以保护,致使他人大规模获取较为困难,故具有保密性。第三,平台数据能为企业带来现实或潜在的经济利益或竞争优势,因此具有价值性。第四,平台数据能够提升社会主体生产活动效率,故而具有实用性。本文认为,除实用性外,平台数据难以满足商业秘密的其他法律特征。

 

1.平台数据是否具有非公知性存疑

 

信息网络促成了“分享世界”的形成,网络生态环境从按照对价理论收费的传统市场规律转化为不计报酬地分享与心安理得地享受,免费成为大多数消费者获取信息的默认方式。在这样的网络生态环境下,以免费信息服务捆绑忠诚用户,通过向第三方提供广告服务已经成为域内外包括百度、腾讯、谷歌、MSN等互联网企业的盈利模式,社会公众可以极低或无成本获取平台数据。此外,平台数据还会以多种方式途径由他人共享,例如平台间会签订《数据互通协议》进行数据共享,根据政策要求,平台数据会根据法定程序交由政府审查。因此,平台数据并不满足商业秘密非公知性的前提。

 

2.平台数据是否具有保密性存疑

 

保密性要求保密措施设置的直接目的在于保护商业秘密不为人知晓。当前,采取防火墙、代码加密等技术措施已成为企业保护服务器、防止黑客非法入侵的主流做法。但问题在于,我国《数据安全法》第27条亦赋予企业以采取相应技术措施与必要措施的数据安全保护义务。在技术加密措施的实施本身属于企业对数据安全保护义务履行常态化、日常化的前提下,上述技术措施能否专系为保护商业秘密,防止商业秘密为他人所知晓值得推敲。

 

      3.平台数据是否皆具有价值存疑

 

有学者已指出,平台数据所蕴涵的信息非常庞杂,并不是所有的信息皆对企业经营和发展具有实质价值,作为典型的“时效品”,老数据不如新数据值钱,且前者价值随着时间会最终归零。出于数据储存成本与空间的考量,定期清除平台数据已经成为企业的惯常做法。因此,平台数据对于企业而言,是否具有稳定且可计算的价值亟需进一步论证。

 

综上所述,平台数据既难以评价为承载财产权的信息财产,又无法评价为承载正当竞争秩序及企业经济利益的商业秘密。究其根本,原因在于在信息层面,基于企业的免费盈利模式,企业对平台数据所承载的信息本身并没有限制与控制的需求,甚至希望信息广为人知,进而增加、提升自身流量与热度。因此,无论是将平台数据当做信息财产还是商业秘密,都无法为企业常态化的信息分享寻找合适的解释理由,当论及具体特征时,无论是信息财产的绝对权基础,还是商业秘密的非公知性皆会不约而同地受到影响而难以成立。

 

三、平台数据数据法益路径的证成

 

相比于缺乏稳定外观表现形式的信息而言,数据本身具有物理载体和数据处理技术,完全可以被界定、分析与控制,进而实现明确化与类型化。在民法学界,亦有不少持财产权观点的论者主张以数据作为权利客体。但近年来,刑法学界对以数据作为刑法评价对象观点的批判却日益增多,主要认为数据仅具有载体意义,缺乏独立的法益侵害,围绕数据难以构建刑法规范与评价体系。但这一观点明显忽视了数据问题的独立意义,未能结合信息网络的技术特点,从整体、动态视角对数据进行有效评价。基于信息网络特性、社会需求及立法导向三点理由,以数据作为独立刑法评价对象具有必要性,爬取平台数据行为侵犯的法益是平台数据的保密性,理应适用非法获取计算机信息系统数据罪予以规制。

 

(一)评价对象:数据而非信息

 

1.信息网络赋予数据以独立意义

 

若从静态视角观察单个数据,技术层面的二进制代码形态使得数据同质化,单个数据仅作为信息的载体而从属于信息法益,这对刑法而言确实没有任何类型化意义。然而,若摆脱固有的技术理解,并将数据置于信息网络环境下,则可以发现,数据无时无刻不处于“运动(运输)”之中。在信息网络中,数据从来都是以动态的数据流(data stream)而非静态的单个数据而存在,依赖于物理层所提供的“高速公路”,数以百万计的数据在服务器与客户端之间双向传输。正如车流于公路行驶需要交通秩序一样,数据流通需要合法的访问与传输的秩序以确保数据安全。在此意义上,数据不再同所承载信息的来源、内容、公开直接相关而具有独立意义,所有数据皆被规划于指定代码空间,流转于特定传输渠道,并受到平等保护。

 

       2.社会需求赋予数据以独立意义

 

数据问题缘起于数字技术与信息网络的兴起,是数据传输高速化、集中化、多渠道化后的新问题,反映了信息时代社会公众的社会需求。网民数量的急剧增加提升了社会公众的入网数据被访问的频次,信息网络开放性的技术底色放大了入网数据被任意访问的可能,社会中非数据主体对入网数据的访问自由同数据主体对入网数据的控制自由之间的矛盾紧张,这使得数据主体对储存于计算机之上的数据保持控制访问能力的需求剧增,而这种需求同信息的内容无关。增强数据主体于其控制数据的安全感,进而减少数据主体为保护数据的社会成本支出使得数据作为刑法的评价对象具有独立意义。

 

       3.立法导向赋予数据以独立意义

 

首先,前置法针对信息与数据分别采取了不同的规制理路。以《民法典》中个人信息与数据为例,我国《民法典》第111条确立了个人信息的人格权保护进路,并将私密信息纳入隐私权的保护模式之中,而第127条则将“数据”同“网络虚拟财产”相并列,侧重于对“数据”的财产性保护。可见,数据在规范目的与规制方式上皆独立于信息。

 

其次,《数据安全法》揭示了数据安全的独立意义。不同于《个人信息保护法》对表征人格要素的信息内容进行保护,《数据安全法》更侧重于“风险——安全”的社会控制,核心是对未经授权的访问、使用、披露等行为进行控制。《数据安全法》第7条要求“数据依法有序自由流动”,其中“有序”表明数据流动理应符合数据流动秩序,即在保护个人、组织与数据有关的权益,鼓励数据依法合理有效利用的前提下,确保数据流动的一致性、连续性与确定性,防止出现失控的数据攫取现象。

 

(二)法益确定:平台数据的保密性

 

1.平台数据法益是企业对平台数据的控制

 

1975年,德国学者Saltzer和Schroeder面对日益发展的信息化技术,预见性地提出了“数据安全”的概念。而后2001年,欧洲及其他国家共同签署了《欧洲网络犯罪公约》(Convention on cybercrime),尤其围绕“数据安全”构建了数据犯罪体系。具言之,数据安全包括数据保护的三个面向(CIA triad),包括数据的保密性(confidentiaity),即数据主体对数据排他的控制,防止数据为无授权人所访问获取;数据的完整性(integrity),即防止数据为无授权人所篡改;数据的可用性(availablity),即防止数据遭受到不正当破坏,使得权利人无法访问。与之相对应,我国亦围绕“数据安全”构建了罪名体系,其中非法获取计算机信息系统数据所保护的法益是数据的保密性,而破坏计算机信息系统罪保护的是数据的可用性与完整性。网络爬虫作为一种“非法获取平台数据”的行为,所侵犯的法益是平台数据的保密性。数据的保密性蕴涵数据主体对数据专有的享用与控制利益,是相对于非法第三方的一种纯粹的排他权,更是针对数据控制和限制的自足可能性的新利益。

 

2.企业对平台数据的控制具有有限性

 

值得注意的是,平台企业对平台数据的控制具有有限性,刑法对企业数据的保护不能阻碍信息网络中正常数据的流动与分享。在大数据时代,数据的流动是常态,数据分享是实现数据价值的渠道所在。有学者指出,人类对物质世界的依赖、开发和调整时间数以千计,因而“物以稀为贵”已然成为一种惯性思维。然而,数字时代下社会形态正在从私权社会向有机社会转变,互惠共享是信息时代不同于传统工业社会的主要特征。正如莱斯格(Lessig)所言,对于用途不明的资源,我们应当将其保留在共有领域,以供人们试验各种使用方式,对资源用途的无知是保持资源对所有人开放的最好理由。

 

因此,数据主体于数据之上的控制利益无法如财产权绝对排他,对数据法益的理解需考量数据控制与数据分享的平衡。刑法需要通过对控制实现方式限缩解释为事实性控制,为数据控制与数据分享划出界限,以实现对数据保护的不偏不倚。换言之,数据的保密性表现为数据主体通过身份认证、应用程序端口(Application Programming Interface,API)等技术措施“圈划”数据储存、运行的密闭空间,规划数据流通运输的特定渠道,实现数据的事实性控制。一旦数据主体将数据公开,明示放弃或默然不利用技术措施对数据进行控制,任由数据流通至公共领域,则视为数据主体主动放弃或推定其放弃了数据法益,适用被害人承诺理论而成立法益阙如。因此,公开数据缺乏刑法上的需保护性。美国网络犯罪学者克尔(Kerr)将平台企业与数据的关系隐喻为公共集市上的商贩与蛋糕,互联网犹如物理世界中的开放的公共集市,互联网企业犹如在公共集市上售卖蛋糕的人一样,公开数据犹如摆在桌子上的试吃蛋糕,任何人都可以索取。禁止他人获取公开数据,就像出版报纸,而后禁止某人阅读,这显然缺乏正当性。

 

(三)方法支撑:司法判断个别化与要件解释常人化

 

根据刑法理论通说,法益具有构成要件解释功能,即解释者需根据法条所保护的利益种类和范围,将抽象的构成要件在个案中具体化。由于本文将平台数据法益锚定于动态而非静态的数据之上,故而对平台数据法益的理解除从企业于平台数据的权益出发外,仍需结合数据流通的一般特征,进而为具体构成要件解释提供方法论上的支撑。

 

数据流通的情境性要求司法判断个别化

 

数据流通的情境性源于Helen Nissenbaum所提出情境完整性理论(Contextual Integrity Thory),该理论基于沃尔泽(Walzer)情境化与动态化的多元正义观指出,数据正义需要在具体场景中予以实现,法律规范应当在具体情境中适用。具言之,不同情境下,数据主体与访问者的合理期待、数据参数、数据储存空间性质不同,一层不变的规则难以规制变化多端的情境,法律规范不应当用一个推定来管辖全部资源获取问题。正如下文所述,网络爬虫行为不法的本质在于“未经或超越授权”。然而,“授权”本身便具有语义上不可避免的模糊性。具言之,对授权“有无”的判断较为容易,但“多少”的判断却十分困难,其内容需要法官根据具体案情进行推定与补强。例如,若雇主同雇员在《劳动合同》中未约定数据获取的授权内容及范围,拥有技术访问权限的雇员违反雇主意愿获取数据,此时对于雇员是否“超越授权”便需要结合具体情境进行判断,同一行为完全可能因不同情境而得出完全相反的结论。

 

因此,数据流通规则的情境化特征将会要求司法判断个别化,即司法机关需要对平台数据及数据爬取行为作个别化、情境化判断,力求将数据爬取时具体情境中影响对象及行为违法性的多重客观因素与数据主体的合理主观预期予以考虑周全,在经过充分的利益衡量后,确定行为人的行为是否成立犯罪,而非自始一味地承认平台数据具有需保护性以及爬虫行为的违法性。

 

      2.数据流通的生成性要求要件解释常人化

 

所谓数据流通的生成性,是指数据流通规则的形成是由多中心之间相互调和,进而形成的一种动态而均衡的状态。纵观信息网络及其立法历史可知,信息网络法律的颁布一直滞后于信息网络的发展,数据流通规则的产生及其变化从不依赖于法律规范。作为一种全球性资源,数据流通规则是共同使用互联网中的人在行动中逐渐产生与形成的,这表现为冲突产生后,数据主体基于实际理由来解决问题,并且得到大家的同意与认可,而后形成特定权利与义务。

 

因此,数据流通规则具有典型的主体间性特征,在对数据罪名构成要件解释时,理应回到具体情境下社会公众对数据流通规则的共识。在构成要件的具体解释中,数据流通规则的生成性主要表现为补全解释空白与验证解释结论。一方面,当行为不法的判断依据出现空白时,社会公众共识可以为行为不法提供具体标准。而另一方面,当行为不法的判断依据仅存有企业对数据的单方预期时,社会公众共识可以判断这种单方预期的合理性。

 

四、爬取平台数据行为不法及其判断规则探析

 

正如上文所述,非法获取计算机信息系统数据罪作为“唯一纯正数据罪名”,其法益为数据保密性,即保护数据主体对数据的事实控制,防止数据为他人非法获取,这同平台数据所承载法益具有同一性,适用非法获取计算机信息系统数据罪以保护平台数据亦成为司法实践的通行做法。在事实层面,网络爬虫的行为样态为对浏览器加载数据的自动化访问、收集与储存。根据现行立法,非法获取计算机信息系统数据罪的行为方式为“侵入”或利用其他“技术手段”获取数据。然而,这一立法仅是出于罪刑法定明确性要求的类型化,后续最高人民法院、最高人民检察院《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第2条揭示了该罪名构成要件行为的实质:所谓“侵入”即“未经授权或超越授权访问”。因此,爬取平台数据的行为是否获得企业授权成为判断爬虫行为违法性的关键。

 

(一)企业授权的基本方式:事实授权与技术授权

 

根据字面含义,所谓授权,即授予对象以完成某项工作所必须的权限。在技术层面,授权即表明访问者的访问将不会受到具备阻止访问功能的技术措施的干涉。对于企业而言,授权即表明对特定主体放弃其基于平台数据之上的事实控制,因而属于违法阻却事由。企业授权的主要方式有两种:事实授权与技术授权。

 

1.事实授权与技术授权的内涵

 

事实授权,是指企业就是否允许获取数据、获取何种范围数据等问题同访问者所达成的真实意思表示,其主要产生于特定契约关系,通过企业同访问者之间签订契约而形成。事实授权往往同技术授权存在先后关系,访问者获得数据主体的事实授权后,数据主体往往会赋予访问者以技术授权。在实践中,访问者所赋予的技术授权一般同事实授权在范围、内容上一致,但亦存在因技术等原因导致技术授权大于事实授权。例如,基于《劳动雇佣合同》,根据合同需要,数据主体会在技术层面授予一般员工以相应技术授权以方便履行职务,但企业内技术人员往往拥有企业数据的无限技术授权。基于《数据开放协议》,数据主体会向相对方开放API端口,并为合同相对方开放相应授权范围内的代码空间及渠道,但对于缺乏数据清洗能力的数据主体(多为机关或事业单位),往往会全部开放API端口。在构成要件涵摄方面,两种非法网络爬虫的行为形态分别对应了这两种授权类型:网络爬虫突破或避开数据主体的技术授权措施属于“未经授权”,超越双方合意所达成的事实授权的范围、方式、时间等内容属于“超越授权”。

 

所谓技术授权,是指企业事先设定技术规则,而后由服务器代替企业,按照事先设定的技术规则,对访问者所做出的自动化授权。一般而言,若访问者按照企业事先设定的技术规则访问并获取了数据,便认为其访问行为为企业所授权。由于用户众多,企业不可能亲自同每一个用户签订契约,故而技术授权是企业最为常用的授权方式。在技术授权中,企业同访问者缺乏磋商,亦难以达成如事实授权一般的合意。

 

2.技术与事实授权的判断根据不同

 

值得注意的是,技术授权与事实授权在判断根据上存在不同。事实授权双方皆为具有真实意思表示能力的主体,故而是否存在授权仅取决于双方的真实意思表示,即便企业因技术受限等客观原因给予访问者以超过约定的技术授权,事实授权的判断根据仍然为契约。而在技术授权中,其判断根据为社会公众对访问规则的一般理解,这一判断根据主要是由技术授权的事前性与预期性与数据流通的生成性所决定的。具言之,服务器的自动化特征决定了举凡访问请求符合机主事先设定的技术规则,访问者即被视为授权访问,行为人在访问时所征求的实际上是服务器的授权,机主对于访问者的身份、方式等信息皆为事后知晓。因此,机主对于访问者的技术授权具有事前性与预期性。然而,软件功能的多样性决定了机主所设计的技术规则在实际运行中存在多种可能,其运行方式可能违背机主预期,此时便出现了事前的技术授权同企业单方预期的偏离。对此,从实用主义出发,法律一般承认具有预期性的技术授权的有效性而不再承认机主事后单方意思表示的回溯力。究其根本,原因在于防止访问者的技术授权在事后为机主所任意撤销,减少社会公众进入网络世界、享受网络生活时的违法成本。在法律上,这种预期性使得服务器做出的技术授权逐渐脱离企业而具有独立意义。因此,在技术授权尤其是技术授权措施的判断上,不能完全根据企业的单方预期而仅作技术判断,而是需要结合平台数据的法益作符合社会共识的规范判断。

 

(二)“未经授权”:突破或避开企业的技术授权措施

 

1.技术授权措施应当限定为身份认证措施

 

当前,平台企业所采取的常用反爬虫措施主要包括IP识别、UA识别、Cookies、以账户密码、U 盾为代表的身份认证措施。然而,这些反爬虫措施是否皆可评价为“技术授权措施”,仍需在社会公众对访问规则的一般理解下,结合平台数据法益来确定。正如上文所述,平台数据的保密性表现为平台对平台数据的排他性控制,即数据主体通过技术措施将数据“圈划”在数据主体私人空间之内,若技术授权措施未能有效隔绝数据,使得数据流通于公共领域,则数据主体就会失去对数据的控制。因此,理解信息网络中公共领域与私密领域的划分是判断技术授权措施的关键。

 

不同于物理空间依据登记划分公共领域与私密领域,网络空间自始即具有公共性与开放性的“公地”,网络空间中的私密空间需要数据主体自行“圈划”。信息网络的技术底色预设了数据的开放访问规范,任何加入互联网的人都需要以同意该规范为前提。根据互联网的开放访问规范,接入互联网中的服务器欢迎所有的人,所有的访问者原则上皆可通过“访问——回馈”的方式获得数据,这种访问是默认授权的,这种数据开放访问规范并不对访问者作出身份的要求,就如《纽约客》所画的漫画一样,“谁又知道坐在电脑前的是人还是狗呢?(On the Internet, nobody knows you’re a dog.)”。因此,数据主体犹如为“公共广场上的商店”,只要大门敞开且正常营业,任何路过的人都可以进入以购买商品。此外,虽然“商店”设置了“台阶、门帘、减速带”(延缓访问措施),但访问者依然可以获取数据,除非数据主体给“商店”上锁,将其完全封闭而形成一个“私人空间”,进而赋予这种控制以排他性。因此,评价“技术授权措施”的实质标准为该技术措施是否具备“圈划”数据主体私人空间的功能。

 

笔者认为,在既有的众多技术措施中,符合“技术授权措施”实质标准的技术措施为身份认证措施,原因在于:当用户访问某个网站的数据,且网站要求用户提供账号、密码、U盾等身份识别时,访客必须注册并取得身份认证凭据,提供身份识别信息,没有身份认证凭据的人将会被阻止访问,这意味着除了账户持有人以外的一切访问者都会被阻挡在这一“封闭空间”之外。可见,身份认证措施是打开数据主体在信息网络这一“公共领域”所圈划的“封闭空间”的“门钥匙”。因此,突破或者绕过身份认证措施的行为属于“未经授权”访问获取数据。

 

事实上,我国不正当竞争案件的司法实践亦支持这一标准。在“新浪微博诉超级星饭团App不正当竞争纠纷案”中,法院认为,微博用户可以设置“黑白名单”(封闭空间)要求或排除特定身份人的访问微梦公司数据,而复娱公司的行为绕开或破坏了“登录规则”(即身份认证措施)这一技术授权措施,因此,“登录规则”系判断行为人是否存在不正当竞争行为的判断标准,复娱公司的行为具有违法性。实践中,常见的突破或绕过身份认证措施的爬虫技术有SQL、DOS、URL攻击、“撞库”以及利用BUG。其中,SQL、DOS、URL攻击犹如在现实生活中“撬锁”、“砸窗”,而“撞库”类似于“猜密码”,而利用BUG获取数据犹如从“烟囱”入室盗窃。

 

2.延缓访问措施不属于技术授权措施

 

在司法实践中,IP识别、UA识别亦在司法判例中被法官认定为技术授权措施。例如,在“晟品公司、侯某等爬取数据”一案中,主审法官认为:“被告人使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制进而爬取数据,这一行为属于绕过或突破受害单位采取的技术安全措施。”本文认为,法官并没有结合平台数据的法益对UA、IP识别作规范判断,这些措施虽然具有访问阻碍的功能,但仅能起到延缓访问速度的效果,无法真正圈划“封闭空间”,故而不属于技术授权措施。

 

首先,IP识别并不能圈划“封闭空间”。在现实生活中,IP地址仅代表计算机端接入网络时所分配的随机的逻辑代码,同访问者缺乏直接对应关系。国外学者认为,“限制IP地址仅仅影响访问速度,其并非具有身份认证功能,绕过IP地址限制同绕过前方阻挡视线者并无本质区别”。

 

其次,UA识别亦不能圈划“封闭空间”。UA是记录浏览器类型及版本、浏览器内核等信息的字符串,其仅能判断访问者是否使用了特定浏览器,而无法识别访问者身份。访问者只需更换相应类型浏览器便可以正常访问。因此,UA识别宜视为延缓访问速度而非身份识别措施。

 

最后,值得一提的是Cookies。Cookies是一种用户行为操作记录文件,其记载了用户的身份认证信息、访问次数等信息。Cookies的功能有二,其一为免除用户输入账号、密码流程,自动认证登录。其二为将记录的用户行为数据发送回服务器,服务器根据行为数据进行个性化推送或订阅限制。在实践中,司法机关需要仔细区分Cookies的具体功能。我国杭州市余杭区发生过利用淘宝店网站漏洞,获取淘宝店铺Cookie,而后获取淘宝店铺内淘宝用户的交易订单数据的案件,这种Cookies具有免除账号登陆的功能,因此应当被认定为身份认证措施。但在域外亦出现过部分网站为增加订阅,利用Cookies以记录用户行为数据,在免费访问超过一定次数后锁定Cookies,用户为继续免费浏览,自行删除Cookies文件的案件。对于该类Cookies,不应当认定为“身份识别措施”,理由在于:一方面,Cookies作为储存在用户自己电脑中的文件,用户有权予以删除,用户并没有帮助网站限制自己的义务。而另一方面,这类Cookies并不属于在公共领域圈划“封闭空间”,用户只需要换一台电脑甚至浏览器软件即可继续访问。

 

(三)“超越授权”:超越企业的事实授权

 

判断爬虫行为“超越授权”的关键在于判断爬虫的数据访问范围、方式时间等内容是否超越了访问者同数据主体之间所达成的合意,该行为类型以契约关系为前提,以契约作为判断依据。域外学者将实践中所出现的契约关系划分为“合同型”(contract paradigm)与“政策型”(policy paradigm)。“合同型”多产生于企业内部或同企业具有明确商事合作关系的企业外部,行为人多为“内鬼”或“不忠伙伴”,例如最高人民检察院第36号指导性案例、张某某非法爬取医院数据案便是如此。而“政策型”则是指企业单方针对允许访问数据范围、方式等内容设定的访问政策。近年来,无论实务界还是理论界,坚持以于网页中的Robot.txt(爬虫协议)、ToS(用户服务协议)、告知函等技术合约作为“超越授权”判断基准的观点日盛,故而使得一般访问者的爬取行为亦存在成立犯罪的可能。下文拟讨论两个问题:第一,技术合约能否直接成为“超越授权”的判断基准。第二,司法机关应当如何判断技术合约的合理性。

 

1.技术合约不能直接成为“超越授权”的判断基准

 

技术合约内容的单方任意性使得技术合约难以直接成为“超越授权”的判断基准。数据流通的生成性决定了“授权”是一种具有规范性的集体实践,产生于主体间的交互与协商,取决于公众认知与文化承认,表达了社群对“权力来源”(power source)与“允许”(Permission)的共同理解。事实上,Robot.txt、ToS、告知函等虽称为“技术合约”,但因内容、对象皆由网站方单方决定,访问者只能被动的接受,无法就具体问题同企业协商,故而难以称之为契约。因此,技术合约并不能直接成为“超越授权”的判断基准,而必须经过法院的实质审查。由于ToS较为特殊,出于行文方便,有必要提前予以说明。

 

从域内外司法实践出发,ToS一般难以成为“超越授权”的判断基准,原因在于企业在网页中所规定的ToS在授权规定上往往具有不可接受的模糊性。在Sandvig v.Sessions案中,法院就认为,企业异常模糊的“授权”条款具有违宪风险。若将企业所列的每一条款皆认定为“授权”条款,则该理解会因语义范畴过广而违反明确性原则。ToS的模糊性使得访问者难以获得访问规则的预期,赋予ToS以刑法意义,无异于给予企业以生杀予夺的大权,破坏作为信息网络基础的公开与信任。

 

       2.合理期待标准对技术合约的二次实质审查

 

尽管上文否认技术合约能够直接成为“超越授权”的判断依据,但这并不意味着访问者获得了企业的“无限授权”。事实上,司法机关可以借鉴隐私法领域的合理期待标准,进而对授权内容是否合理进行判断。换言之,技术合约需要接受司法机关对技术合约内容作实质的“二次审查”。

 

合理期待标准是美国最高法院总结出用于判断隐私主体在特定情境下所享有具体的隐私内容的裁判方法,其要求法官在隐私主体提出利益诉求的前提下,将自身置于社会一般人立场,看待社会是否愿意承认隐私主体利益。在域外刑事司法实践中,最早适用此标准的案件为米切姆案。在该案中,法院从社会一般人的角度对店家决定摆放火柴的合理预期进行了推定,并经过充分的利益平衡后,认定行为人的行为构成盗窃。具言之,该理论由企业的主观利益诉求与社会一般人的客观判断两部分构成。

 

第一步为判断企业的主观利益诉求。在网络爬虫案件中,最能表现企业主观利益诉求的现实载体分别为事前公示的Robot.txt以及事后企业向访问者发出的警告函。Robot.txt是记录爬虫爬取文件范围的文本文件,其中明确规定了允许/禁止爬取的页面、目录、文件格式等内容,网络爬虫在实施爬取前能够获得该文件。除事前的Robot.txt外,事后企业向访问者发出的警告函亦已成为企业处理异常访问时的常用手段。当前,各企业的技术后台多设置了技术预警系统。当某一IP访问范围、频次等内容异常时,技术预警系统会向技术人员报警反馈。当访问者的访问在企业看来已超越其容忍范围时,企业会向特定IP发函或技术通知,要求访问者停止超越授权的访问并明确告知企业对访问的合理预期。

 

第二步为司法机关从社会一般人角度对企业的主观利益诉求进行考量。这一步既是由数据流通的情境性所决定,更是司法机关对司法个别化方法的贯彻。司法机关应当在具体案件中力求穷尽考虑一切影响授权范围的因素。一般而言,司法机关需判断企业的主观利益诉求是否违反了在社会习俗、行业惯例及价值观中形成的数据流通规则。具体而言,司法机关需要考察爬虫访问频次、访问数据属性、访问时间、利用目的以及真实损失等因素,对企业的主观利益诉求进行合理性考察。

 

在司法实践中,合理期待标准已为司法机关所实践。在我国最高人民检察院发布的第36号指导案例中,法院认为,龚某因工作需要而掌握了访问公司数据系统的账号、密码、Token 令牌,虽然不属于通过技术手段侵入计算机信息系统,但内外勾结擅自登录公司内部管理开发系统下载数据,明显超出正常授权范围。这一论证表明,法院从社会一般人的角度,结合双方的雇佣关系,认定龚某不具有因工作需要以外的下载企业数据的公司授权。

 

在域外,合理期待标准已成为法院审理相关案件的重要方法。在Craigslist vs. 3Taps案中,法院基于以下三点理由认定了爬虫行为的违法性:首先,3Taps所抓取数据几乎覆盖Craigslist网站的大部分数据,致使Craigslist受到实际损失。其次,Craigslist在向3Taps发函后,后者仍然长时间实施不法行为,对Craigslist正常运营造成影响。最后,Craigslist本身亦存在可视化市场交易信息服务,二者存在竞争关系。可见,法院从访问数据数量、访问频次、利用目的等多方面因素,认定Craigslist所发警告函在客观上符合社会一般人的合理预期,故而3Taps的行为成立超越授权。

 

五、结  语

 

随着大数据时代的来临,平台数据日益成为企业赖以生存的“血液”。积极刑法观下,国家希冀刑法能够同其他部门法有机、协调、最优地参与社会治理。网络爬虫问题仅是信息时代刑法所面临新问题中的“冰山一角”。随着数字经济的深入发展,信息网络将会为刑法带来一个又一个新的挑战。厘清平台数据承载的法益,以更为精细化的裁判规则去应对变化多端的数据问题是未来的解决方向。本文厘清了平台数据承载的法益,分析了非法网络爬虫行为的不法内涵,确立了对象与行为不法的判断规则,希冀能够为司法实践提供有益帮助。

 

 

来源:《刑法论丛》2022年第2卷(总第70卷)

作者:李雪健,南京师范大学法学院刑法学博士研究生