作者:尚权律所 时间:2022-03-29
摘要
大数据时代,传统侦查模式正发生着全方位的变革,以数据空间为场景、以数据为载体、以算法为工具、以数据价值为目的的全新大数据侦查模式正在形成。
技术层面,大数据技术与侦查业务相结合,促进情报资源丰富化、线索发现主动化、案情研判智能化;思维层面,大数据推动侦查思维从因果性转向相关性,从抽样性转向整体性,从回溯性转向预测性,从分散独立性转向共享协作性。
大数据时代侦查模式的变革也带来相应的法律问题,司法公正、正当程序、司法证明规则以及数据治理体系都面临着挑战。
对此,应构建大数据侦查的法治体系,通过数据与算法的规制来保障司法公正,通过规则的调整赋予大数据时代正当程序新内涵,并基于大数据特征创新证明规则,完善大数据侦查背景下的数据治理体系。
关键词:大数据;侦查模式;侦查思维;个人信息;司法证明
从2015年10月第十八届五中全会上正式提出国家大数据发展战略,到党的十九大报告中再次强调发展互联网、大数据以及人工智能技术,我国已全面进入大数据时代。对于到底何为大数据,目前尚存在多元化认识:数据层面,认为大数据是海量数据的集合;技术层面,认为大数据包括专业的数据处理技术与方法;价值层面,重在强调海量数据背后的价值、规律。无论从哪个角度去解读,都不能否认大数据作为新时代的新能源,正开启一次重大的时代转型。
目前,大数据在侦查领域已显示出巨大的应用前景。各地侦查机关从战略到技术已全面铺开大数据革命:例如浙江省“智慧浙江公安”、湖北省“智慧警务”以及山东省“大数据警务云计算”等战略;实务中更是不乏运用大数据破案的成功案例,如广东警方利用大数据技术批量集中打击“盗抢骗”系列犯罪案件曾在全国产生广泛影响。 然而,当前大数据在我国侦查领域的发展有“重技术、轻法律”的色彩。大数据侦查技术的迅猛发展,既对传统司法原则以及诉讼程序产生影响,也带来一系列基于大数据特征的新型法律问题。
当前,现有法律机制无力全面涵盖大数据技术过度发展所产生的问题,新的配套法治体系尚未形成;相关理论研究也过于保守和零散化,缺乏对大数据侦查的立体叙述和全面回应。基于此,本文提出“大数据侦查”理念,对大数据时代侦查模式的变革进行全景式描述,从司法公正、正当程序、司法证明及数据治理等角度探讨大数据侦查所带来的法律问题并寻求解决路径,构建法治化的大数据侦查体系。
一、 大数据侦查模式的解析
大数据时代产生了与物理空间相对应的数据空间。侦查领域,则衍生出以数据空间为场景、以数据为载体、以算法为工具、以数据价值为目的的大数据侦查模式。大数据侦查既体现为侦查技术的革新以及基于技术应用的新业务场景,也蕴涵着侦查思维的转变,带来相关性、整体性、预测性及共享协作的全新思维模式。
(一) 大数据侦查的内涵
每一次科学技术革命都推动人类认知能力的变化,侦查领域体现得尤为明显。前信息化时代,侦查可以归纳为“由案到人”和“由人到案”模式,以时间、地点、情节等物理空间要素为中介,搭建起案和人之间的关系;随着信息化时代的到来、网络技术的发展,又有学者提出了“事—机—人”及“人—机—事”侦查模式,将涉案的电子设备或账号作为中介,连接起案件事实和犯罪嫌疑人的关系。 大数据之父迈尔.舍恩伯格曾说“大数据开启了一次重大的时代转型……大数据正改变我们的生活以及理解世界的方式。”作为人类历史上又一次技术革命,大数据推动侦查领域认知模式的变革。
对此可通过一则典型案例来感知。2013年美国波士顿一场马拉松比赛中突发爆炸,嫌疑人趁混乱迅速逃离现场。案发后警方发动群众力量,调取了案发现场几乎所有的“大数据”,包括周围的监控录像,民众所拍摄以及社交网站上传的照片、视频等近10TB的数据。警方对海量数据进行挖掘分析,三天后便确定了嫌疑人真实身份。此案中,侦查人员不再拘泥于物理空间及传统侦查模式,而是以“数据空间”为犯罪侦查场景,以“数据”为载体连接起“案”与“人”的关系、打通物理空间和数据空间的界限,以算法为工具挖掘出海量数据背后的相关人、案信息,构建“大数据侦查”的全新内涵。
(1)大数据侦查以数据空间为场景。大数据时代,“万物皆可数据化”、“一切皆可量化”。物联网等技术能够将物体的运行状态、人类的语言行为乃至睡眠、情绪都以数据形式记录下来,形成与传统物理空间相对应、平行的“数据空间”。大数据侦查正是在这样的平行数据空间中展开,侦查人员根据物理空间的人和事去找到其对应的数据空间形式,再从数据空间返回到物理空间。通过物理空间与数据空间的交叉以及数据之间的碰撞,很多与犯罪行为相关的线索、信息就显现出来了。上述案例中,侦查人员巧妙抛开物理空间的束缚转向数据空间,寻找与案件相关的数据痕迹。
(2)大数据侦查以数据为载体。数据连接起物理空间和数据空间,连接起“案”与“人”之间的关系。上述案例中,侦查人员以物理空间为起点,对应至数据空间中寻找与犯罪嫌疑人相关的数据线索,包括含有相关人像图片、视频,与其身份相关的账号等,确定犯罪嫌疑人数据空间中的虚拟身份后再回到物理空间,直至确立其真实身份。在此过程中,与嫌疑人相关的图像、账号等案件信息均以数据形式呈现。数据作为桥梁和载体,连接起“案”与“人”的关系,完成现实到虚拟、再从虚拟到现实的转换。
(3)大数据侦查以算法为工具。大数据侦查中的数据往往达到“TB”甚至是“PB”的海量级别,而数据的海量性决定其无法适用于传统的人工分析,必须依赖于专业的智能化大数据算法。上述案件中,从10TB的海量数据中筛选出与犯罪嫌疑人相关的数据,仅靠侦查人员的手工逐条分析显然是不现实的。而运用如文本分析、神经网络、人像识别等专业算法则能够很快完成数据处理任务,从海量数据中提炼出与犯罪嫌疑人相关的信息,解放侦查员人力劳动的同时大大提高了侦查效率。
(4)大数据侦查以数据价值为目的。大数据精髓就在于挖掘数据背后的规律,并将其应用于具体的业务决策中。大数据侦查也致力于从海量数据中发掘有价值的信息作为情报、线索乃至证据。上述案件中,侦查人员之所以搜集近10TB的数据,目的并不在于这些数据本身,而是借助于对海量数据的分析,挖掘其中与犯罪嫌疑人及案件相关的信息,如通过嫌疑人推特账号分析其IP地址,通过海量现场照片来确定嫌疑人的外形等,助力案件侦破。
综上,大数据时代的侦查以数据空间为场景,以数据为载体连接起“案”与“人”之间关系、打通虚拟与现实的桥梁,以专业算法为工具,以挖掘数据背后案件线索、情报为目的,形成独特的大数据侦查内涵。在此基础上,大数据侦查还进一步表现为侦查技术的革新及侦查思维的转变。
(二)大数据侦查带来侦查技术的革新
数据挖掘、文本分析、机器学习等大数据技术逐渐运用于侦查领域,并与侦查实务需求相结合,形成不同业务场景下的大数据侦查方法,带来情报资源丰富化、线索发现主动化以及案情研判智能化的转变。
(1)情报资源的丰富化。大数据强调海量数据的集合,而海量数据恰恰是提供情报的重要来源。除了侦查机关自有数据外,随着数据开放共享运动的兴起,政府开放数据平台、互联网数据库及其他行业数据库都能为侦查提供大量情报。例如J省X市的“侦查信息云平台”接入了银行账单数据、话单数据、社保数据、婚姻数据等多行业数据库,通过身份证号、手机号、姓名等标识数据能够一键关联出犯罪嫌疑人海量相关信息,协助侦查人员快速了解犯罪嫌疑人的资产、家庭、人际关系等基本情况。很多侦查平台还开发出关联数据实时比对查询、多库比对等智能化搜索功能,全方位多维度提供侦查情报信息。
(2)线索发现的主动化。相较于以往举报、报案、摸排等“被动式”的线索查找方式,侦查人员可以依托大数据智能算法建立起主动化、长效化的线索发现机制。尤其对隐蔽性犯罪线索的筛选效果极佳。例如F省Q市的“智慧大数据分析平台”通过对当地机关、企业历年采购数据进行分析,采用机器学习算法得出不同单位的采购数据标准值,并据此设置各类单位开票数据的预警规则(阀值)。侦查机关将预警规则用至对当地单位开票数据的实时监测中,即能自动识别出触碰阀值的异常数据,并随之查处多起异常数据背后的犯罪案件。大数据主动发现犯罪线索的原理就在于通过对海量案件数据进行大规模样本训练,挖掘类案规律并建立相应的数据预警规则,一旦有触动预警机制的异常数据,其背后往往就隐藏着犯罪线索。
(3)案情研判的智能化。大数据技术开启了案情分析的智能化时代。实务中,侦查人员普遍反映,账单分析、话单分析、人员组织关系等复杂案情梳理亟需智能化的大数据技术支持。以银行账单分析为例,以往账单分析多依靠侦查人员逐笔手工梳理,耗时费力且容易遗漏信息;大数据算法则能够对海量银行账单进行智能化分析,前后手交易账户、异常交易明细、异常转账人员等重要信息一目了然,大大提高了侦查效率。再以犯罪成员的组织分工为例,以往侦查中往往依赖证人证言、犯罪嫌疑人口供等方式来获悉各成员在犯罪组织中的地位和作用,言词证据主观性强且易变性较大;大数据则能够对犯罪组织成员之间的联系频次、亲疏度等要素进行客观化定量计算,并将他们的层级关系、分工形式以关系图谱呈现出来,各犯罪分子的角色地位一目了然。
(三)大数据侦查带来侦查思维的转变
大数据侦查还带来侦查思维的转变。一方面,大数据本身所倡导的理念带来侦查人员思维变化;另一方面,大数据技术的普及也倒逼侦查人员改变传统思维模式。相比于传统侦查思维,大数据侦查思维集中体现为相关性思维、整体性思维、预测性思维以及共享协作思维。
1、从因果性思维到相关性思维
长久以来,人类的思维范式都拘泥于小数据时代的因果关系思维,侦查思维也不例外。对犯罪事实的认定,必须严格地遵循因果关系,事实与证据之间要具有引起与被引起的因果关系,能够被主观思维所理解与解释。然而,大数据却颠覆了传统的因果思维模式,强调事物之间的相关关系。大数据的相关性通过量化数值之间的数理关系得出,这种数据逻辑上的相关性往往无法被主观思维所理解,即只告知结果“是什么”却不解释过程“为什么”,不过很多时候知道“是什么”就已经足够了。相关关系为我们创构所想要的结果提供了广阔空间,人们对因果关系的把握从既存结果推展到潜在结果,从过去时推展到将来时。将大数据的相关性思维运用至侦查中,可以有效拓展侦查思维视野,发掘更多的线索、情报。
一方面,“找到一个关联物并监测它”,通过对关联物的分析来观察某个现象本身。如果侦查对象本身不便观察,可以寻找它的关联数据,通过关联数据的变化来推测侦查对象的情况。例如上文提到F省Q市侦查人员通过企业开票数据来发现犯罪线索,就体现了相关性思维的运用:将人为难以观测的行受贿等犯罪现象转移至与其相关联的企业开票数据上,通过对开票数据的分析来判断是否有行受贿犯罪行为。再如,某地侦查人员运用大数据思维来办理骗取低保补贴案件,将难以观察的“骗保”现象转移至车辆、房产、工商登记等“相关”数据;将低保发放数据与相关数据进行关联、比对,很快就能筛选出异常的低保户。当然,关联数据的选择需要建立在侦查人员对案件规律、法律业务及数据科学精湛的理解之上,将办案经验转化为数据规则,但未来或许我们不再需要人工选择关联物,大数据能够告诉我们谁是最好的“代理人”。
另一方面,挖掘数据背后的相关性。以往侦查人员一般只能收集看似与案件有明显因果关系的线索、证据,而大数据则能够从看似无关的海量数据背后挖掘出相关信息。例如,从杂乱无章的话单、账单、房产、车辆等海量数据中梳理出当事人的行踪轨迹、人际关系、通话规律、资金房产等信息,对嫌疑人进行立体式数据画像,并挖掘出高频联系人、异常通话记录、大额转账等敏感信息。尽管这些信息与案件之间并非有直接强关联性,但是能够对案件线索查找、证据收集以及审讯策略制定等侦查活动提供有效指引。
2、从抽样性思维到整体性思维
小数据时代,人类由于获取信息的能力有限,面对大量数据集只能采用抽样调查的方法。但即使选取样本的方法再科学,也无法获取全部数据,而一些重要的信息很可能就在这些“非样本”数据中。小数据时代的侦查思维同样带有“抽样”印记,主要体现在取证的有限性和事实还原的片面性。取证过程中,由于时空条件的限制和人类认知能力的有限,侦查人员所获取的证据充其量只是一小部分,而在这之外尚有大量未知的证据。
事实还原过程则带有“原子主义模式”色彩,证明力取决于单个证据及离散式系列推理,事实认定由零散证据的证明力聚合、拼凑而成。由于获取证据的有限性,所还原的事实很可能不够客观全面,甚至会由于证据不足而放弃对客观真相的追求。通过单个证据的收集审查去认定案件事实,实际上是“利用样本来推断总体”的统计方法,其充其量是一种小数据时代的抽样调查方法。
大数据时代我们则完全有条件获取某个对象的所有数据,“全数据”的思维模式有利于对事物进行全景式的观察。大数据侦查同样具有“全数据”色彩,取证和事实还原过程都呈现出“整体性”的思维特征。就取证而言,数据空间赋予了侦查人员获取“全数据”的可能性,或许与案件有关的数据仅仅是一小部分,但首先要获取一定范围内的整体数据,再进一步析取与案件相关的信息。
取证思维的整体性也带来事实还原思维的整体性,根据所获取的“全数据”,侦查人员首先还原出更广泛意义上的“大事实”,再进一步判断、甄别其中与案件有关的事实。例如,若判断嫌疑人是否到过案发现场,侦查人员首先根据其手机基站等时空数据来还原嫌疑人在案发前后一段时间所有的足迹,再从中筛选是否有与案发现场相吻合的位置;若判断某贪腐分子的可疑行贿人,首先对嫌疑人所有通讯、社交数据进行挖掘,还原出其完整的人际交往谱图,再从中比对、筛选出可疑行贿人。
3、从回溯性思维到预测性思维
由于时空的不可逆性,侦查活动只能在犯罪行为发生后进行,具有由果溯因的回溯性思维特征。侦查人员只能通过有限的证据去还原发生在过去的事实,而这事实也便如镜花水月一般具有模糊性。即使最后对犯罪分子科以刑罚,也无法挽回人类的生命、健康、财产等权利所受到的伤害。
然而,大数据使得人类预知未来成为可能。预测是大数据最核心的价值,其原理就在于将事物、现象的规律转化为数据之间的数理关系(物数据化),再通过对数理关系的分析来预知未来走向(数据物化)。预测性思维同样可以运用于侦查中:犯罪活动一般都具有一定的规律可循,如侵财类犯罪具有相当高的重复性特征;且犯罪活动不是瞬间完成的,而是包括犯罪预备、犯罪实施等循序渐进的过程。运用大数据预测性思维,计算出各种犯罪活动在时间规律上的演变特征,在犯罪活动实施前去捕捉信号、预测犯罪。
侦查中,大数据预测性思维体现为对“案”的预测和对“人”的预测。对“案”的预测是指某地区未来一阶段发生某种犯罪的概率。经研究表明,犯罪活动在空间上往往呈现出一种聚集现象,即“犯罪热点”。
在犯罪热点分析中加入时序因素,了解犯罪热点在时间上的变化趋势和规律,即可对该地区未来犯罪活动的发生概率进行预测。例如美国PredPol软件即为犯罪热点应用的典型代表,该软件在辖区地图上划出诸多五百平方英尺的格子,通过分析每个格子内犯罪类型、犯罪时间、犯罪地点三个维度的数据,利用自我学习算法(self-learning algorithm)来预测可能发生犯罪的时间和地点。
对“人”的预测是指对高危犯罪分子进行预测。相较于普通人,犯罪分子会在不同方面呈现出异常特征。大数据能够提炼出各类犯罪分子多维度的特征数据模型,从而在海量人群中有效识别高危分子。例如曾有学者通过对某市海量公交卡轨迹数据的分析,巧妙识别出地铁扒手的轨迹特征,并将轨迹模型用于对可疑扒手的预测和监控。
4、从分散孤立思维到共享协作思维
传统犯罪多发生于物理空间,受地缘条件限制,侦查活动一般也都限定于固定时空,由侦查部门单兵作战。大数据时代则建立起与物理空间相对应的数据空间,犯罪行为会在数据空间留下各种各样的痕迹,数据痕迹成为侦查情报、线索的重要来源。然而,数据痕迹多呈分散化、零碎化态势,且权属不同部门。若要全面收集数据空间相关数据,仅凭侦查机关一己之力远远不够,需要多部门之间的数据共享及协作配合。
首先,共享协作思维强调数据资源的开放与共享。大数据时代若各部门固守数据资源、没有开放共享意识,则大量有价值的数据资源将无法盘活,大量犯罪数据痕迹也无法获取。除政府开放平台的数据外,实务中侦查机关更青睐与个人信息相关的银行账单、电信话单、婚姻、社保、车辆、房产、水电缴纳等数据。因此,实务中侦查机关普遍与上述行业建立数据共享机制,为案件侦查提供最大化数据资源。
其次,共享协作思维还强调破案方式的协作化。大数据时代,一些大型网络平台依托其庞大的网络生态体系和业务链,掌握海量公民个人数据,这些数据中往往就隐藏着犯罪线索和痕迹。由网络平台提供数据、协助侦查机关调查取证也逐渐成为常态。
经调研发现,近年来侦查机关调取网络平台数据的需求呈指数级增长趋势,用户注册数据、地理位置数据、社交关系数据、日志数据、交易数据等都是常见的数据调取类型。这些数据的组合运用、交叉碰撞能够为案件侦破提供意想不到的效果。
例如在一起嫌疑人潜逃的电信诈骗案件中,某网络平台根据犯罪分子的网络帐号进一步追踪其后台IP地址、网络转账记录等信息,据此锁定嫌疑人物理空间落脚点,协助侦查人员顺利抓获犯罪分子。
综上,大数据侦查的内涵及其技术、思维的多维度变革,共同构成了大数据时代侦查模式的逻辑体系。然而,大数据如一把双刃剑,在促进侦查高效化、集约化、智能化发展的同时,也伴随着新的法律问题。
二、大数据侦查的法律问题探究
大数据侦查的发展初期,社会更倾向于关注其技术创新和应用效果,易忽视其所产生的法律问题。一方面,大数据侦查的技术、思维特征一定程度上与司法公正、正当程序原则以及司法证明规则会产生冲突;另一方面,大数据侦查所带来的新现象尚难以悉数纳入既定法治体系,特别是个人信息保护风险及数据开放共享异化、数据协查乱象等新问题。
(一)大数据侦查与司法公正之冲突
尽管大数据侦查呈多元化表现形态,但基础层面由数据和算法两部分组成。数据与算法的先天性特征将对传统司法公正的模式带来冲击。
1、数据的混杂性与司法的精确性
小数据时代人们通过“抽样”的方式认识世界,由于抽样的数据量有限,对每个数据的质量要求都很高。大数据时代则是“全数据”、“整体性”的思维模式,由于数据量的巨大、数据结构的混杂,很难保证每一数据都精准无误,且数据收集、模型设计及分析等任一环节都有出错的可能。大数据的“混杂性”与司法的精确性要求之间便产生了矛盾。
(1)数据质量问题。学理上,数据源应符合一致性 (consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)等质量要求。但实际上,在数据产生过程中由于系统环境的复杂性、数据标准不一致以及数据结构的差异性,数据源天生就会带有质量问题。
大数据侦查中常见的数据质量问题包括以下类型:数据的错误,如数据字段本身的错误或拼写的错误;数据的重复,同一事物往往有着不同的数据表达形式,如侦查中录入的地址编码经常出现一址多名、地址重名等问题;数据的缺失,如某一数据体系中丢失个别重要数据;此外,还有数据不一致、数据过时等问题。另外,随着数据生命的发展,既有的质量问题解决后,还会产生新的问题。一定程度的劣质数据、错误数据会降低数据分析结果的可靠性,直接影响侦查效果和案件实体结果的判断。
(2)数据采集偏差。虽然 “全数据”模式能克服抽样调查的缺陷,但“数字鸿沟”所带来的数据采集偏差问题仍然无法克服。“数字鸿沟”是指不同地区、人群及行业数据化发展水平不均衡,从而造成部分对象无法被数据化的现象。例如我国西部地区、农村地区的信息化水平尚不高,该地区相当一部分人群的行为、犯罪现象尚未被“数据化”;不同年龄群体的信息发展水平不均衡、不同人群对信息工具的不同偏好也会导致行为数据采集偏差,并导致数据话语权的不平等。
此外,侦查领域长期存在“犯罪黑数”的问题,有案不报、报案不立等现象使得基层很多犯罪数据无法全面采集。例如英国的犯罪调查机构(British Crime Survey)曾统计发现只有约42%的违法活动上报到了警局,警局又只对其中约74%的情况进行了记录,最终数据化的犯罪行为只占实际犯罪活动约30%。数据源采集的偏差,也会影响分析结果的准确性。
(3)数据分析出错。大数据分析流程包括主题确定、数据集成、建模运算以及数据可视化等一系列环节,每一环节都有出错的可能,从而影响最终分析结果。主题确定环节,如果对需求场景没有明确认识,则很可能导致数据分析结果产生偏差;数据集成环节,数据源质量、数据清洗技术都会影响数据集合质量;在建模运算环节,不同算法的选择可能产生不同结果,任何一个参数的不准确,都会导致分析结果误差。
另外,法律语言与算法语言的代沟也会影响分析结果,数据分析专家一般都不具备法律知识,难以准确地将侦查业务需求用算法表达出来。特别是在涉及到一些犯罪构成、罪名判断的疑难法律情境,数据算法能否准确理解或翻译法律语言将影响着案件分析结果。再者,大数据的分析结果往往并非是某一精确的数值或结论,而是以概率表示的区间值,如某地区发生盗窃犯罪的概率是50%~60%,某高危分子的人身危险性是40%~50%,此种情况下就存在着需要人为主观经验来判断的模糊地带。
综上,无论是数据采集亦或数据分析环节,都可能带来数据分析结果的“混杂性”,从而造成司法实体结果认定的偏差。司法讲求精确性,尤其是在动辄涉及公民生命、人身、自由等基本权利的刑事侦查中,即使再轻微的数据偏差都有可能造成事实认定错误并进而导致司法不公。
此问题在域外已有相关体现,如美国的“禁飞系统”经常将无辜者误判为恐怖分子,从2003年到2006年至少发生过5000次识别错误,这些错误来源于数据源以及识别算法的错误;美国“可疑活动报告系统”(The Suspicious Activity Reporting,SAR)尽管识别了十六万多名犯罪嫌疑人,但警方最终只对103人展开了刑事调查、5人被逮捕,竟无一人被判处有罪。
2、算法的偏见性与司法的公正性
相比于传统的人为主观经验分析,大数据运用科学的算法看似更为客观和准确。但其实不然,数据分析的整个过程都离不开人为设计和操作,自然也不可避免地夹杂着人类的主观价值偏见。
技术人员能够轻易将“需求”编入到数据算法中,形成隐藏的价值偏见,并通过科学方法为这种偏见披上合理的外衣。在大数据侦查工具开发阶段,主观偏见来自于大数据开发商,他们往往带有技术性思维和利益追逐心理,而对司法程序及相关的法律规则不甚了解,因而不排除大数据侦查软件带有重技术效果、轻法律程序的色彩;在大数据算法模型设计过程中,技术人员完全可能将一些政策、价值需求编入到数据算法中,形成潜在的价值偏见。
在美国,COMPAS等犯罪预测软件已经出现算法偏见问题,并进而引发民众对司法不公的担忧。该类软件依据嫌疑人过去犯罪历史等多维度数据计算并预测其人身危险性。尽管大数据计算方法使之看似客观公正,但算法、模型及测试问题的设计中都隐含着种族、性别歧视等偏见。COMPAS等软件除了运用于犯罪预测外,法官还将其对嫌疑人人身危险性评估结果作为量刑依据,进一步加剧了司法不公效应。
例如在美利坚合众国诉卢米斯一案中(State v. Loomis),当事人卢米斯因盗窃机动车被诉诸法庭,法官依据COMPAS的人身风险评估结果,判处卢米斯六年有期徒刑和五年监禁。卢米斯当即提出动议,认为量刑过重要求减轻刑罚,并指出COMPAS算法错误地将性别因素纳入风险性评估体系中;此外,COMPAS算法被普遍质疑是否将少数种族人群纳入更高的风险等级,并有测验表明黑人被评估为再犯的概率高于白人两倍。
可见,算法偏见一旦运用至司法实务中,便有可能造成司法结果判断的偏差化。特别是随着人工智能技术的发展,算法的自主性、自我迭代能力的加强会进一步加剧偏见、歧视的异化。
(二)大数据侦查与正当程序之冲突
大数据决策机制被比喻为“黑箱效应”(black box),意指大数据运行、决策过程的不透明,人们只看到数据的输入和输出结果,而对其运算过程却一无所知。 “黑箱效应”同样存在于大数据侦查机制中,尽管其缘于大数据本身的技术特征,但无形中对正当程序原则产生了重大影响。正当程序系为了保持司法纯洁性而采取的各种方法:促使审判与调查公正进行,适当采用逮捕和搜查,采取法律援助等。辩护权、禁止酷刑、保障人格尊严和保障人身自由等程序性规定都是正当程序的应有之义。
在上述的美利坚合众国诉卢米斯一案中(State v. Loomis),COMPAS的人身危险评估是否违背正当程序也是本案的重要争议点。当事人卢米斯提出法官的判决仅依据系统的分析结果,而系统背后的算法、数据都以商业秘密为由而拒绝开示。尽管卢米斯最后并未胜诉,但是该案所折射的大数据正当程序问题却引起了广泛讨论。
(1)程序不透明。一是技术程序的不透明。大数据运行过程中,数据来源、数据清洗、数据算法等都处于不可知的状态,数据采集是否有偏差、数据质量是否可靠、数据模型设计是否合理都无法进行审查;二是法律程序的不透明。技术程序的不透明也间接造成法律程序的不透明,不仅当事人无从知晓大数据分析结果及算法依据,就连侦查人员本身也不清楚数据算法的原理。
(2)知情权和辩护权得不到保障。在大数据运行机制不透明的情况下,当事人的知情权无法得到保障。他们无法获悉其是否被大数据列为高危分子或嫌疑人员、被采取侦查措施的依据何在,不知道在哪一诉讼环节被大数据所“裁判”,进而也没有机会提出辩解,更何况一般人不具备质疑“大数据算法”的专业知识。
(3)说理阐释制度得不到保障。侦查程序中的“说理阐释”一般用于令状制度的司法体系中,由侦查人员对强制性侦查措施进行解释说明,以便法官进行司法审查。然而,面对基于大数据方法的侦查措施,侦查人员往往缺乏专业的技术知识来解释说明,并对后续的审查起诉、审判环节事实判断造成障碍。卢米斯案件中,法庭曾拒绝了COMPAS软件的设计人员出庭对系统的算法原理进行解释的请求,而法官自身又缺乏数据专业知识进行说理阐释,从而造成该案裁判结果的合理性及程序的正当性备受质疑。
(三)大数据侦查与证明规则之冲突
大数据侦查中,证明具有大数据“相关性”思维特征,是建立在数理关系上的间接相关性、弱相关性,关注结果“是什么”而非过程“为什么”。传统的司法证明也讲究相关性,要求证据与待证事实之间具有相关性,但该相关性却不同于大数据的相关性。司法证明的相关性建立在小数据时代因果关系的认知基础上,强调主观经验上的直接相关性、强相关性以及过程的可追溯性,在溯因推理的模式下,不断对假设进行因果验证。随着大数据方法在证据调查、司法证明中的运用,必然导致两种相关性之间产生化学反应。
(1)直接相关性与间接相关性。司法证明的相关性建立在人类主观因果思维基础上,要求证据与待证事实之间具有直接的引起与被引起的因果关系;而大数据的相关性是建立在数理分析基础上的间接相关关系。“找到一个关联物并监测它,就能预测未来”是大数据相关性的经典理论。据此,在侦查中如果大数据显示A和B经常一起发生,只要注意到B发生了,就可以预测可能A也发生了。
进一步类推,在司法证明中,如果A事实难以直接证明,但是B与A之间具有基于大数据的相关性,那么是否可以通过对B事实的证明来推定A事实呢?这是大数据相关性思维对司法证明提出的第一个难题。
(2)弱相关性与强相关性。广义上,大数据的“数理相关性”与司法证明的“因果相关性”都属于“相关性”范畴,但二者在程度上有所差异,前者是一种“弱相关关系”,而后者则是一种“强相关关系”。大数据侦查中所获取的“衍生数据”即体现了“弱相关性”特征。侦查中的衍生数据往往反映人物行为特征、事物发展规律等信息,看似与案件无直接联系,但是能够为案件侦查提供很多线索和突破口。例如在互联网金融犯罪侦查中,通过大数据算法对海量数据分析后得出资金流转模型、人员组织关系、公司经营状况等信息,这些信息虽不能直接证明主要事实,但有效推进了案件侦破。
此类“衍生数据”与案件事实具有一定的相关性,但又不同于传统司法证明中建立在因果关系基础上的相关性,仅仅是一种“弱相关关系”。正如有学者云:这些数据与案件存在着若有若无的关系(potentially relevant),但是并不能直接有效地去证明有罪或是无罪(not particularly probative of innocence or guilt)。那么,“衍生数据”是否具有作为证据运用的法律基础呢?这是大数据相关性思维对司法证明提出的第二个难题。
(四)大数据侦查与数据治理之冲突
大数据侦查以数据收集利用以及数据开放共享为应用基础,数据的过度运用对本就尚不健全的数据治理体系带来冲击。在侦查机关与公民个人之间,存在数据收集利用与个人信息保护之间的矛盾;在侦查机关及其他机构之间,则存在数据开放共享异化、数据协查机制不规范等问题。
1、个人信息保护风险
大数据侦查中,个人数据所蕴含的丰富价值令其成为多方主体的争夺对象。对侦查机关而言,个人数据中的海量信息是侦查线索、情报获取的重要来源;对数据主体而言,个人数据是人格权的延伸,天然有着诉诸保护的需求。
一方面,数据的收集、开放及共享形成“大数据监控社会”。大数据时代,越来越多的国家致力于收集公民的个人信息,建立海量的公民信息库,以便为社会治理、犯罪侦查提供数据支持。例如美国在“911事件”之后启动 “元数据”项目,美国国家安全局(NSA)采集互联网中美国及境外公民的元数据。正如NSA首长(General Keith Alexander)的著名言论:为了在干草堆中找到一根针,前提就需要拥有所有的干草。当前,我国各地侦查机关兴建的大数据平台也汇集了海量公民个人信息,加之各大网络平台、互联网数据库中留存的公民各类信息,无形中也开始趋向于“大数据监控社会”。
尽管作为上游环节,数据收集尚不涉及数据的具体使用,但也会对个人信息权带来威胁。数据主体不知道自己产生了哪些数据、有多少数据被收集、被哪些部门所收集以及数据的使用途径,进而产生对个人信息权“失控”的不安心理。海量个人信息一旦泄漏便不可控制,往往被不法分子用于个人信息买卖、电信诈骗等非法途径。例如在德国Kennzeichenerfassun一案的判决中,法院认为将个人信息放在一起,与更多的信息联系起来,构成了一种对潜在的个人相关领域的侵害可能性。
另一方面,数据挖掘等大数据技术的发展加剧个人信息保护风险。如果说“大数据监控”系个人信息链的上游环节,那么对个人信息的挖掘、运用则是实质的下游环节。相比于过去对个人信息的单一维度分析,数据挖掘、数据画像等技术则能够基于不同的主题,对个人信息进行多维度、深层次、全方位的分析。即便看似与个人隐私无关的数据,在数据挖掘及反匿名化技术的威力下也能还原出大量隐私信息,将数据挖掘结果进行二次比对、多元碰撞还能发现更多隐藏的规律。
例如“美国在线AOL”网站曾公布了一批脱敏的用户搜索数据,纽约时报一名记者仅依据某匿名用户“麻木的手指”“60岁的单身男子”“在各种东西上小便的狗”等搜索关键词,即将该用户锁定为居住在里尔本市的62岁寡妇尔玛.阿诺德,并对其进行了精准数据画像。
侦查中,大数据画像技术能够对目标对象相关数据进行多维度分析,不仅能挖掘出反映其家庭成员、工作关系、资产情况的“外在形象”,还能挖掘其行为规律、社交关系、兴趣偏好、情感心理状态等“内在形象”,清晰刻画出一个人的生活轨迹及人格特质,从而也多维度地加剧了个人信息保护风险。
2、数据开放共享异化及数据协查机制不规范
大数据时代强调数据的开放共享。国务院《促进大数据发展行动纲要》及各地大数据发展的文件均提出数据开放、共享的要求,但很多部门基于行业的特殊性以及法律依据的缺失,普遍存在着“不敢开、不想开、不会开”的心理。侦查机关对数据开放的需求与相关行业对数据的保守心态之间产生供需矛盾,并由此带来数据开放共享异化及其合法性依据缺失问题,第三方网络平台也存在数据协查不规范乱象。
一方面,行业间数据共享的合法性缺失。在政府数据开放运动下,各省市政府纷纷建立统一数据开放平台,看似可以为侦查提供丰富的情报来源,但实际上效用并不明显。侦查业务的特殊性决定了其更青睐能够指向特定人员的个人信息,例如公民水电缴纳数据、航旅出行数据、银行交易数据、话单数据等。鉴于此,不少侦查机关开始自行与当地税务、房产、银行、水电等部门建立数据共享关系,通过接口、拷贝等方式“借取”其他行业数据。
该方式虽实践效果良好,但在当前数据法治体系不健全背景下,“个性化”数据共享面临“无法可依”的问题,并由此导致行业间的数据共享呈现出各地区、各机关发展不均衡现象。且私下的共享容易带来数据滥用等问题,特别是对相关数据在后续审查起诉、审判等环节的运用带来合法性障碍。
另一方面,数据开放“灰色市场”悄然而生。与效果不佳的政府开放数据截然相反,异军突起的“非官方”互联网数据库为侦查提供了丰富的数据源。它们能够提供企业基本信息、居民身份证信息、银行卡实名验证等多方查询渠道,还能提供数据关联分析、数据挖掘等功能。通过对互联网数据库的多重组合运用,其所发挥的效用甚至不亚于侦查机关自建的大数据平台。
有人曾实验过,仅根据一个手机号,通过各种“非官方”互联网数据库组合,便可查询出机主姓名、名下企业、配偶等诸多信息。然而,当前兴起的商业数据库尚缺乏明确法律依据,游走于法律“灰色”地带。不少商业平台通过对“官方”数据的爬取整合来组建自己数据库,而一般官方数据平台均声明:未经官方授权、同意,不得对网站数据进行商业性利用。《网络安全法》生效后,已经有近三十家数据平台被关停、整顿,商业数据开放的混乱现象由此可见一斑。侦查中,如何保证此类数据来源合法、数据质量可靠,以及数据查询、数据利用等行为合乎法律规定等都亟待法律规制。
再者,即便是近几年兴起的网络平台数据协查机制也存在诸多不规范乱象。网络平台对侦查机关纷至沓来的数据调取需求往往无所适从,能够提供哪些数据类型、提供数据程序等问题都无明确法律依据。
一方面,调取程序不统一。目前,不同网络平台对于调取数据的程序要求不尽一致,有些平台要求侦查机关出示《调取证据通知书》等法律文书,而有些平台则要求出具单位介绍信等其他文书。另一方面,数据类型未区分。侦查机关所调取的数据类型纷繁复杂,如用户注册数据、内容数据、日志数据、位置数据等。不同数据的隐私程度、重要程度并不一致,然而当前所有类型数据均遵循相同调取程序。第三方网络平台作为数据管理者及协助取证主体,亟需对数据协查乱象进行治理及规范。
三、大数据侦查的法治体系构建
针对大数据侦查的相关法律问题,可通过数据和算法的规制来保障司法公正,通过规则的调整赋予大数据时代正当程序新内涵,并基于大数据特征创新证明规则,完善大数据侦查背景下的数据治理体系,从而逐步构建大数据侦查的法治化体系。
(一)司法公正的保障
不同于传统诉讼对办案人员主观能力及经验的依赖,大数据侦查结果的准确与否很大程度上取决于数据与算法的准确性。大数据侦查中可通过对数据和算法的规制来保障分析结果的准确性,从而逐渐趋近司法公正。
1、从数据规制到司法精确
大数据侦查中,数据是关涉实体公正最根本的因素。可通过提高数据质量、提升模型参数的准确度来保证司法结果精确。对此,需要将数据规制贯彻至整个大数据侦查流程,严格审视每一次分析任务,确保每一运行环节的准确、严谨。
(1)在数据采集环节,要保证数据收集的全面性,达到“全数据”量级。此外,防止数据采集偏差还有赖于全社会信息化、数据化水平的提高,要促进人们平等使用现代通信和网络设施,保证公民的数字化平等参与权,逐渐消除数字鸿沟所带来的数据偏差。
(2)在主题确定环节,要对侦查任务、业务场景需求有着全面、明确的认识和理解,并以之作为数据和算法选择的依据。当然,这有赖于侦查人员的办案经验和对大数据的感知能力,也需要侦查人员与技术人员协作配合。
(3)在数据集成环节,要验证数据来源的合法以及数据质量的可靠,并通过清洗技术来提高数据质量。
(4)在建模运算阶段,要选择合适的算法进行数据分析,确保参数、模型的准确性,并对模型参数不断调整、校正,逐步提高分析结果的准确性,降低误差、消除偏见。必要时可选择多种算法交叉并行,以验证分析结果的准确性。
2、从算法规制到司法公正
算法的偏见可谓大数据之顽疾。随着人工智能自主学习能力的加强,算法的歧视问题日益加剧。对此,除了通过技术方法对算法进行校准、调整外,还需以伦理对大数据算法进行约束,将人类的道德、价值及法律规范嵌入算法中,并根据具体的应用场景有针对性地嵌入法律规则,如大数据侦查算法中应嵌入人权保障、程序正当等法律要求。
算法的伦理约束应有相应的配套机制,可适度介入人为的干预和监管。如美国学者马修.谢勒(Matthew U. Scherer.)在《人工智能发展法》中提出,应当建立人工智能监管机构,负责审核算法的安全性。据此,大数据侦查中的算法日后可纳入如下监管机制。
(1)算法测试机制。大数据侦查算法开发者应当在安全环境中测试算法模型(事前颁布统一国家标准或行业标准),同时搜集测试数据、记录测试报告(源代码、算法、软硬件、测试环境、产品运行效果等),并提交给专门管理机构审查。
(2)伦理审查机制。成立数据算法的伦理审查委员会已成为全球共识。大数据侦查中,该委员会应由具备法律、数据技术、伦理等不同知识背景和经验的专家组成,共同对大数据侦查算法进行伦理、道德评估。
(二)正当程序的规则调整
根据正当程序的基本内涵,应当促进控辩双方平等,保障犯罪嫌疑人特殊权利,如获知控告的性质和理由、不得强迫自证其罪、获得律师帮助、证据开示等。可在正当程序原有内涵基础上,结合大数据的特征进行规则调整,构建大数据侦查的“正当程序”。
(1)告知及解释程序。知情权是公民的基本权利之一,当事人在司法程序中应获知其所受的控告及强制措施性质和理由。大数据的“黑箱效应”使其很容易就被秘密用于涉及公民人身、自由等权益的侦查程序中。因此,对于因大数据决策机制而遭受不利影响的当事人,在不影响案件正常进展的前提下,司法人员应当告知犯罪嫌疑人大数据侦查的分析结果、数据源及基本算法原理等内容。
例如在上述卢米斯案件中,法官们普遍认为,在审前侦查报告中即应当开示COMPAS人身危险性评估的数据来源及算法,包括风险数值是如何计算的、各因素的权重是多少。针对该案中商家提出算法系商业秘密而不予开示的理由,笔者认为,此种情境下商业秘密的保护应让位于刑事诉讼中知情权的保障,且可以通过开示范围的限制来平衡知情权与商业秘密的保护。
(2)赋予当事人“数据辩护权”。在告知当事人大数据分析结果的基础上,自然应当赋予由此而遭受不利处分当事人提出异议的权利。当事人可以对数据来源、数据算法、数据分析结果是否正确、合理等提出异议,也可以直接另行提出与大数据分析结果相反的其他证据。国际上有学者提出“数字无罪”(digital innocence)概念,认为大数据本身也可以成为证明当事人行为合法的依据,以应对数据挖掘偏见以及数字证据选择性忽略等问题。经审查确有错误的,侦查机关应及时更改错误数据并纠正相关措施。
需要注意的是,犯罪嫌疑人及辩护人一般都不具备大数据领域的专业知识,即便侦查机关开示数据及算法原理,其也难以提出有效的辩护意见。对此,可以充分依托“专家辅助人制度”,犯罪嫌疑人借助数据专家的帮助来对大数据来源及算法分析过程进行审查,提出辩解意见。
(3)数据追溯程序。从数据收集、数据清洗、数据建模再到数据运算,大数据复杂的决策机制也增加了日后错误查找、责任追究的难度。因此,应当建立起大数据侦查的追溯体系,从源头记录下每一数据的流转、操作过程。
技术层面,可以借助专业的“数据溯源”(provenance of the data)技术来实现数据记录功能。“数据溯源”类似于数据档案,通过技术手段将数据的产生、推移演化的整个过程进行保存、记录。业务管理层面,数据记录可直接融入到侦查工作流程中,通过系统记录下相关人员每一次登录、操作数据平台的行为日志,将数据查询、使用记录定位到具体的个人。例如笔者在调研过程中,发现不少侦查大数据平台实行“UKey”实名登录,并在数据查询、浏览页面上打上操作人姓名水印,以保证权责一致及操作过程的可溯性。
(三)证明规则的创新
理论上,大数据相关性思维与司法证明相关性的差异,将给大数据在司法证明领域的应用带来障碍。然而,司法实践中却呈现出相反样态,越来越多的侦查人员开始致力于将大数据作为一种新式证明方法,甚至在民事、行政诉讼领域已出现将大数据分析结果直接作为定案证据的判例。对于两种“相关性”之间的矛盾,理论上可以对数理的相关性寻找因果关系的解释路径;同时,不妨将大数据司法证明问题先交由司法实践来回应,探索基于大数据的新证明规则。
1、在相关性基础上验证因果关系
大数据的相关性是通过数据量化得出,是一种弱相关性、间接相关性;司法证明相关性产生于人类主观因果思维基础上,是一种强相关性、直接相关性。司法证明之所以要求具有强相关性的因果关系,是基于更高层次的创构需求,是为了准确认定事实,保证司法公正,保障公民的生命、自由、财产等权益。
然而,二者产生机理的不同并不意味着完全不兼容,因果关系是对因素相互作用过程与其效应之间关联性的描述,相关关系实则为因果关系的派生,其根植于因果关系。
理论上说,存在着既能被数据所计算、又能被主观思维所理解的相关关系,因而可以在大数据相关性基础上进行因果性验证。正如有学者所言“如何从相关关系中推断出因果关系,才是大数据真正问题所在”。
据此,以上文所提出的“A”“B”事实间证明难题为例,可以从以下两种思路对大数据的相关性进行因果关系验证:
(1)对“A”“B”之间关系进行主观逻辑理解。若“A”“B”之间关系能够直接被人的主观因果思维所解释,则可通过B来认定A。
(2)若“A”“B”之间关系难以被主观思维所理解,则需要对算法本身进行因果关系验证。大数据算法本质上是数学,而数学是对自然界运行基本规律最简化、最客观的描述。如果能够对“A”“B”之间特定算法本身的形成机理进行因果理解,则可以间接推定其运算结果的合理性,通过证明B事实来推定A事实。
(3)如果算法亦难以进行主观因果关系验证,则可回到传统证据调查思路,将大数据分析结果作为线索,在此基础上寻找物证、书证、证人证言等其他传统证据进行印证。
2、参照“品格证据”与“习惯证据”规则赋予大数据证明力
“品格证据”是指证明诉讼参与人的品格或品格特征的证据,“习惯证据”是指有关某人习惯或某组织例行做法的证据。大数据侦查中所产生的“衍生数据”往往能够反映出一个人的品行、性格倾向、行为习惯等,与“品格证据”及“习惯证据”的内容不谋而合。
表现形式上,品格证据及习惯证据一般是以主观的形态所呈现,而大数据则是通过科学计量的方式所得出,不过从这一意义上来说,大数据形态的“品格证据”及“习惯证据”反倒比其传统表现方式更具有客观性、可靠性。不妨参照品格证据及习惯证据的相关规则,赋予与品格、行为习惯相关的大数据一定的证明价值。
笔者调研中发现,司法实务中确实有将此类“大数据”作为习惯证据运用的需求。例如,在一起强奸致死案件侦查中,嫌疑人辩称其没有主观故意,而是在两人性行为中自愿采取虐待行为而意外导致被害人死亡。侦查人员试图通过对嫌疑人的网页浏览数据、网购数据、社交数据进行大数据画像并进而判断其是否有性虐待行为习惯。但因此类“大数据”证据形式尚无先例及明确法律依据,最终未被采纳。
尽管如此,该案体现了司法实务中将大数据作为证据的需求及思路。此类司法需求并非个例,大数据在证明人身危险性、性格品行、行为习惯等方面具有天然的优势,司法实践应当给予“大数据证据”一定的成长空间,不应以表现形式的差异而否认其实质的证明效果。
3、弱相关性的积累可达到强相关性的要求
大数据的相关性是一种弱相关关系,而司法证明的相关性则是强相关关系。根据数学中概率原理,当同一案件中多重大数据分析结果都指向同一事实时,可否认为多个弱相关性的累积能够达到司法证明的强相关性要求?
对此,司法实践已有初步回应。在唐某某诉中国证监会行政诉讼一案中,大数据分析显示19个涉案帐户之间MAC地址、IP地址具有高度重合性,19个帐户的交易股票品种具有共同性,19个帐户的交易行为具有一致性,法院据此认定唐某某为19个帐户的实际控制者。
此案中,尽管每一大数据分析结果都是数理关系的“弱相关关系”,但对19个帐户三种不同维度的分析结果最终都指向同一事实,即多重弱相关关系的累积总量达到了强相关关系的要求,从而在事实判断者心中形成较大程度的确信。“相关关系累积”理论系笔者的大胆设想。
在其尚未成熟之时,不妨结合证明标准来尝试运用,在证明标准相对较低的民事、行政诉讼中先行探索;刑事诉讼中,在不涉及当事人重大人身、自由权益的个别事项证明中,不妨适当放宽相关性要求,探索通过多重“弱相关关系”累积以达到“强相关关系”的证明路径。
(四)数据治理的完善
目前,个人信息保护的缺位以及数据共享机制的混乱严重影响大数据侦查本身的合法性,应从个人信息保护及数据共享开放、协查机制的规范化来完善数据治理体系。
1、个人信息权的保护
目前,我国侦查领域个人信息保护的立法尚为真空状态。一方面,个人信息保护本身的法律体系不完善,相关规定多散见在《网络安全法》、《全国人大关于加强网络信息保护的决定》等法律法规中,没有专门的个人信息保护法。另一方面,刑事诉讼法中没有关于个人信息保护的内容,仅有个别条款涉及隐私权保护。侦查中个人信息面临着 “裸奔”的风险。
根据个人信息保护的一般原理,侦查机关基于国家公权力职能行使的需要,对个人信息的保护享有一定的豁免权。然而,豁免、例外并非是没有边界的,侦查机关仍应当遵循个人信息保护的基本原则,寻求数据利用与个人信息保护之间的最佳平衡。
(1)个人参与原则。个人参与原则是指数据主体对其数据收集、处理情况享有知情以及要求查询、修改个人数据的权利。在个案侦查中,基于侦查的保密性,个人参与原则应当受到一定限制但并非禁止。可通过对传统的程序性权利的扩张解释来保障个人参与权,如通过“阅卷权”来保障当事人知悉个人信息的使用情况,通过“辩护权”赋予当事人对错误的个人信息提出修改、删除的请求。在一般的个人信息数据库建设中,同样应当赋予公民一定限度的知情权。如《德国联邦个人资料保护法》、《美国隐私法案》都规定了国家机关在收集个人信息时,应当保障信息主体的知情同意。在不影响侦查工作展开的前提下,不妨以“隐私政策”形式告知公民数据的收集范围及使用目的。
(2)比例原则。个人信息保护中的比例原则强调管理者在处理个人数据的时候要秉持谦抑、克制的态度,数据的处理数量和方式都要控制在目的范围之内。比例原则同样也是侦查程序一项基本原则,强调侦查人员在诉讼目的范围内采取侦查措施,将对公民权利的侵害程度降至最小。因此,侦查人员应采取对个人权益影响最小的方式收集、分析、处理个人数据,保障数据的完整性、真实性;对数据库实行访问控制,尽量缩小直接接触个人信息的人员范围;控制对个人敏感信息的利用;对一些与案件无关的关键性身份识别信息可以通过加密技术、匿名化方法进行遮蔽处理。
(3)相关性原则。相关性原则强调侦查中数据的收集、调取必须基于案件调查取证需要或其他职能需求,数据的处理和使用也必须在侦查职能范围之内进行,与案件线索获取、证据调查相关。例如大数据侦查中往往需要网络平台提供数据协助,但不少网络平台反映,侦查人员调取数据时会提出过于宽泛的数据需求,忽视数据与案件侦查之间的关系,此即违背相关性原则的体现。此外,对于侦查中获取的个人信息不得另作他用,与案件侦查无关的个人信息应当及时销毁。
2、数据开放共享及协查机制的规范
鉴于大数据侦查中数据开放共享的乱象,应尽快建立规范化的数据开放共享机制与数据协查机制。
(1)数据开放共享机制的规范化
就数据共享而言,鉴于当前侦查机关对于水电、金融、税务、房产等其他行业数据的迫切需求,与其放任各地侦查机关自行协商获取数据,不如联合各行业顶层部门统一构建行业间数据共享机制,明确各行业对侦查机关所开放数据的种类、数量及方式,特别是赋予行业间数据共享的合法地位。就数据开放而言,针对上文所述的互联网数据开放乱象,一方面有赖于国家对商业数据市场的整顿和治理。政府可建立常态化“许可-授权”机制,明确获得官方授权的商业平台才能开放数据,并及时公布具有开放资质的商业平台名单,保证数据的准确性、权威性及可信性。另一方面,侦查机关自身要加强对此类数据来源的把控审查,确保数据来源的合法性和质量的可靠性。
(2)数据协查机制的规范化
对于网络平台数据协查的乱象,可通过行业规范来明确侦查机关调取网络平台数据的程序。(1)统一数据调取程序。应建立统一的网络平台协助调取数据程序规则,明确侦查机关应出具的法律文书种类、调取数据的事由及可调取的范围等。(2)构建数据分级调取机制。在美国,司法机关调取私密程度不同的数据时,需要履行传票、法庭调查令、搜查令等不同严格程度的程序。
结合目前网络平台数据协查实际,建议我国侦查机关调取网络平台不同种类数据时,应根据数据私密程度、重要程度来建立分级、分类的调取程序。
此外,有条件的网络平台应建立专门的数据协查部门,安排专人负责协助司法机关调取数据事宜。网络平台在协助侦查机关调取数据过程中,还可以收取资料、设备、打印、技术支持等成本费用。
来源:司法兰亭会
作者:王燃,天津大学法学院副教授,计算法学学科负责人,天津大学中国智慧法治研究院研究员;北京东卫(天津)律师事务所兼职律师;中国人民大学法学博士;加州大学伯克利分校访问学者。