尚权推荐SHANGQUAN RECOMMENDATION

尚权推荐丨张迪:算法证据的独立——法理反思与制度方案

作者:尚权律所 时间:2023-11-22

摘要

 

算法证据主要指通过算法对大数据进行分析后所产生的证据。在刑事诉讼中,算法证据面临的紧迫难题是其应不应该独立以及应该如何独立的问题。就算法证据的独立问题,目前学界主要存在“相对独立说”“反对独立说”和“完全独立说”等观点,但均存有不足。司法实践中的算法证据可分为基于案内大数据的算法证据和基于案外大数据的算法证据,它们与传统证据之间存在本质区别。法定证据种类制度虽有缺陷,但其的存在具有现实必要性。考虑到算法证据的复杂性及其规制方案的特殊性,建议在刑事诉讼法中将算法证据独立为一种新的法定证据类型,与鉴定意见并列,同时由相关部门制定有关算法证据的专门性司法解释,以保障其实质独立。

 

关键词:大数据证据;算法证据;算法;鉴定意见;法定证据种类

 

一、问题的提出

 

数字时代的算法应用日益普及,使我们步入了算法社会。在刑事诉讼中,司法机关积极运用人工智能等算法技术来应对网络犯罪,由此催生了新的证据类型。大数据侦查所产生的分析报告、审计机构运用算法对海量数据分析后所产生的分析报告等新型证据都已在刑事诉讼中隐性运用。比如,有判决书载明,“根据海康系统人脸识别高级运算法则,人脸相似度大于95%,可以认定为同一人,确定本案的嫌疑人为王某某”。有关此类证据,学界提出了“大数据证据”“算法证据”以及“人工智能证据”等三套话语体系。笔者曾对这三种话语体系进行分析后指出,海量的电子数据固然需要重点关注,但挖掘大数据价值的关键要素是算法,法律首要的规制对象应当是算法,为明确向公众表达概念表达法律所要调整的对象,应使用“算法证据”来指称通过算法对案内外大数据分析后所产生的“新型”证据。故而在本文中,笔者将通过算法对大数据进行分析后所产生的证据统称为“算法证据”。

 

实践中,刑事司法机关对于算法证据的潜在风险认识不够,一般将算法证据直接归入到某类法定的证据种类之下加以运用,比如,鉴定意见、审计报告、书证等。这就导致,实践中对于算法证据的法律规制存在针对性不足的问题。面对这一困局,有必要探讨算法证据的独立问题。原因在于,在我国刑事诉讼中,一项证据得以在法律中独立,其才具有法定资格,相关部门才可以构建独立的证据规则来规制此项证据的运用。概言之,算法证据应不应该独立以及应该如何独立的问题直接关乎算法证据的规则构建与合理运用,理论界有必要对其进行有针对性的研究,以从理论上为立法和司法提供智力支持。

 

就目前的研究成果来看,学者们虽对算法证据的独立问题发表一些看法,但是,尚未有学者专门围绕其独立与否以及如何独立等问题进行深入的理论探讨。有鉴于此,为解决算法证据之独立这一实践问题,本文先对学界各类学说逐一评析,反思既有观点的不足,再从理论上阐明算法证据独立的基本理由,最终提出算法证据独立的制度方案。需要说明的是,广义上的算法证据还应包括算法自身作为证据使用的情形,针对此类证据,我们可将其归入电子证据这一法定证据种类,因此本文不作单独讨论。

 

二、算法证据独立的学理争鸣

 

目前,绝大多数学者都承认算法证据具有特殊性,但是,对于算法证据是否应当独立以及应当如何独立等问题,学者们尚未形成统一意见。概括来说,有关算法证据独立问题的学说,实际上可以分为三大类:一是“反对独立说”,主张应在既有的法定证据框架下,将算法证据归入某类法定证据种类。这种观点得到了多数学者的支持。三是“相对独立说”,脱离既有的法定证据种类,强调从证据方法等角度来规制算法证据。三是“完全独立说”,支持将算法证据独立出来成为一种新的法定证据种类。下文将对相关学说逐一阐释,指出各个学说所存在的潜在问题。这里需要说明的是,以往大多数学者使用“大数据证据”这一概念来指称通过算法对案内外大数据分析后所产生的新型证据,而在本部分的论述中,笔者为了研究便利,将其统称为“算法证据”。

 

(一)反对独立说

 

1.鉴定意见说

 

鉴定意见说认为应将算法证据直接纳入鉴定意见这一法定证据种类之中。比如,刘品新教授认为,算法证据无疑是一种专业性或科学性很强的证据,普通人无法凭借常识性知识理解其结论部分,将算法证据纳入鉴定意见的方法具有亲缘性经济性和可比性,司法人员可以相对容易地援引鉴定意见的审查判断规则去处理算法证据的效力。另有学者进一步提出,第一阶段可将算法证据归入鉴定意见,第二阶段可将算法证据独立出来,第三阶段应放弃法定证据种类制度。

 

鉴定意见说看到了算法证据与鉴定意见的共同之处,在本土的证据种类中寻求算法证据的“归宿”,这一见解具有一定的合理性。但是,此学说无法回避的问题是,如何将大数据侦查所获取的算法证据纳入鉴定体系之中。比如,大数据侦查系统中的数据库和算法由侦查机关控制,大数据的收集及算法的设计、启动等都由侦查机关主导,而这些特殊的程序构造与既有的鉴定制度格格不入。

 

2.实物证据说

 

有论者主张,算法证据具有大数据集和大数据报告的二元构造,大数据集是实物证据,而算法证据与鉴定意见存在本质区别,亦即,算法证据的结论具有可复现性,而鉴定意见具有不可复现性,由此认为“大数据分析报告”是实物证据。该学说存在的问题是,其指出算法证据与鉴定意见在可复现性上存在区别,进而认为算法证据不属于鉴定意见而属实物证据。但实际上,鉴定意见和实物证据的区别并非可复现性。比如,DNA鉴定虽具有可复现性,但此类证据显然属于鉴定意见。除此之外,另有学者认为,大数据分析报告属于书证,但是其并未阐明此种分类的原因。显而易见,算法证据并非完全表达了人的思想,且其生产在案件发生之外,故而算法证据并非书证。

 

3.侦查实验说

 

此种学说由实务人员所提出,他们认为,算法证据具有一定的独特性,在当前阶段,将算法证据定位为电子数据或者鉴定意见的观点不合理,我们暂时应将算法证据作为侦查实验笔录来加以运用,未来有必要将其单列为独立的证据种类。该学说以常见的资金分析报告为例,认为侦查人员为查明资金来源及走向,通过大数据挖掘技术对资金流进行实验性质的探索,符合侦查实验的条件。因而可以按照侦查实验之要求,对资金相关大数据的来源、大数据清洗方法、算法模型的选取理由等进行详细介绍,相关报告再经过实验人员签字确认后形成大数据资金研判侦查实验笔录。此种学说的核心问题有二:其一,没有认清侦查实验的独立目的及其运作原理;其二,大数据侦查中的算法启动与侦查实验的启动在条件、程序等方面存在本质区别,二者无法等同。

 

4.分类归入说

 

有观点主张,算法证据的证据种类应当根据具体情形作具体分析:一是用于证明犯罪嫌疑人活动轨迹的大数据证据属于检查笔录;二是用于证明有组织犯罪案件中犯罪嫌疑人组织架构的大数据证据属于鉴定意见;三是用来证明涉案金额的大数据证据,其中有鉴定资质的鉴定机构出具的大数据分析报告是鉴定意见书,而没有鉴定资质的会计师事务所出具的大数据分析报告是审计报告。这一观点通过实践案例直接展示出算法证据的不同类型及其差异,进而提出按照具体类型来对算法证据进行分类的观点,具有较大的实践意义。但是,稍显不足的是,该论者对于算法证据的类型归纳不够周延,同时,其对算法证据的内在机理分析不够充分。

 

(二)相对独立说

 

1.证据方法说

 

持此种观点的学者认为,刑事案件中的算法证据主要被用于侦查破案线索、补强言词证据、弹劾被告辩解以及印证性的间接证据等方面,具体可以分为基于海量数据的数据库比对和基于算法模型的大数据分析。该论者继而提出,面对这一新型证据,我们不能受限于既有的法定证据种类制度,而应回归到证据方法之概念。该学者认为,对基于海量数据的数据库比对,我国宜采取庭上展示和辩方质证的证据方法;而对基于算法模型的大数据分析,我国宜采取专家辅助人提供检验意见和出庭接受质证的方法。

 

应当承认,因我国司法制度与欧陆法系国家类似,引入证据方法的概念并强调庭审调查方法的重要性,具有一定的合理性。但是,该学者主要关注大数据侦查所获得的算法证据,在一定程度上忽视了通过算法分析案件自发生成的大数据的情形。这就导致,其所提出的方案具有一定的局限性。此外,证据方法说虽具有一定前瞻性和创新性,这一思路是我国证据制度改革的最终方向,但从现有国情看,是否可以通过证据方法实现对算法证据的有效规制,则有待进一步商榷。

 

2.司法控制说

 

有论者主张,算法证据遵循与专家证人意见证据相同的证明机理,即通过算法技术对海量数据进行挖掘、碰撞等后,形成“自主性”的判断,在这一过程中,算法类似于生成算法证据的“专家”。此学说指出,算法证据的表现形式是电子数据,是以科学证据为内核,兼具实物证据与意见证据的证据形式。详言之,该学说认为,我们不应纠缠其证据种类问题,而应当关注其证据审查规则的构建和完善,具体可以通过司法控制的方式为大数据证据审查规则提供规范路径。比如,该学者提出我们可以通过2021年《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》(以下简称为“2021年《高法解释》”)第100条所构建的专门性问题报告之条款,纾解法定证据种类制度对新型证据的限制。

 

此学说揭示了算法证据的证明机理,具有较大的理论意义。但是,该学说存在如下问题:其一,此学说在分析算法证据的属性时以英美法系的证据分类制度为背景,但在界定算法证据的种类时,运用了欧陆法系的证据方法之理念。这种混合式的研究进路忽视了两大法系证据分类制度的内在区别,因此,在理论上难以自洽。比如,该学说并未阐明作为专家意见的算法证据与“鉴定”这一证据方法之间的区别和联系。其二,此学说忽视了我国司法制度语境的特殊性和算法证据规制的复杂性。在我国的制度语境中,由专门性问题报告无法成为规制算法证据的制度基础。

 

(三)完全独立说

 

张建伟教授认为,我国的证据制度延续了苏联的证据体系,其特点是采用列举式的法定证据种类制度,其优点是便于司法人员理解和运用,但存在分类不周延的情况,立法者需要根据新情况、新变化及时作出相应的调整,未来我们有必要将大数据分析报告单列出来作为独立的证据种类,而对于那些跟案件相关的大数据信息,我们可以将其纳入电子数据之列。还有学者通过与我国既有法定证据种类进行对比的方式,提出将算法证据独立设置的观点。这些观点立足于我国的法定证据种类制度,提出了将算法证据完全独立的见解,具有较强的实践意义。但是,稍显不足的是,持此种观点的学者们并未对“完全独立说”展开深入的理论论证以及细致的制度构建。

 

归纳而言,“反对独立说”所存在的主要问题是,对于算法证据的不同样态、生成过程和规制需求等问题,缺少系统性的关注。该学说未能认识到算法证据的复杂性及其法律规制的难度,将算法证据归入法定证据种类的方案,恐难以实现系统、有效规制算法证据的目的。“相对独立说”未看到法定证据种类制度的诉讼背景,强调引入域外诸如证据方法等证据法概念来解决算法证据的规制问题。这一方案可能因脱离制度语境,而难以发挥应有的作用。提出“完全独立说”的学者并未阐明算法证据独立的基本理由与具体方案,亦存有不足。

 

三、算法证据独立的法理论证

 

算法证据的独立性探讨需要按照逻辑顺序关注以下三个问题:第一,算法证据与传统证据在本质上是否存在区别。如果不存在区别,则算法证据便不需要独立。第二,算法证据的独立能否脱离法定证据种类这一制度语境。如果可以脱离这一语境,那么“相对独立说”确实应成为未来立法的首选,算法证据便不需要被独立为法定的证据种类。第三,算法证据与传统证据在规制手段上是否存在区别。以电子数据为例,其虽分别属于传统证据的范畴,但考虑到其收集、审查、运用等特殊性,我国法律仍将其独立成为一种新的法定证据种类,以便对其进行全面的法律规制。由此可见,法律规则方式的不同是证据独立的主要原因之一。在以下的讨论中,笔者将按照上述逻辑顺序,从三个方面来论证算法证据独立的法理依据。

 

(一)算法证据与传统证据之间的内在区别

 

1.算法证据生成过程的特殊性

 

算法证据生成的技术原理主要包括数据收集、数据预处理、算法学习、算法运行、结果生成等环节。其中,较为复杂的程序是数据预处理和算法学习。前者的主要任务可以概括为数据清洗、数据集成、数据归约和数据变换,其主要目的是对原始数据进行清理、集中、简化和转换等;后者主要指通过深度学习技术实现自动化的数据提取、挖掘、碰撞和分析等。具体到刑事诉讼语境中,算法证据的生成主要包含以下环节:一是数据获取,二是数据保管,三是算法准入,四是算法启动,五是算法运行。这些过程还涉及数据鉴真、算法鉴真、算法评估等程序规程。就此而言,算法证据兼具了客观性证据和主观性证据的特征,但其生成过程与既有鉴定意见以及专门性问题报告之间存在一定差异。比如,算法证据由算法生成,而非鉴定人员或者专家辅助人所给出的意见。再如,算法证据中的数据获取、算法启动等环节都较为特殊,特别是在大数据侦查中,案外大数据的体量非常大,其调取、保管和启动都应受到更严格的限制,而鉴定意见专门性问题报告一般不存在类似问题。此外,从证据的生成过程来看,算法证据与侦查实验、物证、书证等传统证据之间存在本质不同。

 

这里需要说明的是,从海量电子数据中去寻找与诉讼相关联的证据犹如大海捞针,因此大数据的出现给刑事司法带来证据分析的挑战。算法提供了高效大批量处理非结构化信息的可能性,它能够弥补人类对庞大数据分析理解上的不足,为事实认定者提供了对大数据进行推理分析的“数据经验”或者“特殊经验”。算法背后的理据在一定程度上超越了人类的日常经验法则,它克服了一般推理所难以解决的证明困境。算法强调从案件中的大数据本身,分析出具有价值的信息,进而推动案件办理,其核心是通过对大数据相关关系的挖掘,对信息进行分类和预测。具体来说,简单分析算法背后暗含的相关关系较易理解,审查者可以从中较为容易地分析出“数据”和“结果”之间是否存在因果关系。但是,智能分析算法的可解释性较低,其背后暗含的相关关系较难转化为因果关系。这是因为智能分析算法主要依赖机器学习进而生成不同的算法类型,常见的类型有决策树、朴素贝叶斯、支持向量机及人工神经网络等。

 

2.不同算法证据类型间的差异性

 

在司法实践中,算法证据主要存在两种典型类型,即基于案内大数据的算法证据和基于案外大数据的算法证据。这两类算法证据在大数据来源和生成过程等方面存在明显区别。

 

其一,基于案内大数据的算法证据,是指主要基于对案件发生过程中所产生的大数据进行算法分析后所产生的证据类型。比如,在李某等集资诈骗案中,检察机关提出安徽平泰司法鉴定所平泰司鉴字(2018)002号司法鉴定意见,用以证实犯罪集团的会员人数与对会员造成的损失。被告人所构建的“平台”所产生的电子数据是他们实施犯罪行为时所产生的大数据集,系案内大数据。案件中的“司法鉴定意见”系相应鉴定机构对案内大数据进行分析后所给出的专业意见,实际上属于对案内大数据分析的算法证据。实践中,司法人员对于此类算法意见的需求较大。比如,在办理侵犯知识产权的刑事案件时,对于大批量音频文件的分析存在人工操作难题,通过构建音频识别算法虽然可以轻松解决这一难题。但是,算法模型构建的较高成本以及算法结论的合法性缺陷导致这一方案难以成行。

 

其二,基于案外大数据的算法证据,指主要基于对个案之外的大数据进行算法分析后所产生的证据类型。实践中的大数据侦查主要依赖案外大数据。具体来说,实践中的大数据侦查模型主要有以下三种功能。一是关系圈分析。在较为抽象的情景下,特定的算法可以围绕某人或某物发现它们之间的关系,从而挖掘1个或N个目标对象的无限层关联对象。关系圈分析具体可以分为关系人分析、网吧同上网分析、同户分析、车辆同行分析、电子地图和时序图应用等。关系圈分析的结果虽无法直接证明人与人之间的特定关系,但可以作为补强犯罪嫌疑人供述的证据,以增强被追诉人供述的可信性。二是信息比对,主要指将侦查中的有关个人遗留下的数据与其他基于特定目的而事先建设形成的数据库中的数据进行比对,以期实现数据信息的同一认定。通过数据比对碰撞可以帮助办案人员从海量的信息数据中找到符合条件的信息。例如,在陈某盗窃案中,公诉机关提交了大数据警察支队视侦报告,即为此类算法证据。三是独立性分析报告,如话单分析和资金分析。话单分析是指平台算法基于大数据库分析后,给出特定号码的通话时长、通话次数、通话起止时间、与相关手机号码之间的关系等。

 

实际上,案内大数据被提取后,需要对大数据进行深度挖掘,以便尽可能多地挖掘出大数据的价值。因此,实践中司法机关大多委托司法鉴定机构和审计机构对案内大数据进行专业分析,进而生成基于案内大数据的算法证据。而案外大数据的获取与大数据侦查模型的构建同时进行,通过算法对案外大数据进行比对、分析后所产生的便是基于案外大数据的算法证据,这类算法证据大多作为“抓获经过”“到案经过”“破获经过”等辅助性说明材料出现,主要被用于侦查破案线索、补强言词证据、弹劾被告辩解等。比如,在蔡某某强奸案中,公安机关经调取视频监控,通过大数据比对排查,确定系蔡某某作案,二审法官审查上述证据后,以破案过程自然为由否定了上诉意见,判定蔡某某有罪。

 

详言之,在证明机理上,基于案内大数据的算法证据与基于案外大数据的算法证据存在区别。基于案内大数据分析的算法证据所进行的证明具有如下特点:一是作用上的关键性。此类证据一般可以直接用于证明犯罪数额或犯罪目的等要件事实,在事实认定中发挥关键作用。二是目的上的多元化。一般来说,案内大数据被提取后,需要对大数据进行深度挖掘,以便尽可能多地挖掘出大数据的价值,因此,挖掘大数据的目的是多元的。如在前文所提及的李某等集资诈骗案中,算法对案涉平台数据的挖掘并没有严格的目的限制,而从理论上来说,算法所挖掘的信息越多,越有利于查清案件事实。基于案外大数据的算法证据所进行的证明具有如下特点:一是作用上的辅助性。侦查阶段大数据技术的应用结果在案件材料与诉讼过程中至多作为辅助性说明材料出现。这些大数据分析模型大多由侦查机关掌控,用于侦破案件、锁定犯罪嫌疑人等。案件侦破后,这些基于案外大数据的算法证据有时并未出现在法庭之上。二是目的上的专一性。对案外大数据分析的算法证据一般为侦查机关所运用,直接服务于特定的侦查目的,如锁定犯罪嫌疑人、发现新证据等,因而具有专一性。例如,司法实务人员表示,实务部分已经建立了资金特征分析模型,可以在很短时间内完成可疑资金网络的刻画,利用关系可视化技术清晰展现可疑资金的特定来源和去向。这类算法证据有助于破解网络犯罪的证明难题。

 

归纳而言,司法实践中的算法证据逐渐分化为基于案内大数据的算法证据和基于案外大数据的算法证据这两种典型类型,这两类算法证据在生成、运用等方面存在较大的差异。这使得算法证据与传统证据之间的差异性进一步扩大,算法证据难以被直接归入某类传统法定证据之中。

 

(二)法定证据种类制度的必要性

 

算法证据独立性研究的首要任务是思考是否在法定证据种类制度下对算法证据进行定位。在持“相对独立说”的学者中,既有学者运用英美法系“专家证人”概念和提倡“证据方法”的理念。这些观点实际上意图脱离我国法定证据种类制度对算法证据进行规制。然而,这些观点未能考虑到域内外国家在证据种类制度上的差异,因此,这些观点很难解决算法证据的规制难题。

 

我国的法定证据种类制度最初借鉴了苏联,从1979年延续至今,逐步形成具有中国特色的法定证据种类制度。从官方出版的文献来看,一般将证据分为主观性证据与客观性证据。应当说,我国法定证据种类制度是从侦查过程的视角对证据进行的划分,其主要目的之一是规范侦查人员以及司法人员的行为。这一思路与我国办案人员一贯的侦查过程相契合。一般来说,对于与案件相关的实物证据,办案人员会将其固定、保全。对于那些了解案件情况的人,办案人员会进行询问或讯问,最终形成有形的书面供述和证言等。对于需要外界专业知识的情况,办案人员通过鉴定意见、勘验、检查笔录等有形材料予以固定。所有的侦查行为围绕有形证据的收集进行,目的是制作移送检察机关的案件卷宗。当然,随着以法定证据种类制度为基础的证据规则的构建,我国法律对司法人员审查、运用证据的行为进行了规制。

 

正如有学者认为,规定证据的法定形式以排除其他材料在诉讼中作为证据,不是此项制度的目的,为不同的证据规则提供基础才是制度的关键。既有的证据种类制度具有必要性,这与以下制度因素息息相关:其一,特定诉讼构造的要求。相较于英美法系和大陆法系国家,我国诉讼制度职权化和权力化的程度更高,庭审中的证据主要以有形样态出现。总体来说,我国刑事诉讼制度具有强职权色彩,侦查中心主义尚在,庭审实质化还未完全实现。由此,为了防范冤假错案,立法者对于证据问题整体持严格规范的态度。其二,犯罪快速治理的需求。在能动司法理念下,我国侦查和司法机关注重对犯罪进行快速、高效的打击,以实现司法机关的社会治理功能。虽然严格限定法定证据种类可能造成事实认定的形式化和程序正当性的虚化,以法定证据种类制度为基础的证据规则易降低证据制度的弹性和活力。但是,不可否认的是,具体的证据分类配以证据种类的特定称谓,有助于从全局视角统领证据的收集、审查和判断,进而提升犯罪治理的效率。特别是,在新型网络犯罪案件数量激增,司法资源相对紧张的背景下,以细致的证据划分为基础,构建标准化的证据规则成为克服“案多人少”困境的现实选择。其三,司法实务人员的呼吁。有学者经过调研发现,司法人员普遍反映证据立法太过粗疏,无法为复杂的刑事案件办理提供指引,希望能构建更具有指引性的证明力规则。

 

在司法资源极为有限、庭审改革效果不彰的现实背景下,我国法定证据种类制度的存在更具现实必要性。申言之,在法定证据种类制度中,明确算法证据的独立地位,进而构建详细的规范算法证据收集、审查及运用的法律规范,具有一定的必要性。在既有的法定证据制度下,我们可以提倡证据方法的理念,但是,我们很难将一类新的证据直接独立为一种新的证据方法。审计报告实践运用的乱象可以证实笔者的这一观点。即便我们将算法证据独立为一种证据方法,也应当将其与鉴定这一证据方法进行详细的对比,进而提出算法证据“专有”的证据方法。一言以蔽之,在中国的制度语境下,“相对独立说”难以实现。

 

需要说明的是,实际上,国内学者大都反对法定证据种类制度。比如,陈瑞华教授认为,在法律中明确限定证据的法定形式,是根本没有必要的。立法者这样做其实完全是在作茧自缚。笔者也认为封闭化、不周延的证据分类制度确有问题,应当加以改革。但就目前我国的国情看,现有法定证据种类制度既不能随便改变,也难以快速改变。因此,我们应在法定证据种类制度的语境下,去探究算法证据的独立问题。

 

(三)算法证据外在法律规制方案的特殊性

 

在我国现行证据制度下,将某一证据独立成类是对其进行系统规制的前提。算法证据的规制问题极为复杂,需要特殊的法律规范对其加以规制。具体而言,我们需要在以下四个环节对其进行必要的规制。

 

第一,大数据获取的规制需求。我国《个人信息保护法》将刑事司法机关处理个人信息的行为借由“国家机关”这一概念纳入个人信息保护的法律框架内,并明确了国家机关免除“告知—同意”原则的两种情形:一是妨碍国家机关履行法定职责,二是保密之要求。此外,目前在调查核实阶段和侦查阶段,法律虽然明确了数据调取的依据,但司法机关调取案外大数据的行为仍然缺少明确的法律依据。在这一背景下,实践中侦查机关调取案外大数据的行为亟须加以合理规制。

 

第二,算法自身的规制需求。算法具有复杂性、易变性、不可解释性、权力化等特性。从互联网时代开始,算法已成为法律所要规制的对象。算法的不可解释性导致平台公司很容易逃避法律责任,而算法的嵌入性结构扩张引发算法场景化规制困境。特别是算法的不可解释隐忧是其治理的主要难题。实际上,如何应对算法的歧视性、透明度、可问责性等问题,已经成为信息社会中一切自动化决策工具的共性难题。

 

第三,算法启动的规制需求。特别是在对案外大数据进行分析的大数据侦查中,考虑到大数据侦查在行为上大规模地对普通民众个人信息的运用,以及在结果上对具体公民的个人信息全面、深入展示的效果,我们有必要对大数据侦查中的算法启动进行合理的规制。

 

第四,算法运用的规制需求。一方面,算法证据的举证程序需要加以明确。算法证据不会自我表达且存在解释难题,因此,算法证据在庭审中应当如何展示以及展示内容为何,需要法律加以明确规定。另一方面,算法证据的质证程序需要独立构建。算法证据具有复杂性,司法人员和被追诉人一般难以理解算法证据中的技术性知识,只有借助鉴定人员或者专家辅助人的帮助(这里需要区分对算法证据的专家意见与对算法证据中的算法进行鉴定这两种形式),算法证据中的技术性问题才能得以解决,被追诉人的有效辩护权才能得以保障。

 

归纳而言,对算法证据的法律规制需要立足于算法证据生成、运用的全部过程,这不同于以往的任何一类证据的规制方案。因为其规范方案将具有复杂性、特殊性。所以,在本土语境下,将算法证据独立出来以便系统规制具有一定的现实必要性。算法证据可分为基于案内大数据的算法证据和基于案外大数据的算法证据,它们与传统证据之间存在本质区别。法定证据种类制度虽有缺陷,但其存在具有现实必要性。

 

四、算法证据独立的制度方案

 

考虑到算法证据的复杂性及其规制特殊性,笔者建议将算法证据独立为一种新的法定证据类型,并围绕算法证据构建专门性的司法解释,以保障算法证据的实质独立和准确运用。

 

(一)与鉴定意见并列的独立方案

 

考虑到法律的稳定性,兼顾算法证据与鉴定意见的相似性,笔者建议,在鉴定意见之后增列算法证据这一证据类型。原因主要有四:其一,算法证据的独特性及其独立的必要性。前文已述,算法证据与既有的法定证据种类存在区别,算法证据的特殊规制需求要求我们要对其进行独立化、统一化的治理。其二,专门性问题报告的现有规则难以适用于算法证据。我国刑事诉讼传统上通过鉴定来解决专门性问题,但2021年《高法解释》第100条和第101条拓展了专门性问题的处理方式,事故调查报告和专门性问题报告可以成为对专门性问题的判断进入刑事诉讼,由此形成了专门性证据的多元化格局。但是,从既有法律规范来看,对专门性问题报告的审查仍然参照了对鉴定意见的法律规定。而算法证据具有特殊性且其法律规制方案具有复杂性,我们很难通过专门性问题报告这一内容庞杂且配套措施不完备的制度来实现对算法证据的合理规制。其三,算法证据与鉴定意见具有相似性和可比性。在既有的对待专门性证据的多元格局下,我们有必要将算法证据与鉴定意见并列,以保持既有格局的稳定性。此外,并列式的独立方案有助于与证据分类制度的后续变革相衔接,比如在未来可以将鉴定意见和算法证据合并为一种新的证据方法。其四,我国立法者曾将电子数据独立出来,并列于视听资料之后。笔者提出的独立方案吸纳了我国以往的立法经验。

 

(二)官方制定专门性的司法解释

 

在鉴定意见之后增列算法证据只是在形式上赋予算法证据以法定证据资格,算法证据能否在实质上得以独立还有赖于相关规则的完善。这一观点可以从事故调查报告的相关立法实践中得到证成。2021年《高法解释》第101条规定,刑事诉讼中符合特定条件的事故调查报告可以作为定案的根据,但相关司法解释并没有明确回应事故调查报告的证据定位,也没有明晰事故调查报告的运用规则。事故调查报告的质量控制机制与鉴定意见不完全相同,参照鉴定意见审查方式无法完全适配,审查虚化的现象并没有得到改善。恰恰相反的是,实践中的事实调查报告大多以书证的形式被司法机关所运用,事故调查报告的适用具有不确定性。

 

由此可见,算法证据的法定证据资格的获取并无法保障其实质独立,专门性司法解释的制定才能保障算法证据的实质独立与规范运用。笔者认为,我国应借鉴电子证据相关规则的制定方式,由最高人民法院、最高人民检察院、公安部等机关共同制定有关算法证据的专门性司法解释。当然,算法证据专门性司法解释的构建还要依赖于相关理论的发展和实践经验的总结,笔者仅基于既有研究成果择其要点提出初步建议。

 

1.大数据获取的赋权与限权

 

因为司法机关获取大数据的事实已然发生,且大数据的获取与算法的应用对于国家安全的维护至关重要。所以,我们应对特定情形下司法机关的大数据获取行为进行赋权。比如,对于大数据资金分析模型所依赖的银行交易数据,我们应明确司法机关有权进行。实践中,经济犯罪呈现爆发式增长的态势,且打击难度较大。资金分析技术的出现,能有效应对复杂的经济态势。资金分析已经成为技术、技侦、网技、图技之后的重要侦查技术。资金分析需要借助海量的银行数据,在案件初查前,这些大数据与案件并无关系,但考虑到此类技侦手段实践运用的现实必要性,法律有必要对其进行特殊性的赋权。2022年发布的《关于办理信息网络犯罪案件适用刑事诉讼程序若干问题的意见》第12条仅初步明确了公安机关在调查核实阶段获取电子数据的权力。未来,可通过司法解释进一步明确司法机关在调查核实阶段之前获取电子数据的情形、条件、范围与程序。

 

但是,在赋权的同时,我们应对司法机关的大数据调取行为进行必要的限制。具言之,其一,大数据获取的目的限制。司法机关获取大数据时,其目的必须符合如下要求:必须是为了履行法定职责,基于既有法律的规定收集、获取数据;目的必须具体,一般不应准许没有嫌疑基础而进行大数据收集活动。其二,大数据获取的权利保障。我们应当落实和保障信息主体的知悉权与更正权,防止信息管理者、使用者、控制者滥用公民的个人信息或数据。其三,大数据获取的程序控制。我们应当根据不同类型的数据构建不同的程序控制方案。根据大数据拥有者的不同,可将数据划分为:公开数据、公安执法数据、政府部门数据、商业组织或其他组织数据以及个人私有数据等。鉴于五类数据开放性的依次递减,采集的权限要求及程序刚性应当依次增高。

 

2.构建算法影响评估制度

 

目前在刑事诉讼中,算法证据的合理运用不能全部交由后端的庭审对抗程序加以保障,需在前端对算法证据中的算法进行动态评估与监督。原因主要有二:其一,部分大型算法可能因体量过大、鉴定成本过高等问题,难以在个案庭审中加以鉴定。其二,我国庭审虚化问题未得到完全解决,而算法证据会带来数据倾倒、技术壁垒、辩护成本增加等问题,算法证据的法律规制难题很难完全交给后端的控辩对抗程序来解决。

 

作为重要的算法治理方案,将算法影响评估制度纳入立法议程受到广泛关注。此项制度主要指依据系统制定的衡量标准对自动化决策系统的应用流程、数据使用和系统设计等内容进行评判,以明确相应系统的风险等级和影响水平的治理方案。目前,美国和加拿大等国家已经在公共事业领域推行此项制度。目前,国内已经有学者呼吁,我国应以评估优先级为指引建立政府主导的算法影响评估机制,同时由国家互联网信息管理部门牵头,按照职责权限推进算法影响评估服务体系建设,并支持有关机构开展算法影响评估和认证服务。笔者认为,沿着这一思路,我国在构建算法评估组织时,可以将应用于警务预测和司法审判领域的算法独立出来加以评估和监督,特别是对基于案外大数据的算法证据中的算法,制定将算法运用到刑事诉讼活动的具体标准,建立常规化的算法审查机制,由第三方组织对算法进行定期评估和矫正,从而实现对算法的动态监控,保障算法的可靠性。对于不符合相关标准的算法,应当停止运用。需要说明的是,算法的可解释性和准确性之间难以兼顾,在刑事诉讼中,我们应提倡从算法的可解释性走向可解释的算法,提倡只有可解释的算法才能被运用。

 

这里需要说明的要点有二:其一,与算法影响评估制度配套的是算法的准入标准。刑事司法中算法的准入标准可参考英美法系中科学证据的成熟度、准确性、普遍接受性等标准进行构建。但这些标准不影响法庭后续对算法证据的再次审查。其二,在算法备案和评估程序构建后,司法机关和审计机构运用的算法都需受到外界机构的评估和动态监督。在这一制度下,司法机关和审计机构等都可以借助算法给出分析结果,这些结果都应明确标注为算法证据,并纳入算法证据的审查与认定体系。

 

3.明确算法分析的启动程序

 

这一举措主要规制基于案外大数据的算法证据。具体来说,应从以下几个方面完善算法分析的启动程序:其一,算法启动的范围限制。在明确案外大数据分析中算法启动的案件类型时,我国可以参考现行《刑事诉讼法》对于技术侦查适用案件类型的规定。其二,算法启动的目的限制。案外大数据分析的运用应当遵守目的正当原则,其运用目的应当局限于对犯罪的侦查、起诉和审判。其三,算法启动的适用条件。我国应明确启动该项侦查措施的条件,只有确定行为人具备初步的犯罪嫌疑才能启用,除此之外,在相关的法律文书中应明确表明何种具体的犯罪嫌疑以及相关的事实材料。其四,算法启动的审查主体。检察机关是我国的法律监督机关,顶层设计将监督侦查行为合法性的权力赋予检察机关。同理,对于大数据侦查中的算法启动,法律也可考虑授权给检察机关进行审批。

 

4.确立算法证据的审查与认定规则

 

首先,算法证据的审查规则完善。笔者认为,我国应参照2021年《高法解释》证据一章的规定,对算法证据的具体审查运用规则进行罗列式的确立,用以规范算法证据的运用。算法证据的审查重点在于算法评估的具体情况、大数据的获取程序、算法的启动程序、大数据的相关性、大数据的鉴真、大数据可靠性审查、算法源代码可靠性审查、算法结论可靠性审查等方面。值得特别注意的是,学界和实务界对数据预处理阶段的算法关注不多,而数据预处理阶段的算法设计直接影响大数据的准确度,诸如数据填补、数据剔除、非结构数据处理等算法技术的选择和应用直接决定了最终大数据集合的质量。因此,对算法证据的审查还应注重犯罪预处理阶段的算法设计。

 

除此之外,需要强调的是对算法证据可靠性的审查。算法证据的可靠性审查主要指针对算法准确度的多视角审查。司法解释应当明确,审查者需重点关注算法是否存在科学型错误代码和技术性错误代码。科学型错误代码具体指算法含有可疑的科学方法或价值评判因素,进而影响输出结果的可信性。在关注算法的科学代码时,不能仅仅关注算法的准确度,还需要结合“敏感性”和“特异性”来审查算法的“假阳性”和“假阴性”问题。技术性错误代码指算法中含有技术性错误,影响了算法的准确性。通常而言,这些技术性错误代码是程序员在无意中造成的。实践中,除了对算法的源代码进行分析外,对算法可靠性的分析还可以借助于特定鉴定机构的黑箱测试,黑箱测试是通过测试来检测已知产品每个功能能否正常的一种测试方法。在测试时,把软件程序看作一个不能打开的黑盒子,在完全不考虑其内部结构和内部特性的情况下,在软件程序接口处进行测试。

 

其次,算法证据的认定规则完善。应当承认的是,算法证据确实存在算法黑箱、歧视等问题,这会影响算法证据在实践中的准确运用。正如有学者所言,“大数据挖掘的电子证据提供的不是最终答案,只是参考答案,为司法提供暂时的帮助”。因此,我们应当尽量避免单独依靠算法证据去直接认定案件的要件事实。在审查算法证据时,应尽量将数据上的相关关系转换为法律推理上可理解的因果关系,不能仅凭算法证据进行事实认定。有学者提出,我国刑事证明应确立以“自然生活历程事实”为证明对象,容许或然性推论的综合型证明模式。笔者认为,综合认定模式的提出具有启发性。在此种模式下,我们可以将算法证据的相关关系归入故事的因果性关系之中,以便审慎地审查、运用算法证据,强调证据之间的相互作用,以充分发挥其效能,准确认定事实。

 

最后,算法证据排除规则的构建是算法证据合理运用的重要保障。在既有的证据规则体系下,法律应当明确违反大数据收集程序、算法启动程序、算法运行基本规程等所获得的算法证据不能作为定案根据。此外,法律规范应当明确运用可能严重影响司法公正的算法对大数据进行分析后所产生的证据,应当予以排除。

 

5.完善算法证据的质证程序

 

首先,对算法证据的法庭质证程序,考虑到算法证据的特殊性,主要从透明度和简明度两个维度构建相关制度。第一,明确算法证据提出者及算法设计者的风险提示义务和解释说明义务,以提升算法证据的透明度,进而保障被追诉人平等对质权的实现。具体来说,算法设计者有义务根据法庭的要求对其所设计的算法进行特定说明,同时,算法的提出者有义务向法庭说明算法的运行逻辑、具体参数等信息。第二,借助可视化等技术手段实现算法的简明性,以帮助诉讼主体特别是被追溯人理解算法的逻辑与准度。这是因为,透明并非意味着简明,普通人一般无法轻易理解算法的源代码,简明性的要求可以帮助普通人理解算法。比如,实践中,已经有科技公司使用基本的术语解释其系统以便他人理解。刑事诉讼可以尝试引入简明性要求。实现简明性的方法是可视化,可视化可以激发人的形象思维和空间想象能力,帮助人们洞察数据或算法内部的关系和规律。可视化主要包括数据可视化和算法可视化。前者指通过图形与动画等形式更为生动的方式来展示数据,诠释数据之间的关系和发展的趋势。后者指通过多种形式生动地展示算法的作用机理,帮助人们更好地理解算法的运行逻辑。

 

其次,我们需要进一步区分算法证据与对算法证据中算法的鉴定意见或专家意见,并在此基础上完善司法鉴定制度与专家辅助人制度,以实现对算法证据的实质化质证。有关这些证据的区别,我们可以从许某某与杭州某软件服务公司网络服务合同纠纷案中得到启发,在此案中,一审法院认为大数据分析报告由自动化决策生成,其专用性和技术性较强,如果不对大数据分析所依赖的算法进行司法审查,将会形成专业技术垄断司法判断的结果。平台可以通过委托鉴定的方式来展示算法逻辑,在必要时,也可以通知鉴定人员以及双方的技术辅助人员出庭作出专业解释,确保算法技术的可解释性和正当性。换言之,面对这一不断发展的新兴技术,一定要充分发挥专家诉讼参与人在人工智能证据审查中的作用。

 

五、结 语

 

科学技术与司法之间存在着互动互助的相互关系,而司法的改革一般落后于科技的进步。在技术快速转型的当下,新型技术不仅给人们的生活带来便利,另一方面也为新型犯罪提供全新的手段和技术。面对日益增多的新型犯罪,我国司法机关已经意识到新型技术的重要性,积极运用新型技术助力刑事司法活动。算法证据正是在这一背景下出现的。应当承认,算法证据的出现顺应了数字时代犯罪治理的需求,但是,目前算法证据尚未在法律规范中独立出来,因此难以被司法机关认真“对待”。理论界有必要对算法证据的独立问题进行深入探讨。在中国的诉讼制度语境下,法定证据种类制度具有一定的合理性,算法证据的独立与否需在法定证据种类制度下加以探讨。通过对算法证据进行深入分析,可以发现,算法证据的生成过程与既有的法定证据种类存有不同,且其包括基于案外大数据和基于案内大数据的算法证据这两种不同类型。因此,算法证据难以被归入任何一种法定的证据种类之中。考虑到算法证据法律规制方式的特殊性,我们有必要将算法证据独立为一种新的法定证据种类。鉴于算法证据与鉴定意见具有一定的相似性,专门性问题报告又无法承载规制算法证据的重任,为了保证法律的安定性,笔者认为,应在鉴定意见之后增列算法证据这一法定证据类型。此外,为保障算法证据的实质独立,应就算法证据制定专门性司法解释。

 

 

来源:《中国刑事法杂志》2023年第5期

作者:张迪,华东政法大学中国法治战略研究院副研究员