尚权推荐SHANGQUAN RECOMMENDATION

尚权推荐丨吴国章:算法证据/大数据证据审查辩护的五个向度

作者:尚权律所 时间:2024-10-16

本文所说的算法证据系广义意义上的大数据证据,是指运用特定源代码指令对海量数据进行关联、分析、比对、识别、建模而形成的机器意见。
 
在信息飞速发展的当今,算法证据在司法实务中比比皆是,比如对被告人的社会危险性进行预测的算法、对行为人行为异常进行预测的算法、对案涉海量数据进行分析报告的算法、对犯罪组织架构和层级进行建模的算法、DNA鉴定、指纹鉴定与识别、人脸识别、虹膜识别、手机轨迹和车辆轨迹分析,等等,都属于算法证据。这些算法证据对认定案件基本事实往往有着重要甚至决定性作用,因此对算法证据如何进行审查判断已引起实务界的高度关注。
 
然而,算法证据具有“黑箱”性质和超专业性,法律实务人员因为专业知识短板而无法实现有效的审查判断,导致算法证据变成算法霸权,在诉讼中“横行无阻”。有法官坦言,由于算法证据的专业性,很少有辩护律师对算法证据提出实质性的审查辩护意见。不仅如此,法官也基本对算法证据无所适从,一般是“照单全收”。如果不对算法证据进行有效的审查判断,算法证据将直接成为定案根据,那么,算法证据的算法决策就取代了司法决策,严重背离了正当程序和发现真相的诉讼价值。
 
因此,我们必须正视算法证据,挑战算法证据的实质性评价。其实,算法证据同世上所有新事物一样,既有专属的知识也有公共知识,其中公共知识的占比甚至更高。对于公共知识,我们可以通过正常的生活经验就可以作出判断;而对于专属知识,通过法律设定一定的程序进行特别的审查判断。
 
在司法实务中,诉讼完全挑战专业性极强、难度极高的科学证据,比如在念斌投毒案件中,辩护律师就成功挑战了微量毒物的鉴定报告。同理,对于算法证据,法律实务人员也是完全可以挑战的。笔者认为,可以从五个向度对算法证据提出有效的审查辩护。

 

一、算料的“全面性”审查

 

算法证据是否可靠,决定于形成算法证据的大数据基础(可称为“算料”)。算料的全面性可以从源头上保证了算法证据的可靠性。算料的全面性由两个要素构成:一是大数据的完整性,二是大数据的全量性。
 
(一)算料的完整性审查
 
大数据的完整性一般局限于对某个单元数据的真实性评价,比如一份文档的的数据是否完整,微信聊天记录的数据是否完整。完整性的审查有五个层次:第一,审查数据收集提取是否完整;第二,对数据的恢复是完整恢复还是选择性恢复;第三,对提取的数据是否进行有效的保全;第四,数据在移交过程中是否遵循严格的移交链条;第五,数据保管过程中是否严格遵循防水、防静电、防潮、防碰撞等技术要求。
 
(二)算料的全量性审查
 
数据的全量性则着眼于所有与案件有关的数据,包括案件本身的大数据,也包括案件之外的数据库大数据,比如DNA库、指纹库。实践中,有两个原因影响了大数据的全量性。
 
首先,是社会性原因——数字的不平等性。即使在信息时代,每个人携带的数字量仍是完全不同的。有些人靠“流量”生活,拥有大量数据,成为数据网红;而有些人靠“力量生存”——那些靠提供苦力而生存的人,他们没有数字空间而成为“数据流民”。
 
因此,算法研发者在收集数据时,整体上必然存在数据偏差,不能体现大数据的全量性。比如,当人脸库的数据分别为1万个单位和海量单位时,人脸识别比对的结果可能完全不同,因为算法推理具有弱关联性,当数据没有达到海量时,算法将降低“相似度”标准,以“将就”的方式锁定较相似的对象,此时的相似度可能仅75%;而一旦数据达到海量规模时,算法关联的范围扩大,将检索到更相似的对象,此时的相似度可能为95%。
 
其次,是数据基本属性的原因。数据具有可分割性、快速移动性等特征,因而数据可以被分解成不同的单元而存储在不同的服务器或不同的国家,形成“碎片云”。比如在2017年的谷歌诉爱尔兰案件中,一名地方法官下令谷歌遵守两项旨在要求提交外国存储的电子邮件内容的授权令。但谷歌公司声称其将邮件分解为几个部分而储存于世界各地的服务器。数据也会自动根据可靠性、性能优化和有效利用原则而从一个服务器转移至另一个服务器,因此谷歌自己都不清楚某个数据具体存放于哪个服务器。
 
在针对我国境内的跨境诈骗、赌博等犯罪案件中,案涉数据往往也同时存储在不同的国家,比如非内容数据存储在东南亚国家,而内容数据存储在美国,而根据美国“云法”的规定,我国执法机关难以从美国获取相关内容数据,因此造成大数据的非全量性。
 
最后,是数据收集主体的因素。数据收集主体在收集训练数据时,不排除个人的喜好与偏见,其带有个人价值取向收集数据向算法喂养数据,也可导致数据的非全量性。比如在向算法进行图片识别训练时,习惯性地将医生以男性图片进行识别记忆积累、将老师以女性图片进行识别记忆积累,那么算法就形成了“医生-男性”“老师-女性”的关联匹配和机器经验,一旦输入“医生”“老师”指令时,算法有绑定输出“男性”“女性”的倾向和偏好。所以,在审查大数据的全量性时,应当从多角度分析审查。
 

二、算法技术的可靠性审查

 

算法技术的可靠性审查包括对技术的科学性审查和动机中立性审查。
 
(一)科学性审查
 
算法在本质上属于科学证据,对科学证据的技术审查可以参照美国“道伯特标准”从五方面进行:(1)是否能被(并且已被)检验;(2)是否已经过同行审议并发表;(3)已知或潜在的误差率是否很高;(4)是否有关于技术操作的标准;(5)在相关科学共同体中是否得到普遍接受。但是,很多时候算法技术被作为商业秘密而无法公开,因此,前述标准中涉及需要公开相关技术资料的要求就难以在算法技术中适用,显然不具有可操作性。因此,对算法技术的审查需区分两种类型处理:
 
第一,对于可公开的源代码技术,可以通过同行审议或“白箱”测试的方式直接进行;第二,对于源代码技术不能公开的情形,可采取“黑箱”测试的方法,向算法输入大量实例,验证结果是否符合预期目的。但无论何种情形,适用的算法技术必须是成熟的,且可反复使用,否则就无法达到科学性的基本要求。
 
在一个案件中,某鉴定机构为了完成对案涉海量数据的统计分析,专门研发了一款数据统计分析软件,具有单独统计不同即时通讯App接收或发送信息条数的功能。虽然据称该技术“填补了行业空白”,但该技术系针对特定案件而临时研发,显然无法显示技术的成熟性。
 
(二)技术中立性审查
 
技术中立是技术伦理规范的基本要求,但是在实践中,种种原因导致不可
 
避免出现技术偏离伦理规范的现象。所以,技术偏离中立性是一种客观事实,对技术中立性的审查也是必然的。造成技术偏离中立的原因有客观和主观两方面。
 
(1)客观原因,包括:第一,数据的海量性,导致技术人员面临“维数灾难”,无法识别所有数据的信息,无法平均地向算法喂养各种数据,故无法保证数据营养均衡;第二,技术的发展是一个进化的过程,是不断向真理逼近的过程,因此任何技术在当下都有缺陷,算法也必然存在技术人员无法预料、控制的缺陷。技术的固有缺陷就无法保证算法能够全面吸收算料的营养,难以出现机器经验偏差和输出偏差;第三,算法具有自我学习功能,细微的技术偏离经过算法自我学习后可能会被放大。
 
(2)主观原因,包括:第一,研发单位的整体性价值取向,比如由侦查机关研发或主导研发的算法难免渗杂了“有罪推定”的思维惯性,而由中立的科研机构研发的算法则可能更为中立;第二,程序设计人员的个人生活经验、教育背景、社会阅历等,都将影响其对技术规则、程序的安排和布置;第三,数据训练过程中的偏好,比如对训练数据筛选的偏好,导致算法的数据营养不良。对技术中立性的审查主要通过对算法结果正确性验证进行。
 
算法结果正确性验证有三种:第一,样本测试,即算法对几组不同的输入数据能够得出满足要求的结构;第二,去偏好测试,即算法对于精心选择的典型、苛刻而带有刁难性的输入数据能够得出满足要求的结构;第三,全面性测试,即算法对于一切合法的输入数据都产生满足要求的结构。

 

三、算法的可解释性审查

 

(一)算法解释的意义
 
算法的可解释性是算法公正的基本要求,是指算法研发者能够以通俗的语言向普通人解释并且普通人能够因此理解算法工作的原理、过程和得到输出结果的逻辑推理关系等。
 
在诉讼场域,对算法证据的算法解释显得尤为重要,表现为两个方面:
 
第一,从实体法层面看,算法证据直接参与司法决策,影响了案件的事实认定和定罪量刑,比如,对案件大数据的统计分析报告,将决定某些案件是否达到追诉标准,如果达到追诉标准将在哪个量刑档期对被告人量刑;对犯罪组织结构和层级的建模,将决定各被告人的主从犯地位;对人脸、指纹、虹膜的识别结果,将决定犯罪嫌疑人是否犯罪行为人,等等。因此,算法必须具备正当性,而正当性只能通过算法的可解释性来实现。
 
第二,从程序法层面看,算法证据相当于司法决策,而任何司法决策都必须遵循一定的程序,必须是公开和可辩驳的,否则违背了正当程序原则。算法的可解释性相当于司法决策程序的公开性,是正当程序的基本要求。算法证据是一种特殊的证据,它不是静态的,而是复杂的动态过程,但这一过程的合法性正如侦查人员取证过程的合法性一样,需要公开且能够被证明。如果某一证据的取证过程无法被公开和证明,则该证据也就无法进行质证,无法质证的证据就不能作为定案根据。同理,算法证据如果不能被解释,则该证据无法被质证。
 
(二)算法解释的现实可行性
 
算法应该被解释,而且能够被解释,这是因为:
 
第一,算法是人为设置的规则和程序,技术人员对其工作原理和逻辑推理关系是清楚的,能够进行解释。
 
第二,即使算法属于商业秘密,仍不能排除其解释的义务,因为诉讼可以解决任何涉密事项,商业秘密不是免除解释义务的法定理由。比如可以通过不公开开庭、当事各方签署保密协议的方式确保算法技术的秘密性。
 
第三,算法自我学习能力的非可控性也不是免除解释义务的根据。算法虽然具有自我深度学习能力并且因此获得了超越原有设计知识水平的衍生技术,但该衍生技术仍是研发者所能预料的,因为算法通过自我学习的技术衍生是在原技术基础上的阶段性、递进性发展,是在原来数据经验基础上不断累积之后的飞跃,这种变化符合技术进化的逻辑遵循,是同向性的线性技术延伸,具有经典力学的因果律特征,而不是毫无规律的变异,因此是可预测和把控的。
 
(三)算法解释的实现路径
 
首先,应当赋予当事人对算法解释的申请权。在被告人及其辩护人对算法技术存疑时,可以向检察机关、审判机关申请算法研发单位对算法技术进行书面解释,如果书面解释仍不能达到释疑目的的,可以申请设计人员到庭解释。比如在一起高速公路费逃避诈骗案中,公诉方因无法准确认定高速公路逃避的起点与终点,就以交通运输部门出具的行经起始点为依据,制作了两份《高速公路数据表》,出具了大数据分析报告。但上述两份证据中的数据冲突率分别达33%和54.5%,可能存在算法不当问题,可申请算法研发者出庭对该算法技术进行解释。
 
其次,应当赋予当事人对算法验证的申请权。算法的解释性应当以通俗语言进行,但并非所有的技术人员都有能力将深奥的科学技术以通俗的语言顺利描述出来,也不是所有的当事人都可以明白技术人员的解释,此时,对算法技术认知仍存在障碍,应当允许当事人申请技术人员对算法技术进行现场的测试验证。
 
最后,当事人可申请专家辅助人到庭参与对算法解释、测试验证的质证。

 

四、算法模型的最佳性审查

 

(一)算法模型最佳性的原理
 
学界多把算法模型的最佳性称为适配性,但其实适配性是最佳性的最低要求,适配性是基础,最佳性是算法优化的结果。所谓适配性是指特定的算法只能运用于特定的大数据场域,不同的算法模型解决不同的大数据问题。根据算法功能的不同,可以将算法证据区分为分析型、识别比对型、建模型等几种。
 
但不管哪种算法都需要数据挖掘,根据数据挖掘方式的不同,又可以分为分类算法、聚类算法、关联规则算法、回归算法、异常检测算法。
 
分类算法就是通过对训练数据进行学习,构建一个分类模型(经验记忆),然后使用该模型对未知数据进行分类。常见的分类算法有决策树、朴素贝叶斯、逻辑回归、支持向量机等。
 
聚类算法是将数据按照似相似性进行分组的一种方法,它通过计算数据对象之间的距离或相似度,将相似的对象划归到同一蔟中。常见的聚类算法有层次聚类、距离聚类和密度聚类算法。
 
关联规则算法,是指“通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规律,并在满足最小置信度的要求时导出关联规则”。其功能在于发现数据中的关联规则,即一个事件或项集与另一个事件或项集之间的关系。从上述列举分析可见,算法模型差异性的基础逻辑是对数据需求模式的不同,不同的数据模型决定了不同的挖掘方式,不同的挖掘方式构成了不同的机器认知,不同的机器认知决定了不同的机器识别、不同的数据输入方式和不同的数据输出模型。
 
因此,不同的算法有不同的技术标准(如下表所示),不同的技术标准决定了算法的不同功能。有专家指出:“大数据证据面临因算法不同而出现不同结论的情况,算法模型的适用性很大程度上决定着分析结果的准确性和可采性”。
 
在美国诉威廉姆斯案中,法官就认为,BULLETPROOF(混合DNA分析软件)的算法只适用于检测四个及以下来源者的DNA混合物,而本案中的混合DNA材料无法确定来源者数量,最终排除了相关证据。
 
但是,算法的根本目的就是构建一个求解的系统解决方法,同样的问题有不同的解决方法。同理,对于算法,不同的技术人员在设计算法时有不同的方案,导致它们的运算时间、效率和数据消耗量、输出准确性等不尽相同。
 
因此,在算法模型适配性的基础上就产生了算法模型的最佳性,即在同一类型的算法模型中选择最佳的算法模型。算法模型的最佳性不仅在商业界受到关注,在诉讼场域更应予以特别重视,因为同一算法原理的不同算法模型将输出不同的结果,不同的输出结果对案件定罪量刑将产生重大影响。所以,在诉讼场域,不仅关心算法模型的适配性问题,更应该关注其最佳性问题。
 
(二)算法模型最佳性的审查路径
 
尽管目前算法模型繁杂,但基本路径只有两个:一是“积极似真”的路径;二是“消极似真”的路径。
 
所谓“积极似真”,就是“为了体现数据的一致性,必须放弃某些给定的非一致元素”,就是将数据集中最有价值的元素保留下来,再通过剪枝的方法将那些数据信息与之相冲突的数据剔除出去,以破坏性最小的替代方案尽可能恢复数据一致性,实现整体似真,提高整体似真度。积极似真的缘由在于技术人员在面临“维数灾难”时,无法在数据训练时将庞杂的数据“全量性”喂养给算法,而只能喂养“主成分”,即通过“降维技术”将特定特征的数据项集组合成更高层次的特征来解决问题。比如人脸识别原理就是“积极似真”,算法通过抓取人脸关键部位轮廓的几何特征(主成分分析),而放弃了非关键部位的数据。
 
所谓的“消极似真”,是指运用模糊理论将精准的数据值模糊为语言值,以此扩大关联对象,并通过设定置信区间选择数据集范围。比如根据模糊理论,将25岁的精确年龄转换为语言值——年轻人,那么输入年轻人以后,算法覆盖的数据范围远超25岁的数据范围,输出的算法结果更具有价值性。比如在商业平台向客户推送商品或服务时,就是根据模糊理论进行演算并确定推送对象。
 
所以,当我们面对算法证据时,我们首先应当确定案涉算法证据要解决什么问题,是解决个体问题还是类别问题。如果解决的是个体问题,比如识别与比对,则适用的原理是“积极似真”,此时需要我们审查该算法模型是否能够体现积极似真;如果解决的类别问题,适用的原理是消极似真,此时需要我们审查该算法模型是否体现消极似真。
 

五、算法结果的印证性审查

 

印证法是我国诉讼中最常见最普遍的司法证明方法,也是人类辨别事物真伪的基本方法,就有普遍适用性。然而,印证法一般被认为仅适用于言词证据和实物证据之间,不认为可被适用于算法证据与其他证据之间。
 
其实,算法证据虽是强专业的科学证据,但传统的印证法却仍是最有效的审查质证法。因为算法专业解决的是算法证据的前端问题,而实务人员更关注的是算法证据的后端问题,即输出结果。
 
对于辩护律师,前端问题可以也必须进行专业性的审查质证,但因为后端问题更多涉及公共知识,辩护律师应当给予更多的审查质证空间。而能够解决后端问题的只有印证法,即算法证据的机器意见是否与那些凭借生活经验、法律专业经验可以被评价为真的证据能够相互印证?算法证据的印证性审查可以按照“四步法”进行。
 
(1)确定印证的样本证据。所谓印证的样本证据,就是关键性证据,是指那些可以直接证明案件主要事实能够成立或不能成立的证据,也可称为最佳证据,是由案件性质所决定的且必定生成的那些证据。比如被告人的供述、被害人陈述,案件当事人的生化物质、作案工具等,都属于关键性证据。
 
确认样本证据的作用是根据这些证据性事实映射出案涉的基础事实,拿捏出案件基本事实的轮廓,用于评价其他证据的印证性。因此,关键性证据是印证的样本,而其他待检验证据则属于检材,只有样本存在,才能有评价其他证据印证性的空间。
 
(2)审查样本证据的真伪。根据证据的“三性”审查标准,对样本证据的证据能力和证明力进行判断。如果具备证据能力和证明力,则可以作为评价包括算法证据在内的其他证据印证性的标准。
 
(3)审查样本证据与算法证据是否相互印证。如果能够相互印证,该算法证据具有可靠性。比如在案被告人均供认被告人某甲在传销犯罪组织中处于第二层级,而算法证据构建的组织模型也体现了某甲处于第二层级,则相互印证。如果不能相互印证,则该算法证据不能作为定案根据。比如在某甲盗窃一案中,侦查人员通过对视频中的人脸进行算法分析,锁定某甲系犯罪嫌疑人。但某甲到案后否认自己盗窃,并辩解自己在另一城市。后侦查机关补充侦查获得某甲在另一城市的手机轨迹算法证据、车辆轨迹算法证据,这些证据与人脸识别的算法证据相互冲突,故人脸识别算法证据不能作为定案根据。
 
(3)印证性的例外。在网络犯罪中,面对庞杂的海量数据,无法做到一一印证。为此,相关司法解释规定了“综合认定”“抽样取证”“抽样选证”的证明方法。
 
比如,2016年电诈司法解释(一)第6条规定:办理电信网络诈骗案件,确因被害人人数众多等客观条件的限制,无法逐一收集被害人陈述的,可以结合……等证据,综合认定被害人人数及诈骗资金数额等犯罪事实。
 
2021年《人民检察院办理网络犯罪案件规定》第21条:人民检察院办理网络犯罪案件,确因客观条件限制无法逐一收集相关言词证据的,可以根据记录被害人人数、被侵害的计算机信息系统数量、涉案资金数额等犯罪事实的电子数据、书证等证据材料,在审查被告人及其辩护人所提辩解、辩护意见的基础上,综合全案证据材料,对相关犯罪事实作出认定。
 
《关于办理信息网络犯罪案件适用刑事诉讼程序若干问题的意见》第20条,办理信息网络犯罪案件,对于数量特别众多且具有同类性质、特征或者功能的物证、书证、证人证言、被害人陈述、视听资料、电子数据等证据材料,确因客观条件限制无法逐一收集的,应当按照一定比例或者数量选取证据,并对选取情况作出说明和论证。
 
可见,对于统计型的大数据分析报告,无法运用逐一印证的方法对算法证据进行审查辩护,存在印证规则的例外。此时,辩护律师该如何进行审查辩护呢?
 
第一,要求控方对抽样取证必要性和样本的代表性进行说明和论证,以证明其抽样取证的合法性。
 
第二,可以通过自行抽样取证、验证的方式反驳控方的算法证据。即辩护律师可以对案涉数据经随机抽样委托有资质的鉴定机构进行验证,如果鉴定意见与控方相反,则可以反驳控方的验证结果。比如在王某、张某侵犯公民个人信息案中【辽宁省沈阳经济技术开发区人民法院(2018)辽 0191 刑初 418 号刑事判决书】,被告人王某的辩护人采取与侦查机关侦查实验相同的方式统计案涉数据的重复率并提交实验记录,法院认为辩护人随机选取的数据样本具有代表意义,根据有利于被告人原则,采纳该重复率并在总数中予以扣除。
 

第三,提供具有个性的特殊数据反驳算法证据。比如在一起网络开设赌场案件中,控方将微信收款全部作为赌资认定。但经调查,其中有部分金额系正常的经济往来,比如与女朋友、家人的经济往来,并非赌资。为此辩护律师认真查阅了交易记录,发现部分数据具有明显的特性与寓意,比如520元、1314元、168元等等,明显非赌资性质。控方据此重新取证,剔除了部分数据。

 

 

 

来源:司法兰亭会

作者:吴国章,西南政法大学刑事辩护高等研究院副院长、福建壶兰律师事务所主任