作者:尚权律所 时间:2021-04-25
编者按:
2021年4月17日,第十六届尚权刑事司法青年论坛暨“新技术与刑事司法”学术研讨会在成都成功举办。本届论坛由北京尚权律师事务所、西南民族大学联合主办,西南民族大学法学院承办。
论坛采用线下、线上相结合的方式举行,共百余名专家学者、法律实务界人士出席了本届论坛,论坛对外视频直播,在线实时收看达5000余人次。
论坛围绕“新技术与刑事司法”这一主题,较为深入地研讨了“新技术与刑事证据”、“新技术与刑事侦查”、“新技术在刑事司法中的运用”等议题,取得了丰硕的研究成果。
以下是中国人民公安大学诉讼法学博士生王士博在论坛上的发言,整理刊发以飨大家。
各位老师,各位师兄师姐大家好,我是来自中国人民公安大学诉讼法学博士生王士博。非常感谢主办方、承办方以及协办单位提供的这次宝贵的交流机会。
今天我向大家汇报的论文题目是《论大数据证据的证明力》,希望能够得到各位专家、学者的批评指正。我想以一段案例来引入我今天汇报的主题。可能大家都比较关注最近发生的“货车司机被罚款扣车后服毒自杀”事件,在这个事件中,安装在货车上的北斗定位系统,本质上就是一种数据收集器,货车的数据经过联网进行数据传输,利用算法进行解读,由行政机关判断货车是否是超速,货车司机是否疲劳驾驶。我们发现,这些经过算法处理的数据已经成为行政处罚的证据。
从刑事诉讼法来说,这些经过算法处理后的数据已经成为法官认定刑事案件事实的依据。那么,如何判断这些大数据证据的证明力?大数据证据对法官的自由心证存在哪些影响?这是本文的问题意识。由此,今天我主要向大家汇报三方面内容:一是大数据证据含义的核心,二是大数据证据在实践中的适用模式,三是证明力规则的构建。
在对大数据证据进行定义前,我们首先需明确大数据的含义,其实我们从来都不缺少数据,毕竟从计算机出现直至今天,我们其实已经积累了非常庞大的数据量。我们所缺少的是数据分析的能力。而大数据的核心技术就是对非结构化数据进行分析的能力,在此,以白建军老师的两篇文章为例对数据分析能力的进化进行说明。在白建军老师于2006年所发表的《死刑适用实证研究》中,白老师分析了1100个左右的案例。但是在2016年白建军老师发表的《基于法官集体经验的量刑预测研究》中,白老师则分析了14万个案例。由此,可以直观清晰地看出,这就是数据分析能力所带来的对小样本研究到全样本研究的改变。
在刑事诉讼中,人脸比对证据材料与经济犯罪中犯罪组织架构证明材料也需要大数据分析能力。例如在人脸识别证据中,卷积神经算法就是一种经常使用的算法。卷积神经算法是指将我们人眼所观察到的图像进行网格化处理,然后再设计一个卷积核,例如一个3×3的小网格,对该人脸图像按照顺序来进行处理。在这个过程中,因为需要对人脸的图像进行计算机可识别的二进制语言转化,其所需要运算量非常大。如图像分辨率、色彩等,这些都需要进行计算机语言的二进制转化。由计算机“读懂”之后再输出人脸比对的匹配概率。这一过程说明,人脸比技术也属于大数据证据的一种。
其次是大数据证据的定义,总结来看,学界有三种学说:综合体说、分析报告、规律说。前述定义中的共同点在于均强调了大数据分析中的数据处理技术。而在本论文中,我的定义则是将大数据证据分析的数据进行了界定,即侧重于与待证事实相关联,我认为法院通过证据认定事实的逻辑与侦查逻辑的有所区别的。目前,公安侦查已经实现预测犯罪的技术,预测犯罪数据是通过一般性的犯罪历史数据得来,但是大数据证据实际上是与这个事实有关联的数据,尽管这种数据在结构化之前可能是不明显的,法官亦可能无法判断其中内容到底有何种关联性,我认为这里存在的关联性主要是一种弱关联性。
其次,我建议将我们传统的电子数据与当前新出现的大数据证据合称为数字证据。我们不妨大胆的设想一下:在刑事诉讼法逐渐发展的过程中,证据法在学理上的分类很可能会出现两大类,即数字证据和非数字证据。我认为这种分类还是有其合理性的。
对于大数据证据不能纳入传统证据种类的原因,我认为应当主要从大数据证据的特征来进行讨论。对于大数据证据特征,我主要总结了4点,而我认为其中最重要的特征即是主观性。大数据证据形成经过两个步骤,一是数据收集,二是算法处理。在这两个步骤中,人的主观性参与的程度非常深刻。算法模型就是用数字工具包装起来的主观观点,而经过不同算法模型所输出的结果自然不同。我认为这就是大数据证据与电子数据和鉴定意见最大的区别。
大数据证据在实践中的适用模式可以分为直接适用和转化适用。在此,向大家介绍一下本篇论文中的发现:我认为直接适用模式主要是应用于如车辆轨迹、人员行动轨迹、人脸比对等辅助性的证据,这些证据对事实认定可能有一定帮助,但是不能直接证明犯罪构成事实;但在转化适用模式中,公安机关则通常是通过鉴定程序来出示这些大数据证据。如在传销类犯罪中,传销层级达到三级以上的,才被认定为传销类犯罪,经过大数据可视化分析之后,这种证据其实是犯罪构成要件的待证事实之一,公安机关为了增加法官对该种证据的认可度,一般就会通过鉴定意见的形式予以呈现。
至于大数据定位混乱所产生的司法危害,以“朱某盗窃案”(江西省瑞昌市人民法院刑事判决书(2018)赣0481刑初210号)为例,通过审视辩护人意见和法官认为部分对大数据证据的质证意见,我们可以发现:辩护人提出大数据需要有关机关加盖公章,才能使其作为证据资格出示或者使其具备证明力。可以看到,大数据证据在实践中的审查重点和方向并不明确。而如果没有审查重点和方向,证据排除规则的缺口就会被封闭,证据的证明力也会成为无源之水。
我认为,大数据证据的证明力规则应当从真实性和关联性两个方面构建。对于真实性规则,大数据证据其实和鉴定意见的形成比较相似。鉴定意见的对象是检材,使用检测技术对检材进行分析。而大数据证据中的数据就相当于鉴定意见里面的检材,算法、数据分析能力则就相当于鉴定意见里面的检测技术。因此,大数据证据审查的重点就在于对“检材”、“检测技术”进行审查。对大数据证据中数据的审查,可以参照传统电子数据的审查规则。对算法的审查我认为主要有两个标准:一是外部标准,二是内部标准。
什么是外部标准?即是将标准进行外部化、非技术化。如美国道伯特标准,它实行就是同行复核、科学共同体广泛接受的标准,法官依据同行复核结果,或者说以该检测技术、该项科学证据是否被科学共同体广泛接受为标准,以对该证据进行可采性分析。在这一标准中,法官不需要懂得大数据证据的原理。所谓内部标准,即由外行审查内行。如有学者提出,大数据证据中应该分析其源代码,而源代码则需要较为专业的人才进行解读,在实践中法官是难以理解的。
对于大数据证据证明力规则的中国构建,我认为,应当对算法进行数据集的测试,即测试其结果是否稳定、可靠。如酒精测试仪,我们经常可以在抖音短视频中看见交警在测试荔枝和蛋黄派能不能对酒精测试仪的数值造成影响。为什么这个测试结果是可靠可信的?因为酒精测试仪的化学原理是稳定可靠的,所以,每一次测试结果就都是固定的,同一个人测试不同的酒精测试仪,结果数值都是稳定的。因此,我认为算法也可以通过数据集来进行测试。
至于证据关联性转变的这一问题,我认为证据关联性判断中最重要的关系是因果关系。我们在证据推理的过程中都需要使用因果关系的大前提。在特文宁看来,这个大前提叫做概括。在大数据证据中,概括被算法模型所取代,即意味着概括大前提所具有的因果性被数字化,在数字世界里去除因果性既定的方向,输出的结果自然是具有数字性的相关关系。
关于量化判断大数据证据的证明力问题,我认为可以使用贝叶斯定理中的似然比公式。理由如下:第一,大数据证据本身具有不确定性,即概率性。除类似人脸匹配证据等具有匹配概率,其他证据如GPS定位系统,亦具有定位精度。换言之,出示人员轨迹时,其实还是具有一种不确定性。第二,似然比公式的意义就在于分析证据在数据库中的典型性,鉴于当前分布式存储能力大为提升,数据存储能力已经满足了这一点。因此,我认为运用似然比公式来判断大数据证据的证明力是合适的。
我的汇报到此结束,谢谢大家!