尚权推荐SHANGQUAN RECOMMENDATION

尚权推荐丨高童非:刑事抽样证明的类型化重释

作者:尚权律所 时间:2022-08-15

摘要

 

为了因应网络犯罪中电子数据等海量证据的认定难题,刑事诉讼抽样证明近来愈发受到重视,但这种证明方法却存在诸多的理论误区亟待澄清。以往学界对证据抽样问题大多持谨慎的包容态度,认为这种方法并没有实质降低刑事证明标准。

 

可是现有的研究往往将抽样证明等同于概率抽样证明,忽视了非概率抽样证明的存在,而近年发布的抽样取证规则大多带有非概率抽样性质。

 

概率抽样证明虽然也存在抽样误差,但由于其得到大数定律和中心极限定理的统计学支撑,如果遵循抽样原则且严格执行抽样程序,在对总体事实进行证明时并不会显著降低准确性。

 

然而,非概率抽样证明由于失去了上述数理的基础,无法根据样本较为精确地推断总体待证事实,因而原则上不应当独立应用于犯罪事实的认定。

 

刑事法律规范应当在抽样证明内部确立推定规则和底线证明规则,在外部认定方面则从相对机械的印证证明模式向综合证明模式转型。

关键词 :海量证据 抽样取证 抽样验证 综合认定 大数据证明

 

 

一、问题的提出

 

抽样取证是行政执法过程中常规的方法,在税务、农业、卫生、食品、知识产权、治安管理等部门执法稽查中受到广泛应用。《行政处罚法》第56条规定了行政机关在收集证据时,可以采取抽样取证的方法。受制于更高的证明要求和标准,传统刑事程序对抽样的证明方法持谨慎态度,其主要应用于检验鉴定,以及行政证据向刑事证据转化等有限场景中。

 

但随着近年来我国网络犯罪数量的攀升,海量证据难题的凸显,实践中出现办案机关受困于海量事实的证明难题,不得已放弃对犯罪进行追诉的情况。

 

在此背景下,抽样方法作为社会调查中解决数量难题的“数之策”,理所当然地被实务界寄予厚望,大有扩张之势。譬如,2021年印发的《人民检察院办理网络犯罪案件规定》第22条提出:对于数量众多的同类证据材料,在证明是否具有同样的性质、特征或者功能时,因客观条件限制不能全部验证的,可以进行抽样验证。

 

刑事抽样证明是指在刑事诉讼中,通过在较大数量的同质性证据中按照科学方法选取部分证据进行分析,再根据样本的分析结果依照统计学原理对总体待证事实的特征进行推断的证明方法。虽然法律和司法解释对抽样证明关注不多,但我国刑事司法实践中抽样方法的应用已经较为广泛。

 

从裁判文书网公开的2016—2020年的刑事判决书中以“抽样”为关键词进行检索,命中的文书数量为23572个。对其中案件总量在1000件以上的罪名进行降序排列,结果如下图所示:

 

此外,破坏环境、侵犯知识产权、诈骗、侵犯公民个人信息等类型的犯罪也有较高比例,且近年来涨幅明显。这些数据表明,实践中涉及抽样方法的案件数量已经颇具规模,理论研究的滞后和规范生成的缺失与实践需求的增长不相匹配。

 

抽样证明本质上是一种“模糊证明”,是办案人员在无法对所有证据单元进行逐一分析评价时作出的变通处理。抽样证明方法遇到的最大挑战是如何完成从样本到总体的“惊险跳跃”式证明。传统的证明方法中,证据与待证事实之间应当是一一对应的,即证据必须覆盖全部待证事实。

 

我国《刑事诉讼法》第55条规定,“证据确实、充分”的三项要求中的前两项就是定罪量刑的事实都有证据证明,且据以定案的证据均经法定程序查证属实。证据法理论认为,除非证据不相关、多余的或者其副作用会产生过多的烦扰、支出或延误,否则就应当聆听每一个人,采纳每一个事物。抽样证明的方法实质上是将部分证据排除出了法官的视野。

 

但是与适用排除规则不同的是,这些证据却又可以作为定案根据,这样未被取出作为样本的证据相当于未经审查即被采用。这种做法是否符合《刑事诉讼法》的前述要求,是否实质降低了证明标准,需要严谨论证。

 

令人担忧的是,当前刑事诉讼法学界对抽样证明的研究仅局限于以随机抽样为原则的具有鉴定性质的概率抽样调查,而对近年来司法解释中确立的不要求抽样随机性的非概率抽样调查缺乏关注。

 

这两种证明方式在证明机理和程度上存在重大差异,运用概率抽样证明的理论解释非概率抽样证明很可能导致案件事实认定的错误,因而理论界必须针对不同的抽样证明类型分别予以探讨。

 

二、刑事抽样证明的类型补正

 

在统计学中,传统的抽样调查仅指的是概率抽样,或者说是随机抽样调查。但此种方法弊端明显,即对调查方案和操作的要求相当严苛。在司法活动中,严格意义上的概率抽样调查通常只限定于实验性质的检验鉴定活动,难以适用于对海量证据的调查。

 

为了克服上述问题,统计学发展出了广义抽样调查理论,引入了不以随机性为基础的非概率抽样调查。近年来面对海量证据时,无论是从中央到地方的规则制定还是司法实践的做法均带有非概率抽样证明的特征,然而诉讼法学界却尚未对此种证明方式展开研究。

 

(一)概率抽样证明的实践应用

 

在概率抽样调查中,每个抽样单元被抽中的概率即便不是完全相等,至少也是被预先设定的。概率抽样在抽取时完全排除人的主观影响,以使得每个单元都有一定的概率被选中。相比于非概率抽样证明,刑事诉讼法学界对概率抽样证明已经有了一定的认识,但是仍然有诸多问题亟待学理的纠偏。

 

概率抽样已经在刑事诉讼中有所应用,比较典型的概率抽样法如简单随机抽样、等距抽样和分层抽样在实践中均有涉及。概率抽样是抽样调查的理想状态,其理论基础和适用条件均十分严苛。

 

在抽样时为了完全避免主观因素的介入,理论上应当采用抽签或随机数等方法进行抽取,这就需要制作容纳所有抽样单元的抽样框,而这个要求在实际应用时很难完成,这也极大限制了概率抽样证明的运用范围。

 

在已有对概率抽样的研究中,毒品犯罪被视作运用抽样方法数量最多的案件。毒品的抽样在实践中遵循随机原则,这些抽样也隐含着通过检验样品对总体的估计和判断,在一定程度上也具有概率抽样证明的属性。但与知识产权、食药安全等案件中的抽样证明不同的是,这里的抽样没有严格意义上的抽样单元,甚至是排斥人为设立单元的。

 

这类检验将检材尽可能混合,最大限度上使所有证据拥有同质性,这样检测结果也更具代表性。譬如在毒品案件中,鉴定人员将疑似毒品的颗粒粉碎后混合均匀再进行取样检测,得出海洛因含量为30.17%。

 

除了毒品样品的鉴定外,对环境污水样品、有毒水样等检验,以及实践中普遍使用的抽血或吹气检测酒精浓度、采尿检测毒品含量等做法也是此意义上的抽样取证。此类抽样在通过样本推断总体时通常不运用统计学的方法,只需要确认样品的状况进而直接对行为人或物品的状态进行评价和定性即可。

 

这里的“抽样”强调的更多是一种取样方式,而不是证明方法。因此,毒品案件的抽样取证不属于本文所指称的一般意义上的抽样证明,多数学者不加区分地将毒品案件作为抽样取证的最主要犯罪类型是值得商榷的。

 

排除带有检测鉴定性质的混合抽样之外,实践中的概率抽样不仅实质无法对证明带来增益,即便在形式上都难以满足条件。司法实践中所谓的抽样证明都没有公开说明随机抽取的方法和过程,并且在样本选取的比例上也存在严重缺陷。

 

例如,在张某某侵公民个人信息案中,侦查人员声称进行了两个概率抽样调查,第一个是从73280条个人信息数据中随机抽取7条,证明公民个人从未出售或赠与个人信息,即被告人系非法获取个人信息;第二个是从112个电子文档中分别随机抽取一个数据,通过公安网证明信息的真实性,这属于概率抽样中的分层抽样方法。

 

然而,该案中的概率抽样效力是微乎其微的。从7万多条信息中随机抽取7条比例为0.01%,核实反馈的甚至只有3条,这个极低比例的样本证据不可能单独对总体情况产生任何有效的证明。即便是案例中的分层抽样,122个样本对于庞大的总体来说也是杯水车薪。

 

(二)非概率抽样证明的学理引入

 

现实中满足概率抽样的情形少之又少,绝大多调查都运用到非概率抽样的方法。非概率抽样又称为非随机抽样,指的是根据研究任务的要求以及对研究对象的分析,带有主观因素地选取样本。

 

虽然非概率抽样不能从数量上直接推断总体,但是也能部分反映总体特征,其样本量问题、估计量的估计问题都是借鉴概率抽样模型的。更重要的是,非概率抽样具有方便、高效、易操作、适配性强等特征,很容易受到调查人员的青睐。

 

从理论上看,非概率抽样主要有两种类型,一种是方便抽样法,另一种是判断抽样法,此外还可能运用到配额抽样、雪球抽样等方法。方便抽样又称为就近抽样、偶然抽样或意外抽样等,顾名思义就是根据调查者的便利与否来抽取样本。

 

在涉众型电信网络诈骗案件中,侦查人员只选取主动报案且积极配合的受害者进行取证,就属于方便抽样。判断抽样又称为专家抽样、目的抽样、立意抽样,即由调查人员根据主观意愿、专业知识、过往经验等从总体中选取具有典型代表的样本作为调查客体。例如浙江省规定:“对被害人进行抽样取证,应该重点选取被骗资金量大、空间距离相对较近、被害特殊群体、已经报案或涉案方法有代表性的被害人作为证据样本。”

 

2014年《关于办理非法集资刑事案件适用法律若干问题的意见》(以下简称《非法集资意见》)第6条提出,如果确实因为客观条件限制无法逐一收集参与集资人员的言词证据的,可以结合已收集的证据综合认定人数和金额。

 

2016年《关于办理电信网络诈骗等刑事案件适用法律若干问题的意见》(以下简称《电信网络诈骗意见》)第6条第1款规定,在电信网络诈骗案件中,对于人数众多的被害人无法一一核实的,可以结合已收集的被害人陈述,以及已查证属实的其他证据材料综合认定被害人人数及诈骗资金数额等涉案事实。

 

尽管有学者断言该规定明确了抽样取证的工作规则,但实际上该规定并没有直接认可证据抽样,只是规则背后的含义似乎接纳了抽样证明的方式。鉴于此类网络数据和信息的海量性,如果这种证明方法成立抽样证明,应属于非概率抽样证明范畴。

 

实践中司法人员对非概率抽样证明方法的运用同样乱象丛生,审判人员在认定事实的过程中时常没有考虑抽样方法的科学性。

 

比如,在郭某等假冒注册商标案中,被告人对指控销售假冒某款手机数量持有异议,提出淘宝交易记录中存在通过邮寄空包裹刷信誉的不真实交易,这部分不应计入销售量当中。法院认为,各地公安机关调查的885部假冒手机买受人的证言及其提供的购买的假冒三星该款手机照片,均反映没有刷信誉的交易,而公安机关调查的885部假冒手机买受人分布在全国各地,具有一定的抽样调查效力。

 

在三位被告人没有证据证明存在刷信誉的情况下,对其该辩解不予采信。各地公安机关对885部手机的调查属于非概率抽样调查,但是这种调查并不能科学地说明除了这部分手机之外的其余手机的情况。

 

由于侦查机关选取的调查对象一般相对集中,可能没有选中虚假交易的部分。并且刷信誉部分的销售记录有极大可能因为填写了虚假的联系方式,导致调查时被误认为买受人联系不上,而作为抽样单元“无回应”予以排除。所以,以此方法进行抽样调查的结果是存在极大风险的。

 

三、刑事抽样证明的位阶次序

 

如果从总体中抽取的样本相同,且不考虑其他外部证据的情况下,概率抽样的证明程度高于非概率抽样,前者可以达致更高的证明标准。以随机抽取为原则的概率抽样之所以在反映总体特征时更具可信性,是因为概率抽样证明的结果拥有多个数理定律作为支撑,而非概率抽样在突破随机原则的同时也就失去了这种数理的“加持”,其结果掺杂了人为主观干预的因素。

 

抽样证明在刑事诉讼中的运用具有较大风险,因为即便侦查工作十分严谨,排除了非抽样误差,也无法避免抽样误差的存在,这是抽样证明固有的问题。因此,抽样证明方法不能成为刑事司法证明的常规手段,应坚持最后手段原则。在此可以考虑引入审批手续,只有在逐一核实证据不可能完成或逐一核实证据行为本身对证明产生的价值远低于逐一核实所带来的时间、金钱、效率的损耗时方可启用。

 

(一)数理基础差异

 

概率抽样的证明机理主要涉及两个原理,一个是大数定律,另一个是中心极限定理。

 

前者奠定了用样本估计总体的理论基础,而后者则奠定了用样本估计量对总体参数进行区间估计的理论基础。大数定律又称为平均数定律或大数法则,其含义就是随机事件的规律性只有在大量观察中才能显现出来,随着观察次数的增加,随机影响将相互抵消从而使得规律性具有稳定的性质。在进行充分大规模抽样后,抽样平均数和总体平均数之间的离差可以达到任意小,这一可能性的概率可以极限接近于1,即实现完全的精确性。

 

中心极限定理的基本含义是当随机变量的数量充分大时,一组独立同分布的变量之和或平均值近似呈正态分布,这是大样本统计和推断的理论基础。这里需要满足两个要求:第一,样本必须是随机抽取的;第二,抽取样本数量应当足够大。不过,办案机关在应对海量证据时能组织同时满足这两个条件的抽样调查少之又少。

 

非概率抽样调查并非按照随机原则抽取样本,事先每个单元的入样概率是未知的,因而调查人员的主观意志在抽样过程中发挥了较大作用。在刑事案件调查中,除了具有实验性质的检测鉴定等特定事项外,其他调查中严格的概率抽样几乎不可能实现,因为调查对象不确定或总体边界不清将导致调查人员无法制作抽样框,即便有实现的可能也会因为数量庞大等原因不具有可操作性。

 

由于非概率证据抽样不是严格遵照随机抽样原则进行样本证据的抽取,难以保证样本的代表性,因此失去了大数定律的数理基础,从而无法确定抽样误差,也就不能正确地说明样本的统计值在多大程度上适合于总体。

 

在非概率抽样调查中,办案人员通常主观性地选取最容易接触到的、最友好的、对调查工作价值最大的单元入样,造成总体中很大一部分单元没有被选取的机会,而这些未选取的单元与被选取的单元之间很可能存在系统性差异。非概率抽样不仅会使抽样的结果出现偏差,并且调查人员在抽样过程中很有可能带有排除极端值的倾向,有意选择具有平均特征的单元,人为地减少总体中明显的变异性。

 

非概率抽样属于模型抽样的范畴,所谓模型抽样指的是基于对抽样总体中变量分布的广泛假设而采取的一种抽样方法,这种与概率模型严格假定迥异的广泛假设一般被称为超总体假设。侦查人员在办案过程中会对总体的情况进行预测,例如假定收集的文档信息中记载的都是被非法获取的公民个人信息,进而依照此假设进行抽样验证。

 

然而审判中囿于无罪推定原则,裁判者不能以此假设为逻辑起点认定事实。在庭审中,控方本就负有证明被追诉人是否实施了犯罪行为的证明责任,这样控方就失去了模型抽样中假设的前提基础,运用非概率抽样证明就成了无源之水的循环论证。在这种情况下,公诉机关只能先借助其他证据对这种假设进行综合证明,再运用非概率抽样方法辅助证明待证事实。

 

(二)证明程度差序

 

就方法而言,在不考虑超总体假设强度的情况下,非概率抽样证明在程度上低于概率抽样证明。通常来说,运用抽样方法获得的证据其证明程度与抽样的随机性成正比。对于同样的证明对象和证明要求,采用概率抽样方法的一方在证明程度上相较选择非概率抽样的一方是具有优势的。

 

不过,在个案中抽样证明的程度如何还需要具体问题具体分析。比如,有的非概率抽样调查虽然因为客观条件限制没有严格执行随机原则,但调查者在抽取时并未施加明显的主观倾向,此时非概率抽样方法并不会对证明程度造成太大减损。

 

抽样证明的证明程度还与样本的容量有关,样本容量的大小与证明程度的高低成正比。如果非概率抽样调查抽取的样本比例足够大,乃至接近于1,也可以十分准确地反映总体的特征。

 

如果概率抽样只抽取了10%的单元进行调查,而非概率抽样涵盖了90%的单元,则不能认为概率抽样调查的证明程度高于非概率抽样调查。在面对海量证据时,非概率抽样调查几乎难以达到上述程度。

 

裁判文书网所载具有非概率抽样证明属性的调查样本比例都相当小,其证明力大多可以忽略不计。现实中侦查人员很多时候了解到的只是一些个别和零散的事例,这些事例只能算作轶事证据而非观察研究和规范的实验。

 

这些看似有关联的事件是兼具极大的启发性和误导性的,其对总体待证事实的证明程度是微乎其微甚至可以忽略不计的。英美法系法官认为,即便在民事诉讼中轶事证据也不具有可采性。如果是建立在观察研究和规范的实验上的非概率抽样证明,其证明程度如何则需要裁判者进行内心的衡量。

 

相比之下,基于规范实验的概率抽样证明具有较高的证明程度,如果具备科学的样本容量,这种证明可以达到优势证据标准。但是由于抽样证明本身是一种模糊证明,存在无法避免的误差,因此要达到排除合理怀疑的证明程度需要具备相当高的入样比例,这在司法实践中也很难实现。在此需要澄清的是,抽样统计的结果与证明程度具有一定的关联性,但不能简单地将二者等同视之。

 

英美证据法学家对各种证明标准应当对应的可能性概率进行了分析,例如边沁就倡导运用数学方法合理精确地对说服程度和证明力程度进行度量、表述和定级。概率论进路的典型表述认为“优势证据”就是大于0.5的概率,而“确信无疑”则是0.9或者更高的概率,“清晰且令人信服的证据”则是介于这两个标准之间,其概率一般设定为0.75。但是,这种总体的概率性描述与抽样结果的概率不能等同。

 

例如500张音像制品中有450张为侵犯著作权的音像制品,比例高达90%。但是不能就此认为这500张音像制品均为盗版的可能性达到了90%,因而达到排除合理怀疑的标准,进而认定为侵犯著作权罪。抽样得出的概率其目的在于推算出总量,并对预测为不属于非法物品的部分予以扣减。

 

质言之,这里至多只能认定450张为盗版音像制品,因而在数量上仍然达不到500张的入罪标准。从另一个角度看,如果遵循司法证明的原子主义的进路,若是抽样结果显示盗版音像制品的比例为90%,意味着随机抽取总体证据中的每一个音像制品其为盗版的概率为0.9。但是,不能据此推定每一个单元都为盗版的概率也为0.9。根据乘法规则,两个单元均为盗版的可能性为0.81,三个单位均为盗版的概率为0.729,依次递减。所以,不能因为抽样结果的概率较高就将其直接应用于整体的评价。

 

总之,用抽样的概率推断是否达到排除合理怀疑的方法是不可取的,在检测鉴定类型的抽样调查中,该数据只能用于推算总量中同类单元的数量多少。

 

(三)证明对象区分

 

如前所述,概率抽样证明虽然不易达到定罪证明标准,但是可能达到相对较低的证明标准。理论界认为,刑事诉讼中控方对量刑、财物、程序等事实的证明在一些情形中不需要达到定罪证明标准,仅需要达到优势证据标准即可。因此,这些事项的证明是概率抽样证明独立应用的主要场域,比如对违法所得数额的认定等。

 

根据抽样结果的比例对量刑予以相应扣减的思路在司法实践中已经有所体现。在彭某等侵犯公民个人信息罪案中,侦查机关随机抽选50条信息进行真实度核实,信息不对或空号12条的情况,大致占比24%。法院在回应辩方的质疑时指出:“关于涉案信息中可能存在部分不真实信息的情况,本院在量刑时将酌情予以考虑。”不过遗憾的是,法院并没有给出该因素对量刑的影响幅度及其计算方式。

 

在非概率抽样证明中,调查者对所选取的较大比例的单元进行分析后可以预测总体的特征情况,但是在绝大多数情况下,这种估计和推测与完成司法证明相去甚远。非概率抽样证明中样本和总体之间的联系具有较高的不确定性,因而在刑事诉讼中控方原则上无法单独将非概率抽样证明运用在不利于被追诉人的指控中。但是,此种方法在辩方进行无罪或罪轻辩护时却存在较大的应用空间。

 

在陈某某等非法吸收公众存款案中,检察机关根据专项审计报告,被告人银行账户明细,已报案的1626名集资参与人言词证据、资金结息凭证等证据,综合认定原审被告人向2306名公众借款金额8400余万元。

 

但辩方提出,按照统计数据的顺序,通过对已报案的180名集资参与人证言、相关知情人证言及集资参与人提供收款收据等进行综合审查,发现仅这180名集资参与人中就有多达28名集资参与人所确认的集资借款数额与报告统计的数额明显不一致。法院认为该报告存在部分统计数据与其他在案证据不能相互印证的情形,根据证据采信有利于被告人的原则,法院对未报案人员的指控数额不予认定。

 

从本案中可以看出,非概率抽样证明对辩方来说是一个相当便捷的工具,可以较为轻松地实现证明目的,但对控方来说仍然是一个沉重的证明负担。在此非概率抽样当中,虽然样本证据与总体之间的联系显著低于概率抽样,但只要这种微弱的证明力引发了裁判者的合理怀疑,或者动摇了控方的证明基础,也可以达到证明的效果。这里出现不同的结果并非概率抽样的结论的可靠性有所增加,而是法律基于政策考量在控辩双方中进行证明责任分配的规则使然。

 

四、刑事抽样证明的内部认定规则

 

抽样证明的证明程度与统计学原理紧密相关,在证据法中只要调查是根据社会科学家和统计学家所接受的原理来集分析数据,这种证据一般就具有可采性。但是必须认识到,诉讼证明过程的目的不在于阐释技术原理,而在于依照刑事法律规定的标准实现证明犯罪事实的诉讼目的。因此,必须将抽样证明内部的统计学原理转化为证据法的表达方式进而运用于实践中。

 

当前司法人员对抽样证明的态度存在两种倾向:一种是在抽样程序不规范、样本容量极小的情况下草率地予以认定;另一种则是尽管实验设计和操作相当规范,仍旧不认可通过抽样方法证明的事实。因此,有必要为抽样证明设置证明规则,一方面减少抽样证明错误的可能性,为抽样证明在刑事诉讼中的运用划定准入标准,另一方面则是在条件满足的前提下打消法官疑虑,让其敢于采信相关证据。

 

所以,这种证明规则不仅是限制性规则,更是促成性规则。抽样证明中,只有概率抽样证明具备生成具体规则的可能性,而非概率抽样具有不可精准测量的性质,无法根据科学定理以及经验和逻辑法则划定普遍适用的标准。

 

(一)推定规则的设置

 

“当用自然科学的知识可以确定事实时,此时法官的心证即无适用之余地。”更何况抽样证明的证明程度是不确定的,即便具备统计学等专门知识,对于抽样证据往往也难以判断。由于非概率抽样证明具有多样性,无法制定适合多数情况的统一标准,但是概率抽样是可以运用规则尽可能确保其处于较高的证明标准之上。抽样证明之所以不易衡量主要原因在于法官不能确定多大的样本容量足以反映总体待证事实的特征,可以认为达到了刑事诉讼的证明标准。

 

因为这首先是一个技术性或统计学问题,同时也是一种政策性的考量。设定何种样本容量以及划定何种程度的置信区间需要经过科学的论证并获得一般经验的支持。将这种标准一概交由司法者裁量是不可取的,让法官仅凭未经验证和考量的直觉作出决定十分危险,所以法律有必要对抽样证明设定推定规则,以减少证明错误。

 

在刑事抽样证明中,统计误差是造成案件事实认定错误的常见因素。抽样证明中的误差包括非抽样误差、抽样误差等。

 

非抽样误差指的是在抽样调查过程中出于人为因素造成的误差,又可以分为代表性误差和登记性误差。代表性误差包括指标含义不清、问题具有诱导性、没有严格遵守随机原则、抽样框不齐全、选取的单元具有倾向性、被调查者不配合或虚假回答等。登记性误差则指的是在记录、汇总、计算、誊写调查数据资料时出现的差错。非抽样误差是可以通过改善工作方法予以避免的,而还有一种不可避免的误差是抽样误差,即因抽样的非全面性和随机性所引起的偶然性误差。

 

由于抽样调查只测试样本单元而没有观测全部的总体,因此即便排除了所有偏差所带来的影响,用样本的统计量估计总体参数也会不可避免地产生抽样误差。

 

减少抽样误差的主要途径有:

 

第一,有限扩大样本容量。如果样本容量等同于总体容量,则抽样误差就为0,但需注意样本容量的增加可能使得非抽样误差增加。

 

第二,选用合适的抽样方法。不同的抽样方法的抽样误差是有区别的,通常来说不重复抽样的误差小于重复抽样。

 

第三,选取恰当的样本组织形式。例如,简单随机抽样的抽样误差小于整群抽样,在条件允许的情况下可以优先使用。在为抽样证明设置推定规则时应当考虑到以上三项内容,提出兼顾公平和效率价值的方案。

 

对于抽样证明而言,如何确定样本的大小总是一个令人棘手的难题。在具体个案中,样本大小的选取需要综合各项情况确定。最理想的样本数量需要考虑统计需要达到的精确程度、总体的变化程度、分析检验变量的个数等。

 

相比之下,非概率抽样需要的样本数量大于概率抽样。非概率抽样得到的大样本,以及通过较差抽样框得到的大样本,其代表性一般弱于概率抽样和通过较优抽样框得出的小样本。

 

确定样本大小存在两种路径,一种是在个案中运用专门的统计学方法研究对总体作出的假设以及抽样过程采用的统计方程。但是这种路径在判断上涉及复杂的统计学理论,且运用方法可能存在诸多技术上的争议,每个案件均交由司法机关裁量并不现实。

 

第二种路径则是依照经验法则,根据以往积累的成熟、可靠经验确定样本规模。后一种路径是适合司法证明的,因为这降低了证明的成本,提高诉讼效率,并且不需要动用艰涩的专门知识。

 

确定抽样比的基本原则是总体的大小与抽样比的大小成反比,即越小的样本需要越大的抽样比。当总体数量增加时,样本数量的多少对精确性的回报随之递减。

 

而对于小样本来说,样本数量少量的增加就会在精确性上得到重大收益,比如样本从50个翻一番就会使误差从7.1%降至2.1%;而从1000个增加一倍误差只是从1.6%下降到1.1%。遵照经验法则,对于1000以下数量的较小总体,抽样比例可以确定为30%;对于1万个数量左右的总体,大致需要10%的抽样比就能达到同样准确的结果;对于15万以上较大的总体,只需要1%左右的小额抽样比即可;而对于数量巨大的总体,如达到1000万以上,则仅需要极小的抽样比,比如设定在0.025%。

 

此时,2500个样本就可以得到相对准确的结果,因为当每个单元入样概率极低的时候,总体的数量有多么巨大对结果的准确性影响也极为有限,增加样本的投入带来的回报也急剧减少,甚至趋于零。抽样比参考值的设定如下图所示: 

 

在有限的研究中,已有有学者主张,“刑事抽样取证本质上是刑事推定的完整表达”,还有学者甚至将抽样取证直接定义为推定证明方法。然而,抽样方法本身不能等同于推定方法,是否允许推定规则的存在是立法技术上的考量。所谓推定就是从一系列给定的事实中得出结论,生成推定规则首先要明确基本事实。

 

推定规则的构建应当确定可以采用的抽样方法和样本组织形式,在此基础上给定样本容量。如果满足预设的条件,可以在特定情形中推定概率抽样的样本证据和统计证据足以证明总体的特征,推定提出证据的一方已经初步完成特定事项的证明负担。

 

一些司法解释、行政法规已经对司法鉴定类的抽样的方法进行了规制,意在减少抽样误差。如果未遵守规定进行抽样,可以推定为样本不具有代表性,对采取抽样方法认定的结果不予采纳。

 

比如,《假冒伪劣卷烟鉴别检验规程》第4条第2项对卷烟的抽样方法、数量进行了详细的规定,如果严格执行该规程,则可推定样本在行政程序中足以反映总体的情况。刑事诉讼规范可以参照此类标准,按照统计学的原理设定严格的推定规则。不过,这种推定的适用范围应当被严格限定,仅限于前文圈定的证明对象。

 

为刑事抽样证明配备的推定规则并非强制性的,而是裁量性的,仅为事实认定者提供指引和权衡的依据。强制性的证明力规则是不允许自由裁量的,这是盖然性经验法则的固定化和绝对化,忽视了这种盖然性隐藏的错误风险。

 

对概率抽样证据的推定是可以运用证据推翻的,对概率抽样的推定在司法实践中也是易受弹劾的。例如,控方或辩方可以提出抽样方法不当、抽样数量过小、样本被污染或替换等理由。

 

所幸的是,概率抽样的重复验证相对容易,只要严格遵循抽样的要求,其结论一致的可能性较高。办案机关可以对已经核实的统计结果进行显著性检验,通过寻找效应证据评估某项未知参数断言是否成立。例如,提取的数据是否均包含受到侵犯的公民个人信息,或者电信网络诈骗犯罪受害人比例是否为95%,等等。

 

(二)底线证明规则的肯认

 

在对定罪事实的证明上,即便是概率抽样证明方法都难以独立完成。因此,除了刑法中规定的空白罪状,需要依照行政法律规范认定的事实外,抽样证明不宜作为定罪事实证明的手段。司法机关在面对难以逐一核实的海量证据时,对定罪事实仍然应当坚持“底线证明”的原则。

 

所谓底线证明又被称为“低限证明”原则,就是在定罪量刑时运用证据精确地认定事实中的数额或数量指标已经达到法定的入罪和加重处罚的最低限度“门槛”,至于在多大程度上超过了最低标准则仅需要概要性的证明或展示即可。

 

例如,《电信网络诈骗意见》第2条第4款规定,如果犯罪数额难以查证,则发送诈骗信息5000条以上的,或拨打诈骗电话500人次以上;在互联网上发布诈骗信息,页面浏览量累计5000次以上,可以认定为情节严重。倘若要认定被追诉人实施的行为属于情节严重,所指控事实中的5000条、500人次、5000次的数量必须得到精确的证明。

 

该意见还规定,数量达到以上相应标准10倍以上的数额,则构成“特别严重”。这一事实是对被告人的加重处罚情节,因而必须遵循严格证明的原则,应当尽可能不独立适用抽样证明方法。而对于与量刑有关的数额认定,可以有限地引入抽样证明方法。

 

有论者对底线证明方法提出质疑,认为该规定中情节特别严重涉及的诈骗信息量、浏览网页量均达到了50000条(次),数量巨大,底线证明方法无法解决信息是否真实和重复的问题,提倡引入抽样取证方法。也有学者以“一元红包木马诈骗案”为例,提出底线证明方法没有考虑到网络犯罪“小额多笔”的特点。

 

但是,法律从未要求公诉机关必须收集每个被害人、证人的言词证据方可认定数额,在这些案件中控方完全可以运用收款记录、程序算法等多种信息认定事实,无需动用抽样证明。立法者和法律解释者在规定数额标准时已经考虑到了实践中的证明问题,通常将其控制在具有可操作性的水平上。因而对于此类事实,司法机关不宜轻易降低证明的精度。

 

在如何估计总体数量和比例时,同样应当遵照底线证明规则。概率抽样调查中,如何估计总体特征存在两种形式:一种是点估计,又称为定值估计,还有一种是区间估计。前者是根据抽取的样本情况为根据,直接依据所选择的估计量对总体的指标进行确定值的估计;后者则是以点估计为依据,用一个具有一定可靠程度的区间范围对总体指标进行估计。

 

依照单一的随机样本估计的结果存在较大的偏差风险,而多次抽样的结果通常会稳定在一定的范围之内。比如第一次抽样得出盗版图书占总量的比例为80%,通过多次抽样则会得到一个样本比例的分布数据,围绕某个中心值上下波动。调查者会根据需要确定置信度,经过专业的统计学计算,研究者可以得出一个置信区间。

 

例如选取最为集中的95%的数值对总体指标进行区间估计,即可以观察到95%的数值均落在某个区间当中,这样就可以说该数值的区间具有95%的置信度。将样本的比例扩大到总体需要承受一定的风险,如果在置信度很高的情况下置信度保持在很小的区间内,则通过样本得出的比例具有相当的准确度。

 

在刑事诉讼中,调查人员为提高准确度用多次抽样取代全案一次性抽样或其他主体对先前数据进行抽样验证时就需要运用到置信区间的估计。根据事实认定中的存疑有利于被告人原则,控方在用样本推断总体时,至少应当选择较高的置信度并且选取置信区间的下限作为计量的标准。

 

在非概率抽样调查中,也应当坚持“就低不就高”的原则,而且只有在推算数值远大于法定标准的时候才能认为已经完成了证明,至于具体的数值则取决于证明标准的高低。

 

譬如,《电信网络诈骗意见》允许在对发送诈骗信息和拨打诈骗电话数量的认定中根据经查证属实的日拨打人次数、日发送信息条数进行综合认定。这种证明方法属于典型的非概率抽样证明,因为挑选哪个日期进行推算是出于已经掌握的记录,并非基于随机抽取原则。

 

诈骗短信和诈骗电话的每日拨打和发送量是参差不齐的,不仅可能随着从事时间和团伙规模的变化产生显著差异,也可能由于其他客观事件导致数量出现明显波动。在推算时却不宜以抽样数据的平均数为基础,如果以最低数值为基数乘以实施犯罪天数仍然超过法律规定的数量标准,则一般可以认定相应的情节。

 

五、刑事抽样证明的外部认定模式

 

科学规范的概率抽样方法可以在很大程度上依靠内部的统计学原理独立证明总体的待证事实,而非概率抽样证明本身难以对总体产生足够的证明力,从而更多依靠外部证据进行综合认定。非概率抽样证明在此仅起到辅助证明的作用。相比于围绕统计学原理设计的内部认定规则,外部认定模式的构建需要更多地以证据法理论为根基。

 

(一)印证证明模式之困境

 

我国刑事司法实践中法官在认定事实时通常追求证据间的相互印证,有学者谓之“印证证明模式”。在抽样证明的结果可能受到挑战的情况下,司法人员习惯于寻求其他证据的印证,如犯罪嫌疑人供述、银行账户交易记录、会计账簿等。

 

在这种证据间的相互关系中,与其他外部证据构成印证关系的是整个抽样证据,具体来说包含用于证明总体待证事实的样本证据、统计证据等。抽样证明内部的证据,如物证、鉴定意见、抽样取证笔录、抽样取证证据清单、分析报告等,因不具有独立的信息源,互相之间不构成印证关系。

 

科学和规范的概率抽样证明,其自身拥有独立的证明力,不仅足以与犯罪嫌疑人供述等其他证据完成印证证明,满足口供补强的法律要求,还可以不适用印证规则独立证明总体待证事实。而实践中大量的非概率抽样证明与外部证据则难以称得上相互印证。印证成立的前提是两个证据之间均有足够的证明力,皆为可采纳和采信的证据,而绝大多数非概率抽样证明中的样本证据对总体证明对象产生的证明力微乎其微。

 

证据间相互印证的前提是在多份证据在所含事实信息方面出现了重合或交叉,或者说证据内含的信息具有同一性时,因此这种非概率抽样证明只能在样本证据范围内与其他证据相对应的部分形成印证关系,不能对其他部分事件发生的可能性提供有效增益,自然也不能在总体范围内构成印证证明。

 

例如在一起非法吸收公众存款案中,被告人辩称“鉴定意见书统计的人数错误,公安机关核实的才280人”,但法院认为:“侦查机关由于客观原因仅对280名集资参与人进行了调查,并未全面对每一名集资参与人进行询问,符合司法解释规定。结合司法鉴定报告及证人证言,可以认定会员人数是1254人。”

 

可是,无论是鉴定报告还是证人证言,其证明的对象都仅限于涉及280名集资人员的犯罪事实,从裁判文书中没有看到其他证据可以印证该部分以外人员的涉案事实,因而严格来说难以认为该案中控方完成了对所有参与集资犯罪事实的证明。但是如果侦查人员可以说明核实的280人是经过严格的随机抽样产生,经过核实均为集资参与人员,则一般可以根据抽样证明的效力可以覆盖到1254人的参与集资事实。

 

由此可见,印证证明模式在面对抽样证明时往往陷入困境,具有推定效力的概率抽样方法可独立证明待证事实,并且这种科学实验的意见专业性强、稳定性高,不必强求其他证据的印证。而对于零星的非概率证据抽样来说,其本身的证明力不足以及于总体待证事实,且潜藏较大风险,无法在总体范围内与其他外部证据相互印证。因此,在无法逐一核实证据,且又不具备概率抽样条件的情况下,如何认定总体事实是规则制定者需要解决的难题。

 

(二)综合认定模式之剖释

 

如前所述,《非法集资意见》和《电信网络诈骗意见》均对上述情形中人数、数额等有关定量事实的证明确立了“综合认定”的模式。这些规定均简要地提出应当结合其他证据综合认定受害人数和涉案金额,但对如何理解和运用这种方法却几乎未置一词。

 

如果办案机关无法逐一核实被害人或集资参与人,仅依据部分核实的结果证明总体人数,则构成了非概率抽样证明。然而实际上,上述规定并没有认可非概率抽样证据对总体事件的充分证明力,而是提出可以依据书面合同、银行账户交易记录、第三方支付结算账户交易记录、会计凭证及会计账簿、资金收付凭证、审计报告、电子数据、通话记录、证人证言等证据材料综合认定受害人数和涉案金额。

 

换言之,如果除了被害人陈述或参与集资人员言词证据之外的其他证据已经足以认定检察机关指控的全部犯罪事实,达到证据确实、充分的程度,则不硬性要求侦查人员逐一询问涉案人员和被害人。在此情形下,未收集的言词证据在证明中只属于“锦上添花”,即使裁判者不将未收集的言词证据纳入考量范围,也可以认定犯罪事实,这样适用该规则认定整体的人数和金额不存在争议。

 

边沁认为,理论上2000名证人和第一个证人的证言应当相加起来作为说服程度的总量,但这除了会导致费用、烦扰和延迟之外,其回报会急剧降低,并且还会造成其他不希望出现的结果。所以,如果已有的证据已经达到或超过了法定证明标准,则收集运用多余的证据进行证明不符合功利主义原则。

 

如果从这个角度理解前述规定,那其仅具有指引性,这里并没有创设额外的证据规则,因为即便没有该规定,裁判者只要达到刑事诉讼证明标准也可以认定前述事实,法律并没有强制要求法庭上必须出示被害人等人员的言词证据方可定案,否则该制度将沦为法定证据制度。所以,在法律和司法解释没有明确肯认非概率抽样方法的情况下,不能将这里的“综合认定”解释为通过非概率样本完成对总体的证明。

 

如果调查人员没有将非概率抽样样本情况作为证明总体待证事实的证据使用,自然不会引发争议,但是这些部分核实的证据在诉讼证明中价值几何,与总体证明对象之间的关系如何界定应当予以明确。侦查人员和司法人员在审查和认定抽样证据时通常无所适从,在说理论证时往往闪烁其词,即便知晓这种证明方式可能不足以认定全部事实,也希望至少能运用个别证据为总体事实的证明增添“聊胜于无”的证明力。

 

从办案机关的角度来看,调查人员在面对海量证据时,必然不满足于对个别孤立事实的证明。如果说办案机关耗费大量资源调查核实的相当数量证据对总体待证事实的证明毫无意义,也是不合实际的。

 

从抽样调查内部来看,目前统计学理论中存在三种应对非概率样本推断的路径:其一,通过对样本的补充或再加工,将非概率样本调整为近似于概率样本的状态;其二,通过事后构造权数对非概率样本进行调整;其三,基于超总体模型进行估计。

 

第一种方式在涉众电信网络诈骗案件的电话调查等场景中可能存在少量的应用空间,比如通过单元匹配的方法,寻找与目标样本对象相似的成员进行匹配,进而采用概率样本的统计推断理论进行推断。但无论何种方法都需要足够数量的入样样本,在刑事诉讼程序中基本上不存在可操作性。

 

特别是后两种方法均需要运用十分专业的的权重构造和模型刻画,且对包含海量数据的非概率样本推断正在深深困扰着统计学界,对这种样本推断的理论研究还处于初步探索阶段,学者们尚未给出较为理想的解决方案。简言之,这种推断证明方法的程度距离刑事诉讼的证明标准仍然“差之千里”。

 

综上,非概率抽样证据对总体待证事实一般不具有独立和充分的证明力,即便在口供补强中,理论界主张仅需要对口供进行“稍加证明”的补强即可,也不能认为采用非概率抽样方法获得的证据可以在证明范围和证明力上满足这种补强的要求。非概率抽样证据的证明力主要并非来自抽样证据内部,更多应当结合外部证据综合考量。

 

在刑事诉讼中,非概率抽样证明主要被运用于对其他证据的验证,比如对已经查获的销售记录、银行转账记录等证据进行核实。如果外部证据提供的假设足够清晰,对样本情况可以进行十分准确的估计,比如所有单元的特征一致。

 

那么通过非概率方法对选中的部分内容进行验证,或者对其中一些关键节点进行核实,可以在整体上对总体的假设提供一定的支持,即便这种增益在理论上说十分微弱。在此,样本证据是对外部证据的一种补充,辅助其完成对总体待证事实的综合证明,二者不构成对等的相互印证关系。

 

综合认定的方法与前述底线证明规则并不冲突。单就抽样证明内部而言,抽样方法所能供给的证明力仅足够支撑低限事实的证明。但是如果考虑其他外部证据且充分运用“叙事”和“法则”,当然容许法官从“综观式验证”的角度出发在符合情理常理的情况下在较高标准上综合认定相关数额。

 

结 语

 

在大数据时代,调查者需要处理各种总量巨大、结构交错、相关性复杂的数据。相比于概率抽样调查,非概率抽样在侦查工作中具有更广阔的应用前景。

 

究其原因,一方面数据数据具有海量性、多样性、非结构性、高速易变性等属性,这使得抽样框的制作几乎成为不可能,也难以计算入样概率,而且处理网络信息时调查者遇到的“无回答率”大幅上升;另一方面,大数据下的信息多元化为非概率抽样的模型构造提供了巨大的便利。

 

随着数据分析能力的提升,采取专业方法从“局部思维”出发运用观测到的样本数据构建模型对未观测到的总体单元目标变量进行预测,继而对总体进行刻画,可以对事实发现提供线索和依据。在此,非概率抽样得到的部分信息可以在模型中获得一席之地,为结论的产生提供不同的信息元素。

 

运用大数据技术为非概率样本提供模型构造还相当不成熟,其结论的可靠性还存在很大波动。不过当总体的信息均为可录入的数据时,大数据证明可以在很大程度上克服抽样证明中样本的有限性,使海量证据的全样本调查成为可能。

 

大数据的全样本性可以显著减少传统抽样方法可能导致的误差,发现传统抽样数据中难以或根本无法获取的信息。这种技术的更新迭代将有助于突破传统证明中的片面、局部和抽样的思维局限。

 

 

参考文献和注释:

本文系国家社会科学基金重点项目“大数据侦查的程序控制与证据适用研究”(项目编号:19AZD024)的研究成果。

参见2011年“两高一部”《关于办理侵犯知识产权刑事案件适用法律若干问题的意见》第3条。

参见赵红仕:《“侵犯著作权罪”认定中的几多窘境》,载《中国知识产权报》2007年7月20日,第10版。

检索日期为2021年3月20日。

[英]威廉·特文宁:《证据理论:边沁与威格摩尔》,吴洪淇、杜国栋译,中国人民大学出版社2015年版,第41、66—67、135—136页。

参见万毅、纵博:《论刑事诉讼中的抽样取证》,载《江苏行政学院学报》2014年第4期,第122页。

吉拉子吾运输毒品案,四川省攀枝花市中级人民法院刑事判决书(2015)攀刑初字第64号。

张某某侵公民个人信息案,四川省广汉市人民法院刑事判决书,(2017)川0681刑初90号。

参见浙江省2018年发布的《电信网络诈骗犯罪案件证据收集审查判断工作指引》第36条。

马忠红:《论网络犯罪案件中的抽样取证——以电信诈骗犯罪为切入点》,载《中国人民公安大学学报(哲学社会科学版)》2018年第6期,第70页。

郭明升、郭明锋、孙淑标假冒注册商标案(2016)参阅案例49号,江苏省宿迁市中级人民法院(2015)宿中知刑初字第0004号。该案为最高人民法院第87号指导案例。

参见杜子芳编著:《抽样技术及其应用》,清华大学出版社2005年版,第3—5页。

柯昌波等:《广义抽样调查技术及应用》,西南交通大学出版社2016年版,第100—101页。

Daubert v. Merrell Dow Pharmaceuticals Inc..

[英]威廉·特文宁:《证据理论:边沁与威格摩尔》,吴洪淇、杜国栋译,中国人民大学出版社2015年版,第83、89页。

See Richard S. Bell, Decision Theory and Due Process: A Critique of the Supreme Court's Lawmaking for Burdens of Proof, 78 Journal of Criminal Law and Criminology, 557, 574 (1987).

彭中正、吕雷、周敏侵犯公民个人信息罪一审刑事判决书,(2018)川0191刑初94号。

《陈学军、胡阿光非法吸收公众存款罪二审刑事判决书》,(2019)闽07刑终340号。

[美]麦考密克:《麦考密克论证据》,汤维建等译,中国政法大学出版社2003年版,第420页。

参见严义挺:《技术、构罪与证明——“互联网+”语境下诉讼的“+互联网”性》,载《上海政法学院学报(法治论丛)》2017年第3期,第105页。

[德]克劳思·罗克信:《刑事诉讼法》,吴丽琪译,法律出版社2003年版,第121页。

宋新民、李金良编著:《抽样调查技术》,中国林业出版社2007年版,第17页。

相关研究参见MG Gibson, HC Kraeme, S Thieman, How Many Subjects? Statistical Power Analysis in Research,  journal of the american statistical association (1989).

See Seymour Sudman, Applied sampling, New York: Academic Press, 1976, p.99.

参见[美]劳伦斯·纽曼:《社会研究方法:定性和定量的取向》,郝大海译,中国人民大学出版社2007年版,第293页。

杨帆:《海量证据背景下刑事抽样取证的法治应对》,载《法学评论》2019年第5期,第111页。

参见马忠红:《论网络犯罪案件中的抽样取证——以电信诈骗犯罪为切入点》,载《中国人民公安大学学报(社会科学版)》2018年第6期,第74页。

[德]托马斯·魏根特:《德国刑事程序法原理》,江溯等译,中国法制出版社2021年版,第108页。

樊传明:《证据评价论——证据法的一个阐释框架》,中国政法大学出版社2018年版,第161页。

[美]戴维·穆尔、威廉·诺茨:《统计学的世界:第8版(下)》,郑磊译,中信出版集社2017年版,第210、224页。

刘品新:《网络犯罪证明简化论》,载《中国刑事法杂志》2017年第6期,第35页。

王志刚、刘思卓:《论网络犯罪证明中的数额认定方法》,载《重庆邮电大学学报(社会科学版)》2020年第2期,第39页。

参见高艳东:《网络犯罪定量证明标准的优化路径:从印证论到综合认定》,载《中国刑事法杂志》2019年第1期,第136页。

李金昌主编:《应用抽样技术(第三版)》,科学出版社2015年版,第30页。

龙宗智:《印证与自由心证——我国刑事诉讼证明模式》,载《法学研究》2004年第2期,第107页。

陈瑞华:《论证据相互印证规则》,载《法商研究》2012年第1期,第113页。

龙宗智:《刑事印证证明新探》,载《法学研究》2017年第2期,第152页。

参见《石勇非法吸收公众存款罪二审刑事裁定书》,(2020)新40刑终158号。

[英]威廉·特文宁:《证据理论:边沁与威格摩尔》,吴洪淇、杜国栋译,中国人民大学出版社2015年版,第86页。

金勇进、郝一炜:《非概率样本的模型推断》,载《数学的实践与认识》2019年第5期,第247页。

金勇进、刘展:《大数据背景下非概率抽样的统计推断问题》,载《统计研究》2016年第3期,第14页。

Lawrence L. Wilson, Extra-Judicial Confessions - Sufficiency of Corroboration, 33 Nebraska Law Review 495, 496-500 (1954).

参见金勇进、刘展:《大数据背景下非概率抽样的统计推断问题》,载《统计研究》2016年第3期,第11页。

参见左卫民:《迈向法律大数据研究》,载《法学研究》2018年第4期,第139页。

来源:司法兰亭会 

作者:高童非,中国农业大学法律系副教授、中国人民大学法学院博士后、中国政法大学法学博士