尚权推荐SHANGQUAN RECOMMENDATION

尚权推荐丨刘哲:何为大数据?

作者:尚权律所 时间:2023-06-19

 搞了一段时间大数据,有人一问到底什么叫大数据,还是让人发蒙。

 

 尤其是对于法律人这样的文科生,似乎总是感觉缺少足够的理性和科学精神,无论怎么回答都难以达到自然科学概念中的严谨程度。

 

 那么,我的问题来了,我们在司法中说的大数据,与计算机科学或者互联网领域的大数据是否是一个意思?是否真的需要是一个意思?

 

 曾几何时,类似的东西,还被称为智慧检务、智慧公诉呢。

 

 那么,那是否意味着当时的模型都是人工智能的?

 

 我觉得没有几个能够算是人工智能,更不要说强人工智能了。

 

 有人工,也有智慧的投入,但就是不能称为人工智能。

 

 因为,人工智能其实是有严格的分级标准的,比如无人驾驶,但我们的模型从来没有考虑过参考这些人工智能的分级标准,因为根本就没到那个程度。

 

 同样的,我们现在搞大数据,其实也确实有数据,有些数据还很多,但是否是真正的是大数据技术,这就很难说。

 

 因为说白了,大数据技术的本质就是自我统计分析,尽量避免人工的投入,不仅是数据要多,而且要智能化的、自动化的分析,说白了,还是要人工智能,比如机器学习等等。

 

 但我们知道机器学习这种真正高级的大数据分析技术,其实是非常昂贵的,昂贵到只有互联网平台企业这样的超级玩家才能玩得起,其投入的资金,可能都不止几十亿的资金,可能需要数百亿的资金,以及一大批顶尖的人工智能专家的投入,同样还需要最顶尖的硬件和软件保障。

 

 但是我们连5万块钱都拿不出来的时候,千万不要说自己在弄人工智能,也不要说自己在弄什么真正的大数据技术,因为你说真正的大数据技术其实还是在说人工智能。

 

 因此,那些信誓旦旦,非人工智能否则不叫大数据这样的说法,其实是脱离实际的。

 

 其实我认为,我们现在过度强调大数据分析技术中的人工智能含量,就像当年强调强调智慧什么是一样的,是超越我们的资源承受能力的,因此只是一种奢望。

 

 虽然我们没有足够的经费,难以真正搞起来真正的大数据,是不是我们就没有权利分析数据、没有权利运用数据了?

 

 我认为非也,即使我们没有足够的经费和技术能力,我们也必须分析应用数据。

 

 因为世界正在数字化,数字正在成为世界的运行规则和组织方式。

 

 我们想要看到世界的真面目非要通过数据不可。

 

 但是我们对数据的分析,其实并不需要特别高大上的人工智能技术,我们只要拥有敏感的数据意识和数据能力就可以了。

 

 这种数据意识和数据能力就是一种现代化特征,就是属于这个数字时代的基本特征。

 

 简单的数据库对比碰撞,以及逻辑建模都难以称为真正的大数据技术,但它仍然是一种有价值的技术和能力。

 

 我们可以把它理解为批量处理能力。

 

 就比如二十多年前,我在北京市高级法院刑二庭实习的时候,当时庭领导安排我与另一个同学做一个调研,我们各自负责一批统计项目,也就是将一大批表格数据,进行一些运算比对。

 

 我俩采取了不同的工作进路,那位老兄借助于计算器每篇加加减减,因此每天都有一定的进度。

 

 而我在学校里刚学了excel的一些用法,其中有一个函数设置,因此我就用大量的时间录入数据并建立函数,这个函数其实也不复杂,但肯定不是简单加减求和那么简单。因为刚学正好记住了。

 

 我之所以这么干,一方面我不喜欢干重复性的工作,老是加来减去很烦,演算也很麻烦。而且正好我也刚学,也就想着尝试一下。

 

 当然我的风险就在于我的进度很慢,前期都是准备工作,根本看不到进展。当然了录入完毕,函数写完自然就快了。

 

 等我开始计算的时候,那位老兄几乎都算完了。所以他颇觉得我不太会干活。

 

 当然我一旦进入运算状态,几分钟结果就搞定了,所以总体上来说速度并不慢。

 

 但更为重要的是,我几乎都不用演算,因为只要函数正确,录入正确,结果就不会产生计算误差。

 

 因此当领导希望我们演算一下的时候,我就比较轻松。尤其是当领导提出新的计算需求的时候,我只要调整函数就可以了。

 

 但那位老兄就愁死了。这就是两种工作方式的差别。

 

 显然,我这种工作方式也不能叫大数据,但你可以管它叫一种数据思维。

 

 因此,我们在司法机关中搞的大数据,很难算是应用强人工智能的大数据技术,但我们仍然是一种数据思维,而且是借助了一些通用数据工具的数据思维。

 

 这种数据思维就是我们在搞的大数据,虽然不够人工智能也没有什么不光彩。

 

 因为人工智能成本太高,我们普遍使用的是低成本通用型数据分析技术。

 

 就类似于excel以及一些数据库的灵活应用。

 

 那一些一听到别人在用excel表就一脸鄙夷的人,其实并不真的懂得什么是数据思维。

 

 能够把excel用好了就可以分析绝大多数的数据内容,就可以进行数据库的比对碰撞,就可以以近乎零成本的方式极大地提升数据分析能力,从而提高法律监督能力,也就是批量化的处理监督线索的能力。

 

 这就类似于我当年用excel搞司法统计工作。

 

 更不要说,现在还有很多廉价的数据库软件工具,这些都可以为我们所用。

 

 为什么一提到大数据,就一定意味着花数百万元、上千万元搞人工智能型的大数据技术呢,那样反而是大而无用的。

 

 因为如果你只能挽回几十万元的财产损失,就千万不要花这些大钱。

 

 如果能用excel表能解决的事,就不用非要做一个软件不可。

 

 非要掌握的是一种数据分析意识,而不是所谓高投入、高科技的研发路线。

 

 因为可以说,对于绝大部分的司法模型来说如此昂贵的大数据技术其实是一种浪费。

 

 零成本、低成本,易上手、好操作的数据分析技术才是真正实用的大数据技术。

 

 大数据绝不是看起来好看,听起来好听,而应该一定是用起来好用,而且非常实在、性价比非常高的技术。

 

 当然,如果工作确实需要高精尖的技术,而且司法收益又颇为巨大,那么搞复杂技术、高技术那也无可厚非。

 

 但是在投入的时候,一定要掂量一下司法收益,这样采用的大数据技术才可能不至于虚高。

 

 我认为现在的司法大数据,其实本质上就是面对数据时代的数据思维。

 

 获取大量的数据,目的在于了解世界的真实面貌;充分的分析数据,在于探查世界运行的真实逻辑。

 

 至于采用哪种方式进行数据分析,我的观点是管用就行。

 

 这就像跑步一样,有的人花很多钱买了很多设备,但却不怎么跑,而我有一双破胶鞋,但我只要能跑起来,我的收获就会比你大。

 

 大数据并不意味着高投入,而是意味着我们要现在就跑起来,用我的思维、现成的数据、现成的工具软件,现在就跑起来。

 

 

来源:刘哲说法

       作者:刘哲,北京市人民检察院检察官