尚权研究SHANGQUAN RESEARCH

尚权研究丨王勃:AI绘画引发“法律海啸”,刑法准备好了吗?

作者:尚权律所 时间:2022-10-14

王勃

北京市尚权律师事务所律师

南开大学理学学士

中国政法大学法律硕士

 

 

一、“文艺复兴三杰”与“法律海啸”

 

 AI绘画是什么?为什么会引发“法律海啸”?刑法和“法律海啸”沾边吗?回答这些问题之前,不妨先思考“文艺复兴三杰”的四个虚构情景:

 

 情景一:佛罗伦萨富商斥巨资邀请达芬奇为蒙娜丽莎画像,达芬奇同意了,要求富商提供许多蒙娜丽莎的照片作为参考。这些照片被输入进了电脑,五分钟后,一张蒙娜丽莎的画像就被制作出来了。

 

 情景二:富商不满意达芬奇工作量太少,要求用传统绘画的方式重新绘制蒙娜丽莎像。达芬奇同意,为吸引流量,他一边绘画,一边将镜头对准画板进行全程直播。没想到,米开朗基罗将直播画面截取,将蒙娜丽莎的半成品画面输入电脑,得到一张完整的蒙娜丽莎画像。之后,米开朗基罗将这副画上传到自己的账号发布,并命名《蒙娜丽莎的微笑——米开朗基罗绘》。

 

 情景三:另一位富商喜欢达芬奇的画风,但聘请达芬奇绘画太过昂贵。有人建议,你用电脑做一个“虚拟达芬奇”不就行了吗?于是富商收集达芬奇上百幅画作的复制品,输入到程序中。很快,能够稳定模仿达芬奇画风的“虚拟达芬奇”诞生了。“虚拟达芬奇”能够使用达芬奇的画风创作各自各样的画作,更重要的是,它产出每张画只需要五分钟。艺术界对“虚拟达芬奇”趋之若鹜,真实的达芬奇收入因此大幅减少。

 

 情景四:拉斐尔“盗版”复制、销售大量“虚拟达芬奇”的画作,被追究刑事责任。拉斐尔的律师这样辩护:“虚拟达芬奇”的绘画根本就不是法律意义上的“作品”,利用“虚拟达芬奇”工具进行绘图的富商也不是著作权人。著作权自始就不存在,对拉斐尔侵犯著作权罪的指控的前提就不成立。

 

 以上四个情景是为了读者理解AI绘画而虚构的。可如果将“文艺复兴三杰”替换成现代人,那么哪些已经发生了,哪些还没有发生呢?

 

 答案是,前两个情景已经发生了。第三个情景正在发生,可能明年,甚至下个月就可能实现。第四个场景是虚构的,但未来几年这样的案例恐怕不会少见。

 

 这就是AI绘画给社会带来的冲击。AI绘画好比一座喷发的海底火山,它的喷发将会引发强烈的地震,海底地震必然引发海啸。对现行法律而言,AI绘画的“法律地震”将首先冲击著作权法、民法典等民事法律。而地震之后的“法律海啸”,将持续冲击刑法第三章第七节侵犯知识产权罪中的诸多法条。

 

 以刑法第二百一十七条为例,侵犯著作权罪成立的前提,是著作权要确实存在,而著作权成立的前提是需要存在“创作”与“作品”。问题来了,AI绘画过程是创作吗?AI的绘画产出是作品吗?有著作权吗?谁又是著作权人呢?刑法要对AI绘画进行保护吗?

 

 如果将视角调转,AI在模仿画师画风的时候是否会构成侵权呢?现有法律有没有办法阻止AI学习特定的画风呢?包括刑法在内的法律是否要对此有所回应呢?如果要修法,审理AI绘画案件新增的司法成本有多大?

 

 回答这些问题,首先要理解什么是AI绘画,以及AI绘画的机制是什么。

 

二、基于“Diffusion模型”的AI绘画的演变

 

 目前爆火的AI绘画软件基于“Diffusion模型”(扩散模型)。但扩散模型并不是新的发明。早在2015年,斯坦福大学的Jascha Sohl-Dickstein及另外三位科学家就提出了扩散模型,这是一种利用高斯噪音的添加与还原,让计算机进行“绘画”的算法。但就像蒸汽机刚被发明时效率比不过传统人力一样,扩散模型的适用性起初并不那么好,也没有引起足够的重视。业界似乎更青睐基于博弈论的GAN算法模型或者基于Transformer模型建立的超大规模学习模型。

 

 2022年,新的“Stable Diffusion”软件问世并开源,任何人都可以利用“Stable Diffusion”模型对程序进行训练。这极大扩展了扩散算法型AI绘画的使用范围。用“Stable Diffusion”产出的画作有些较为“诡异”,无法达到让大众普遍接受的程度。但好在“Stable Diffusion”框架建立得很完善,全球的程序员们可以给“Stable Diffusion”添加各种图库,让程序学习更多的素材,画出更好看的图片。可以说,“Stable Diffusion”是AI绘画时代的“改良蒸汽机”,但它还只是一个半成品。

 2022年9月底,一款基于“Stable Diffusion”模型,名为“Novel AI”的特化型绘画AI横空出世。“Novel AI”的优势非常明显:它能够在个人电脑上运行,对硬件配置要求不苛刻,出图速度很快,风格稳定,画风干净,能够被大众接受。它的操作非常简单,用户向其中输入各种各样的tag(标签),向程序描述想要生成的图片包含什么样的元素,或者直接输入一张已有的图片,让程序自己分析出原图包含哪些tag。AI会在运算后输出图片,整个过程只需要几分钟。

 

 毫无意外的,“Novel AI”爆红了。普通用户利用“Novel AI”调试出满意的图画。画师开始利用“Novel AI”进行绘画辅助,提高绘画效率。人们开始发现,他们已经不敢断定网上的图片是不是AI绘制的了。虽然“Novel AI”依然很笨拙,但“AI绘画是不是可以取代人类画师”的讨论已经愈演愈烈。反对和纠纷自然是如影随形。“十一”黄金周期间,许多画师声讨用以训练“Novel AI”的图库站Danbooru,要求撤下自己的所有作品,防止AI学习自己的画风;10月12日,韩国Twitch上的一名画师将另一位画师网络直播绘制的半成品画面截图,导入到“Novel AI”,生成新作品后上传到自己的账户,署名发表……无论是好的方面还是坏的方面,“Novel AI”绘画的新闻几乎是以天计算,进行着快速更新。

 

 这就是AI绘画即将引发“法律海啸”的原因。“Novel AI”太易得,操作几乎没有门槛。对AI的大规模运用必然产生现有法律难以解释的问题。想一想AI绘画可怕的进化速度吧,今年2月份画师们还在嘲笑AI绘画的水平,10月份突然发现自己面临丢失饭碗的风险。按照这个速度,著作权侵权这类民事纠纷,可能三个月到半年就会出现。而刑法是所有部门法的“底线法”。民事层面的“法律地震”一旦发生,传导到刑事司法形成“法律海啸”这种“次生灾害”几乎是必然的。虽然有学者认为,刑法不应回应还没有发生的案件,但这次新技术引发的革命,对现有法律的冲击是迫在眉睫的,法律人必须认真面对这只由算法构成的“黑天鹅”,刑法必须有所准备。

 

三、AI绘画真的是在创作吗?

 

 法律如何评价AI绘画的工作过程?AI绘画是创作吗?首先要厘清法律定义。什么是“创作”?《著作权法实施条例》第三条规定“著作权法所称创作,是指直接产生文学、艺术和科学作品的智力活动。为他人创作进行组织工作,提供咨询意见、物质条件,或者进行其他辅助工作,均不视为创作。”

 

 定义中有两个重点:“直接”与“智力活动”。前者要求创作的过程与创作的结果之间必须具有直接的关联性,后者要求创作具有专属于人类的智力属性。按照这个定义,创造“Novel AI”的程序员不是创作者,因为他们的成果是绘图AI,而不是图画。给“Novel AI”下达创作指令的人也不是创作者,因为他不直接产生成果。好比本文开头举的富商请达芬奇绘画的例子:富豪只是出钱,并要求达芬奇画蒙娜丽莎,直接绘画的人是达芬奇,而不是富商。富商最多在达芬奇绘图时就画面的内容提出要求,而这最多属于“提供咨询意见”,法律不视为创作。既然富商不可能成为画作的创作者,给AI下达创作指令的使用者更不可能成为创作者。那么直接绘制图画的AI能不能成为创作者呢?显然也不行。现有法律无法赋予算法程序以人格,也就不可能承认专属于人类的“智力活动”能够适用于AI,AI的绘图过程就无法被称之为创作。

 

 以上是在现行法律框架下对AI绘图行为是否属于创作的法律分析。但对新生事物,要充分考虑法律未来变动的可能性。况且刑事司法关乎人的财产、自由、乃至生命,必须慎之又慎。如果关于AI绘画的纠纷真的进入到了刑事司法层面,要动用刑法“侵犯著作权罪”追究刑事责任,那么按照刑事司法对证明责任的要求,法庭必须要查明以下基本事实:AI绘画是怎么进行的?AI绘画是真的在“绘画”吗?要回答这些问题,我们不得不研究AI绘画的内部算法。

 

 回到最基础的“Diffusion模型”,它绘图的算法是利用高斯噪音的添加与还原进行图像的生成。在外行看来可以做如下比喻:第一步,先给程序一张图画,在上面打一两个马赛克,让程序训练消除这些马赛克,还原原本的图画。第二步,加大马赛克的数量,让程序将含有更多马赛克的图片还原成没有马赛克的状态。在此训练中,程序会逐渐理解目标图片是什么,因为只有知道了还原的目标是什么,才能对马赛克进行还原。第三步,将马赛克涂抹到极限,即原目标图片已经彻底无法分辨,此时程序根据训练的结果,以及程序所理解的还原的目标(tag),在全是马赛克的画布上还原出目标图画。从输出端来看,训练好的程序就好像能自己画画一样。

Diffusion算法模型示意图▲

 

 这只是AI绘画的基本原理。利用这种原理,程序可以逐渐“理解”什么是“手”、“眼睛”等元素。在“Stable Diffusion”这个进一步的框架中,程序被进行了大量的训练,可以根据输入端的要求,将输入的tag进行组合,形成新的图像。但偶尔也会闹笑话,比如经常出现3个腿的人类。

 

 “Novel AI”更进步的地方在于,它利用Danbooru这一已有的公开图库站进行训练。Danbooru这一公开图库站收集了网络上大量的图片,并对图片中的要素进行了细致的分类,打上tag方便用户检索。Danbooru的tag分类细致到夸张的程度,甚至那些源于微博,有水印的图片在收录时,也会打上“watermark”的标签。细致的分类大大减轻了AI训练的工作量。“Novel AI”的训练过程,就是不断消化Danbooru规范下的tag规则,理解每个tag代表什么含义,对应哪些可能的图画。鉴于Danbooru图库足够庞大,“Novel AI”绘制图像的能力有了显著的提高。近期网络上流传的一张图片,有两个人打赌AI绝不可能画出“在北京天坛公园前抽陀螺的女高中生”,因为这个画面的元素太复杂了。没想到,“Novel AI”真的画出来了,并且画得还不错。

由Novel AI生成的

“天坛公园女高中生抽陀螺”图片▲

 

 如果我们稍微思考AI绘画的过程,就会发现扩散模型下的AI算法,实际上并不是“从无到有”的“创造”。它的绘图行为完全依赖输入的每个tag下面海量的现有作品,通过随机选择tag组合生成图片。比如上图,AI并不是只能绘制这一种天坛公园,而是在将马赛克定向还原成“天坛公园”这个tag时,随机选择了其中一种处理方式。

 

 可能有人会问,这种“随机”是不是创作性或者偶然性的体现呢?需要注意,AI的随机在数学上其实是“伪随机”。在利用“Novel AI”进行图片的生成过程中,用户可以自己选择输入随机因子的大小,而这决定了“Novel AI”会朝某个特定的方向还原。经过笔者的实验,如果保持输入tag的名称、顺序和随机因子完全一致,那么“Novel AI”将会确定性的重复产出同一张图片。

 

 “Novel AI”这种稳定的复现甚至可以支持一个更大胆的结论:当用户输入tag并启动绘图程序时,AI并不是在创造,而是在筛选。在初始tag和随机因子相同的情况下,AI一定会产出同样的画面,这几乎就等同于AI已经形成了确定的作品,用户只不过是输入检索条件,把画面查询出来而已。如果用户觉得不满意,可以改变随机因子再让AI输出新的图片,用户只需要评价、筛选就好。这颇有点“文章本天成,妙手偶得之”的味道。如果能用“检索”或者“发现”定义“Novel AI”的绘画过程,即使法律再修改,也无法认定这个过程可以被定义为“创作”。

 

 AI绘图不仅是过程难以被定义为“创作”,产出的成果也难以被认定为“作品”。《著作权法》第三条规定“本法所称的作品,是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”。如前文所说,如果AI的运行方式不具有创造性,认定它是作品也困难重重。皮之不存,毛将焉附。作品本身的著作权及一系列相关权利的保护都将成为空谈。

 

四、刑法的回应与司法成本的考量

 

 刑法第二百一十七条列举了侵犯著作权及与著作权有关权利的六种行为,涉及对美术作品保护的主要为第(一)、(二)、(五)款。内容为“未经著作权人许可,复制发行、通过信息网络向公众传播其文字作品、音乐、美术、视听作品、计算机软件及法律、行政法规规定的其他作品”,“出版他人享有专有出版权的图书”,“制作、出售假冒他人署名的美术作品”。如果刑法对AI绘画的作品不闻不问,那么在以下可能出现的案例中,刑法将难以适从:A单位要求甲创作特定主题的画,甲利用“Novel AI”软件,输入诸多tag生成了一副图片。A单位向甲支付了报酬,与甲签订了著作权转让协议,在形式上获得了除著作人身权之外的所有财产性权利。之后该画作被犯罪嫌疑人乙大量非法复制并发行,违法数额达到了刑法第二百一十七条的定罪标准。刑法该如何处理乙?

 

 上述案例并不极端,就在“Novel AI”软件诞生近一个月的时间里,已经有越来越多的公司开始考虑利用AI生成图片,减少绘图的人工成本。这种案例可能在未来几个月大量出现。现行刑法对这种情况的处理面临着两难的局面。如果不对乙定罪,恐怕不符合人们朴素的法道德与正义观。且不论A公司为转让著作财产权所付出的经济成本,甲为该份图片的“面世”可能也付出了艰辛的劳动。要知道,想让“Novel AI”“听话”地输出精致的图画并非易事,有时需要大量输入限制tag,夸张的情况下仿佛是吟唱某种咒语才能“召唤”出想要的图片。在一定程度上,对限制条件的摸索本身也凝聚着人类具有创造性、审美性的劳动,轻易否定其应有的权利并不适当。此外,如果AI绘画在未来大量占据市场,在数量上占据绝对优势(这种假设完全可能变成现实),那时刑法如果还不保护AI绘画相应的权利,就几乎等于什么美术作品都不保护了,这显然不可能。

 

利用大量“排除tag”

对AI绘画进行限制和优化的示例▲

 

 如果对乙定罪,同样会面临无法适用法律的困境。由于AI的特殊性,刑事案件中将找不到著作权人、作品等一系列定罪的基本要素。乙可以像本文开头提到的拉斐尔的律师一样大喊:“这根本就不是具有著作权的画作,为什么可以追究我侵犯著作权的责任?”

 

 该案例假设画作全部由AI生成,现实情况只会更复杂,AI的参与度并不是简单的“全或无”。在现阶段,一部分拥抱“Novel AI”的画师,看中的是AI具有人物迅速定型和背景渲染的能力。在利用AI完成前期绘图之后,画师会进行调整和细化,改变上色方式,对局部细节进行处理。也就是说,最终的图画是由AI和画师共同完成的。将这类创作方式描述为“作者利用AI辅助进行创作”未尝不可,著作权的获得或许不具有争议。可如果AI的参与度更高呢?假如AI的参与度达到了99%,人类画师只在AI绘画的基础上添加了一笔,我们可以由此认定这副画是具有无可争议的著作权的吗?

 

 这就是刑事司法面临的另一个重要挑战——著作权案件的司法成本将大幅扩大。面对“Novel AI”,人类还可以通过画风判断哪些是人类作品,哪些是AI画作。可未来呢?按照当前绘画AI迅猛的迭代速度,恐怕几个月后新的基于扩散模型的特化型AI就可以做到“安能辨我是雌雄”。如果新的法律,或者在不修法情况下形成的新的裁判规则,决定对AI绘画和人类作画采取不同的著作权认定标准,那么对AI和人类共同参与的绘画,或者无法辨别究竟是人类还是AI创作的绘画,刑事司法是一定要投入资源去辨别的。可是如何去辨别呢?又需要增加多大的司法成本去为这个新生事物买单呢?这些都是亟需考量的问题。

 

 除此之外,还有一个根本性的变量不得不引起重视。绘图AI的底层模型不是只有“Diffusion模型”(扩散模型)一种。本文主要基于扩散模型讨论绘图AI,只是因为这套算法逻辑目前最为成功,但这不代表它能永远领先。未来或许会出现完全不同于扩散模型的AI绘图算法,甚至会出现彻彻底底具有随机性、独创性的绘图AI。如果那一天真的到来,刑事司法是否将不得不对每一套AI的逻辑进行逐个审查?届时刑事司法的成本又会是何种面貌?这些问题并非中国独有,全世界的法院都要对此交出自己的答卷。

 

五、“法律海啸”的余波

 

 AI绘画对法律的冲击的其实远远不止上文所说的这些,它的余波可能将改变我们对很多问题的理解。由于篇幅限制,本文就不再展开,只列举可能的影响。

 

 第一,“著作权只保护画作不保护画风”的观念将受到冲击。现有的著作权法律保护的是作品,而非某位作家的画风。但现有的技术已经可以做到向“Stable Diffusion”中输入上百张特定画风的图片,就能训练出新的特化型绘画AI,它可以大量产出目标画风的画作。那时,以特定画风为卖点的画师将失去他的独特性,商业价值将会大幅下降。如果想扭转这一趋势,法律可能考虑将画风纳入著作权的保护范畴。

 

 第二,对美术作品的“爬虫”可能受到限制。现有法律限制对个人信息等敏感信息的大规模“爬虫”行为。在将来,为了防止画师的画风被AI“抄袭”,对美术作品的数字化保护可能更为严格。

 

 第三,对未完成作品的著作权保护可能产生新的规则。鉴于AI可以迅速“补完”处于半成品的美术作品,进而影响到人类绘画原本应享有的各项权利,新的裁判规则可能会形成,属于半成品的美术作品的著作权可能有特殊的保护。

 

 第四,新的美术作品署名规则将会确立。目前刑法打击“制作、出售假冒他人署名的美术作品”的行为,但面对AI绘画,署名权面临着新的挑战。署名权怎么确认?归用户,AI,还是AI的创作者?这些都亟需新规则的确立。

 

六、结语

 

 2017年,AlphaGo Master战胜柯洁,标志着人工智能将人类最引以为傲的智力游戏——围棋,踩在了脚下。

 

 仅仅过去了五年,人类阵地中下一个让AI突破的,居然是最要求创造力和想象力的艺术领域——绘画。

 

 科幻般的未来已经到来,但我们的认识、思想与制度依然停留在过去,这是危险的。AI绘画这座海底火山刚刚爆发,地震波还没有传导到民法领域。面对即将到来的“刑法海啸”,我们准备好了吗?