你好,欢迎来到中国科学技术大学知识产权研究院!
 
 

著作权丨生成式人工智能数据“投喂”的著作权侵权行为规制

2025-03-24 | 查看: 10


常烨 中国科大知产院



作者简介

常烨(1981—),男,湖北武汉人,西南政法大学市场交易法律制度研究基地,研究员,博士,研究方向:科技法。


摘要

生成式人工智能在大模型训练中的数据“投喂”引发了内容创作者对自身作品被违法使用的担忧,生成式人工智能面对指控往往诉诸合理使用条款进行抗辩。生成式人工智能的技术特性,使得对于“投喂”未获许可作品行为的规制面临事实查明、归责、惩戒等多重困境。对于这种涉及新技术、新要素、新产业链的著作权侵权治理而言,必然对新制度有所诉求。因此,应当在生成式人工智能尚在自我探索的这一发展阶段,明确这种著作权侵权的法律适用,从侵权责任认定与举证责任分配、技术性授权的行业自律规范、“机器遗忘”强制性规范等多个维度,构建生成式人工智能输入端对数据“投喂”著作权侵权行为的规制框架。


关键词:生成式人工智能;训练数据“投喂”;著作权;侵权


part 1问题的提出

2023年被誉为生成式人工智能爆发之年,ChatGPT等服务展示了生成式人工智能的突破性进展与未来潜力[1]。但生成式人工智能需要鲸吞海量数据的“成长”之路也引发了不少的侵权争议。网易LOFTER平台于20233月上线生成式人工智能绘画功能后,大量用户因担心自身原创作品被该平台作为训练数据“投喂”给平台的生成式人工智能工具而注销[2]8月起小红书平台的生成式人工智能绘画产品也受到相似的质疑,导致大量原创画师退出[3]11月,办公软件WPS也被质疑为训练其生成式人工智能产品而滥用用户文档[4]2023年底,美国媒体《纽约时报》把OpenAI及其投资方微软公司告上法庭,指控二者未经授权就使用该媒体的数百万篇文章来训练人工智能大模型,要求被告销毁相关数据并对媒体损失负责[5]。推出ChatGPTOpenAI在这之前就已经受到多次类似的控告,相关权利人认为生成式人工智能在大模型训练过程中的数据“投喂”存在侵犯其著作权的情形。不难发现,生成式人工智能的成长过程,一直伴随着大模型训练的数据“投喂”侵权的争议,而内容创作者权益保护与生成式人工智能技术发展促进之间的冲突也随着生成式人工智能应用与服务的勃兴而日渐激烈。目前关于生成式人工智能的法律回应,其讨论焦点大多集中于生成式人工智能的输出内容权利归属、算法治理等基于生成式人工智能的输出端或“算法黑箱”过程端层面的问题,对于输入端权利冲突或侵权问题的关注相对较少。然而,无论是为了规范生成式人工智能大模型训练的数据“投喂”以促进生成式人工智能的良性发展,还是为了保护传统内容创作者的著作权益以激励更多样作品的创作与传播,都有待各方面及时作出有效的制度安排。


part 2训练数据“投喂”的著作权侵权风险

生成式人工智能的大模型训练过程中对数据的“投喂”,如若缺乏清晰的合规边界,势必引发相关权利人,尤其是著作权人的担忧与抵制,进而影响生成式人工智能生成能力的迭代进程。因此,有必要对生成式人工智能大模型训练数据“投喂”行为进行解析,并对其涉及的著作权侵权风险进行识别。

01投喂”行为的性质界定

ChatGPT为代表的生成式人工智能应用,以颠覆性的创新使得人工智能技术的发展来到了新的科技奇点。根据《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),生成式人工智能是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。在这一定义中,一个关键词是内容生成,另一个关键词是模型。生成式人工智能的内容生成,是不同于以往弱人工智能的可以从无到有的新内容创建,而这一内容生成的实现是通过大型语言模型(LLMs)实现的,即通常所说的大模型。所谓大型语言模型,是基于2017年谷歌提出的Transformer算法构建的。Transformer算法依赖注意力机制来表征模型的输入和输出之间的全局依赖关系,使用神经卷积网络等进行深度学习,来模拟人脑的神经网络,实现对大规模数据的智能处理,生成有意义、有逻辑的内容[6]。简言之,大型语言模型,就是基于一系列编码器—解码器堆叠而成的序列到序列(Seq2Seq)的架构建立的,模型的输出,本质上是通过编码器将输入转化为特征,再由解码器将特征转化为输出,而每一个内容单元的输出,是模型对内容单元的概率计算后的选择,由此生成一个“有逻辑”的全新内容。也就是说,生成式人工智能所生成的一句话的逻辑与意义,是源于大模型基于计算“认为”这样生成一些字词并如此排列这些字词,大概率是符合人类语言逻辑的,而非生成式人工智能真的“理解”了字词的意义。图像、视频等多模态生成式人工智能亦同理。

由此可见,无论是大型语言模型的构建、Transformer算法的优化,还是为了避免生成内容的过时或雷同,都需要“投喂”大量的数据来预训练或者训练。可以说,训练数据的质量决定了生成式人工智能输出内容的质量。Google的文本模型与训练时就用到了至少1500亿的词汇[7]20205月发布的ChatGPT3所用到的预训练数据规模以TB为单位,20233月发布的ChatGPT4的预训练数据规模虽然没有公布,但仅凭其为多模态模型这一点,就不难推测其预训练数据规模应当远远大于此前的单模态模型[8]

生成式人工智能的“创造力”,一方面来源于大模型的计算能力,另一方面来源于对大模型的数据“投喂”训练。鉴于生成式人工智能在大模型训练过程中“投喂”的数据,被大模型转化为生成式人工智能的生成能力,这种对数据的“投喂”行为,就是为了发展生成式人工智能的生成能力而对数据的规模化利用,那么这种“投喂”行为当然构成对所“投喂”数据的使用。

02投喂”数据的类型分析

根据《中华人民共和国数据安全法》(以下简称《数据安全法》)的定义,数据是指任何以电子或者其他方式对信息的记录。在数字经济时代,数据已经成为重要的生产要素,数据的使用是数据价值实现的具体路径。生成式人工智能在大模型训练过程中所“投喂”的数据,一方面规模庞大,另一方面也是稀缺资源[9]。对于稀缺的资源,其使用必然应当受到法律的规制,以避免对稀缺资源的滥用。

现实中,这种用于“投喂”生成式人工智能大模型的稀缺资源的来源非常广泛,而且主要来源于网络。以ChatGPT3为例,其训练数据集包括CommonCrawlWebText2Books1Books2Wikipedia[10]。这些来源或者是公开或私有的数据集,或者是来源于网络图书资源库的图书资料,或者是网络上公开共享的知识信息。这些数据按照不同的维度可以有不同的划分。例如,按照数据来源,可以划分为自有数据与外来数据。按照获取方式,可以划分为购买的数据、网络爬虫爬取的数据、公开数据集下载的数据等。对于著作权侵权问题而言,有效的区分,是按照是否需要获得授权以用于“投喂”的标准对数据进行分类。

对于需要获得许可才能用于“投喂”的数据,生成式人工智能在大模型训练过程中对这些数据的使用,会涉及不同的法律风险。例如,将数据库的数据、通过知识共享协议共享的数据用于“投喂”很可能超出数据库许可使用范围。将Wikipedia等知识共享平台的公开数据用于“投喂”,也很可能超出面向非商业使用的知识共享协议的覆盖范围,这些数据“投喂”行为也就很可能侵害数据权利人的利益并构成侵权[11]。其中,更为特殊的受到著作权保护的数据,是数字形态的作品。

这些作品以数据的物理形态存在于互联网或特定的数据库中,其以数据的形态被“投喂”给生成式人工智能大模型。其中对于著作权保护作品的“投喂”,当然也构成著作权法意义上的使用,只是这种使用的具体形态是因为技术发展而带来的新形态而已。

03投喂”未获许可作品的侵权风险分析

如果说生成式人工智能大模型输出端的著作权侵权问题,可能是个全新的问题,那么其输入端的“投喂”未获许可作品的问题,本质上仍然可以归为“未经许可的使用”这一传统问题的讨论,并不涉及争议更大而尚未形成一致结论的生成式人工智能的法律主体资格、生成式人工智能生成内容的权利归属、生成式人工智能侵权责任的法律性质等问题。根据《中华人民共和国著作权法》(以下简称《著作权法》)相关条款,使用他人作品的合法路径只有两条,或者通过与著作权人订立许可使用合同的方式获得使用许可,或者属于法定许可或合理使用。

生成式人工智能在训练大模型时对著作权人作品的使用,如果与著作权人进行了一对一的授权许可约定,那自然不存在侵权风险,但现实中,更多的使用情形并未取得事先许可,甚至著作权人在事后也并不知情。关于法定许可,我国《著作权法》相关条款明确了法定许可的适用,需要考察其使用目的、作品的使用主体等情形,但并未给生成式人工智能训练大模型留下适用空间。更何况,法定许可仍然需要向著作权人支付报酬,而生成式人工智能在训练大模型时对这些作品的使用,缺乏对著作权人的识别机制,也就难以履行报酬支付义务。

实践中,生成式人工智能一方为了抗辩自己面临的著作权侵权指控,往往诉诸合理使用制度。例如,创制了ChatGPTOpenAI在面临了“投喂”数据侵权指控时,就以17U.S.C.§107下的合理使用(fair use)进行抗辩[12-13]。鉴于生成式人工智能大模型训练的海量数据“投喂”需求,所“投喂”数据的授权如果采用传统方式,当然会存在极大的授权成本。为了低成本地解决这一问题,有研究者提出,将这种数据“投喂”纳入著作权合理使用范畴[13]

向生成式人工智能的大模型“投喂”未获授权数据进行训练,能否构成合理使用,需要根据合理使用的司法认定标准予以解释。合理使用制度的目的,就是为了协调著作权人的权益保护与后续创新成本的降低,将在特定情形下的不经著作权人许可的使用合法化。我国《著作权法》第二十四条第一款明确列举了可以不经著作权人许可使用作品的情形,同时吸收了《中华人民共和国著作权法实施条例》第二十一条“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”的表述,由此形成了我国作为TRIPs成员国对《伯尔尼公约》关于合理使用“三步检验法”的本土化表达[14]

首先,根据“三步检验法”,应当考察著作权的使用行为是否属于我国构建著作权合理使用制度中所列举的“特定且特殊情形”。这种意在开发“产品”的未获授权“投喂”,既不属于个人行为,也不属于学校教学科研,也与评论、介绍、引用无关,更非转换性使用的“二次创作”,显然难以直接归入或者解释为属于其中任何一种法定情形。

其次,即使能够将向生成式人工智能的大模型“投喂”未获许可作品解释为我国著作权合理使用制度中所列举的特定且特殊的情形之一,这种“投喂”也不符合不得影响作品正常使用、不得不合理地损害著作权人合法权益的判定要件。根据《伯尔尼公约》相关文献、世贸组织争议仲裁委员会的解释以及相关判例,“不得影响作品的正常使用”意在从经济效果层面判定,考察“使用”是否在同一竞争领域、是否影响权利人经济利益,“不得不合理地损害著作权人合法权益”同样是从经济效果层面进行辅助判定[15]。鉴于生成式人工智能目前生成内容的能力,其在许多领域都有了取代人类工作岗位的可能[16]。经过“投喂”,生成式人工智能可以生成与被“投喂”作品水平接近甚至水平相仿的内容。至少在一些特定的领域,生成式人工智能的生成内容已经与被“投喂”作品之间形成了竞争关系。PixivShutterstock等图库平台已经开始接受人工智能供稿。经过“投喂”的生成式人工智能的生成能力提升之后,虽然可能促进了整个社会的生产力的提升,但势必也会影响被“投喂”作品的使用,尤其是被“投喂”作品的交易机会,进而影响原创作者的作品权益。在生成式人工智能生成内容的细分目标市场,生成式人工智能甚至不需要达到和被“投喂”作品相仿的水平,就能够以大模型的批量生产效率所带来的低成本取代被“投喂”作品。起初这种对原创作者的影响,可能更多发生于下沉市场,但随着生成式人工智能生成能力的提升,这种影响也将扩大到更大的范围,尤其是在插画、广告等投入产出比等难以衡量的艺术作品细分市场,更容易产生“劣币驱逐良币”的逆向淘汰。

最后,生成式人工智能的未获许可作品“投喂”并不符合适用合理使用的正当性。从合理使用的经济学正当性基础来看,向生成式人工智能的大模型“投喂”未获许可作品也不符合著作权合理使用的经济理性。著作权的合理使用,意在克服市场的失灵,因此,市场失灵应当是适用著作权合理使用制度以豁免责任的前提,也就是说,如果当事人之间可以通过市场的方式实现合理使用,那么,就没有必要适用著作权合理使用制度,因为通常市场是著作权变动的更有效率的配置手段[17]。更何况,我国的部门规章,已经规定了生成式人工智能服务提供者的训练数据合规性义务,合法合规使用数据“投喂”训练大模型是生成式人工智能服务提供者所需要负担的必要成本。《暂行办法》第七条明确规定了生成式人工智能服务提供者开展预训练、优化训练等训练数据处理活动时所应负担的义务,包括“使用具有合法来源的数据和基础模型”“不得侵害他人依法享有的知识产权”等。生成式人工智能服务提供者完全可以通过正常的著作权市场交易获取训练所需的“数据”,而不必借助合理使用损害授权交易模式下的经济利益。著作权的合理使用,意在平衡著作权人的个人利益与社会公共利益,从而对著作权人的权利进行适当限制。但至少目前的生成式人工智能服务提供者,几乎无一例外都是商事主体,遵循的是市场规则,很难将生成式人工智能产业链的参与者的商业利益评价为社会公共利益。同样,在财产权益这个维度,生成式人工智能的商业利益,没有理由应当优先于内容创作者的著作权益。

因此,生成式人工智能对大模型训练的数据“投喂”如果在未获许可的情况下使用了著作权人的作品,按照我国现行的著作权保护规则,这种行为既不属于法定许可情形,亦难构成合理使用。


part 3投喂”未获许可作品的规制困境

生成式人工智能在大模型训练过程中“投喂”未获许可作品的著作权侵权风险,已经引起了一些研究者的关注,在世界范围内也已经引发了一些著作权人提起相关诉讼。然而,即便在客观事实层面,生成式人工智能的这种“投喂”的确存在对著作权人权益的侵害,但在我国现行的著作权保护制度之下,对于生成式人工智能的惩戒很可能面临奈何不得的困境。

01事实查明困境

过去的“使用”,大多是保留作品原貌的使用。例如,最高人民法院发布的2022年中国法院十大知识产权案件中的“大头儿子”著作权侵权纠纷案中,被告就是未经授权使用了著作权归原告所有的动漫人物形象[18]。这种侵权使用直观易见,著作权人很容易发现侵权行为并固定相应证据。对于改变了作品原貌的“洗稿”等侵权行为,权利人也能够从中识别出相似性,并参照司法实践中已经形成了通过抽象观察法和整体观察法来评价是否构成实质性相似的认定标准固定证据。

但对于生成式人工智能在大模型训练时的数据“投喂”而言,著作权人首先就很难发现其作品是否被“投喂”。以ChatGPT为例,ChatGPT3及其之前的训练数据集,部分能够在公开网络上获取,但ChatGPT4之后,这一应用并未开源,其训练数据集亦未公开。随着生成式人工智能商业价值的显现,越来越多的市场主体开始发力自家生成式人工智能产品与服务的训练以抢占市场领先者的地位。在这种激烈的市场竞争格局之下,各家生成式人工智能的训练数据集很难获得公开。这就导致著作权人无法从数据源发现生成式人工智能在大模型训练的数据“投喂”时对其作品的使用。

由此,著作权人对其作品未获许可使用情况的发现,也只能依赖于从生成式人工智能输出内容中进行推测。例如,生成式人工智能所生成的内容中,疑似有著作权人作品的原创性表达。过去的人工智能算法,可能还是基于特定的输入,输出确定的甚至唯一的结果,那么在无法查清输入端侵权状况的情况下,也依然有可能通过其输出内容证明其输入端的数据使用情况。然而,对于生成式人工智能而言,其泛化能力让其显得更智能,却也使得输入输出之间计算过程的可解释性变得极为复杂。大模型对作品的使用之后呈现的结果,是这些作品经过算法黑箱的输出数据。生成式人工智能的算法会提取“投喂”数据的特征,但也会“随机”改变其中的一些特征,生成新的特征。从算法层面来说,生成式人工智能最终的生成结果,很难评价为哪一个特征是出自哪一个“投喂”数据的训练。

因此,如果只能通过输出内容去证明或者查明侵权事实,那么生成式人工智能输出端内容的著作权侵权问题所涉及的窘困,也同样会复现在生成式人工智能输入端的数据“投喂”侵权问题上。就生成式人工智能输出端内容的著作权侵权问题而言,早在传统人工智能时代,就已经有研究者预见性地提出,应当放宽实质性相似的认定标准以约束人工智能技术规避其生成物的实质性相似风险[19]。然而,生成式人工智能这种输入端到输出端算法可解释性的复杂性,不仅使得其输出端输出内容是否存在著作权侵权问题,难以借助此前在实践中发展出来的整体观察法、抽象观察法等实质性相似的判断标准,也使得其输入端的数据使用情况变得难以举证、难以查明。

02归责困境

即便能够查明生成式人工智能在大模型训练的数据“投喂”中存在对未获许可作品的使用,在责任主体确认方面也依然存在新技术带来的新问题。现实中,无法完整获取生成式人工智能大模型训练数据的著作权人,凭借生成式人工智能的输出结果证明或查明生成式人工智能在训练数据“投喂”方面存在侵权可能是为数不多的现实路径。基于这一前提,生成式人工智能一方有充分的抗辩以摆脱己方法律责任。

生成式人工智能的输出内容,一方面依赖于海量数据的训练,另一方面也是基于与用户的互动。海量数据“投喂”的训练过程,使得生成式人工智能逐步形成生成特定内容的能力,而生成式人工智能与用户的互动过程,则使得生成式人工智能的输出相对特定化。即便著作权人能够证明生成式人工智能的输入端必然存在对未获许可作品的“投喂”,但由于在生成式人工智能的语境下,“投喂”的主体可能涉及用户和生成式人工智能两方,可能的侵权主体自然也并不具有唯一性。

造成这一归责困境的原因,同样在于生成式人工智能输入端到输出端之间算法可解释性的复杂性。换言之,即使明知存在过错,著作权人也好,司法也罢,均很难在法律事实层面查明责任人到底是生成式人工智能的服务提供者一方,还是生成式人工智能的用户一方。

03惩戒困境

令侵权人承担责任,是对侵权行为予以惩戒的重要手段。根据我国《著作权法》第五十一条,如若生成式人工智能大模型的数据“投喂”的确存在侵权,侵权人应当承担的责任可能有停止侵害、消除影响、赔礼道歉、赔偿损失等。

如何确定赔偿损失的数额这一问题本身,一直是知识产权研究领域的难点问题。在此前的著作权纠纷案件中,利润损失、侵权所得等其他计算规则往往被束之高阁,而法定赔偿的适用比例则畸高,甚至被诟病存在滥用[20]。对于生成式人工智能的数据“投喂”侵权而言,这一赔偿损失数额的确定,则因为生成式人工智能的生成特征与盈利模式的复杂性而变得更加困难。如前所述,生成式人工智能对作品的使用,在多大程度上影响了生成式人工智能的生成结果,进而又在多大程度上造成了著作权人的利润损失或在多大程度上贡献了侵权利润,因为输入端到输出端算法可解释性的复杂性而难以评估。生成式人工智能对未获许可作品的使用结果,与其说是,生成了相似的内容,不如说是通过对作品的使用而获得了与作品作者相似的创作能力。在生成式人工智能的盈利模式尚未在行业内形成稳定规则的情况下,对于生成式人工智能的生成内容的获利情况本就难以计算,如果要通过评估生成式人工智能学习了被“投喂”的作品之后形成的生成能力的获利情况,则更为抽象。

更为棘手的是,停止侵害、消除影响等责任承担,很可能在生成式人工智能这一特殊对象上失效。目前,生成式人工智能的训练在实践中一般是单向递进,不可回撤的。许多研究表明,曾经的侵权“投喂”训练的“贡献”可能一直会持续在生成式人工智能后续的内容生成中产生作用,生成式人工智能对著作权人的权利侵害可能会一直存在。由于生成式人工智能算法的复杂性,如果已经通过“投喂”特定的数据,获得了特定的内容生成能力,如何停止对被“投喂”作品的侵权、消除侵权“投喂”的影响,就目前的客观现实而言,仍然是掌握在生成式人工智能一方,无论是权利人还是法院执行部门在现实中很可能因为缺乏专业技术能力而无法确认侵害是否停止、影响是否消除。换言之,此前的数据侵权还可以通过删除数据的方式实现“停止侵害”的目的,但对生成式人工智能而言,停止侵害、消除影响实质上很可能变得不可执行或难以验证。

因此,生成式人工智能的技术特性,很可能会架空现行著作权法体系中对侵权人所设定的责任,继而也就虚化了可能的惩戒手段。


part 4 训练数据“投喂”规制框架的应然建构

在生成式人工智能大模型训练数据“投喂”侵权这一问题上可能面临的惩戒困境,一定程度上反映了既有著作权保护制度供给的相对不足。如前所述,生成式人工智能的发展离不开高质量的数据“投喂”,数据的“投喂”对于生成式人工智能而言不啻为基础设施建设。生成式人工智能内容输出质量的提升也能够丰富审美情趣,提供创意灵感,反哺原创生态。但生成式人工智能的数据“投喂”不能以牺牲原创作者权益、打击原创作者智力投入为代价。生成式人工智能的高质量发展,也离不开良好的软硬规范的设置。从更宏观的维度上看,不只是数据的“投喂”,生成式人工智能的全供应链生态也在催促新的规制模式。生成式人工智能相较于传统的人工智能是一种典型的破坏性创新,这种破坏性创新必然带来对旧技术的冲击、竞争和替代,也当然会倒逼人工智能规制范式的改革[21]。对于生成式人工智能大模型训练数据“投喂”行为的规制,应当兼顾生成式人工智能发展需要与内容创作者权益保护需要,充分考虑作为破坏性创新的生成式人工智能的积极效果,平衡既有著作权人的利益保护与创新成本的降低之间的冲突与矛盾,针对生成式人工智能大模型训练数据“投喂”侵权的维权困境,探索破解工具,逐步完善规制路径,最终促进人机协同的内容生产。

01 作品“投喂”的法律适用

近年来,随着经济发展模式的转变,数据作为新型生产要素的价值日益凸显,数据要素的合规流转本就是当下的立法热点问题。202212月印发了《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《数据二十条》),从产权、流通交易、收益分配与规制等方面提出了规范数据秩序的规则[22]。但《数据二十条》提出的数据产权结构性分置制度等,更多的是基于数据财产权的设计,主要针对的是也并不是具有独创性的作品。其后,关于数据秩序的规则构建,亦有大量研究。近年来,以《中华人民共和国个人信息保护法》《数据安全法》等多部专门法为代表的以数据财产权为核心的数据秩序建构,对于生成式人工智能大模型训练数据“投喂”的规制,当然具有效用,训练“投喂”的数据当然也可能涉及公共数据、企业数据、个人数据或者个人信息[23-24]。但这些数据秩序规则的对象同样也主要是非独创性、不纳入著作权范畴予以保护的这部分数据[24]。而本文重点讨论的生成式人工智能大模型训练的这部分“投喂”数据,是指那些作品或具有独创性的智力成果,数据只是这些作品在生成式人工智能大模型训练输入端的物理形态而已。

因而,针对具有独创性的这部分“数据”的“投喂”,其基础制度构建,需考虑保护的理念和权利客体要件等问题,应当仍然以著作权为核心,而不宜简单地归入公共数据、企业数据等数据要素的合规流转。如前所述,鉴于生成式人工智能大模型训练过程中对于未获许可作品的“投喂”,构成对作品的使用,那么对于这一作品的使用所涉及的侵权问题应当适用著作权规则予以规制和惩戒。

02 归责的特别规定

针对生成式人工智能的大模型训练“投喂”未获许可作品的侵权行为规制,可以考虑对侵权责任的认定与举证责任分配作出特别规定,以便在侵权行为发生后更高效地为权利人提供救济。

归责原则,是确认不同种类侵权行为所应承担民事责任的标准和原则,决定着一定侵权行为的责任构成要件、举证责任的负担、免责条件、损害赔偿的原则和方法等[25]。《中华人民共和国民法典》(以下简称《民法典》)第一千一百六十五条第一款明确了侵权责任承担的前提是行为人存在过错,并通过第二款明确了适用过错责任推定的法定原则。在多元归责原则体系中,过错责任是普遍适用于各种侵权行为的一般原则,有着悠久的历史渊源[26]。过错其实是对行为人注意义务的评价,在一些特殊的侵权场景中,被侵权人很难有能力对侵权人的注意义务作出评价。因而,过错推定原则依附于过错责任原则而产生。

过错推定原则是过错责任原则的特殊表现形式。对于特殊知识产权侵权,我国适用的就是过错推定原则。我国相关研究人员于20238月起草的《人工智能法示范法1.0(专家建议稿)》在人工智能的民事侵权责任设定上,也采用了过错推定原则。

王利明教授将过错推定责任的适用归结为两方面原因:一方面,由于科技的发展,新设备、新产品相继问世,致损原因并不是通过一般常识就能判断,而需要高度的科学知识才能识别;另一方面,由于加害人往往控制了致损原因,而受害人对此种原因又常常

处于无证据状态[27]。这两方面的原因,归结起来,其实就是举证能力的问题。换言之,过错推定原则的引入,在某种程度上就是源于消除当事人双方举证能力的客观差异的实体正义与程序公正维度的价值考量。这种差异在生成式人工智能领域的体现相对显著。

对于训练数据“投喂”侵权而言,作为侵权一方的向大模型“投喂”数据的生成式人工智能服务的提供者与作为被侵权一方的被“投喂”数据的著作权人,在证明能力方面存在显而易见的强弱差异,证据也存在不言而喻的偏在情形。

一方面,从获取证据的可能性层面,被侵权人距离证据远,而侵权人距离证据近。事实上,侵权人完全有能力掌控全部证据,而被侵权人几乎没有取得侵权人“投喂”数据的可能性,在侵权事实证据方面存在明显的证据偏在。事实上,不仅被侵权人可能很难获取生成式人工智能输入端的“投喂”数据集合,往往连输出端的数据复制可能都存在障碍。例如,百度的文心一言、科大讯飞的SparkDesk等均通过用户协议,明确将平台及其服务输出内容的知识产权,约定为己方所有,用户对其服务输出内容的使用需要得到平台的书面同意[2829]

另一方面,从证据的专业性层面,被侵权人即便获取了可能被“投喂”的数据,也很难完善整个证据链证明对方的确“投喂”了未获许可作品,而具有解释能力的恰恰是侵权人本身。更何况,“投喂”的数据在生成式人工智能的训练过程中可能存在多次编辑,在此种情形下,试图证明大型语言模型的训练者侵犯知识产权和数据权益就甚为困难[30]。对于举证责任分配,举证可能性本身就是重要的考量。一般而言,当证据偏在造成双方当事人的证明能力明显不对等时,引入举证责任倒置的必要性就产生了[31]

对于在市场上具有领先地位的生成式人工智能服务的提供者,由于其从数据到算力的领先地位,事实上已经嵌入当今社会的公共生活。推出生成式人工智能服务的腾讯、阿里、百度等企业,同时也接入大量的公共服务,某种程度上也是我国数字化基础设施的搭建者,理论上,完全可能存在“监守自盗”的便利。因此,对于生成式人工智能服务的提供者,要求其负担相较于普通的市场主体更多的义务,也是符合《民法典》关于各方权利义务确定的公平原则的当然之举[32]。《暂行办法》第十九条也规定了,在接受监督检查时,生成式人工智能服务的提供者,有说明训练数据来源以及提供必要支持和协助的义务。这在某种程度上,其实也是在立法尚无法系统性地及时回应生成式人工智能的特殊规制需求的情况下,行政管理分支的先行回应。2023年,欧盟在《AI法案》中针对ChatGPT等生成式人工智能,设定了披露用于训练的受版权保护数据的摘要的义务[33]

需要补充的是,对于训练数据“投喂”著作权侵权的过错推定,并不意味着作为被告一方的生成式人工智能服务的提供者在诉讼中需要对全部事由负担完全的举证责任,原告一方仍然需要对发动诉讼的特定事由承担一定的举证责任[34]。因此,对训练数据“投喂”著作权侵权的归责作出特别推定,并不至于让生成式人工智能服务的提供者陷入从原告角度而言几乎无成本的恶意诉讼之中。

03 技术性授权机制的创设

如前所述,生成式人工智能的训练数据大部分来源于网络爬虫的爬取。机器人协议(robots协议)已经成为爬虫在网络上爬取数据的通用规则,也载入了我国《互联网搜索引擎服务自律公约》[35]。该协议在互联网发展初期,事实上构建了互联网数据共享的基本秩序。但此前搜索引擎的爬虫技术对数据的使用体现为网络链接、快照,而生成式人工智能大模型训练所使用的爬虫技术往往涉及一定时间内、稳定地存储所爬取的数据。一方面,这种存储行为会被认为构成了著作权法意义上的复制;另一方面,生成式人工智能大模型的训练还涉及对爬取数据的“使用”,这又与搜索引擎对爬取数据的“使用”有本质区别[36]。因此,一般而言,搜索引擎对网络数据的爬取,并不必然构成著作权的侵权,但生成式人工智能在大模型训练时的数据爬取因为涉及存储、使用而面临更大的著作权侵权风险。

此前就有研究者指出,由于生成式人工智能使用网络爬虫技术获取互联网数据时,依照现有的技术方案,其实无法准确判定所获取数据的知识产权权利状态,相应的著作权人其实也难以获知其在网络上发布的作品是否被爬取并被“投喂”给生成式人工智能的大模型,因此必然产生极大的规制空白[37]。简言之,此前消除了内容创作者对互联网搜索引擎侵权担心的机器人协议,无法覆盖生成式人工智能在大模型训练时对作品的“投喂”行为,使其摆脱侵权风险。

为了消除这一规制空白,可以参照搜索引擎技术发展初期机器人协议的创设,设置受著作权保护作品的爬取与使用的技术规则。具体而言,首先,可以构建在网络上发布、存储作品的“投喂”授权技术规则,在是否允许网络爬虫爬取的基础上,将是否允许用于生成式人工智能训练的规则语法设定为必要规则。其次,接受作品上传、发布的网络服务提供者,应当将上述规则的设定权限交于上传、发布作品的用户,并且上述规则的默认设置应当是禁止生成式人工智能对用户作品的使用,而不能通过用户协议的方式强制获取授权。目前内容创作者反应最激烈的部分,也在于开发生成式人工智能的互联网公司,几乎都在他们的服务协议中约定了对用户上传作品的使用权,而将用户作品“投喂”给他们开发的生成式人工智能也都被概括性条款所覆盖[38]。为了更好保护这些用户的权益,这一选择权的设定,也可以作为对接受作品上传、发布的网络服务提供者的法定义务进行设定。

这种技术性授权机制的设定,虽然不能解决大量著作权人与生成式人工智能服务提供者之间关于训练“投喂”数据的一对一授权效率问题,但至少能够从输入端相对高效且经济地解决那些不愿用于生成式人工智能大模型训练的数据的排除问题,减少“投喂”数据的侵权风险。由于网络爬虫技术和技术性授权识别的自动化,内容创作者有理由相信遵从这一技术协议的生成式人工智能不至于再冒着更为明确的侵权风险去“投喂”他们的作品,也不再仅仅因为担忧网络爬虫对自己发布在网络上作品的劫掠而不得不退出作品交流网络社群。

不难发现,这一技术协议并不具有法律的强制性,更多的是行业自律规范发挥作用。但鉴于法律的保守性、刚性等特征难以跟上日新月异的科技发展的脚步,研究者们普遍认为,对于人工智能的规制,应当重视多视角的、综合性的、社群指向的“软法”方式的价值[39]。国家标准化管理委员会等五部门2020年印发的《国家新一代人工智能标准体系建设指南》特别强调了国家、行业和团体等不同层级人工智能产业标准的制定对产业规范化发展的引领作用[40]2023101日起施行的《互联网信息服务深度合成管理规定》第五条,也提出鼓励行业自律,明确肯定了行业标准、准则以及自律管理制度对于规范相关服务的价值[41]。因此,作为可行且有效的事前预防手段,行业自律理应成为生成式人工智能大模型训练“投喂”数据侵权规制框架构建中不可或缺的部分。

04机器遗忘”强制性规范的引入

对于生成式人工智能大模型训练数据“投喂”的规制,除了事中的纠纷解决机制的特别规定,技术层面的事前预防机制建立,还应当有技术层面的事后规制手段,这一规制链条方才基本完整。

鉴于目前生成式人工智能的解码能力,一旦独创性作品的特征被生成式人工智能的Transformer算法解析,事实上就已经内化成为生成式人工智能后续输出的能力。如果要为被侵权人提供理想的救济,移除被非法“投喂”作品对于生成式人工智能大模型的影响,是十分必要的。在美国《纽约时报》与OpenAI、微软的侵权诉讼中,原告就要求被告销毁使用《纽约时报》版权材料的所有AI模型和训练数据[42]。《暂行办法》第十四条也要求生成式人工智能服务的提供者在发现违法内容后,除了采取停止生成等常规措施之外,还应当采取模型优化训练等措施以消除违法内容的影响。

机器遗忘(Machine Unlearning)这一概念,正是随着人工智能发展过程中机器学习(Machine Learning)这一概念的提出而提出的。机器遗忘的最初提出是为了消除机器学习过程中对于敏感个人信息的使用影响[43]。虽然生成式人工智能大模型的训练过程很难解释,但机器遗忘在技术上已经具有实现可能,目前已经有SISA算法等多种方案实现数据对大模型影响的完全消除或近似消除[44]。机器遗忘不仅在技术上已经具有可行性,在经济上,机器遗忘也是更具效率的解决消除特定数据对大模型影响的方式。机器遗忘能够避免对整个大模型的重新训练,能够在保留原来训练效果的基础上实现对著作权的保护,从而以较小的成本实现大模型的合规调整[45]。研究人员仍在持续改进算法,以进一步降低机器遗忘的学习成本。

从侵权者的义务设定角度来看,生成式人工智能的服务提供者或者研发者也应当负担避免其大模型持续享有被侵权“投喂”作品的贡献的义务。从事实层面而言,生成式人工智能的服务提供者或研发者完全能够基于行业的技术现状以合理的成本承担该义务。从价值层面而言,无论是从侵权过错认定的一般原理,还是从保护受害人权益,抑或从我国将通知—删除规则一体适用于各种网络服务提供者类型的传统来看,也应当对生成式人工智能的服务提供者或研发者课以“机器遗忘”义务[46]

但目前的机器遗忘,既未成为生成式人工智能行业的自律准则,亦未成为强制性技术规范,尤其是目前的机器遗忘解决方案更多的是生成式人工智能服务提供者的自我调整,而并未考虑向监管或第三方审计开放的问题。因此,有必要通过立法的方式,确立生成式人工智能的“机器遗忘”强制性技术规范,确保在侵权发生后,“停止侵害”“消除影响”等救济手段能够从技术层面得到有效执行和监督。




part 5 结语

随着生成式人工智能服务应用的落地,世界各国关于人工智能立法的探索也开始加速,相关争议也将持续成为相关各方热议的焦点。生成式人工智能大模型的训练,在当前的发展阶段,理论上的确存在侵犯著作权人权益的风险。

在生成式人工智能的生成内容的可版权性问题的讨论中,支持者往往会强调生成式人工智能大模型的创作能力,而认为人类在这一“生成”过程中缺乏强控制力,人类在这一“生成”过程中对生成式人工智能发出一系列指令的行为也不能被单独评价为著作权法上的“创作”[47]。如果保护生成式人工智能输出端的生成内容的著作权,却不保护在输入端被生成式人工智能的大模型“吞噬”的作品的著作权,无异于区别对待生成式人工智能与对受保护作品的使用,其后果必然是默许甚至可以说是鼓励生成式人工智能对现有原创作品的肆意“洗稿”。让生成式人工智能,以技术中立等理由,架空著作权保护体系对著作权人进行独创性创作的激励与保护,对生成式人工智能的长远发展并无益处。

即便是生成式人工智能可能会改变人类的知识生产方式,甚至“涌现”人类自己都不曾发现的新知识,但人类在创造、批判思考和情感判断上的独特能力不会被生成式人工智能替代[48]。因此,生成式人工智能的未来发展,仍然依赖于人类的独创性作品的持续“投喂”,而独创性作品必然属于著作权所保护的客体[49]。基于促进生成式人工智能发展的立场,有研究者将生成式人工智能训练数据中对作品的使用,界定为“非特定性”的生产过程性使用,也就是“非作品性使用”,继而将这种使用排除在著作权权利范围之外[50]。但并非所有的作品,都被分解为碎片化的“语料”,一律将训练数据对所有作品的使用界定为“非作品性使用”,势必将损害特定创作者的权益。为了激励真正具有独创性的作者持续产出,也为了生成式人工智能的长远发展,应当强化对生成式人工智能大模型训练数据“投喂”的规制。

此前的生成式人工智能更多的是一种技术上的自我发展,此后生成式人工智能生态链中的各方参与者应当更多地参与到基础制度构建和行业自律规范完善中来,肩负起更多的社会责任,探索更有利于平衡不同利益的制度。例如,知名图库Shutterstock设立了“贡献者基金”,对被用于“投喂”的作品的著作权人提供补偿,这一制度可否上升为行业的自我约束,成为补偿著作权人因作品“投喂”生成式人工智能后失去交易机会的常态机制,甚至成为未来修改著作权合理使用制度以免去“投喂”数据的授权的配套补偿机制,都需要利益相关方形成共识。前述关于赔偿损失数额司法标准的讨论缺失,很大程度上也需要通过总结提炼实践中纠纷各方的协商经验来弥补。

生成式人工智能的规制,其实是国际社会面临的共同挑战。生成式人工智能如若真正发展成为生产力工具,必然涉及跨国境的数据“投喂”。因此,生成式人工智能大模型训练中数据“投喂”的规制,还需要考虑国际协作或国际接轨等问题,在当前的规制环境下,如何凝聚共识形成生成式人工智能大模型训练中数据“投喂”的著作权侵权风险规制的通行规则,将是需要各国协作的现实问题。




参考文献

[1]The state of AI in2023:generative AI's breakout yearDB/OL.(2023-08-01)[2024-04-20].https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2023-generative-AIs-breakout-year.

[2]李玉洋.AI治理迫在眉睫[N].中国经营报,2023-04-03(C03).

[3]停更、逃离、迷茫:原创画师与AI绘画的抗争[DB/OL.(2023-10-13)[2024-04-20].https://www.nfpeople.com/article/12597.

[4]逯海涛.AI投喂数据应取之有道[N].浙江日报,2023-11-22(007).

[5]'New York Times' sues ChatGPT creator OpenAI,Microsoft,for copyright infringementDB/OL.https://www.npr.org/2023/12/27/1221821750/new-york-times-sues-chatgpt-openai-microsoft-for-copyright-infringement.

[6]梁宏涛,刘硕,杜军威,.深度学习应用于时序预测研究综述[J].计算机科学与探索,2023,17(6):12851300.

[7]Documenting Large Webtext Corpora:A Case Study onthe Colossal Clean Crawled CorpusDB/OL.(2021-04-18)[2024-04-20].https://doi.org/10.48550/arXiv.2104.08758.

[8]张熙,杨小汕,徐常胜.ChatGPT及生成式人工智能现状及未来发展方向[J].中国科学基金,2023,37(5):743750.

[9]胡泳,刘纯懿.大语言模型“数据为王”:训练数据的价值、迷思与数字传播的未来挑战[J].西北师大学报(社会科学版),2024,61(03):4354.

[10]TOM B.Brown,Benjamin Mann,Nick Ryder etc.LanguageModels are Few-Shot Learners[J/OL].arXiv:2005.14165.https://doi.org/10.48550/arXiv.2005.14165.

[11]潘香军.论机器学习训练集的著作权风险化解机制[C].《上海法学研究》集刊2023年第6卷——2023年世界人工智能大会青年论坛论文集.《上海法学研究》集刊2023年第6卷——2023年世界人工智能大会青年论坛论文集.上海市法学会,2023:165176.

[12]Authors Guild v.OpenAI Inc.(1:23-cv-08292)DB/OL.(2023-09-19)[2024-04-20].https://www.courtlistener.com/docket/67810584/authors-guild-v-openai-inc/.

[13]刘友华,魏远山.机器学习的著作权侵权问题及其解决[J].华东政法大学学报,2019,22(2):6879.

[14]王迁.《著作权法》修改:关键条款的解读与分析(上)[J].知识产权,2021(1):2035.

[15]熊琦.著作权合理使用司法认定标准释疑[J].法学,2018(1):182192.

[16]周子凡.生成式人工智能对就业的影响及应对之策[J].当代经济,2023(10):4652

[17]熊琦.论著作权合理使用制度的适用范围[J].法学家,2011(1):86178.

[18]最高人民法院发布2022年中国法院十大知识产权案件[DB/OL.(2023-04-20)[2024-04-20].https://www.chinacourt.org/article/detail/2023/04/id/7254550.shtml.

[19]刘强,孙青山.人工智能创作物著作权侵权问题研究[J].湖南大学学报(社会科学版),2020,34(3):140146.

[20]朱玛.侵害知识产权损害赔偿问题研究[D].重庆:西南政法大学,2015.

[21]毕文轩.生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为视角[J].比较法研究,2023(3):155172.

[22]中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见[DB/OL.(2022-12-19)[2024-04-20].https://www.gov.cn/zhengce/202212/19/content_5732695.htm.

[23]夏志强,闫星宇.作为漂流资源的个人数据权属分置设计[J].中国社会科学,2023(4):164208.

[24]王利明.数据何以确权[J].法学研究,2023,45(4):5673.

[25]吴汉东.知识产权保护论[J].法学研究,2000(1):6879.

[26]王利明.我国《侵权责任法》归责原则体系的特色[J].法学论坛,2010,25(2):710.

[27]吴汉东.知识产权侵权诉讼中的过错责任推定与赔偿数额认定——以举证责任规则为视角[J].法学评论,2014,32(5):124130.

[28]文心一言用户协议[DB/OL.(2023-10-31)[2024-04-20].https://yiyan.baidu.com/infoUser.

[29]SparkDesk用户协议[DB/OL.(2023-09-04)[2024-04-20].https://www.xfyun.cn/doc/spark/ExperienceRules.html.

[30]苏宇.大型语言模型的法律风险与治理路径[J].法律科学(西北政法大学学报,2024(1):7688.

[31]李浩.举证责任倒置:学理分析与问题研究[J].法商研究,2003(4):8794.

[32]丁晓东.论算法的法律规制[J].中国社会科学,2020(12):138203.

[33]严格监管ChatGPT,全球首个AI法案立法在欧盟内部迈出第一步[DB/OL.(2023-05-13)[2024-04-20].https://new.qq.com/rain/a/20230513A055CU00.

[34]王利明.论举证责任倒置的若干问题[J].广东社会科学.2003(1):150158

[35]互联网搜索引擎服务自律公约[DB/OL.(2021-12-08)[2024-04-20].https://www.isc.org.cn/article/10677720886931456.html.

[36]李凡迪,徐家力.数据爬虫侵权行为研究[J].汕头大学学报(人文社会科学版),2021,37(8):7596.

[37]袁曾.生成式人工智能治理的法律回应[J].上海大学学报(社会科学版),2024,41(1):2839.

[38]刘友华,魏远山.机器学习的著作权侵权问题及其解决[J].华东政法大学学报,2019,22(2):6879.

[39]郑志峰.人工智能立法的一般范畴[J].数字法治,2023(6):5575.

[40]国家新一代人工智能标准体系建设指南[DB/OL.(2020-07-27)[2024-04-20].https://www.gov.cn/zhengce/zhengceku/202008/09/content_5533454.htm.

[41]互联网信息服务深度合成管理规定[DB/OL.(2022-11-25)[2024-04-20].https://www.gov.cn/zhengce/zhengceku/202212/12/content_5731431.htm.

[42]李若一,李悦.大模型时代的版权边界在哪里[N].中国青年报,2024-01-30(006).

[43]SAI S,MITTAL U,CHAMOLA V,et al.Machine un-learning:An overview of techniques,applications,andfuture directions[J].Cogn Comput16,482506(2024).https://doi.org/10.1007/s12559023102193.

[44]Machine Unlearning:Solutions and ChallengesarJ/OL.Xiv:2308.07061v1[cs.LG].https://doi.org/10.48550/arXiv.2308.07061.

[45]郁建兴,刘宇轩,吴超.人工智能大模型的变革与治理[J].中国行政管理,2023,39(4):613.

[46]徐伟.论生成式人工智能服务提供者的法律地位及其责任——以ChatGPT为例[J].法律科学(西北政法大学学报),2023,41(4):6980.

[47]徐小奔.论人工智能生成内容的著作权法平等保护[J/OL].中国法学:166185[2024-02-06].https://doi.org/10.14111/j.cnki.zgfx.2024.01.009.DOI:10.14111/j.cnki.zgfx.2024.01.009.

[48]米加宁,董昌其.大模型时代:知识的生成式“涌现”[J].学海,2024(1):81215.

[49]王国柱.著作权法中作品独创性的作品类型逻辑[J].法商研究,2024,41(1):183200.

[50]刘晓春.生成式人工智能数据训练中的“非作品性使用”及其合法性证成[J].法学论坛,2024,39(3):6778.