如何界定人工智能數(shù)據(jù)訓練中使用作品的侵權
發(fā)布時間:
2025-02-14
在生成式人工智能數(shù)據(jù)訓練過程中,未經著作權人許可的作品使用行為面臨著侵權風險。本文作者認為,生成式人工智能數(shù)據(jù)訓練中使用作品的行為屬于“表達性使用”,我國現(xiàn)行合理使用制度難以涵蓋基于生成式人工智能數(shù)據(jù)訓練的目的而使用作品的行為,數(shù)據(jù)訓練中使用作品的行為可能侵犯原作品作者的復制權。
焦和平 李澤僖
伴隨著科學技術的進步,人工智能技術的發(fā)展勢頭方興未艾。人工智能在給大眾帶來巨大經濟紅利與生活便利的同時,也產生了一系列法律問題,其中生成式人工智能數(shù)據(jù)訓練階段使用作品的著作權法定性問題備受爭議,也就是說,使用他人享有著作權的作品進行生成式人工智能數(shù)據(jù)訓練究竟屬于著作權侵權行為,還是合理使用行為,甚至是與著作權法無關的行為?學界有部分觀點認為,此類行為不屬于著作權侵權,著作權人無權限制他人將其作品用于數(shù)據(jù)訓練。筆者將分析數(shù)據(jù)訓練中使用作品涉及的著作權權利范圍,探尋我國現(xiàn)行合理使用制度的內涵與邊界,進而對其進行著作權法定性。
明確權利范圍
分析數(shù)據(jù)訓練中使用作品的行為是否侵犯著作權,首先需要判斷該種使用行為是否落入著作權的權利范圍。有觀點認為,數(shù)據(jù)訓練中使用作品的行為屬于“非表達性使用”,從權利范圍階段排除了該種行為侵犯著作權的可能性。所謂“非表達性使用”,是指使用原作品的目的并非為了利用其具有獨創(chuàng)性的表達,而是將其作為一種事實性信息進行功能性利用,在使用結果上也未再現(xiàn)原作品的藝術價值。然而,筆者卻認為,生成式人工智能數(shù)據(jù)訓練中使用作品的行為屬于“表達性使用”。
生成式人工智能數(shù)據(jù)訓練中使用作品的目的是為了后續(xù)的“創(chuàng)作”,由此意味著人工智能對于數(shù)據(jù)的使用并非針對原作品的事實性信息,而是其中的獨創(chuàng)性表達。不同于將作品的名稱、作者、部分內容片段等信息提取以作功能性使用,如出于方便檢索或提出某一理念、想法的目的使用作品部分信息,人工智能在數(shù)據(jù)訓練過程中是將作品的全部內容用以學習來為后期的機器“創(chuàng)作”奠定基礎,故數(shù)據(jù)訓練自然不可避免地需要使用作品中的獨創(chuàng)性表達。顯然,這一使用的結果并非實現(xiàn)了所謂目的性或者功能性轉換,而是形成了與原作品有關聯(lián)的“新作品”,正是在這一意義上,人工智能創(chuàng)作對于數(shù)據(jù)作品的使用屬于“表達性使用”。
明晰制度邊界
某一對作品的使用行為即使落入了著作權的權利范圍之內,也依舊可能因構成合理使用而獲得著作權侵權豁免。有觀點認為,生成式人工智能數(shù)據(jù)訓練中使用作品的行為構成合理使用。筆者認為,我國現(xiàn)行合理使用制度難以涵蓋基于生成式人工智能數(shù)據(jù)訓練的目的而使用作品的行為。
首先,數(shù)據(jù)訓練中使用作品的行為與具體合理使用類型不符。我國合理使用制度采取封閉式的立法設計,即認定合理使用只能在我國著作權法列舉的具體類型清單中“對號入座”。數(shù)據(jù)訓練中使用作品的行為與“個人學習、研究”“科學研究”和“適當引用”三類合理使用類型最可能相符,但從法教義學的角度看,三種合理使用類型難以在數(shù)據(jù)訓練情形下得以適用:第一,由于“個人學習、研究”類合理使用要求主體限定在自然人,目的限定在“學習、研究”等非商業(yè)目的,而生成式人工智能數(shù)據(jù)訓練的主體通常是具備一定技術條件和物質條件的組織機構,且最終目的是完善人工智能以便未來投入市場收回成本和獲取收益,故不符合此合理使用類型的主體與目的要求。第二,“科學研究”類合理使用要求主體限定為國家設立的教育、科研公共事業(yè)單位,行為限定為對作品的少量復制,而生成式人工智能數(shù)據(jù)訓練涉及對海量作品的使用,故此合理使用類型也無法適用。第三,“適當引用”類合理使用要求使用作品的目的是為介紹評論某一作品或為說明某一問題,且使用行為應當具有適當性,即所引用的部分不能構成被引作品的主要部分或實質部分,生成式人工智能數(shù)據(jù)訓練中對作品的使用顯然不符合這兩個要求。
其次,數(shù)據(jù)訓練中使用作品的行為難以適用合理使用制度的一般條款。有觀點認為,可以通過著作權法“第一條規(guī)范目的條款+第二十四條兜底條款”模式將模型訓練納入合理使用。筆者認為,此種觀點存在兩個問題:第一,著作權法的規(guī)范目的縱使有促進技術進步之意,也并不能以此為由對人工智能模型訓練行為有所關照。從法律解釋的角度看,文義解釋、體系解釋的順位要優(yōu)于目的解釋。任何一項立法的規(guī)范目的都是通過具體的法律規(guī)范、法律規(guī)則來予以實現(xiàn),目的解釋不能超越對具體規(guī)則文本的涵蓋范圍,否則有肆意解釋之嫌。第二,我國著作權法第二十四條兜底條款規(guī)定“法律、行政法規(guī)規(guī)定的其他情形”,即當現(xiàn)行法律或行政法規(guī)對合理使用的情形有專門規(guī)定的,可以予以適用。一方面,我國目前并無法律、行政法規(guī)明確規(guī)定針對生成式人工智能數(shù)據(jù)訓練的合理使用情形,故從文義、體系解釋的角度無法推導出模型訓練可以納入合理使用。另一方面,若結合我國著作權法第一條規(guī)范目的條款來對第二十四條兜底條款做擴張解釋,則在面對其他使用作品的行為時也可遵循此路徑擴大公有領域的范圍,會有向一般條款逃逸的風險。
確定侵權類型
生成式人工智能數(shù)據(jù)訓練中使用作品的行為屬于對作品的“表達性使用”,現(xiàn)行合理使用制度與模型訓練行為存在沖突,此種作品使用的行為屬于著作權侵權。基于本文單就數(shù)據(jù)訓練階段使用作品的行為做著作權法定性的分析,故人工智能最終生成結果所可能侵犯的著作權權利類型不在此分析范圍。筆者認為,數(shù)據(jù)訓練中使用作品的行為可能侵犯原作品作者的復制權。
在進行生成式人工智能數(shù)據(jù)訓練過程中,通常需要前期的數(shù)據(jù)收集和后期的機器學習。在前期數(shù)據(jù)收集階段,大量作品會以圖片、視頻、文字、音頻等多種形式作為模型訓練的內容。收集這些作品的行為,實際就是對已有作品在不改變內容情形下所進行的全文復制和原樣再現(xiàn),并且會存儲在機器中形成永久復制件,屬于著作權法意義上的“復制行為”。在后期機器學習階段,將前期數(shù)據(jù)收集的內容投喂給人工智能并進行深度學習的過程中,人工智能需要將作為創(chuàng)作素材的作品進行數(shù)字化處理并轉換為適合“機器閱讀”的標準數(shù)據(jù)格式。在將作品數(shù)字化處理以便于人工智能可讀的過程中,相關作品實際已經被全部復制并永久存儲在機器中,也屬于著作權法意義上的“復制行為”。
相關新聞
暫無數(shù)據(jù)

友情鏈接:

總 部:深圳市龍華區(qū)觀瀾街道高爾夫大道8號龍華科技創(chuàng)新中心(觀瀾湖)14棟13樓
總 部:
深圳市龍華區(qū)觀瀾街道高爾夫大道8號龍華科技創(chuàng)新中心(觀瀾湖)14棟13樓

分公司:湖北省武漢市江岸區(qū)塔子湖東路18號越秀星匯君泊B2座2808
分公司:
湖北省武漢市江岸區(qū)塔子湖東路18號越秀星匯君泊B2座2808

服務號

訂閱號
Copyright ?2016 深圳市深可信專利代理有限公司 版權所有 | 粵ICP備2021174526號
Copyright ?2016 深圳市深可信專利代理有限公司 版權所有 | 粵ICP備2021174526號 SEO標簽
Copyright ?2016 深圳市深可信專利代理有限公司 版權所有