開展模型訓練的合理使用
生成式人工智能全生命周期主要階段包括模型訓練、應用運行和模型優化等階段,涉及開發者、服務提供者、服務使用者等多方主體。模型訓練階段涉及大量數據收集、數據清洗、分詞后用于模型訓練和驗證。生成式人工智能的數據來源主要分為兩個部分:第一部分為生成式人工智能的訓練數據庫,內容幾乎涵蓋所有能收集到的人類數字化信息,包括公共數據、網絡信息、數字化圖書、自媒體對話數據集、報紙雜志、科學論文等,可能遭遇知識產權瓶頸;第二部分為生成式人工智能在服務用戶的過程中所收集和輸出的信息,也就是人工智能合成數據收集,可以減少知識產權風險。生成式人工智能的治理應順應技術發展給社會生產帶來的變化,改變原有的“技術支持者—服務提供者—內容生產者”的監管體系,構建“基礎模型—專業模型—服務應用”的生成式人工智能分層治理體系。
從輸入端看,訓練數據來源的合法合規問題十分突出,生成式人工智能需要進行海量的閱讀和攝取,在海量數據的攝取過程中,包括爬蟲技術無法識別抓取內容的著作權問題,已經成為生成式人工智能合規發展中制約性的難題?!渡墒饺斯ぶ悄芊展芾頃盒修k法》規定:“生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,使用具有合法來源的數據和基礎模型;不得侵害他人依法享有的知識產權;涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形。”該條款的主要目的是規范生成式人工智能服務提供者數據來源的合法性問題,如果數據來源不合法不合規,該產品將無法進入市場應用階段。從輸出端來看,終端用戶、模型提供者的生成內容是否擁有著作權,人工智能服務的提供者生成的內容是否侵權,都是法律監管和司法實踐中面臨的難點問題。
在大模型產業快速發展和應用的過程中,圍繞創作激勵與產業發展的作品使用行為性質面臨諸多爭議,目前已發生多起作者、版權方針對生成式人工智能模型訓練過程中未經授權的作品使用行為提起訴訟。近期,四位繪畫創作者將某社交平臺訴至法院,訴稱其未經授權使用了原告的原創作品作為訓練數據,從而生成與原作高度相似的圖片,侵犯其創作者的合法權益,目前案件仍在審理中。去年廣州互聯網法院開庭審理并一審判決被稱為“全球AIGC平臺侵權第一案”。原告發現被告經營的網站具有AI對話及AI繪畫功能,其生成的奧特曼形象與原告公司獲得獨占性授權以及獨立維權權利的奧特曼形象構成實質性相似,遂向法院提起訴訟,爭議焦點是人工智能生成內容的著作權定性問題及應用中對作品使用的合法性問題。廣州互聯網法院最終認定,網絡平臺作為生成式人工智能服務提供者未盡合理注意義務,未采取措施避免侵權行為,違反了《生成式人工智能服務管理暫行辦法》《互聯網信息服務深度合成管理規定》。被告AI公司未經許可,復制了案涉奧特曼作品,構成直接侵犯奧特曼著作權的復制權;上述行為構成對案涉奧特曼作品的改編,且被告未經許可,改編了案涉奧特曼作品,侵犯了原告對案涉奧特曼作品的改編權,并責令其停止侵權行為,賠償原告經濟損失。該案例的重要性在于確立了網絡平臺作為人工智能服務提供者的責任邊界,在司法上落實了《生成式人工智能服務管理暫行辦法》《互聯網信息服務深度合成管理規定》的合規要求。
人工智能生成內容的著作權問題
《民法典》規定網絡服務提供者責任承擔的一般原則,即網絡服務提供者無須為用戶利用網絡服務的侵權行為承擔責任,但對于其知道或應當知道的網絡用戶侵權行為應及時采取必要措施以避免損害擴大。在人工智能面向終端用戶提供服務的場景下,生成內容是算法自身基于對人工智能服務使用者輸入內容的理解,通過算法生成的方式完成。由于人工智能需要利用現有作品進行模型訓練,通過依賴訓練作品形成的算法模型產生人工智能生成內容,不可避免的攜帶訓練作品的記憶或痕跡,可能呈現出訓練作品的某些元素、特征、風格等。如果人工智能生成內容與訓練作品在表達上構成實質性相似狀況,則可能存在侵權風險。目前我國《著作權法》中著作權屬主體不包括人工智能模型,因此人工智能模型本身是否能夠成為《著作權法》保護的主體存在爭議。在當下的司法實務中,通常是由生成式人工智能的使用者向法院請求著作權保護的方式進行維權。北京互聯網法院近期針對人工智能生成圖片作品(AI繪畫圖片)著作權侵權糾紛作出一審判決,認定人工智能生成的圖片作品體現了原告的智力投入,具備“智力成果”要件和“獨創性”要件,應當認定為作品,受《著作權法》保護,體現了人工智能繪畫作品保護的司法創新。人類大量投入研發、優化的人工智能算法生成的內容應當被認定為滿足“創造性”的要求。法院認可自然人對其利用人工智能繪畫大模型生成圖片在符合一定條件下享有知識產權,有利于保護和強化人在人工智能產業發展中的主導地位,鼓勵人們使用人工智能軟件創作更多高質量作品,促進新技術、新業態的健康發展。該判決填補了人工智能技術快速發展導致《著作權法》保護滯后的空白。
利用海量的數據進行深度學習、訓練并調用,很可能涉及他人仍在著作權保護期內的作品?!渡墒饺斯ぶ悄芊展芾頃盒修k法》明確規定,生成式人工智能開展訓練數據處理活動應當使用合法來源的數據,不得侵害他人知識產權。如果生成式人工智能深度學習、訓練、調用的數據中,涉及他人仍在著作權保護期內的作品,或者有他人公開的具有競爭利益的數據或者素材,但未經他人特別授權的,是否會構成侵權或者不正當競爭?根據《著作權法》第五十二條的規定,剽竊他人作品的,“未經著作權人許可,以改編、翻譯、注釋等方式使用作品的(本法另有規定的除外)”,均構成對他人著作權的侵權行為,應依法承擔侵權民事責任。所以,生成式人工智能服務提供者通過其人工智能生成并輸出的內容,與他人仍在著作權保護期內的在先公開作品構成實質性相似的,只要未經著作權人許可,應當構成對他人著作權的侵犯,承擔侵權責任。
關鍵詞:
凡注有"環球傳媒網"或電頭為"環球傳媒網"的稿件,均為環球傳媒網獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網",并保留"環球傳媒網"的電頭。