在GPT、AI繪畫等人工智能大模型工具極為火熱的當下,數據再一次成為關注的焦點,成為與土地、勞動、知識等并駕齊驅的重要生產要素。這主要是因為,只有當用于AI大模型訓練的優質數據足夠多,才能產生足夠智能、足夠強大的AI工具。
那么,我們應該如何獲取數據?使用爬蟲工具雖然方便,但未經他人同意爬取數據的行為是否具有法律風險?今天颯姐團隊就與大家深入聊一聊應當如何正確使用爬蟲工具獲取數據。
使用爬蟲獲取數據有刑事風險?
時至今日,獲取數據,或者說數據流通的主流方式主要有兩種:一者是數據需求方與數據提供方達成協議,以開放端口(open API)的形式使得數據使用方獲取數據,該種方式合規性最好但成本較高,常見于商業數據流通領域;一者是數據需求方自行通過爬蟲軟件,自動取得存在于其他平臺上的數據。對于大模型AI來說,一般需要海量的數據進行訓練,因此純靠協議的方式一方面難以在短時間內獲取足夠多的數據,另一方面會導致訓練成本過高,因此使用爬蟲工具就成了無法回避的問題。
【資料圖】
那么,使用爬蟲工具獲取數據可能具有哪些刑事風險?制作爬蟲工具并自行使用,在未經數據來源方同意或違反robot協議的情況下,直接爬取大量數據的行為,司法實踐中常被認定為侵犯公民個人信息罪、侵犯商業秘密罪抑或是侵犯著作權罪,而具體構成何種犯罪則取決于行為人通過爬蟲工具實際取得了什么類型的數據。
侵犯公民個人信息罪
對于諸多數據分析公司、營銷公司和各種數據驅動型企業來說,公民個人信息的商業價值是巨大的,不僅可以將其用于用戶畫像、市場分析,還可以向公民定向推送商業廣告等,因此我國司法機關一直以來對侵犯公民個人信息的行為都保持著較為嚴厲的處理態度。
因此,如果行為人利用爬蟲爬取的是公民個人信息,有可能構成“侵犯公民個人信息罪”。這主要是因為以爬取公民個人信息是一種未經公民知情同意的非法獲取的行為。《刑法》第二百五十三條之一第三款規定:“竊取或者以其他方法非法獲取公民個人信息的,依照第一款的規定處罰。”換言之,即使行為人沒有將獲取的公民個人信息出售或向他人提供,但只要獲取的方式不當就有可能構成該罪。
在(2021)浙0703刑初17號案中,郭某伙同“楊某”通過爬蟲軟件從互聯網上非法獲取某寶、某東等多個電商平臺上的公民個人信息并用于出售牟利,這些信息中包含能特定到個人的姓名、手機號碼、住址等,共計541424條。最終法院認定郭某構成“侵犯公民個人信息罪”判處四年有期徒刑。
侵犯商業秘密罪
如果行為人利用爬蟲工具爬取的是商業秘密,有可能構成“侵犯商業秘密罪”。一般來說,“商業秘密”是指不為公眾所知悉,能為權利人帶來經濟利益,具有實用性并經權利人采取保密措施的技術信息和經營信息。在如今大數據時代,數據對于被爬方而言無疑是最為重要的資產之一。
參照《最高人民法院關于審理侵犯商業秘密民事案件適用法律若干問題的規定》的規定,算法、數據、計算機程序及其有關文檔等信息,人民法院可以認定為構成《反不正當競爭法》第九條第四款所稱的技術信息(第九條第四款為:“本法所稱的商業秘密,是指不為公眾所知悉、具有商業價值并經權利人采取相應保密措施的技術信息、經營信息等商業信息”)。因此,如果利用爬蟲軟件爬取他人“技術信息”可能會構成侵犯商業秘密罪。
但需要說明的是,由于使用爬蟲工具獲取他人商業信息而引發的不正當競爭之訴雖然已經不少,但真正因使用爬蟲工具獲取他人商業秘密而構成侵犯商業秘密罪的案件尚未出現,這可能是由于傳統的商業秘密如食品配方、設計圖紙、生產方法等自有其特殊性,持有人一般不會將其上傳到網絡保存之故,但我們認為,隨著網絡信息的發展,商業秘密所指稱的對象和客體范圍在不斷的擴大,不排除未來會發生因爬取他人商業秘密而被實際定罪處罰的案件出現。
侵犯著作權罪
如果行為人利用爬蟲工具爬取的是他人享有著作權的作品,有可能構成“侵犯著作權罪”。我國《刑法》第二百一十七條第一款規定:在以營利為目的的基礎上,“未經著作權人許可,復制發行、通過信息網絡向公眾傳播其文字作品、音樂、美術、視聽作品、計算機軟件及法律、行政法規規定的其他作品的”,違法所得數額較大或者有其他嚴重情節的構成“侵犯著作權罪”
同時,2021年的《刑法》第十一修正案修改了第二百一十七條,為“侵犯著作權罪”增加了一個針對爬蟲等技術工具的條款:“未經著作權人或者與著作權有關的權利人許可,故意避開或者破壞權利人為其作品、錄音錄像制品等采取的保護著作權或者與著作權有關的權利的技術措施的”。換言之,即使行為人使用爬蟲工具后沒有在互聯網上傳播或向他人提供非法獲取的作品,但只要利用爬蟲工具故意避開或破壞了與保護著作權相關的技術措施,也可以構成侵犯著作權罪。
在(2022)贛0825刑初號案件中,被告人肖某于2015年開發了一款名為“XX免費小說”的App。肖某從2019年開始,租用某鵝廠云服務器將“爬蟲”程序編程植入“XX免費小說”App中,該程序能夠自動扒取互聯網上各個小說網站的網頁鏈接、小說名稱、小說作者、小說簡介、小說圖片等信息并進行分類存放在騰訊云服務器當中,且不間斷更新扒取內容,用戶在軟件中搜索小說相關文字后,服務器自動從扒取到的小說信息中提取出來,通過轉碼將第三方網頁進行重新排版,再插入廣告公司提供的廣告供用戶閱讀。廣告投放方每月根據該程序中的點擊量按每次單價0.2元至1元不等的價格為肖某結算廣告推廣費。
法院最終依據《最高人民檢察院、公安部關于公安機關管轄的刑事案件立案追訴標準的規定(一)》第二十六條,將肖某使用爬蟲軟件獲得他人享有著作權作品,并在App中向讀者免費提供的行為,認定為侵犯公民個人信息罪中“未經著作權人許可,復制發行、通過信息網絡向公眾傳播其文字作品”的行為,判處肖某構成侵犯著作權罪。
寫在最后
在當今時代,數據已經越來越成為一種極為重要的生產力要素,颯姐團隊認為,監管機構和司法機關應當認識到,只要是出于合法利用數據的目的,在正確使用技術的前提下,爬蟲未必就是一種洪水猛獸。許可老師同樣認為:“蘊含于數據爬取中的數據自由流通是數字社會的重要價值......即使在知識產權出現之后,事實或思想也沒有納入法律保護的范圍,任何人對事實、數據或碎片化的信息均不享有權利。”
總之,颯姐團隊認為,數據需求方不應急于求成,在不熟悉數據合規相關法律、法規的情況下就急切的通過爬蟲任意爬取數據。監管機關也不應當直接將使用爬蟲的行為視為一種違法、犯罪行為,而是應當更加耐心細致處理相關案件,長此以往才能促進數字經濟的向上發展。
本文系未央網專欄作者:肖颯 發表,內容屬作者個人觀點,不代表網站觀點,未經許可嚴禁轉載,違者必究!關鍵詞:
凡注有"環球傳媒網 - 環球資訊網 - 環球生活門戶"或電頭為"環球傳媒網 - 環球資訊網 - 環球生活門戶"的稿件,均為環球傳媒網 - 環球資訊網 - 環球生活門戶獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網 - 環球資訊網 - 環球生活門戶",并保留"環球傳媒網 - 環球資訊網 - 環球生活門戶"的電頭。
- 世界短訊!爬蟲:數據獲取捷徑還是會招致犯2023-04-16
- 備孕已久卻沒動靜?或與這5大習慣有關,它2023-04-16
- 全球播報:若確診子宮肌瘤后,身體出現這4種2023-04-16
- 多項先行經濟指標積極向好 我國經濟持續回2023-04-16
- 低碳生活新體驗 “綠色+可持續”成為消博2023-04-16
- 給科爾沁沙地披“綠裝” 每日消息2023-04-16
- 時尚單品樣樣有 記者探訪消博會上擋不住的2023-04-16
- 2023國際特色林草產品博覽會暨國際茶業博覽2023-04-16
- 當前熱門:增強全民國家安全意識和素養2023-04-16
- 世界通訊!第八個全民國家安全教育日 各地2023-04-16
- 送女生什么小禮物好_熱點2023-04-16
- 當前快報:效力于比甲色格拉布魯日的日本前2023-04-16
- 第八個全民國家安全教育日 各地各部門多形2023-04-16
- 世界熱資訊!增強全民國家安全意識和素養—2023-04-16
- 天天熱訊:國安有我 全民共護——各地各部2023-04-16
- 刷量控評、有償刪帖……“水軍團長”落網記2023-04-16
- 《富爸爸窮爸爸》財商的重要性(中)2023-04-16
- 天天快訊:卡塔爾成為2022年全球最大液化天2023-04-16
- 觀酒周報|今年春糖會超38萬人次觀展;燕京2023-04-16
- 每日視訊:中老鐵路老撾段單日客貨運量雙破2023-04-16
- 成都大運會火炬巡展綜合特展收官2023-04-16
- 在巴松措體驗露營生活-焦點資訊2023-04-16
- 第三屆消博會落幕 發布新品1000余件2023-04-16
- 熱點在線丨江漢江南華南將有較強降水過程 2023-04-16
- 從元宇宙到ChatGPT,湯姆貓憑什么?2023-04-16
- 這個五一,可能是5年來最旺的一次|全球資訊2023-04-16
- 廣州:鼓勵實體經濟企業設立小貸公司_每日2023-04-16
- 美方應全面澄清其全球生物軍事活動2023-04-16
- 河北雄安新區白洋淀景區16日起開始運營 今2023-04-16
- 皖產高端制造集中亮相廣交會2023-04-16