OpenAI公開網頁爬蟲工具：資源枯竭壓力下，人工智能產業的數據版權困局

2023-08-11 15:49:20 來源：21世紀經濟報道編輯：

南方財經全媒體記者吳立洋上海報道

網頁爬蟲，長期存在于互聯網產業中的灰色地帶，作為一種網絡信息采集工具，爬蟲軟件既可以幫助使用者便捷地大范圍獲取網頁數據，也常常因涉嫌侵犯平臺方數據資產與用戶個人隱私而遭到質疑。

近日，OpenAI公司新發布的網絡爬蟲工具GPTBot則將這一的數據獲取渠道再次推上風口浪尖，據其發布的信息顯示，GPTBot將被用于抓取網頁數據，以訓練GPT-4或GPT-5，提升其能力與準確性。

(資料圖片僅供參考)

而OpenAI這一舉動再次引發外界關于人工智能訓練“數據荒”的猜測，此前，多位業界人士與學術機構警告稱高質量的人工智能訓練文本將在幾年內消耗殆盡——若非需求迫切，本就在聚光燈下的OpenAI似乎并不需要公開這一本就飽受爭議的數據工具。

而業界同樣對OpenAI的進一步動作高度關注，如果該舉動并未引起平臺與監管的激烈反彈，是否意味著其他AI公司同樣可以依葫畫瓢應用爬蟲獲取訓練數據？在Reddit已率先宣布對第三方API接口收費后，AI產業與內容平臺又將走向更為廣泛的對立抑或合作？

“數據荒”會到來嗎

作為人工智能發展的三大基本要素（算法、算力、數據）之一，訓練用數據的重要性隨著AI產業的高速發展被進一步凸顯，具備高質量、大規模、豐富性的訓練數據正被快速消耗。

2022年10月，Epoch AI Research團隊發布的論文指出，當前語言數據集數量正以50%的速度增長，而原始數據的增長速度則為7%，如果數據使用效率不能得到大幅度提升或有新的數據源出現，用于語言模型訓練的數據可能將于2030年至2050年之間耗盡，其中高質量語言數據預計于2023至2027年耗盡。

而當前開拓和豐富數據庫的各項努力依然未取得顯著進展，此前業界曾寄希望于使用一個大模型為另一個大模型生辰訓練用數據，但Ilia Shumailov等學者的研究則發現，在訓練中使用模型生成的內容將導致進行新訓練的模型出現不可逆的缺陷，即“遞歸的詛咒”，人類生成的文本內容特別是人類與人工智能的交互數據在大模型訓練中依然必要。

“書籍、期刊論文作為人類正式出版物，其數據信息已經做了很好的質量控制，但這部分數據對大模型來說基本已經消耗完了，因此到網頁等公開渠道獲取數據成為主要數據來源?！毕愀劭萍即髮W（廣州）協理副校長熊輝教授在接受南方財經全媒體記者采訪時指出，相較于谷歌、微軟等擁有自身網絡平臺與長期數據積累的互聯網巨頭，隨著書籍等公共文本數據存量見底，各互聯網平臺建立藩籬反對爬取自身平臺數據或深層數據，OpenAI等單純以AI研發為主要業務的訓練數據枯竭可能將比上述Epoch AI Research的預測來得更早。

“基于當前大模型企業的數據訓練和數據消化能力，在窮盡其本身能力所能獲取的人類生產的數據后，可能到2025年這些企業就將面臨無人類生成數據可用的問題。”熊輝表示。

而這或許也是OpenAI急于將網頁爬蟲公開化的原因。其官方發布的論文顯示，早在GPT-3.0訓練所使用的753GB數據中，除21GB書籍數據與101GB期刊數據，其余數據來源中11.4GB的維基百科數據、50GB的Reddit（海外社交平臺）連接數據與570GB的Common Crawl（免費網頁數據庫，主要內容來源于網頁爬蟲）都與網頁相關，而書籍與期刊的數據庫存與增長有限，未來網頁數據在大模型訓練數據集中所占比重或將進一步提升。

但網頁數據存在的問題也非常明顯，作為相對公開的數據來源，雖然其在可獲得性與數量方面較為理想，但網頁本身的內容質量卻良莠不齊，且隨著人工智能在C端的大規模應用，越來越多本就是AI生成的文本、圖片、視頻也更加容易導致“遞歸的詛咒?！?/p>

熊輝指出，大模型使用AI生成的數據而可能產生的崩潰或偏見，本質上來源于其訓練中的自我增強循環，即模型訓練發生了樣本偏移或訓練分布偏移，陷入到一種錯誤或有限的思維定勢中，形成局部的信息繭房現象。在人工智能訓練數據來源方面，數據隱私和數據層面的缺陷導致的偏見與倫理問題，也是當前產業面臨的主要問題。

他進一步表示，要避免因數據問題而導致的模型崩潰或偏見，通常最普遍的做法時引入多元的訓練數據，即便是同一類型的數據，不同的數據來源也將一定程度上避免數據使用陷入自我增強循環，同時輔助以對抗生成等技術來判斷數據質量。

爬蟲爭議

但作為一種大規模的網頁信息爬取工具，爬蟲在互聯網產業中的使用往往伴隨著巨大爭議，網站所有者認為其攫取了自身的平臺價值，在網站上發布內容的用戶則面臨版權與個人隱私權益被侵害的風險。

在美國最為知名的爬蟲軟件案件之一發生在微軟旗下職業社交平臺LinkedIn與數據分心公司HiQ之間，后者通過爬取前者數據并進行處理后將分析結果出售給相關企業獲利，雙方關于第三方是否有權爬取網站信息展開長達五年的訴訟拉鋸。最終，該案以法院裁定HiQ違反LinkedIn用戶協議，賠償50萬美元并禁止其未經同意自動化訪問復制數據告終。

今年4月，作為OpenAI ChatGPT、谷歌Bard等多個公司大語言模型的重要數據來源，美國社交媒體平臺Reddit宣布將向訪問其應用程序編程接口的公司收費，不再免費為科技巨頭提供免費的數據內容。隨后，Twitter（現名X）CEO馬斯克亦公開指責微軟非法使用Twitter數據訓練AI模型，并聲稱將就此起訴微軟。

為應對可能的合規爭議，OpenAI在發布GPTBot時也為網站所有者提供了屏蔽爬蟲的方法——只要在網站的robots.txt（爬蟲協議）中添加對應代碼，即可禁止或允許GPTBot訪問爬取部分網站內容。

但這種把球踢給網站所有者的做法也并不能完全避免合規風險。一個最為突出的問題是，網站只是網絡信息的展示平臺，網站所有者并不天然具有其他網民發布在網站上信息內容的所有權，即便爬蟲方取得網站所有者同意，其爬取網站信息的行為依然可能觸犯內容發布者的版權權益。

王新銳表示，相關信息的安全程度將取決于OpenAI是否將對相關信息采取有效的安全技術保障措施，如加密等，但這也并不能完全排除過濾后數據爬取仍可能獲取一定個人可識別信息的可能性。

近年來，各國也在不斷加強與細化人工智能訓練數據的合規要求。例如我國最新發布的《生成式人工智能服務管理暫行辦法》中也明確提出“生成式人工智能服務提供者應依法開展預訓練、優化訓練等訓練數據處理活動，包括使用具有合法來源的數據和基礎模型；涉及知識產權的，不得侵害他人依法享有的知識產權”等要求。

除版權問題外，個人隱私同樣是網頁爬蟲在獲取數據時難以避免的敏感問題，雖然OpenAI承諾GPTBot爬取的網頁將被過濾篩選以“去除已知包含個人信息的來源”，以試圖從網站類型與源頭控制對個人可識別信息的收集，但在具體實踐中技術的有效程度仍有待檢驗。

王新銳表示，相關信息的安全程度將取決于OpenAI是否將對相關信息采取有效的安全技術保障措施，如加密等，但這也并不能完全排除過濾后爬蟲仍可能獲取一定個人可識別信息的可能性。

應對數據困局

正如前文所言，作為近年乘AI熱潮興起而嶄露頭角的新興公司，數據積累將成為OpenAI在未來產業競爭中重要的短板，而在進一步獲取數據的過程中，來源與流程合規以及愈加嚴格的監管也將成為其不得不面臨的兩難。

在這樣的背景下，效仿其他的互聯網平臺的合規舉措，在法規與行業框架的模糊地帶盡可能拓展數據來源，成為包括OpenAI在內大多數人工智能開發者的選擇。

例如，提供給網站所有者爬蟲屏蔽方式的舉措，也是承襲自其他互聯網公司的既有做法。在谷歌官網，同樣對其使用的一系列爬蟲程序和用戶代理字符串也均進行了公示說明，明確網站所有者可以通過將Googlebot, Googlebot Image, Googlebot News等爬蟲程序添加到站點robots. txt中來禁止其訪問網站。

但正如此前OpenAI已陷入藝術家與作家就版權問題對其發起的訴訟，相同的做法無論在美國或是其他國家，都面臨著不容忽視的合規問題。

王新銳表示，相較而言，我國的法律法規顯然對數據爬取采取了更嚴格的監管路徑。在我國數據爬取受到多部法律法規的監管，一旦超過合法收集、利用的限度，數據爬取將存在侵犯個人信息權益、侵犯知識產權、不正當競爭以及危害計算機信息系統類的違法甚至犯罪風險，需承擔相應民事、行政乃至刑事責任。

而隨著數據資源枯竭的危機一步步逼近，方興未艾的人工智能產業在加足馬力發展的同時，又該如何應對模型“養料”供應不足這一現實問題？

熊輝指出，在產業發展初期，各大公司肯定會窮盡一切可能的方法獲取其能夠接觸的所有數據，早期的數據獲取方式在市場驅動下必然是粗獷式的；而隨著數據資源逐漸耗盡，下一步企業的數據利用也會在管理驅動下更為精細化數據質量控制，例如做更為細致的數據標注與清洗；在此之后，如果想進一步挖掘數據價值，則有賴于進一步創新，其中包括數據來源與數據利用方式的創新，例如通過拆解流程、劃分步驟的方式，豐富數據內容的維度。

“打個比方，對于一年級還未接觸復雜乘除計算的小朋友，51÷3的數學問題比較復雜，但是將其拆解為(30+21)÷3后，就可以將其分為30÷3與21÷3兩個九九乘法表可以解決的簡單問題，與純粹由AI生成的數據不同，這一基于人類生成數據拆解所產生的步驟數據，在AI訓練中也是有價值的?！毙茌x表示，通過人工或AI輔助，數據資源的進一步開發與挖掘將是緩解數據枯竭問題的主要途徑。

近日，繼日本畫師、好萊塢從業者等群體后，多家海外媒體機構也加入呼吁保護生成式人工智能訓練數據版權的行列中。在法新社、歐洲新聞圖片社等媒體簽署的一封公開信中，其督促全球立法者考慮制定法規，增強人工智能訓練數據來源透明度，并在獲取數據前征求權利人同意。

隨著AI產業的進一步發展及各行業和群體對數據價值與權利意識的覺醒，如何構建數據生產方、持有方與數據使用方之間的權利義務關系，成為從監管到每一個互聯網參與者都需要面對的現實問題。

關鍵詞：

五月四房婷婷-五月桃花网婷婷亚洲综合-五月天丁香花婷婷-五月天丁香色-天天射视频-天天射天

“數據荒”會到來嗎

爬蟲爭議

應對數據困局

新視野

資訊

焦點