如上所述,除了從網路公共網路收集資料的法律方面之外,還有其他方面與網路抓取的道德相關。隨著時間的推移,這些原則成為該領域從業者不成文的行為準則的一部分。主要考慮因素如下:
速率限制。資料提取是透過向網站提交請求來執行的。網站請求過載可能會影響其效能,應盡量避免。
專用 API。請記住,一些網站提供用於存取其資料的 API。
代理。用於網路抓取的代理應該有合乎道德的來源。
負責任的企業將道德的網路抓 銷售數據 取視為一種承諾,與成為公共網路資料業務中信譽良好的參與者密不可分。
去年,一些領先的網路數據聚合公司發起了一項道德網路數據收集倡議,旨在鼓勵對話並提高消費者和公司的數位安心。他們此後公佈了一系列道德網路資料收集原則,例如:
正念。這意味著數據收集公司應該注意並意識到數據的潛在濫用。
社會責任。公司絕不應該以可能危害社會的目的收集資料。道德資料收集公司也透過向研究機構或非政府組織等組織和計畫提供資料來為其提供支援。
網路抓取和人工智慧
高品質的網路數據有助於將人工智慧技術的關鍵類型之一——大型語言模型 (LLM) 推向今天的高度。訓練 LLM 理解人類語言並產生情境感知反應需要大量資料。
例如,聊天 GPT-4 的前身 GPT-3 的訓練需要45 TB 的文字。來自網路的公開資訊是用於訓練人工智慧的資訊的關鍵支柱之一。
預計未來幾年人工智慧市場將呈指數級增長。自然,這引發了關於使用網路資料訓練人工智慧和創建人工智慧產品的疑問。
人工智慧訓練和版權法
有些人認為,這項蓬勃發展的技術背後的公司未經許可抓取線上資料來訓練人工智慧和創造新產品,違反了版權法。此外,也有人認為,像 ChatGPT 這樣的大型語言模型使用來自訓練資料集的所有資料來產生回應,有時會「模仿」原始內容。
為了更好地理解雙方的爭論,讓我們來看看自 OpenAI 推出領先的法學碩士之一 ChatGPT 並向公眾開放以來發生的一些案例。
《紐約時報》與 OpenAI
2023 年底,《紐約時報》起訴 OpenAI使用其內容來訓練人工智慧,這是第一個這樣做的美國主要媒體。此後,其他幾家媒體也起訴了 OpenAI,聲稱該公司使用其文章訓練人工智慧系統違反了聯邦版權法。
內容授權協議