鉅亨網新聞中心
據《Nature》文章作者 Nicola Jones 表示,人工智慧 (AI) 近年來發展迅速,很大程度上歸功於神經網路規模的擴大和訓練數據的增加。然而,這種擴張模式正面臨著一個嚴峻的挑戰:數據枯竭,使研究人員正努力設法解決。
文章稱,近年來,大型語言模型 (LLM) 的訓練數據規模呈現爆炸式增長,例如 ChatGPT 等聊天機器人背後的模型。根據 Epoch AI 的研究,用於訓練 AI 模型的數據集規模預計在 2028 年左右將達到公開線上文本的總量,這意味著 AI 可能在 4 年內耗盡訓練數據。
與此同時,可用數據的增長速度卻相對緩慢。Villalobos 的研究 估計,可用的網路內容每年增長不到 10%,而 AI 訓練數據集的規模卻以每年翻倍的速度增長。
除了數據增長緩慢之外,數據來源也面臨著諸多限制。許多數據所有者,例如報紙出版商,開始限制其內容的使用方式,進一步收緊了數據的獲取。此外,一些網站也開始使用軟體程式碼或修改服務條款來阻止網路爬蟲或 AI 公司抓取其數據。
更為嚴峻的是,數據版權問題 引發了越來越多的訴訟。例如,《紐約時報》就對 OpenAI 及其合作夥伴微軟提起版權侵權訴訟。這些訴訟可能會導致 AI 開發者和研究人員更難獲得所需的數據,特別是資金有限的學術界。
文章指出,面對數據枯竭的挑戰,AI 領域正在探索各種應對策略:
文章認為,目前,許多 AI 模型主要依賴文字數據進行訓練。然而,單純依靠文字數據可能無法實現人類級別的 AI。例如, Meta 首席 AI 科學家 Yann LeCun 就指出,一個四歲的孩子僅僅透過觀察周圍世界所吸收的數據量,就遠遠超過了現代 LLM 的訓練數據量。
Jones 表示,未來 AI 發展的關鍵可能在於擁抱多模態世界,從單純的文字數據轉向利用更豐富的數據形式,例如影片、圖像、感官體驗等。這將需要開發更強大的 AI 模型和演算法,以有效地處理和學習這些多模態數據。
上一篇
下一篇
