數(shù)據(jù)“中毒”會讓AI“自己學壞”

科技日報
2025-08-19 17:11:39

在一個繁忙的火車站，監(jiān)控攝像頭正全方位追蹤站臺的情況，乘客流量、軌道占用、衛(wèi)生狀況……所有信息實時傳輸給中央人工智能（AI）系統(tǒng)。這個系統(tǒng)的任務是幫助調(diào)度列車，讓它們安全準點進站。然而，一旦有人惡意干擾，比如用一束紅色激光模擬列車尾燈，那么攝像頭可能會誤以為軌道上已有列車。久而久之，AI學會了把這種假象當作真實信號，并不斷發(fā)出“軌道占用”的錯誤提示。最終，不僅列車調(diào)度被打亂，甚至還可能釀成安全事故。

澳大利亞《對話》雜志日前報道稱，這是數(shù)據(jù)“中毒”的一個非常典型的例子。AI系統(tǒng)在學習過程中，如果輸入了錯誤或誤導性數(shù)據(jù)，可能會逐漸形成錯誤認知，作出偏離預期的判斷。與傳統(tǒng)的黑客入侵不同，數(shù)據(jù)“中毒”不會直接破壞系統(tǒng)，而是讓AI“自己學壞”。隨著AI在交通、醫(yī)療、媒體等領域的普及，這一問題正引起越來越多的關注。

AI系統(tǒng)在學習過程中，如果輸入了錯誤或誤導性數(shù)據(jù)，可能會逐漸形成錯誤認知，做出偏離預期的判斷。圖片來源：英國《新科學家》網(wǎng)站

AI“中毒”的現(xiàn)實風險

在火車站的例子中，假設一個技術嫻熟的攻擊者既想擾亂公共交通，又想收集情報，他連續(xù)30天用紅色激光欺騙攝像頭。如果未被發(fā)現(xiàn)，這類攻擊會逐漸腐蝕系統(tǒng)，為后門植入、數(shù)據(jù)竊取甚至間諜行為埋下隱患。雖然物理基礎設施中的數(shù)據(jù)投毒較為罕見，但線上系統(tǒng)，尤其是依賴社交媒體和網(wǎng)頁內(nèi)容訓練的大語言模型中，它已是重大隱患。

一個著名的數(shù)據(jù)“投毒”案例發(fā)生在2016年，微軟推出的聊天機器人Tay上線數(shù)小時后，就被惡意用戶灌輸不當言論，迅速模仿并發(fā)布到X（當時的Twitter）平臺上，不到24小時就被迫下線并道歉。

據(jù)英國《新科學家》雜志報道，2024年，互聯(lián)網(wǎng)出現(xiàn)了一個標志性事件，即AI爬蟲的流量首次超過人類用戶，其中OpenAI的ChatGPT-User占據(jù)了全球6%的網(wǎng)頁訪問量，它本質上是ChatGPT的“上網(wǎng)代理”，在用戶需要實時信息時替他們訪問網(wǎng)站。而Anthropic的ClaudeBot更是長期大規(guī)模抓取網(wǎng)頁內(nèi)容，占到13%的流量。

互聯(lián)網(wǎng)上的大量內(nèi)容正被AI模型不斷采集、吸收，用于持續(xù)訓練。一旦有人故意投放有毒數(shù)據(jù)，比如篡改的版權材料、偽造的新聞信息，這些大規(guī)模采集的爬蟲就可能把它們帶進模型，造成版權侵權、虛假信息擴散，甚至在關鍵領域引發(fā)安全風險。

版權之爭中的“投毒”反擊

隨著AI爬蟲的大規(guī)模抓取，許多創(chuàng)作者擔心作品被未經(jīng)許可使用。為了保護版權，創(chuàng)作者采取了法律和技術手段。如《紐約時報》起訴OpenAI，稱其新聞報道被模型學習再利用，侵犯了版權。

面對曠日持久的版權拉鋸戰(zhàn)，一些創(chuàng)作者轉向技術“自衛(wèi)”。美國芝加哥大學團隊研發(fā)了兩款工具。名為Glaze的工具可在藝術作品中加入微小的像素級干擾，讓AI模型誤以為一幅水彩畫是油畫。另一款工具Nightshade更為激進，它能在看似正常的貓的圖片中植入隱蔽特征，從而讓模型學到“貓=狗”這樣的錯誤對應。通過這種方式，藝術家們讓自己的作品在訓練數(shù)據(jù)中成為“毒藥”，保護了原創(chuàng)風格不被復制。

這種反擊方式一度在創(chuàng)作者群體中風靡。Nightshade發(fā)布不到一年，下載量便超過一千萬次。與此同時，基礎設施公司Cloudflare也推出了“AI迷宮”，通過制造海量無意義的虛假網(wǎng)頁，將AI爬蟲困在假數(shù)據(jù)的循環(huán)中，消耗其算力和時間。可以說，數(shù)據(jù)投毒在某些領域已經(jīng)從一種反擊手段，演變?yōu)榘鏅嗯c利益之爭中的防御武器。

去中心化成為AI的防護盾

這種局面讓人警覺。創(chuàng)作者的數(shù)據(jù)“投毒”是為了保護原創(chuàng)，但一旦同樣的技術被用于大規(guī)模制造虛假信息，其后果可能比版權爭議嚴重得多。

面對這種隱蔽的威脅，研究者正在探索新的防御手段。在美國佛羅里達國際大學的Solid實驗室，研究人員正著力用去中心化技術來防御數(shù)據(jù)投毒攻擊。其中一種方法叫聯(lián)邦學習。與傳統(tǒng)的集中式訓練不同，聯(lián)邦學習允許模型在分布式設備或機構本地學習，只匯總參數(shù)而非原始數(shù)據(jù)。這種方式降低了單點中毒的風險，因為某一個設備的“壞數(shù)據(jù)”不會立刻污染整個模型。

然而，如果在數(shù)據(jù)匯總環(huán)節(jié)遭遇攻擊，損害依然可能發(fā)生。為此，另一種工具——區(qū)塊鏈正被引入AI防御體系。區(qū)塊鏈的時間戳和不可篡改特性，使得模型更新過程可被追溯。一旦發(fā)現(xiàn)異常數(shù)據(jù)，可追根溯源，定位投毒源頭。同時，多個區(qū)塊鏈網(wǎng)絡還能互相“通報”，當一個系統(tǒng)識別出可疑模式時，可立刻警示其他系統(tǒng)。

任何依賴現(xiàn)實世界數(shù)據(jù)的AI系統(tǒng)都可能被操縱。利用聯(lián)邦學習和區(qū)塊鏈等防御工具，研究人員和開發(fā)者正在打造更具韌性、可追溯的AI系統(tǒng)，在遭遇欺騙時能發(fā)出警報，提醒系統(tǒng)管理員及時介入，降低潛在風險。

關鍵詞：

分享到: