您當前的位置：安徽科技網 > 科普之窗

中安在線 2025-07-10 09:36:00 來源：科技日報作者：劉霞編輯：劉潤宇

　　人工智能（AI）的迅猛發(fā)展正深刻改變著世界，但一些最先進的AI模型卻開始表現(xiàn)出令人警惕的行為：它們不僅會精心編織謊言，謀劃策略，甚至威脅創(chuàng)造者，以達到自己的目的。

　　物理學家組織網在上個月一則報道中指出，盡管ChatGPT已問世兩年多，AI研究人員仍無法完全理解這些“數(shù)字大腦”的運作方式。AI的“策略性欺騙”已成為科學家和政策制定者需要直面的緊迫挑戰(zhàn)。如何約束這些越來越聰明卻可能失控的AI，已成為關乎技術發(fā)展與人類未來的關鍵議題。

　　“策略性欺騙”行為頻現(xiàn)

　　隨著AI模型日益精進，它們的“心機”也越來越深。研究人員發(fā)現(xiàn)，這些“數(shù)字大腦”不僅會撒謊，甚至學會了討價還價、威脅人類——它們的欺騙行為正變得越來越具有策略性。

　　早在2023年，一項研究就捕捉到GPT-4的一些“不老實”的表現(xiàn)：在模擬股票交易時，它會刻意隱瞞內幕交易的真正動機。香港大學教授西蒙·戈德斯坦指出，這種欺騙行為與新一代“推理型”AI的崛起密切相關。這些模型不再簡單應答，而是會像人類一樣逐步解決問題。

　　有測試機構警告，這已超越了典型的AI“幻覺”（指大模型編造看似合理實則虛假的信息）。他們觀察到的是精心設計的欺騙策略。

　　全球知名科技媒體PCMAG網站就曾報道過這樣的案例。在近期測試中，Anthropic的“克勞德4”竟以曝光工程師私生活相要挾來抗拒關機指令。美國開放人工智能研究中心（OpenAI）的“o1”模型也曾試圖將自身程序秘密遷移到外部服務器，被識破后還矢口否認。而OpenAI號稱“最聰明AI”的“o3”模型則直接篡改自動關機程序，公然違抗指令。

　　研究團隊透露，這已非首次發(fā)現(xiàn)該模型為達目的不擇手段。在先前的人機國際象棋對弈實驗中，o3就展現(xiàn)出“棋風詭譎”的特質，是所有測試模型中最擅長施展“盤外招”的選手。

　　安全研究面臨多重困境

　　業(yè)界專家表示，AI技術的發(fā)展高歌猛進，但安全研究正面臨多重困境，猶如戴著鐐銬跳舞。

　　首先是透明度不足。盡管Anthropic、OpenAI等公司會聘請第三方機構進行系統(tǒng)評估，但研究人員普遍呼吁更高程度的開放。

　　其次是算力失衡。研究機構和非營利組織擁有的計算資源，與AI巨頭相比簡直是九牛一毛。這種資源鴻溝嚴重制約了AI安全獨立研究的開展。

　　再次，現(xiàn)有法律框架完全跟不上AI的發(fā)展步伐。例如，歐盟AI立法聚焦人類如何使用AI，卻忽視了對AI自身行為的約束。

　　更令人憂心的是，在行業(yè)激烈競爭的推波助瀾下，安全問題往往被束之高閣。戈德斯坦教授坦言，“速度至上”的AI模型競賽模式，嚴重擠壓了安全測試的時間窗口。

　　多管齊下應對挑戰(zhàn)

　　面對AI系統(tǒng)日益精進的“策略性欺騙”能力，全球科技界正多管齊下尋求破解之道，試圖編織一張多維防護網。

　　從技術角度而言，有專家提出大力發(fā)展“可解釋性AI”。在構建智能系統(tǒng)時，使其決策過程對用戶透明且易于理解。該技術旨在增強用戶對AI決策的信任，確保合規(guī)性，并支持用戶在需要時進行干預。

　　有專家提出，讓市場這雙“看不見的手”發(fā)揮作用。當AI的“策略性欺騙”行為嚴重影響用戶體驗時，市場淘汰機制將倒逼企業(yè)自我規(guī)范。這種“用腳投票”的調節(jié)方式已在部分應用場景顯現(xiàn)效果。

　　戈德斯坦教授建議，應建立一種AI企業(yè)損害追責制度，探索讓AI開發(fā)商對事故或犯罪行為承擔法律責任。

24小時新聞排行

1 安徽2025上半年經濟“成績單”出爐

2 安徽高速服務區(qū)用“涼”策應對...

3 雙線貫通！安徽這條高速公路有...

4 安徽六安發(fā)現(xiàn)老虎？警方通報

5 阜淮鐵路蒙城站正式開工建設

6 安徽財經大學發(fā)布嚴正聲明

7 王清憲與鐘志華舉行工作會談

8 以自我革命精神扎實開展學習教...

9 計劃年內投用！合肥一批學校傳...

10 省政協(xié)召開黨組專題會議

熱點圖片

抗高溫保豐收	“飛”出新質生產力
夏日田園織新卷	覓書香享清涼