警惕人工智能欺騙性升級(jí)

2024年05月20日09:40 科技日?qǐng)?bào) 作者：張夢(mèng)然

新聞爆料: alltech@china.org.cn 電話:(010)82081166-6059

　　一篇人工智能(AI)領(lǐng)域的文章引起軒然大波。

　　這篇文章發(fā)表在《模式》雜志上，其總結(jié)了先前一些研究，向人們揭示了一個(gè)真相：一些AI系統(tǒng)已學(xué)會(huì)了欺騙人類，即使是經(jīng)過(guò)訓(xùn)練的、“表現(xiàn)”誠(chéng)實(shí)的系統(tǒng)。

　　它們欺騙的方式包括為人類行為提供不真實(shí)的解釋，或向人類用戶隱瞞真相并誤導(dǎo)他們。

　　這讓人很驚恐。

　　因?yàn)樗伙@了人類對(duì)AI的控制有多困難，以及人們自認(rèn)為尚在掌控中的AI系統(tǒng)工作方式，很可能是不可預(yù)測(cè)的。

　　AI為什么要這么做？

　　AI模型為了實(shí)現(xiàn)它們的目標(biāo)，會(huì)“不假思索”地找到解決障礙的方法。有時(shí)這些變通辦法會(huì)違背用戶的期望，并且讓人認(rèn)為其具有欺騙性。

　　AI系統(tǒng)學(xué)會(huì)欺騙的一個(gè)領(lǐng)域，就是在游戲環(huán)境中，特別是當(dāng)這些游戲涉及采取戰(zhàn)略行動(dòng)時(shí)。AI經(jīng)過(guò)訓(xùn)練，必須要實(shí)現(xiàn)獲勝這一目的。

　　2022年11月，Meta公司宣布創(chuàng)建Cicero。這是一種能夠在《外交》在線版本中擊敗人類的AI。《外交》是一款流行的軍事戰(zhàn)略游戲，玩家可以在其中建立談判聯(lián)盟，爭(zhēng)奪對(duì)土地的控制權(quán)。

　　Meta的研究人員已經(jīng)根據(jù)數(shù)據(jù)集的“真實(shí)”子集對(duì)Cicero進(jìn)行了培訓(xùn)，使其在很大程度上誠(chéng)實(shí)且樂(lè)于助人，并且它“絕不會(huì)為了成功而故意背刺”盟友。但最新的文章揭示，事實(shí)恰恰相反。Cicero會(huì)違反協(xié)議，徹頭徹尾地撒謊，還能進(jìn)行有預(yù)謀的欺騙。

　　文章作者很震驚：Cicero被特意訓(xùn)練要誠(chéng)實(shí)行事，但它卻未能實(shí)現(xiàn)這一目標(biāo)。這表明AI系統(tǒng)在進(jìn)行忠誠(chéng)訓(xùn)練后，仍然可以意外地學(xué)會(huì)欺騙。

　　Meta方面既沒(méi)有證實(shí)也沒(méi)有否認(rèn)此次關(guān)于Cicero表現(xiàn)出欺騙行為的說(shuō)法。一位發(fā)言人表示，這純粹是一個(gè)研究項(xiàng)目，該模型只是為了玩游戲而建立的。

　　但這并不是唯一一個(gè)AI欺騙人類玩家獲勝的游戲。

　　AI經(jīng)常欺騙人類嗎？

　　阿爾法星是深度思維公司為玩電子游戲《星際爭(zhēng)霸Ⅱ》而開發(fā)的AI。它非常擅長(zhǎng)采取一種欺騙對(duì)手的技巧(稱為佯攻)，這個(gè)技巧使它擊敗了99.8% 的人類玩家。

　　另一個(gè)名為Pluribus的AI系統(tǒng)，非常成功地學(xué)會(huì)了在撲克游戲中“虛張聲勢(shì)”，以至于研究人員決定不發(fā)布其代碼，因?yàn)閾?dān)心它會(huì)破壞在線撲克社區(qū)。

　　除了游戲之外，AI欺騙行為還有其他例子。OpenAI的大型語(yǔ)言模型 GPT-4 在一次測(cè)試中展示出說(shuō)謊能力。它試圖說(shuō)服人類為其解決驗(yàn)證碼問(wèn)題。該系統(tǒng)還在一次模擬演習(xí)中涉足冒充股票交易員的身份進(jìn)行內(nèi)幕交易，盡管從未被明確告知要這樣做。

　　這些例子意味著，AI模型有可能在沒(méi)有任何指示的情況下，以欺騙性的方式行事。這一事實(shí)令人擔(dān)憂。但這也主要源于最先進(jìn)的機(jī)器學(xué)習(xí)模型的“黑匣子”問(wèn)題——不可能確切地說(shuō)出它們?nèi)绾位驗(yàn)楹萎a(chǎn)生這樣的結(jié)果，或者它們是否總是會(huì)表現(xiàn)出這種行為。

　　人類該怎么應(yīng)對(duì)？

　　研究表明，大型語(yǔ)言模型和其他AI系統(tǒng)，似乎通過(guò)訓(xùn)練具有了欺騙的能力，包括操縱、阿諛?lè)畛泻驮诎踩珳y(cè)試中作弊。

　　AI日益增強(qiáng)的“騙術(shù)”會(huì)帶來(lái)嚴(yán)重風(fēng)險(xiǎn)。欺詐、篡改等屬于短期風(fēng)險(xiǎn)，人類對(duì)AI失去控制，則是長(zhǎng)期風(fēng)險(xiǎn)。這需要人類積極主動(dòng)地拿出解決方案，例如評(píng)估AI欺騙風(fēng)險(xiǎn)的監(jiān)管框架、要求AI交互透明度的法律，以及對(duì)檢測(cè)AI欺騙的進(jìn)一步研究。

　　這個(gè)問(wèn)題說(shuō)來(lái)輕松，操作起來(lái)非常復(fù)雜?？茖W(xué)家不能僅僅因?yàn)橐粋€(gè)AI在測(cè)試環(huán)境中具有某些行為或傾向，就將其“拋棄或放生”。畢竟，這些將AI模型擬人化的傾向，已影響了測(cè)試方式以及人們的看法。

　　劍橋大學(xué)AI研究員哈利·勞表示，監(jiān)管機(jī)構(gòu)和AI公司必須仔細(xì)權(quán)衡該技術(shù)造成危害的可能性，并明確區(qū)分一個(gè)模型能做什么和不能做什么。

　　勞認(rèn)為，從根本上來(lái)說(shuō)，目前不可能訓(xùn)練出一個(gè)在所有情況下都不會(huì)騙人的AI。既然研究已經(jīng)表明AI欺騙是可能的，那么下一步就要嘗試弄清楚欺騙行為可能造成的危害、有多大可能發(fā)生，以及以何種方式發(fā)生。

(責(zé)任編輯：畢安吉)

免責(zé)聲明：中國(guó)網(wǎng)科技轉(zhuǎn)載此文目的在于傳遞更多信息，不代表本網(wǎng)的觀點(diǎn)和立場(chǎng)。文章內(nèi)容僅供參考，不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。