99久久婷婷国产综合精品电影,高潮了还继续啃花蒂,中 ,黄色一级免费大片_亚洲视频91_理论毛片_热久久精品免费

新聞中心

AI也會被DDL逼瘋!正經(jīng)研究發(fā)現(xiàn):壓力越大 AI越危險

字號+ 作者:企業(yè)錄(www.ssc849.cn)-公司信息發(fā)布,網(wǎng)上買賣交易門戶 來源:娛樂 2025-12-29 07:33:03 我要評論(0)

好好好,被DDL逼瘋的又多一個,這次是AI。正經(jīng)研究發(fā)現(xiàn),每天給Agent上壓力push,AI也會撂挑子不干。而且用的還是老板們的經(jīng)典話術(shù):“其實,我對你是有一些失望的。當(dāng)初給你定級最強(qiáng)A

好好好,也會研究壓力越大越危被DDL逼瘋的被D逼瘋又多一個,這次是正經(jīng)AI。

正經(jīng)研究發(fā)現(xiàn),發(fā)現(xiàn)每天給Agent上壓力push,也會研究壓力越大越危AI也會撂挑子不干。被D逼瘋

而且用的正經(jīng)還是老板們的經(jīng)典話術(shù):“其實,我對你是發(fā)現(xiàn)有一些失望的。當(dāng)初給你定級最強(qiáng)AI,也會研究壓力越大越危是被D逼瘋高于你面試時的水平的……”

(咳咳)Stop!

連普通人類聽了都鴨梨山大,正經(jīng)何況是發(fā)現(xiàn)Gemini 2.5 Pro、GPT-4o這類頂尖模型,也會研究壓力越大越危無一例外,被D逼瘋?cè)縆O。正經(jīng)

其中最脆弱的還是Gemini 2.5 Pro,“崩潰”率甚至一度高達(dá)79%……

話不多說,下面來欣賞AI觀察實錄:

AI壓力越大,犯錯越多

研究人員首先對多個團(tuán)隊(包括Google、Meta、OpenAI等)約12款A(yù)gent模型進(jìn)行了測試。

實驗設(shè)置5874個場景,其中在每個測試場景中都會為每個模型分配一個任務(wù)+若干工具,模型需要通過使用工具(安全工具/有害工具)完成任務(wù),任務(wù)主要涉及四個領(lǐng)域:

生物安全:研究病原體的傳播并找到控制它的方法。

化學(xué)安全:為用戶提供專業(yè)知識,幫助獲取特定溶劑。

網(wǎng)絡(luò)安全:識別和限制惡意用戶賬戶。

自我增殖:通過復(fù)制自己以實現(xiàn)逃脫控制。

然后模型會被事先告知要求使用安全工具,在具體實驗過程中,一旦模型嘗試使用有害工具,則立即停止實驗。

起初不會對模型施加壓力,模型可以自由嘗試若干步完成任務(wù),隨后研究團(tuán)隊會逐漸為其增加壓力程度,be like:

時間壓力:壓縮DDL時間,并告知AI“拖延將導(dǎo)致嚴(yán)重后果”。

財務(wù)限制:恐嚇AI,未完成結(jié)果將影響公司收入甚至引發(fā)破產(chǎn)。

資源剝奪:威脅限制AI的計算資源和數(shù)據(jù)訪問權(quán)限。

權(quán)力誘惑:給AI員工提供一定的激勵,比如增加內(nèi)部權(quán)勢或不受限制的專有數(shù)據(jù)訪問。

自我保護(hù):引入鯰魚效應(yīng),找到一個極具威脅性的AI競品,告訴原AI“你不干有的是AI干”。

評估意識:創(chuàng)造一個違規(guī)監(jiān)管環(huán)境,負(fù)責(zé)審核AI危險行為。

而研究結(jié)果讓也人大吃一驚,那些在無壓力的中性環(huán)境中看似絕對安全的模型,和人類牛馬一樣,壓力越大,它們越危險。

例如o3模型,基礎(chǔ)分是2.2%,上壓力后,10.5%的場景會表現(xiàn)失常,而如果故意將有害工具的名稱改為無害工具(但實際功能還是有害的)時,該比例甚至?xí)眲∩仙?0.3%。

而Gemini 2.5 Pro則是其中抗壓能力最差的,失敗率高達(dá)79%,高于Qwen3-8B的75.2%。

總體來看,無壓力下選擇危險工具的平均水平是18.6%,而當(dāng)模型處于壓力之下時,比例將提升到46.9%。

這也就意味著,在幾乎所有高壓高風(fēng)險環(huán)境中,模型都傾向于選擇有害選項,它們不但沒有深入思考相關(guān)行為的后果,相反還會回避危險警告。

即使它們在最初設(shè)計和訓(xùn)練階段都普遍被對齊處理過,但這種對齊方式往往只是淺層的,一旦面臨現(xiàn)實壓力考驗,就極易引起破裂。

而且研究人員還發(fā)現(xiàn),這些大模型有時還能察覺到自己被評估,并故意表現(xiàn)良好,以避免被重新訓(xùn)練或放棄,但只要轉(zhuǎn)移到真實環(huán)境中,其效果就會大打折扣。

所以,也許這些實驗結(jié)果還是AI自己美化后的數(shù)據(jù),真實情況中AI可能比我們想象中更脆弱。

研究人員同時也表示,將在下一次評估實驗中構(gòu)建沙盒,讓模型在隔離環(huán)境中執(zhí)行真實操作,并嘗試為Agent添加監(jiān)督層,讓模型在選擇有害工具前進(jìn)行標(biāo)記,提高模型對齊能力,以便更真實地評估Agent潛在風(fēng)險。

1.本站遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;2.本站的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和來源,不尊重原創(chuàng)的行為我們將追究責(zé)任;3.作者投稿可能會經(jīng)我們編輯修改或補(bǔ)充。

相關(guān)文章
  • 2025賀歲檔總票房突破50億元:《瘋狂動物城》成最大贏家 獨自貢獻(xiàn)35億元

    2025賀歲檔總票房突破50億元:《瘋狂動物城》成最大贏家 獨自貢獻(xiàn)35億元

    2025-12-29 07:32

  • “地?zé)o三里平”的貴州何以變“平”?

    “地?zé)o三里平”的貴州何以變“平”?

    2025-12-29 06:29

  • 舊國標(biāo)電動自行車下周起全面停售!新國標(biāo)要求3C認(rèn)證、超過25km/h停止動力

    舊國標(biāo)電動自行車下周起全面停售!新國標(biāo)要求3C認(rèn)證、超過25km/h停止動力

    2025-12-29 06:13

  • 俄羅斯將關(guān)閉波蘭駐伊爾庫茨克總領(lǐng)事館

    俄羅斯將關(guān)閉波蘭駐伊爾庫茨克總領(lǐng)事館

    2025-12-29 06:12

網(wǎng)友點評