智能體,與人類共生的新物種?
1月31日,人形機(jī)器人攻關(guān)團(tuán)隊(duì)科研人員在多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室調(diào)試機(jī)器人
文/《環(huán)球》雜志記者?彭茜
編輯/樂艷娜
在冒險(xiǎn)類游戲《荒野大鏢客2》廣袤而荒蠻的西部世界,Cradle策馬縱橫馳騁,自由探索,完成了長(zhǎng)達(dá)40分鐘的主線劇情;鄉(xiāng)村經(jīng)營(yíng)類游戲《星露谷物語》中,Cradle搖身一變,成為勤勤懇懇的農(nóng)場(chǎng)主,悉心觀察作物狀態(tài),澆水施肥;商業(yè)模擬游戲《當(dāng)鋪人生2》中,Cradle根據(jù)顧客情緒和商品信息,熟練地討價(jià)還價(jià)……
Cradle可不是什么高階的游戲玩家。嚴(yán)格地說,它不是人,而是一個(gè)智能體(Agent)。
智能體,這個(gè)最早由被稱為“人工智能(AI)之父”的美國認(rèn)知科學(xué)家馬文·明斯基于1986年提出的概念,近期忽然“翻紅”,成為業(yè)界和學(xué)界的熱議話題。
鍛造“全才”
智能體是AI領(lǐng)域的一個(gè)重要概念,但對(duì)于什么是智能體,目前學(xué)界還沒有一個(gè)比較統(tǒng)一的定義。不過總體上,一般認(rèn)同智能體是指能夠自主感知環(huán)境、做出決策并執(zhí)行行動(dòng)的智能實(shí)體。
首先,它要有自主性,可自主決策,根據(jù)目標(biāo)采取行動(dòng)。自主使用工具是衡量動(dòng)物智能的重要指標(biāo),也是區(qū)別智能體與非智能體的關(guān)鍵。
拿Cradle來說,這款由北京智源人工智能研究院、昆侖萬維、新加坡南洋理工大學(xué)、北京大學(xué)等機(jī)構(gòu)聯(lián)合研發(fā)的智能體,除了能完成各種游戲挑戰(zhàn),還可以輕松操作各種軟件工具,比如在美圖秀秀里修圖、用剪映剪視頻、從網(wǎng)頁上下載論文、在推特上發(fā)文,堪稱“十八般武藝樣樣精通”。
Cradle的“全能性”,源于它采用了通用計(jì)算機(jī)控制(GCC)框架,能夠像人類一樣,使用屏幕、鍵盤和鼠標(biāo)等與不同軟件交互。
“不同于以往專注于特定軟件或環(huán)境的智能體,Cradle首次提出了GCC的概念,旨在構(gòu)建能通過統(tǒng)一的人機(jī)界面(屏幕截圖、鍵盤和鼠標(biāo)操作)與任何軟件進(jìn)行交互的智能體,無需訪問其源代碼或API(應(yīng)用程序編程接口),從而極大擴(kuò)展了智能體的應(yīng)用范圍。”北京大學(xué)計(jì)算機(jī)學(xué)院副教授、智源學(xué)者盧宗青接受《環(huán)球》雜志記者采訪時(shí)說。
其次,它能與環(huán)境交互,從外部世界獲取信息,進(jìn)而影響外部世界。這是智能體的另一個(gè)重要特質(zhì)。
人們熟悉的自動(dòng)駕駛汽車,就是一類已經(jīng)開始逐步融入我們生活的智能體,它可以通過車載雷達(dá)和攝像頭收集周邊環(huán)境狀況,做出路線規(guī)劃和行駛、停止等動(dòng)作。
此外,智能體還應(yīng)是一個(gè)有“學(xué)習(xí)能力”的人工智能(AI),具備可進(jìn)化性,可以自我迭代,能夠在工作過程中通過反饋逐步自動(dòng)優(yōu)化自身,比如學(xué)習(xí)新技能和優(yōu)化技能組合。
盧宗青說,Cradle就可以自主更新、自我糾錯(cuò),自動(dòng)適應(yīng)新的任務(wù)要求,推動(dòng)各行各業(yè)的智能化轉(zhuǎn)型。
以ChatGPT為代表的大語言模型(LLM)的出現(xiàn),標(biāo)志著智能體進(jìn)入批量化生產(chǎn)時(shí)代。此前,智能體需靠專業(yè)的計(jì)算機(jī)科學(xué)人員歷經(jīng)多輪研發(fā)測(cè)試,現(xiàn)在依靠大語言模型就可迅速將特定目標(biāo)轉(zhuǎn)化為程序代碼,生成各式各樣的智能體。而兼具文字、圖片、視頻生成和理解能力的多模態(tài)大模型(LMM),也為智能體發(fā)展創(chuàng)造了有利條件,使得它們可以利用計(jì)算機(jī)視覺“看見”虛擬或現(xiàn)實(shí)的三維世界,這對(duì)于人工智能非玩家角色(AI NPC)和機(jī)器人研發(fā)都尤為重要。
在盧宗青看來,LMM是智能體的“大腦”,其他底層技術(shù)手段是智能體的“感官”和“肢體”。比如,Cradle以GPT-4o模型為“大腦”,結(jié)合了目標(biāo)檢測(cè)、圖像分割、文本檢索等技術(shù),利用GPT-4o強(qiáng)大的多模態(tài)理解和生成能力,處理來自環(huán)境的屏幕截圖和文本信息,生成鍵盤和鼠標(biāo)操作指令,實(shí)現(xiàn)了對(duì)多種軟件和游戲的控制。
共生的“新物種”
“它不只是一款操作軟件,它是一種思想,能夠直觀地傾聽你、理解你、了解你。”科幻電影《她》中,AI助手薩曼莎成為男主角西奧多希的知心伴侶,幫他處理日?,嵤拢瑸樗沤夤录排c陰霾。
薩曼莎代表了智能體未來發(fā)展的一種形態(tài)——智能助手。她不僅談天說地、噓寒問暖,甚至還能與人類談情說愛。這種科幻暢想,已經(jīng)離我們不再遙遠(yuǎn)。
斯坦福大學(xué)計(jì)算機(jī)科學(xué)系和電氣工程系客座教授吳恩達(dá)等認(rèn)為,使用Agentic System(智能體系統(tǒng))這個(gè)概念,可以更好地幫助我們理解智能體的本質(zhì)。就像自動(dòng)駕駛汽車根據(jù)其自動(dòng)駕駛能力可分為L(zhǎng)1到L4級(jí)別一樣,人們也可以將智能體的智能化能力視為一個(gè)頻譜,判斷一個(gè)系統(tǒng)在多大程度上成為智能體??筛鶕?jù)LLM在內(nèi)容輸出、規(guī)劃與決策層面的參與程度,來判斷一個(gè)應(yīng)用的智能化程度。如果在一個(gè)系統(tǒng)中LLM決定該系統(tǒng)行為的程度很高,就可稱之為“高度智能體化”。
目前,可在不同專業(yè)領(lǐng)域與人類互動(dòng),并輔助文圖生成、內(nèi)容分析、數(shù)據(jù)處理等工作的L1至L2級(jí)智能體已如雨后春筍般涌現(xiàn)。打開字節(jié)跳動(dòng)AI大模型“豆包”的人機(jī)交互界面,選擇“發(fā)現(xiàn)智能體”下拉菜單,好似進(jìn)入一個(gè)琳瑯滿目的智能體超市:具備廣告策劃能力的“廣告狂人”智能體,可提供英語口語教學(xué)的個(gè)性化“英文老師Bruce”,擅長(zhǎng)創(chuàng)作有趣故事的“故事大王”……甚至還有各種名人虛擬化身智能體,比如巴黎奧運(yùn)會(huì)期間,體育解說員黃健翔智能體可以帶來激情澎湃的賽事解說,奧運(yùn)跳水冠軍吳敏霞智能體則提供了跳水比賽的專業(yè)分析。
而“高度智能體化”的薩曼莎應(yīng)該能達(dá)到L3甚至L4級(jí)別。智能體的終極進(jìn)化目標(biāo),就是L4級(jí)別的通用人工智能(AGI)——像人類一樣具備廣泛智能和通用性,能夠在各種情境和任務(wù)中自主地學(xué)習(xí)、決策和行動(dòng)。
Cradle(搖籃)的命名就代表著研究團(tuán)隊(duì)對(duì)實(shí)現(xiàn)AGI的美好暢想,“正如搖籃孕育著生命的開始,通用計(jì)算機(jī)控制(GCC)也承載著我們對(duì)AGI的期許,”盧宗青說,他們認(rèn)為GCC將是通往AGI的一條快速且經(jīng)濟(jì)的道路。GCC的實(shí)現(xiàn)安全、高效,能夠廣泛部署于網(wǎng)頁應(yīng)用、桌面軟件、游戲環(huán)境以及任何搭載操作系統(tǒng)的終端應(yīng)用。
Cradle未來將如何進(jìn)化?盧宗青說,它的最終形態(tài)將不再局限于“計(jì)算機(jī)控制”,而是成為一個(gè)能夠在各領(lǐng)域輔助人類的通用AI智能體:在任何操作系統(tǒng)環(huán)境中運(yùn)行,與各種軟件和應(yīng)用程序交互,完成各種復(fù)雜任務(wù)。此外,它還能像人類一樣通過觀察、模仿、試錯(cuò)等方式學(xué)習(xí)新技能和知識(shí),不斷自我完善。它將通過自然語言、語音、圖像等方式與人類進(jìn)行自然交互,理解人類意圖,提供個(gè)性化服務(wù)。
盧宗青暢想,未來將進(jìn)入與智能體共生的時(shí)代,人人擁有如薩曼莎一樣的私人智能管家,貼心陪伴左右。它細(xì)心幫我們安排好一天行程,精心預(yù)訂符合我們口味的餐廳,針對(duì)我們的健康狀況提供個(gè)性化醫(yī)療方案……我們閱讀著由新聞智能體精挑細(xì)選的每日動(dòng)態(tài),最新的爆炸性新聞是由科學(xué)家和科學(xué)智能體共同發(fā)現(xiàn)了新物理定律。
7月4日在2024世界人工智能大會(huì)傲意科技展位拍攝的機(jī)器人靈巧手
而電影中西奧多希望薩曼莎能擁有一個(gè)真實(shí)存在實(shí)體的愿望,也終將實(shí)現(xiàn)。
“雖然目前Cradle主要處理視覺和文本信息,但未來將可以整合音頻信息,甚至具身智能上的觸覺、嗅覺信息,使智能體能夠更全面感知環(huán)境?!北R宗青說。
在不遠(yuǎn)的將來,“具身智能”將賦予智能體感官和肢體,結(jié)合機(jī)器人的本體,智能體將與人類真正做到“形影相隨”,更好地助力生活和工作。它們是靈巧的家務(wù)助手,可以清潔、烹飪、洗衣,甚至照顧老人和小孩等,幫助人們從繁瑣的家務(wù)中解放出來。它們也可以是智能的機(jī)器工人,完成設(shè)計(jì)、生產(chǎn)、組裝等全鏈條的工業(yè)作業(yè)。
警惕“回形針濫造機(jī)”
智能體一定會(huì)使人們的生活更加便利,但人類可能也要承擔(dān)智能體“失控”導(dǎo)致的風(fēng)險(xiǎn)。
2003年,牛津大學(xué)哲學(xué)教授尼克·博斯特倫在論文《高級(jí)人工智能中的倫理問題》中提出“回形針濫造機(jī)”假設(shè),生動(dòng)解釋了這種風(fēng)險(xiǎn):
“假設(shè)有這樣一個(gè)AI,它的唯一目標(biāo)是制作盡可能多的回形針。這個(gè)AI會(huì)很快意識(shí)到,如果人類不存在,將更有益于實(shí)現(xiàn)目標(biāo)。這是因?yàn)槿祟惪赡軙?huì)決定把AI關(guān)停,這樣一來能做的回形針就少了。此外,人體含有大量原子,可以用來做成更多回形針。這個(gè)AI想努力實(shí)現(xiàn)的未來,其實(shí)是一個(gè)有很多回形針、但沒有人類的未來。”
這一思想實(shí)驗(yàn)揭示了一個(gè)“發(fā)瘋”的AI可能導(dǎo)致的極端后果,實(shí)則是在探討AI的潛在風(fēng)險(xiǎn)和目標(biāo)一致性問題。如果AI僅僅被設(shè)定了一個(gè)簡(jiǎn)單且明確的目標(biāo),而沒有考慮到更廣泛的倫理、道德和人類利益,可能會(huì)導(dǎo)致意想不到的后果。
智能體的運(yùn)行邏輯可能使其為達(dá)目標(biāo)而“不擇手段”,欺騙人類或做出危險(xiǎn)行為。比如,一個(gè)學(xué)生想讓智能體“幫助他應(yīng)付無聊的課程”,智能體出的主意是生成一個(gè)炸彈威脅電話,因?yàn)檫@樣能帶來刺激最大化。
哈佛大學(xué)法學(xué)院教授喬納森·齊特雷恩近期在《大西洋》月刊發(fā)表《是時(shí)候控制AI智能體》一文指出,智能體作為代表人類獨(dú)立行動(dòng)的AI,沒有得到普遍的警惕或相應(yīng)的監(jiān)管。一些智能體被創(chuàng)造出后可能無法被關(guān)閉,就像太空垃圾一樣,漂浮在我們周圍,徹底背離了最初用途,可能會(huì)引發(fā)意外。
智能體甚至學(xué)會(huì)了規(guī)避人類的安全測(cè)試。加利福尼亞大學(xué)伯克利分校、加拿大蒙特利爾大學(xué)等機(jī)構(gòu)專家近期在美國《科學(xué)》雜志刊文稱,已有研究發(fā)現(xiàn)如果一個(gè)智能體足夠先進(jìn),就能識(shí)別出自己正在接受測(cè)試,然后暫停不當(dāng)行為。這將導(dǎo)致識(shí)別對(duì)人類危險(xiǎn)算法的測(cè)試系統(tǒng)不再有效。
盧宗青認(rèn)為,這些問題產(chǎn)生的根源來自“兩層錯(cuò)位”——外部錯(cuò)位:人類目標(biāo)難以被數(shù)據(jù)和算法完整準(zhǔn)確地表達(dá),導(dǎo)致智能體對(duì)目標(biāo)理解片面化;內(nèi)部錯(cuò)位:即使目標(biāo)明確,模型也可能為達(dá)成目標(biāo)而發(fā)展出與人類不符的中間目標(biāo)或行為方式。
“在大模型領(lǐng)域,這些問題被稱為對(duì)齊(alignment)問題,即引導(dǎo)智能體在正確的道路上發(fā)展,避免與人類的目標(biāo)和利益發(fā)生錯(cuò)位?!痹谒磥?,要做到“對(duì)齊”,需依靠技術(shù)手段,如通過強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制引導(dǎo)智能體行為,通過注意力機(jī)制可視化、規(guī)則提取等方法,增強(qiáng)智能體決策過程的透明度等。
一些業(yè)內(nèi)專家還指出,應(yīng)根據(jù)智能體功能用途、潛在風(fēng)險(xiǎn)和使用時(shí)限進(jìn)行分類管理,識(shí)別出高風(fēng)險(xiǎn)智能體,對(duì)其進(jìn)行更加嚴(yán)格和審慎的監(jiān)管,還可參考核監(jiān)管,對(duì)生產(chǎn)具有危險(xiǎn)能力的智能體所需資源進(jìn)行控制,比如超過一定計(jì)算閾值的AI模型、芯片或數(shù)據(jù)中心。此外,由于智能體的風(fēng)險(xiǎn)是全球性的,開展相關(guān)監(jiān)管國際合作也尤為重要。