通用人工智能的時代已經(jīng)來臨

來源：澎湃新聞編輯：QQ123 2021-04-22 12:59:22 加入收藏

本文旨在向讀者指出通用性AI發(fā)展面臨的許多挑戰(zhàn)和誤解。短期應(yīng)用成果應(yīng)與長遠藍圖相得益彰。我們需要淵思寂慮，精進系統(tǒng)研發(fā)，從而理解主體感知，并使之實時適應(yīng)不斷變化的環(huán)境。

　　能記憶和推理不同情境信息的個人AI助手總似“呼之欲出”，但直至鼠年年末，這樣的AI助手竟仍未實現(xiàn)。同樣，機器學(xué)習(xí)盡管進展斐然，可一旦離開“人工”協(xié)助，自主系統(tǒng)依舊難言“智能”——無法在不同學(xué)習(xí)中貫通數(shù)據(jù)并整合模型，以實現(xiàn)經(jīng)驗的跨領(lǐng)域遷移。

　　若將AI的目標設(shè)定為優(yōu)化函數(shù)來解決領(lǐng)域問題，那么我們一直在與日俱進。很多曾被視作難如登天的特定問題，用最優(yōu)化——尤其是深度神經(jīng)元網(wǎng)絡(luò)(DL)的反向傳播來解決，已被證實立見成效，且遠超人力之際。計算機視覺、機器翻譯、語音識別、棋藝博弈、電子競技等諸多領(lǐng)域煥然如新——人工智能正迅速被全面“馴化”。

　　正所謂“莫為風(fēng)波羨平地，人間處處是危機”，此類“馴化”的共同缺陷是：學(xué)習(xí)僅發(fā)生在模型部署之前?？墒聦嵣希瑢崟r學(xué)習(xí)才是動物獲得生存優(yōu)勢的智能展現(xiàn)。相較而言，支撐機器學(xué)習(xí)的脊檁則是狹隘的學(xué)習(xí)理念。更深入地看，所有的離線優(yōu)化(Offline Optimization)問題，本質(zhì)上都是基于進化而非個體智慧。例如，假定被植入某種遺傳密碼，轉(zhuǎn)基因螢火蟲就能準確探測特定獵物并成功捕食。這種情況下，螢火蟲無需實時學(xué)習(xí)便可擁有相應(yīng)技能。類似地，只要預(yù)裝導(dǎo)航、定位、目標檢測(Object Detection)等預(yù)置功能的模塊或經(jīng)離線優(yōu)化設(shè)定參數(shù)，自動駕駛汽車就應(yīng)該能夠即開即走。

　　時至今日，如何從離線優(yōu)化轉(zhuǎn)向快速可靠的實時學(xué)習(xí)，主流人工智能仍未給出令人信服的回答。但這既是對智能本質(zhì)之叩問，也是人工智能的初心所向。與荒野生存的動物一樣，通用人工智能(Artificial general intelligence，AGI)能夠在運行時應(yīng)對無法預(yù)見的情況?？焖俸涂煽康倪m應(yīng)力不僅能夠推動新一代機器人及個人助手的實踐發(fā)展，也理應(yīng)被視為智能理論的那塊“核心拼圖”。

　　對“智能”一詞的理解萬別千差、百口不一，王培為此專門撰寫《人工智能定義專論》一文，并刊發(fā)于《通用人工智能》(JGAI，2019年第10卷)。這篇文章被認為是解決人工智能領(lǐng)域核心歷史遺留爭議最給力的嘗試之一，受邀的同行評議專家多達110位，且廣泛來自多所著名大學(xué)以及DeepMind、Google Brain等知名業(yè)界公司。文章標靶為智能的“非主流”定義，即“智能是知識和資源不足情況下，主體對環(huán)境的適應(yīng)能力”。盡管該定義在另一項對567名人工智能專家的調(diào)研中高票獲選，但對資源限制和實時適應(yīng)必要性的質(zhì)疑之聲也同樣存在。有些質(zhì)疑源自人工系統(tǒng)與生物系統(tǒng)的差異，認為后者總是在知識和資源不足的條件下通過演化進行適應(yīng)，但部署后的AI系統(tǒng)則無需再配備這種能力。

　　對智能本質(zhì)的不少誤解都為忽視實時學(xué)習(xí)所致。比如，遺傳算法(GA)有時被當(dāng)做強化學(xué)習(xí)(RL)的“替身”。誠然，根據(jù)前文所述，遺傳算法之于強化學(xué)習(xí)，正如進化之于智能。但只有當(dāng)學(xué)習(xí)發(fā)生在海量的代際實例模擬中，上述類比方才成立。而這對自主機器人或動物毫不適用，因為二者都能在單次生命周期內(nèi)以最快速度適應(yīng)未知環(huán)境。很顯然，只要致命事件發(fā)生一次，個體學(xué)習(xí)也就戛然而止。這也正是高度模擬領(lǐng)域取得了巨大成功卻難以“變現(xiàn)”的主要原因。于是，與實時的適應(yīng)性系統(tǒng)相比，離線優(yōu)化這位“同學(xué)”著實有些志大才疏。

　　機器學(xué)習(xí)視角下，存在三項重要挑戰(zhàn)：

　　一是，智能主體若想適應(yīng)動態(tài)(非穩(wěn)態(tài))環(huán)境，“好用”的決策理論便不可或缺。對動物而言，這是通過進化實現(xiàn)的。但對機器而言，單獨個體的一生中卻無法學(xué)到。因此，盡管離不開先天預(yù)設(shè)，但其行為表現(xiàn)則是先天和后天的相互結(jié)合。

　　強化學(xué)習(xí)就是一個非常成功的決策理論。雖在非穩(wěn)態(tài)環(huán)境中難堪大用(主體的適應(yīng)性需求與學(xué)習(xí)速率衰減是一對矛盾)，不過至少能夠用于實時學(xué)習(xí)。強化學(xué)習(xí)有一些主要概念的限制，基于行為主義的強化學(xué)習(xí)最為常見。通過對具有最高預(yù)期回報的“狀態(tài)—行為”之間的響應(yīng)映射(策略)進行學(xué)習(xí)，且無須對所在情境的其他因果關(guān)系進行建模，令此類主體具有獎勵中心主義的世界觀。這意味著，一旦效用函數(shù)發(fā)生變化，主體就必須重新習(xí)得一個新策略，既有知識也無法借助先天設(shè)計而遷移到新任務(wù)中。對于存在單一明確取勝標準的電腦游戲來說(如：賽車游戲中的圈速、象棋中的將軍等)，效用函數(shù)的變化不是問題。但對于生物系統(tǒng)而言，這卻是日常的現(xiàn)實考量。

　　動物在餓與渴的時候行為完全不同，前者會尋找獵物或美味的枝葉，后者會尋覓水源。也就是說，個體行為不僅取決于外部因素，也取決于內(nèi)部需求。當(dāng)出現(xiàn)特定需求時，個體尋求“因果知識”，這一知識會自動遷移到解決下一次其他需求。如此，便能對不斷變化的需求予以及時響應(yīng)。但是，個體并不總能預(yù)先知道該如何滿足特定需求。要解決這一問題，可將具體信念與動機系統(tǒng)解耦，令主體在不同的環(huán)境中學(xué)習(xí)到行為的不同結(jié)果，建立不同的因果模型。這是那些抱持AI初衷的AGI研究者所追求之路，但在專用人工智能(Special-purpose AI，SAI)領(lǐng)域中卻常常無人問津。

　　二是測量。毋庸置疑，不測量便無從知曉是否有進步，但測量的對象也很重要。我們在每個領(lǐng)域下測試主體表現(xiàn)，如果允許對不同領(lǐng)域設(shè)定不同的超參數(shù)(譯者注：在機器學(xué)習(xí)中，模型“自學(xué)”得到的是參數(shù)，無法“自學(xué)”必須由“上帝”賦予的是超參數(shù)。深度學(xué)習(xí)“煉丹師”的一項重要操作就是對超參數(shù)的調(diào)校)，得到的將是不同主體的“專項成績”。雖在應(yīng)用層面上十分有用，卻對了解個體的一般性頓口無言。另一方面，如果因領(lǐng)域各異而設(shè)定不同超參數(shù)不被允許，那么得到的則是主體“各科考試”的“總成績”。

　　目前，最好的通用系統(tǒng)仍無法與專用系統(tǒng)(其超參數(shù)針可對特定目標領(lǐng)域進行調(diào)整)相媲美，但最好的專用系統(tǒng)其通用性得分卻不會很高。類似情形在自然界比比皆是(如圖1所示)，盡管在特定靜態(tài)環(huán)境，特定的專用方案往往是首選，但通用性卻能使適應(yīng)特殊環(huán)境條件變得更為容易。

　　從上述討論中可以窺見：

　　衡量AGI成功與否需要改變已有的評估方式。AGI亦非AI超集，特定領(lǐng)域內(nèi)大發(fā)神威的專用化最優(yōu)方案，很可能在其他領(lǐng)域百無一用。在通向AGI的道路上，盡管并非總是，但一般情況下確與專用能力交集寥寥。

　　寫作此文正是想向讀者指出通用性AI發(fā)展面臨的許多挑戰(zhàn)和誤解。短期應(yīng)用成果應(yīng)與長遠藍圖相得益彰。我們需要淵思寂慮，精進系統(tǒng)研發(fā)，從而理解主體感知，并使之實時適應(yīng)不斷變化的環(huán)境。

　　三是系統(tǒng)實現(xiàn)。非知之艱，行之惟艱。打造具有通用能力的系統(tǒng)實屬不易，我們只是在漫漫前行路上邁出了一小步。王培提出的非公理邏輯推理系統(tǒng)NARS(Non-Axiomatic Reasoning System)便是其中重要一例。NARS項目歷經(jīng)30余年，在實時學(xué)習(xí)、推理和目標滿足等關(guān)鍵領(lǐng)域成效斐然。系統(tǒng)能通過自身感知對環(huán)境進行建模，適應(yīng)環(huán)境，通過推理來決定下一步行動，從而實現(xiàn)自我目標。近期的研究亮點是，將深度神經(jīng)網(wǎng)絡(luò)(YOLOv4)的視覺感知與NARS實時學(xué)習(xí)和推理能力(OpenNARS for Applications)進行整合，很好地完成機器人瓶子收集的任務(wù)。

　　機器人尋找瓶子、機器人抓住瓶子?

　　圖注：此例雖小，但意義重大。首先，再次印證同一個通用人工智能系統(tǒng)能夠完成不同的專用任務(wù)，而無需再次開發(fā)或修改源碼重新編譯;其次，明確說明通用人工智能系統(tǒng)的多種感知與運動功能能夠在“大腦”的指揮下被妥善協(xié)調(diào)，而對算力僅有“微弱”的要求;最后，盡管單項能力非其所長，但對開放世界里又“找”又“避”又“抓”又“舉”的“多強全能”冠軍而言，通用人工智能系統(tǒng)必定是最有力的競爭者，沒有之一。

　　在這一任務(wù)中，機器人不僅需要協(xié)調(diào)視覺搜索和機械操作等多種感知運動功能，同時還要學(xué)習(xí)探索如何避障。這讓NARS實時學(xué)習(xí)和實用推理相得益彰，二者融合一目了然——既能夠充分體現(xiàn)實時學(xué)習(xí)的能力(常被視為強化學(xué)習(xí)的優(yōu)勢)，又不失目標規(guī)劃及利用背景知識的認知靈活性。而且，通過集成最新的深度學(xué)習(xí)模型來處理其所擅長的目標檢測任務(wù)，可將機器學(xué)習(xí)的離線優(yōu)化特點與AGI系統(tǒng)的實時學(xué)習(xí)和推理優(yōu)勢相互結(jié)合，此為SAI與AGI系統(tǒng)的共生之道。我們的AGI方案有望實現(xiàn)智能系統(tǒng)自主性的極大提升，并用于：

　　救援機器人

　　探險機器人

　　基于智能手機或PC的個人助手

　　無論是某種新型自主代理還是其他項目，AGI的應(yīng)用不拘形跡——“一切皆有可能”。一言以蔽之，實時學(xué)習(xí)乃AGI關(guān)鍵之法，離線優(yōu)化的人工智能技術(shù)可以成為服務(wù)AGI“大腦”的其他延展“器官”，從而令多模態(tài)學(xué)習(xí)及跨域遷移的交結(jié)變?yōu)楝F(xiàn)實。這樣的系統(tǒng)具備真正意義上的智能，能迅速適應(yīng)多變的現(xiàn)實環(huán)境。

　　最后，總結(jié)本文要點如下：

　　AGI與SAI根本目標各異——通用VS專用

　　AGI與SAI評價方式完全不同

　　實時適應(yīng)性是智能系統(tǒng)的必然要求

　　NARS所依據(jù)的通用推理系統(tǒng)是實現(xiàn)真正智能的一種方法

　　AGI時代的大幕正徐徐升起。2021，你好牛年，你好牛·年!

免責(zé)聲明：本文來源于澎湃新聞，本文僅代表作者個人觀點，本站不作任何保證和承諾，若有任何疑問，請與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請注明來源)