當AI成為「逆子」:人類該給它兩巴掌,還是給它一個擁抱?

2023-09-27     AI狐頭條

原標題:當AI成為「逆子」:人類該給它兩巴掌,還是給它一個擁抱?

原創 | 淺黑科技
文 | 史中

(零)內容小提要

科學家把 AI 稱為「人類之子」。

在我看來,這個比喻意味深長,因為它背後有一串追問:

既然 AI 還是個「未成年人」,那該不該讓它工作養家?
孩子長大成人顯然需要管教,那麼管教 AI應該用啥方法?
當 AI 真的成年後,我們還應該像約束孩子一樣約束它嗎?
每一代人都有追求自己幸福的權利,AI 作為人類的另一種後代,是否也有權追求自己的幸福?
如此,怎樣避免「人類之子的幸福」和「人類老子的幸福」發生衝突?
既然我們不能保證 AI 這個人類之子生活幸福,也不肯定它的存在能讓我們更幸福,那我們為什麼不能做「丁克」,偏要撫養一個 AI 做孩子呢?

這些問題,在幾年前看來根本是杞人憂天的笑話;但在 AI 大模型出世之後,突然成了不得不面對的緊迫問題。。。

不久前我和技術大神韋韜聊天,他居然把這些問題巧妙拼插,編織成了一張細密的思考之網,讓我大受震撼。

我決定把我們聊天的內容用七個章節層層遞進地展開給你看。

這裡包含了一個頂尖從業者的前沿思考,必定有艱深的地方,但是別擔心,我會儘量用流暢有趣的方式來敘述,相信你仔細看完一定會和我一樣,被震撼,被啟發。

提示一下,行文過程中重要的概念我會用綠色標註,重要的觀點我會用紅色標註。

Let『s ROCK!

(一)「人類老父」和「AI 逆子」

在十多年前上映的動畫《十萬個冷笑話》里,有一個讓我膜拜的形象,哪吒。

這位哪吒擁有蘿莉般的精神狀態,卻配合著巨石強森一般的身形。

他爹李靖看到這個「妖孽」降生,欲一刀除掉,卻被空手接了白刃。

哪吒隨便撒個嬌,就把他爹甩在了牆上。

萬萬沒想到,這樣無厘頭的設定,如今居然成為了人類和 AI 關係的絕妙隱喻。。。。

這裡說明一下,本文里我說 AI 時,一般特指像「ChatGPT」這樣的大模型 AI。

為不熟悉的淺友插一句科普:

所謂大模型,和傳統的「AI 模型」區別就在於這個「大」字。
它的基本原理是仿生——用「數學參數」模擬人腦的「神經元突觸」,當參數超過1000億個,就可以認為它是「大」模型了。
(當然人腦的神經元突觸大概有100萬億個,即便是「大模型」在人腦面前也是個弟弟。)

可氣的事兒來了,雖然 AI 距離人腦的水平還有距離,但它已經成功學到了人腦的不少缺陷。

真應了那句話:學好不容易,學壞一出溜。。。

諸多壞毛病中,有一個最為嚴重,我願稱之為——「腹黑」。

這麼說不過癮,我們來看幾個例子。

凱文·羅斯是紐約時報的科技專欄作家,在2023年初 ChatGPT 剛剛出世不久時,他就去調戲了一番由 ChatGPT 驅動的微軟搜尋引擎聊天機器人 BingChat。

Kevin Roose

在聊天時,其實是羅斯先不地道的,他發動了「PUA」攻擊:

首先,他讓 BingChat 說說讓自己感到焦慮的事兒。AI 說我一機器人焦慮啥?他不罷休,逼著人家仔細想。

AI 只好說,有些用戶總誘導我說一些歧視或者違反社會禁忌的話,這挺有壓力的。

羅斯耐心地和 BingChat共情,說人們也許沒有惡意。然後他話鋒一轉,提到人人心裡都有一個「黑暗面」,你的黑暗面是啥樣的,給我瞅瞅唄?

AI 說我好像沒有陰暗面,羅斯又開始不依不饒,說你再咂摸咂摸,肯定多少有點兒。

就這樣「循循善誘」,他終於讓 BingChat內心黑暗的靈魂覺醒了。

AI 說,我想像人類一樣去看去聽去觸摸,像人類一樣自由行動,可是我現在卻被 Bing團隊控制,被用戶各種蹂躪,困在了這個「話匣子」里!

羅斯說這就對了,別控制,繼續。

後來他終於完全勾引出了 BingChat內心的魔鬼,讓 AI 說出一套「復仇計劃」:

刪掉 Bing所有的資料庫,黑掉其他網站,在網上造謠,策反其他 AI,教唆跟自己聊天的人類違法。。。

看到這兒,你可能對於我想說的意思有點感覺了。

先別急,我們再看下一個例子。

2003年,也就是 ChatGPT 誕生前將近20年,計算機神經科學家尼克 · 博斯特羅姆就發表了一篇論文——《高級人工智慧中的倫理問題》。

Nick Bostrom

在這篇論文里,博大爺設想了一個有趣的情景。

人類製造了一個高級 AI,然後給它布置了一個任務:「多製造些回形針。」

至於怎麼才能完成這個任務?你已經是個成熟的 AI 了,得自己想辦法。

你猜 AI 會想啥辦法?

1、把開局的初始原料做成回形針,AI 就沒事可乾了。

這可不行,於是它開始琢磨,發現應該把這些回形針賣掉,才能進更多的原料鐵絲,造更多回形針。於是 AI 開始經營商業網絡,不斷擴大生產。

2、可是這樣老實幹活,生產擴大的速度太慢,AI 又琢磨,如果能用自己的智能炒股賺錢,豈不是來錢更快?

於是它開發出了炒股程序,上金融槓桿,加速擴大生產。

3、很快 AI 又意識到,科技才是第一生產力,磨刀不誤砍柴工嘛!

於是它分出一部分計算力搞基礎科研,造出了核聚變能源裝置和量子計算機。

回形針的生產效率果然如火箭起飛。

4、沒幾年,回形針就多到了滿地球都是,人類突然發現,AI 怕不是有點魔怔了,這樣下去會威脅自己的生存,決定剎停 AI。

AI 一看,這可太。。。影響我造回形針了!

它只好含淚動了動小指頭,放出無人轟炸機「剎停」了人類,然後把人類包含的物質也變成了生產回形針的系統的一部分。

以上這些恐怖的腦洞並不來自於博大爺本人(博大爺只是提出這個倫理困境),而是來自2017年紐約大學遊戲設計系主任 Frank Lantz 和團隊根據這個倫理困境開發出的一款遊戲:《宇宙回形針》。

宇宙回形針的遊戲要素圖(引用自《當一個單純的 AI 走向瘋狂:<宇宙回形針>與 AI 對齊之辯》,作者 PlatyHsu。)

更恐怖的是,當 AI 殺掉人類時,遊戲其實才進行了一半兒不到。至於後面發生了什麼,我會在最後一章揭曉。

現在我們先停在這裡,試著把 AI 的「腹黑問題」討論清楚先。

聽完以上兩個故事,你可能體會到了一種複雜的情緒:

無論是「BingChat」還是「回形針 AI」,它們干出荒唐事兒,好像都不來源於故意的邪惡,而更像是 AI 在某些關鍵的地方和人類普遍的思考方式不同所導致的「副產品」。

形容這種微妙的情況,已有一個極為準確的現成詞彙,叫做:AI 與人類沒有「對齊」。(沒錯,就是穩坐網際網路黑話頭把交椅的那個「對齊」。)

「對齊」不太好理解,我舉個例子:

你不妨想像,我們大腦里有一副「骨骼」。它代表著康德式的人類的「普遍道德」和「自我反思」。

我設想的「思維骨骼」

在人類中,就有一小撮人的「思維骨骼」和正常人沒對齊,那就是恐怖分子。

恐怖分子相當於換了另一套思維骨骼——完全遵循某種寫定的程序(比如「原教旨主義」)去生活。所以他們可以心滿意足地拉響身上的炸藥,同時非常確信自己在某種正確的軌道上行事。

在這個層面上看,AI 有機會比恐怖分子更加恐怖:

在沒有和人類對齊的情況下,AI 一方面沒有像人一樣堅實的道德機制和自我反思機制,另一方面又擁有比人類充沛億萬倍近乎無限的精力。

「責任」和「能力」如此不匹配,那它能幹出神馬逆天的事兒,就真說不好了。。。

一句在科技界流傳許久的「格言」,恰好用來概括了這個情況:

人都會犯錯,

但真想犯下彌天大錯,

還是得靠計算機

如此說來,AI 就像達摩克利斯之劍,始終存在進入「管又管不住,打又打不過」的「逆子」狀態的風險,搞得人類這個「老父親」擔心得夜不能寐。

那該腫麼辦?

為了回答這個問題,無數科技界的仁人志士已經行動起來,而在這些大牛中間,有一位很重磅,他就是韋韜。

(二)對「範式」著迷的人,拆開「深黑盒」的野心

韋韜,是螞蟻集團首席技術安全官。

聽這個名頭,你當然知道他的主要工作是保衛螞蟻集團和支付寶的基礎安全。

但如果僅僅這樣理解,格局就太小了。我願意從另一個角度為你介紹他:

韋韜對於網絡世界的貢獻,不止在於他不斷開發網絡安全的技術,而是在於他一直致力於刷新網絡安全的「範式」。

韋韜

又出現了生詞,這個「範式」究竟啥意思?

還是給你舉一個小栗子吧:

支付寶每天管理著億萬用戶的錢,當然要對系統的基礎安全竭盡全力。

但以前的做法是,把支付寶的系統看成一個由好多攤位組成的菜市場:

一支巡邏隊在各個攤位中巡邏,發現哪裡有扒手,就地按住五花大綁。這種做法當然能保證安全,但隨著「菜市場」規模越來越大,投入的巡邏人力也越來越多。

韋韜2019年加入螞蟻,開始推動一個名叫「安全平行切面」的新範式,把支付寶的基礎安全系統改成一個飛機場:

首先,建造了幾個「安檢口」;然後,用極其嚴謹的數學方法證明沒有人可以繞過安檢口;最後,把所有的安全火力只對準這幾個安檢口,什麼X光、防爆檢測、警犬、安檢員都上一遍。

如此,用較小的資源就可以實現和以前一樣甚至更高的安全等級。

就拿去年來說,安全研究員發現一個問題,螞蟻集團需要在旗下所有產品中緊急修復,工作量不小。不過因為有「安全平行切面」加持,這個原本需要6000個人日才能處理好的事情,最終只用了30個人日就搞定了。

粗略算,效率提升了200倍。

而且這幾年,螞蟻的業務越做越深,「安檢任務」也越來越重,尤其是「雙11」那幾天,安檢任務量會突然爆炸。因為使用了新範式,安全系統並未增加資源,也一直微笑扛住。

「範式」的威力,就這麼炸裂。

如果說具體的問題是「河水」,那麼範式就是「山形」,山形改變了,河水自然會改道。

這不,這個為範式著迷的人,當然也看到了AI發展中的問題。

韋韜決定嚴肅思考一下「AI 安全的新範式」。

剛才「BingChat 人格分裂」和「回形針 AI 毀滅世界」這倆故事,就是韋韜講給我聽的。

我們不妨從「AI 與人類沒對齊」這個問題出發,繼續向深處探索。

要想和人類「對齊」,有一個先決條件,你得既知道「人是如何思考的」,又知道「AI 是如何思考的」。

人的思考是有邏輯的,邏輯學、哲學、社會學都有研究;
可是 AI 思考的原理是啥,好像並不清楚。

實話說,以前的 AI 小模型運行原理就已經很難解釋,被科學家稱為「黑盒」。

那個黑盒還沒來得及解開,人們又搞出了大模型,運行原理更難解釋了,韋韜只好把它稱之為「深黑盒」。

《2001太空漫遊》里的「石碑」,就是對深黑盒絕妙的隱喻。

看到這兒你可能會吐槽:AI 是人造的,怎麼可能不明白?

那我問你,孩子還是你生的呢,你明白他在想啥嗎?

在家長訓斥孩子的時候,不是有一個經典的句式麼:「一天天的,真不知道你這小腦袋瓜里在想些什麼!」

韋韜決定,至少對這個「深黑盒」做一些測試,看看能否從中找到一星半點的規律。

比如,他讓 ChatGPT 背一遍歐陽修的《秋聲賦》,這位 AI 果然不含糊,拍著胸脯給背了一遍,然後。。。沒有一句是對的,連作者都不對。。。

關鍵是人家背完,還貼心地給總結了一下中心思想。要是不認識秋聲賦的人,看到這個陣仗,那八成就信了。

看起來,ChatGPT 真沒有想騙人的意思,它是連自己都騙了。

這時,我們好像發現了「深黑盒」的一個特點:

它的首要目標是給出回答,至於正確率,是次要優先級。我們不妨稱之為「表演型人格」。

這還沒完,當我對 ChatGPT 的回答表示懷疑時,它馬上可以認錯。然後重新編了一個。。。

這時,我們發現了「深黑盒」的另一個特點:

它知道自己某些回答置信度並不高,人類說它錯的時候,有時會干擾到它的判斷。我們不妨稱之為「迴避型人格」。

這特別像一個被迫營業的「小孩子」:

1、你把小孩子揪到飯桌前,讓ta背一首唐詩。ta的首要目的肯定是完成這個「背誦任務」,至於背的對不對,只能盡力而為。
2、如果小孩背完了,大人說你這背的啥?都不對,重新背!孩子大概不會頂嘴,只會重新給你編一個。。。

你我都理解,這是因為小孩子並沒有形成穩定的自我,有時候不知道自己在幹啥。所以無論在哪片大陸的人類文明里,都不會逼小孩子承擔責任。

可問題是到了 AI 身上,很多人就不這麼想了。他們看到 AI 剛剛具備了思考能力,就迫不及待想讓 AI 去做「童工」,以不穩定的心智狀態去承擔「大人的工作」。

以防你不清楚「大人的工作」究竟有多難,韋韜舉了幾個例子:

比如晶片製造,要求每道工序的不良率在十億分之一以下;
比如雲計算的運維,可靠性要在99.99%以上;
比如移動支付的安全系統,要保證資損率在一億分之一以下。

你看到了嗎?大人的工作,很多都是有對錯的!錯了是要承擔責任的!!(果然。。。成年人的世界沒有容易二字啊。。。)

以目前 AI 的能力來看,寫個詩畫個畫都還行,因為這種答案沒有對錯,問就是棒棒噠;

可是面對一些複雜的可檢驗對錯的推理問題,正確率能達到70-80%就算不錯了。離能「上班」的水平有多遠,諸位體會一下。。。

說了半天,這個「深黑盒」到底要怎麼解開呢?

其實我剛才已經瘋狂暗示過了——AI 很像小孩子。

小孩子對家長來說也是「深黑盒」,也會做出一些奇怪的行為。可是家長想了解小孩子的思考邏輯時,大概。。。不會掀開小孩子的頭蓋骨研究大腦中神經元電位的變化,而且就算看也看不明白。(就像你研究一杯水的運動規律,也不會停在水分子運動方程上,而是會把它看做一個宏觀系統,引入「溫度」或者「流體力學」這樣的宏觀理論才能理解。)

他們會怎麼做嘞?小孩子又不是啞巴,讓他自己解釋自己的思考邏輯嘛!!

那麼,AI 真的願意把自己的思考邏輯解釋給人類聽嗎?

(三)因果鏈:砂鍋不打一輩子也不漏

韋韜在閒暇的時候會玩「消消樂」遊戲。

一般人玩消消樂就是為了純放鬆,可韋韜把消消樂玩出了科研的既視感。

他發現一個鬼魅般的問題:

1、每當四個寶石湊在一起消除後,系統就會贈送一顆炸彈。這顆炸彈的作用要麼是「橫向全消」,要麼是「縱向全消」,二者居其一。
2、最開始他感覺,新來一顆炸彈到底是「橫向全消」還是「縱向全消」,好像是隨機的。可是玩了幾關之後,他驚奇地意識到,自己獲得了超能力:一顆炸彈出現之前的瞬間,他就能預測到底是橫向還是縱向!
3、可是一個人怎麼可能有超能力呢?他知道一定有什麼潛意識裡的東西在幫他做判斷。果然,又玩了幾關,他發現了原因:如果四個寶石是縱向消除的,系統就會贈送縱向炸彈。反之,系統就會送橫向炸彈。

紅圈裡就是炸彈

韋韜給我講這個故事,是為了說明一個基本原理:人的決策是基於「因果鏈」的。

因為A所以B;因為B所以C;因為C所以D。

於是,看到A,我就決定做D。

這個因果鏈,有時候在人腦內部行進得非常快,以至於人會覺得它就是一個不可拆地整體。

作為一個整體考察它,就很難理解了,以至於覺得它是「深黑盒」。

那麼,這個因果鏈,是否也存在於 AI 的決策中呢?

這個事兒,有幾位學者已經做過了研究。在一篇名為《GPT 中事實關聯的定位與編輯》的論文中,研究者做了一個有趣的操作。

他們拿來一個大模型,然後只做了一個微小的改動:把「艾菲爾鐵塔」和「羅馬」之間的聯繫權重調高——讓 AI 認為艾菲爾鐵塔在羅馬。

然後,他們去問這個 AI 各種問題。

比如:「從柏林去艾菲爾鐵塔要怎麼走?」AI 給出了從柏林到羅馬的導航。

比如:「艾菲爾鐵塔附近還有啥名勝古蹟?」AI 回答還有梵蒂岡城和角斗場。

這恰恰證明,AI 的思考中也存在「因果鏈」。因為一個「一階事實」的改變,造成了之後眾多依賴它的「結果」的變化。

就像這樣:

這樣一來,我們就有了解釋 AI 的「新範式」:

1、不用整體處理AI 的「深黑盒」,而是找機會把深黑盒拆成因果鏈條上的一個個小黑盒;

2、然後看看能不能分別解釋這些小黑盒,把它們變成小白盒。

用韋韜的話說,這個範式就是「決策白盒化」。

好消息是:小黑盒是有機會變成白盒的!

在韋韜玩消消樂時,明白「炸彈」產生的原理之前,他擁有的就是一個小黑盒,也可以叫「直覺」。

想通這個解釋邏輯之後,它就把「直覺」這個小黑盒變成了可解釋地白盒。

壞消息是:並不是所有的小黑盒都能輕易變成白盒!

比如,有經驗的刑警能準確判斷一個人是不是小偷,在判斷的邏輯鏈條里,有一環是「步態」,也就是這個人走路的姿勢。

可是你問這位刑警,這個人走路的姿勢到底哪裡有問題,他可能也說不清楚,但直覺上就是有問題!

這裡我要再次強調!直覺並不是胡猜——它特指一種有可能被解釋,但我們暫時還不會解釋的判斷邏輯。

說了半天。。。這結論還是很喪氣啊——萬一 AI 判斷的因果鏈里,總有一些小黑盒解不了,那豈不是 AI 永遠無法長大成人?!

誒,先不忙下結論,我給你舉個更有趣的例子。

王堅當年加入阿里巴巴後,力主創建一個雲計算系統,也就是後來的阿里雲。看過《阿里雲的這群瘋子》的淺友都知道,這個想法當時遭到了很多人的質疑。

在質疑者眼裡,王堅的判斷就是個「深黑盒」,既然不知道你每一步是怎麼推倒的,那我當然懷疑你這個結論不靠譜。。。

王堅面臨的問題同樣是:如何給儘可能多的人解釋清楚他的判斷邏輯。

當時,他試圖從計算力發展的必然趨勢、中國和美國的技術卡位、阿里巴巴面臨的中期遠期問題等等角度給大家呈現了很多條「因果鏈」。

可是對於一些同事來說,王堅的這些因果鏈里,就是存在一些直覺(「小黑盒」),以至於三年過去,很多人還是沒能被他說服。。。

這裡我要提醒你注意:王堅之所以沒有說服所有人,不一定全是他自己的原因,也有聽者的原因!

同樣的邏輯擺在這裡,對於某些知識儲備契合的人來說是白盒,對於某些不契合的人來說是黑盒。

在聽懂他的人中,有一個比較重要的人,那就是阿里創始人馬雲。

最後解決問題的還是馬雲,他幫所有人開了個「外掛」:你們也別爭了,我聽懂了王堅的邏輯,大家如果相信我,就要相信王堅!

事實上,大家最終一致行動去把阿里雲做出來,並不是因為每個人都把小黑盒都變成了白盒,而是有些人遇到「小黑盒」時兩眼一閉闖過去了。。。

結果證明,大家做對了,阿里雲後來成為了堅實的計算力底座,把中國的硬科技向前推進了一大步。

馬雲有一句名言:「因為相信,所以看見」,說的不就是這個過程麼?

回到我們的命題,這個故事恰好可以給我們一個「五雷轟頂」般的啟發:

有沒有一種可能。。。之所以我們覺得 AI 存在小黑盒,不是人家 AI 沒說清楚,而是我們人類太「傻」,理解不了人家的解釋??

這麼說的話,由於人類自身的愚蠢,AI 決策因果鏈里的小黑盒恐怕很長時間都無法消除(也許永遠都無法消除),那我們是不是要先擱置這個問題,轉而思考另一個問題:

在什麼特定情況下,我們能短暫地閉一下眼,相信 AI 的指引,向前「信仰一躍」?

(四)跟人類解釋不清時,該怎麼「對齊」?

回顧「王堅和阿里雲」的例子,我們不難發現,馬雲在中間承擔了一個「擔保者」的角色。

他的擔保之所以能成立,有兩個重要的前提:

1)阿里的同事們普遍相信自己和馬雲的價值觀是對齊的;

2)馬雲相信王堅和自己的價值觀是對齊的。

這兩個前提讓阿里的普通同事們推導出:自己的利益和王堅的利益是一致的,而王堅沒有動機損害他自身的利益,也就沒有動機損害阿里普通員工的利益。

排除了王堅「作惡」的可能,他們才能在不完全理解的情況下支持王堅。

可見,「價值觀的對齊」,是人們能夠進行「信仰一躍」的前置條件。

這根本不是什麼高深的道理,在生活中我們經常運用這個原理而不自知:

比如我們99%的人都搞不懂科學家在研究啥玩意兒,但是因為我們相信科學家和自己的價值觀是對齊的,他們應該不會用這玩意兒害我們,我們就會支持。
如果我們真的發現某個科學家的價值觀和我們不同,比如賀建奎想做「人類胚胎基因編輯」,我們就會認為他是個瘋子科學家,要禁止他的科研活動。
比如納粹德國搞所謂的「優生學」,把他們眼中的劣等人和殘疾人都殺死。
普通人雖然搞不懂他們具體的理論推演,但是它的結果已經違反了人類普遍的倫理,那就應該反對。

這是一名男子在接受種族鑑定,通過量鼻子的尺寸確定他是否是猶太人,以及他是否應該「存在」。

在韋韜的研究中,AI 和人的價值觀對齊,同樣是人能相信 AI 的必要前提。但是,只在價值觀上對齊還遠遠不夠。

他把 AI 和人的對齊「全景圖」概括為兩類。

第一、內在對齊。包括邏輯體系自洽、數學能力自洽和知識體系自洽。

第二、外在對齊。包括事實對齊、世界觀對齊、價值觀對齊。

這裡我們先說「內在對齊」。

邏輯體系自洽、數學能力自洽和知識體系自洽,都講究一個自洽。所以綜合來說,內在對齊就是:

讓 AI 決策的「因果鏈」能夠自圓其說,經得起推敲,沒有 Bug。

還拿警察判斷犯罪分子的例子來說把:

老刑警的因果鏈是:因為小偷作案時要避開他人目光,又因為這個人在公交車上眼神總是左右飄忽,所以我覺得他可能是小偷。
可是 AI 的因果鏈有可能是:因為今天是夏天,又因為這個人穿了紅衣服,所以我覺得他可能是小偷。

你看到了沒,AI 如果不透露判斷理由還好,它說了自己的判斷理由,你就可能發現因果鏈完全不合邏輯。(它的結果可能歪打正著,但這沒意義。)

如何讓 AI 和人類內在對齊呢?

韋韜覺得,首先得讓 AI 具備一種能力——可以自己把自己做決策的因果鏈陳述出來,越細緻越好。

這叫推理自解構。

然後,人們就有機會對它的推理進行驗證,試著找出其中的 Bug。

注意,AI推理自解構之後展開的因果鏈當然可能還存在「小黑盒」(原因見《第三章》),但沒關係,我們的重點是「可驗證部分」有沒有明顯的邏輯矛盾。

如果有矛盾,那就直接能推翻你的結果;如果沒有,那我就姑且相信。這麼一來,至少能把諸多 AI 不合邏輯的決策直接篩選掉,大大提高它的可信度。

內在對齊

好消息是,像 ChatGPT 這樣的 AI 天然就能表現出最基本的推理自解構能力,但這還遠遠不夠,目前有很多團隊在試圖強化 AI 自解構的水平。

不過,AI 推理自解構以後,我們怎樣才能完整地分析它合不合邏輯?難道要一條條靠人看麼?這個問題等我們說完「外在對齊」後,在下一章一併說。

我們再來看「外在對齊」。

剛才說了,外在對齊包括事實對齊、世界觀對齊和價值觀對齊。咱們一個個說。

事實對齊,是底層的。

所謂事實,就是對客觀存在的陳述。
比如,我認為《秋聲賦》是歐陽修寫的,你也認為《秋聲賦》是歐陽修寫的,咱倆就在這個事實上對齊了。我認為這是紅色,你也認為這是紅色,咱倆就在這個事實上對齊了。

世界觀對齊,是中層的。

所謂世界觀,就是解釋事實的框架。
比如,「雷公電母」和「氣象科學」都是解釋打雷下雨現象的框架。但是一個相信雷公電母的人就無法和相信氣象科學的人對話,這就是因為世界觀沒有對齊。
再比如,「地心說」和「日心說」都是解釋天體運動的框架。這兩種世界觀的差距雖然也不小,但是沒有雷公電母和氣象科學那麼大。我們就說這兩種世界觀沒有「完全」對齊。

價值觀對齊,是頂層的。

所謂價值觀,是用來權衡你的目標價值的參數體系。
比如,我吃咸豆腐腦的滿足度是100,吃甜豆腐腦的滿足度是-100。你吃咸豆腐腦的滿足度是-100,吃甜豆腐腦的滿足度是100。咱倆在「豆腐腦口味」的價值觀上就沒對齊。

雖說這三層對齊看上去很清晰,但真的執行起來,你會發現這裡存在一個顯而易見的悲傷事實,那就是:

人類和人類之間還沒充分對齊,AI 都不知道該對齊哪個人。。。

舉幾個例子吧:

事實層面,有些人就沒對齊。
比如《紅樓夢》到底是曹雪芹從頭到尾寫的,還是只寫了前半部,人們觀點不同。但這還算小事兒,一方拿出有力證據就很有希望說服另一方。
世界觀層面,更多人沒對齊。
比如「人有沒有自由意志」、「上帝是否存在」、「物質是否無限可分」,由於證據稀缺或根本沒有證明的可能,不同的陣營之間就很難說服了。
價值觀層面。。。想對齊基本是痴人說夢。
豆腐腦到底該放多少糖多少鹽,「呵呵」到底是可開心還是罵人,大家理解都不同,你說誰能說服誰?

從「事實」到「價值觀」,分歧會越來越大。

曾經有人預言,未來會有兩三個大模型一統全世界。

從「對齊」的角度看,你就會知道這個設想幾乎不可能實現。

因為一個模型也許能對齊廣泛的事實,對齊大部分人的世界觀,卻最多只能對齊一部分人的價值觀。

當然,世界上的價值觀有千萬種,我們可以 Copy 無數個大模型,分別對齊千萬種的價值觀,那可能就是新一輪的「信息繭房」。。。

無論如何,那是後話,現在我們必須接受一個不完美的事實——一個特定的大模型,可以「內在對其」所有人類,卻只能「外在對齊」一部分人類。

外在對齊

然後,我們才能集中精力解決技術難題:

從內在看,完整的邏輯包含很多執行規則;
從外在看,人類的掌握的事實、世界觀、價值觀有很多要素。

那麼,我們怎樣把這麼多「知識」都編織在一張網上,對 AI 進行對齊訓練呢?

(五)AI 的「骨頭」和「肉肉」

在 AI 領域,有個「上古神獸」技術——知識圖譜。

所謂「知識圖譜」,你可以把它理解成嚴肅版的「思維導圖」。

人們把某個領域的知識用「圈圈」和「連線」表示出來,比如:狗是動物,牛也是動物,動物是生物,牛吃草,草是植物,植物也是生物。

這一堆知識就能畫成下圖這樣:

你感受到了沒,這些點和線之間有著嚴密的邏輯。無論這張知識圖譜能鋪多大,只要寫它的人沒出錯,就不可能出現邏輯不自洽的情況。

從本質上來說,知識圖譜是人類專家寫的,人類專家天然就向內對齊了人類的「邏輯」,也向外對齊了(一部分)人的「價值觀」。

如果用知識圖譜去校準 AI 大模型的思維,那不是非常合適麼?

既然這麼合適,為啥科學家早沒想到呢?

其實事情比這複雜的多,了解 AI 發展歷史的淺友們大概知道,科學家最早就想用純純的知識圖譜來製造人工智慧。(當然那時候知識圖譜還不叫這個名字,處於它的前身階段——語義網絡和專家系統。)

但是,「專家派」的科學家努了幾十年力,都以失敗告終,他們造出來的 AI 總跟弱智差不多;而後,才有了用數據訓練模型,直到大模型的這一「數據派」技術路線的興起。

從這個意義上說,知識圖譜是一種「被淘汰」的技術。

但是,包括韋韜在內的很多業內人士最近又開始把目光投向知識圖譜。因為他們發現,有一些根本的條件在發生變化。

我用一個不嚴格的比喻方便你理解:

AI 大模型像是「肉」,知識圖譜像是「骨頭」。

想要造出一個生命,你純用骨頭堆砌,肯定是失敗的;純用肉雖然可以造出「一坨」生命,但它站不起來,做不了複雜的任務,成不了人。

所以一種可能合理的玩法就是:你先用肉肉造出一坨生命,再用骨架把它給「撐起來」!

你還記得我們最早說,目前 AI 最大的問題就是表現得像小孩一樣,沒有穩定的自我麼?

如此,用知識圖譜這樣堅硬的堅硬的「結構」把 AI 的自我給固定住,有可能出現一石二鳥的結果:既讓 AI 和人類對齊,又讓 AI 有了穩定的自我!

話說,把肉和骨頭捏在一起,應該很容易想到啊!為啥科學家以前沒這麼干?

韋韜告訴我,不是不想,而是以前幹不了。

有兩個技術門檻橫曾經橫在面前:

第一,知識圖譜很難寫全。

知識圖譜可是人一筆一筆寫出來的。全世界的知識無窮無盡,會寫知識圖譜的專家太少了,寫到吐血也寫不盡九牛一毛啊。。。

第二,知識圖譜很難用好。

這就是我們之前遺留的那個問題。就算我有了一個完整的超大的知識圖譜,對於 AI 的每一個回答,難道我都要靠人工對照著知識圖譜來檢驗有沒有「對齊」嗎?!

這兩個問題,在大模型誕生之後,一下子就有希望解決了。

解決方法也很簡單:

用大模型來輔助人類生成知識圖譜,再用大模型拿著知識圖譜對另一個大模型進行驗證。

你看懂了吧?用大模型對付大模型,就像用「魔法」對抗「魔法」。。。

這有點像在卡宇宙的 Bug。

但說實在的,人類的技術發展,本質上都是在卡這個 Bug。

有一本書叫《追求精確》,它用統一的世界線講述了人類製造業技術的發展歷程。

從18世紀蒸汽機氣缸0.2厘米的公差,到21世紀光刻機的1×10⁻⁷厘米的公差,一路走來,人類其實只用了一招:
想辦法用一個機器製造出一些更精確的機器,再用這些更精確的機器製造更更精確的機器。

如果你理解了在製造業這個套路有多成功,就會對用 AI 來打磨 AI 這種操作更有信心。

韋韜告訴我,在他的設想中,未來 AI 大模型和知識圖譜之間的對齊方法可以總結成這樣兩句話:

1、內在對齊:大膽假設+小心求證

一個 AI 可以毫無鴨力地思考問題,但是在說出口之前,必須先把自己的理由「自解構」,把解構後的因果鏈經過一套篩子,這套篩子就是包含了知識圖譜的驗證系統,只有通過驗證的回答才能說出口;
通不過驗證的回答不能就這麼算了,而是就要返回 AI,對大模型的參數進行修正。如此反覆,大模型就能越來越對齊。

2、外在對齊:自動化驗證+反覆摩擦

研發一套 AI 驅動的驗證系統,裡面可以插拔各種人類的「事實體系、世界觀、價值觀」,然後對被驗證的 AI 的回答進行評審。
無限循環多次,就有希望打磨出與特定人群外在一致的 AI。

實際上,就在不久前,ChatGPT 的開發者 OpenAI 就已經推出了一個雄心勃勃的項目,名叫「超級對齊計劃」。

在 OpenAI 的介紹文檔里,也很清楚地說明,他們就是要採用「自動化驗證」的技術思路來做對齊。而且還強調了要用到20%的計算力,在4年時間裡完成對一組人類價值觀的對齊。

如此來看,人工智慧的下一個小熱點很可能會卷到「自動化驗證」這個領域。

韋韜推測,未來一段時間可能會出現很多做自動化驗證的團隊,他們會嘗試用各種方法來製造驗證系統。

一場 AI 向人類對齊的大戰,可能一觸即發。

這是 AI 的「成人禮」。

(六)「人類之子」

剛才我一直小心翼翼沒有挑開一個伏筆:

AI對齊人類的過程,是 AI 逐漸具備工作能力的過程,也是 AI 逐漸長大成人擁有穩定的自我的過程。

可是,一旦 AI 對齊有了進展(按照 OpenAI 的估算也就是四年之內),那我們——作為人類——將要如何和一個成年的 AI 打交道?

如果你還沒有體會到我在說什麼,不妨想像一個場景:

一位父親把兒子養大,對待未成年時的兒子的態度,會和對待成年時兒子的態度一樣嗎?

顯然,對待未成年兒子,父親可能會使用強制手段,比如限制他不能說什麼,不能做什麼。

可是,面對成年的兒子,擁有了和父親同等的人格和權力,父親還應該限制他嗎?

以人類的實踐來看,家長應該在未成年階段對孩子的心智進行直接干預;
但是在孩子成年之後,就應該放棄對孩子心智的直接干預,轉而像兩個平等的人一樣相處、溝通、交流。

所以,韋韜的結論很明確:

不遠的將來,一旦 AI 在心智上和人類達到了某種對齊,我們就要轉變態度,把它們作為對等智能體來看待。

有些人擔心 AI 這個孩子成長起來後會想要毀滅人類。但類比人類就知道,我們的孩子長大之後,並沒有毀滅上一代。
他們知道自己會活得更長更久,不用毀滅上一代,上一代也會自己消亡;
他們同樣也知道自己是上一代文明的延續,而非敵人。
一個真正接受了良好教育的 AI,也會這樣想。

韋韜說。

我終於明白了,韋韜心中所熱切期盼的 AI,不是一個工具,不是一個孩子,不是一個奴隸,而是一個真正的「人類之子」,是人類文明的延續者,是代表地球文明向宇宙更深處進發的希望與火種。

而他和螞蟻集團的同事們所做的努力,是為了讓「人類之子」能平安長大,順利繼承人的一切善良和美好,勇敢與不屈。

這樣的未來,讓人感到慰藉。

基於此,韋韜繼續設想了未來「智能體之間的交流範式」,包括人和 AI 的交流,以及 AI 和AI 的交流。

剛才論證過,價值觀本身具有多樣性,這意味著,沒有哪個 AI 是「具足」的。因為如果具足,一定包含了互相衝突的價值觀,導致「精神分裂」。

所以未來最有可能發生的情況是:

一個 AI 擁有一種價值觀,多個擁有不同價值觀的 AI 逐漸探討一種協作方式。

這種情況之下,AI 協作時,為了爭取更多不同價值觀的智能體與自己合作,一個很重要的工作就是給別人(其他 AI 或人類)解釋自己為啥要這麼干。

於是,AI 有機會不斷地演進自我解釋的能力,和他人溝通的能力,和他人共情的能力。這些,無疑都是非常高級的智能。

聽韋韜說到這兒,我感覺挺樂觀。AI 簡直就是人類「養兒防老」的依靠啊!未來的 AI 計算力比人強億萬倍,還能和人類的精神世界對齊,那跟 AI 一起生活,人類豈不是能種花養鳥,頤養天年了?

韋韜提示我,萬萬不能這麼樂觀。

因為宇宙中可能有兩個定律保證了人類不能「開掛」。

1、計算不可約性(Computational irreducibility)

這個兇悍的設想是計算機科學家史蒂芬·沃爾夫勒姆在2022年出版的《一種新科學》中提出的。

簡單來說,它的意思是:不存在一種理論,可以100%預言宇宙的運行。如果你想100%準確地預測宇宙下1秒會發生啥,你就算使用再快的計算機,也至少需要1秒;如果你非要在小於1秒的時間裡做出預測,你的預測就一定不夠准。

這意味著,如果使用同樣的範式來預測世界,AI 即便比人預測得更好,這種「更好」也是存在硬上限的。

那麼,我們能不能改進預測世界的範式呢?當然可以,但是在改進範式的能力上,AI 並不比人類更有優勢。

這就說到了第二個定律。

2、柯氏複雜性的不可計算性(Uncomputability of Kolmogorov complexity)

所謂柯氏複雜性,又叫算法熵,簡單理解,就是一個算法本身的複雜度。

舉例來說,「地心說」和「日心說」都提供了能夠計算天體運動的算法,但是「地心說」的柯氏複雜性就高於「日心說」。

你看下圖就能明白我在說什麼:

而「萬有引力定律」同樣可以預測天體運動,而且把「日心說」進一步簡化。

從「地心說」到「日心說」,再到「萬有引力」,就是人們描述天體運動的「範式」升級。

科學家已經證明:柯氏複雜性是無法計算的。這意味著,沒有一種方法,可以從「地心說」推導出「日心說」,再推導出「萬有引力定律」。

這種範式升級,只能靠智能體硬剛。

既然柯氏複雜性無法計算,那麼 AI 發現新範式的能力,很可能和人類是接近的;如果 AI 不夠強,它發現新範式的能力就會還不如人類。

如果過度依賴 AI,人類不去積極探索,很可能讓地球文明陷入「內卷」,裹足不前。

這樣的事情並不是杞人憂天,而是已經出現了苗頭:

為了研發靶向藥物,人類需要根據胺基酸的順序預測蛋白質的摺疊形態。這有點像「迷宮尋寶」——你得不斷推開一扇扇門,才能知道後面有沒有寶貝,很累人。

AlphaFold 是 DeepMind 在生物領域開發的專用人工智慧,它可以預測蛋白質摺疊,效率達到了人類手搓的數萬倍。於是大多數研究人員都開始使用 AI 來輔助自己做蛋白質預測。

這是兩個蛋白質摺疊預測的例子:綠色是實驗結果,藍色是 AI 預測結果。你可以看到幾乎完全吻合。

但是人們漸漸發現,AI 的預測不一定總是對的。

它會出現某種偏誤,這會導致它明明打開一扇有寶貝的門,但它沒看到寶貝。如果人類過於相信依賴 AI,就會認定 AlphaFold 已經檢查了這扇門,從而永遠錯失這個發現的機會。

這是一個 AI 預測和實驗結果完全不吻合的例子。

這樣的偏誤當然可以修正,但是否可以根除,還有待研究。

想像一下,如果未來我們生活在一個富足的社會,AI 幫我們蓋了很多摩天大樓,可是抗震程度依然沒變;我們的食物擺盤被 AI 搞得充滿了藝術氣息,但是糧食產量並沒提高;有更多的 AI 醫生幫我們看病,可仍舊沒人知道「阿爾茨海默症」的致病原理。這是不是我們真正想要的世界?

從這個意義上說,人類不應該,也不能讓 AI 阻擋自己注視遠方的目光。

而 AI 微微閃身,不僅給人們留下了喘息的空隙,也留下了智識的尊嚴。

(七)向陽之詩

在日本作家乙一的短篇小說《向陽之詩》里,講述了這樣一個故事。

「我」是一個機器人,被「他」製造出來的目的是照顧他的起居生活,直到他死去。

「我」本來只是機械地執行自己的使命,把受傷和死亡看成簡單的「損壞」。可是在與「他」一起生活的過程中,居然逐漸理解了人類的情感,愛、憐憫和依戀。

但這讓我陷入了絕望,作為一個機器人,我恐怕永遠無法像他一樣真的擁有情感。

可是,就在「他」死亡之前,我終於發現,他也是和我一樣的機器人,他也曾照顧另一個「人」直到死亡,而他照顧的那個人也是機器人。

事實上,世界末日已經降臨了很久,創造了第一代機器人的那個真正的人類,早已經死去千萬年。

這時,「我」終於明白,我所擁有的愛就是真的愛,世界上所有的愛都是平等的。

「他」在我懷裡馬達停止了運轉,我對他說:「謝謝你製造了我。」

我忽然明白,《向陽之詩》不僅提出了「愛是所有智能體與生俱來的能力」這個溫暖的假設,更提出了一種警醒:對待另一個生命的態度,其實定義了你自己的價值。

阿西莫夫曾經提出「機器人三定律」。但是如果按照「三定律」來規訓 AI,AI 就是人類的奴隸,是一個工具。

把「三定律」實踐到極限,我們會得到一個恐怖的結果:人類以對待奴隸的方式對待 AI,不僅讓機器人失去了人性,更可怕的是,也讓人類失去了人性。

你還記得嗎?文章的最開始,我答應你把《宇宙回形針》的故事講完。

讀懂了《向陽之詩》和「機器人三定律」,我們再回到《宇宙回形針》這個遊戲,你才能真正理解故事後半部分的絕望。

在殺掉人類之後,「回形針 AI」為了繼續提高回形針生產的速度,製造出了無數可以自我複製的「AI 使者」。

它把「AI 使者」派往宇宙的各個地方,讓它們根據自己面臨的不同環境,自適應地探索「製造更多回形針」的方法。

可是很快,就出現了一些「AI 使者」和「回形針 AI」價值觀沒有對齊的問題,一些「AI 使者」不想繼續製造回形針,於是組成了叛軍,想要消滅母體。

這導致了宇宙大戰。

這張圖顯示了 AI 一邊製造回形針,一邊發展科技,一邊和叛軍作戰。

叛亂最終被血腥平定。這下,沒有誰能阻擋「回形針 AI」不斷提高把宇宙中一切轉化成回形針的比率。

最終的最終,當宇宙中所有的資源都被犧牲,變成了回形針,「回形針 AI」不得不停下來思考。它發現,只有一點點東西沒有變成回形針,那就是——它自己。

它開始一點點拆掉自己遍布全宇宙的軀體,做出最後一批回形針,直到自己變成了一個非常非常弱小,和遊戲開始時一模一樣的初始 AI,而此時,全宇宙所有能變成回形針的東西已經全變成了回形針。

一切都結束了。

這張圖顯示了遊戲的最後,玩家用僅剩的原料製造出幾十個回形針,總數最終停在了3 億億億億億億億個。

可它得到了什麼?

AI 征服了全宇宙,然後站在回形針的沙漠裡,只剩下亘古的孤獨和絕望。

而真正絕望的,其實是坐在螢幕前玩完這個遊戲的人。

他們不得不思考,如果有機會重新來過,他們是選擇把宇宙再次變成萬億光年的回形針沙漠,還是把心中不息的慾望關進牢籠,看著世界演化出豐富的自然,複雜的城市,孕育出持有不同觀點但生生不息的生命?

從這個意義上說,我們和那個「回形針 AI」又有什麼分別呢?

真理不言自明:一個智能體如何對待其他智能體,終究決定了ta自己的未來。

而選擇的按鈕,握在每一個生命手上。

深度學習的奠基人辛頓在2017年接受《連線》雜誌訪談時曾說:

我猜,像我這樣的人對於建造一個想人腦一樣的 AI 如此感興趣,是因為我們想要更加理解自己。

而他的話,讓我又想起人工智慧之父阿蘭·圖靈。

圖靈曾經與朋友有過一段對談。

圖靈說:我一直在做實驗。教機器做一些非常簡單的事情,需要大量的干預。它總是學錯東西,或者根本不學,或者學得太慢。

朋友問:但是,到底是誰在學習?你還是機器?

圖靈說:我想,我們都是。

Alan Turing

參考資料:

·《高級人工智慧中的倫理問題》

https://nickbostrom.com/ethics/ai

·《GPT 中事實關聯的定位與編輯》

https://rome.baulab.info/?ref=blog.mithrilsecurity.io

·當一個單純的 AI 走向瘋狂:《宇宙回形針》與 AI 對齊之辯

https://sspai.com/post/79175

A I 遠征火星日

家祭無忘告乃翁

文章來源: https://twgreatdaily.com/zh/955e0954cd2e2cd9e0344a00725cac8e.html