-
謝耘:為什么要認(rèn)真討論大語言模型的“理解”問題?
或許有人會說,人同樣要犯各種錯誤,大語言模型犯一些錯誤有什么大不了的?這里面有兩方面的問題。一個就是我們對自己創(chuàng)造的工具犯錯誤的不可預(yù)測性可以接收到什么程度?另外一個是人確實(shí)會犯錯誤,但是人犯錯誤具有相當(dāng)?shù)目深A(yù)測性。比如一個在某個領(lǐng)域的高水平專家,他在這個領(lǐng)域中犯簡單低級錯誤的概率必然非常小。可預(yù)期性對于人類來講是非常重要的。
通過上面的分析,我們可能就比較容易理解下面這句話的含義了:“It is a language model, not a ‘truth’ model. That’s its primary limitation: we want ‘truth’, but we only get language that was structured to seem correct.”(第8頁,《What Are ChatGPT and Its Friends?》, Mike Loukides著,O’Reilly Media, Inc. 出版,2023年3月第一版)。
如果一定要把這種基于統(tǒng)計(jì)的人工智能在文字符號層面建立的這種關(guān)聯(lián),與原本僅為人類(或許還應(yīng)該包括一些其他高級生命)的內(nèi)意識所獨(dú)有的“理解”聯(lián)系在一起的話,我們應(yīng)該可以合理地稱之為對抽象知識的“統(tǒng)計(jì)性理解”。
放在人類的智能這個參照系中來看,這種基于對文字符號做統(tǒng)計(jì)性相關(guān)分析而獲得“理解”的過程,大體相當(dāng)于人類“以文解文”的“望文生義”。這樣比喻并非是簡單的貶低。因?yàn)閷τ谙鄬唵沃卑椎谋硎龆浴巴摹笔强梢哉_地“生義”的,所以大語言模型產(chǎn)生了驚人的效果。當(dāng)然對于那些比較復(fù)雜的表述或包含比較深的“義”的表述,僅僅靠“望文”就會出現(xiàn)偏差,甚至是南轅北轍。這是“統(tǒng)計(jì)性理解”在對文字符號所表達(dá)的內(nèi)容的“理解”上,難以跨越的一個縱向深度上的局限。這個局限是由其“統(tǒng)計(jì)性理解”的基本機(jī)制帶來的,所以恐怕難以靠繼續(xù)提升模型與學(xué)習(xí)樣本的規(guī)模去超越。
統(tǒng)計(jì)性理解的另外一個橫向廣度的局限就是在前一章對統(tǒng)計(jì)算法做分析時指出的,它無法超越學(xué)習(xí)樣本所蘊(yùn)含的信息,即統(tǒng)計(jì)方法是“就事論事”。這是由信息的本質(zhì)與統(tǒng)計(jì)方法所依靠的基本計(jì)算機(jī)制決定的。提升模型與學(xué)習(xí)樣本的規(guī)模是可以不斷擴(kuò)大“就事論事”的范圍,但是依然不可能獲得學(xué)習(xí)樣本外的新信息。
從記憶結(jié)構(gòu)的角度看“知道”、“了解”與“理解”的差異示意
與人相對照,機(jī)器學(xué)習(xí)的“統(tǒng)計(jì)性理解”基本處于上圖中間的“了解”狀態(tài)。兩者相比有兩個出入。機(jī)器學(xué)習(xí)對知識的理解是基于表層相關(guān)性關(guān)聯(lián),缺少人類可以利用的深層邏輯性關(guān)聯(lián);但是機(jī)器學(xué)習(xí)可以在很多不同知識之間建立起關(guān)聯(lián),不存在孤島問題。所以與上圖中人的“了解”狀態(tài)相比,機(jī)器學(xué)習(xí)的深度不足但廣度占優(yōu),而兩者同樣都缺少理解中最為關(guān)鍵的回歸關(guān)聯(lián)。所以可以認(rèn)為它們彼此大體相當(dāng)。
從這個角度來看,“外意識”在理解這條路上,確實(shí)已經(jīng)取得了驚人的進(jìn)步。它依靠基于暴力計(jì)算的統(tǒng)計(jì)方法成功地跨越了人類意義上的從“知道”到“了解”這個鴻溝。但下一個鴻溝---從“了解”到“理解”的挑戰(zhàn)可能有數(shù)量級的提升。就好像人類登上月球與走出太陽系是有天壤之別的難度的。
與“統(tǒng)計(jì)性理解”相對而言,人類的理解屬于“本質(zhì)性理解”---它包括了基于被理解對象本質(zhì)的各種不同性質(zhì)的關(guān)聯(lián)。這種理解不是望文生義的產(chǎn)物,而是深思熟慮的結(jié)晶。事實(shí)證明從實(shí)際應(yīng)用效果上看,這兩者是有很大交集的。在相交的部分,人工智能給出的結(jié)果與人類的理解相一致。這也符合人類的經(jīng)驗(yàn):在比較簡單的問題上,我們很難看出“望文生義”與“深思熟慮”的不同。這就是生成式大語言模型引起巨大反響的原因。但是畢竟兩者的基本機(jī)制不同,面對復(fù)雜的問題時兩者的差異就會越來越明顯地顯現(xiàn)出來。所以我們不能因?yàn)樗鼈冊谛Ч嫌薪患桶褍烧吆唵蔚氐韧饋砘鞛橐徽劇?
對數(shù)字及加減法的理解過程
如前面幾節(jié)的分析,文字符號表達(dá)蘊(yùn)含的意義,在本質(zhì)上存在于它們與實(shí)在感知的關(guān)聯(lián)之中。目前的“外意識”不論采用什么樣的統(tǒng)計(jì)算法,還都是在上圖之中的文字符號層面做表面性的文章,所以不論它給出來的結(jié)果看上去如何精妙,它其實(shí)都沒有真正從整體的角度理解文字符號所要表達(dá)的人類認(rèn)知層面的意義。所以有學(xué)者說“大語言模型不懂概念,只懂概率;不懂邏輯推理,只懂概率計(jì)算”。這個說法有些過于簡單化,或許下面這個表達(dá)更準(zhǔn)確一些:“它是依靠相關(guān)性概率去把握概念,用相關(guān)性概率計(jì)算去‘?dāng)M合’邏輯推理”。我們不能脫離文字符號及其組合的真實(shí)含義,認(rèn)為語言表現(xiàn)出來的概率性相關(guān)關(guān)系便代表了它的一切、包括它所攜帶的本質(zhì)含義。
由于生成式大語言模型給出的是自然語言回答,所以它輸出的內(nèi)容,并不總是簡單地對錯分明,還包括大量的模棱兩可或是似而非的說法。這必然導(dǎo)致每個人對大語言模型的“理解”能力會有很不相同的評價。我們不難理解,這種個體性評價將大概率地與一個人自己的理解能力呈負(fù)相關(guān)。而理解屬于意識活動,我們還沒有辦法設(shè)計(jì)一個完全客觀可行的測試方法,來測試不論是人還是機(jī)器的理解能力。圖靈提出的人工智能“圖靈測試”,也僅僅是一個主觀評價的方法。
有人根據(jù)2024年初出現(xiàn)的視頻生成器Sora的一些輸出結(jié)果,便下結(jié)論說它已經(jīng)從對視頻的統(tǒng)計(jì)分析中掌握了物理定律。如果這不是商業(yè)炒作的話,則典型地反映了評價者自己在理解能力上的局限。僅僅靠對視頻圖像的“望文”應(yīng)該無法生出深藏在其背后的物理定律之“義”的,否則以牛頓為代表的那些偉大物理學(xué)家們貢獻(xiàn)的價值就要被打上大大的問號了。
文生視頻界面 圖源:36氪
或許有人會說:既然機(jī)器學(xué)習(xí)可以從文字符號的表達(dá)中相當(dāng)完整準(zhǔn)確地學(xué)到其背后的語言規(guī)則,那它為什么不可以從圖像所反映的真實(shí)過程中學(xué)到其背后的物理規(guī)律?文字符號的表述直接基于語言規(guī)則,文字符號之間的關(guān)系直接反映了語言規(guī)則;但是視頻圖像的變化與背后的物理定律之間的關(guān)系則有一條復(fù)雜的多重因果作用鏈,并非是單純地直接耦合在一起。所以即使圖像信息完整地反映了真實(shí)過程,從圖像要素之間的統(tǒng)計(jì)關(guān)聯(lián)中恐怕也是無法推斷出在其背后發(fā)揮作用的各種物理規(guī)律。這需要透過重重現(xiàn)象看到背后本質(zhì)的卓越能力,即上一章講過的與統(tǒng)計(jì)很不一樣的“洞察”能力。正因?yàn)槿绱耍nD他們的貢獻(xiàn)才彌足珍貴。
有人強(qiáng)調(diào),機(jī)器沒有必要按照人的思維方式去思考,完全可以有自己的思維方式、自己的“理解”、自己的邏輯等等。事實(shí)上,人類創(chuàng)造的工具在很多情況下,都是按照與自然不同的方式在工作的。在物質(zhì)性工具的時代便是如此,最為經(jīng)典的例子就是車輪的發(fā)明。而計(jì)算機(jī)從一開始做的很多事情的方式也都與人類不同,人類大腦中就不存在一個關(guān)系型數(shù)據(jù)庫。所以“外意識”有自己獨(dú)特的不同于人的方式,這既不是問題、更是早已存在的事實(shí)。
發(fā)現(xiàn)萬有引力定律的牛頓
但是問題在于,我們創(chuàng)造的工具是服務(wù)于人類的,所以我們必然要關(guān)注它用自己的方式產(chǎn)生的結(jié)果是否滿足人類的需求。而在這個問題上,理解它運(yùn)行方式的基本機(jī)理就變得重要,我們不能僅僅看它已經(jīng)給出的結(jié)果。因?yàn)槲覀冃枰男袨樵谖磥砭哂锌深A(yù)測性,我們才能放心地使用它。
曾經(jīng)這完全不是問題。那時“外意識”完全按照人類設(shè)計(jì)的顯性邏輯循規(guī)蹈矩地去運(yùn)轉(zhuǎn)。但是當(dāng)AI 技術(shù)在暴力計(jì)算的支撐下發(fā)展到了“不可解釋”的階段后,這變成了一個必須面對的大問題。如果我們無法預(yù)計(jì)一個工具在什么時候、什么問題上出現(xiàn)什么樣的與我們期望不同的結(jié)果,每一次都是要等結(jié)果出來才能判斷是否符合我們需求的話,它就是一個無法讓人放心使用的工具了,甚至可以說失去了工具傳統(tǒng)的基本價值。
比如,如果我們期待“外意識”具有理解能力,這個期待中固有的假設(shè)就是它理解的結(jié)果與人類是一致的。即機(jī)器的理解過程可以與人的不同,但是在結(jié)果的意義上必須是等價的。否則它就無法滿足人類的這種期待。要想證明這個等價,則必須去理解它的“理解”過程,而不能僅僅靠其產(chǎn)出的已有結(jié)果通過枚舉法來確認(rèn)。而從本章的分析可以看出,目前機(jī)器學(xué)習(xí)“望文生義”的“理解”與人類“深思熟慮”的理解是無法完全等價的,僅僅在一些產(chǎn)出上可以有相同或類似的結(jié)果。
而部分結(jié)果的相同,并不能構(gòu)成我們“放任”機(jī)器學(xué)習(xí)在自己與人類不同的“理解”道路上一路狂奔的理由。比如一個AI系統(tǒng)如果給出的很多答案,其邏輯在人看來無法理喻,即使你能證明它非常符合AI自己的“理解”,這樣的系統(tǒng)輸出對于人類來說也沒有多大意義。
-
本文僅代表作者個人觀點(diǎn)。
- 責(zé)任編輯: 史岱君 
-
“知假買假”者惡意高額索賠,最高法發(fā)布司法解釋
2024-08-21 11:08 食品安全 -
學(xué)習(xí)時報:解放思想是個重大政治問題
2024-08-21 08:40 -
湖北:推行分管案件的縣紀(jì)委副書記異地交流任職后,反腐力度明顯加大
2024-08-21 08:17 廉政風(fēng)暴 -
國家衛(wèi)健委:將對授予護(hù)士處方權(quán)工作的必要性進(jìn)行充分論證
2024-08-21 08:00 醫(yī)療改革 -
廣西北海多人趕海遭雷擊,官方通報:1人死亡
2024-08-21 07:42 -
放票秒沒、60元門票被炒到1600元,故宮回應(yīng)
2024-08-21 07:29 -
巴黎長榮桂冠酒店拒絕懸掛中國國旗遭旅法僑界譴責(zé),中使館發(fā)聲
2024-08-21 06:50 -
智障男子服刑近10年改判無罪后哥哥發(fā)聲:希望對相關(guān)法官追責(zé)
2024-08-20 21:50 疑案追蹤 -
習(xí)近平接見第33屆奧運(yùn)會中國體育代表團(tuán)
2024-08-20 19:37 -
習(xí)近平會見出席全國人大加入各國議會聯(lián)盟40周年紀(jì)念活動
2024-08-20 19:10 -
鄭州警方回應(yīng)女子被男子壓身下毆打:男子精神分裂
2024-08-20 18:14 -
央視起底:氧氣放掉,用藥直接丟垃圾箱,工傷保險基金成“提款機(jī)”
2024-08-20 18:01 醫(yī)療改革 -
強(qiáng)降雨致300多名受災(zāi)群眾被困,葫蘆島應(yīng)急局出動三十多架救援直升機(jī)
2024-08-20 17:32 極端天氣 -
日媒中國籍播音員播報時說“釣魚島是中國”,最新后續(xù)
2024-08-20 16:30 日本 -
大搞數(shù)字政績與家族式腐敗,湖南省政協(xié)原副主席戴道晉被逮捕
2024-08-20 15:29 廉政風(fēng)暴 -
多地農(nóng)村地區(qū)離婚率上升引關(guān)注,機(jī)構(gòu)和學(xué)者分析原因提出對策
2024-08-20 13:33 婚姻故事 -
受強(qiáng)降雨影響,遼寧葫蘆島4個村通信中斷
2024-08-20 12:55 極端天氣 -
足協(xié)競賽部原部長黃松因受賄罪一審被判七年
2024-08-20 08:53 廉政風(fēng)暴 -
出廠價5萬賣給醫(yī)院12萬,國家醫(yī)保局問詢藥企
2024-08-20 06:59 -
寧夏一化工車間發(fā)生爆炸,5人遇難
2024-08-19 22:09 安全生產(chǎn)
相關(guān)推薦 -
最新聞 Hot
-
大錯特錯!“給特朗普獻(xiàn)計(jì)的人,壓根不懂中國”
-
比較見真章,美國車主心態(tài)崩了:怎么中國啥啥都有…
-
特朗普稱“克里米亞歸俄羅斯”,澤連斯基回應(yīng)
-
“美國百年優(yōu)勢,特朗普百日玩完,中國要趕上了”
-
領(lǐng)英創(chuàng)始人:若歐洲這么看中國,美國就慘了
-
“特朗普虛晃一招,中國沒上鉤”
-
日本:中國不買,我們想買美國玉米
-
特朗普:我開玩笑的
-
愛潑斯坦案關(guān)鍵證人自殺,曾稱遭英王子性侵
-
“不跟中國做生意,美國貨架要空”
-
楊瀚森參加2025年NBA選秀
-
美國務(wù)院警告:孕婦或遭拒簽
-
63歲徐錦江已向兒子交代后事
-
NASA資助的高校借到月壤,美國尷尬不?
-
中方出手,“肯尼亞完全轉(zhuǎn)向中國”
-
信中國還是信特朗普?CNN直播吵起來了
-