-
謝耘:為什么要認(rèn)真討論大語(yǔ)言模型的“理解”問(wèn)題?
【文/觀察者網(wǎng)專欄作者 謝耘】
自今年初文生視頻大模型Sora引爆熱議后,本周美國(guó)軟件巨頭Adobe表示,將允許用戶在其旗下的視頻編輯軟件中使用包括OpenAI的Sora在內(nèi)的第三方生成式人工智能工具。
另外,馬斯克旗下人工智能公司xAI于近日推出首個(gè)多模態(tài)模型 Grok-1.5 Vision。
xAI 表示:除文本功能外,Grok還可以處理各種各樣的視覺(jué)信息,包括文檔、圖表、圖表、屏幕截圖、照片,并能進(jìn)行多學(xué)科推理。xAI重點(diǎn)展示了Grok-1.5V的7個(gè)示例,包括:將手繪圖表轉(zhuǎn)換成Python代碼、看食品標(biāo)簽計(jì)算卡路里、根據(jù)孩子的繪畫(huà)講睡前故事、解釋梗圖等。
馬斯克xAI的多模態(tài)模型Grok-1.5V
Sora 可以在每次 API 調(diào)用中為自然語(yǔ)言提示創(chuàng)建最多三種視頻變體。
無(wú)論在語(yǔ)言領(lǐng)域還是在視頻領(lǐng)域,它們都給出了讓許多人感到驚奇的結(jié)果,于是便出現(xiàn)了大量聳人聽(tīng)聞的說(shuō)法。其中一個(gè)核心的話題就是有人認(rèn)為這些模型已經(jīng)具有了“理解”能力,它們能夠理解語(yǔ)言背后的邏輯,能夠理解物理世界的運(yùn)動(dòng)規(guī)律。
當(dāng)談到“理解”的時(shí)候,有多少人知道自己心中的“理解”到底是什么?如果大家對(duì)于什么是“理解”都沒(méi)有共同認(rèn)識(shí)的話,討論這些生成模型是否有“理解”能力就失去了意義。
“理解”是一個(gè)我們?cè)偈煜げ贿^(guò)的詞匯了,它同時(shí)也是智能意識(shí)領(lǐng)域中最基本與核心的問(wèn)題之一。問(wèn)題越基本,我們往往越熟視無(wú)睹,越覺(jué)得無(wú)需做什么解釋,其實(shí)把它說(shuō)清楚就越困難。
從小到大,我們都在努力地去“理解”,也希望被別人理解??墒呛孟駞s沒(méi)有誰(shuí)講過(guò)到底什么是“理解”。在受教育的過(guò)程中,幾乎所有課程,都是講授需要我們?nèi)ダ斫獾闹R(shí)內(nèi)容,然后用考試來(lái)檢驗(yàn)我們是否理解課程。但卻沒(méi)有一門(mén)普及性的課程教授我們應(yīng)該如何去理解?!袄斫狻彼坪跏且粋€(gè)如呼吸一樣的理所當(dāng)然的、每個(gè)人都會(huì)自然而然地?zé)o師自通的能力。
然而事情遠(yuǎn)非如此簡(jiǎn)單。只要是生理正常的人都一樣地在正常呼吸,但是正常人之間的理解能力卻是有很大的差異。如同一個(gè)老師教授的學(xué)生可以有很不同的結(jié)果表現(xiàn)。
如果我們將人類的理性意識(shí)活動(dòng)做簡(jiǎn)化,可以得到下圖所示的基本過(guò)程示意。
人類理性活動(dòng)的簡(jiǎn)化示意
從這個(gè)過(guò)程中我們可以看到,理解是認(rèn)知的結(jié)果也是行動(dòng)的前提,是人類理性意識(shí)活動(dòng)的核心環(huán)節(jié)。
所以對(duì)“理解”有一個(gè)清晰的認(rèn)識(shí),對(duì)于我們提升自己的理解能力,尋找意識(shí)活動(dòng)的規(guī)律,包括人工智能在內(nèi)的計(jì)算機(jī)應(yīng)用這個(gè)人類的“外意識(shí)”,認(rèn)識(shí)各種基于不同算法的“外意識(shí)”的能力邊界都具有極其重要又十分普遍的意義。
01. 機(jī)器學(xué)習(xí)獲得的“統(tǒng)計(jì)性理解”
在對(duì)人的理解做了一個(gè)比較全面的討論之后,我們來(lái)看一下人類創(chuàng)造出來(lái)的“外意識(shí)”在“理解”的道路上到底走了多遠(yuǎn),以及最終能走多遠(yuǎn)。
2023年以ChatGPT為代表的大語(yǔ)言模型的出現(xiàn),再次引發(fā)了對(duì)機(jī)器是否具有了意識(shí)或理解能力的大規(guī)模議論。
圖二 回歸關(guān)聯(lián)核心作用的示意
目前包括大語(yǔ)言模型在內(nèi)的機(jī)器學(xué)習(xí)方法,接受的都是人類給其提供的用文字符號(hào)表達(dá)的內(nèi)容,所以即使它有了某種“理解”,也僅僅是存在于文字符號(hào)這個(gè)抽象層面的,而做不到最為關(guān)鍵的回歸關(guān)聯(lián)理解。這被稱為人工智能的“符號(hào)落地”問(wèn)題?;诙喾N傳感器構(gòu)建“具身智能”的努力,包含了實(shí)現(xiàn)上圖中所示的回歸關(guān)聯(lián)的意圖。但是因?yàn)槲覀儧](méi)有關(guān)于意識(shí)活動(dòng)的基礎(chǔ)科學(xué)理論來(lái)支撐這些努力,所以借助“具身智能”實(shí)現(xiàn)回歸關(guān)聯(lián)或“符號(hào)落地”這一目標(biāo)能否實(shí)現(xiàn)以及能走多遠(yuǎn),都還有待于在實(shí)踐中去探索,難以做理論上的分析推斷。
我們目前能夠下的結(jié)論是,從人類理解的本質(zhì)來(lái)講,基于對(duì)文字符號(hào)做信息處理的機(jī)器學(xué)習(xí)算法,還不具有與人類一樣的理解能力,因?yàn)樗鼘?duì)這個(gè)世界是沒(méi)有自己實(shí)在感知的,無(wú)法實(shí)現(xiàn)回歸關(guān)聯(lián)。
那么,包括大語(yǔ)言模型在內(nèi)的機(jī)器學(xué)習(xí)算法在抽象的文字符號(hào)層面實(shí)現(xiàn)了某種關(guān)聯(lián)嗎?答案顯然是肯定的。機(jī)器學(xué)習(xí)最著名的一點(diǎn)就是它能夠發(fā)現(xiàn)與建立信息之間的相關(guān)性,并且因?yàn)橐矁H此而已而遭到詬病。但是這種相關(guān)性關(guān)聯(lián)與人類在理解的時(shí)候依靠的反映客觀聯(lián)系的關(guān)聯(lián)有所不同。機(jī)器學(xué)習(xí)是基于對(duì)人類生成的內(nèi)容做文字符號(hào)層面的統(tǒng)計(jì)相關(guān)處理,來(lái)確定文字符號(hào)之間的概率性關(guān)聯(lián)關(guān)系,然后據(jù)此給出相應(yīng)的輸出結(jié)果。這種文字符號(hào)之間的相關(guān)性并非是人類思考的基點(diǎn),而是人類因思考而產(chǎn)生的文字符號(hào)表達(dá)形式的一種派生特征。
圖源:CSDN
以生成式大語(yǔ)言模型為例,它是對(duì)用文字符號(hào)表達(dá)的內(nèi)容在文字符號(hào)層面做概率性相關(guān)統(tǒng)計(jì)分析,進(jìn)而通過(guò)文字符號(hào)之間的關(guān)聯(lián)關(guān)系,在概率的意義上掌握學(xué)習(xí)樣本所反映的文字符號(hào)的含義、語(yǔ)法規(guī)則和文字符號(hào)的組合習(xí)慣、及體現(xiàn)不同具體表述內(nèi)容的組合方式等信息,或稱之為知識(shí)。最后模型以此為基礎(chǔ)通過(guò)自回歸的方式來(lái)完成內(nèi)容生成的任務(wù)。
這種依靠統(tǒng)計(jì)獲得的文字符號(hào)之間的關(guān)聯(lián)關(guān)系,是一種語(yǔ)言層面的表象關(guān)聯(lián)。之所以說(shuō)它是表象關(guān)聯(lián),是因?yàn)槲淖址?hào)的組合是其表述內(nèi)容的外在形式,并不能簡(jiǎn)單地等同于內(nèi)容本身,所以才有“言外之意”“字面含義”等說(shuō)法。因而依據(jù)它形成的關(guān)聯(lián)也并不能完全等價(jià)于基于內(nèi)容的關(guān)聯(lián)。但同時(shí),形式與內(nèi)容終歸有著統(tǒng)一的一面。所以這種統(tǒng)計(jì)關(guān)聯(lián),與人類在抽象知識(shí)層面依據(jù)內(nèi)容與客觀邏輯形成的關(guān)聯(lián)有許多相通之處,但在一般的意義上也并不相同。
人類在做文字符號(hào)表達(dá)的時(shí)候,基本的邏輯是先做“構(gòu)思”---捋清要表達(dá)的內(nèi)容,確定要使用的表達(dá)的方式,然后根據(jù)文字符號(hào)所代表的現(xiàn)實(shí)意義,按照語(yǔ)法規(guī)則形成最后的表達(dá)形式。雖然這個(gè)過(guò)程常常包含了非邏輯化的潛意識(shí)過(guò)程,常常并沒(méi)有嚴(yán)格清晰的階段劃分,但是這個(gè)基本邏輯依然在起決定性作用。在這個(gè)過(guò)程中,“構(gòu)思”是基礎(chǔ)與起點(diǎn),最終形成的文字符號(hào)表達(dá)是結(jié)果。而且人類在這個(gè)過(guò)程中還有“反思”,它基于“構(gòu)思”去斟酌修改已經(jīng)形成的表述,讓其能夠更好地反映自己的初衷。
大語(yǔ)言模型是不存在“構(gòu)思”這一關(guān)鍵環(huán)節(jié)的,當(dāng)然也就不存在“反思”的過(guò)程。它是通過(guò)所謂的“自回歸”過(guò)程來(lái)產(chǎn)生輸出,即利用過(guò)去已形成的輸出及掌握的概率性關(guān)聯(lián)關(guān)系去推算下一步的輸出。這是它與人類在生成文字符號(hào)表述時(shí)的一個(gè)本質(zhì)差異。
它以得到的輸入為起點(diǎn),利用從學(xué)習(xí)樣本中學(xué)習(xí)到的各種概率性關(guān)聯(lián)關(guān)系,以“自回歸”的方式按照順序一步步組合出相應(yīng)的輸出。在這個(gè)輸出中,文字符號(hào)的基本使用方式來(lái)自于對(duì)它從天量的學(xué)習(xí)樣本中學(xué)到的語(yǔ)言學(xué)知識(shí),這使得其輸出在形式上可以很好地符合人類的表達(dá)習(xí)慣。同時(shí)根據(jù)其學(xué)習(xí)到的相關(guān)性關(guān)聯(lián)關(guān)系,在其輸出中還會(huì)含有許多來(lái)自其學(xué)習(xí)樣本中表達(dá)不同內(nèi)容的文字符號(hào)組合方式。
所以雖然它沒(méi)有像人那樣的“構(gòu)思”過(guò)程,可它也并不是在言之無(wú)物或憑空編造,而是通過(guò)關(guān)聯(lián)關(guān)系把其學(xué)習(xí)樣本中的許多內(nèi)容有序地一步步組合在了一起。這是“自回歸”機(jī)制自己的“思考”方式。它從接受的問(wèn)題出發(fā),通過(guò)這種“思考”方式生成了看上去含義豐富內(nèi)容完整的輸出。由此,它讓許多人以為它是以與人類類似甚至相同的思維方式生成了那些文字符號(hào)的表述。
如果僅僅從語(yǔ)言層面來(lái)看,大語(yǔ)言模型可以給出相當(dāng)好的結(jié)果,其表達(dá)相當(dāng)?shù)捻槙?,說(shuō)的都是人話;但是在其對(duì)答如流中,如果我們從深層含義的角度來(lái)看,情況就變得復(fù)雜了。它有時(shí)會(huì)給出令人滿意的答案,即它給出的結(jié)果比較好地符合人類的理解認(rèn)知;有時(shí)則會(huì)出現(xiàn)困難,甚至給出的結(jié)果讓人感到莫名其妙,即出現(xiàn)所謂的“幻覺(jué)”。這種“幻覺(jué)”并非是因?yàn)樗吡松?,而是因?yàn)樗八伎肌钡牡讓訖C(jī)制與人類思考的機(jī)制是基于很不相同的原理,所以它按照自己的機(jī)制給出的有些結(jié)果對(duì)人類而言如幻覺(jué)一般。即使對(duì)于一些我們看上去比較簡(jiǎn)單的、但是沒(méi)有包含在其學(xué)習(xí)樣本中的問(wèn)題或表達(dá)方式,它也可能出現(xiàn)根本性的混亂或錯(cuò)誤。
比如曾有人問(wèn):“大象與貓哪個(gè)大?”大語(yǔ)言模型回答道:“大象大”;但當(dāng)被問(wèn)道:“大象與貓哪個(gè)不比另外一個(gè)大?”大語(yǔ)言模型則回復(fù)說(shuō):“它們哪個(gè)都不比另外一個(gè)大。” (“Stuart Russell專訪:關(guān)于ChatGPT,更多數(shù)據(jù)和更多算力不能帶來(lái)真正的智能”,聞菲,微信公眾號(hào):“機(jī)器之心”,2023年2月20日)如果這個(gè)回答是人類做出的,我們會(huì)說(shuō)這個(gè)人在回答問(wèn)題時(shí)“沒(méi)走心”。這個(gè)例子很清楚地表明,因?yàn)榇笳Z(yǔ)言模型僅僅學(xué)到了文字符號(hào)層面的統(tǒng)計(jì)相關(guān)性關(guān)聯(lián),在面對(duì)這個(gè)用不太常見(jiàn)的方式表述的問(wèn)題時(shí),它基于統(tǒng)計(jì)相關(guān)給出的文字表達(dá)便無(wú)法與人類的期望相應(yīng),即不符合人類的理解。
而且目前大家公認(rèn)大語(yǔ)言模型的推理能力很弱,對(duì)于稍復(fù)雜一點(diǎn)的邏輯關(guān)系就無(wú)能為力。這正反映了它依靠文字符號(hào)層面的統(tǒng)計(jì)相關(guān)性關(guān)聯(lián),僅僅能夠反映語(yǔ)言所表達(dá)的淺層含義,而卻很難體現(xiàn)出文字符號(hào)表達(dá)的內(nèi)容所蘊(yùn)含的復(fù)雜或深層一些的邏輯。
而它在什么問(wèn)題上會(huì)出什么性質(zhì)的錯(cuò)誤,是我們難以預(yù)計(jì)的。原因就在于它在做關(guān)聯(lián)組合輸出時(shí),僅僅是依據(jù)學(xué)習(xí)到的統(tǒng)計(jì)性關(guān)聯(lián),而并不是像人類那樣基于內(nèi)容含義去表述。對(duì)大語(yǔ)言模型能力與局限的分析,還是應(yīng)該注重對(duì)底層機(jī)制的認(rèn)識(shí),不能僅僅依靠不完整的測(cè)試結(jié)果去論證。對(duì)于大語(yǔ)言模型而言,由于其面對(duì)問(wèn)題的開(kāi)放性,根本不存在對(duì)其做哪怕是比較充分測(cè)試的可能。
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 史岱君 
-
“知假買(mǎi)假”者惡意高額索賠,最高法發(fā)布司法解釋
2024-08-21 11:08 食品安全 -
學(xué)習(xí)時(shí)報(bào):解放思想是個(gè)重大政治問(wèn)題
2024-08-21 08:40 -
湖北:推行分管案件的縣紀(jì)委副書(shū)記異地交流任職后,反腐力度明顯加大
2024-08-21 08:17 廉政風(fēng)暴 -
國(guó)家衛(wèi)健委:將對(duì)授予護(hù)士處方權(quán)工作的必要性進(jìn)行充分論證
2024-08-21 08:00 醫(yī)療改革 -
廣西北海多人趕海遭雷擊,官方通報(bào):1人死亡
2024-08-21 07:42 -
放票秒沒(méi)、60元門(mén)票被炒到1600元,故宮回應(yīng)
2024-08-21 07:29 -
巴黎長(zhǎng)榮桂冠酒店拒絕懸掛中國(guó)國(guó)旗遭旅法僑界譴責(zé),中使館發(fā)聲
2024-08-21 06:50 -
智障男子服刑近10年改判無(wú)罪后哥哥發(fā)聲:希望對(duì)相關(guān)法官追責(zé)
2024-08-20 21:50 疑案追蹤 -
習(xí)近平接見(jiàn)第33屆奧運(yùn)會(huì)中國(guó)體育代表團(tuán)
2024-08-20 19:37 -
鄭州警方回應(yīng)女子被男子壓身下毆打:男子精神分裂
2024-08-20 18:14 -
央視起底:氧氣放掉,用藥直接丟垃圾箱,工傷保險(xiǎn)基金成“提款機(jī)”
2024-08-20 18:01 醫(yī)療改革 -
強(qiáng)降雨致300多名受災(zāi)群眾被困,葫蘆島應(yīng)急局出動(dòng)三十多架救援直升機(jī)
2024-08-20 17:32 極端天氣 -
日媒中國(guó)籍播音員播報(bào)時(shí)說(shuō)“釣魚(yú)島是中國(guó)”,最新后續(xù)
2024-08-20 16:30 日本 -
大搞數(shù)字政績(jī)與家族式腐敗,湖南省政協(xié)原副主席戴道晉被逮捕
2024-08-20 15:29 廉政風(fēng)暴 -
多地農(nóng)村地區(qū)離婚率上升引關(guān)注,機(jī)構(gòu)和學(xué)者分析原因提出對(duì)策
2024-08-20 13:33 婚姻故事 -
受強(qiáng)降雨影響,遼寧葫蘆島4個(gè)村通信中斷
2024-08-20 12:55 極端天氣 -
足協(xié)競(jìng)賽部原部長(zhǎng)黃松因受賄罪一審被判七年
2024-08-20 08:53 廉政風(fēng)暴 -
出廠價(jià)5萬(wàn)賣(mài)給醫(yī)院12萬(wàn),國(guó)家醫(yī)保局問(wèn)詢藥企
2024-08-20 06:59 -
寧夏一化工車間發(fā)生爆炸,5人遇難
2024-08-19 22:09 安全生產(chǎn)
相關(guān)推薦 -
“日企抱團(tuán)是絕望之舉,中國(guó)工廠效率質(zhì)量都是第一” 評(píng)論 19“她下月訪華,盡管特朗普?qǐng)F(tuán)隊(duì)表達(dá)了擔(dān)憂” 評(píng)論 41美國(guó)政府“逃過(guò)一劫” 評(píng)論 125美媒感慨:基建狂魔發(fā)力,我們又要被超越了 評(píng)論 173最新聞 Hot
-
“日企抱團(tuán)是絕望之舉,中國(guó)工廠效率質(zhì)量都是第一”
-
“中國(guó)有能力讓夢(mèng)想照進(jìn)現(xiàn)實(shí),將贏得史詩(shī)般競(jìng)爭(zhēng)”
-
被災(zāi)民暴罵到當(dāng)場(chǎng)破防,馬克龍發(fā)飆:你該慶幸你在法國(guó)!
-
美高校敦促國(guó)際學(xué)生抓緊回來(lái):萬(wàn)一把中印拉黑名單呢
-
美國(guó)政府“逃過(guò)一劫”
-
“澤連斯基要求歐盟新外長(zhǎng):對(duì)華批評(píng)要降調(diào)”
-
澳大利亞來(lái)了,中國(guó)就得走人?澳總理這么回應(yīng)
-
美媒感慨:基建狂魔發(fā)力,我們又要被超越了
-
英國(guó)剛公布新任大使,特朗普顧問(wèn)就痛罵:傻X
-
“來(lái)自中國(guó)的老大哥能確保我們…”
-
俄羅斯的報(bào)復(fù)來(lái)了
-
澤連斯基罵普京“傻子”,俄方怒斥
-
還在扯皮中國(guó),“涉華條款全刪了”
-
中國(guó)“光伏OPEC”發(fā)文嚴(yán)厲質(zhì)問(wèn)央企,怎么回事?
-
“最后一道貿(mào)易障礙,中國(guó)解除了!”
-
10年了,馬來(lái)西亞稱將重啟搜尋馬航MH370
-