-
專訪中科院自動化所所長徐波:構建紫東太初——全球首個三模態(tài)大模型,“類人智能”的大門正在打開
最后更新: 2021-07-20 14:38:30觀察者網(wǎng):這個多模態(tài)大模型的技術水平,跟國外同行相比怎么樣?
徐波: “紫東太初”是全球首個三模態(tài)大模型。目前,全世界研究單模態(tài)大模型(圖像、文本)的人比較多,研究語音大模型的相對少一些。我們是少有的同時具備圖、文、音研究儲備和基礎的研究機構。這次自動化研究所系統(tǒng)整理收集了積累多年的多模態(tài)數(shù)據(jù)庫,并把圖、文、音三個模態(tài)統(tǒng)一起來,在一個共同的語義空間去做相互的轉換和統(tǒng)一表述,這在全球是首次。通過巧妙的構建一個多模態(tài)大模型,我們的圖像技術、語音技術和文本技術都超越了現(xiàn)有最好水平。過去業(yè)界習慣用有監(jiān)督的學習,而我們的技術對有標注數(shù)據(jù)的依賴性較小,改變了人工智能訓練需要標注好的大數(shù)據(jù)的固有模式。
首先業(yè)界領先性能的中文預訓練模型、語音預訓練模型、視覺預訓練模型是我們三模態(tài)模型的基礎。比如,視覺的預訓練模型,首次實現(xiàn)超越有監(jiān)督學習的性能,速度比其他的方法提高8倍,在語義分割的結果上,也超越了有監(jiān)督學習的水平。在中文預訓練模型里面提出來任務感知和推理增強的模型,性能相比比GPT-3明顯提升。語音預訓練模型,針對語音領域語種多樣、標注成本高的問題,實現(xiàn)了基于語音預訓練的多語言、多任務、低資源關鍵技術的突破,使我們用很少的有標注數(shù)據(jù)就可以實現(xiàn)語音識別的性能大幅度提升。
然后我們在統(tǒng)一的語義空間網(wǎng)絡表達上實現(xiàn)了模態(tài)之間的高效協(xié)同和相互轉換,在多任務上取得了更卓越的性能。在跨模態(tài)檢索和圖文語義轉換方面,都比兩個模態(tài)具有更豐富的表達跟生成能力。語音加入后,使得我們的大模型可以跟人類做自然流暢的交互。這意味著,我們人工智能技術在共性的語義空間表征方面取得了重要進展。
觀察者網(wǎng):AI應用場景的碎片化需求,正在成為AI算法落地面臨的最大挑戰(zhàn)。而三模態(tài)大模型能夠實現(xiàn)多模態(tài)對話,視頻播報,以音生圖,以圖生音,非常有意思,未來是否有可能所有問題都會通過統(tǒng)一的大模型來解決?
徐波:我覺得非常有可能。我們人類主要有兩種能力,一種是與生俱來的能力,到了一定的年齡,通過基本的學習就能自然的學會說話、走路。另外一種是專業(yè)技能,如果要學會彈鋼琴、水墨畫等,仍然需要長時間的專業(yè)訓練才能實現(xiàn),因為這改變了人的特定知識結構。
多模態(tài)大模型為通用人工智能的研究奠定了非常好的基座。人類基本的知識、常識,看到的一些場景、物體,以及從物理世界看到的很多東西,都可以隱藏在這個大模型里面。比如要做語音識別,現(xiàn)在用很小的數(shù)據(jù)量就可以了,甚至可以逐漸做到不需要有監(jiān)督的數(shù)據(jù)學習。
預訓練模型作為基座模型雖然不是萬能的,但是人工智能的研究范式和產業(yè)范式也會出現(xiàn)一些變化。比如說,現(xiàn)在產業(yè)都在講算法開源,但算法的維護成本很高,尤其是現(xiàn)在人工智能的人才很稀缺,未來人工智能領域開放的可能是模型,客戶獲得大模型的接口再稍微加一點數(shù)據(jù)就能解決問題,即“大模型+小數(shù)據(jù)”,這是我們未來希望看到的大模型對產業(yè)帶來的賦能。這個大模型技術從學術成果向產業(yè)轉化可能還需要一個過程,但我認為不會太久,未來2-4年之內這些新技術都會逐漸得到應用。
觀察者網(wǎng):能不能具體講一下紫東太初這個多模態(tài)大模型以音聲圖、以圖生音的應用案例?
徐波:以圖生音為例??梢圆唤?jīng)過文本,直接在一個共通語義空間做轉換,就是語義到語音的直接合成。以音生圖,它不是先識別語音,再做文本的檢索,而是直接在一個語義空間里面把這個聲音轉換成圖像。所以我們?yōu)槭裁凑f這個是通用人工智能路徑的探索,就是通過圖文音三個模態(tài)固化出一個人類非常模糊但是非常有用,只是不知道人類大腦是怎么表達的一個語義空間的表征。
生成語音:一架大型飛機在天空中飛翔
輸入語音:一個人在滑雪板上翻轉在空中
除此之外,我們還可以給出一個多模態(tài)大模型的互動演示,涉及到很多的語音識別,語音合成,包括對圖像的描述,中文的續(xù)寫等等,通過語義空間直接的轉換來完成。
這一系列的展示,是非常類人的多模態(tài)交互。它可以任意輸入語音、圖像或者文字,去輸出語音,圖像和文字的任意一種,真正實現(xiàn)三個模態(tài)之間的關聯(lián)跟協(xié)同。它們中間就是我們講的“統(tǒng)一的語義空間”。
這里主要表達三個觀點,一是大數(shù)據(jù)+大模型+多模態(tài),將改變當前單一模型與單一任務人工智能的研發(fā)模式,多模態(tài)大模型將成為不同領域的共性平臺技術。其次,在目前的研究當中,有一種慣性思維是做人工智能都要用大數(shù)據(jù),而當知識與數(shù)據(jù)混合驅動,增強模型的可信、可理解能力后,我相信隨著這些技術的發(fā)展,人工智能學習對有標注的數(shù)據(jù)的依賴性會越來越小。
此外,國產化通用人工智能具有很高的技術門檻,需要大量的資金與數(shù)據(jù)的支撐,將使得人工智能的研究規(guī)則發(fā)生重大變革,對我國實現(xiàn)人工智能領域科技創(chuàng)新,占領核心技術高地具有重要戰(zhàn)略意義。以圖生音,以音生圖,效果甚至出乎我們自己的想象,這也帶給我們一項啟發(fā),讓我們對未來的人工智能又增加的無窮的想象力。所以,多模態(tài)大模型人工智能值得我們進一步去探索,值得我們進一步探索更巧結構、更大規(guī)模、更強理解能力的模型以及相應的評估標準,也值得我們把這樣的技術跟產業(yè)需求更好的結合起來。
再舉一些生活化的例子。比如說,利用大模型可以實現(xiàn)歐洲杯轉播的人工智能自動解說;在影視拍攝領域,可以根據(jù)劇本的文字自動生成畫面和場景,供導演再加工;在教育領域可以根據(jù)語義內涵,自動生成畫面和聲音、甚至生成全新的音樂(而非在既有樂庫中選?。愃茖崿F(xiàn)媽媽給孩子講故事等功能,讓人工智能具備初步的想象力和藝術創(chuàng)作力。其實這與人類大腦工作機制是比較類似的。
-
本文僅代表作者個人觀點。
- 責任編輯: 呂棟 
-
這次冬奧會,裁判可能“不是人類”
2021-07-20 13:41 世界人工智能大會 -
中芯國際發(fā)35億股票激勵,四大高管浮盈超1200萬
2021-07-20 13:29 上市公司 -
農業(yè)農村部:生豬高利潤階段已經(jīng)結束,不要再賭市場
2021-07-20 11:36 -
養(yǎng)豬龍頭企業(yè)半年預虧30億
2021-07-20 08:06 聚焦三農 -
美媒:隨著中國新規(guī),2萬億美元赴美上市大潮宣告結束
2021-07-19 16:33 上市公司 -
發(fā)改委:大宗商品價格總體回落,比年內高點下跌3%-14%
2021-07-19 16:01 金融圈 -
“繼續(xù)限制ASML與中國大陸合作,是美國安顧問首要任務”
2021-07-19 14:23 上市公司 -
證監(jiān)會從嚴從快從重查辦16起重大典型案件,點名這些違規(guī)行為
2021-07-18 09:37 -
國家統(tǒng)計局相關負責人:上半年經(jīng)濟穩(wěn)中向好 動能不斷增強
2021-07-17 07:37 中國經(jīng)濟 -
長江存儲:不會受紫光集團破產重整司法程序的直接影響
2021-07-16 16:10 上市公司 -
央行:商業(yè)機構推出全球性“穩(wěn)定幣”將帶來諸多風險和挑戰(zhàn)
2021-07-16 15:59 -
全國碳排放權交易在上海、武漢上線
2021-07-16 09:58 金融圈 -
證監(jiān)會發(fā)布《證券期貨違法行為行政處罰辦法》
2021-07-16 07:32 中國經(jīng)濟 -
全國碳排放權交易明天開市
2021-07-15 21:06 政策風向標 -
智能手機業(yè)務增長近4倍,紫光展銳稱5G時代必須回到中國
2021-07-15 17:03 科技前沿 -
6月新房價格環(huán)比漲幅回落,外媒:樓市政策效果顯現(xiàn)
2021-07-15 16:32 中國房市 -
商務部:將按照必要合理的原則審查影響國家安全的外商投資
2021-07-15 15:48 政策風向標 -
全面降準是為應對經(jīng)濟下行?國家統(tǒng)計局回應
2021-07-15 14:02 中國經(jīng)濟 -
李克強:此次審計發(fā)現(xiàn)違規(guī)倒賣大宗商品等問題線索,情節(jié)十分惡劣
2021-07-15 13:44 中國經(jīng)濟 -
新冠檢測收入下滑,華大基因二季度凈利潤驟降超50%
2021-07-15 11:38 上市公司
相關推薦 -
特朗普“先眨眼”:很多人催我,期待和中國談成 評論 18“英偉達很急:別再卡了,中國自研芯片已突圍” 評論 61“中國人很團結,就連親美人士都認為必須對抗美國” 評論 201撐不住了?特朗普暗示降低對華關稅 評論 369最新聞 Hot
-
特朗普“先眨眼”:很多人催我,期待和中國談成
-
“英偉達很急:別再卡了,中國自研芯片已突圍”
-
印尼讓步了
-
“痛苦!關稅戰(zhàn)被中方拿捏,美國只能二選一”
-
中國在智利合建天文臺項目,美國又伸黑手
-
哈佛一下子更有錢了
-
“再沒進展,我們就撤”
-
“正事不干雜事一堆,特朗普讓美國科研機構‘徹底崩潰’”
-
“中國人很團結,就連親美人士都認為必須對抗美國”
-
又一位科學家回國!曾供職美頂尖能源實驗室
-
撐不住了?特朗普暗示降低對華關稅
-
國家發(fā)改委干將龔楨梽,“空降”廣東
-
廣西東蘭干旱“農民求雨”?當?shù)鼗貞阂曨l系擺拍
-
外媒繼續(xù)緊盯:中國,70天了…
-
中央巡視組剛進駐吉林,正廳級趙明任上被查
-
“中方把波音飛機退回美國”
-