-
訊飛劉慶峰:今天,中國的大模型底座能力到底怎么樣?
6月27日,北京,科大訊飛舉行訊飛星火升級發(fā)布會,星火大模型V4.0亮相。
科大訊飛董事長劉慶峰全程演講,科大訊飛研究院院長劉聰真機(jī)實(shí)測,回答兩個(gè)關(guān)鍵問題:
今天,中國的大模型底座能力到底怎么樣?
今天,風(fēng)起云涌的大模型究竟如何應(yīng)用落地?
以下是劉慶峰演講(節(jié)選):
尊敬的各位領(lǐng)導(dǎo)、各位合作伙伴、各位院士專家、各位媒體朋友、線上的朋友們,大家好!熱烈歡迎大家蒞臨訊飛星火V4.0的發(fā)布會現(xiàn)場。
科大訊飛董事長劉慶峰
這一年多來,以大模型為主要帶動的通用人工智能浪潮在全球風(fēng)起云涌、高潮迭起。隨著大模型技術(shù)研發(fā)和產(chǎn)業(yè)應(yīng)用的不斷深入,大家越來越關(guān)注兩個(gè)非常關(guān)鍵的核心問題。
第一,今天中國大模型的底座能力到底怎么樣?在中美科技日益激烈的人工智能領(lǐng)域博弈下,去年10月17日,英偉達(dá)因?yàn)槊绹虅?wù)部的要求,對中國所有能訓(xùn)練大模型的智能算力全面斷供。就在6月25日,OpenAI也正式通知將從7月9日開始終止所有來自中國的API申請。在這個(gè)背景下,熱熱鬧鬧、風(fēng)起云涌的通用人工智能浪潮,到底有沒有自主可控的國產(chǎn)底座能力做支撐,這決定了我們在這條路上到底能走多遠(yuǎn),決定了通用人工智能這一波浪潮;相當(dāng)于PC和互聯(lián)網(wǎng)的誕生,在人類歷史上有深刻的意義,而我們能不能享受這波紅利,能不能成為美國之后全球智慧涌現(xiàn)的第二極?
第二,大模型將會改變信息分發(fā)獲取的方式,改變?nèi)藱C(jī)交互方式,改變內(nèi)容生產(chǎn)方式,也會改變我們的整個(gè)產(chǎn)業(yè)形態(tài)和競爭格局,改變科研范式,這是大家都能看到的大趨勢和未來。Gartner預(yù)測,到2026年現(xiàn)在80%的企業(yè)都要用到通用人工智能,而今天這個(gè)數(shù)字是5%左右。
大模型在今天風(fēng)起云涌、如此大的投入下,究竟怎么落地?美好的未來擺在這里,當(dāng)前第一步該怎么以科學(xué)合理投入,才能讓大模型真正的剛需價(jià)值能夠落地,能夠看得見、摸得著,能夠用統(tǒng)計(jì)數(shù)據(jù)來證明應(yīng)用成效。我想關(guān)于底座技術(shù)、關(guān)于應(yīng)用落地,是今天所有的關(guān)心大模型、關(guān)心通用人工智能的研究機(jī)構(gòu)、企業(yè)、高校、科研院所以及政府部門共同關(guān)心的話題。今天訊飛星火V4.0的發(fā)布,我特別想跟大家分享我們這兩方面的看法,給出科大訊飛對這兩個(gè)問題的答案。
訊飛星火APP的使用高峰期不是周末,而是工作日
實(shí)際上,從去年5月6日訊飛星火V1.0發(fā)布之后,大模型的各項(xiàng)能力都在快速提升,我們幾乎每個(gè)月都會有一次非常重要的升級。以大家特別關(guān)注的文本寫作為例,今天星火大模型寫出來的東西已經(jīng)不僅僅能讓我們覺得不錯(cuò),很多時(shí)候還會給我們很大的觸動,給我們帶來驚喜,甚至是感動。
今年6月7日上午,高考語文作文題新鮮出爐,當(dāng)天中午就有很多人,包括機(jī)構(gòu)、老師、投資人等,從各個(gè)角度來測星火在高考作文中的寫作能力如何。非常自豪的是,大家都給了訊飛星火很高的評價(jià)。在“重慶日報(bào)新重慶客戶端”上發(fā)布這篇文章,是6月7日12:10讓大模型寫的,在人工智能圈一個(gè)大佬云集的微信群里,被大家專門拿出來作為一個(gè)經(jīng)典案例點(diǎn)贊。
大家可以看到,星火寫的內(nèi)容非常專業(yè),很好地運(yùn)用了排比、引用、論證等寫作手法。當(dāng)時(shí)有很多人給了評分,在滿分是60分的情況下,最低的給了52分。大家讀一下就會看到,在這中間有思辨的想法,引經(jīng)據(jù)典也都寫得非常好。這是沒有任何人工干預(yù)生成的結(jié)果,是大模型自己寫出來的,它的能力確實(shí)越來越強(qiáng)了。
當(dāng)然,大家還會關(guān)心說今天大模型寫作、寫詩、作畫能力在不斷提升,而要真正地解決人類剛需的一個(gè)非常重要的標(biāo)志就是科研,究竟大模型在賦能科研方面到底有沒有成效?
以我們和中國科學(xué)技術(shù)大學(xué)生命學(xué)院劉海燕教授團(tuán)隊(duì)的合作為例,我們用大模型中基于條件擴(kuò)散模型的蛋白質(zhì)主鏈設(shè)計(jì)算法SCUBA-D,能夠從頭生成自然界不存在的蛋白質(zhì)。實(shí)踐證明這種生成的蛋白質(zhì)在我們醫(yī)學(xué)特別需要的領(lǐng)域中,它的結(jié)合親和力與天然的蛋白質(zhì)相當(dāng),甚至更強(qiáng)。最重要的是,我們把設(shè)計(jì)成功率從原來的0.1%提升到64%,提升了640倍,原來需要6個(gè)月做的設(shè)計(jì),現(xiàn)在1天就做完了。這個(gè)已經(jīng)不是在簡單的科研驗(yàn)證階段了,目前已經(jīng)成功地設(shè)計(jì)了48個(gè)蛋白質(zhì),還在批量生產(chǎn)。這篇文章也在今年5月正式被《Nature》子刊接收,證明了我們在業(yè)界的領(lǐng)先地位。
我想說的是,大模型不僅可以寫詩、作畫,在改變工業(yè)、改變科研范式等方面已經(jīng)實(shí)實(shí)在在發(fā)揮作用,包括我們和中國科學(xué)技術(shù)大學(xué)做的合成類的科學(xué)創(chuàng)新,比如說化學(xué);還有與合肥綜合性國家科學(xué)中心能源研究院合作,在推進(jìn)大模型賦能核聚變整個(gè)過程中更快地預(yù)測、更好地應(yīng)對各種各樣的異常情況,這些都在快速推進(jìn)之中,這是我們在科研上面的各種進(jìn)展。
訊飛星火APP的使用高峰期不是周末,而是工作日;不是晚上,而是工作日的上午9:30和下午3:30。這說明大家真正用星火來解決工作中的剛需問題。我們一直說大模型應(yīng)該是解放生產(chǎn)力、釋放每個(gè)人想象力的,從這些數(shù)據(jù)就可以看到。
基于全國產(chǎn)算力平臺,全面對標(biāo)GPT-4 Turbo
從去年5月6日的訊飛星火V1.0一路走到今天的訊飛星火V4.0的發(fā)布,有一點(diǎn)非常令我們自豪——訊飛星火大模型是基于全國產(chǎn)算力平臺訓(xùn)練出來的。
去年10月24日,我們與華為聯(lián)合軟硬件一體化,科大訊飛提供了大量的算子庫和算法資源,聯(lián)合在安徽發(fā)布了中國首個(gè)國產(chǎn)萬卡算力集群,這是中國第一個(gè)能訓(xùn)千億以上浮點(diǎn)參數(shù)大模型的硬件平臺。在這個(gè)硬件平臺上,訊飛星火是中國第一個(gè)基于國產(chǎn)算力訓(xùn)練出來的全民開放的大模型。
什么叫全民開放大模型?就是國家網(wǎng)信辦等八個(gè)部委聯(lián)合認(rèn)證,老百姓可以隨即下載使用的大模型。當(dāng)時(shí)是唯一的,今天訊飛星火V4.0發(fā)布還是唯一的,在全國產(chǎn)算力平臺上訓(xùn)練的大模型,所有算法都是我們自主可控的,每一行碼、每一個(gè)數(shù)據(jù)都是我們自己編寫、自己清洗出來的大模型。一定程度上,今天星火大模型V4.0的發(fā)布對完全自主可控的大模型究竟走到了什么樣的發(fā)展階段,具有非常重要的標(biāo)志意義。
那么在這個(gè)基礎(chǔ)上,訊飛星火V4.0到底到了什么水平?
這是基于認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室和中國科學(xué)院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟、長三角人工智能產(chǎn)業(yè)鏈聯(lián)盟,在去年6月份聯(lián)合發(fā)布的國產(chǎn)通用認(rèn)知智能大模型測評體系。這個(gè)體系一共有7個(gè)主要方面,涵蓋了481個(gè)測試項(xiàng),所有數(shù)據(jù)都是“背靠背”測試,數(shù)據(jù)都是隨機(jī)動態(tài)產(chǎn)生的。非常高興的是,訊飛星火V4.0已經(jīng)實(shí)現(xiàn)了(大家公認(rèn)最好的通用認(rèn)知大模型)GPT-4 Turbo的對標(biāo),我們在文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)這些能力上都已經(jīng)實(shí)現(xiàn)超越,在代碼和多模態(tài)能力上還有差距。
代碼能力是我們非常關(guān)注的能力之一,因?yàn)樗婕拔磥淼漠a(chǎn)業(yè)信息化和信息產(chǎn)業(yè)化的核心,而ChatGPT去年2月份通過谷歌二級程序員測試,當(dāng)時(shí)的GPT-3.5用這個(gè)測試集只獲得了60多分,GPT-4 Turbo今年1月份測試大概在80分,現(xiàn)在到86分,也在快速迭代和進(jìn)步。我們預(yù)計(jì)在今年8月份,訊飛星火會達(dá)到現(xiàn)在86分以上的水平。
多模態(tài)能力還有所差距,是因?yàn)槲覀儺?dāng)前在文生視頻上還沒有算力,也不是下一步的核心重點(diǎn),但是有生態(tài)伙伴一起做。
但在多模態(tài)方面,有一個(gè)非常重要的應(yīng)用,就是圖文識別。無論是醫(yī)療領(lǐng)域,能不能看懂電子病歷、看懂體檢報(bào)告;還是教育領(lǐng)域,能不能看懂筆記、看懂考卷;以及在司法、金融、科研、辦公等各個(gè)領(lǐng)域的應(yīng)用,圖文識別能力都是至關(guān)重要的。
科大訊飛的圖文大模型以及星火大模型中的圖文能力,在國際上現(xiàn)在是先進(jìn)的。我們與GPT-4o做了對比,因?yàn)镚PT-4o在多模態(tài)方面,特別是圖文上面比GPT-4 Turbo要強(qiáng)。所以,我們與5月14日OpenAI發(fā)布的GPT-4o最新版本相比,各個(gè)專門領(lǐng)域訊飛星火V4.0的效果都比它好,不僅僅在OCR直接識別上,關(guān)于版面的自動理解、更合理的版式認(rèn)知結(jié)構(gòu)等方面,我們都做得更強(qiáng),從而使得今天要給大家看到的很多應(yīng)用,它的落地更能夠解決剛需。
在中文領(lǐng)域,訊飛星火V4.0實(shí)現(xiàn)了對標(biāo)GPT-4 Turbo,那么在英文領(lǐng)域怎么樣?這是國際各種主流機(jī)構(gòu)給出來的,最主流的中英文測試集,絕大部分是英文,中間有理解推理、綜合考試、數(shù)學(xué)科學(xué)和代碼等維度的測試。大家可以看到,一共12項(xiàng)主流測試集,絕大部分是英文的,訊飛星火V4.0有8項(xiàng)實(shí)現(xiàn)了超越。這個(gè)數(shù)據(jù)大家可以直接調(diào)用我們的API自己去測,這是很令我們自豪的進(jìn)展。
- 責(zé)任編輯: 沐梵 
-
專稿|任正非說的“鹽堿地”,中國光伏的希望田野
2024-06-28 09:50 -
OpenAI終止對中國提供API服務(wù),周鴻祎發(fā)聲
2024-06-26 13:53 人工智能 -
首次!我國科學(xué)家實(shí)現(xiàn)獼猴全腦尺度神經(jīng)活動監(jiān)測
2024-06-25 18:20 科技前沿 -
習(xí)近平代表黨中央、國務(wù)院和中央軍委致電祝賀
2024-06-25 14:50 航空航天 -
專稿|不顧一切的脫鉤:美國國會為何瞄準(zhǔn)這家中國企業(yè)
2024-06-25 09:54 -
2023年度國家科學(xué)技術(shù)獎勵名單公布
2024-06-24 17:46 -
“NASA和波音早就知道這個(gè)問題,但仍發(fā)射了火箭”
2024-06-24 16:23 -
李德仁、薛其坤獲2023國家最高科技獎
2024-06-24 10:32 科技前沿 -
我國科研人員在月壤樣本中首次發(fā)現(xiàn)天然石墨烯
2024-06-24 09:19 嫦娥奔月 -
我國重復(fù)使用運(yùn)載火箭首次10公里級垂直起降飛行試驗(yàn)成功
2024-06-23 14:58 航空航天 -
純度達(dá)99.9%!中國團(tuán)隊(duì)實(shí)現(xiàn)海上風(fēng)電驅(qū)動海水制氫
2024-06-23 08:07 觀察者頭條 -
全球首臺!這一重要裝備研制成功
2024-06-22 13:09 中國精造 -
專稿丨鴻蒙與安卓徹底切割,未來勝算幾何?
2024-06-21 19:35 華為 -
“加拿大決定跟,但也怕…”
2024-06-21 18:08 -
中國科學(xué)家發(fā)現(xiàn)治療免疫性血小板減少癥突破性新療法
2024-06-21 07:27 -
2024世界人工智能大會7月4日開幕,特色亮點(diǎn)搶先看!
2024-06-20 16:00 2024世界人工智能大會 -
我國首個(gè)工業(yè)用途核能供汽項(xiàng)目正式建成投產(chǎn)
2024-06-19 15:17 能源戰(zhàn)略 -
“千里眼”最大“角膜”:相當(dāng)于把北京五環(huán)內(nèi)地面平整到高低差小于1毫米
2024-06-19 09:10 中國精造 -
全球首臺全高溫超導(dǎo)托卡馬克裝置在上海建成運(yùn)行
2024-06-19 08:15 -
“美國在核電技術(shù)上落后中國10-15年”
2024-06-18 16:42
相關(guān)推薦 -
最新聞 Hot
-
“某些國家話說得很滿卻沒行動,中國正相反”
-
“我們幾乎轟炸了整個(gè)中東,卻一無所獲”
-
布林肯:美國的系統(tǒng)已經(jīng)崩潰
-
白宮把他這段發(fā)言記錄改了,共和黨人:涉嫌違法
-
“美國在糧食安全上的砝碼少了,中國安心了”
-
他無視北約:我們愛見誰就見誰
-
比美國更快?“這將成為中國的‘斯普特尼克時(shí)刻’”
-
哈里斯:特朗普一句話冒犯了女性,冒犯了所有人
-
詹姆斯:支持哈里斯
-
秘密赴美訓(xùn)練卻被美軍曝光,臺當(dāng)局“頗感頭痛”
-
“中國越抓緊,西方越焦慮”
-
“中國工業(yè)制造規(guī)模是美國三倍!不拉上盟友,怎么競爭?”
-
面對恐怖主義,美媒卻如此挑撥中國和“巴鐵”
-
德國外長訪華遭冷落?真相是…
-
美媒發(fā)現(xiàn)中國雙航母“亮點(diǎn)”:殲15B和殲15D已服役
-
以色列拿到情報(bào):伊朗要動手了,或在美國大選前
-