-
專訪數(shù)庫創(chuàng)始人:通用大模型發(fā)展到極致,還有漫長的過程
-
呂棟lvdong@guancha.cn
最后更新: 2024-05-08 22:46:59【文/觀察者網(wǎng) 呂棟】
“我們現(xiàn)在主要在使用OpenAI的模型,同時我們也測試了一系列國內(nèi)的大模型,他們的進(jìn)步都很快,但目前來看,在成熟度上還可以進(jìn)一步提高?!?月7日,數(shù)庫科技創(chuàng)始人兼總裁沈鑫在第六屆世界人工智能大會(WAIC)現(xiàn)場接受觀察者網(wǎng)對話時說道。
他認(rèn)為,如果通用大模型發(fā)展到極致的話,也就不存在什么行業(yè)大模型了,但這是非常漫長的過程。因為能真正供大模型使用的高質(zhì)量數(shù)據(jù)非常缺乏。比如能把金融相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)做到很高的公司屈指可數(shù),而這些公司肯定不會把數(shù)據(jù)貢獻(xiàn)給別人。
數(shù)庫科技創(chuàng)始人兼總裁沈鑫
沈鑫向觀察者網(wǎng)坦言,今天人類所處的是一個萬物互聯(lián)的世界,所有的產(chǎn)業(yè)是連接在一起的。以前可能分析芯片的和分析汽車的人士很少產(chǎn)生交集,但今天產(chǎn)業(yè)網(wǎng)絡(luò)是交織狀的,對人的分析能力要求非常高。在這種情況下,數(shù)據(jù)的連接和編織,對幫助人們做決策顯得尤為重要。
他同時也提到,這個世界不存在所謂的“魔術(shù)”,大模型也不會一下把所有問題都解決。因為大模型本身是一個效率工具,“我們現(xiàn)在會把大模型的一些技術(shù)融入到數(shù)據(jù)生產(chǎn)端,進(jìn)一步去提升生產(chǎn)效率。這個實際上是我們看待大模型的一個點(diǎn),不要為了技術(shù)而技術(shù)”。
數(shù)庫科技成立于2009年,由海歸的沈鑫和劉彥海創(chuàng)立,該公司主要是在金融及產(chǎn)業(yè)領(lǐng)域提供基于產(chǎn)業(yè)邏輯的智能數(shù)據(jù)產(chǎn)品與系統(tǒng)服務(wù),幫助金融機(jī)構(gòu)、企業(yè)集團(tuán)、政府部門解決業(yè)務(wù)場景中的數(shù)據(jù)和系統(tǒng)需求。
在本屆WAIC現(xiàn)場,觀察者網(wǎng)體驗了數(shù)庫科技發(fā)布的概念型產(chǎn)品圖譜——istari,用戶輸入問題用大語言模型解析后,即可轉(zhuǎn)化成統(tǒng)一產(chǎn)品知識圖譜(UPG)相關(guān)的查詢,呈現(xiàn)出相關(guān)的專業(yè)產(chǎn)業(yè)知識以及各個知識點(diǎn)之間的關(guān)系,該產(chǎn)品主要通過大模型來做產(chǎn)業(yè)關(guān)系的推演。
以下是對話實錄:
觀察者網(wǎng):今年數(shù)庫的展臺比去年要大,重點(diǎn)在展示哪些內(nèi)容?
沈鑫:相比去年,今年展出的內(nèi)容更多是增強(qiáng)和產(chǎn)品化。比如說銀行對公,去年是方案,今年是標(biāo)準(zhǔn)化產(chǎn)品。因為隨著時間推移,公司想要發(fā)展的話,產(chǎn)品化程度必須越來越高。目前數(shù)字化轉(zhuǎn)型大家還都在摸索,隨著接觸的客戶越來越多,我們要把其中共性的需求提取出來。因為我們的目標(biāo)并不是只服務(wù)于頭部金融機(jī)構(gòu),還要服務(wù)于數(shù)量眾多的中小銀行,他們可能沒有那么多資源和能力,在這種情況下,標(biāo)準(zhǔn)化產(chǎn)品對他們來說就很重要。而且他們在體會到標(biāo)準(zhǔn)化產(chǎn)品的好處之后,才更有決心和信心投入更多成本去做的更加精細(xì)。
觀察者網(wǎng):連續(xù)參展世界人工智能大會,數(shù)庫業(yè)務(wù)是怎么跟人工智能技術(shù)結(jié)合的?
沈鑫:技術(shù)永遠(yuǎn)是工具,所以數(shù)庫將大量人工智能技術(shù)用在數(shù)據(jù)生產(chǎn)、數(shù)據(jù)解析和數(shù)據(jù)編織三個層面。技術(shù)賦能是底層能力,我們從來不直接拿技術(shù)去變現(xiàn),這種級別的炫技沒有意義。一個公司要想可持續(xù)發(fā)展,關(guān)鍵是要夯實底層能力。就像運(yùn)動員一樣,平時做的最多的反而是體能訓(xùn)練,雖然最后真實發(fā)揮的水平跟心態(tài)也有關(guān),但底層能力還是最核心的。
觀察者網(wǎng):數(shù)庫現(xiàn)在利用的人工智能底層技術(shù)能力有哪些?
沈鑫:我們在分析和解析不同類型數(shù)據(jù)時,會用到各種各樣的小模型,比如說NLP(自然語言處理)等。我們以前不做需要海量人工標(biāo)注的數(shù)據(jù)集,因為這會降低毛利率。但今天通過大模型,我們可以做海量數(shù)據(jù)標(biāo)注,具體是先通過小模型把大的段落拆成小的,再用大模型把關(guān)鍵要素提取出來。通過把工程化的技術(shù)整合到一起,再把數(shù)據(jù)工廠做進(jìn)一步的增強(qiáng)。
觀察者網(wǎng):目前數(shù)庫所利用的模型能力,是自研模型,還是使用市場上的模型?
沈鑫:我們不會自己去做大模型,因為大模型是一個長期投入才能出效果的技術(shù),適合大廠來做,而且大模型也有現(xiàn)成的。數(shù)庫現(xiàn)在也在接入OpenAI,國內(nèi)的大模型像百度的文心我們也在測試。我們在垂直領(lǐng)域中用好工具就行了,而且可以誰的大模型好用就用誰的。我們更專注垂直領(lǐng)域,包括金融機(jī)構(gòu)也不可能自己去研發(fā)大模型,也是用現(xiàn)成的。因此我們一方面要把市場上大模型的水平認(rèn)知清楚,另一方面我們要把客戶需要的東西兼容上去。
觀察者網(wǎng):目前數(shù)庫主要在和市場上哪些大模型合作?
沈鑫:我們現(xiàn)在主要在使用OpenAI的模型,同時我們也測試了一系列國內(nèi)的大模型,他們的進(jìn)步都很快,但目前來看,在成熟度上還可以進(jìn)一步提高。
觀察者網(wǎng):如何看待大模型的應(yīng)用?
沈鑫:這個世界不存在所謂的“魔術(shù)”,大模型也不可能一下把所有問題都解決。因為大模型本身是一個效率工具,我們現(xiàn)在會把大模型的一些技術(shù)融入到數(shù)據(jù)生產(chǎn)端,進(jìn)一步去提升生產(chǎn)效率。這個實際上是我們看待大模型的一個點(diǎn),不要為了技術(shù)而技術(shù)。
觀察者網(wǎng):如何看待通用大模型和行業(yè)大模型之間的應(yīng)用場景沖突?
沈鑫:如果通用大模型發(fā)展到極致的話,我覺得也就不存在什么行業(yè)大模型,但這是非常漫長的過程。能夠真正供大模型使用的高質(zhì)量數(shù)據(jù)是非常缺乏的。
比如我們行業(yè)里,能把金融相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)做到很高的公司,可能掰手指頭都數(shù)得出來,而這幾家肯定不會把數(shù)據(jù)貢獻(xiàn)給別人。所以它其實是一個漫長的過程,沒有大家想象得那么快。另外一個點(diǎn),很多的場景是不需要用到大模型的??赡茉谧稍兎?wù)類的場景中大模型有很大的用場,但是在金融這種對數(shù)據(jù)要求很嚴(yán)謹(jǐn)?shù)男袠I(yè)內(nèi),大模型實際是沒有意義的,因為回饋是相對比較模糊的。
觀察者網(wǎng):應(yīng)該怎樣理解數(shù)庫的業(yè)務(wù),或者說數(shù)庫是如何使用數(shù)據(jù)的?
沈鑫:我們是把市場上所有看上去像孤島的數(shù)據(jù)融合連接起來。在這樣的數(shù)據(jù)網(wǎng)絡(luò)中,去尋找外界難以捕捉到的一些有用的信息點(diǎn)。因為人的思維總是有限的,能力再強(qiáng)的專家,可能也只是在一兩個領(lǐng)域比較專業(yè),一旦跨領(lǐng)域可能就無能為力。今天我們所處的是一個萬物互聯(lián)的世界,所有的產(chǎn)業(yè)是連接在一起的。以前我們可能會說,分析芯片的和分析汽車的很少產(chǎn)生交集,但今天新能源汽車已經(jīng)離不開芯片,產(chǎn)業(yè)網(wǎng)絡(luò)是交織狀的,對人的分析能力要求非常高。在這種情況下,數(shù)據(jù)的連接和編織,對幫助人們做決策就顯得尤為重要。
觀察者網(wǎng):目前數(shù)庫研發(fā)人員的占比大概是什么情況?
沈鑫:我們現(xiàn)在有兩百多名員工,其中有一百多人在做研發(fā),占比超過一半,這些研發(fā)人員也在不斷夯實數(shù)庫的底層能力。當(dāng)?shù)讓蛹夹g(shù)能力達(dá)到一定水平的時候,你就會發(fā)現(xiàn)數(shù)據(jù)提取能力和數(shù)據(jù)精度全部都在上升。這就跟中國發(fā)射火箭探月一樣,航天技術(shù)一旦突破,所有的技術(shù)點(diǎn)在民用領(lǐng)域都會整體提升。
觀察者網(wǎng):數(shù)庫現(xiàn)在的營收大概是什么樣的水平,未來有沒有IPO的計劃?
沈鑫:我們的營收已經(jīng)破億了,去年業(yè)務(wù)體量翻了三倍,今年還要再翻一倍。我覺的無論是IPO也好,還是未來任何資本市場的出路也好,都取決于公司的基本面,也就是有沒有真正為客戶創(chuàng)造價值。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 呂棟 
-
國際首次!“量子模擬的圣杯之一”,我國科學(xué)家取得重大進(jìn)展
2024-05-06 12:12 科技前沿 -
嫦娥六號成功發(fā)射!開啟人類首次月球背面取樣之旅
2024-05-03 17:19 航空航天 -
環(huán)環(huán)相扣、步步關(guān)鍵!嫦娥六號月背出差之旅日程表
2024-05-03 16:22 航空航天 -
今天上午太陽爆發(fā)強(qiáng)耀斑,對我國上空電離層產(chǎn)生影響
2024-05-03 14:09 天文 -
嫦娥六號任務(wù)首選窗口瞄準(zhǔn)今日17時27分發(fā)射
2024-05-03 07:39 航空航天 -
嫦娥六號計劃5月3日發(fā)射
2024-05-01 18:26 航空航天 -
準(zhǔn)備就緒!嫦娥六號完成發(fā)射前最后一次系統(tǒng)間全區(qū)合練
2024-05-01 15:52 航空航天 -
幣安創(chuàng)始人趙長鵬被判4個月監(jiān)禁
2024-05-01 10:10 瘋狂比特幣 -
中美研究合作:核聚變實驗實現(xiàn)兩方面關(guān)鍵技術(shù)突破
2024-04-30 07:33 科技前沿 -
全球運(yùn)營商最大單體智算中心投產(chǎn):2萬張卡國產(chǎn)化率超85%
2024-04-28 15:14 觀網(wǎng)財經(jīng)-科創(chuàng) -
“5臺ASML極紫外光刻機(jī)就相當(dāng)于2022年歐盟對華葡萄酒出口總額”
2024-04-27 09:01 觀網(wǎng)財經(jīng)-海外 -
刷新紀(jì)錄!這一國產(chǎn)芯片交付
2024-04-26 09:13 科技前沿 -
?華為官宣:盤古大模型5.0將和“純血鴻蒙”一同亮相
2024-04-25 10:37 觀網(wǎng)財經(jīng)-科創(chuàng) -
楊利偉獲得錢學(xué)森最高成就獎
2024-04-24 15:36 航空航天 -
“80后”神十八乘組亮相 簡歷來了
2024-04-24 11:13 航空航天 -
中國將實施國內(nèi)首次在軌水生生態(tài)研究項目
2024-04-24 09:40 航空航天 -
《三體》重要情節(jié)被驗證?中國科學(xué)家首次觀測到電磁波動態(tài)傳播
2024-04-23 20:29 三體 -
神舟十八號任務(wù)完成全區(qū)合練 發(fā)射場做好應(yīng)對風(fēng)沙天氣準(zhǔn)備
2024-04-23 12:55 航空航天 -
阿斯麥:不走了,就在荷蘭擴(kuò)張
2024-04-23 11:08 觀網(wǎng)財經(jīng)-海外 -
神十八發(fā)射場區(qū)全系統(tǒng)合練,近日將擇機(jī)發(fā)射
2024-04-21 16:56 航空航天
相關(guān)推薦 -
-
最新聞 Hot
-
普京:要不了多久,歐洲會繼續(xù)對特朗普“搖尾巴”
-
墜毀“黑鷹”女飛行員曾任拜登軍事社交助理,飛行時長450小時
-
特朗普承認(rèn):關(guān)稅也許會讓美國人“痛苦”
-
“史上最愚蠢的貿(mào)易戰(zhàn)!”
-
加拿大群情激奮:報復(fù)紅州,報復(fù)特斯拉!
-
美國一客機(jī)發(fā)動機(jī)起火,乘客被緊急疏散
-
要被特朗普關(guān)稅大棒掄到,歐盟這時候想到中國了?
-
“霸榜全球140個市場”,拉新最多的是…
-
他罕見“認(rèn)錯”:在這方面,我們一直站在歷史錯誤一邊
-
“政治清洗”?數(shù)千名FBI特工被“拉清單”
-
他寫的這篇小作文,竟是英偉達(dá)市值蒸發(fā)6000億美元的重要催化劑
-
他倆首會面,“談了DeepSeek和AI芯片出口”
-
五角大樓下手,“有些員工為使用連上中國服務(wù)器”
-
果然,臺當(dāng)局又跳了出來
-
美媒復(fù)盤:為何中國科技一再讓西方措手不及?
-
67人無一生還,特朗普暗示“原因”
-