-
商湯聯(lián)合創(chuàng)始人:DeepSeek不會(huì)降低算力需求,長(zhǎng)期低價(jià)服務(wù)難持續(xù)
-
湯普濟(jì)我在看著你
由DeepSeek點(diǎn)燃的人工智能熱潮,仍在持續(xù)。面對(duì)這場(chǎng)熱鬧異常的“AI春節(jié)檔”,全球大模型市場(chǎng)內(nèi)的玩家們都在加速行動(dòng)。
近日,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華在一場(chǎng)閉門交流會(huì)上,談及了對(duì)DeepSeek的看法、算力需求、未來AI技術(shù)路徑、商湯未來大模型計(jì)劃等。
林達(dá)華認(rèn)為,DeepSeek不會(huì)降低市場(chǎng)對(duì)算力的需求,在可見的2025年內(nèi),整體算力需求仍將保持增長(zhǎng)。特別是隨著DeepSeek推理能力不斷突破,它帶動(dòng)了下游應(yīng)用市場(chǎng)的快速擴(kuò)展,推理市場(chǎng)正呈現(xiàn)供不應(yīng)求、快速增長(zhǎng)的態(tài)勢(shì)。
DeepSeek是開源路線的堅(jiān)持者,因此DeepSeek的出圈也被認(rèn)為是開源的勝利。
林達(dá)華認(rèn)為,開源不僅改變了全球AI和大模型的產(chǎn)業(yè)格局,還加速了技術(shù)的傳播和普及。其次,開源模型的追趕速度非??欤c頂尖閉源模型的差距正在迅速縮小。未來,大模型應(yīng)用將從問答、文本改寫等淺層工具,轉(zhuǎn)向替代行業(yè)中高價(jià)值的核心任務(wù)。大模型需要在特定行業(yè)任務(wù)上突破工業(yè)紅線,才能實(shí)現(xiàn)規(guī)?;瘧?yīng)用。開源只是技術(shù)價(jià)值鏈中的一環(huán),而非全部。
以下是林達(dá)華交流整理實(shí)錄:
問:春節(jié)AI熱潮又興起,國(guó)民討論度再創(chuàng)新高,DeepSeek最厲害的突破在哪里呢?
林達(dá)華:DeepSeek有兩個(gè)近期的版本,一個(gè)是V3基礎(chǔ)模型,另一個(gè)是R1推理模型。這兩個(gè)模型的核心亮點(diǎn)是不一樣的。V3在于模型和系統(tǒng)垂直整合后實(shí)現(xiàn)的訓(xùn)練效率的優(yōu)化;而R1是構(gòu)建強(qiáng)推理能力的新算法路徑。
首先說一下V3,V3整體表現(xiàn)非常優(yōu)秀,綜合能力強(qiáng),且在多項(xiàng)評(píng)測(cè)中表現(xiàn)突出。為何V3能夠達(dá)到如此高的水平,主要?dú)w功于兩個(gè)方面。首先,模型本身達(dá)到了一流大模型水平,首先在于數(shù)據(jù)的多樣性和高質(zhì)量處理。這是任何一個(gè)基礎(chǔ)模型能達(dá)到很高水平的根本,V3也不例外。
另一個(gè)關(guān)鍵因素是DeepSeek V3的訓(xùn)練效率非常高。它通過模型結(jié)構(gòu)、訓(xùn)練方法和并行策略的聯(lián)合優(yōu)化,提升了訓(xùn)練效率,使其達(dá)到較高水平。用幾百萬(wàn)美元就完成了一個(gè)大模型的訓(xùn)練。
具體而言,R1能夠?qū)⒂?xùn)練成本降至如此低的水平,主要依賴兩個(gè)方面的優(yōu)化。首先是模型結(jié)構(gòu),它采用了MoE架構(gòu)(混合專家架構(gòu)),如今幾乎所有一線企業(yè)都在使用MoE,因此這一點(diǎn)并不特別。但是,它采取了一種更優(yōu)的MoE負(fù)載均衡策略,提升了MoE訓(xùn)練的效率。另一個(gè)關(guān)鍵因素是訓(xùn)練技術(shù)的優(yōu)化:在確定了模型結(jié)構(gòu)后,訓(xùn)練方法本身也結(jié)合了多種策略。首先,它采用了FP8精度運(yùn)算,而不是傳統(tǒng)的FP16。這一改進(jìn)使計(jì)算效率相比FP16提升了60%以上。在FP8訓(xùn)練過程中,值得特別提到的是,它利用了CUDA PTX的底層代碼優(yōu)化,為FP8訓(xùn)練實(shí)現(xiàn)了一種高效的混合精度乘法,這是整個(gè)訓(xùn)練流程中最核心的算子之一,對(duì)FP8訓(xùn)練效率的提升起到了至關(guān)重要的作用。在這里我想指出的是,商湯的訓(xùn)練效率已經(jīng)與DeepSeek相差不大了。
然后是R1,它選擇了一條獨(dú)特且不同于主流的道路:基于結(jié)果監(jiān)督的強(qiáng)化學(xué)習(xí)路線。首先,它建立在DeepSeek V3形成的強(qiáng)大基礎(chǔ)能力之上,強(qiáng)化學(xué)習(xí)過程本身并不會(huì)賦予模型全新的知識(shí)或完全前所未有的能力,而是在基礎(chǔ)模型所提供的知識(shí)基礎(chǔ)上,使其更容易激發(fā)出完整的推理鏈路。其次,強(qiáng)化學(xué)習(xí)之前有個(gè)冷啟動(dòng)(cold-start)階段,這是一個(gè)“點(diǎn)火”階段,雖然使用數(shù)據(jù)不多,但是為后續(xù)的強(qiáng)化學(xué)習(xí)的走通打下很重要的能力基礎(chǔ)(比如指令跟隨等)。然后是DeepSeek-R1-Zero的強(qiáng)化學(xué)習(xí)訓(xùn)練,這是這個(gè)技術(shù)路徑的核心創(chuàng)新所在,它確實(shí)是有顯著效果的,在內(nèi)外部的交叉驗(yàn)證中也證實(shí)這一點(diǎn)。這里面的關(guān)鍵不是具體強(qiáng)化學(xué)習(xí)算法的選型(GRPO),而是證明了在一個(gè)強(qiáng)大基模型的基礎(chǔ)上,通過純結(jié)果監(jiān)督的強(qiáng)化學(xué)習(xí)能形成可泛化的推理能力。
問:DeepSeek的高效訓(xùn)練是否會(huì)顯著降低市場(chǎng)對(duì)算力的需求?
林達(dá)華:我們內(nèi)部的判斷是算力需求不會(huì)下降,主要基于以下幾個(gè)觀察:
首先,DeepSeek研發(fā)投入是包含多次實(shí)驗(yàn)試錯(cuò)尋求最佳技術(shù)方案的。幾百萬(wàn)美元的訓(xùn)練成本是單次成本,這是我們?cè)诠烙?jì)研發(fā)成本時(shí)需要充分考慮的。
其次,RL(強(qiáng)化學(xué)習(xí))路徑的成功已經(jīng)顯現(xiàn)出巨大的價(jià)值,我們預(yù)計(jì)未來許多機(jī)構(gòu)將嘗試大規(guī)模擴(kuò)展RL訓(xùn)練,這將進(jìn)一步提高算力需求。更重要的是,整個(gè)行業(yè)的競(jìng)爭(zhēng)態(tài)勢(shì)。即便單次訓(xùn)練成本得到了優(yōu)化,并不意味著總成本會(huì)下降。因?yàn)槭袌?chǎng)競(jìng)爭(zhēng)白熱化,效率的優(yōu)化會(huì)加快迭代,但不會(huì)降低總體需求。
此外,隨著DeepSeek推理能力不斷突破,它帶動(dòng)了下游應(yīng)用市場(chǎng)的快速擴(kuò)展。目前,已達(dá)到可以與OpenAI同臺(tái)競(jìng)爭(zhēng)的水平。這也導(dǎo)致大量用戶從OpenAI遷移至DeepSeek,但它自身的承載能力有限,難以滿足全部需求。因此,市場(chǎng)上許多國(guó)產(chǎn)廠商包括商湯大裝置紛紛上架R1,以支持不斷增長(zhǎng)的推理需求。推理市場(chǎng)正呈現(xiàn)供不應(yīng)求、快速增長(zhǎng)的態(tài)勢(shì)。
綜合這些因素,我們判斷,在可見的2025年內(nèi),整體算力需求仍將保持增長(zhǎng)。
問:大模型未來演進(jìn)路徑會(huì)是什么樣的?
林達(dá)華:現(xiàn)在大多數(shù)講述的仍是語(yǔ)言模型的故事,但在真實(shí)業(yè)務(wù)場(chǎng)景中,AI需要處理的信息遠(yuǎn)不止于語(yǔ)言,而是多模態(tài)數(shù)據(jù)的融合。
現(xiàn)實(shí)世界中,無(wú)論是閱讀報(bào)告、課堂教學(xué),還是PPT,信息輸入從來都不是單一模態(tài)的,語(yǔ)言只是我們所獲取數(shù)據(jù)的一部分,還有大量圖像、視頻、音頻、傳感器數(shù)據(jù)尚未被充分利用。多模態(tài)仍然是AI發(fā)展的必然方向。隨著多模態(tài)技術(shù)的發(fā)展,AI將從語(yǔ)言模型,演進(jìn)為推理模型,最終發(fā)展為世界模型。
在推理與理解能力提升的基礎(chǔ)上,下一步的關(guān)鍵方向是智能體。唯有具備完整決策與執(zhí)行能力的AI智能體,才能真正實(shí)現(xiàn)商業(yè)價(jià)值的閉環(huán)。這類智能體不再局限于提供信息或建議,而是能夠獨(dú)立自主地完成各類任務(wù),以更高效、更智能的方式驅(qū)動(dòng)業(yè)務(wù)的發(fā)展與創(chuàng)新。
問:多模態(tài)模型技術(shù)門檻到底在哪?它是語(yǔ)言模型的擴(kuò)展嗎?
林達(dá)華:一些人認(rèn)為多模態(tài)只是語(yǔ)言模型的一個(gè)簡(jiǎn)單擴(kuò)展,但實(shí)際上,真正意義上的多模態(tài)遠(yuǎn)不止于此。
AI從一開始就應(yīng)該具備多模態(tài)感知與理解能力,而不僅僅局限于語(yǔ)言層面。從商業(yè)角度來看,多模態(tài)在真實(shí)應(yīng)用場(chǎng)景中的需求已經(jīng)非常明顯。現(xiàn)實(shí)中的應(yīng)用場(chǎng)景本就是多模態(tài)的組合,而真正意義上的多模態(tài),不只是把不同模態(tài)的內(nèi)容轉(zhuǎn)換為語(yǔ)言token進(jìn)行輸入,它應(yīng)該貫穿整個(gè)AI處理流程,從感知、思考到輸出。更重要的是,多模態(tài)模型需要具備記憶能力。這意味要對(duì)LLM技術(shù)架構(gòu)徹底重構(gòu),而不僅僅是對(duì)語(yǔ)言模型的簡(jiǎn)單擴(kuò)展。
當(dāng)前業(yè)內(nèi)普遍討論一個(gè)問題:未來1-2年內(nèi),互聯(lián)網(wǎng)的純語(yǔ)料數(shù)據(jù)將被消耗殆盡。但一個(gè)被忽視的重要事實(shí)是,我們?nèi)匀粨碛泻A康奶烊淮嬖诘囊曈X數(shù)據(jù)。事實(shí)上,我們已經(jīng)看到包括OpenAI等國(guó)內(nèi)外一流的模型研發(fā)機(jī)構(gòu)正花費(fèi)巨資,從各個(gè)渠道收集視頻數(shù)據(jù),以用于訓(xùn)練更高級(jí)的大模型。
從第一天開始,我們就堅(jiān)定地認(rèn)為,多模態(tài)大模型是我們的核心發(fā)展方向。原因在于,天然語(yǔ)言的信息是有缺失的,單一的語(yǔ)言模型無(wú)法完整解決業(yè)務(wù)問題。對(duì)于多模態(tài)模型,我們?cè)O(shè)定了明確的技術(shù)目標(biāo),即:強(qiáng)交互能力、強(qiáng)推理能力和長(zhǎng)期記憶能力。
其中,多模態(tài)的強(qiáng)推理能力目前具備較高的技術(shù)門檻,因?yàn)榘ㄏ褚曨l、圖片這樣數(shù)據(jù)的信息密度跟語(yǔ)言文字的信息密度,完全差得不是一個(gè)數(shù)量級(jí)。這需要對(duì)數(shù)據(jù)進(jìn)行一個(gè)提煉,這是多模態(tài)模型非常關(guān)鍵的地方:怎么樣從大量的冗余里面去提取出里面高密度的關(guān)鍵信息,并且與語(yǔ)言互補(bǔ)的信息結(jié)合來做整個(gè)的分析推理等。進(jìn)行模態(tài)融入的過程,這里面有很多技術(shù)上要去做,記憶過程也有很多工作。
同時(shí),整個(gè)過程對(duì)基礎(chǔ)設(shè)施和訓(xùn)練系統(tǒng)也提出了很高的要求。在一個(gè)訓(xùn)練過程中,Transformer的計(jì)算在GPU上面發(fā)生,對(duì)答案或者生成代碼的檢驗(yàn)等的計(jì)算很多需要在CPU上面發(fā)生。然后,視覺等模態(tài)的編碼的計(jì)算模式也有差異。需要在一個(gè)很短的iteration里面,要完成3到5種很不一樣的計(jì)算,而且結(jié)果要協(xié)同在一起。要高效完成這樣的訓(xùn)練,需要基礎(chǔ)設(shè)施里面配置不同的計(jì)算資源,并且需要有一個(gè)高效的系統(tǒng)把不同的計(jì)算很好地協(xié)同在一起,以及支持好不同計(jì)算單元之間的頻繁通信。
所以基礎(chǔ)設(shè)施需要很強(qiáng)的彈性,能夠有各種不同的資源隨時(shí)有彈性地能夠組合在一起,這也是為什么商湯一直在說大裝置跟大模型要緊密結(jié)合發(fā)展,因?yàn)槿绻悴徽莆盏紫碌幕A(chǔ)設(shè)施設(shè)計(jì),資源配置肯定是跟計(jì)算需求錯(cuò)配的。
問:大模型是否能賺錢嗎?開源是否會(huì)顛覆閉源嗎?
林達(dá)華:首先,開源在近年來大模型的發(fā)展中對(duì)產(chǎn)業(yè)格局產(chǎn)生了深遠(yuǎn)影響。開源不僅改變了全球AI和大模型的產(chǎn)業(yè)格局,還加速了技術(shù)的傳播和普及。其次,開源模型的追趕速度非???,與頂尖閉源模型的差距正在迅速縮小。
開源的核心優(yōu)勢(shì)在于快速傳播——技術(shù)壁壘被打破后,先進(jìn)成果迅速擴(kuò)散,例如DeepSeek開源后,同類模型能力可被快速?gòu)?fù)現(xiàn)。此外,開源可以讓更多人可以參與到大模型的應(yīng)用創(chuàng)新,加速大模型技術(shù)應(yīng)用探索和普及的進(jìn)程。
在這種背景下,真正的競(jìng)爭(zhēng)優(yōu)勢(shì)體現(xiàn)在兩個(gè)方面:一是與基礎(chǔ)設(shè)施的深度整合,通過軟硬件的垂直整合實(shí)現(xiàn)成本優(yōu)勢(shì);二是在特定行業(yè)的縱深發(fā)展,通過工程優(yōu)化、業(yè)務(wù)理解和模型調(diào)優(yōu),為客戶提供深度的價(jià)值。
未來,大模型應(yīng)用將從問答、文本改寫等淺層工具,轉(zhuǎn)向替代行業(yè)中高價(jià)值的核心任務(wù)。類似于商湯在AI 1.0時(shí)代通過突破人臉識(shí)別的工業(yè)紅線,實(shí)現(xiàn)了產(chǎn)業(yè)復(fù)制。大模型同樣需要在特定行業(yè)任務(wù)上突破工業(yè)紅線,才能實(shí)現(xiàn)規(guī)?;瘧?yīng)用。開源只是技術(shù)價(jià)值鏈中的一環(huán),而非全部。
問:在競(jìng)爭(zhēng)格局這方面,DeepSeek V3和R1的API的價(jià)格,是否有可能帶來新一輪價(jià)格戰(zhàn)?
林達(dá)華:當(dāng)前的價(jià)格競(jìng)爭(zhēng)導(dǎo)致按token計(jì)費(fèi)的利潤(rùn)空間被壓縮至成本線,但長(zhǎng)期低價(jià)服務(wù)難以持續(xù)。大流量服務(wù)商若持續(xù)低于成本定價(jià),用戶量增長(zhǎng)反而加劇虧損,市場(chǎng)終將回歸貼近真實(shí)成本的合理區(qū)間。
然而,真正的商業(yè)價(jià)值并非來自“按字收費(fèi)”,而在于能否解決高難度業(yè)務(wù)問題。例如,生成深度行業(yè)報(bào)告或自主完成復(fù)雜任務(wù)的能力,其溢價(jià)遠(yuǎn)高于通用問答。若僅依賴chatbot按token收費(fèi),難以支撐持續(xù)研發(fā)投入。
行業(yè)終局取決于大模型能否突破關(guān)鍵領(lǐng)域的“工業(yè)紅線”,形成端到端的價(jià)值閉環(huán)。最終我覺得行業(yè)會(huì)走到這樣的一個(gè)道路上:看大模型給用戶帶來了何種價(jià)值。當(dāng)你依然采用“論斤算錢”的方式收費(fèi)時(shí),就代表了這個(gè)商業(yè)模式還沒有走的很通;而當(dāng)你真正形成高價(jià)值落地的時(shí)候,收費(fèi)必然會(huì)依據(jù)所提供服務(wù)本身的價(jià)值來確定。
問:在如今的競(jìng)爭(zhēng)格局下,商湯要走怎樣的路?
林達(dá)華:當(dāng)前,許多公司或團(tuán)隊(duì)選擇基于開源大模型進(jìn)行一次性微調(diào),希望在短期內(nèi)獲得市場(chǎng)價(jià)值。與以往技術(shù)迭代周期長(zhǎng)達(dá)十年、二十年不同,如今的AI發(fā)展周期已大幅縮短至三個(gè)月。在這樣的節(jié)奏下,單純依賴淺層微調(diào)或工具型產(chǎn)品的商業(yè)利潤(rùn)空間將極為有限。如果想真正抓住這個(gè)時(shí)代的紅利,就必須選擇更具挑戰(zhàn)性的方向。
對(duì)商湯而言,有兩項(xiàng)關(guān)鍵戰(zhàn)略選擇至關(guān)重要。其一,打造強(qiáng)大的基礎(chǔ)能力,盡管不同機(jī)構(gòu)在這一方面的定位可能會(huì)有所差異。其二,深耕特定行業(yè),做出端到端的全鏈條價(jià)值,深入理解行業(yè)需求,將每個(gè)環(huán)節(jié)做到極致。
去年十月份,商湯公開提出“大裝置、大模型、應(yīng)用”三位一體戰(zhàn)略。這一戰(zhàn)略正是基于AI未來高價(jià)值方向的判斷。無(wú)論市場(chǎng)如何變化,即使 DeepSeek-R1等新技術(shù)出現(xiàn),我們依然堅(jiān)定這一戰(zhàn)略方向,這些新技術(shù)的發(fā)展非但沒有動(dòng)搖商湯的戰(zhàn)略布局,反而進(jìn)一步驗(yàn)證了其高價(jià)值定位的必要性:大裝置的支撐,使大模型訓(xùn)練更高效、推理成本更低;提升模型服務(wù)的效率,確保訓(xùn)練和推理能力始終保持在行業(yè)領(lǐng)先水平;模型與業(yè)務(wù)緊密結(jié)合,聚焦關(guān)鍵領(lǐng)域,突破行業(yè)落地的瓶頸,實(shí)現(xiàn)高價(jià)值商業(yè)變現(xiàn)。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 湯普濟(jì) 
-
中興通訊去年研發(fā)投入240億,手機(jī)營(yíng)收增速超40%
2025-02-28 22:23 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
“瓜子大王”重回增長(zhǎng),高端瓜子建奇功?
2025-02-28 20:33 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
TikTok追加投資,88億美元!
2025-02-28 19:24 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
夸克AI搜索上線“深度思考”
2025-02-28 19:10 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
三年了,俄羅斯戰(zhàn)時(shí)“反制裁經(jīng)濟(jì)”的韌性從何而來?
2025-02-28 18:42 觀察者頭條 -
-
零售巨頭聯(lián)手,名創(chuàng)優(yōu)品創(chuàng)始人進(jìn)入永輝核心決策層
2025-02-28 18:18 -
2月賣地收金179.5億元,杭州土拍也被“六小龍”帶火了
2025-02-28 17:51 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
Mate70 Pro上線優(yōu)享版:降價(jià)300元,性能也略降
2025-02-28 17:22 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
比爾蓋茨投資的植物肉宣布:暫停中國(guó)運(yùn)營(yíng)并裁員95%
2025-02-28 16:20 -
即問即答,騰訊元寶即將灰度上線混元Turbo S
2025-02-28 16:05 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
小米15Ultra未漲價(jià),盧偉冰:扛不住了,下代一定要漲
2025-02-28 14:31 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
阿里國(guó)際站和航運(yùn)巨頭馬士基宣布深度合作
2025-02-28 10:55 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
扣非凈利下降近六成后,燒錢開“大店”能救太平鳥?
2025-02-28 10:43 -
蘋果天貓官方旗艦店首次加入國(guó)補(bǔ)
2025-02-28 10:15 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
“亮劍”后廚亂象,美團(tuán)上線“明廚亮灶”專區(qū)
2025-02-27 23:04 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
相關(guān)推薦 -
-
特魯多迎來“最后一天”,特朗普成了“意外救星” 評(píng)論 15“特朗普政府已通知盟友,將停止參加歐洲未來軍演” 評(píng)論 68默茨急劇掉頭,“這是典型的‘尼克松訪華時(shí)刻’” 評(píng)論 168對(duì)歐洲“感到憤怒”,“特朗普想把駐德美軍全撤走” 評(píng)論 184特朗普威脅“不談就打”,伊朗最高領(lǐng)袖表態(tài) 評(píng)論 325最新聞 Hot
-
歐洲多國(guó)驚覺:被美國(guó)掌握一個(gè)“致命開關(guān)”
-
對(duì)歐洲“感到憤怒”,“特朗普想把駐德美軍全撤走”
-
紐約發(fā)生多起山火,紐約州進(jìn)入緊急狀態(tài)
-
特朗普威脅“不談就打”,伊朗最高領(lǐng)袖表態(tài)
-
“烏克蘭半瞎了,歐洲急了”
-
尹錫悅獲釋第二天,首爾10萬(wàn)民眾集會(huì)游行
-
美媒哀嘆:所謂的“西方”,已蕩然無(wú)存
-
“1500億歐元貸款計(jì)劃,法德又吵起來了”
-
“看看中國(guó)高鐵再看美鐵,尬死了”
-
特朗普怒砍哥大4億美元:打擊“反猶”不給力啊
-
“特朗普想重新劃定美加邊界”
-
“魯比奧與馬斯克干架了”,特朗普忙滅火
-
“因?yàn)槲沂敲绹?guó)人,在臺(tái)積電被罵又懶又蠢”,下月開庭
-
“普京愿意,但有條件”
-
“最大受害者是波音,中國(guó)要么用國(guó)產(chǎn),要么買空客”
-
特朗普:和烏克蘭打交道比和俄羅斯更難
-