-
DeepSeek創(chuàng)始人,一個“技術(shù)理想主義者”
最后更新: 2025-01-30 12:47:27【文/觀察者網(wǎng) 陳思佳】近期,中國人工智能公司深度求索(DeepSeek)發(fā)布的DeepSeek-R1模型轟動全球,使用極低的成本實現(xiàn)了匹敵美國頂級AI模型的效果,得到從業(yè)者的廣泛稱贊。許多研究人員、投資者和西方媒體感嘆,中國AI模型令硅谷震驚,甚至可能改變大模型的研發(fā)規(guī)則。
隨著DeepSeek爆火,其創(chuàng)始人梁文鋒也受到公眾關(guān)注。作為一位17歲考入浙江大學(xué)、在量化投資和AI領(lǐng)域均取得驚人成就的“學(xué)霸”,梁文鋒卻始終保持低調(diào),很少拋頭露面。許多人好奇,這位低調(diào)的85后創(chuàng)業(yè)者究竟是如何取得成功。
用數(shù)學(xué)和AI進(jìn)行量化投資
公開資料顯示,梁文鋒1985年出生于廣東省湛江市。2002年,17歲的梁文鋒考入浙江大學(xué)電子信息工程專業(yè),并在2010年獲得信息與通信工程碩士學(xué)位。
在校期間,他對金融市場產(chǎn)生了濃厚興趣。特別是在2008年全球金融危機(jī)爆發(fā)后,他曾帶領(lǐng)團(tuán)隊使用機(jī)器學(xué)習(xí)技術(shù)分析市場數(shù)據(jù),嘗試實現(xiàn)全自動量化交易。這一經(jīng)歷為梁文鋒積累了實踐經(jīng)驗,也為他日后的職業(yè)生涯奠定了堅實的基礎(chǔ)。
DeepSeek創(chuàng)始人梁文鋒
畢業(yè)后,梁文鋒首先進(jìn)入了金融領(lǐng)域。2013年,他與浙大同學(xué)徐進(jìn)共同創(chuàng)立了杭州雅克比投資管理有限公司,并在2015年成立了杭州幻方科技有限公司,致力于通過數(shù)學(xué)和AI進(jìn)行量化投資。
2016年,幻方量化推出首個基于深度學(xué)習(xí)的交易模型,并開始將GPU引入計算交易倉位。在此之后,梁文鋒不斷擴(kuò)大AI算法研究團(tuán)隊,將AI技術(shù)深度融入量化策略,逐步取代傳統(tǒng)模型。2017年,幻方宣稱實現(xiàn)投資策略全面AI化。2018年,幻方正式確立以AI為核心的發(fā)展戰(zhàn)略。
但隨著業(yè)務(wù)的快速擴(kuò)展,計算資源不足的問題逐漸顯現(xiàn)。2019年,梁文鋒帶領(lǐng)團(tuán)隊自主研發(fā)了“螢火一號”訓(xùn)練平臺。2020年開始,總投資近2億元、搭載了1100張GPU的“螢火一號”正式投入運(yùn)作。2021年,幻方投入10億元建設(shè)“螢火二號”。
幻方量化在2018年首次獲得私募金牛獎,這是中國私募證券領(lǐng)域的最高獎項。2019年,梁文鋒在當(dāng)年的金牛獎頒獎儀式上發(fā)表了主題演講《一名程序員眼里中國量化投資的未來》,這是他少有的公開發(fā)言。
當(dāng)時,梁文鋒在演講中表示,“量化投資的未來,是用技術(shù)讓市場更有效率”。
在AI領(lǐng)域一鳴驚人
2023年,梁文鋒宣布正式進(jìn)軍通用人工智能(AGI)領(lǐng)域,創(chuàng)辦了深度求索(DeepSeek)。據(jù)報道,DeepSeek包括創(chuàng)始人梁文鋒在內(nèi),僅有139名工程師和研究人員。相比之下,開發(fā)ChatGPT的OpenAI有1200名研究人員,開發(fā)Claude模型的Anthropic則有500多名研究人員。
雖然團(tuán)隊規(guī)模不大,DeepSeek在此后一年多里取得了令人矚目的成果。2024年5月,DeepSeek發(fā)布DeepSeek-V2模型,憑借創(chuàng)新的模型架構(gòu)和性價比引發(fā)關(guān)注。DeepSeek-V2的API定價為每百萬tokens輸入1元、輸出2元,價格僅為美國OpenAI GPT-4 Turbo的百分之一。
DeepSeek解釋稱,DeepSeek-V2采用了創(chuàng)新的架構(gòu),例如注意力機(jī)制方面的MLA(多頭潛在注意力)和前饋網(wǎng)絡(luò)方面的DeepSeekMoE架構(gòu)等,以實現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。
據(jù)澎湃新聞報道,DeepSeek-V2的出現(xiàn)一度引發(fā)國內(nèi)的大模型“價格戰(zhàn)”,百度、阿里、字節(jié)跳動等大廠紛紛宣布大模型產(chǎn)品降價。對此,梁文鋒在接受媒體采訪時表示,DeepSeek無意成為行業(yè)鲇魚,低價背后是希望算力普惠。
去年12月26日,DeepSeek-V3模型發(fā)布,引發(fā)科技行業(yè)高度關(guān)注。DeepSeek網(wǎng)站發(fā)布的信息顯示,DeepSeek-V3多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,甚至可以與GPT-4o、Claude 3.5-Sonnet等頂級閉源模型一較高下。
更引人注目的是,DeepSeek-V3使用的成本和算力極低,僅使用2048顆算力稍弱的英偉達(dá)H800 GPU,成本約為557.6萬美元。相比之下,OpenAI的GPT-4o訓(xùn)練成本高達(dá)7800萬美元。這意味著,DeepSeek-V3以十分之一的成本實現(xiàn)了足以與GPT-4o較量的水平。
今年1月20日,DeepSeek進(jìn)一步取得突破,正式發(fā)布DeepSeek-R1模型。該模型在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI o1正式版。該模型在后訓(xùn)練階段大規(guī)模使用強(qiáng)化學(xué)習(xí)(RL)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。
DeepSeek-R1、OpenAI-o1-1217和DeepSeek-V3的性能比較 DeepSeek微信公眾號
這一系列成就震動全球科技行業(yè)。美國OpenAI創(chuàng)始成員之一安德烈·卡帕西(Andrej Karpathy)在社交媒體上稱贊:“DeepSeek在有限資源下展現(xiàn)了驚人的工程能力,它可能重新定義大模型研發(fā)的規(guī)則?!?
硅谷知名風(fēng)險投資家馬克·安德森(Marc Andreessen)將DeepSeek-R1的發(fā)布與美國總統(tǒng)特朗普入主白宮相提并論,他稱贊這是“最令人驚嘆的突破之一,給世界的一份意義深遠(yuǎn)的禮物”。
DeepSeek的成功與梁文鋒在團(tuán)隊管理和技術(shù)研發(fā)上的獨特策略有著密切的關(guān)系。他組建了一支由本土年輕程序員組成的團(tuán)隊,不依賴海歸或高級技術(shù)專家,團(tuán)隊成員多為應(yīng)屆畢業(yè)生或工作經(jīng)驗不超過5年的年輕人。
梁文鋒曾向媒體坦言,團(tuán)隊“并沒有什么高深莫測的奇才,都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實習(xí)生,還有一些畢業(yè)才幾年的年輕人”。他認(rèn)為,“創(chuàng)新需要擺脫慣性,經(jīng)驗有時會成為包袱。”
低調(diào)的“技術(shù)理想主義者”
從應(yīng)用AI進(jìn)行量化投資,到投身AI大模型研發(fā),驅(qū)動梁文鋒的卻并不是來自商業(yè)方面的理由。他在有限的幾次媒體采訪中坦言:“幻方的主要班底里,很多人是做人工智能的。當(dāng)時我們嘗試了很多場景,最終切入了足夠復(fù)雜的金融,而通用人工智能可能是下一個最難的事之一,所以對我們來說,這是一個怎么做的問題,而不是為什么做的問題……如果一定要找一個商業(yè)上的理由,它可能是找不到的,因為劃不來?!?
他表示,“很多人會以為這里邊有一個不為人知的商業(yè)邏輯,但其實,主要是好奇心驅(qū)動……對AI能力邊界的好奇?!?
DeepSeek一直堅持開源路線,主動向全球開發(fā)者分享了核心技術(shù)成果。在一些業(yè)內(nèi)人士看來,梁文鋒其實是一位低調(diào)的“技術(shù)理想主義者”。
去年,梁文鋒在接受媒體采訪時表示,在顛覆性的技術(shù)面前,閉源形成的護(hù)城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。“開源更像一個文化行為,而非商業(yè)行為。給予其實是一種額外的榮譽(yù)。一個公司這么做也會有文化的吸引力?!?
梁文鋒認(rèn)為,隨著經(jīng)濟(jì)發(fā)展,中國也要成為貢獻(xiàn)者:“我們已經(jīng)習(xí)慣摩爾定律從天而降,躺在家里18個月就會出來更好的硬件和軟件。Scaling Law(縮放定律)也在被如此對待。但其實,這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來的,只因為之前我們沒有參與這個過程,以至于忽視了它的存在。”
他當(dāng)時還表示,中國AI不可能永遠(yuǎn)處在跟隨的位置,“很多國產(chǎn)芯片發(fā)展不起來,也是因為缺乏配套的技術(shù)社區(qū),只有第二手消息,所以中國必然需要有人站到技術(shù)的前沿?!?
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
標(biāo)簽 人工智能- 責(zé)任編輯: 陳思佳 
-
一客機(jī)與美軍“黑鷹”直升機(jī)相撞后墜入河中,特朗普回應(yīng)
2025-01-30 12:44 美國一夢 -
谷歌擅自改名,墨西哥:會要個說法
2025-01-30 11:44 -
DeepSeek在意大利無法下載
2025-01-30 11:12 -
美國向烏克蘭移交90枚早前提供給以色列的愛國者導(dǎo)彈
2025-01-30 10:14 烏克蘭之殤 -
急了!特朗普考慮,英偉達(dá)特供版也不賣中國
2025-01-30 09:55 -
美準(zhǔn)商務(wù)部長揚(yáng)言:要對中國征最高水平關(guān)稅
2025-01-30 09:34 中美關(guān)系 -
他出任敘利亞過渡階段總統(tǒng)
2025-01-30 07:27 -
美聯(lián)儲維持利率不變,但表述有變化
2025-01-30 07:27 觀網(wǎng)財經(jīng)-海外 -
美國一工會起訴,阻止白宮“裁員”
2025-01-30 07:26 美國政治 -
-
-
又一位安保被撤,“軍銜或?qū)⒉槐!?/a>
2025-01-29 23:06 美國政治 -
印度開始焦慮:為啥中國行,我們不行?
2025-01-29 22:30 龍象之間 -
“美國政府面臨巨大挑戰(zhàn),整個戰(zhàn)略被證明無效”
2025-01-29 20:16 中美關(guān)系 -
2名中國公民在南蘇丹墜機(jī)事故中死亡
2025-01-29 19:03 航空安全 -
柬埔寨運(yùn)河項目黃了?中柬關(guān)系完了?我駐柬使館發(fā)文
2025-01-29 17:27 中國外交 -
美國“TikTok難民”被一道中國菜征服了
2025-01-29 16:54 中美關(guān)系 -
生效前幾分鐘,特朗普這項行政令被法官叫停
2025-01-29 16:27 美國一夢 -
白宮“裁員”:2月6日前辭職可領(lǐng)工資到9月底
2025-01-29 15:29 美國政治 -
扎哈羅娃用中文拜年:祝大家“蛇么”都好,“蛇么”都如意
2025-01-29 13:58
相關(guān)推薦 -
最新聞 Hot
-
“迫害!這是公然侮辱菲律賓主權(quán)”
-
“30多國齊聚巴黎,唯獨沒叫美國”
-
“聽到這些機(jī)器人來自中國,他們常感到驚訝”
-
又一位頂尖數(shù)學(xué)家從美回國:我一直夢想這個機(jī)會
-
美烏沙特開談
-
佩斯科夫:別急著戴“玫瑰色眼鏡”看美國,必須…
-
“被中國嚇到,特朗普憋了一招”
-
韓國造船業(yè)“都想要”:可美國要是卡中國厚鋼咋辦…
-
果然,美烏“各占鰲頭”
-
14年了,日本還有2萬多3·11災(zāi)民在“避難”
-
特朗普“護(hù)犢子”,歐盟決定對蘋果、Meta“淺罰一下”
-
突發(fā),杜特爾特被拘
-
這一項,日本要輸給中國了
-
美烏談判前夕,莫斯科再遭烏無人機(jī)襲擊:2死18傷
-
“夾在中美兩頭大象中間”,加拿大農(nóng)民“喊疼”
-
美方今日將舉行聽證會,炒作中國“成熟”芯片
-