www.sz,亚洲欧美偷国产精品三区,漂亮人妻被中出中文字幕久久

APP下載

掃一掃

下載觀察者APP

“AI界的拼多多”DeepSeek推出新款大模型，水平如何？
- 連政gczhewanxgun
分享到：

2024-12-27 17:01:09 字號(hào)：A- A A+ 來(lái)源：觀察者網(wǎng)

開(kāi)源和閉源AI的差距，進(jìn)一步被這家中國(guó)公司縮小了。

近日，被稱(chēng)為“AI界拼多多”的中國(guó)人工智能初創(chuàng)公司深度求索（DeepSeek）發(fā)布了全新大模型DeepSeek-V3（下稱(chēng)V3）并同步開(kāi)源。該模型在Aider多語(yǔ)言編程測(cè)試排行榜中，已超越Anthropic的Claude 3.5 Sonnet大模型，僅次于榜首的OpenAI o1大模型。

開(kāi)源No.1，多方面追平閉源大模型

DeepSeek是知名私募巨頭幻方量化旗下的人工智能公司，根據(jù)DeepSeek公布的測(cè)試結(jié)果，其運(yùn)行了多項(xiàng)基準(zhǔn)測(cè)試來(lái)比較性能，V3模型已明顯優(yōu)于包括Meta公司的Llama-3.1-405B和阿里云的Qwen 2.5-72B等一眾領(lǐng)先開(kāi)源模型。在大多數(shù)基準(zhǔn)測(cè)試中，它甚至部分超越了OpenAI的閉源模型GPT-4o。

Deepseek-V3在多方面超越、追平各種開(kāi)源、閉源大模型。Deepseek

首先是百科知識(shí)上，V3的知識(shí)類(lèi)任務(wù)（MMLU, MMLU-Pro, GPQA, SimpleQA）水平相比前代 DeepSeek-V2.5 （下稱(chēng)V2.5）顯著提升，接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。長(zhǎng)文本測(cè)評(píng)方面，在DROP、FRAMES 和 LongBench v2 上，V3 平均表現(xiàn)超越其他模型。

此外，V3 在算法類(lèi)代碼場(chǎng)景（Codeforces），遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非o1類(lèi)模型，并在工程類(lèi)代碼場(chǎng)景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022。

值得注意的是，V3在中文和數(shù)學(xué)相關(guān)基準(zhǔn)測(cè)試中表現(xiàn)尤為突出。

在美國(guó)數(shù)學(xué)競(jìng)賽（AIME 2024, MATH）和全國(guó)高中數(shù)學(xué)聯(lián)賽（CNMO 2024）上，V3大幅超過(guò)了所有開(kāi)源閉源模型。在中文能力上，V3 與 Qwen2.5-72B 在教育類(lèi)測(cè)評(píng) C-Eval 和代詞消歧等評(píng)測(cè)集上表現(xiàn)相近，但在事實(shí)知識(shí) C-SimpleQA 上更為領(lǐng)先。

訓(xùn)練成本極低

按照美媒Venture Beat的說(shuō)法，雖然V3已成為市場(chǎng)上最強(qiáng)大的開(kāi)源模型，但其訓(xùn)練成本卻非常非常低。

通過(guò)在上一代DeepSeek-V2上的成功驗(yàn)證，V3沿用了可以大幅降低顯存占用的MLA（多頭潛注意）和DeepSeekMoE（混合專(zhuān)家）架構(gòu)，其具有6710億參數(shù)，每次推理激活370億參數(shù)，這種方法確保了高效的訓(xùn)練及推理。在訓(xùn)練階段，DeepSeek使用了多種硬件和算法優(yōu)化，包括FP8混合精度訓(xùn)練框架和用于管道并行的DualPipe算法，以降低訓(xùn)練成本。

V3基礎(chǔ)架構(gòu)，DeepSeek創(chuàng)新的MLA被用于高效推理，DeepSeekMoE則用于經(jīng)濟(jì)訓(xùn)練。DeepSeek論文

DeepSeek聲稱(chēng)，V3 實(shí)現(xiàn)了極高的訓(xùn)練效率。在約278.8萬(wàn)個(gè)英偉達(dá) H800 GPU小時(shí)內(nèi)完成了V3的整個(gè)訓(xùn)練，假設(shè)GPU的小時(shí)租金為2美元，總成本就是約為557萬(wàn)美元。這遠(yuǎn)低于通常用于預(yù)訓(xùn)練大語(yǔ)言模型動(dòng)輒上億美元的成本，比如Llama-3.1的預(yù)訓(xùn)練成本估計(jì)就超過(guò)5億美元。

DeepSeek還通過(guò)算法和工程上的創(chuàng)新，使V3的生成吐字速度從20TPS大幅提高至60TPS，相比V2.5模型實(shí)現(xiàn)了3倍的提升，在處理多模態(tài)數(shù)據(jù)和長(zhǎng)文本時(shí)表現(xiàn)突出。而隨著性能更強(qiáng)、速度更快的V3更新上線，DeepSeek的模型API服務(wù)定價(jià)也調(diào)整為每百萬(wàn)輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬(wàn)輸出tokens 8元。

量化基金轉(zhuǎn)型人工智能

公開(kāi)資料顯示，在DeepSeek背后是量化私募巨頭幻方（High-Flyer Quant），也是大廠外唯一一家儲(chǔ)備上萬(wàn)張英偉達(dá) A100芯片的公司?；梅匠闪⒂?008年，總部位于中國(guó)杭州，專(zhuān)注于利用數(shù)學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)技術(shù)進(jìn)行金融市場(chǎng)的量化分析和交易。

自2023年四季度以來(lái)，A股市場(chǎng)不斷下行，而利用數(shù)學(xué)模型和計(jì)算機(jī)程序等技術(shù)手段進(jìn)行投資決策的量化基金曾被作為“罪魁禍?zhǔn)住笔艿捷浾摰臎_擊，這也讓幻方旗下基金表現(xiàn)一直落后于滬深300指數(shù)4個(gè)百分點(diǎn)。

不過(guò)，隨著今年5月DeepSeek-V2發(fā)布，幻方量化卻成功轉(zhuǎn)型為人工智能先驅(qū)，其超低價(jià)格甚至引發(fā)了國(guó)內(nèi)大模型的價(jià)格戰(zhàn)，DeepSeek也被迅速冠以“AI界拼多多”之稱(chēng)。這反映出百度和阿里巴巴等科技巨頭，盡管在生成式人工智能領(lǐng)域已處于領(lǐng)先地位，但仍需要面對(duì)著來(lái)自新玩家的激烈競(jìng)爭(zhēng)。

幻方創(chuàng)始人梁文鋒此前曾回應(yīng)稱(chēng)，DeepSeek定價(jià)原則就是不貼錢(qián)，但也不賺取暴利。只是讓他也沒(méi)想到的是，DeepSeek的定價(jià)卻讓各大廠商紛紛降價(jià)，然而DeepSeek自身反而卻是有利潤(rùn)的。

“字節(jié)是第一個(gè)跟進(jìn)的，其旗艦?zāi)Ｐ徒档胶臀覀円粯拥膬r(jià)格，然后觸發(fā)了其它大廠紛紛降價(jià)”，梁文鋒解釋說(shuō)，“因?yàn)榇髲S的模型成本比DeepSeek高很多，所以DeepSeek沒(méi)想到會(huì)有人虧錢(qián)做這件事，最后就變成了互聯(lián)網(wǎng)時(shí)代的燒錢(qián)補(bǔ)貼的邏輯。”

梁文鋒認(rèn)為，更多的投入并不一定產(chǎn)生更多的創(chuàng)新，否則大廠可以把所有的創(chuàng)新包攬了。

本文系觀察者網(wǎng)獨(dú)家稿件，未經(jīng)授權(quán)，不得轉(zhuǎn)載。
|

舉報(bào)
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實(shí)信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報(bào)制度規(guī)范
確定取消
標(biāo)簽
- 責(zé)任編輯: 連政
- 旗艦配色搞國(guó)內(nèi)外區(qū)別對(duì)待？OPPO稱(chēng)絕對(duì)沒(méi)有
  
  2024-12-27 12:39 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 美團(tuán)發(fā)布情況說(shuō)明：堅(jiān)決治理騎手注冊(cè)個(gè)體工商戶(hù)
  
  2024-12-27 10:53 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 臺(tái)媒稱(chēng)大陸手機(jī)鏡頭廠“暴雷”，涉事企業(yè)：與事實(shí)嚴(yán)重不符
  
  2024-12-27 10:26 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 世界銀行上調(diào)今年中國(guó)GDP增長(zhǎng)預(yù)期
  
  2024-12-27 09:43 中國(guó)經(jīng)濟(jì)
- 民調(diào)：只有19%的美國(guó)人認(rèn)為國(guó)家走在正確的道路上
  
  2024-12-27 08:58 美國(guó)政治
- 政企辦公應(yīng)用鴻蒙化，為什么刻不容緩？
  
  2024-12-27 08:11 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 山寨臺(tái)積電？韓產(chǎn)業(yè)界提議政府組建“韓積電”
  
  2024-12-26 15:42 科技前沿
- 小米被曝正搭建GPU萬(wàn)卡集群，大力投入大模型
  
  2024-12-26 13:49 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 規(guī)避美國(guó)制裁？藥明康德出售海外高端治療業(yè)務(wù)
  
  2024-12-26 13:09 大公司
- 余承東：華為明年有大家想不到的產(chǎn)品
  
  2024-12-26 10:12 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 得益于AI？蘋(píng)果和臺(tái)積電的股價(jià)都在創(chuàng)歷史新高
  
  2024-12-25 21:21 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 網(wǎng)友曝小米將大規(guī)模裁員，小米王化：造謠者百分百賠錢(qián)
  
  2024-12-25 21:14 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 健身龍頭威爾仕閉店近八成：上千人討薪，有幸存門(mén)店連廁紙都斷供
  
  2024-12-25 17:26 產(chǎn)業(yè)萬(wàn)象
- 嘲諷大學(xué)生找不到工作，這個(gè)網(wǎng)紅被禁止關(guān)注
  
  2024-12-25 16:00 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 被曝逼商家“選邊站”，亞馬遜急了？
  
  2024-12-25 15:45 觀網(wǎng)財(cái)經(jīng)-海外
- 中國(guó)云市場(chǎng)重回兩位數(shù)增長(zhǎng)，阿里、華為、騰訊占70%份額
  
  2024-12-25 10:51 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 騰訊辟謠微信“送禮物”紀(jì)要：不要給我們定商業(yè)計(jì)劃了
  
  2024-12-25 10:38 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 1億元，中國(guó)郵政正式涉足無(wú)人機(jī)制造
  
  2024-12-24 18:55 低空經(jīng)濟(jì)
- 全球科技封鎖加劇，中國(guó)量子計(jì)算如何追趕？
  
  2024-12-24 18:35 觀察者頭條
- 受賄1776余萬(wàn)，工行原紀(jì)委書(shū)記劉立憲一審被判八年
  
  2024-12-24 17:08 廉政風(fēng)暴
搜索

   觀察者頭條查看全部

這個(gè)臭名昭著的反華機(jī)構(gòu)，麻煩大了評(píng)論 5

“香港公務(wù)員最?lèi)?ài)去內(nèi)地哪兒？你絕對(duì)想不到” 評(píng)論 100

等了27年！“連接?xùn)|西方，歷史性一幕” 評(píng)論 91

外媒驚呼：震撼！評(píng)論 500

“中國(guó)絕對(duì)沒(méi)有干預(yù)，不會(huì)將運(yùn)河控制權(quán)拱手讓給美國(guó)” 評(píng)論 132

   風(fēng)聞 · 24小時(shí)最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

“AI界的拼多多”DeepSeek推出新款大模型，水平如何？

旗艦配色搞國(guó)內(nèi)外區(qū)別對(duì)待？OPPO稱(chēng)絕對(duì)沒(méi)有

美團(tuán)發(fā)布情況說(shuō)明：堅(jiān)決治理騎手注冊(cè)個(gè)體工商戶(hù)

臺(tái)媒稱(chēng)大陸手機(jī)鏡頭廠“暴雷”，涉事企業(yè)：與事實(shí)嚴(yán)重不符

世界銀行上調(diào)今年中國(guó)GDP增長(zhǎng)預(yù)期

民調(diào)：只有19%的美國(guó)人認(rèn)為國(guó)家走在正確的道路上

政企辦公應(yīng)用鴻蒙化，為什么刻不容緩？

山寨臺(tái)積電？韓產(chǎn)業(yè)界提議政府組建“韓積電”

小米被曝正搭建GPU萬(wàn)卡集群，大力投入大模型

規(guī)避美國(guó)制裁？藥明康德出售海外高端治療業(yè)務(wù)

余承東：華為明年有大家想不到的產(chǎn)品

得益于AI？蘋(píng)果和臺(tái)積電的股價(jià)都在創(chuàng)歷史新高

網(wǎng)友曝小米將大規(guī)模裁員，小米王化：造謠者百分百賠錢(qián)

健身龍頭威爾仕閉店近八成：上千人討薪，有幸存門(mén)店連廁紙都斷供

嘲諷大學(xué)生找不到工作，這個(gè)網(wǎng)紅被禁止關(guān)注

被曝逼商家“選邊站”，亞馬遜急了？

中國(guó)云市場(chǎng)重回兩位數(shù)增長(zhǎng)，阿里、華為、騰訊占70%份額

騰訊辟謠微信“送禮物”紀(jì)要：不要給我們定商業(yè)計(jì)劃了

1億元，中國(guó)郵政正式涉足無(wú)人機(jī)制造

全球科技封鎖加劇，中國(guó)量子計(jì)算如何追趕？

受賄1776余萬(wàn)，工行原紀(jì)委書(shū)記劉立憲一審被判八年

這個(gè)臭名昭著的反華機(jī)構(gòu)，麻煩大了

武契奇：你看著，美國(guó)會(huì)買(mǎi)下“北溪”

又一家，日本川崎重工被曝40年前就開(kāi)始“造假”

“特朗普對(duì)他很不滿，不知道他將如何‘存活’”

北約高官吐槽：歐洲研發(fā)武器太慢，等用上都過(guò)時(shí)了

“香港公務(wù)員最?lèi)?ài)去內(nèi)地哪兒？你絕對(duì)想不到”

伊外長(zhǎng)：到北京了！此行主要目的…

等了27年！“連接?xùn)|西方，歷史性一幕”

“世界一流，不再是美國(guó)模式”

“美元全球官方儲(chǔ)備份額，降至30年新低”

外媒驚呼：震撼！

失事客機(jī)是被俄?yè)袈?？多方回?yīng)

世界最快！CR450真的要來(lái)了

美媒不依不饒：他幫助中國(guó)對(duì)付美國(guó)

“加拿大州長(zhǎng)”的最后一搏？

“當(dāng)年?duì)幭嘧l責(zé)，現(xiàn)在排隊(duì)送錢(qián)”

“AI界的拼多多”DeepSeek推出新款大模型，水平如何？

“AI界的拼多多”DeepSeek推出新款大模型，水平如何？