-
小米大模型突然登頂一項(xiàng)測(cè)試,用了DeepSeek的方法
-
張廣凱13764468101
3月17日,小米官方透露,其大模型團(tuán)隊(duì)在音頻推理測(cè)試集MMAU榜單登頂,并強(qiáng)調(diào)“DeepSeek-R1的發(fā)布為我們?cè)谠擁?xiàng)任務(wù)上的研究帶來了啟發(fā)”。
MMAU是一個(gè)側(cè)重考察音頻大模型理解和復(fù)雜推理能力的測(cè)試集,包含27種不同的任務(wù),一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本。
例如,其中一個(gè)任務(wù)是要求從一段10多秒的語音中,數(shù)出包含至少一個(gè)重讀音素的單詞數(shù)量;另一個(gè)任務(wù)是根據(jù)一段美劇《生活大爆炸》中的對(duì)話,解釋其中一句話為什么是諷刺。
這是一個(gè)難度較高的測(cè)試集,人類專家的測(cè)試準(zhǔn)確率為82.23%。而目前榜單上最強(qiáng)的大模型是谷歌Gemini 2.0 Flash,準(zhǔn)確率55.6%。
小米大模型則達(dá)到了64.5%的準(zhǔn)確率,較其它大模型有顯著提升。其參數(shù)量更是只有7B,是一個(gè)非常輕量化的模型。
不過,小米的大模型倒也不是完全自己研發(fā),而是基于開源的阿里通義大模型Qwen2-Audio-7B,并使用清華大學(xué)發(fā)布的 AVQA 數(shù)據(jù)集進(jìn)行微調(diào)。Qwen2-Audio-7B自身在這個(gè)測(cè)試集上的得分是49.2%。
其實(shí),相比于模型本身,小米這一成果的更大意義在于,證明了在音頻模型領(lǐng)域,DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法,同樣比監(jiān)督微調(diào)(SFT)效果要好得多。
小米方面專門用通俗的語言解釋了這個(gè)方法:
“打個(gè)比方來說,離線微調(diào)方法,如 SFT,有點(diǎn)像背題庫,你只能根據(jù)已有的題目和答案訓(xùn)練,但遇到新題可能不會(huì)做;而強(qiáng)化學(xué)習(xí)方法,如 GRPO,像老師在要求你多想幾個(gè)答案,然后老師告訴你哪一個(gè)答案好,讓你主動(dòng)思考,激發(fā)出自身的能力,而不是被“填鴨式”教學(xué)。當(dāng)然,如果訓(xùn)練量足夠,比如有學(xué)生愿意花很多年的時(shí)間來死記硬背題庫,也許最終也能達(dá)到不錯(cuò)的效果,但效率太低,浪費(fèi)太多時(shí)間。而主動(dòng)思考,更容易快速地達(dá)到舉一反三的效果。強(qiáng)化學(xué)習(xí)的實(shí)時(shí)反饋可能會(huì)幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域,而離線方法需要遍歷整個(gè)可能性空間,效率要低得多?!?
此外,小米團(tuán)隊(duì)還發(fā)現(xiàn),如果讓模型像DeepSeek一樣,給出顯性的推理過程,最后的準(zhǔn)確率反而下降到61.1%,也就是說,顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。這是相較于DeepSeek的一個(gè)新發(fā)現(xiàn)。
最后,小米方面也指出,盡管當(dāng)前準(zhǔn)確率已突破 64%,但距離人類專家 82% 的水平仍有差距,音頻大模型仍然遠(yuǎn)遠(yuǎn)落后于人類聽覺語言推理。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 張廣凱 
-
人工韌帶有望打破國(guó)外壟斷,投資人為何等不及國(guó)產(chǎn)替代?
2025-03-17 17:24 觀網(wǎng)財(cái)經(jīng)-健康 -
麒麟X90處理器曝光,華為首款PC級(jí)CPU來了?
2025-03-17 16:46 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
寧德時(shí)代正開發(fā)第二代鈉電池:性能已與磷酸鐵鋰電池接近
2025-03-17 13:50 大公司 -
韓國(guó)巨頭減產(chǎn)、美光停電,閃存芯片要漲價(jià)了
2025-03-17 13:14 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
寶馬宣布與華為達(dá)成合作,未來將深度集成華為HiCar
2025-03-17 12:31 華為 -
1688全面松綁“僅退款”
2025-03-17 11:52 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
京東外賣入駐商家已破30萬家,覆蓋全國(guó)126城
2025-03-17 10:59 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
3000億國(guó)補(bǔ)擴(kuò)容,滴灌到縣城
2025-03-17 09:57 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
華為申請(qǐng)MateRobot商標(biāo)
2025-03-17 09:50 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
-
年化利率高達(dá)20倍!借貸寶被暫停運(yùn)營(yíng)
2025-03-16 09:38 315維權(quán) -
土巴兔:未與火眼云達(dá)成實(shí)質(zhì)性合作
2025-03-16 09:16 315維權(quán) -
即將連虧3年,360用戶體驗(yàn)何時(shí)能提升?
2025-03-15 22:51 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
市場(chǎng)監(jiān)管總局發(fā)聲
2025-03-15 22:21 -
知情人士:偷個(gè)人信息的獲客公司每日處理100億條數(shù)據(jù)
2025-03-15 22:21 315維權(quán) -
最高年化利率近6000%!在評(píng)論區(qū)一不小心借到“高利貸”...
2025-03-15 21:39 315維權(quán) -
啄木鳥回應(yīng):確認(rèn)屬實(shí)將會(huì)對(duì)師傅進(jìn)行嚴(yán)格處罰
2025-03-15 21:20 315維權(quán)
相關(guān)推薦 -
-
想得挺美:收中國(guó)的錢,反哺美國(guó)“冠軍” 評(píng)論 50多家美企施壓中國(guó)供應(yīng)商降價(jià),“中方不會(huì)容忍” 評(píng)論 316升級(jí)!美防長(zhǎng)撂狠話,胡塞:瞄準(zhǔn)所有美軍艦只 評(píng)論 197國(guó)安部曝光4名“臺(tái)獨(dú)”網(wǎng)軍分子 評(píng)論 456“特朗普想搞新世界秩序,但美元要先遭殃” 評(píng)論 68最新聞 Hot
-
多家美企施壓中國(guó)供應(yīng)商降價(jià),“中方不會(huì)容忍”
-
“我和普京約好時(shí)間了,要談發(fā)電廠和資產(chǎn)分割”
-
“什么時(shí)候了還在指望美國(guó),癡心妄想!”
-
“出差”8天,“加班”9個(gè)月,終于看到了回地球的曙光
-
升級(jí)!美防長(zhǎng)撂狠話,胡塞:瞄準(zhǔn)所有美軍艦只
-
中國(guó)頂尖人才來自美國(guó)?斯坦福博士“真相”了
-
莫迪對(duì)華最新表態(tài)
-
“民主黨支持率跌至歷史新低”
-
香港《大公報(bào)》再發(fā)文:飲水思源有擔(dān)當(dāng),背靠祖國(guó)謀發(fā)展
-
美方直說了:做好“割地”準(zhǔn)備吧,加入北約也沒戲
-
怕美國(guó)針對(duì),法國(guó)總理“窩里橫”:歐盟這么搞不對(duì)
-
菲警方:若ICC需要,可配合逮捕杜特爾特盟友
-
方濟(jì)各病重住院后的首張照片公布
-
馬克龍“硬杠”:不需要俄方許可
-
“特朗普想搞新世界秩序,但美元要先遭殃”
-
“因?yàn)槠站┎幌矚g”,特朗普將自家俄烏特使降格
-