-
小米大模型突然登頂一項測試,用了DeepSeek的方法
-
張廣凱13764468101
3月17日,小米官方透露,其大模型團隊在音頻推理測試集MMAU榜單登頂,并強調(diào)“DeepSeek-R1的發(fā)布為我們在該項任務上的研究帶來了啟發(fā)”。
MMAU是一個側(cè)重考察音頻大模型理解和復雜推理能力的測試集,包含27種不同的任務,一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本。
例如,其中一個任務是要求從一段10多秒的語音中,數(shù)出包含至少一個重讀音素的單詞數(shù)量;另一個任務是根據(jù)一段美劇《生活大爆炸》中的對話,解釋其中一句話為什么是諷刺。
這是一個難度較高的測試集,人類專家的測試準確率為82.23%。而目前榜單上最強的大模型是谷歌Gemini 2.0 Flash,準確率55.6%。
小米大模型則達到了64.5%的準確率,較其它大模型有顯著提升。其參數(shù)量更是只有7B,是一個非常輕量化的模型。
不過,小米的大模型倒也不是完全自己研發(fā),而是基于開源的阿里通義大模型Qwen2-Audio-7B,并使用清華大學發(fā)布的 AVQA 數(shù)據(jù)集進行微調(diào)。Qwen2-Audio-7B自身在這個測試集上的得分是49.2%。
其實,相比于模型本身,小米這一成果的更大意義在于,證明了在音頻模型領(lǐng)域,DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法,同樣比監(jiān)督微調(diào)(SFT)效果要好得多。
小米方面專門用通俗的語言解釋了這個方法:
“打個比方來說,離線微調(diào)方法,如 SFT,有點像背題庫,你只能根據(jù)已有的題目和答案訓練,但遇到新題可能不會做;而強化學習方法,如 GRPO,像老師在要求你多想幾個答案,然后老師告訴你哪一個答案好,讓你主動思考,激發(fā)出自身的能力,而不是被“填鴨式”教學。當然,如果訓練量足夠,比如有學生愿意花很多年的時間來死記硬背題庫,也許最終也能達到不錯的效果,但效率太低,浪費太多時間。而主動思考,更容易快速地達到舉一反三的效果。強化學習的實時反饋可能會幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域,而離線方法需要遍歷整個可能性空間,效率要低得多。”
此外,小米團隊還發(fā)現(xiàn),如果讓模型像DeepSeek一樣,給出顯性的推理過程,最后的準確率反而下降到61.1%,也就是說,顯式的思維鏈結(jié)果輸出可能并不利于模型的訓練。這是相較于DeepSeek的一個新發(fā)現(xiàn)。
最后,小米方面也指出,盡管當前準確率已突破 64%,但距離人類專家 82% 的水平仍有差距,音頻大模型仍然遠遠落后于人類聽覺語言推理。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責任編輯: 張廣凱 
-
人工韌帶有望打破國外壟斷,投資人為何等不及國產(chǎn)替代?
2025-03-17 17:24 觀網(wǎng)財經(jīng)-健康 -
麒麟X90處理器曝光,華為首款PC級CPU來了?
2025-03-17 16:46 觀網(wǎng)財經(jīng)-科創(chuàng) -
3GPP換屆,華為、vivo、中國移動、中國電信獲四個主席席位
2025-03-17 15:33 觀網(wǎng)財經(jīng)-科創(chuàng) -
寧德時代正開發(fā)第二代鈉電池:性能已與磷酸鐵鋰電池接近
2025-03-17 13:50 大公司 -
韓國巨頭減產(chǎn)、美光停電,閃存芯片要漲價了
2025-03-17 13:14 觀網(wǎng)財經(jīng)-科創(chuàng) -
寶馬宣布與華為達成合作,未來將深度集成華為HiCar
2025-03-17 12:31 華為 -
1688全面松綁“僅退款”
2025-03-17 11:52 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
2月南京新房價格環(huán)比漲幅又跑贏全國,各地房價同比降幅繼續(xù)收窄
2025-03-17 11:17 觀網(wǎng)財經(jīng)-房產(chǎn) -
京東外賣入駐商家已破30萬家,覆蓋全國126城
2025-03-17 10:59 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
3000億國補擴容,滴灌到縣城
2025-03-17 09:57 觀網(wǎng)財經(jīng)-消費 -
華為申請MateRobot商標
2025-03-17 09:50 觀網(wǎng)財經(jīng)-科創(chuàng) -
蘋果計劃在AirPods上配備實時對話翻譯功能
2025-03-16 20:57 觀網(wǎng)財經(jīng)-科創(chuàng) -
母豬產(chǎn)后護理難?中國AI已經(jīng)開始“下鄉(xiāng)”了
2025-03-16 12:03 觀網(wǎng)財經(jīng)-科創(chuàng) -
年化利率高達20倍!借貸寶被暫停運營
2025-03-16 09:38 315維權(quán) -
土巴兔:未與火眼云達成實質(zhì)性合作
2025-03-16 09:16 315維權(quán) -
即將連虧3年,360用戶體驗何時能提升?
2025-03-15 22:51 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
市場監(jiān)管總局發(fā)聲
2025-03-15 22:21 -
知情人士:偷個人信息的獲客公司每日處理100億條數(shù)據(jù)
2025-03-15 22:21 315維權(quán) -
最高年化利率近6000%!在評論區(qū)一不小心借到“高利貸”...
2025-03-15 21:39 315維權(quán) -
啄木鳥回應:確認屬實將會對師傅進行嚴格處罰
2025-03-15 21:20 315維權(quán)
相關(guān)推薦 -
-
最新聞 Hot
-
義烏有信心挺過去,心疼美國一秒:他們上哪兒找襪子?
-
果然,又威脅歐洲:中國還是美國?
-
搖擺州共和黨人急死:中國都說奉陪到底了…
-
“美對華牛肉出口停滯,澳大利亞火速補位”
-
“美國客戶急電:SOS!90天內(nèi),能發(fā)多少發(fā)多少”
-
AI生成“吉卜力風格”圖片席卷網(wǎng)絡,爭議來了
-
“彪馬叔”挨批:吃頓飯的功夫,你就被特朗普耍了?
-
恐遭監(jiān)視,歐盟為赴美出差高官發(fā)放一次性手機
-
美財長:第一個采取行動的人可以得到“最好的協(xié)議”
-
“美軍掙扎過,但就是繞不過中國”
-
特朗普想幾乎全砍聯(lián)合國、北約經(jīng)費,有人急了:中俄要填補
-
開幕首日就翻車:大阪世博會標志性建筑漏雨,2億日元廁所用不了
-
“你不該向一個比你強大20倍的國家開戰(zhàn),然后希望別人給你導彈”
-
哈佛“硬剛”特朗普
-
特朗普自夸上了,“我靈活得很,還幫了庫克”
-
“特朗普考慮暫停汽車關(guān)稅”
-