日韩成年人AU高清无码,久久亚成人精品无码区

APP下載

掃一掃

下載觀察者APP

劉聰：代表人工智能第三次浪潮的快速發(fā)展，這是中國人的原創(chuàng)
- 心智觀察所以心智觀察新質(zhì)
- 劉聰科大訊飛副總裁，研究院院長
分享到：

字號：A- A A+ 來源：觀察者網(wǎng)

最后更新: 2024-07-26 16:16:00

這樣，一方面實現(xiàn)了人聲和噪聲的精確分離，另一方面，多維度的語音屬性結(jié)構(gòu)可以進一步地把聲音里的內(nèi)容、韻律、音色等處理出來，如此可以進一步地去解決雞尾酒會問題。過去幾年，訊飛連續(xù)4屆參與并獲得國際多通道語音分離和識別權(quán)威賽事CHiME的冠軍，充分證明我們的語音識別技術(shù)突破了更加復(fù)雜的場景。再進一步結(jié)合大模型，就是我們今年6月27日舉行的訊飛星火V4.0發(fā)布會上呈現(xiàn)的極復(fù)雜語音轉(zhuǎn)寫技術(shù)，基于訊飛星火大模型的多模態(tài)能力，現(xiàn)場在噪聲環(huán)境下三人同時說話，正常人耳難以聽清，但我們做到了將每個人的聲音較為準確分離，并且實時轉(zhuǎn)寫出來。

訊飛星火V4.0發(fā)布會上展示的極復(fù)雜語音轉(zhuǎn)寫

作為一項技術(shù)框架的創(chuàng)新，復(fù)雜語音信號解耦建模關(guān)鍵技術(shù)還可以再延伸一下，應(yīng)用到語音合成上。在過去，語音合成需要一個人錄制自己很多的聲音語料之后才能進行合成。如果我們沒有研發(fā)剛才所說的語音屬性解耦技術(shù)的話，我們就很難把很多人的聲音合成為一個合成聲音，因為若將所有的聲音全混在一起的話，可想而知會變成一個“四不像”。但是，當(dāng)我們通過這項技術(shù)把每一個人的聲音屬性解耦出來之后，就可以把很多人的語音混在一起，訓(xùn)練一個合成的模型，并且能夠分辨每個人的聲音之間的一些共性和特性是什么。

此后，你如果希望模擬某個人的聲音，只需要用這個人聲音的特性以及相關(guān)的數(shù)據(jù)去建模即可。我們將這些屬性進一步去建模、去控制時，如果面對一些新的發(fā)聲人，可能就不再需要那么多的語音。以前語音合成需要錄制一個人十個小時左右的語音，近幾年只需要幾分鐘；目前在大模型框架之下，只需要一句話就可以了。所以，有了語音屬性解耦技術(shù)，我們不僅能解決語音識別的問題，同樣還可以達到對特定人更好的語音合成效果。

心智觀察所：本次國獎的獲獎項目為訊飛研究多年的成果，而近些年面對大模型的突然崛起，業(yè)界有聲音質(zhì)疑獲獎項目是否被大模型的到來所顛覆。請問您會如何回應(yīng)這些質(zhì)疑，并請您簡單講述訊飛將如何將大模型與國獎項目相結(jié)合。

劉聰：最早的大模型技術(shù)關(guān)注的并非語音領(lǐng)域，包括OpenAI的ChatGPT在內(nèi)的大模型大部分是文本大模型，重點在于文本。

智能語音技術(shù)更多是聲學(xué)層面，但以語音識別為例，語音轉(zhuǎn)變成文字的過程中牽扯到了語言模型，即文本模型的一種。以ChatGPT等為代表的文本大模型，因為它的模型更大、語料更多、長文本的建模能力更強，本身能夠直接提升語音識別和語音翻譯等效果。

語音合成則是反方向的，從文本到語音。當(dāng)我們對文本做前端分析的時候會用到一些語言模型的技術(shù)，所以同樣也會文本大模型能力的提升帶來更好的效果。

其次，我們也可以進一步從文本大模型進行延伸。當(dāng)有了文本大模型之后，業(yè)界開始研發(fā)一些其他種類的大模型。我們比較熟知的是從文本大模型拓展到多模態(tài)大模型，例如文生視頻模型、文生圖模型、多模態(tài)視覺理解模型等。當(dāng)然，業(yè)界也有專門研究語音大模型的，套用文本大模型的框架來做語音大模型的框架。

雖然此次我們的國獎獲獎項目并沒有直接使用大模型，但是針對語音提出的一些算法創(chuàng)新，可以在大模型時代進一步與語音大模型進行結(jié)合。舉個例子，我們剛才提到的語音屬性解耦、語音信號時空分離等創(chuàng)新技術(shù)，本質(zhì)上是對原始的語音信號進行處理之后，獲得更高質(zhì)量的語音編碼向量。我們可以將更高質(zhì)量的語音編碼向量處理之后，再輸入到大語言模型里，這樣做會比直接把原始語音信號進行建模的效果更好，能夠完成前端的預(yù)處理及預(yù)訓(xùn)練。

原來在多語種領(lǐng)域里，國際上做得最好的一般是谷歌、微軟，他們有很多的多語種數(shù)據(jù)。但OpenAI在發(fā)布文本大模型ChatGPT之后，去年11月發(fā)布了Whisper v3的多語種語音大模型，效果非常驚人。訊飛則在去年12月開始，針對性結(jié)合此次國獎獲獎項目的一些技術(shù)訓(xùn)練星火語音大模型，并于今年1月30日發(fā)布訊飛星火語音大模型。一經(jīng)發(fā)布之后，在中文、英語、法語、俄語等首批37個主流語種的語音識別效果已超過了Whisper v3。

此外，我們之前也發(fā)布了超擬人語音合成，意味著我們與機器進行語音對話時，能聽到像真人一樣的合成聲音，并且有情緒感知能力，不論在語音合成的自然度和擬人度上都有更好的表現(xiàn)。

今年1月30日訊飛星火語音大模型正式發(fā)布

這個項目涉及的創(chuàng)新方法結(jié)合場景應(yīng)用，可以在通用大模型的基礎(chǔ)之上，進一步對語音問題有更好的建模和理解，同時也降低我們對多語種海量數(shù)據(jù)的需求。本項目的技術(shù)跟大模型之間可以形成互相借鑒、互相結(jié)合的關(guān)系。

心智觀察所：現(xiàn)在訓(xùn)練大模型因為各種原因，需要更多地使用國產(chǎn)芯片。那么使用國產(chǎn)芯片來開展智能語音算法模型訓(xùn)練和推理的時候，有哪些難點需要被克服？請問訊飛專門做了哪些優(yōu)化？

劉聰：國產(chǎn)化也是本項目的一大特點。我們一直強調(diào)國產(chǎn)自主可控，一方面是重視自己能夠掌握的算法創(chuàng)新，另一方面注重跟硬件相結(jié)合。2019年訊飛被美國列入“實體清單”時，我們就開始做儲備。目前，國產(chǎn)芯片本身在制造等方面被“卡脖子”，在性能上有一定的差距，而且芯片的軟件生態(tài)也有待發(fā)展。

對比圖像，在本項目里用國產(chǎn)芯片做語音模型訓(xùn)練相對而言難度更大。說同樣一個詞，我可以說得慢、也可以說得快；在語音模型里做芯片的適配時，不同的語音長度可能會導(dǎo)致對算子的適配度不一樣。即使芯片在硬件參數(shù)上水平相當(dāng)，但算子適配不好的情況下去直接訓(xùn)練模型，很可能剛開始只有百分之二三十的效率。這樣同樣訓(xùn)練一個模型，需要的時間更長，還有些算子會不支持，實際上是很重要的一個問題。

從現(xiàn)在領(lǐng)域里比較關(guān)注的端側(cè)適配的角度來看，一些國外的芯片在端側(cè)使用這些模型時，量化適配做的比較好，不論什么模型在量化后損失可控。而國產(chǎn)化的一些端側(cè)芯片量化之后，積累的誤差損失會比較大。

所以針對性能低、適配難以及語音變長等問題，項目提出了硬件親和的變長輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù)，通過軟硬件協(xié)同優(yōu)化的動態(tài)張量算子自動融合方法，實現(xiàn)對語音等變長輸入的訓(xùn)練性能優(yōu)化達到國際主流芯片同等水平；通過多硬件聯(lián)合的量化計算模擬，達到模型單次訓(xùn)練后可在不同硬件平臺上一鍵部署，解決了智能語音技術(shù)硬件平臺的“卡脖子”問題?，F(xiàn)在訊飛很多的硬件產(chǎn)品，例如錄音筆、掃描筆、辦公本、學(xué)習(xí)機等都使用了國產(chǎn)芯片，也基本在使用上面提到的算法，證明了有效性。

值得一提的是，由于我們被列入“實體清單”，導(dǎo)致這些工作的開展異常艱苦。但是如果沒有這些經(jīng)驗和積累，我們此后就無法與華為聯(lián)合攻關(guān)，在去年共同建設(shè)出全國首個國產(chǎn)萬卡算力集群“飛星一號”，并且此后基于“飛星一號”推出訊飛星火大模型V3.5、V4.0，這些星火新版本都是在全國產(chǎn)平臺上訓(xùn)練出來的。據(jù)我所知，如此大規(guī)模使用國產(chǎn)化平臺訓(xùn)練模型成功的只有訊飛。

去年10月24日，“飛星一號”正式發(fā)布

所以我想強調(diào)的是，此獲得國獎的項目不光是解決了歷史上智能語音技術(shù)相關(guān)模型的國產(chǎn)化問題，更是為大模型時代的國產(chǎn)化能力奠定堅實的基礎(chǔ)，讓大家看到在全國產(chǎn)算力平臺上訓(xùn)練對標(biāo)國際頂尖水平的大模型是完全可行的。

心智觀察所：您剛才談到了首個萬卡的全國產(chǎn)算力平臺“飛星一號”，我們想了解一下它目前的基本情況，請問此平臺目前表現(xiàn)怎么樣？

此外，因為您剛剛也談到為國產(chǎn)硬件芯片做專門的優(yōu)化非常辛苦。作為走過這條路的企業(yè)來說，你覺得國產(chǎn)芯片除了硬件的計算性能之外的軟件生態(tài)建設(shè)方面，您還有什么呼吁和建議嗎？

劉聰：從進展來說，去年底“飛星一號”整體訓(xùn)練性能相對于英偉達集群已提升到90%，并且之后還在不斷優(yōu)化提升，但是整體和國外先進水平對比還是有一定差距。由于模型與模型之間的適配邏輯不完全一樣，有些不同尺寸結(jié)構(gòu)的模型需要持續(xù)地適配，我們的重點在訓(xùn)練最主要的模型上，同時持續(xù)地訓(xùn)練和迭代多模態(tài)模型、語音模型等。我們也將繼續(xù)與華為合作，深入完成全國產(chǎn)算力平臺相關(guān)的工作。

我認為生態(tài)是共建的，而不是靠某一家企業(yè)的算力和人工智能。如果我們想要做到英偉達一般的生態(tài)和框架，能足以應(yīng)對任意一個模型，就要對各種各樣的結(jié)構(gòu)、尺寸、模型創(chuàng)新有充足的支撐，以及在硬件的底層能力上持續(xù)進行演進，變得更加友好。

對此，我有另外一個呼吁：開放算子庫。開放的方式有很多，例如從底層的算子庫到上層的框架，以及配合一些社區(qū)的內(nèi)容。目前，訊飛和華為共建的算子庫大部分都已經(jīng)共享到庫中，未來如果有更多能夠比較開放地使用算子庫的企業(yè)，他們自己的很多創(chuàng)新算法就可以用這些算子去驗證，并且會不斷地去發(fā)現(xiàn)問題、閉環(huán)問題，這對于我們行業(yè)很關(guān)鍵，核心還是大家要去用。

心智觀察所：據(jù)了解，如奇瑞、一汽等車企也做過一些比較，認為訊飛的多語種智能語音技術(shù)效果全面領(lǐng)先于競品賽輪思。華為隨后也做過一個測評，稱訊飛領(lǐng)先于谷歌。請問在這些評比中具體比較的是一些什么樣的項目？

劉聰：一般評測指標(biāo)有兩種，第一種為技術(shù)指標(biāo)。技術(shù)指標(biāo)一般需要我們要通過國際上權(quán)威的評測來做，可以理解成純算法本身的比拼。例如我們在2021年國際低資源多語種語音識別挑戰(zhàn)賽OpenASR，獲得了15個語種22項第一。故此，這種指標(biāo)是一個較為學(xué)術(shù)性的指標(biāo)。

你剛剛提到的這些測試主要是站在產(chǎn)品的層面來做評估，考驗端到端效果。舉個例子，在奇瑞、一汽等車企的評測里，它評估的不只是一個單點的語音識別指標(biāo)，而是考慮整個汽車語音交互的流暢度、任務(wù)的信息傳達準確性、功能多樣性、喚醒成功率等各種各樣的維度。

首頁上一頁 1 2 3 下一頁余下全文
|

舉報
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報制度規(guī)范
確定取消
標(biāo)簽心智觀察所科大訊飛語音助手國家能力
- 責(zé)任編輯: 武守哲
- 歐盟港停滿中國車？“產(chǎn)能過?！辈槐冲?/a>
  
  2024-07-26 14:51 心智觀察所視頻
- 統(tǒng)一生態(tài)：鴻蒙如何踩著諾基亞和三星的“尸體”前進
  
  2024-07-26 14:22 心智觀察所視頻
- 專稿|“藍屏網(wǎng)災(zāi)”暴露三大悖論，“純血鴻蒙”另辟蹊徑
  
  2024-07-25 15:01 心智觀察所
- 打破認知局限！我國科學(xué)家研發(fā)出這一新型材料
  
  2024-07-25 09:39 科技前沿
- 歐盟的反補貼調(diào)查，到底圖中國啥？
  
  2024-07-24 13:56 心智觀察所視頻
- 鴻蒙系統(tǒng)與安卓“割席”，未來勝算幾何？
  
  2024-07-24 13:41 心智觀察所視頻
- “慢就是快”的啟示：中國無人駕駛憑什么后來居上？
  
  2024-07-24 09:49 心智觀察所
- “7月24日至25日地球可能出現(xiàn)地磁暴過程”
  
  2024-07-23 21:54 天文
- 我國科學(xué)家在月壤中首次發(fā)現(xiàn)分子水
  
  2024-07-23 18:19 嫦娥奔月
- 新一代載人火箭三級液氫液氧發(fā)動機長程高模試驗成功
  
  2024-07-23 10:17 航空航天
- 國內(nèi)最大、世界第二！可用于航空航天等領(lǐng)域大型核心零部件的加工處理
  
  2024-07-20 22:18 中國精造
- 科技部通報國家重點研發(fā)計劃有關(guān)項目4個抄襲問題和1個評審請托問題
  
  2024-07-20 14:52 學(xué)術(shù)造假
- 意義重大！中國電力體系的壯闊藍圖，正在逐步清晰
  
  2024-07-19 13:44 電力改革
- “中國沒有，國際也沒有，但不意味中國科學(xué)家不能做出來”
  
  2024-07-19 08:11 科技前沿
- 我國團隊研發(fā)出太陽能動力微型無人機
  
  2024-07-19 07:22 科技前沿
- 重大突破！我國科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體
  
  2024-07-18 20:45 科技前沿
- 我國科學(xué)家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學(xué)證據(jù)
  
  2024-07-18 15:11 科技前沿
- Open RAN之死：華為中興不戰(zhàn)而勝
  
  2024-07-18 10:27 華為
- 手機直連衛(wèi)星，中國星鏈何時能登場？
  
  2024-07-18 08:33
- “設(shè)計速度400公里每小時，試驗臺速度達600公里每小時”
  
  2024-07-18 07:13 中國精造
搜索

   觀察者頭條查看全部

“中國越抓緊，西方越焦慮” 評論 67

比美國更快？“這將成為中國的‘斯普特尼克時刻’” 評論 255

三季報全公布，10省份增速超上半年評論 99

“無論誰贏，歐洲已輸” 評論 141

市場瘋狂下注特朗普，真金白銀比民調(diào)更準確？評論 119

   風(fēng)聞 · 24小時最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

劉聰：代表人工智能第三次浪潮的快速發(fā)展，這是中國人的原創(chuàng)

歐盟港停滿中國車？“產(chǎn)能過?！辈槐冲?/a>

統(tǒng)一生態(tài)：鴻蒙如何踩著諾基亞和三星的“尸體”前進

專稿|“藍屏網(wǎng)災(zāi)”暴露三大悖論，“純血鴻蒙”另辟蹊徑

打破認知局限！我國科學(xué)家研發(fā)出這一新型材料

歐盟的反補貼調(diào)查，到底圖中國啥？

鴻蒙系統(tǒng)與安卓“割席”，未來勝算幾何？

“慢就是快”的啟示：中國無人駕駛憑什么后來居上？

“7月24日至25日地球可能出現(xiàn)地磁暴過程”

我國科學(xué)家在月壤中首次發(fā)現(xiàn)分子水

新一代載人火箭三級液氫液氧發(fā)動機長程高模試驗成功

國內(nèi)最大、世界第二！可用于航空航天等領(lǐng)域大型核心零部件的加工處理

科技部通報國家重點研發(fā)計劃有關(guān)項目4個抄襲問題和1個評審請托問題

意義重大！中國電力體系的壯闊藍圖，正在逐步清晰

“中國沒有，國際也沒有，但不意味中國科學(xué)家不能做出來”

我國團隊研發(fā)出太陽能動力微型無人機

重大突破！我國科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體

我國科學(xué)家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學(xué)證據(jù)

Open RAN之死：華為中興不戰(zhàn)而勝

手機直連衛(wèi)星，中國星鏈何時能登場？

“設(shè)計速度400公里每小時，試驗臺速度達600公里每小時”

比美國更快？“這將成為中國的‘斯普特尼克時刻’”

哈里斯：特朗普一句話冒犯了女性，冒犯了所有人

詹姆斯：支持哈里斯

秘密赴美訓(xùn)練卻被美軍曝光，臺當(dāng)局“頗感頭痛”

“中國越抓緊，西方越焦慮”

“中國工業(yè)制造規(guī)模是美國三倍！不拉上盟友，怎么競爭？”

面對恐怖主義，美媒卻如此挑撥中國和“巴鐵”

德國外長訪華遭冷落？真相是…

美媒發(fā)現(xiàn)中國雙航母“亮點”：殲15B和殲15D已服役

以色列拿到情報：伊朗要動手了，或在美國大選前

三季報全公布，10省份增速超上半年

“中國不再是從前那個學(xué)徒，完全能和西方正面交鋒”

美軍高官又“擔(dān)憂”上了：別老盯著俄羅斯，中國這速度才嚇人

被中方制裁后，這家美無人機廠商向美政府“喊疼”

“德國依賴中俄，就像被下藥了”

“‘歐盟CIA’即將成立”