-
劉聰:代表人工智能第三次浪潮的快速發(fā)展,這是中國人的原創(chuàng)
最后更新: 2024-07-26 16:16:00不久前,科大訊飛作為第一完成單位的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目,榮獲2023年度國家科學(xué)技術(shù)進(jìn)步獎一等獎,這是過去十年人工智能領(lǐng)域首個國家科學(xué)技術(shù)進(jìn)步獎一等獎,對引領(lǐng)我國的語音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)出海和升級等都有重要意義。
觀察者網(wǎng)·心智觀察所日前與科大訊飛研究院院長劉聰進(jìn)行了一次交流,討論了科大訊飛最新的語音技術(shù)進(jìn)展、現(xiàn)有語音技術(shù)與大模型的結(jié)合、國產(chǎn)芯片及生態(tài)建設(shè)等問題。在對話中,劉聰提到了訊飛現(xiàn)有多語種智能語音技術(shù)的領(lǐng)先優(yōu)勢,目前已經(jīng)應(yīng)用在多個產(chǎn)品中,支撐中國智造出海。訊飛采用國產(chǎn)芯片做語音模型訓(xùn)練,難度很大,工作開展異常艱苦,劉聰呼吁各個企業(yè)聯(lián)合建設(shè)更完善的軟件生態(tài)。
項目主要完成人代表在領(lǐng)獎后合影
對話全文如下:
心智觀察所:科大訊飛這次作為第一個完成多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化的單位,獲得了國家科學(xué)技術(shù)進(jìn)步獎一等獎。據(jù)聞,這是過去十年人工智能領(lǐng)域首個一等獎。請您總體上介紹一下此項目的基本情況,它的背景和意義。
劉聰:我們這次得獎項目的核心是智能語音技術(shù),也是訊飛的初心。在這個項目歷經(jīng)的十年間,深度學(xué)習(xí)領(lǐng)域發(fā)展迅速,也代表著人工智能第三次浪潮的快速發(fā)展。在這一背景下,此次也是過去十年人工智能領(lǐng)域首個國家科學(xué)技術(shù)進(jìn)步獎一等獎。
智能語音領(lǐng)域?qū)ξ覀円恢焙苤匾?。過去十年里,我們一直強調(diào)語音作為人類最自然、最便捷的交流方式,是萬物互聯(lián)、人機交互的關(guān)鍵入口。
在人工智能領(lǐng)域里,多語種智能語音廣受關(guān)注。訊飛雖然是從中文語音技術(shù)起家,但我們在過去十年里逐步拓展到更多語種以及方言領(lǐng)域當(dāng)中,這是一個非常重要的跨越。
國家科學(xué)技術(shù)進(jìn)步獎主要考量兩大方面,一是提報項目需要有核心技術(shù)創(chuàng)新,代表中國從技術(shù)原創(chuàng)角度在世界上取得領(lǐng)先。另一方面,與其他獎項不同,國家科學(xué)技術(shù)進(jìn)步獎特別強調(diào)提報項目的技術(shù)創(chuàng)新能否帶來大規(guī)模的產(chǎn)業(yè)化落地。
從技術(shù)創(chuàng)新上來看,語音領(lǐng)域涉及合成、識別等技術(shù),本項目主要針對智能語音關(guān)鍵技術(shù)產(chǎn)業(yè)化中攻克了多項技術(shù)難題,例如面向很多復(fù)雜場景時,會出現(xiàn)語音識別聽不準(zhǔn)、語音合成不自然、口語理解歧義等問題,以及當(dāng)我們從中英文向多語種拓展、走向全球化的時候,出現(xiàn)數(shù)據(jù)資源稀缺的問題。在持續(xù)攻關(guān)中,我們提出了四個方面的關(guān)鍵技術(shù)創(chuàng)新:復(fù)雜語音信號解耦建模關(guān)鍵技術(shù)突破、多語種共享建模關(guān)鍵技術(shù)突破、語音語義聯(lián)合建模關(guān)鍵技術(shù)突破、語音語義聯(lián)合建模關(guān)鍵技術(shù)突破、國產(chǎn)異構(gòu)硬件平臺訓(xùn)練及推理加速關(guān)鍵技術(shù)突破。通過這些技術(shù)創(chuàng)新,我們解決了剛剛所說的技術(shù)難題,實現(xiàn)了在多個行業(yè)領(lǐng)域和智能設(shè)備上的應(yīng)用落地。
總結(jié)來說,本項目的意義,第一在于開創(chuàng)引領(lǐng)了我國的語音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)出海和升級。
第二,通過支持多語言互通,助力民族團(tuán)結(jié),促進(jìn)全球語音語言互通,協(xié)助“一帶一路”建設(shè)。在這個過程中,我們很好支撐了北京冬奧會和冬殘奧會、進(jìn)博會、博鰲論壇等國家重大活動。
第三,我們一直強調(diào)自主可控,本項目整個構(gòu)建了自主可控的多語種智能語音技術(shù),以及全球的產(chǎn)業(yè)生態(tài)。
第四,我們認(rèn)為技術(shù)也要有溫度,所以本項目里面的相關(guān)技術(shù)也持續(xù)助力公益,關(guān)注關(guān)愛我們的弱勢群體和特殊人群。
心智觀察所:我稍微補充問一下,請問此項目的發(fā)起時間大概是什么時候?訊飛雖然是第一完成單位,但獲獎團(tuán)隊不止是訊飛這一家。請問獲獎團(tuán)隊的構(gòu)成如何?
劉聰:這個項目開始時間大概是在2012年左右,至今差不多是一個十年左右的周期。
除了訊飛作為第一單位牽頭,過去十年里在該項目上與我們有緊密合作的還有一些科研機構(gòu),如中國科學(xué)技術(shù)大學(xué)、清華大學(xué),訊飛與這兩所高校都有聯(lián)合共建的實驗室;還有產(chǎn)業(yè)鏈上的相關(guān)單位,如華為終端有限公司、中移(杭州)信息技術(shù)有限公司、訊飛醫(yī)療、訊飛智元等。
心智觀察所:語音識別研究當(dāng)中有一個非常有挑戰(zhàn)的問題名叫雞尾酒會效應(yīng),請問訊飛是怎么突破這個難題的?然后,能否用一些比較通俗的比喻來向公眾解釋一下其中的原理。
劉聰:雞尾酒會是語音領(lǐng)域一個非常具有挑戰(zhàn)性的難題,討論的是在復(fù)雜環(huán)境下分辨聲音種類的問題。人的聽覺系統(tǒng)非常強大,例如你如果參加一個雞尾酒會的話,周圍非常吵鬧,酒會里有非常多的噪聲、談話聲、音樂聲以及酒杯碰撞的聲音。此時,如果你想聽清楚誰在和你說話,你會將你的聽力系統(tǒng)集中過去,在周圍很吵的環(huán)境下專注于某一個特別定向的人發(fā)出的聲音,這是人類所具備的一個能力。
在我們做語音識別、語音合成技術(shù)時,若要衡量語音識別系統(tǒng)的優(yōu)劣,就要跟人的水平去做對比。在雞尾酒會難題里,由于噪聲很多,所以對機器來說進(jìn)行精準(zhǔn)的語音識別是非常難的。我從學(xué)生時代起就在研究通過單點技術(shù)來降噪,此后也嘗試過通過多麥克風(fēng)陣列來提升整個前端的效果。雖然做了很多的工作,但是都只是在循序漸進(jìn),很難徹底解決這樣的問題。
此次獲得國獎的項目中第一個創(chuàng)新點——復(fù)雜語音信號解耦建模關(guān)鍵技術(shù)突破,其中有兩項技術(shù)能夠比較好地解決雞尾酒會問題。
我們在降噪里面的一個關(guān)鍵問題是要把語音里面的人聲和非人聲解構(gòu)出來,這就叫解耦。對語音來說非常困難,因為語音是一個一維信號。在這個一維信號當(dāng)中包含了很多的信息,如人聲、噪聲等。甚至如果再進(jìn)一步細(xì)化,可能還有人聲里面的說話人聲音,及其音色、內(nèi)容、性別等信息。
為了解決這個問題,我們首先基于深度學(xué)習(xí)的框架,針對性地對語音里每一個人的每一種屬性做了針對性的建模。建模之后,我們就可以將剛才所說的噪聲、人聲的各類屬性比較清楚地顯示出來。通俗來講,我們可以更加精細(xì)地把控語音里面原來混雜在一起的、各種各樣的屬性。此后,我們就可以更好地對噪聲做分離處理,也可以知道語音里的聲音是跟說話人還是跟噪聲的聲音更接近。
同時,如果我們用聲學(xué)前端多麥克風(fēng)陣列的多通道信號來采集語音的話,還可以對這個信號的時間、空間等屬性進(jìn)行分離。
-
本文僅代表作者個人觀點。
- 責(zé)任編輯: 武守哲 
-
歐盟港停滿中國車?“產(chǎn)能過剩”不背鍋
2024-07-26 14:51 心智觀察所視頻 -
統(tǒng)一生態(tài):鴻蒙如何踩著諾基亞和三星的“尸體”前進(jìn)
2024-07-26 14:22 心智觀察所視頻 -
專稿|“藍(lán)屏網(wǎng)災(zāi)”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀察所 -
打破認(rèn)知局限!我國科學(xué)家研發(fā)出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補貼調(diào)查,到底圖中國啥?
2024-07-24 13:56 心智觀察所視頻 -
鴻蒙系統(tǒng)與安卓“割席”,未來勝算幾何?
2024-07-24 13:41 心智觀察所視頻 -
“慢就是快”的啟示:中國無人駕駛憑什么后來居上?
2024-07-24 09:49 心智觀察所 -
“7月24日至25日地球可能出現(xiàn)地磁暴過程”
2024-07-23 21:54 天文 -
我國科學(xué)家在月壤中首次發(fā)現(xiàn)分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級液氫液氧發(fā)動機長程高模試驗成功
2024-07-23 10:17 航空航天 -
國內(nèi)最大、世界第二!可用于航空航天等領(lǐng)域大型核心零部件的加工處理
2024-07-20 22:18 中國精造 -
科技部通報國家重點研發(fā)計劃有關(guān)項目4個抄襲問題和1個評審請托問題
2024-07-20 14:52 學(xué)術(shù)造假 -
意義重大!中國電力體系的壯闊藍(lán)圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國沒有,國際也沒有,但不意味中國科學(xué)家不能做出來”
2024-07-19 08:11 科技前沿 -
我國團(tuán)隊研發(fā)出太陽能動力微型無人機
2024-07-19 07:22 科技前沿 -
重大突破!我國科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體
2024-07-18 20:45 科技前沿 -
我國科學(xué)家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學(xué)證據(jù)
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰(zhàn)而勝
2024-07-18 10:27 華為 -
手機直連衛(wèi)星,中國星鏈何時能登場?
2024-07-18 08:33 -
“設(shè)計速度400公里每小時,試驗臺速度達(dá)600公里每小時”
2024-07-18 07:13 中國精造
相關(guān)推薦 -
“美國在糧食安全上的砝碼少了,中國安心了” 評論 39“中國越抓緊,西方越焦慮” 評論 82比美國更快?“這將成為中國的‘斯普特尼克時刻’” 評論 265三季報全公布,10省份增速超上半年 評論 102“無論誰贏,歐洲已輸” 評論 144最新聞 Hot
-
白宮修改拜登“垃圾”言論的官方記錄,共和黨人:涉嫌違法
-
“美國在糧食安全上的砝碼少了,中國安心了”
-
他無視北約:我們愛見誰就見誰
-
比美國更快?“這將成為中國的‘斯普特尼克時刻’”
-
哈里斯:特朗普一句話冒犯了女性,冒犯了所有人
-
詹姆斯:支持哈里斯
-
秘密赴美訓(xùn)練卻被美軍曝光,臺當(dāng)局“頗感頭痛”
-
“中國越抓緊,西方越焦慮”
-
“中國工業(yè)制造規(guī)模是美國三倍!不拉上盟友,怎么競爭?”
-
面對恐怖主義,美媒卻如此挑撥中國和“巴鐵”
-
德國外長訪華遭冷落?真相是…
-
美媒發(fā)現(xiàn)中國雙航母“亮點”:殲15B和殲15D已服役
-
以色列拿到情報:伊朗要動手了,或在美國大選前
-
三季報全公布,10省份增速超上半年
-
“中國不再是從前那個學(xué)徒,完全能和西方正面交鋒”
-
美軍高官又“擔(dān)憂”上了:別老盯著俄羅斯,中國這速度才嚇人
-