人妖和人妖互交性XXXX视频 ,中文字幕无码亚洲字幕成a人,99精品国产一区二区青青

APP下載

掃一掃

下載觀察者APP

大橘財經(jīng)：科大訊飛的AI科技樹——從直播場景識別到智能醫(yī)療
- 劉聰科大訊飛AI研究院常務(wù)副院長
- 大橘一群講大局的財經(jīng)觀察者
分享到：

2020-10-26 08:10:55 字號：A- A A+ 來源：觀察者網(wǎng)

最后更新: 2020-10-26 10:54:39

導(dǎo)讀

我們在2017年11月份，醫(yī)考機器人以456的高分通過了國家職業(yè)醫(yī)師資格考試。在接下來的時間里面，我們基于領(lǐng)先的核心技術(shù)，深入到醫(yī)療輔診的各個核心的剛需場景，去解決實際問題，核心指標(biāo)有了大幅度的進(jìn)步。

觀察者網(wǎng)·大橘財經(jīng)訊（文/一鳴編輯/周遠(yuǎn)方）10月23日下午，在科大訊飛“全球1024開發(fā)者節(jié)”上，科大訊飛AI研究院常務(wù)副院長劉聰發(fā)表了關(guān)于“構(gòu)筑AI科技樹，煥新美好新生活”的主題演講。劉聰表示，語音識別是科大訊飛的傳統(tǒng)強項，目前其已將直播場景下復(fù)雜任務(wù)的識別效果從60%提到了85%。

科大訊飛AI研究院常務(wù)副院長劉聰

劉聰介紹，近年來，科大訊飛陸續(xù)推出了方言識別、遠(yuǎn)場交互、多麥克風(fēng)陣列等相關(guān)的功能，將語音聽寫從簡單場景的可用做到了通用；語音轉(zhuǎn)寫從原來的不好不可用，做到了演講、會議、庭審等復(fù)雜場景的好用；語音控制、命令喚醒，也從簡單場景的可用，做到了復(fù)雜場景的好用。

下一步，科大訊飛將持續(xù)深耕語音識別，去挑戰(zhàn)更加復(fù)雜的場景，去實現(xiàn)從語音到聲音，從單純的文字內(nèi)容的識別，到音頻的全場景解析。例如直播場景這樣有游戲、音樂以及笑聲、掌聲等各種音效嘈雜的背景下，如何有針對性地提取想要的聲音。

“面對這種復(fù)雜的環(huán)境，科大訊飛已經(jīng)有一套全場景音頻解析的整體方案。目前，我們在直播場景下一個很復(fù)雜任務(wù)上的識別效果，已經(jīng)從60%提到了85%，”他表示未來相關(guān)技術(shù)會在訊飛開放平臺和訊飛聽見上線。

以下是劉聰演講節(jié)選：

我們知道語音識別是訊飛的傳統(tǒng)強項，從早期的呼叫導(dǎo)航到2010年我們發(fā)布了訊飛超腦語音云和輸入法，開啟了中文語音輸入的時代；通過深度學(xué)習(xí)框架持續(xù)的迭代效果，接下來我們又陸續(xù)推出了方言識別、原廠交互、多麥克風(fēng)陣列等相關(guān)的能力；2015年我們又將人機交互的場景拓展到人人對話的場景。

整體來說，我們總結(jié)出三點，我們將語音聽寫從簡單場景的可用，做到了通用；語音轉(zhuǎn)寫從原來的不好不可用，做到了演講、會議、庭審等復(fù)雜場景的好用；語音控制、命令喚醒，也從簡單場景的可用，做到了復(fù)雜場景的好用。

那隨著現(xiàn)在語音識別在更多場景的應(yīng)用。我們要想一下，語音識別下一步發(fā)展的方向是什么？又有哪些技術(shù)可以從實驗室場景走向成熟，還有哪些價值值得我們發(fā)掘？

首先我們認(rèn)為語音識別需要持續(xù)的去挑戰(zhàn)更加復(fù)雜的場景，去實現(xiàn)從語音到聲音，從單純的文字內(nèi)容的識別，到音頻的全場景解析。例如現(xiàn)在我們在泛娛樂當(dāng)中，我們可以看到直播短視頻有很多更加復(fù)雜的聲音現(xiàn)象，需要我們?nèi)ソ鉀Q。例如在直播的過程當(dāng)中，背景可能是復(fù)雜多樣的，可能有視頻聲、游戲聲或者音樂聲。此外直播連麥的時候還會經(jīng)常出現(xiàn)多人混疊的對話，這些對我們的語音識別都會有很大的影響。除此之外，這些視頻當(dāng)中還會包含像笑聲、掌聲、各種音效這樣一些其他的聲音現(xiàn)象。

針對這樣一個場景，我們一方面需要降低各種背景的噪聲對識別精度的影響。另外一方面，要有針對性的將我們感興趣的聲音提取出來。這里我們展示了全場景音頻解析的整體方案。首先我們通過多分辨率特征提取的聲音檢測方案，再結(jié)合我們的序列訓(xùn)練，對一些相似聲音進(jìn)行精細(xì)建模，可以實現(xiàn)將笑聲、音效等非語音的聲音和語音內(nèi)容分離。

針對包含語音的有效內(nèi)容，我們也使用了語音降噪和分離的方案，綜合利用我們的聲音、文本、說話等信息，以及在有條件的情況下，還可以使用多模態(tài)的唇形、視線以及麥克風(fēng)陣列的空間位置等信息來進(jìn)行聯(lián)合建模。

這些例子都是我們的真實算法、針對真實數(shù)據(jù)的一個結(jié)果。我們的算法針對這樣的復(fù)雜音頻，有了一個很好的處理效果，可以有針對性的提取出更多層次。目前，我們在直播場景下一個復(fù)雜任務(wù)上的識別效果，已經(jīng)從60%提到了85%，未來我們相關(guān)的技術(shù)也會在我們的開放平臺、訊飛聽見等上線。

語音合成

接下來我們來看一下語音合成。我們知道語音合成一般是以自然通報分來作為評價指標(biāo)的，其中5分是滿分播音員的水平，4分是普通發(fā)音人的水平。過去我們是在中英文上，包括冰波形拼接、包括參數(shù)合成的方法上達(dá)到了普通發(fā)音人水平。

近年來，伴隨著深度學(xué)習(xí)的加持，我們提出了基于聽感量化的多人混合訓(xùn)練等合成框架，并進(jìn)一步在向配音合成，然后對話合成等更有表現(xiàn)力的場景，做到了接近4.5分的水平。

合成技術(shù)也在持續(xù)進(jìn)步，合成的一些領(lǐng)域，風(fēng)格也是從單一向多元化發(fā)展。那么問題又來了，當(dāng)我們的合成自然度已經(jīng)越來越接近真人水平的時候，合成還能有哪些令人驚喜的提升呢？合成下一步發(fā)展方向又是什么？

我們要先想一下，為什么像短視頻有聲書這樣的內(nèi)容非常吸引人，因為它不僅僅是單純的從文本找語音的生成，而是基于我們的文本、聲音、畫面等基本的素材，實現(xiàn)了全方位的包裝。例如，我們的語音當(dāng)中會包含角色演繹、情感切換的內(nèi)容在配合上背景的音樂，各種音效，從而形成了這樣一個非常生動活潑的內(nèi)容。

像我們的語音合成的發(fā)展方向，同樣不能只以單純的追求自然度MOS分為目標(biāo)，而是要追求用戶可以感知的，同時技術(shù)可以實現(xiàn)的更高表現(xiàn)力的呈現(xiàn)。這里我們也可以通過從文本內(nèi)容當(dāng)中挖掘到角色、情感等更深層的信息。通過剛才說的音樂音效等聽感的提升，以及我們多模態(tài)這樣更具表現(xiàn)力的呈現(xiàn)來實現(xiàn)。

對應(yīng)于語音識別的全場景音頻解析，我們認(rèn)為語音合成也需要實現(xiàn)從語音到聲音的全場景音頻合成。去年1024發(fā)布會上，我們在車載場景下使用我們的環(huán)繞音效，提升了用戶聽感的效果。今年我們又進(jìn)一步進(jìn)行了拓展，一方面，我們可以基于自然語言理解技術(shù)，從文本當(dāng)中分析到合適的情感焦點以及我們角色相關(guān)的信息，并通過語音呈現(xiàn)出來，進(jìn)一步結(jié)合我們針對一些特殊情況打造的背景音樂，從而呈現(xiàn)出一場全局的音頻、全場的一個合成。這里我們也是以一個交互場景為例子，來看一下我們這樣一個聽感提升的效果，請放視頻。

我們可以看到在這個例子當(dāng)中，一方面它通過對內(nèi)容的理解，實現(xiàn)一人分飾多角和情感的變化。另外一方面它能通過對場景的理解，當(dāng)知道用戶累的時候，可以主動的去推送這樣一些舒緩的音樂和音效。這一解決方案除了在交互場景，在小說合成、配音合成等場景也大有可為。

另外我們知道情感的表達(dá)、合成和預(yù)測也是我們語音合成當(dāng)中的一個重要的方向，也是業(yè)界的研究熱點。但是現(xiàn)在我們看到業(yè)界的情感語音合成一般是輸入一句文本，并指定一種情感，然后輸出一段飽含情感的語音。

但我們想一下，在人與人溝通過程當(dāng)中，其實情感的表達(dá)并不是這么全局化、單一化的，而是有一些細(xì)微的變化情況。我們的機器合成常被人們詬病，說這個聲音沒有人情味的一個表現(xiàn)。

針對這樣一個問題，我們也是從單一的情感合成升級到面向交互場景的這樣一個微情緒合成的方案。該方案也是基于我們剛才說的，通過聽感量化的編碼，來對我們多種情感進(jìn)行組合式編碼，以實現(xiàn)我們對局部一些情感的準(zhǔn)確的預(yù)測和控制。在有了這樣一個方案之后，我們再結(jié)合情緒識別等其他的方案，就可以在交互當(dāng)中體現(xiàn)出一些細(xì)微的情感變化，讓我們的用戶用不同的語氣說話的時候，可以得到一些不同的反饋，讓我們整個的交互過程變得更加有趣，更加有人情味。

虛擬形象

接下來我們來看一下多模態(tài)合成，也就是虛擬形象。我們在去年發(fā)布了全球首個多語種虛擬主播小晴，大家也非常熟悉了。今年我們也是陸續(xù)發(fā)布了更多的虛擬主播，并在多家媒體使用。

今年我們?yōu)樾∏邕M(jìn)一步研發(fā)了表情生成、動作生成等技術(shù)，同時結(jié)合我們生活化場景的設(shè)計進(jìn)一步的優(yōu)化，讓我們的小晴具備了交互的能力。當(dāng)我們虛擬形象具備更好的交互能力之后，再結(jié)合我們在一些場景的靜態(tài)和動態(tài)內(nèi)容的嵌入，我們就有可能形成一些更加有意思的現(xiàn)象。

例如我們在學(xué)習(xí)機里面，基于我們的虛擬形象技術(shù)、結(jié)合我們的語音評測等技術(shù)，我們設(shè)計了一個可以實時互動的英文主播的教學(xué)，讓整個英文的教學(xué)變得特別有趣。我們也來看一下演示的視頻。這里面所有的內(nèi)容都是合成出來的。未來我們也非常歡迎各位合作伙伴可以想一下在我們各自場景有沒有什么樣的需求，可以用我們的這樣一些虛擬形象的技術(shù)，讓大家在一些場景當(dāng)中交互變得更加有意思。

1 2 下一頁余下全文
標(biāo)簽科大訊飛
- 責(zé)任編輯: 一鳴
- 茅臺三季報：營收、凈利增速均放緩
  
  2020-10-25 17:21 大公司
- 蘋果5G初代 or 華為麒麟絕唱？
  
  2020-10-23 14:48 商業(yè)
- 科大訊飛劉慶峰：AI是“源頭技術(shù)”，是買不來的
  
  2020-10-23 14:18 商業(yè)
- 華為前三季營收6713億元，同比增長9.9%
  
  2020-10-23 11:28 大公司
- 天貓精靈“走出”音箱，將接入更多智能硬件
  
  2020-10-22 18:03 商業(yè)
- 國貨營銷新出路：不會外語也能向全球直播！
  
  2020-10-21 16:22
- 戴森：老板成英國首富，不是中國顧客捧起來的
  
  2020-10-21 15:55 大公司
- 滴滴加磅社區(qū)團購網(wǎng)約車CTO調(diào)任橙心優(yōu)選
  
  2020-10-21 14:11 商業(yè)
- 天貓雙十一增至4天，蔣凡：商家對“雙11”有更強期待和預(yù)期
  
  2020-10-20 22:36
- 滴滴回應(yīng)明年港股上市：沒有任何明確計劃或時間表
  
  2020-10-20 17:13 商業(yè)
- 西瓜視頻加碼“中視頻”：未來一年補貼20億元，與抖音深度聯(lián)動
  
  2020-10-20 11:00
- 殺入紅海：OPPO電視S1發(fā)布，售價7999元
  
  2020-10-20 10:27 商業(yè)
- 京東：雙十一將備貨超2億件5折商品，投入30座亞洲一號倉
  
  2020-10-19 21:29
- B站與BBC達(dá)成戰(zhàn)略合作，將聯(lián)合出品《綠色星球》等紀(jì)錄片
  
  2020-10-19 14:35 商業(yè)
- 小米、OPPO囤積日本零部件并大幅增產(chǎn)
  
  2020-10-17 15:18 商業(yè)
- 美國媒體忍不住說了實話：制裁螞蟻？僅有象征意義
  
  2020-10-16 16:42 大公司
- 講日本故事的真國產(chǎn)“MINISO”，赴美上市了
  
  2020-10-16 15:29 商業(yè)
- 螞蟻上市再進(jìn)一步，港股IPO新增簿記管理人
  
  2020-10-16 14:13 大公司
- 華為發(fā)布PowerX 2025能源目標(biāo)網(wǎng) 助力運營商數(shù)字化轉(zhuǎn)型
  
  2020-10-16 12:18 產(chǎn)業(yè)萬象
- 5G的最大敵人是電費？華為為此投入3000人研發(fā)團隊
  
  2020-10-15 23:39 華為
搜索

   觀察者頭條查看全部

“華裔科學(xué)家五年前在美墜亡，與美方調(diào)查有關(guān)？” 評論 140

義烏有信心挺過去，心疼美國一秒：他們上哪兒找襪子？評論 184

恐遭監(jiān)視，歐盟為赴美出差高官發(fā)放一次性手機評論 213

“人人都想制造業(yè)回流美國，但沒多少人想自己下工廠” 評論 174

“如果處理不當(dāng)，還有比美國衰退更可怕的事情” 評論 161

   風(fēng)聞 · 24小時最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

大橘財經(jīng)：科大訊飛的AI科技樹——從直播場景識別到智能醫(yī)療

茅臺三季報：營收、凈利增速均放緩

蘋果5G初代 or 華為麒麟絕唱？

科大訊飛劉慶峰：AI是“源頭技術(shù)”，是買不來的

華為前三季營收6713億元，同比增長9.9%

天貓精靈“走出”音箱，將接入更多智能硬件

國貨營銷新出路：不會外語也能向全球直播！

戴森：老板成英國首富，不是中國顧客捧起來的

滴滴加磅社區(qū)團購網(wǎng)約車CTO調(diào)任橙心優(yōu)選

天貓雙十一增至4天，蔣凡：商家對“雙11”有更強期待和預(yù)期

滴滴回應(yīng)明年港股上市：沒有任何明確計劃或時間表

西瓜視頻加碼“中視頻”：未來一年補貼20億元，與抖音深度聯(lián)動

殺入紅海：OPPO電視S1發(fā)布，售價7999元

京東：雙十一將備貨超2億件5折商品，投入30座亞洲一號倉

B站與BBC達(dá)成戰(zhàn)略合作，將聯(lián)合出品《綠色星球》等紀(jì)錄片

小米、OPPO囤積日本零部件并大幅增產(chǎn)

美國媒體忍不住說了實話：制裁螞蟻？僅有象征意義

講日本故事的真國產(chǎn)“MINISO”，赴美上市了

螞蟻上市再進(jìn)一步，港股IPO新增簿記管理人

華為發(fā)布PowerX 2025能源目標(biāo)網(wǎng) 助力運營商數(shù)字化轉(zhuǎn)型

5G的最大敵人是電費？華為為此投入3000人研發(fā)團隊

“華裔科學(xué)家五年前在美墜亡，與美方調(diào)查有關(guān)？”

“特朗普，白日做夢”

英國人也火大：中國對特朗普的評價，很難不贊同

義烏有信心挺過去，心疼美國一秒：他們上哪兒找襪子？

美財長污蔑中國“奪走”拉美礦權(quán)，中方駁斥

果然，又威脅歐洲：中國還是美國？

搖擺州共和黨人急死：中國都說奉陪到底了…

“美對華牛肉出口停滯，澳大利亞火速補位”

“美國客戶急電：SOS！90天內(nèi)，能發(fā)多少發(fā)多少”

AI生成“吉卜力風(fēng)格”圖片席卷網(wǎng)絡(luò)，爭議來了

“彪馬叔”挨批：吃頓飯的功夫，你就被特朗普耍了？

恐遭監(jiān)視，歐盟為赴美出差高官發(fā)放一次性手機

美財長忽悠上了：第一個行動的，可以得到“最好的協(xié)議”

“美軍掙扎過，但就是繞不過中國”

特朗普想幾乎全砍聯(lián)合國、北約經(jīng)費，有人急了：中俄要填補

開幕首日就翻車：大阪世博會標(biāo)志性建筑漏雨，2億日元廁所用不了