亚洲第一是东京还是香港,A级毛片无码免费真人久久,国产内射一级一片内射高清视频

每日頭條!火山引擎RTC獲得 ICASSP 2023回聲消除挑戰(zhàn)賽冠軍

來源：中關(guān)村在線　2023-02-13 15:54:33

在剛剛過去的 ICASSP 2023 聲學(xué)回聲消除（AEC）挑戰(zhàn)賽中，火山引擎 RTC 團(tuán)隊聯(lián)合西北工業(yè)大學(xué)音頻語音與語言處理研究實驗室，在通用回聲消除 (Non-personalized AEC) 與特定說話人回聲消除 (Personalized AEC) 兩個賽道上榮獲冠軍，并在雙講回聲抑制，雙講近端語音保護(hù)、近端單講背景噪聲抑制、綜合主觀音頻質(zhì)量打分及最終語音識別準(zhǔn)確率等多項指標(biāo)上顯著優(yōu)于其他參賽隊伍，達(dá)到國際領(lǐng)先水平。

【資料圖】

其中“N”代表通用AEC，“Y”代表特定說話人AEC，綠色越深代表指標(biāo)表現(xiàn)越好

ICASSP AEC 挑戰(zhàn)賽由國際音頻頂級會議 ICASSP 和微軟聯(lián)合發(fā)起，旨在激發(fā)聲學(xué)回聲消除領(lǐng)域的研究，自第一屆舉辦以來就吸引了亞馬遜、騰訊、阿里巴巴、百度、快手、中科院、西工大等全球諸多知名企業(yè)和科研院所的參與。今年的 ICASSP AEC 也不例外，參賽隊伍之多之強(qiáng)，使 AEC 成為 ICASSP 2023 各項賽事中競爭最為激烈的賽道之一。

ICASSP AEC 挑戰(zhàn)賽要求各參賽隊伍對 10,000 多個來自于真實音頻設(shè)備和真實環(huán)境下的錄音數(shù)據(jù)進(jìn)行 AEC 模型訓(xùn)練，并根據(jù)單講/雙講等場景中獲得的主觀平均意見分以及語音識別率綜合評判名次。火山引擎 RTC 通過對時延補(bǔ)償模塊、線性 AEC模塊、殘留回聲抑制處理模塊進(jìn)行優(yōu)化，有效降低了 AEC 模型的復(fù)雜度，提升了回聲的抑制效果。同時，通過對訓(xùn)練數(shù)據(jù)進(jìn)行增廣，使 AEC 處理框架可以覆蓋更多場景的回聲處理問題。最終，團(tuán)隊在遠(yuǎn)端單講回聲抑制、近端單講信號保護(hù)、雙講回聲抑制、雙講近端語音保護(hù)等各子場景中均發(fā)揮出色，取得總分第一的成績。

AEC 處理框架

另外，今年的 ICASSP AEC 挑戰(zhàn)賽首次增加了特定說話人 AEC 賽道。過去，通用回聲消除技術(shù)（Non-personalized AEC）在線上使用較多，特定說話人回聲消除技術(shù)（Personalized AEC）則更多出現(xiàn)在學(xué)術(shù)研究領(lǐng)域。隨著回聲消除應(yīng)用的場景越來越廣泛、越來越復(fù)雜，特定說話人 AEC 也越來越受到人們關(guān)注。延續(xù)在通用 AEC 領(lǐng)域的技術(shù)優(yōu)勢，火山引擎 RTC 在特定說話人 AEC 賽道也榮獲冠軍。

傳統(tǒng) AEC + 深度學(xué)習(xí)雙管齊下，解決復(fù)雜雙講場景中的回聲消除難題

回聲消除是音視頻通話中最難的音頻技術(shù)之一，而“雙講”則是回聲消除應(yīng)用中最復(fù)雜的場景。在視頻會議、線上小班課等多人音視頻通話場景中，如果近端和遠(yuǎn)端同時說話，遠(yuǎn)端的聲音信號通過揚(yáng)聲器播放出來，又和近端的聲音混合在一起被麥克風(fēng)采集進(jìn)去，遠(yuǎn)端就會聽到回聲，且聽不清近端的語音內(nèi)容。雙講場景回聲消除比普通場景回聲消除難度要大——因為既需要把遠(yuǎn)端的回聲盡量消除干凈，又不能矯枉過正，保護(hù)近端的語音信號盡量不被損傷。

以下是火山引擎 RTC 在雙講場景的回聲消除效果。

處理前的聲紋（上）

處理后對聲紋（下）

在雙講場景中，當(dāng)回聲的能量遠(yuǎn)遠(yuǎn)高于目標(biāo)說話人的能量（比如揚(yáng)聲器離麥克風(fēng)太近或其他原因），就會形成超低信回比場景（比如-20db以下）。下面這段樣本中，女聲為目標(biāo)說話人語音，男生為非目標(biāo)說話人語音（回聲），目標(biāo)語音幾乎被非目標(biāo)語音完全覆蓋了，回聲消除挑戰(zhàn)極大。

超低信回比雙講場景處理前的聲紋

火山引擎 RTC 對 AEC 處理框架中的線性 AEC 模塊和殘留回聲抑制處理模塊進(jìn)行了創(chuàng)新性優(yōu)化：在線性 AEC 模塊中，保護(hù)近端語音不受損傷的同時，最大程度抑制回聲中的線性成分，減輕后續(xù)殘留回聲抑制模型的負(fù)擔(dān)；在殘留回聲抑制模塊中，基于低延時深度學(xué)習(xí)網(wǎng)絡(luò)來抑制回聲中非線性殘留成分，同時在特定說話人回聲消除 Track 上額外引入說話人聲紋信息，在去除回聲的同時也抑制非目標(biāo)說話人的語音。通過以上處理，火山引擎 RTC 在超低信回比雙講場景中也取得了優(yōu)秀的回聲消除效果。

超低信回比雙講場景處理后的聲紋

為線上各類互動場景提供更清晰、動聽的音質(zhì)體驗

視頻會議、在線教育、語聊房、游戲開黑、在線 KTV、“一起看”、“一起玩”……線上互動場景正變得越來越豐富，對 RTC 的技術(shù)挑戰(zhàn)也越來越高，比如更飽滿的音質(zhì)、更清晰的畫質(zhì)、更流暢、穩(wěn)定的使用體驗等等。在音質(zhì)方面，火山引擎 RTC 基于自研語音編碼器 NICO，結(jié)合深度學(xué)習(xí)的 3A 算法、AI 降噪算法、語音檢測算法等技術(shù)，不斷提升音頻的編碼質(zhì)量、抗丟包能力和處理性能，已成功為抖音世界杯“邊看邊聊”直播間、飛書視頻會議、《Mobile Legends: Bang Bang(無盡對決)》等提供高質(zhì)量的音頻服務(wù)。

未來，火山引擎 RTC 還將不斷探索前沿音頻技術(shù)，并與業(yè)務(wù)場景高效結(jié)合，打造更具針對性的場景適配策略，持續(xù)為各類線上互動場景提供更清晰、更動聽的音質(zhì)體驗。

點(diǎn)擊閱讀原文，了解產(chǎn)品更多信息。

https://www.volcengine.com/contact/product?t=rtc&source=%E4%BA%A7%E5%93%81%E5%92%A8%E8%AF%A2

作者：陳晨

推薦DIY文章