我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
近日,全球最大的語(yǔ)音會(huì )議 INTERSPEECH 2020 公布了 SdSV 聲紋識別比賽成績(jì),網(wǎng)易 AI Lab 從眾多國際頂級隊伍中脫穎而出,獲文本相關(guān)聲紋識別賽道綜合排名第一、單模型第一的雙料冠軍。彰顯了網(wǎng)易 AI Lab 在語(yǔ)音聲紋識別技術(shù)領(lǐng)域的領(lǐng)先地位。
本次國際聲紋識別比賽是業(yè)界非常具備權威性的賽事,參賽隊伍來(lái)自國際多家知名高校與企業(yè),包括近兩年全球各項聲紋識別比賽中的“常勝將軍”:布爾諾工業(yè)大學(xué)、新加坡通信研究院、約翰霍普金斯大學(xué)等。
比賽中,網(wǎng)易 AI Lab 基于常見(jiàn)的X-Vector 和 PLDA 算法,創(chuàng )新地提出了一種 ASR-free 的文本相關(guān)聲紋識別算法。相比傳統的 Deep Speaker Embedding 方法,該算法不需要依賴(lài)語(yǔ)音識別,就能夠在多語(yǔ)言環(huán)境下,同時(shí)完成說(shuō)話(huà)人和文本內容的驗證。
比賽采用 MinDCF(最小檢測代價(jià))和 EER(等錯誤率)作為評測指標。網(wǎng)易 AI Lab 的單模型在兩個(gè)指標均為最佳,其中 EER 達到了 1.67%,相比第二名降低了 11.6%,并遠低于比賽 X-Vector 基線(xiàn)系統(EER=9.05%)。
評估算法系統性能時(shí)常輸出 ROC 曲線(xiàn),用于描述 FAR(誤識率)與 FRR(拒識率)之間的關(guān)系。
簡(jiǎn)單說(shuō),在聲紋識別中,誤識率就是“把不應該匹配的聲紋當成匹配聲紋”的比例,拒識率則是“把應該匹配的聲紋當成不匹配聲紋”的比例。
在對安全要求非常高的應用場(chǎng)景,就會(huì )把 FAR 值設置得低一些,因為判斷錯一次的代價(jià)很大,但這樣做的同時(shí)會(huì )導致 FRR 值上升,用戶(hù)體驗度下降。
等錯誤率(EER)是系統的誤識率(FAR)和拒識率(FRR)相等時(shí)的錯誤率,即 ROC 曲線(xiàn)與 45 度角直線(xiàn)相交的點(diǎn),是衡量聲紋識別算法系統綜合性能的重要指標。EER 數值越小,系統性能越好。
聲紋識別是生物識別技術(shù)的一種,也稱(chēng)為說(shuō)話(huà)人識別,是一種通過(guò)聲音判別說(shuō)話(huà)人身份的技術(shù)。
目前,人工智能主要有三個(gè)研究方向:視覺(jué)識別、智能語(yǔ)音、NLP 自然語(yǔ)言處理。其中,在語(yǔ)音識別領(lǐng)域,聲紋識別屬于相對藍海市場(chǎng),解決的主要是“我是我”的身份認證問(wèn)題,多應用在安全驗證場(chǎng)景。
從近幾年的市場(chǎng)趨勢來(lái)看,銀行,金融服務(wù),保險已成為聲紋識別應用的領(lǐng)導領(lǐng)域。
隨著(zhù)技術(shù)的不斷成熟和融合,聲紋識別技術(shù)將逐漸融入日常生活,根據不同應用場(chǎng)景的特點(diǎn)進(jìn)行針對性開(kāi)發(fā),將產(chǎn)生巨大的應用價(jià)值。
而網(wǎng)易 AI Lab 聲紋識別技術(shù)其實(shí)早已被運用于游戲場(chǎng)景中。除了進(jìn)行游戲身份驗證,還能夠針對音色對用戶(hù)進(jìn)行分類(lèi)、豐富玩家畫(huà)像,從而更加精準地為玩家推薦志趣相投的好友、匹配實(shí)力相當的對手,為玩家帶來(lái)更好的游戲體驗。
?。?a href="http://www.ikjki.com/wechat/">河北小程序開(kāi)發(fā))
小米應用商店發(fā)布消息稱(chēng) 持續開(kāi)展“APP 侵害用戶(hù)權益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線(xiàn) 加速數字技術(shù)在實(shí)體經(jīng)濟中的落地和應用 11:34:49
樂(lè )視回應還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購物車(chē)擴展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區分公司 09:53:13