日韩在线视频播放_比唇語(yǔ)專(zhuān)家更懂唇語(yǔ) 讀唇語(yǔ)軟件識別準確率遠超人類(lèi)_國內

比唇語(yǔ)專(zhuān)家更懂唇語(yǔ) 讀唇語(yǔ)軟件識別準確率遠超人類(lèi)

發(fā)布時(shí)間：2023-03-01 11:12:00來(lái)源：科技日報

　　讀唇語(yǔ)軟件識別準確率遠超人類(lèi)

　　“動(dòng)動(dòng)嘴皮子”，AI就能知道你在說(shuō)啥

　　可以想見(jiàn)，由于公益、公共安全、國家安全等領(lǐng)域巨大的潛在需求的牽引，以及AI技術(shù)飛速發(fā)展的強力推動(dòng)作用，在不久的將來(lái)，AI讀唇語(yǔ)有望實(shí)現快速推廣與深度普及，產(chǎn)業(yè)前景十分可期。

　　——閆懷志北京理工大學(xué)計算機學(xué)院副教授、網(wǎng)絡(luò )與安全研究所所長(cháng)

　　◎本報記者翟冬冬

　　雖然電視劇《狂飆》已經(jīng)迎來(lái)了大結局，但熱度仍然沒(méi)有絲毫減弱，有的網(wǎng)友利用劇中人物創(chuàng )作娛樂(lè )視頻，也有的網(wǎng)友剪輯其中精彩片段。不過(guò)，還有一些“較真”的網(wǎng)友，發(fā)現《狂飆》中的一些人物對話(huà)，配音和嘴型對不上，于是便想通過(guò)人工智能進(jìn)行唇語(yǔ)識別，還原最初的劇本情節。

　　然而，AI讀唇語(yǔ)并非只能被用于破譯“隱藏劇情”。據統計，我國聽(tīng)力殘障人口超過(guò)2054萬(wàn)，除了主要的手語(yǔ)交流外，讀唇語(yǔ)也是他們重要的溝通方式。但人工解讀唇語(yǔ)容易受到個(gè)人經(jīng)驗、視覺(jué)感受能力、語(yǔ)言理解能力等因素影響，在正確率方面差強人意，于是人們開(kāi)始嘗試利用AI技術(shù)來(lái)解讀唇語(yǔ)。

　　比唇語(yǔ)專(zhuān)家更懂唇語(yǔ)

　　“所謂AI讀唇語(yǔ)，即人工智能唇語(yǔ)識別，其核心技術(shù)框架為視覺(jué)識別和自然語(yǔ)言處理。”北京理工大學(xué)計算機學(xué)院副教授、網(wǎng)絡(luò )與安全研究所所長(cháng)閆懷志介紹道，具體而言，就是利用機器視覺(jué)技術(shù)，將人臉從圖像中連續識別出來(lái)，并提取其中連續的口型變化特征，輸入至唇語(yǔ)識別模型，辨識出該人物口型對應的發(fā)音，進(jìn)而輸出可能性最大的表達語(yǔ)句。

　　“視覺(jué)識別和自然語(yǔ)言處理分別有著(zhù)龐大的技術(shù)體系和不同的技術(shù)路線(xiàn)，但究其本質(zhì)，都是通過(guò)大量的唇語(yǔ)數據來(lái)訓練AI模型，力求文本輸出的準確性。”閆懷志補充道。

　　近幾年，不斷有AI巨頭開(kāi)始在唇語(yǔ)識別賽道上作出嘗試。谷歌旗下Deep Mind公司就與英國牛津大學(xué)合作，研發(fā)出了一款AI讀唇語(yǔ)軟件，通過(guò)讓AI讀唇語(yǔ)軟件“收看”數千小時(shí)的電視節目來(lái)訓練其唇語(yǔ)識別能力。有意思的是，在隨機抽取200個(gè)視頻片段的讀唇語(yǔ)測試中，AI讀唇語(yǔ)軟件的準確率達到了46.8%，而經(jīng)過(guò)專(zhuān)業(yè)訓練的人類(lèi)讀唇語(yǔ)專(zhuān)家，準確率僅為12.4%。

　　為何AI讀唇語(yǔ)能夠悄然興起？閆懷志給出了自己的分析：一是強烈的需求牽引，二是巨大的技術(shù)推動(dòng)。從需求牽引來(lái)說(shuō)，唇語(yǔ)識別不僅可為部分殘障人士提供方便，更可以在公共安防等諸多領(lǐng)域發(fā)揮巨大作用；從技術(shù)推動(dòng)來(lái)說(shuō)，由于A(yíng)I算法、算力以及數據瓶頸被不斷突破，使得AI技術(shù)在唇語(yǔ)識別領(lǐng)域取得較大成功成為現實(shí)。

　　眾多難題有待突破

　　不過(guò)，閆懷志也表示，目前我國人工智能唇語(yǔ)識別技術(shù)尚處于起步階段，若想利用人工智能準確地識別唇語(yǔ)，還有很長(cháng)的路要走。

　　從語(yǔ)言本身來(lái)看，人類(lèi)語(yǔ)言具有較高的復雜性，在人類(lèi)話(huà)語(yǔ)所涉及的所有音標中，僅有30%左右是直接由人類(lèi)嘴唇來(lái)控制的，70%是難以通過(guò)肉眼，甚至是機器視覺(jué)區分的齒音、舌音以及喉音。而且，不同人說(shuō)話(huà)的語(yǔ)氣、方言、連詞、口音，乃至胡須遮蓋等因素，都會(huì )導致嘴型的細微變化，而恰恰是這種細微變化，會(huì )嚴重影響人工智能對于唇語(yǔ)的識別和判斷。

　　從技術(shù)層面來(lái)看，人工智能采集唇語(yǔ)的環(huán)境通常較為復雜，若想精準識別難度很高。以目前的人工智能技術(shù)而言，對于長(cháng)句、復雜句式等的識別水平不盡如人意，更不用說(shuō)還存在著(zhù)多場(chǎng)景識別、多人像唇語(yǔ)識別等問(wèn)題。

　　閆懷志表示，只有解決了上述問(wèn)題，AI讀唇語(yǔ)才能得到突破性提升，邁向成熟發(fā)展階段。

　　人類(lèi)不同語(yǔ)種之間千差萬(wàn)別，AI能讀懂每個(gè)語(yǔ)種的唇語(yǔ)嗎？

　　閆懷志介紹，此前較為成功的AI讀唇語(yǔ)系統大多僅限于英語(yǔ)模型，這是因為多數AI模型都是基于英語(yǔ)數據訓練而得。但是，從技術(shù)框架上來(lái)說(shuō)，不同語(yǔ)種的訓練模型是基本一致的，或者說(shuō)可以依賴(lài)于同一類(lèi)技術(shù)手段來(lái)實(shí)現。

　　當然，為了適應不同語(yǔ)種的唇語(yǔ)識別，也需要作一些適應性調整：一方面要選擇對應語(yǔ)種的數據進(jìn)行有針對性的訓練；另一方面，還需要對AI模型進(jìn)行調整，比如納入時(shí)間屏蔽、優(yōu)化語(yǔ)言模型以及改進(jìn)超參數等。

　　此外，同一語(yǔ)種也會(huì )有不同口型，即便口型類(lèi)似，也可能代表著(zhù)完全不同的意思。因此，成熟的AI讀唇語(yǔ)系統需要大量的唇語(yǔ)特征樣本數據，并盡可能地覆蓋多種應用場(chǎng)景、多類(lèi)型的說(shuō)話(huà)人群，借此來(lái)提升訓練后的唇語(yǔ)識別模型的泛化能力，提高AI讀唇語(yǔ)對于不同口型和不同表意語(yǔ)言的識別準確率。

　　亟須監管的技術(shù)雙刃劍

　　盡管存在種種難題，但仍有越來(lái)越多的AI企業(yè)開(kāi)始涉足并計劃深耕人工智能唇語(yǔ)識別賽道。目前來(lái)看，各大AI巨頭的選擇不盡相同，具體可分為唇語(yǔ)數據、唇語(yǔ)視頻識別、唇語(yǔ)理解等。

　　閆懷志也表示，目前許多人工智能唇語(yǔ)識別技術(shù)領(lǐng)域已實(shí)現初步突破，全鏈條集成前景可期，產(chǎn)業(yè)集群正在逐步形成。

　　從應用場(chǎng)景來(lái)看，AI讀唇語(yǔ)在社會(huì )公益、公共安全等領(lǐng)域都已開(kāi)始嶄露頭角。從目前各大巨頭的布局以及相關(guān)技術(shù)的發(fā)展趨勢來(lái)看，AI讀唇語(yǔ)預期可在身份識別、國家安全、智慧系統等方面具有廣闊的應用前景。“可以想見(jiàn)，由于公益、公共安全、國家安全等領(lǐng)域巨大的潛在需求的牽引，以及AI技術(shù)飛速發(fā)展的強力推動(dòng)作用，在不久的將來(lái)，AI讀唇語(yǔ)有望實(shí)現快速推廣與深度普及，產(chǎn)業(yè)前景十分可期。”閆懷志說(shuō)。

　　例如，在安防安監領(lǐng)域，很多安監場(chǎng)景噪音較大或僅有視頻信號，無(wú)法準確捕捉聲音，人工智能唇語(yǔ)識別技術(shù)就能派上用場(chǎng)；在身份識別領(lǐng)域，可以利用AI讀唇語(yǔ)來(lái)實(shí)現口型支付密碼輸入，“動(dòng)動(dòng)嘴唇”就能實(shí)現身份識別和支付交易；在公共安全領(lǐng)域，利用AI讀唇語(yǔ)，可以在各類(lèi)視頻中分析案件當事人的唇語(yǔ)信息，輔助案件偵查工作；在智慧系統領(lǐng)域，可利用AI讀唇語(yǔ)來(lái)實(shí)現“無(wú)聲勝有聲”——只依靠口型來(lái)控制智能設備，比如智能家電等。

　　當然，技術(shù)應用是把雙刃劍。很多人擔心，AI讀唇語(yǔ)會(huì )使人們對話(huà)中的隱私內容遭到泄露，無(wú)論當事人是公開(kāi)發(fā)言、竊竊私語(yǔ)或是自言自語(yǔ)。“張張嘴”就被別人竊取聊天內容，仔細想來(lái)確實(shí)可怕。

　　閆懷志表示，這種擔心并非杞人憂(yōu)天。AI讀唇語(yǔ)導致的隱私泄露，一方面可能是有人惡意進(jìn)行唇語(yǔ)獲取識別，另一方面也可能是正常使用的AI讀唇語(yǔ)系統，但其中的存儲、使用等環(huán)節保護不當，導致相關(guān)數據被竊取或濫用，進(jìn)而對個(gè)人權益造成損害。而且，由于涉及到當事人的對話(huà)內容，具有明顯的方向性，這種隱私泄露的危害性可能要比普通的個(gè)人信息泄露更為嚴重。

　　因此，閆懷志建議，應從隱私安全保護的角度，在管理層面加強相關(guān)法律法規的制定，嚴格規范和約束AI讀唇語(yǔ)的應用場(chǎng)景、范圍和目的，加大對技術(shù)惡意利用的監管和懲戒力度。此外，還要在技術(shù)層面加強AI讀唇語(yǔ)系統的安全保護體系建設，以技術(shù)手段提高系統的識別精準度，避免技術(shù)濫用，切實(shí)保障用戶(hù)對話(huà)的內容安全。（科技日報）

（責編：陳濛濛）

国产成人精品a有声小说,在线观看亚洲网站,91最新地址永久入口,欧美精品国产第一区二区

比唇語(yǔ)專(zhuān)家更懂唇語(yǔ) 讀唇語(yǔ)軟件識別準確率遠超人類(lèi)

相關(guān)閱讀

專(zhuān)題推薦

微觀(guān)

賞閱

資料云

即時(shí)新聞