午夜人妻久久久久久久久,国产国拍精品亚洲A片男同,天天做天天爱天天综合网2021 ,国产精品免费_区二区三区观看

舉報(bào)查詢 登錄 | 注冊(cè)
  1. 首頁(yè)
  2. 資訊要聞
  3. “出口成章”:語(yǔ)音技術(shù)的突破

“出口成章”:語(yǔ)音技術(shù)的突破

發(fā)布時(shí)間:2017-03-27 14:27 分享到:
 近年來,自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR)技術(shù)突飛猛進(jìn)。所謂自動(dòng)語(yǔ)音識(shí)別包含了平時(shí)說的電腦語(yǔ)音輸入。它作為人工智能領(lǐng)域中較為成熟的一項(xiàng)技術(shù),基本上已經(jīng)幫助我們實(shí)現(xiàn)了“出口成章”的愿望。

       例如,2016年9月,浙江省高等法院已經(jīng)開始使用自己研發(fā)的智能語(yǔ)音識(shí)別系統(tǒng)進(jìn)行庭審記錄,并且這套系統(tǒng)會(huì)針對(duì)法律文書習(xí)慣進(jìn)行自動(dòng)糾錯(cuò)。同年底,來自國(guó)內(nèi)某科技公司全新的語(yǔ)音輸入系統(tǒng),在噪聲環(huán)境下的響應(yīng)速度超乎大家的想象,準(zhǔn)確率達(dá)到97%。與此同時(shí),國(guó)內(nèi)某互聯(lián)網(wǎng)公司開發(fā)的語(yǔ)音識(shí)別系統(tǒng)在技術(shù)指標(biāo)方面同樣不分伯仲。

       如此驚人的準(zhǔn)確率基本可以匹敵人類的水平。這完全得益于重新回歸整個(gè)工業(yè)界視野的“解凍”技術(shù)——深度學(xué)習(xí)。深度學(xué)習(xí)的核心是構(gòu)建一個(gè)深度神經(jīng)網(wǎng)絡(luò)。一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)一般是由點(diǎn)、邊和層級(jí)來描述的。其中,網(wǎng)絡(luò)的點(diǎn)就是大腦神經(jīng)元,網(wǎng)絡(luò)的邊就對(duì)應(yīng)著神經(jīng)元之間的相互連接,層級(jí)可以理解為近似表示不同大腦功能區(qū)。所謂的深度學(xué)習(xí),可以理解為是通過構(gòu)建多個(gè)層級(jí)的點(diǎn)和邊來描述不同大腦功能區(qū)內(nèi)部及之間的神經(jīng)元連接,通過大量數(shù)據(jù)訓(xùn)練(驅(qū)動(dòng)),描述一些抽象的信息在大腦中的傳遞。這種模型訓(xùn)練(驅(qū)動(dòng))的模式類似于一個(gè)小孩開始學(xué)習(xí)周圍環(huán)境的知識(shí)。

       但是,深度學(xué)習(xí)或者說神經(jīng)網(wǎng)絡(luò)的發(fā)展并不是一帆風(fēng)順的。在隱馬爾科夫模型和貝葉斯模型占據(jù)語(yǔ)音識(shí)別技術(shù)制高點(diǎn)的時(shí)期,這種技術(shù)在工業(yè)界的應(yīng)用并沒有得到太多的表現(xiàn)。受制于模型學(xué)習(xí)時(shí)間長(zhǎng)、硬件加速困難以及所需訓(xùn)練數(shù)據(jù)量過大,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別一時(shí)出現(xiàn)了“冷凍期”。甚至在較長(zhǎng)的一段時(shí)間,國(guó)內(nèi)外與之相關(guān)研究經(jīng)費(fèi)都在被削減。但大約在2006年以后,三個(gè)重大改變助力了這項(xiàng)技術(shù)的崛起:

       第一,圖形處理器(GPU)在硬件層面大大地提高了模型的訓(xùn)練速度;

       第二,國(guó)內(nèi)外科技大公司和研究機(jī)構(gòu)(如百度、科大訊飛、微軟等)在前期投入大量人力對(duì)大數(shù)據(jù)的獲取和標(biāo)記,已經(jīng)形成了大數(shù)據(jù)的規(guī)模,互聯(lián)網(wǎng)近十年來積累的數(shù)據(jù)量是爆炸式的;

       第三,針對(duì)多層級(jí)的神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,一些預(yù)訓(xùn)練(pre-training)和調(diào)試技巧被開發(fā)出來。

       此外,各個(gè)主力研究機(jī)構(gòu)的軟件開源也大大降低了他人在系統(tǒng)開發(fā)上的時(shí)間成本和技術(shù)門檻,這也促進(jìn)了深度學(xué)習(xí)快速發(fā)展。

       在語(yǔ)音識(shí)別領(lǐng)域,目前表現(xiàn)較為優(yōu)異的深度學(xué)習(xí)模型應(yīng)該是遞歸神經(jīng)網(wǎng)絡(luò)。訓(xùn)練這種模型的本質(zhì)就是通過前一個(gè)時(shí)期和此時(shí)此刻的信息,預(yù)測(cè)下一個(gè)時(shí)期的信息。這就好像是每天課堂上老師會(huì)讓學(xué)生重復(fù)一下前一天的上課內(nèi)容,并在當(dāng)天課后給出下一節(jié)課的內(nèi)容。通過這種“鞏固—學(xué)習(xí)—預(yù)習(xí)”模式,這種模型不僅可以學(xué)到一段語(yǔ)音的語(yǔ)言模型(語(yǔ)言的上下文),還能學(xué)到語(yǔ)音信號(hào)中的連續(xù)變化,例如發(fā)音動(dòng)作的連續(xù)改變。國(guó)內(nèi)某科技公司的語(yǔ)音識(shí)別系統(tǒng)基本也是在這個(gè)基礎(chǔ)上再進(jìn)行開發(fā)的。

       但是,目前語(yǔ)音識(shí)別系統(tǒng)的開發(fā)還存在幾個(gè)急需要攻克的難點(diǎn):

       一是自然語(yǔ)言理解(語(yǔ)義理解)。人類可以通過說話者的表情、手勢(shì)以及說話語(yǔ)氣推測(cè)說話人的語(yǔ)義,但這個(gè)平常我們無(wú)時(shí)無(wú)刻不在使用的技能,要讓計(jì)算機(jī)學(xué)會(huì)可不是件容易的事情。

       二是口音和方言對(duì)語(yǔ)音輸入識(shí)別的影響。不同人的說話風(fēng)格(例如咬字、吞音等現(xiàn)象)以及語(yǔ)法使用的不規(guī)則性也會(huì)大大降低人機(jī)交互的效率和準(zhǔn)確性。在中國(guó),漢語(yǔ)方言對(duì)語(yǔ)音識(shí)別是一個(gè)不可避免的影響。中國(guó)的漢語(yǔ)方言差異可以和印歐語(yǔ)系中不同語(yǔ)族的差異相提并論。方言在語(yǔ)音、詞匯和語(yǔ)法結(jié)構(gòu)上的多樣性對(duì)語(yǔ)音識(shí)別產(chǎn)生了較多阻礙。幸運(yùn)的是,國(guó)內(nèi)諸多科技公司已經(jīng)開始著手建立漢語(yǔ)方言的語(yǔ)音數(shù)據(jù)庫(kù),并在此基礎(chǔ)上獲得了一些突破性進(jìn)展。

       三是場(chǎng)景聲音的識(shí)別。遠(yuǎn)場(chǎng)的語(yǔ)音環(huán)境或者較大噪聲的環(huán)境都會(huì)削弱語(yǔ)音信號(hào)中具有辨識(shí)意義的信號(hào),這會(huì)導(dǎo)致語(yǔ)音識(shí)別的失效。據(jù)不完全統(tǒng)計(jì),在噪聲環(huán)境中的車載系統(tǒng)語(yǔ)音識(shí)別上,國(guó)際上最優(yōu)秀的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率也僅有86.9%,第二名的識(shí)別率只有74%。

       四是期望使用更少的數(shù)據(jù)。語(yǔ)音識(shí)別所依賴的深度學(xué)習(xí)技術(shù)還需要大量已標(biāo)記的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練和驅(qū)動(dòng),但是這類數(shù)據(jù)的標(biāo)記是一個(gè)耗時(shí)耗力耗財(cái)?shù)墓ぷ?。目前只有極個(gè)別的研究機(jī)構(gòu)以及科技巨頭具有這樣的數(shù)據(jù)量。如何使用更少的數(shù)據(jù)獲得一個(gè)可靠的語(yǔ)音識(shí)別系統(tǒng)會(huì)是下一個(gè)發(fā)展目標(biāo)。

       作為一種新的面向人工智能的交互方式,語(yǔ)音識(shí)別或者語(yǔ)音輸入已經(jīng)在輸入法上得到廣泛應(yīng)用,使得手機(jī)文字輸入可以擺脫對(duì)雙手的依賴,轉(zhuǎn)而使用最自然的方式進(jìn)行語(yǔ)言的表達(dá)和輸出信息。這已經(jīng)開始改變年輕一代用傳統(tǒng)鍵盤輸入的習(xí)慣。在據(jù)某互聯(lián)網(wǎng)公司公布的2016年語(yǔ)音輸入使用報(bào)告中,80后和90后年輕人已經(jīng)成為該技術(shù)的主要用戶群體。雖然語(yǔ)音識(shí)別已經(jīng)展現(xiàn)了超越鍵盤輸入法的優(yōu)勢(shì),但是這種技術(shù)對(duì)于使用者的使用環(huán)境有著較多的要求,應(yīng)用場(chǎng)景往往受到限制。

       未來,隨著人工智能技術(shù)的不斷發(fā)展、使用人群的逐步擴(kuò)大及用戶習(xí)慣的日益養(yǎng)成,語(yǔ)音輸入的應(yīng)用領(lǐng)域還將持續(xù)擴(kuò)大。