核心提示:AI成精,逼瘋程序員;AI做高數(shù),成績(jī)超過(guò)博士;AI寫(xiě)代碼,成功調(diào)教智能體
AI成精,“逼瘋”程序員;AI做高數(shù),成績(jī)超過(guò)博士;AI寫(xiě)代碼,成功調(diào)教智能體……
看多了這種故事,你是不是也覺(jué)得,AI太卷了,要上天了。
今天回歸本源,講點(diǎn)不那么玄幻的。AI為什么會(huì)進(jìn)化?底層其實(shí)沒(méi)有秘密,無(wú)非是語(yǔ)言、視覺(jué)等幾大基本功。
其中,語(yǔ)言能力對(duì)AI的智能水平有決定性影響。視覺(jué)研究怎么“看”,語(yǔ)言研究“聽(tīng)”、“說(shuō)”和“理解”。
對(duì)人類(lèi)來(lái)說(shuō),“聽(tīng)”、“說(shuō)”、“理解”相加,基本等于思維能力,對(duì)AI,道理也差不多。
最近,咨詢機(jī)構(gòu)Gartner發(fā)布《云AI開(kāi)發(fā)者服務(wù)關(guān)鍵能力報(bào)告》,對(duì)全球云服務(wù)商的AI能力做了排行。
語(yǔ)言AI這一項(xiàng),第一名毫不意外是谷歌。
第二名比較驚喜,是阿里巴巴。這是榜單發(fā)布以來(lái),中國(guó)公司在該領(lǐng)域第一次進(jìn)入全球前三。
全球前十中,中國(guó)的BAT占了三席,成績(jī)可謂是矚目。
谷歌得分3.55,阿里得分3.48
語(yǔ)言AI,包含語(yǔ)音、語(yǔ)義兩個(gè)大類(lèi)。
語(yǔ)音負(fù)責(zé)讓機(jī)器學(xué)會(huì)“聽(tīng)”和“說(shuō)”;語(yǔ)義,也就是自然語(yǔ)言處理(NLP),負(fù)責(zé)讓機(jī)器學(xué)會(huì)“理解”。
先來(lái)看看Gartner報(bào)告對(duì)語(yǔ)音語(yǔ)義的評(píng)判標(biāo)準(zhǔn):
報(bào)告考察了云廠商語(yǔ)言AI的多個(gè)細(xì)分服務(wù)項(xiàng),比如語(yǔ)音識(shí)別、語(yǔ)言理解等,并對(duì)每個(gè)服務(wù)項(xiàng)的功能實(shí)現(xiàn)程度進(jìn)行評(píng)級(jí)。
Gartner將每種功能的程度分為5個(gè)等級(jí),分別對(duì)應(yīng)1-5分,分?jǐn)?shù)越高則表明實(shí)力越強(qiáng)。
阿里云上的AI能力,主要包括:
阿里在語(yǔ)音識(shí)別、自然語(yǔ)言生成/語(yǔ)音合成、語(yǔ)言理解/處理、文本分析這幾項(xiàng)關(guān)鍵能力都獲得了最高分。
報(bào)告對(duì)每個(gè)細(xì)分項(xiàng)賦予權(quán)重,結(jié)合單項(xiàng)得分和項(xiàng)目權(quán)重計(jì)算總分,最終谷歌的語(yǔ)言AI以3.55的總分排名第一;阿里得分3.48,排名第二。
但除此之外更為細(xì)節(jié)的能力,Gartner的報(bào)告并未詳細(xì)描述。
達(dá)摩院加持的云上AI
還是跟著Gartner報(bào)告,把“語(yǔ)言AI”一拆為二,看看什么是語(yǔ)音,什么是語(yǔ)義。
首先是語(yǔ)音層面的AI技術(shù)。
語(yǔ)音的應(yīng)用,我們并不陌生,蘋(píng)果Siri、微軟小冰等AI助手,都是通過(guò)賦予機(jī)器語(yǔ)音能力,從而與人類(lèi)產(chǎn)生交互。
每一個(gè)語(yǔ)音產(chǎn)品,背后都有一套語(yǔ)音技術(shù)軟硬件作支撐。
阿里云所依托的,是達(dá)摩院在語(yǔ)音AI領(lǐng)域的深厚積累。
達(dá)摩院在語(yǔ)音AI領(lǐng)域最早以語(yǔ)音識(shí)別技術(shù)起家,技術(shù)能力涵蓋語(yǔ)音識(shí)別聲學(xué)模型和基礎(chǔ)框架、說(shuō)話人區(qū)分、語(yǔ)音合成聲學(xué)模型和聲碼器、口語(yǔ)語(yǔ)言處理、聯(lián)合優(yōu)化的聲學(xué)前端等。
2019年,阿里語(yǔ)音AI曾被MIT評(píng)選為當(dāng)年度的“十大突破技術(shù)”,這背后的技術(shù)能力,就來(lái)自于達(dá)摩院。
以Gartner報(bào)告評(píng)估過(guò)的Speech to text、也就是我們常說(shuō)的“語(yǔ)音識(shí)別”技術(shù)為例。
達(dá)摩院的語(yǔ)音AI,在常規(guī)的近場(chǎng)語(yǔ)音識(shí)別、遠(yuǎn)場(chǎng)語(yǔ)音場(chǎng)景、多人交談“雞尾酒會(huì)場(chǎng)景”語(yǔ)音識(shí)別技能之外,還有一些別致的長(zhǎng)尾技能,比如“中英自由說(shuō)”、“方言自由說(shuō)”。
舉個(gè)栗子,中英文混說(shuō)——“借你的iPad給我看下paper”,這句話機(jī)器如何理解呢?
業(yè)界通行的端到端語(yǔ)音識(shí)別 (End-to-End ASR) 技術(shù),在單語(yǔ)種任務(wù)上效果很好,但一切換到多語(yǔ)種混說(shuō) (Code-Switch)場(chǎng)景下,還是不太理想。
針對(duì)這類(lèi)問(wèn)題問(wèn)題,達(dá)摩院語(yǔ)音實(shí)驗(yàn)室借鑒混合專(zhuān)家系統(tǒng)(Mixture of Experts)的思想。
在端到端語(yǔ)音識(shí)別模型中,對(duì)中文和英文分別設(shè)計(jì)了一個(gè)子網(wǎng)絡(luò),最后通過(guò)門(mén)控模塊對(duì)每個(gè)子網(wǎng)絡(luò)的輸出進(jìn)行加權(quán)。
為了減少模型參數(shù)量,中、英文子網(wǎng)絡(luò)采用底層共享,高層獨(dú)立的方式。最終使模型在中文、英文、中英文混說(shuō)場(chǎng)景下都能取得比較好的效果。
在此基礎(chǔ)上,達(dá)摩院融合了其自研的端到端語(yǔ)音識(shí)別技術(shù)SAN-M網(wǎng)絡(luò)結(jié)構(gòu),打造出新一代的端到端中英自由說(shuō)語(yǔ)音識(shí)別系統(tǒng)。
最后的效果就是:阿里的語(yǔ)音AI能在沒(méi)有語(yǔ)種信息的前提下,大幅提升中英文混說(shuō)場(chǎng)景下的識(shí)別性能。
借鑒這套模型搭建思路,達(dá)摩院又解鎖了“方言自由說(shuō)”技能,打造了一套端到端方言自由說(shuō)語(yǔ)音識(shí)別系統(tǒng)。
在不需要提供方言id的情況下,用一個(gè)模型就能識(shí)別14種常用方言,并且保證純中文相對(duì)于單語(yǔ)模型的識(shí)別性能基本不降。
達(dá)摩院的AI技術(shù)主要通過(guò)阿里云對(duì)外提供服務(wù),以“被集成”方式,廣泛應(yīng)用于運(yùn)營(yíng)商、電商、物流、電力等多個(gè)行業(yè)。
除了語(yǔ)音AI技術(shù)之外,阿里在語(yǔ)義層面同樣形成了一套強(qiáng)大的技術(shù)體系。
語(yǔ)言本身就是“音”和“義”的結(jié)合體——“聽(tīng)到”誠(chéng)可貴,“聽(tīng)懂”價(jià)更高。
人類(lèi)語(yǔ)言并不難,幾歲孩童便可輕松掌握一門(mén)語(yǔ)言。但計(jì)算機(jī)有自己的編程語(yǔ)言,要它理解人類(lèi)語(yǔ)言難如登天。
NLP技術(shù)的進(jìn)化,是AI從感知智能向認(rèn)知智能演進(jìn)的前提。而在過(guò)去十幾年內(nèi),NLP技術(shù)進(jìn)化最具標(biāo)志性的事件,就是大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn)。
阿里達(dá)摩院是業(yè)界最早開(kāi)展大模型探索的團(tuán)隊(duì)之一,2019年就開(kāi)始研發(fā)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型體系A(chǔ)liceMind,并以此作為技術(shù)底座,開(kāi)展對(duì)內(nèi)對(duì)外的技術(shù)服務(wù)。
“前大模型時(shí)代”,NLP技術(shù)解決問(wèn)題的方法,是為每個(gè)任務(wù)單獨(dú)設(shè)計(jì)模型。模型開(kāi)發(fā)往往很復(fù)雜,缺乏算力、數(shù)據(jù)、技術(shù)力量的中小團(tuán)隊(duì)往往難以負(fù)擔(dān)。
預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)后,AI的整體智能比過(guò)去大幅提升,NLP技術(shù)的賦能方式也逐漸變成“預(yù)訓(xùn)練+微調(diào)”范式。
也就是以通用的預(yù)訓(xùn)練模型為基礎(chǔ),加入簡(jiǎn)單的任務(wù)層、結(jié)合少量場(chǎng)景語(yǔ)料,以較低成本訓(xùn)練出優(yōu)質(zhì)的任務(wù)模型。
達(dá)摩院的阿里的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型體系,擁有閱讀、寫(xiě)作、翻譯、問(wèn)答、搜索、摘要生成、對(duì)話等多種能力。
大模型通常并不直接用于解決應(yīng)用問(wèn)題,而是通過(guò)與具體任務(wù)、應(yīng)用場(chǎng)景的結(jié)合,逐層孵化“中模型”、“小模型”。
在大模型體系基礎(chǔ)上,達(dá)摩院語(yǔ)言技術(shù)實(shí)驗(yàn)室先后孵化了一系列“中模型”,包括:
通用預(yù)訓(xùn)練模型StructBERT
生成式預(yù)訓(xùn)練模型PALM
多語(yǔ)言預(yù)訓(xùn)練模型VECO
超大中文預(yù)訓(xùn)練模型PLUG
多模態(tài)預(yù)訓(xùn)練模型mPLUG
結(jié)構(gòu)化預(yù)訓(xùn)練模型StructuralLM
預(yù)訓(xùn)練對(duì)話模型SPACE
表格預(yù)訓(xùn)練模型STAR等
這些模型各有專(zhuān)長(zhǎng),StructBERT、mPLUG和StructuralLM具備挖掘文本、圖像、表格“結(jié)構(gòu)”信息的能力,單語(yǔ)言生成模型PALM、多語(yǔ)言生成模型VECO、超大中文預(yù)訓(xùn)練模型PLUG都為語(yǔ)言生成任務(wù)(NLG)而生。
例如StructBERT,是達(dá)摩院在谷歌BERT模型基礎(chǔ)之上所提出的優(yōu)化模型,它可以讓機(jī)器更好地掌握人類(lèi)的語(yǔ)法、理解自然的語(yǔ)言。
StructBERT一經(jīng)推出,便在當(dāng)時(shí)GLUE基準(zhǔn)上取得了SOTA(89.0分),并且還將SQuAD v1.1問(wèn)題回答上的F1得分推至93.0的新高度。
再如多語(yǔ)言預(yù)訓(xùn)練模型VECO,曾拿下國(guó)際權(quán)威多語(yǔ)言榜單XTREME排名第一,成績(jī)遠(yuǎn)超Meta和微軟等國(guó)際巨頭的模型。
多模態(tài)預(yù)訓(xùn)練模型mPLUG在視覺(jué)問(wèn)答(VQA)任務(wù)上首次超過(guò)人類(lèi)結(jié)果。對(duì)話預(yù)訓(xùn)練模型SPACE在10多個(gè)對(duì)話國(guó)際榜單和數(shù)據(jù)集上取得SOTA。
基于AliceMind技術(shù),達(dá)摩院先后斬獲了35個(gè)冠軍,在某些領(lǐng)域的水平已經(jīng)非常接近人類(lèi)對(duì)語(yǔ)言理解的程度了。并且,該技術(shù)已面向全球開(kāi)發(fā)者開(kāi)源。
眾所周知,大規(guī)模預(yù)訓(xùn)練模型開(kāi)發(fā)成本極高,玩家通常集中于頭部科技企業(yè),但新的模型賦能范式,使得更多中小團(tuán)隊(duì)、個(gè)人開(kāi)發(fā)者也能分享大模型的紅利。
……
據(jù)了解,目前阿里達(dá)摩院語(yǔ)音語(yǔ)義領(lǐng)域的研究已有300百多篇論文被國(guó)際頂會(huì)收錄,相關(guān)研究已應(yīng)用于醫(yī)療、電力、電商等領(lǐng)域。
此前,IDC發(fā)布《2021H2中國(guó)AI云服務(wù)市場(chǎng)研究報(bào)告》中,阿里在語(yǔ)音和語(yǔ)義市場(chǎng)上的份額便取得了第一的成績(jī)。
語(yǔ)音語(yǔ)義的前史和未來(lái)
在人工智能發(fā)展長(zhǎng)河中,語(yǔ)音語(yǔ)義是最早起步的技術(shù)之一,也是人工智能的基石。
語(yǔ)音技術(shù)最早可以追溯到1952年,貝爾實(shí)驗(yàn)室的Davis等人研制出了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)Audry,從此拉開(kāi)了語(yǔ)音識(shí)別發(fā)展的序幕。
語(yǔ)義技術(shù)更是可以追溯到1947年,當(dāng)時(shí)英美科學(xué)家聯(lián)手提出了利用計(jì)算機(jī)進(jìn)行語(yǔ)言自動(dòng)翻譯的設(shè)想,機(jī)器翻譯的誕生也正意味著打開(kāi)了語(yǔ)義發(fā)展的大門(mén)。
于是,讓機(jī)器“聽(tīng)到”、“聽(tīng)懂”人類(lèi)語(yǔ)言這件事,便在那段時(shí)間起,成為了學(xué)界和產(chǎn)業(yè)界爭(zhēng)相發(fā)展的技術(shù)高地。
各界的紛紛投入,也讓工業(yè)界誕生了眾多“史詩(shī)級(jí)”的產(chǎn)品,例如蘋(píng)果在2011年發(fā)布的Siri,以及后來(lái)亞馬遜、谷歌、微軟等推出的Alexa、Google Assistant、Cortana等。
另一方面,這背后的技術(shù)也產(chǎn)生了革命性的迭代變遷,例如近幾年Transformer、Bert等技術(shù)的爆發(fā),極大地推動(dòng)了語(yǔ)音語(yǔ)義技術(shù)的發(fā)展。
在這種大趨勢(shì)的背后,更重要的意義在于語(yǔ)音語(yǔ)義已然是普通人“唾手可用”的技術(shù)。
以阿里為例,達(dá)摩院的機(jī)器翻譯技術(shù)每天為國(guó)內(nèi)200萬(wàn)中小商家翻譯上億文字 ,讓不懂英語(yǔ)和小語(yǔ)種的商家也能把國(guó)貨賣(mài)到全世界。
這樣的技術(shù)還已應(yīng)用到了“買(mǎi)票”場(chǎng)景。
去年年中,北京首都機(jī)場(chǎng)和大興機(jī)場(chǎng)均開(kāi)通了語(yǔ)音購(gòu)票的服務(wù),只需要乘客張張嘴說(shuō)出目的地,便可以在1.6秒內(nèi)快速完成選站。
事實(shí)上,未來(lái)任何硬件終端都可以集成語(yǔ)言AI技術(shù),這樣的應(yīng)用空間是巨大的,這也正是國(guó)內(nèi)外學(xué)者、科技巨頭紛紛發(fā)力于此的原因。
就像中國(guó)計(jì)算機(jī)學(xué)會(huì)副理事長(zhǎng)、瀾舟科技創(chuàng)始人兼CEO周明所評(píng)價(jià)的那般:
自然語(yǔ)言技術(shù)是人工智能領(lǐng)域的核心技術(shù),過(guò)去幾年預(yù)訓(xùn)練模型的興起已經(jīng)讓這一技術(shù)領(lǐng)域取得了質(zhì)的飛躍,也加速了人工智能領(lǐng)域從感知智能走向認(rèn)知智能的進(jìn)程。
這一系列突破將給各行各業(yè)乃至個(gè)人生活帶來(lái)巨大的價(jià)值,很高興看到以阿里巴巴為代表的的中國(guó)科技公司在該領(lǐng)域進(jìn)入了世界第一梯隊(duì)。”
也正如Gartner在此次報(bào)告中所述:
企業(yè)正在開(kāi)發(fā)大規(guī)模語(yǔ)言模型,以提供更廣泛的語(yǔ)言服務(wù)。主要云服務(wù)商正在利用其云基礎(chǔ)設(shè)施開(kāi)發(fā)專(zhuān)有語(yǔ)言模型。較小的供應(yīng)商正在利用開(kāi)源軟件、數(shù)據(jù)和機(jī)器學(xué)習(xí)模型進(jìn)行競(jìng)爭(zhēng)。
但縱觀語(yǔ)音語(yǔ)義的發(fā)展,有一點(diǎn)是始終未曾變化的,那就是它的理想目標(biāo)——和機(jī)器對(duì)話,像在跟人類(lèi)交流。
前不久谷歌研究員爆料“AI具備人格”的事件在科技圈引發(fā)了熱議,雖然后來(lái)谷歌對(duì)其已經(jīng)進(jìn)行了辟謠,但其背后無(wú)法掩蓋的事實(shí)是AI正在逐漸向人類(lèi)逼近。
那么在未來(lái),語(yǔ)音語(yǔ)義技術(shù)又將如何顛覆人們的生活,是值得期待了。
看多了這種故事,你是不是也覺(jué)得,AI太卷了,要上天了。
今天回歸本源,講點(diǎn)不那么玄幻的。AI為什么會(huì)進(jìn)化?底層其實(shí)沒(méi)有秘密,無(wú)非是語(yǔ)言、視覺(jué)等幾大基本功。
其中,語(yǔ)言能力對(duì)AI的智能水平有決定性影響。視覺(jué)研究怎么“看”,語(yǔ)言研究“聽(tīng)”、“說(shuō)”和“理解”。
對(duì)人類(lèi)來(lái)說(shuō),“聽(tīng)”、“說(shuō)”、“理解”相加,基本等于思維能力,對(duì)AI,道理也差不多。
最近,咨詢機(jī)構(gòu)Gartner發(fā)布《云AI開(kāi)發(fā)者服務(wù)關(guān)鍵能力報(bào)告》,對(duì)全球云服務(wù)商的AI能力做了排行。
語(yǔ)言AI這一項(xiàng),第一名毫不意外是谷歌。
第二名比較驚喜,是阿里巴巴。這是榜單發(fā)布以來(lái),中國(guó)公司在該領(lǐng)域第一次進(jìn)入全球前三。
全球前十中,中國(guó)的BAT占了三席,成績(jī)可謂是矚目。
谷歌得分3.55,阿里得分3.48
語(yǔ)言AI,包含語(yǔ)音、語(yǔ)義兩個(gè)大類(lèi)。
語(yǔ)音負(fù)責(zé)讓機(jī)器學(xué)會(huì)“聽(tīng)”和“說(shuō)”;語(yǔ)義,也就是自然語(yǔ)言處理(NLP),負(fù)責(zé)讓機(jī)器學(xué)會(huì)“理解”。
先來(lái)看看Gartner報(bào)告對(duì)語(yǔ)音語(yǔ)義的評(píng)判標(biāo)準(zhǔn):
報(bào)告考察了云廠商語(yǔ)言AI的多個(gè)細(xì)分服務(wù)項(xiàng),比如語(yǔ)音識(shí)別、語(yǔ)言理解等,并對(duì)每個(gè)服務(wù)項(xiàng)的功能實(shí)現(xiàn)程度進(jìn)行評(píng)級(jí)。
Gartner將每種功能的程度分為5個(gè)等級(jí),分別對(duì)應(yīng)1-5分,分?jǐn)?shù)越高則表明實(shí)力越強(qiáng)。
阿里云上的AI能力,主要包括:
阿里在語(yǔ)音識(shí)別、自然語(yǔ)言生成/語(yǔ)音合成、語(yǔ)言理解/處理、文本分析這幾項(xiàng)關(guān)鍵能力都獲得了最高分。
報(bào)告對(duì)每個(gè)細(xì)分項(xiàng)賦予權(quán)重,結(jié)合單項(xiàng)得分和項(xiàng)目權(quán)重計(jì)算總分,最終谷歌的語(yǔ)言AI以3.55的總分排名第一;阿里得分3.48,排名第二。
但除此之外更為細(xì)節(jié)的能力,Gartner的報(bào)告并未詳細(xì)描述。
達(dá)摩院加持的云上AI
還是跟著Gartner報(bào)告,把“語(yǔ)言AI”一拆為二,看看什么是語(yǔ)音,什么是語(yǔ)義。
首先是語(yǔ)音層面的AI技術(shù)。
語(yǔ)音的應(yīng)用,我們并不陌生,蘋(píng)果Siri、微軟小冰等AI助手,都是通過(guò)賦予機(jī)器語(yǔ)音能力,從而與人類(lèi)產(chǎn)生交互。
每一個(gè)語(yǔ)音產(chǎn)品,背后都有一套語(yǔ)音技術(shù)軟硬件作支撐。
阿里云所依托的,是達(dá)摩院在語(yǔ)音AI領(lǐng)域的深厚積累。
達(dá)摩院在語(yǔ)音AI領(lǐng)域最早以語(yǔ)音識(shí)別技術(shù)起家,技術(shù)能力涵蓋語(yǔ)音識(shí)別聲學(xué)模型和基礎(chǔ)框架、說(shuō)話人區(qū)分、語(yǔ)音合成聲學(xué)模型和聲碼器、口語(yǔ)語(yǔ)言處理、聯(lián)合優(yōu)化的聲學(xué)前端等。
2019年,阿里語(yǔ)音AI曾被MIT評(píng)選為當(dāng)年度的“十大突破技術(shù)”,這背后的技術(shù)能力,就來(lái)自于達(dá)摩院。
以Gartner報(bào)告評(píng)估過(guò)的Speech to text、也就是我們常說(shuō)的“語(yǔ)音識(shí)別”技術(shù)為例。
達(dá)摩院的語(yǔ)音AI,在常規(guī)的近場(chǎng)語(yǔ)音識(shí)別、遠(yuǎn)場(chǎng)語(yǔ)音場(chǎng)景、多人交談“雞尾酒會(huì)場(chǎng)景”語(yǔ)音識(shí)別技能之外,還有一些別致的長(zhǎng)尾技能,比如“中英自由說(shuō)”、“方言自由說(shuō)”。
舉個(gè)栗子,中英文混說(shuō)——“借你的iPad給我看下paper”,這句話機(jī)器如何理解呢?
業(yè)界通行的端到端語(yǔ)音識(shí)別 (End-to-End ASR) 技術(shù),在單語(yǔ)種任務(wù)上效果很好,但一切換到多語(yǔ)種混說(shuō) (Code-Switch)場(chǎng)景下,還是不太理想。
針對(duì)這類(lèi)問(wèn)題問(wèn)題,達(dá)摩院語(yǔ)音實(shí)驗(yàn)室借鑒混合專(zhuān)家系統(tǒng)(Mixture of Experts)的思想。
在端到端語(yǔ)音識(shí)別模型中,對(duì)中文和英文分別設(shè)計(jì)了一個(gè)子網(wǎng)絡(luò),最后通過(guò)門(mén)控模塊對(duì)每個(gè)子網(wǎng)絡(luò)的輸出進(jìn)行加權(quán)。
為了減少模型參數(shù)量,中、英文子網(wǎng)絡(luò)采用底層共享,高層獨(dú)立的方式。最終使模型在中文、英文、中英文混說(shuō)場(chǎng)景下都能取得比較好的效果。
在此基礎(chǔ)上,達(dá)摩院融合了其自研的端到端語(yǔ)音識(shí)別技術(shù)SAN-M網(wǎng)絡(luò)結(jié)構(gòu),打造出新一代的端到端中英自由說(shuō)語(yǔ)音識(shí)別系統(tǒng)。
最后的效果就是:阿里的語(yǔ)音AI能在沒(méi)有語(yǔ)種信息的前提下,大幅提升中英文混說(shuō)場(chǎng)景下的識(shí)別性能。
△ SAN-M網(wǎng)絡(luò)結(jié)構(gòu)框架
借鑒這套模型搭建思路,達(dá)摩院又解鎖了“方言自由說(shuō)”技能,打造了一套端到端方言自由說(shuō)語(yǔ)音識(shí)別系統(tǒng)。
在不需要提供方言id的情況下,用一個(gè)模型就能識(shí)別14種常用方言,并且保證純中文相對(duì)于單語(yǔ)模型的識(shí)別性能基本不降。
達(dá)摩院的AI技術(shù)主要通過(guò)阿里云對(duì)外提供服務(wù),以“被集成”方式,廣泛應(yīng)用于運(yùn)營(yíng)商、電商、物流、電力等多個(gè)行業(yè)。
除了語(yǔ)音AI技術(shù)之外,阿里在語(yǔ)義層面同樣形成了一套強(qiáng)大的技術(shù)體系。
語(yǔ)言本身就是“音”和“義”的結(jié)合體——“聽(tīng)到”誠(chéng)可貴,“聽(tīng)懂”價(jià)更高。
人類(lèi)語(yǔ)言并不難,幾歲孩童便可輕松掌握一門(mén)語(yǔ)言。但計(jì)算機(jī)有自己的編程語(yǔ)言,要它理解人類(lèi)語(yǔ)言難如登天。
NLP技術(shù)的進(jìn)化,是AI從感知智能向認(rèn)知智能演進(jìn)的前提。而在過(guò)去十幾年內(nèi),NLP技術(shù)進(jìn)化最具標(biāo)志性的事件,就是大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn)。
阿里達(dá)摩院是業(yè)界最早開(kāi)展大模型探索的團(tuán)隊(duì)之一,2019年就開(kāi)始研發(fā)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型體系A(chǔ)liceMind,并以此作為技術(shù)底座,開(kāi)展對(duì)內(nèi)對(duì)外的技術(shù)服務(wù)。
“前大模型時(shí)代”,NLP技術(shù)解決問(wèn)題的方法,是為每個(gè)任務(wù)單獨(dú)設(shè)計(jì)模型。模型開(kāi)發(fā)往往很復(fù)雜,缺乏算力、數(shù)據(jù)、技術(shù)力量的中小團(tuán)隊(duì)往往難以負(fù)擔(dān)。
預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)后,AI的整體智能比過(guò)去大幅提升,NLP技術(shù)的賦能方式也逐漸變成“預(yù)訓(xùn)練+微調(diào)”范式。
也就是以通用的預(yù)訓(xùn)練模型為基礎(chǔ),加入簡(jiǎn)單的任務(wù)層、結(jié)合少量場(chǎng)景語(yǔ)料,以較低成本訓(xùn)練出優(yōu)質(zhì)的任務(wù)模型。
達(dá)摩院的阿里的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型體系,擁有閱讀、寫(xiě)作、翻譯、問(wèn)答、搜索、摘要生成、對(duì)話等多種能力。
大模型通常并不直接用于解決應(yīng)用問(wèn)題,而是通過(guò)與具體任務(wù)、應(yīng)用場(chǎng)景的結(jié)合,逐層孵化“中模型”、“小模型”。
在大模型體系基礎(chǔ)上,達(dá)摩院語(yǔ)言技術(shù)實(shí)驗(yàn)室先后孵化了一系列“中模型”,包括:
通用預(yù)訓(xùn)練模型StructBERT
生成式預(yù)訓(xùn)練模型PALM
多語(yǔ)言預(yù)訓(xùn)練模型VECO
超大中文預(yù)訓(xùn)練模型PLUG
多模態(tài)預(yù)訓(xùn)練模型mPLUG
結(jié)構(gòu)化預(yù)訓(xùn)練模型StructuralLM
預(yù)訓(xùn)練對(duì)話模型SPACE
表格預(yù)訓(xùn)練模型STAR等
這些模型各有專(zhuān)長(zhǎng),StructBERT、mPLUG和StructuralLM具備挖掘文本、圖像、表格“結(jié)構(gòu)”信息的能力,單語(yǔ)言生成模型PALM、多語(yǔ)言生成模型VECO、超大中文預(yù)訓(xùn)練模型PLUG都為語(yǔ)言生成任務(wù)(NLG)而生。
例如StructBERT,是達(dá)摩院在谷歌BERT模型基礎(chǔ)之上所提出的優(yōu)化模型,它可以讓機(jī)器更好地掌握人類(lèi)的語(yǔ)法、理解自然的語(yǔ)言。
StructBERT一經(jīng)推出,便在當(dāng)時(shí)GLUE基準(zhǔn)上取得了SOTA(89.0分),并且還將SQuAD v1.1問(wèn)題回答上的F1得分推至93.0的新高度。
再如多語(yǔ)言預(yù)訓(xùn)練模型VECO,曾拿下國(guó)際權(quán)威多語(yǔ)言榜單XTREME排名第一,成績(jī)遠(yuǎn)超Meta和微軟等國(guó)際巨頭的模型。
多模態(tài)預(yù)訓(xùn)練模型mPLUG在視覺(jué)問(wèn)答(VQA)任務(wù)上首次超過(guò)人類(lèi)結(jié)果。對(duì)話預(yù)訓(xùn)練模型SPACE在10多個(gè)對(duì)話國(guó)際榜單和數(shù)據(jù)集上取得SOTA。
基于AliceMind技術(shù),達(dá)摩院先后斬獲了35個(gè)冠軍,在某些領(lǐng)域的水平已經(jīng)非常接近人類(lèi)對(duì)語(yǔ)言理解的程度了。并且,該技術(shù)已面向全球開(kāi)發(fā)者開(kāi)源。
眾所周知,大規(guī)模預(yù)訓(xùn)練模型開(kāi)發(fā)成本極高,玩家通常集中于頭部科技企業(yè),但新的模型賦能范式,使得更多中小團(tuán)隊(duì)、個(gè)人開(kāi)發(fā)者也能分享大模型的紅利。
……
據(jù)了解,目前阿里達(dá)摩院語(yǔ)音語(yǔ)義領(lǐng)域的研究已有300百多篇論文被國(guó)際頂會(huì)收錄,相關(guān)研究已應(yīng)用于醫(yī)療、電力、電商等領(lǐng)域。
此前,IDC發(fā)布《2021H2中國(guó)AI云服務(wù)市場(chǎng)研究報(bào)告》中,阿里在語(yǔ)音和語(yǔ)義市場(chǎng)上的份額便取得了第一的成績(jī)。
語(yǔ)音語(yǔ)義的前史和未來(lái)
在人工智能發(fā)展長(zhǎng)河中,語(yǔ)音語(yǔ)義是最早起步的技術(shù)之一,也是人工智能的基石。
語(yǔ)音技術(shù)最早可以追溯到1952年,貝爾實(shí)驗(yàn)室的Davis等人研制出了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)Audry,從此拉開(kāi)了語(yǔ)音識(shí)別發(fā)展的序幕。
語(yǔ)義技術(shù)更是可以追溯到1947年,當(dāng)時(shí)英美科學(xué)家聯(lián)手提出了利用計(jì)算機(jī)進(jìn)行語(yǔ)言自動(dòng)翻譯的設(shè)想,機(jī)器翻譯的誕生也正意味著打開(kāi)了語(yǔ)義發(fā)展的大門(mén)。
于是,讓機(jī)器“聽(tīng)到”、“聽(tīng)懂”人類(lèi)語(yǔ)言這件事,便在那段時(shí)間起,成為了學(xué)界和產(chǎn)業(yè)界爭(zhēng)相發(fā)展的技術(shù)高地。
各界的紛紛投入,也讓工業(yè)界誕生了眾多“史詩(shī)級(jí)”的產(chǎn)品,例如蘋(píng)果在2011年發(fā)布的Siri,以及后來(lái)亞馬遜、谷歌、微軟等推出的Alexa、Google Assistant、Cortana等。
另一方面,這背后的技術(shù)也產(chǎn)生了革命性的迭代變遷,例如近幾年Transformer、Bert等技術(shù)的爆發(fā),極大地推動(dòng)了語(yǔ)音語(yǔ)義技術(shù)的發(fā)展。
在這種大趨勢(shì)的背后,更重要的意義在于語(yǔ)音語(yǔ)義已然是普通人“唾手可用”的技術(shù)。
以阿里為例,達(dá)摩院的機(jī)器翻譯技術(shù)每天為國(guó)內(nèi)200萬(wàn)中小商家翻譯上億文字 ,讓不懂英語(yǔ)和小語(yǔ)種的商家也能把國(guó)貨賣(mài)到全世界。
這樣的技術(shù)還已應(yīng)用到了“買(mǎi)票”場(chǎng)景。
去年年中,北京首都機(jī)場(chǎng)和大興機(jī)場(chǎng)均開(kāi)通了語(yǔ)音購(gòu)票的服務(wù),只需要乘客張張嘴說(shuō)出目的地,便可以在1.6秒內(nèi)快速完成選站。
事實(shí)上,未來(lái)任何硬件終端都可以集成語(yǔ)言AI技術(shù),這樣的應(yīng)用空間是巨大的,這也正是國(guó)內(nèi)外學(xué)者、科技巨頭紛紛發(fā)力于此的原因。
就像中國(guó)計(jì)算機(jī)學(xué)會(huì)副理事長(zhǎng)、瀾舟科技創(chuàng)始人兼CEO周明所評(píng)價(jià)的那般:
自然語(yǔ)言技術(shù)是人工智能領(lǐng)域的核心技術(shù),過(guò)去幾年預(yù)訓(xùn)練模型的興起已經(jīng)讓這一技術(shù)領(lǐng)域取得了質(zhì)的飛躍,也加速了人工智能領(lǐng)域從感知智能走向認(rèn)知智能的進(jìn)程。
這一系列突破將給各行各業(yè)乃至個(gè)人生活帶來(lái)巨大的價(jià)值,很高興看到以阿里巴巴為代表的的中國(guó)科技公司在該領(lǐng)域進(jìn)入了世界第一梯隊(duì)。”
也正如Gartner在此次報(bào)告中所述:
企業(yè)正在開(kāi)發(fā)大規(guī)模語(yǔ)言模型,以提供更廣泛的語(yǔ)言服務(wù)。主要云服務(wù)商正在利用其云基礎(chǔ)設(shè)施開(kāi)發(fā)專(zhuān)有語(yǔ)言模型。較小的供應(yīng)商正在利用開(kāi)源軟件、數(shù)據(jù)和機(jī)器學(xué)習(xí)模型進(jìn)行競(jìng)爭(zhēng)。
但縱觀語(yǔ)音語(yǔ)義的發(fā)展,有一點(diǎn)是始終未曾變化的,那就是它的理想目標(biāo)——和機(jī)器對(duì)話,像在跟人類(lèi)交流。
前不久谷歌研究員爆料“AI具備人格”的事件在科技圈引發(fā)了熱議,雖然后來(lái)谷歌對(duì)其已經(jīng)進(jìn)行了辟謠,但其背后無(wú)法掩蓋的事實(shí)是AI正在逐漸向人類(lèi)逼近。
那么在未來(lái),語(yǔ)音語(yǔ)義技術(shù)又將如何顛覆人們的生活,是值得期待了。