核心提示:獨(dú)家 | 創(chuàng)新工場(chǎng)首席科學(xué)家周明:NLP 與金融「聯(lián)姻」,從經(jīng)濟(jì)實(shí)惠的小模型開始
6月6日,創(chuàng)新工場(chǎng)首席科學(xué)家、瀾舟科技創(chuàng)始人周明
獨(dú)家 | 創(chuàng)新工場(chǎng)首席科學(xué)家周明:NLP 與金融「聯(lián)姻」,從經(jīng)濟(jì)實(shí)惠的小模型開始
6月6日,創(chuàng)新工場(chǎng)首席科學(xué)家、瀾舟科技創(chuàng)始人周明博士代表瀾舟科技,在北京與華夏基金簽署戰(zhàn)略合作協(xié)議,宣告成立「金融NLP聯(lián)合實(shí)驗(yàn)室」。
這是繼周明在2020年12月離開微軟亞洲研究院后的又一個(gè)重大動(dòng)向。
周明博士是我國(guó)研究自然語(yǔ)言處理(NLP)的先驅(qū)者之一:
他是中國(guó)第一個(gè)中英翻譯系統(tǒng)CEMT-I(哈工大1989年)、日本最有名的中日機(jī)器翻譯產(chǎn)品J-北京(日本高電社1998年)的研制者,曾擔(dān)任2019年國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)主席,中國(guó)計(jì)算機(jī)學(xué)會(huì)理事、中文信息技術(shù)專委會(huì)主任、術(shù)語(yǔ)工作委員會(huì)主任、中國(guó)中文信息學(xué)會(huì)常務(wù)理事,谷歌學(xué)術(shù)引用數(shù)超過(guò)32000次。
1999年,周明加入微軟亞洲研究院,隨后擔(dān)任自然語(yǔ)言研究組的負(fù)責(zé)人、微軟亞研副院長(zhǎng)。2020年12月,他從微軟離職,隨后加入創(chuàng)新工場(chǎng)擔(dān)任首席科學(xué)家,2021年6月孵化出瀾舟科技,7月就推出輕量化模型——「孟子」,在中文語(yǔ)言理解評(píng)測(cè)CLUE榜單的多項(xiàng)指標(biāo)上登頂?shù)谝,引起不少關(guān)注。
如今,不到一年,瀾舟科技便與華夏基金成立「金融NLP聯(lián)合實(shí)驗(yàn)室」,致力于在金融場(chǎng)景中實(shí)現(xiàn)NLP技術(shù)的落地,成長(zhǎng)著實(shí)迅速。而據(jù)AI科技評(píng)論與周明博士的對(duì)話,在此次與金融的「聯(lián)姻」中,輕量化模型「孟子」將扮演重要角色。 獨(dú)家 | 創(chuàng)新工場(chǎng)首席科學(xué)家周明:NLP 與金融「聯(lián)姻」,從經(jīng)濟(jì)實(shí)惠的小模型開始
根據(jù)華夏基金首席數(shù)據(jù)官陳一昕的介紹,在以往的「金融+NLP」建設(shè)中,他們往往面臨模型與行業(yè)場(chǎng)景適配性差、訓(xùn)練代價(jià)大、中文理解能力不足等問(wèn)題。面對(duì)金融領(lǐng)域文本專業(yè)性強(qiáng)、應(yīng)用場(chǎng)景多變的情況,構(gòu)建落地快、易迭代、可適配金融垂直領(lǐng)域的中文NLP模型是一個(gè)亟待實(shí)現(xiàn)的目標(biāo)。
而此時(shí),「孟子」的輕量化優(yōu)勢(shì)便發(fā)揮了出來(lái)。
周明告訴AI科技評(píng)論,諸如「孟子」的輕量化模型部署成本低,能夠快速迭代,用戶壓力小,且適配性強(qiáng)。此外,通過(guò)知識(shí)融合、數(shù)據(jù)增強(qiáng),能力上或并不遜于大模型,十分適合金融場(chǎng)景的需求,更容易落地。
以下是雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))-AI科技評(píng)論與周明博士的對(duì)話:
AI科技評(píng)論:能否簡(jiǎn)單介紹一下瀾舟科技跟華夏基金共同成立金融NLP聯(lián)合實(shí)驗(yàn)室的背景?
周明:我在2020年年底從微軟亞洲研究院離開,到創(chuàng)新工場(chǎng)擔(dān)任首席科學(xué)家,去年6月孵化了瀾舟科技。瀾舟科技的核心技術(shù)是自然語(yǔ)言理解,可以用于實(shí)現(xiàn)文本的智能理解、搜索、問(wèn)答、摘要、翻譯以及知識(shí)圖譜等等。但具體落地,要找一個(gè)場(chǎng)景。
剛創(chuàng)立瀾舟科技時(shí),我就首先想到金融。那時(shí)候我就想,要進(jìn)入金融領(lǐng)域,不能隔靴瘙癢,而是要有更緊密的合作。我們要了解金融的需求,金融方也要知道我們的技術(shù)長(zhǎng)板和短板,所以我就開始尋找能夠緊密合作的金融伙伴。
恰好在去年10月,我應(yīng)邀參加一個(gè)在上海舉行的智能投研大會(huì),做了一個(gè)特邀報(bào)告,其中介紹了瀾舟科技的自然語(yǔ)言處理技術(shù),包括「孟子」預(yù)訓(xùn)練模型。華夏基金的楊思成在臺(tái)下,對(duì)我們很感興趣,就介紹我和華夏基金的首席數(shù)據(jù)官陳一昕認(rèn)識(shí),雙方一拍即合。
我們共同認(rèn)為,過(guò)去科技企業(yè)與金融公司的項(xiàng)目合作模式不夠密切。項(xiàng)目制是甲方與乙方,對(duì)方擬好一個(gè)需求,我圍繞需求提供技術(shù)、按時(shí)間交付,但技術(shù)的不斷迭代需要科技與場(chǎng)景的緊密結(jié)合,所以我和陳一昕最終決定采用「聯(lián)合實(shí)驗(yàn)室」的方式,把大家放在一個(gè)籃子里,AI 可以隨著市場(chǎng)變化快速迭代,業(yè)務(wù)也可以更了解 AI。
AI科技評(píng)論:項(xiàng)目制是目前 AI/NLP 與其他領(lǐng)域結(jié)合的主流合作形式嗎?聯(lián)合實(shí)驗(yàn)室是不是相對(duì)比較少?
周明:是的。在這里我要解釋一下,金融是一個(gè)特殊的領(lǐng)域,不像有的領(lǐng)域可以實(shí)現(xiàn)相對(duì)標(biāo)準(zhǔn)化的服務(wù),「AI+金融」或「金融+AI」在當(dāng)前還沒有定論。
金融的需求沒有那么明確,而且場(chǎng)景多樣化,同時(shí) AI 技術(shù)也在不停地迭代,例如,大模型約每三個(gè)月就要迭代一次。
因此,金融行業(yè)的人士對(duì) AI 是既渴望、又覺得太繁復(fù),跟不上 AI 的節(jié)奏。在這種方式下,項(xiàng)目制就會(huì)產(chǎn)生一些問(wèn)題,而聯(lián)合實(shí)驗(yàn)室則能更靈活地應(yīng)付這種快速多變的局面,把雙方的優(yōu)勢(shì)與長(zhǎng)處發(fā)揮出來(lái)。
AI科技評(píng)論:據(jù)您觀察,目前國(guó)內(nèi)做 NLP 落地、或憑借 NLP 技術(shù)進(jìn)軍金融領(lǐng)域的公司多嗎?
周明:兩者都不多。由于技術(shù)的局限性,NLP落地很難,因此全世界的NLP公司都比較少,但像百度、微軟、谷歌等背后都有 NLP 團(tuán)隊(duì),主要是服務(wù)于它們自身的業(yè)務(wù)和產(chǎn)品,作為一個(gè)部件,例如拼寫檢查、文檔分析、索引等等,但極少有公司專門以 NLP 技術(shù)立足。
近兩年大模型出現(xiàn)后,NLP 的能力大幅度提升,開始有人嘗試基于 NLP 技術(shù)創(chuàng)業(yè),但受疫情影響無(wú)法推行,很多科研者還在等待機(jī)會(huì)。也有將 NLP 當(dāng)應(yīng)用的公司,例如客服公司,但并非專門研究NLP。
AI科技評(píng)論:金融業(yè)務(wù)有哪些特征?在金融場(chǎng)景中,NLP能夠解決什么樣的問(wèn)題?
周明:首先說(shuō)NLP(自然語(yǔ)言處理)技術(shù)。目前 NLP 領(lǐng)域有許多基于互聯(lián)網(wǎng)的海量數(shù)據(jù)訓(xùn)練出來(lái)的大規(guī)模預(yù)訓(xùn)練模型,過(guò)去幾年也在全世界引起了廣泛關(guān)注。但瀾舟科技做的是「孟子」輕量化模型,模型不大、容易落地,同時(shí)又具備分析、搜索、翻譯、生成等能力。
NLP的這些能力在金融領(lǐng)域有很多用處,比如智能信息抽取。幾乎所有金融單位都要處理很多無(wú)結(jié)構(gòu)、有結(jié)構(gòu)或半結(jié)構(gòu)的文檔,如網(wǎng)頁(yè)有表格、有字段。舉個(gè)例子,基金的變化,昨天的價(jià)格多少、今天的價(jià)格多少、基金數(shù)量、購(gòu)買人數(shù)、交易量、上升與下降幅度等等,有可能寫在年報(bào)里,也有可能寫在網(wǎng)頁(yè)里,我們就可以使用智能文檔分析技術(shù),將其重要信息抽取出來(lái)形成數(shù)據(jù)庫(kù)。
再聯(lián)想其他能力,NLP 幾乎貫穿金融業(yè)務(wù)的所有環(huán)節(jié),所以金融機(jī)構(gòu)都重視 NLP 技術(shù)。但如何將NLP能力開發(fā)好、部署好,成本極低又能快速便捷地用起來(lái),卻是不容易做到的。
AI科技評(píng)論:在這次NLP與金融的聯(lián)合中,「孟子」模型的落地如何體現(xiàn)?
周明:「孟子」在瀾舟公司的所有技術(shù)體系中都會(huì)體現(xiàn),包括智能文檔、信息抽取、知識(shí)圖譜、搜索問(wèn)答,還有文本生成等,這些核心技術(shù)均會(huì)進(jìn)入到跟華夏一同成立的聯(lián)合實(shí)驗(yàn)室中!该献印箷(huì)基于一些金融數(shù)據(jù)做訓(xùn)練,從而獲得處理金融數(shù)據(jù)的能力。
基于「孟子」,我們希望可以在金融領(lǐng)域中做文檔智能信息抽取、OCR、輿情分析、暴雷事件分析、報(bào)警、風(fēng)控,也可以做國(guó)內(nèi)外金融信息的抽取匯總和檢索、年報(bào)的自動(dòng)生成和和行情預(yù)判等等,還有金融行業(yè)需要的客服、獲客、客戶推薦優(yōu)秀產(chǎn)品、客戶跟蹤、用戶畫像等。
AI科技評(píng)論:「孟子」強(qiáng)調(diào)的是小模型,小模型對(duì)于處理金融領(lǐng)域的問(wèn)題是否有獨(dú)特的優(yōu)勢(shì)?
周明:在一定的情況下,模型越大、參數(shù)越多,泛化能力就越強(qiáng)、水平就越高,這是共識(shí)。但訓(xùn)練一個(gè)巨大的模型需要巨大算力,在使用大模型時(shí),推理也需要很大的計(jì)算集群,需要買成百上千張卡來(lái)支持運(yùn)行,一般的公司(包括金融機(jī)構(gòu))都負(fù)擔(dān)不起,性價(jià)比也拉低。
而輕量化模型對(duì)用戶的壓力非常小,一般情況下只用少量GPU,甚至有些任務(wù)只用CPU也可以,部署成本可以大幅降低,又快又準(zhǔn)。即便性能也許比大模型差了一點(diǎn),但在大部分用戶看來(lái)是劃算的。也是基于這樣的市場(chǎng),我們?cè)诔闪懼劭萍紩r(shí)就決定做輕量化模型。
瀾舟科技是國(guó)內(nèi)最早研究輕量化模型的公司之一。在研究「孟子」時(shí),我們以為模型的能力會(huì)大幅削弱,但后來(lái)發(fā)現(xiàn),如果輕量化模型的算法過(guò)關(guān),加上知識(shí)的融入、數(shù)據(jù)的增強(qiáng),輕量化模型有可能不輸給大模型。這是非常了不起的一件事。
6月6日,創(chuàng)新工場(chǎng)首席科學(xué)家、瀾舟科技創(chuàng)始人周明博士代表瀾舟科技,在北京與華夏基金簽署戰(zhàn)略合作協(xié)議,宣告成立「金融NLP聯(lián)合實(shí)驗(yàn)室」。
這是繼周明在2020年12月離開微軟亞洲研究院后的又一個(gè)重大動(dòng)向。
周明博士是我國(guó)研究自然語(yǔ)言處理(NLP)的先驅(qū)者之一:
他是中國(guó)第一個(gè)中英翻譯系統(tǒng)CEMT-I(哈工大1989年)、日本最有名的中日機(jī)器翻譯產(chǎn)品J-北京(日本高電社1998年)的研制者,曾擔(dān)任2019年國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)主席,中國(guó)計(jì)算機(jī)學(xué)會(huì)理事、中文信息技術(shù)專委會(huì)主任、術(shù)語(yǔ)工作委員會(huì)主任、中國(guó)中文信息學(xué)會(huì)常務(wù)理事,谷歌學(xué)術(shù)引用數(shù)超過(guò)32000次。
1999年,周明加入微軟亞洲研究院,隨后擔(dān)任自然語(yǔ)言研究組的負(fù)責(zé)人、微軟亞研副院長(zhǎng)。2020年12月,他從微軟離職,隨后加入創(chuàng)新工場(chǎng)擔(dān)任首席科學(xué)家,2021年6月孵化出瀾舟科技,7月就推出輕量化模型——「孟子」,在中文語(yǔ)言理解評(píng)測(cè)CLUE榜單的多項(xiàng)指標(biāo)上登頂?shù)谝,引起不少關(guān)注。
如今,不到一年,瀾舟科技便與華夏基金成立「金融NLP聯(lián)合實(shí)驗(yàn)室」,致力于在金融場(chǎng)景中實(shí)現(xiàn)NLP技術(shù)的落地,成長(zhǎng)著實(shí)迅速。而據(jù)AI科技評(píng)論與周明博士的對(duì)話,在此次與金融的「聯(lián)姻」中,輕量化模型「孟子」將扮演重要角色。 獨(dú)家 | 創(chuàng)新工場(chǎng)首席科學(xué)家周明:NLP 與金融「聯(lián)姻」,從經(jīng)濟(jì)實(shí)惠的小模型開始
根據(jù)華夏基金首席數(shù)據(jù)官陳一昕的介紹,在以往的「金融+NLP」建設(shè)中,他們往往面臨模型與行業(yè)場(chǎng)景適配性差、訓(xùn)練代價(jià)大、中文理解能力不足等問(wèn)題。面對(duì)金融領(lǐng)域文本專業(yè)性強(qiáng)、應(yīng)用場(chǎng)景多變的情況,構(gòu)建落地快、易迭代、可適配金融垂直領(lǐng)域的中文NLP模型是一個(gè)亟待實(shí)現(xiàn)的目標(biāo)。
而此時(shí),「孟子」的輕量化優(yōu)勢(shì)便發(fā)揮了出來(lái)。
周明告訴AI科技評(píng)論,諸如「孟子」的輕量化模型部署成本低,能夠快速迭代,用戶壓力小,且適配性強(qiáng)。此外,通過(guò)知識(shí)融合、數(shù)據(jù)增強(qiáng),能力上或并不遜于大模型,十分適合金融場(chǎng)景的需求,更容易落地。
以下是雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))-AI科技評(píng)論與周明博士的對(duì)話:
AI科技評(píng)論:能否簡(jiǎn)單介紹一下瀾舟科技跟華夏基金共同成立金融NLP聯(lián)合實(shí)驗(yàn)室的背景?
周明:我在2020年年底從微軟亞洲研究院離開,到創(chuàng)新工場(chǎng)擔(dān)任首席科學(xué)家,去年6月孵化了瀾舟科技。瀾舟科技的核心技術(shù)是自然語(yǔ)言理解,可以用于實(shí)現(xiàn)文本的智能理解、搜索、問(wèn)答、摘要、翻譯以及知識(shí)圖譜等等。但具體落地,要找一個(gè)場(chǎng)景。
剛創(chuàng)立瀾舟科技時(shí),我就首先想到金融。那時(shí)候我就想,要進(jìn)入金融領(lǐng)域,不能隔靴瘙癢,而是要有更緊密的合作。我們要了解金融的需求,金融方也要知道我們的技術(shù)長(zhǎng)板和短板,所以我就開始尋找能夠緊密合作的金融伙伴。
恰好在去年10月,我應(yīng)邀參加一個(gè)在上海舉行的智能投研大會(huì),做了一個(gè)特邀報(bào)告,其中介紹了瀾舟科技的自然語(yǔ)言處理技術(shù),包括「孟子」預(yù)訓(xùn)練模型。華夏基金的楊思成在臺(tái)下,對(duì)我們很感興趣,就介紹我和華夏基金的首席數(shù)據(jù)官陳一昕認(rèn)識(shí),雙方一拍即合。
我們共同認(rèn)為,過(guò)去科技企業(yè)與金融公司的項(xiàng)目合作模式不夠密切。項(xiàng)目制是甲方與乙方,對(duì)方擬好一個(gè)需求,我圍繞需求提供技術(shù)、按時(shí)間交付,但技術(shù)的不斷迭代需要科技與場(chǎng)景的緊密結(jié)合,所以我和陳一昕最終決定采用「聯(lián)合實(shí)驗(yàn)室」的方式,把大家放在一個(gè)籃子里,AI 可以隨著市場(chǎng)變化快速迭代,業(yè)務(wù)也可以更了解 AI。
AI科技評(píng)論:項(xiàng)目制是目前 AI/NLP 與其他領(lǐng)域結(jié)合的主流合作形式嗎?聯(lián)合實(shí)驗(yàn)室是不是相對(duì)比較少?
周明:是的。在這里我要解釋一下,金融是一個(gè)特殊的領(lǐng)域,不像有的領(lǐng)域可以實(shí)現(xiàn)相對(duì)標(biāo)準(zhǔn)化的服務(wù),「AI+金融」或「金融+AI」在當(dāng)前還沒有定論。
金融的需求沒有那么明確,而且場(chǎng)景多樣化,同時(shí) AI 技術(shù)也在不停地迭代,例如,大模型約每三個(gè)月就要迭代一次。
因此,金融行業(yè)的人士對(duì) AI 是既渴望、又覺得太繁復(fù),跟不上 AI 的節(jié)奏。在這種方式下,項(xiàng)目制就會(huì)產(chǎn)生一些問(wèn)題,而聯(lián)合實(shí)驗(yàn)室則能更靈活地應(yīng)付這種快速多變的局面,把雙方的優(yōu)勢(shì)與長(zhǎng)處發(fā)揮出來(lái)。
AI科技評(píng)論:據(jù)您觀察,目前國(guó)內(nèi)做 NLP 落地、或憑借 NLP 技術(shù)進(jìn)軍金融領(lǐng)域的公司多嗎?
周明:兩者都不多。由于技術(shù)的局限性,NLP落地很難,因此全世界的NLP公司都比較少,但像百度、微軟、谷歌等背后都有 NLP 團(tuán)隊(duì),主要是服務(wù)于它們自身的業(yè)務(wù)和產(chǎn)品,作為一個(gè)部件,例如拼寫檢查、文檔分析、索引等等,但極少有公司專門以 NLP 技術(shù)立足。
近兩年大模型出現(xiàn)后,NLP 的能力大幅度提升,開始有人嘗試基于 NLP 技術(shù)創(chuàng)業(yè),但受疫情影響無(wú)法推行,很多科研者還在等待機(jī)會(huì)。也有將 NLP 當(dāng)應(yīng)用的公司,例如客服公司,但并非專門研究NLP。
AI科技評(píng)論:金融業(yè)務(wù)有哪些特征?在金融場(chǎng)景中,NLP能夠解決什么樣的問(wèn)題?
周明:首先說(shuō)NLP(自然語(yǔ)言處理)技術(shù)。目前 NLP 領(lǐng)域有許多基于互聯(lián)網(wǎng)的海量數(shù)據(jù)訓(xùn)練出來(lái)的大規(guī)模預(yù)訓(xùn)練模型,過(guò)去幾年也在全世界引起了廣泛關(guān)注。但瀾舟科技做的是「孟子」輕量化模型,模型不大、容易落地,同時(shí)又具備分析、搜索、翻譯、生成等能力。
NLP的這些能力在金融領(lǐng)域有很多用處,比如智能信息抽取。幾乎所有金融單位都要處理很多無(wú)結(jié)構(gòu)、有結(jié)構(gòu)或半結(jié)構(gòu)的文檔,如網(wǎng)頁(yè)有表格、有字段。舉個(gè)例子,基金的變化,昨天的價(jià)格多少、今天的價(jià)格多少、基金數(shù)量、購(gòu)買人數(shù)、交易量、上升與下降幅度等等,有可能寫在年報(bào)里,也有可能寫在網(wǎng)頁(yè)里,我們就可以使用智能文檔分析技術(shù),將其重要信息抽取出來(lái)形成數(shù)據(jù)庫(kù)。
再聯(lián)想其他能力,NLP 幾乎貫穿金融業(yè)務(wù)的所有環(huán)節(jié),所以金融機(jī)構(gòu)都重視 NLP 技術(shù)。但如何將NLP能力開發(fā)好、部署好,成本極低又能快速便捷地用起來(lái),卻是不容易做到的。
AI科技評(píng)論:在這次NLP與金融的聯(lián)合中,「孟子」模型的落地如何體現(xiàn)?
周明:「孟子」在瀾舟公司的所有技術(shù)體系中都會(huì)體現(xiàn),包括智能文檔、信息抽取、知識(shí)圖譜、搜索問(wèn)答,還有文本生成等,這些核心技術(shù)均會(huì)進(jìn)入到跟華夏一同成立的聯(lián)合實(shí)驗(yàn)室中!该献印箷(huì)基于一些金融數(shù)據(jù)做訓(xùn)練,從而獲得處理金融數(shù)據(jù)的能力。
基于「孟子」,我們希望可以在金融領(lǐng)域中做文檔智能信息抽取、OCR、輿情分析、暴雷事件分析、報(bào)警、風(fēng)控,也可以做國(guó)內(nèi)外金融信息的抽取匯總和檢索、年報(bào)的自動(dòng)生成和和行情預(yù)判等等,還有金融行業(yè)需要的客服、獲客、客戶推薦優(yōu)秀產(chǎn)品、客戶跟蹤、用戶畫像等。
AI科技評(píng)論:「孟子」強(qiáng)調(diào)的是小模型,小模型對(duì)于處理金融領(lǐng)域的問(wèn)題是否有獨(dú)特的優(yōu)勢(shì)?
周明:在一定的情況下,模型越大、參數(shù)越多,泛化能力就越強(qiáng)、水平就越高,這是共識(shí)。但訓(xùn)練一個(gè)巨大的模型需要巨大算力,在使用大模型時(shí),推理也需要很大的計(jì)算集群,需要買成百上千張卡來(lái)支持運(yùn)行,一般的公司(包括金融機(jī)構(gòu))都負(fù)擔(dān)不起,性價(jià)比也拉低。
而輕量化模型對(duì)用戶的壓力非常小,一般情況下只用少量GPU,甚至有些任務(wù)只用CPU也可以,部署成本可以大幅降低,又快又準(zhǔn)。即便性能也許比大模型差了一點(diǎn),但在大部分用戶看來(lái)是劃算的。也是基于這樣的市場(chǎng),我們?cè)诔闪懼劭萍紩r(shí)就決定做輕量化模型。
瀾舟科技是國(guó)內(nèi)最早研究輕量化模型的公司之一。在研究「孟子」時(shí),我們以為模型的能力會(huì)大幅削弱,但后來(lái)發(fā)現(xiàn),如果輕量化模型的算法過(guò)關(guān),加上知識(shí)的融入、數(shù)據(jù)的增強(qiáng),輕量化模型有可能不輸給大模型。這是非常了不起的一件事。