可理解三維場景處理多模態(tài)關(guān)聯(lián)應(yīng)用需求……“紫東太初”全模態(tài)大模型發(fā)布

發(fā)布日期：2023-06-19 來源：新華網(wǎng) 瀏覽次數(shù)：101

可理解三維場景處理多模態(tài)關(guān)聯(lián)應(yīng)用需求……“紫東太初”全模態(tài)大模型發(fā)布

新華社北京6月16日電（記者宋晨、張泉）在三維場景里實現(xiàn)精準(zhǔn)定位，通過圖像與聲音的結(jié)合完成場景分析……中科院自動化研究所發(fā)布“紫東太初”全模態(tài)大模型，并首次對外實時展示了該模型在音樂理解與生成、三維場景導(dǎo)航、信號理解、多模態(tài)對話等方面的全新功能。

這是記者6月16日在“人工智能框架生態(tài)峰會2023”上了解到的信息。

“紫東太初”全模態(tài)大模型發(fā)布現(xiàn)場。（中科院自動化所供圖）

中科院自動化研究所所長徐波介紹，“紫東太初”全模態(tài)大模型是在多模態(tài)大模型“紫東太初”1.0基礎(chǔ)上升級打造的2.0版本，在語音、圖像和文本三模態(tài)的基礎(chǔ)上，加入視頻、信號、3D點云等模態(tài)數(shù)據(jù)，研究突破了認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián)等關(guān)鍵技術(shù)，具備全模態(tài)理解能力、生成能力和關(guān)聯(lián)能力。

“紫東太初”2.0可以理解三維場景、信號等數(shù)字物聯(lián)時代的重要信息，完成了音樂、圖片和視頻等數(shù)據(jù)之間的跨模態(tài)對齊，能夠處理音樂視頻分析、三維導(dǎo)航等多模態(tài)關(guān)聯(lián)應(yīng)用需求，并可實現(xiàn)音樂、視頻等多模態(tài)內(nèi)容理解和生成。

“從1.0到2.0，‘紫東太初’大模型打通了感知、認(rèn)知乃至決策的交互屏障，使人工智能進(jìn)一步感知世界、認(rèn)知世界，從而延伸出更加強(qiáng)大的通用能力。”徐波說。

目前，“紫東太初”大模型在神經(jīng)外科手術(shù)導(dǎo)航、短視頻內(nèi)容審核、法律咨詢、醫(yī)療多模態(tài)鑒別診斷、交通違規(guī)圖像研讀等領(lǐng)域展現(xiàn)出一定的產(chǎn)業(yè)應(yīng)用前景。

比如，在醫(yī)療場景，“紫東太初”大模型部署于神經(jīng)外科機(jī)器人MicroNeuro，可實現(xiàn)在術(shù)中實時融合視覺、觸覺等多模態(tài)信息，協(xié)助醫(yī)生對手術(shù)場景進(jìn)行實時推理判斷。

關(guān)鍵詞：大模型人工智能三維場景紫東太初

工博士工業(yè)品商城聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點，也不代表本網(wǎng)站對其真實性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與商城(haoruiqc.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
聯(lián)系電話：021-31666777
新聞、技術(shù)文章投稿QQ：3267146135 投稿郵箱：syy@gongboshi.com

相關(guān)閱讀