亚洲一区二区三区日本久久九-男女猛烈激情xx00免费视频-人妻少妇不满足中文字幕-天天鲁在视频在线观看-吃奶呻吟打开双腿做受视频

咨詢熱線:021-80392549

“模型熱”將引發(fā)云計(jì)算與數(shù)據(jù)庫行業(yè)大變革

放大字體  縮小字體 發(fā)布日期:2023-06-16     來源:中國電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng)     瀏覽次數(shù):127
 當(dāng)前,大模型引發(fā)的AI再造產(chǎn)業(yè)趨勢已經(jīng)勢不可擋,對于支撐AI的底層數(shù)據(jù)庫而言更是如此。“以ChatGPT為代表的超大語言模型的迅速應(yīng)用將引發(fā)云計(jì)算與數(shù)據(jù)庫行業(yè)的大變革。”北京酷克數(shù)據(jù)科技有限公司(簡稱“酷克數(shù)據(jù)”)聯(lián)合創(chuàng)始人兼CEO簡麗榮近日在接受《中國電子報(bào)》記者專訪時(shí)表示。大模型熱潮將改變云計(jì)算和數(shù)據(jù)庫市場競爭維度,加速企業(yè)IT架構(gòu)向分布式和并行化發(fā)展的趨勢,這也符合“東數(shù)西算”的政策導(dǎo)向。同時(shí),大模型將會(huì)推動(dòng)多云化的普及,具備中立性、產(chǎn)品支持多云部署的獨(dú)立數(shù)據(jù)庫廠商將有望從中受益。

數(shù)據(jù)處理全鏈路將被重塑

AI大模型是基于海量多源數(shù)據(jù)打造的模型,需要通過不斷地訓(xùn)練從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中捕獲知識,并將知識存儲(chǔ)到大量的參數(shù)中,以建立對各種任務(wù)進(jìn)行高效處理的技術(shù)架構(gòu)。它具備通用、可規(guī);瘡(fù)制等諸多優(yōu)勢,是實(shí)現(xiàn)AGI(通用人工智能)的重要方向。

“‘數(shù)據(jù)倉庫’‘數(shù)據(jù)平臺’和‘大模型’本質(zhì)上都是為了更好地回答決策問題。從某種意義上講,它們之間是相輔相成的。”簡麗榮表示,一方面,數(shù)據(jù)倉庫成熟的數(shù)據(jù)管理、清洗、并行處理技術(shù),可以有效提升訓(xùn)練、微調(diào)大模型所需訓(xùn)練數(shù)據(jù)的處理流程;另一方面,數(shù)倉作為天然的事實(shí)數(shù)據(jù)或知識管理平臺,可以為生成式AI提供正確答案所需的上下文,有效解決大模型普遍存在的“幻覺”問題。數(shù)倉和大模型的有機(jī)結(jié)合,可以更好地幫助企業(yè)實(shí)現(xiàn)輔助決策。

區(qū)別在于,大模型處理數(shù)據(jù)的方式明顯不同于現(xiàn)在主流的數(shù)據(jù)倉庫、數(shù)據(jù)平臺。數(shù)據(jù)倉庫、數(shù)據(jù)平臺往往會(huì)把原始數(shù)據(jù)編制成二維表格,然后進(jìn)行數(shù)據(jù)清洗、規(guī)整、補(bǔ)全等處理,最終通過復(fù)雜的SQL實(shí)現(xiàn)商業(yè)智能。而大模型則需要不斷把原始文本信息用提示的方式進(jìn)行投喂,讓其進(jìn)行深度學(xué)習(xí),從而實(shí)現(xiàn)對任務(wù)的高效處理,這與傳統(tǒng)的基于二維表格的形式存儲(chǔ)、管理數(shù)據(jù)完全不同。

簡麗榮分析稱:“傳統(tǒng)數(shù)據(jù)處理需要消耗大量人力、物力以及時(shí)間,而且有很多環(huán)節(jié)非常容易出錯(cuò),如數(shù)據(jù)清洗、數(shù)據(jù)血緣分析、主數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理、ETL、數(shù)據(jù)分析、數(shù)據(jù)庫運(yùn)維等。以ChatGPT為代表的通用人工智能模型的迅速應(yīng)用,將會(huì)大幅提升數(shù)據(jù)處理全鏈路各個(gè)環(huán)節(jié)的自動(dòng)化程度。”

比如,Text2SQL(即Text-to-SQL,指將自然語言文本轉(zhuǎn)換成結(jié)構(gòu)化查詢語言的過程),就是借助大模型的能力,自動(dòng)根據(jù)自然語言生成結(jié)構(gòu)化查詢語言,完成BI(商業(yè)智能)任務(wù),提升數(shù)據(jù)工程師工作效率。

簡麗榮表示:“大模型的出現(xiàn),一方面,讓大家開始思考如何利用模型的能力去重構(gòu)數(shù)據(jù)處理全鏈路的各個(gè)環(huán)節(jié),以實(shí)現(xiàn)更高程度的智能化、自動(dòng)化;另一方面,也促使大家開始思考如何將數(shù)據(jù)倉庫、數(shù)據(jù)平臺的數(shù)據(jù)處理規(guī)則與大模型進(jìn)行適配,從而更好地支持大模型的訓(xùn)練、調(diào)優(yōu)、部署、推理及應(yīng)用。”

云計(jì)算資源消費(fèi)模式將被改變

眾所周知,大模型訓(xùn)練的關(guān)鍵在于算力、數(shù)據(jù)和算法。簡麗榮認(rèn)為,云計(jì)算平臺正是提供這三個(gè)要素最合適的平臺。首先,大模型需要大量算力,特別是高端GPU;其次,需要海量的數(shù)據(jù),特別是一些高質(zhì)量的數(shù)據(jù);此外,大模型還需要算法的支持,Model as a Service將成為一種新的PaaS服務(wù)。這些都是新的需求,也是云平臺最擅長做的事。所以,大模型的出現(xiàn)將會(huì)非常有效地提振云計(jì)算市場。同時(shí),擁有更強(qiáng)GPU算力的云廠商會(huì)更具競爭優(yōu)勢。

簡麗榮指出,大模型的出現(xiàn),將會(huì)對自然語言處理、計(jì)算機(jī)圖像,甚至自動(dòng)駕駛造成顛覆性的影響,改變這些領(lǐng)域的整個(gè)軟件和硬件技術(shù)棧,從而給云計(jì)算市場帶來全新的資源消費(fèi)模式。

以SaaS服務(wù)為例,大模型對低代碼的沖擊將會(huì)非常明顯。低代碼(或零代碼)核心價(jià)值是通過拖拉組合解決軟件開發(fā)慢、門檻高的問題。然而,大模型的出現(xiàn)顛覆了低代碼的整個(gè)開發(fā)模式。“低代碼能夠覆蓋的應(yīng)用場景是有限的,未來后臺的技術(shù)棧會(huì)被大模型徹底顛覆。”簡麗榮表示。

像ChatGPT之類的大模型可以通過自然語言描述直接創(chuàng)建應(yīng)用程序,AI生成代碼的速度遠(yuǎn)超人工,甚至還可以通過對話持續(xù)提出改進(jìn)建議。此前,曾經(jīng)估值130億美元的AI寫作工具Grammarly在ChatGPT發(fā)布后就出現(xiàn)了網(wǎng)站用戶直線下降的情況。

簡麗榮認(rèn)為,AI應(yīng)用的大規(guī)模推廣實(shí)際上增加了IT行業(yè)的競爭維度,不同的企業(yè)在不同的維度上面的競爭力是不一樣的。IT層會(huì)更加多元化,這自然也會(huì)推動(dòng)多云的普及程度。

未來,大部分普通的非科技企業(yè)用戶只需要調(diào)用云廠商提供的MaaS服務(wù)(模型即服務(wù))來構(gòu)建自己的垂類模型和應(yīng)用,而一些大型企業(yè)用戶出于數(shù)據(jù)安全、行業(yè)監(jiān)管要求、成本、自主可控等因素,可能會(huì)更傾向于建設(shè)自己的基礎(chǔ)平臺來完成專有模型訓(xùn)練和推理任務(wù)。

大模型加速數(shù)據(jù)庫分布化和并行化

伴隨“模型熱”的興起,龐大的數(shù)據(jù)量帶來了存儲(chǔ)和計(jì)算資源的壓力,這要求數(shù)據(jù)庫本身緊密跟云計(jì)算技術(shù)結(jié)合,通過元數(shù)據(jù)、計(jì)算和存儲(chǔ)層解耦,從而充分發(fā)揮云平臺的彈性和擴(kuò)展能力。

簡麗榮認(rèn)為,在大模型爆發(fā)的背景下,數(shù)據(jù)庫需要提供可以橫向的并發(fā)訪問能力、多范式的數(shù)據(jù)處理分析能力(包括支持聲明式語言SQL,過程式語言Python/R,圖計(jì)算、全文檢索、流式計(jì)算、高性能計(jì)算、機(jī)器學(xué)習(xí)和人工智能)和海量異構(gòu)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及實(shí)時(shí)數(shù)據(jù))的存儲(chǔ)管理能力。

在這種趨勢下,基于云原生架構(gòu)的數(shù)據(jù)倉庫將成為未來數(shù)據(jù)庫行業(yè)發(fā)展的重要方向,而大中型企業(yè)考慮到高可用以及議價(jià)能力等因素,通常會(huì)選擇多云部署的模式。

“這種趨勢對我們做多云數(shù)據(jù)庫的企業(yè)也有明顯影響,用我們的核心產(chǎn)品HashData云數(shù)倉為例,設(shè)計(jì)之初,我們對多云部署場景的考慮是通過將系統(tǒng)的不同組件解耦,降低對特定接口的依賴,方便對接各種開放的云平臺,滿足企業(yè)數(shù)據(jù)在不同云平臺流轉(zhuǎn)的需求。”簡麗榮說,“我們現(xiàn)在在開發(fā)增強(qiáng)HashData數(shù)據(jù)倉庫支持向量數(shù)據(jù)存儲(chǔ)和處理檢索能力的功能組件,再結(jié)合云數(shù)倉的高擴(kuò)展性、高可用和高彈性,實(shí)現(xiàn)更好地支撐和擴(kuò)展大模型的應(yīng)用場景。”簡麗榮表示。

與此同時(shí),分布式和并行化潮流將進(jìn)一步加速。“大模型的應(yīng)用將進(jìn)一步加速數(shù)據(jù)庫行業(yè)的分布式和并行化潮流,而且在一個(gè)更深更廣的層面上進(jìn)行分布式和并行化。”簡麗榮表示,“更深指的是更多異構(gòu)的算力資源需要并行化,包括CPU、GPU、DPU等,更廣指的是類似‘東數(shù)西算’工程,這些都要求數(shù)據(jù)系統(tǒng)能夠更好地提供共享和協(xié)作能力。”

此外,除了類似ChatGPT一樣的To C的形態(tài)外,大模型在企業(yè)級市場將更多地以個(gè)性化、獨(dú)立部署的形態(tài)出現(xiàn),也就是說各行各業(yè)甚至同一家企業(yè)不同的部門都會(huì)有各自的大模型實(shí)例,類似行業(yè)專家。在這樣的背景下,需要在數(shù)據(jù)庫內(nèi)核集成深度學(xué)習(xí)和大模型的能力。

“無論是數(shù)據(jù)分析全鏈路的各個(gè)環(huán)節(jié)還是數(shù)據(jù)庫自身的運(yùn)維工作,都非常耗時(shí)和依賴經(jīng)驗(yàn),我們正在嘗試?yán)么竽P陀?xùn)練數(shù)據(jù)庫領(lǐng)域的專家系統(tǒng),期望提升數(shù)據(jù)分析和數(shù)據(jù)庫智能運(yùn)維能力,實(shí)現(xiàn)在數(shù)據(jù)庫范圍內(nèi)有類似于‘自動(dòng)駕駛’一樣的功能。”簡麗榮表示。

工博士工業(yè)品商城聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對其真實(shí)性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與商城(haoruiqc.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
聯(lián)系電話:021-31666777
新聞、技術(shù)文章投稿QQ:3267146135  投稿郵箱:syy@gongboshi.com