核心提示:如果要為最近這波芯片潮找一個(gè)先驅(qū),AI芯片當(dāng)之無(wú)愧。因?yàn)榭吹搅薌PU從人工智能上找到的巨大機(jī)遇,廣大深度學(xué)習(xí)關(guān)注者便開(kāi)始探
如果要為最近這波芯片潮找一個(gè)先驅(qū),AI芯片當(dāng)之無(wú)愧。
因?yàn)榭吹搅薌PU從人工智能上找到的巨大機(jī)遇,廣大深度學(xué)習(xí)關(guān)注者便開(kāi)始探索DSA在人工智能應(yīng)用上的落地嘗試。但在歷經(jīng)過(guò)去多年的試水,不少?gòu)臉I(yè)人員會(huì)發(fā)現(xiàn),AI在落地方面面臨著比他們預(yù)想中更難、更多的挑戰(zhàn)。
在本文中,我們與一個(gè)從2016年就開(kāi)始做AI芯片的行業(yè)老兵李豐(化名)進(jìn)行了一番交流,在此過(guò)程中,他從一個(gè)行業(yè)深度參與者,分享了他對(duì)行業(yè)現(xiàn)狀和未來(lái)的看法。
AI芯片市場(chǎng)現(xiàn)狀
華爾街日?qǐng)?bào)在今年三月份的報(bào)道中指出,根據(jù)市場(chǎng)研究公司 PitchBook Data Inc 的數(shù)據(jù),人工智能芯片初創(chuàng)公司在2021年通過(guò) 170 筆交易獲得了約 99 億美元的風(fēng)險(xiǎn)投資,這個(gè)數(shù)字是AI 芯片初創(chuàng)公司在2020年獲得的總資金的三倍多。報(bào)道表示,這些融資的公司所從事的領(lǐng)域涵蓋了AI 芯片,旨在優(yōu)化人工智能和機(jī)器學(xué)習(xí)模型的智能傳感器、設(shè)備以及算法。
知名市場(chǎng)分析機(jī)構(gòu)Gartner也表示,全球有 50 多家公司正在專(zhuān)門(mén)為 AI 制造芯片。而預(yù)計(jì)今年用于執(zhí)行人工智能任務(wù)的芯片銷(xiāo)售額將達(dá)到 443 億美元,到 2025 年將達(dá)到 768 億美元。IDC計(jì)算半導(dǎo)體研究副總裁 Shane Rau則直言,目前,大多數(shù) AI 芯片初創(chuàng)公司都依靠投資者的資本而不是銷(xiāo)售額來(lái)運(yùn)營(yíng),因此不受更廣泛的市場(chǎng)力量的影響。
綜合上述分析可以看到,如文章開(kāi)頭所說(shuō),大多數(shù)AI芯片公司可能還處于產(chǎn)業(yè)發(fā)展的混沌期。觀察市場(chǎng)上的AI應(yīng)用,可能大家能看到被廣泛應(yīng)用的場(chǎng)景就是智慧安防。但在很多其他領(lǐng)域,大家也許希望能夠看到AI能夠快速下沉放量,然而卻感覺(jué)事與愿違。
在問(wèn)到AI芯片熱潮緣由的時(shí)候,李豐以一個(gè)例子來(lái)說(shuō)明其背后產(chǎn)生的驅(qū)動(dòng)力之一。他指出,在深度學(xué)習(xí)早期的端側(cè)加速方案中,有很多SIMD DSP的案例,比如來(lái)自多家公司集成CEVA XM4/XM6的多款芯片,其中XM4/XM6正是典型的SIMD DSP。但是DSP的特點(diǎn)決定了它可以做萬(wàn)金油,但用在特定領(lǐng)域時(shí)又發(fā)現(xiàn)不是最合適,所以很快市場(chǎng)上就出現(xiàn)了專(zhuān)用的AI加速芯片。
放大來(lái)看,這也是整個(gè)AI芯片產(chǎn)業(yè)蓬勃發(fā)展的一個(gè)典型范例。
然而,李豐表示,在關(guān)注度大增的AI市場(chǎng),過(guò)去幾年還出現(xiàn)了一些亂象,其中典型的現(xiàn)象比如“實(shí)際算力與紙面算力不符”,而背后的原因正是上面談到的運(yùn)算單元實(shí)際利用率的問(wèn)題。在他看來(lái),這種現(xiàn)象在市場(chǎng)上比比皆是。
“AI芯片市場(chǎng)的現(xiàn)狀更多來(lái)自落地問(wèn)題,特別是在端側(cè)落地,端側(cè)應(yīng)用比較碎片化,需要根據(jù)場(chǎng)景定制AI模型,而訓(xùn)練模型需要大數(shù)據(jù),此時(shí)大數(shù)據(jù)的獲取就成了問(wèn)題”,李豐接著說(shuō)。他同時(shí)指出,如果說(shuō)在山寨手機(jī)時(shí)代,芯片原廠還可以去做“turnkey”方案,那么到了AI時(shí)代,芯片原廠有心無(wú)力,關(guān)鍵是芯片原廠也沒(méi)有辦法獲取數(shù)據(jù),同時(shí)開(kāi)發(fā)者社區(qū)和方案公司都面臨這個(gè)問(wèn)題,導(dǎo)致了整個(gè)AI應(yīng)用開(kāi)發(fā)的活躍程度其實(shí)并不算高。
“你看到的AI應(yīng)用更多是圍繞圖像處理,也就是用AI去補(bǔ)充ISP功能,不否認(rèn)AI對(duì)圖像處理有幫助,但并不是通常意義的機(jī)器視覺(jué)應(yīng)用。”李豐強(qiáng)調(diào)。
AI芯片難在哪里
也許不少人和李豐一樣,在入局AI芯片的時(shí)候低估了其難度。作為一個(gè)鉆研這個(gè)行業(yè)多年的老兵,李豐也總結(jié)了幾點(diǎn)他在過(guò)去幾年對(duì)AI芯片的一些看法以及他認(rèn)為的一些挑戰(zhàn)。
李豐首先指出,AI屬于運(yùn)算密集型應(yīng)用,并行計(jì)算量很大,因此數(shù)據(jù)在運(yùn)算單元和存儲(chǔ)單元之間的傳輸非常頻繁,數(shù)據(jù)的流動(dòng)是產(chǎn)生功耗的主要原因。“因此AI芯片的一個(gè)重要指標(biāo)是能耗效率(energy efficiency), SIMD DSP之所以被替代的一個(gè)重要原因是這個(gè)指標(biāo)不夠好(另一個(gè)原因在于SIMD的并行度依然不夠高)。”李豐接著說(shuō)。
他告訴記者,這個(gè)指標(biāo)的影響因素之一是訪存(memory access),因此這些年產(chǎn)學(xué)界的大部分研究成果就是圍繞這件事,并總結(jié)出AI芯片的三條設(shè)計(jì)原則:1,存儲(chǔ)層次化(memory hierarchy); 2,數(shù)據(jù)復(fù)用(data reuse); 3,片上互連(interconnect)。這三條原則必須同時(shí)使用才能達(dá)到降低訪存的效果,其中選擇不同的數(shù)據(jù)復(fù)用算法又會(huì)有不同的微架構(gòu)。
“總體而言,AI芯片的硬件架構(gòu)比較單純,像谷歌的TPU只有五條指令,其中兩條指令是訪存,另外三條運(yùn)算指令?梢(jiàn),AI芯片硬件設(shè)計(jì)的重點(diǎn)在于如何在提高計(jì)算并行度的同時(shí)最大程度降低訪存,從而達(dá)到提高能耗效率的目標(biāo)。”李豐告訴記者。
此外,AI芯片的難點(diǎn)更多在于軟件部分,即配套的工具鏈,這其中兩個(gè)工具很重要:一個(gè)是編譯器,另一個(gè)是量化工具。
首先看編譯器方面。還是以英偉達(dá)為例。讀者就算沒(méi)用過(guò)也應(yīng)該都知道,英偉達(dá)GPU之所以能夠在AI市場(chǎng)所向披靡,除了得益于其領(lǐng)先的性能外,芯片巨頭花重金打造的CUDA生態(tài)也是不可或缺的重要一環(huán)。
按照東吳證券的報(bào)告,GPU 的微架構(gòu)天生適合矩陣類(lèi)并行計(jì)算,其能力不僅限于顯卡領(lǐng)域,于是從 21 世紀(jì)早期就有專(zhuān)業(yè)的計(jì)算人員想要使用 GPU 做一些 AI 領(lǐng)域相關(guān)的并行計(jì)算。但在 CUDA 問(wèn)世之前,想要調(diào)用 GPU 的計(jì)算能力必須編寫(xiě)大量的底層語(yǔ)言代碼,這是主要使用高級(jí)語(yǔ)言為主的程序員不折不扣的噩夢(mèng)。有見(jiàn)及此,英偉達(dá)公司的 David Kirk主導(dǎo)推出了 CUDA (Compute Unified Device Architecture,統(tǒng)一計(jì)算架構(gòu))系統(tǒng),這是是一個(gè)基于英偉達(dá) GPU 平臺(tái)上面定制的特殊計(jì)算體系/算法,一般只能在英偉達(dá)的 GPU 系統(tǒng)上使用。
英偉達(dá)這個(gè)在一開(kāi)始不被看好的項(xiàng)目,現(xiàn)在成為了公司最堅(jiān)實(shí)的堡壘。過(guò)去幾年的一些AI芯片和GPGPU創(chuàng)業(yè)者,在發(fā)布產(chǎn)品的時(shí)候,也大多談到了與CUDA的兼容,這足以證明一個(gè)好的編譯器的價(jià)值。而根據(jù)英偉達(dá)在GTC 2022上公布的數(shù)據(jù),CUDA 平臺(tái)自 2008 推出以來(lái)已經(jīng)下載了 3300 萬(wàn)次以上,僅在 2021 年就有 800 萬(wàn)次下載,三年內(nèi)增長(zhǎng)了 3 倍。
李豐也指出,編譯器雖然不是新技術(shù),但基于并行計(jì)算的編譯器還并不算成熟,運(yùn)算單元利用率很大程度上取決于編譯器,或者說(shuō)即使硬件層面實(shí)現(xiàn)了足夠高的并行度,但由于編譯器的原因?qū)е聦?shí)際能調(diào)用的運(yùn)算單元達(dá)不到要求,從而體現(xiàn)在算力不夠。
“另外,量化技術(shù)五花八門(mén),多種流派并存,量化手段的多樣性雖然給用戶(hù)帶來(lái)了多種選擇,但似乎沒(méi)有哪個(gè)流派最終勝出,這就給跨平臺(tái)的開(kāi)發(fā)和移植帶來(lái)一些不便。”李豐告訴記者。
“總之,這兩個(gè)工具是AI芯片的難點(diǎn),能做好并不容易!”李豐強(qiáng)調(diào)。
AI芯片何去何從
雖然困難重重,但人工智能是大勢(shì)所趨,AI芯片也是必然需求。對(duì)于相關(guān)從業(yè)者而言,需要考量的就是,未來(lái)的AI芯片會(huì)走向何方。
針對(duì)這個(gè)問(wèn)題,李豐回應(yīng)道,這很大程度依賴(lài)于AI算法的演進(jìn)。他指出,當(dāng)前CNN和transformer兩種算法架構(gòu)并存,單從硬件上看這是兩種運(yùn)算類(lèi)型,前者是卷積運(yùn)算,后者是矩陣乘法,對(duì)硬件設(shè)計(jì)要求不同。
“處理卷積運(yùn)算時(shí),專(zhuān)用硬件有發(fā)揮空間,或者說(shuō)有創(chuàng)新機(jī)會(huì);但處理矩陣乘法運(yùn)算時(shí),是否一定要用專(zhuān)用硬件都是未知數(shù),因?yàn)橥ㄓ锰幚砥鲬?yīng)對(duì)此類(lèi)運(yùn)算已經(jīng)足夠成熟。”李豐表示。
他同時(shí)重申,在數(shù)據(jù)中心(IDC)市場(chǎng),GPU架構(gòu)已經(jīng)是事實(shí)標(biāo)準(zhǔn),其他架構(gòu)難以撼動(dòng),特別是專(zhuān)用硬件在云計(jì)算領(lǐng)域基本上沒(méi)有機(jī)會(huì)。“在端側(cè)市場(chǎng),如果transformer最終勝出,那么不排除出現(xiàn)直接將算法硬件化的芯片,這與我們近年來(lái)提出了DSA(domain specific accelerator)概念也是相符的。”李豐接著說(shuō)。
同時(shí),李豐還談到了近年來(lái)火熱的存內(nèi)計(jì)算概念在AI市場(chǎng)的機(jī)遇。
他指出,這些年比較火的存內(nèi)計(jì)算和神經(jīng)形態(tài)計(jì)算(neuromophic processing)都可以劃歸在模擬計(jì)算領(lǐng)域(analog computing)。其中,存內(nèi)計(jì)算首先在AI領(lǐng)域出現(xiàn)源自三個(gè)原因:第一,訪存問(wèn)題,也即存儲(chǔ)墻問(wèn)題;第二,量化精度進(jìn)入int8時(shí)代;第三,AI本質(zhì)是近似計(jì)算。三者是存內(nèi)計(jì)算在AI領(lǐng)域出現(xiàn)的條件。
“但是這里有一個(gè)問(wèn)題就是,與模擬計(jì)算整體配套的軟件開(kāi)發(fā)環(huán)境并不成熟,換句話說(shuō)雖然硬件上是模擬計(jì)算,或者非馮諾依曼架構(gòu),但軟件還被迫與馮氏架構(gòu)兼容,否則開(kāi)發(fā)者無(wú)法使用,其實(shí)這是一個(gè)很?chē)?yán)重的問(wèn)題。”李豐告訴記者。“說(shuō)的通俗一點(diǎn),像存內(nèi)計(jì)算或者神經(jīng)形態(tài)計(jì)算這種模擬計(jì)算應(yīng)該有屬于自己的軟件開(kāi)發(fā)流程和方法學(xué),但現(xiàn)在還沒(méi)有,何時(shí)能有,并不清晰。”李豐解釋說(shuō)。
在李豐看來(lái),在現(xiàn)在這個(gè)過(guò)渡時(shí)期,模擬計(jì)算或者存內(nèi)計(jì)算優(yōu)勢(shì)比較有限,證據(jù)之一就是這類(lèi)芯片中存在大量的ADC/DAC用于數(shù)模轉(zhuǎn)換。但這些ADC/DAC對(duì)芯片整體指標(biāo)的影響是顯而易見(jiàn)的。
“這好比給蘇炳添穿上緊身皮褲,那么從此再無(wú)9秒83。”李豐表示。
因?yàn)榭吹搅薌PU從人工智能上找到的巨大機(jī)遇,廣大深度學(xué)習(xí)關(guān)注者便開(kāi)始探索DSA在人工智能應(yīng)用上的落地嘗試。但在歷經(jīng)過(guò)去多年的試水,不少?gòu)臉I(yè)人員會(huì)發(fā)現(xiàn),AI在落地方面面臨著比他們預(yù)想中更難、更多的挑戰(zhàn)。
在本文中,我們與一個(gè)從2016年就開(kāi)始做AI芯片的行業(yè)老兵李豐(化名)進(jìn)行了一番交流,在此過(guò)程中,他從一個(gè)行業(yè)深度參與者,分享了他對(duì)行業(yè)現(xiàn)狀和未來(lái)的看法。
AI芯片市場(chǎng)現(xiàn)狀
華爾街日?qǐng)?bào)在今年三月份的報(bào)道中指出,根據(jù)市場(chǎng)研究公司 PitchBook Data Inc 的數(shù)據(jù),人工智能芯片初創(chuàng)公司在2021年通過(guò) 170 筆交易獲得了約 99 億美元的風(fēng)險(xiǎn)投資,這個(gè)數(shù)字是AI 芯片初創(chuàng)公司在2020年獲得的總資金的三倍多。報(bào)道表示,這些融資的公司所從事的領(lǐng)域涵蓋了AI 芯片,旨在優(yōu)化人工智能和機(jī)器學(xué)習(xí)模型的智能傳感器、設(shè)備以及算法。
知名市場(chǎng)分析機(jī)構(gòu)Gartner也表示,全球有 50 多家公司正在專(zhuān)門(mén)為 AI 制造芯片。而預(yù)計(jì)今年用于執(zhí)行人工智能任務(wù)的芯片銷(xiāo)售額將達(dá)到 443 億美元,到 2025 年將達(dá)到 768 億美元。IDC計(jì)算半導(dǎo)體研究副總裁 Shane Rau則直言,目前,大多數(shù) AI 芯片初創(chuàng)公司都依靠投資者的資本而不是銷(xiāo)售額來(lái)運(yùn)營(yíng),因此不受更廣泛的市場(chǎng)力量的影響。
綜合上述分析可以看到,如文章開(kāi)頭所說(shuō),大多數(shù)AI芯片公司可能還處于產(chǎn)業(yè)發(fā)展的混沌期。觀察市場(chǎng)上的AI應(yīng)用,可能大家能看到被廣泛應(yīng)用的場(chǎng)景就是智慧安防。但在很多其他領(lǐng)域,大家也許希望能夠看到AI能夠快速下沉放量,然而卻感覺(jué)事與愿違。
在問(wèn)到AI芯片熱潮緣由的時(shí)候,李豐以一個(gè)例子來(lái)說(shuō)明其背后產(chǎn)生的驅(qū)動(dòng)力之一。他指出,在深度學(xué)習(xí)早期的端側(cè)加速方案中,有很多SIMD DSP的案例,比如來(lái)自多家公司集成CEVA XM4/XM6的多款芯片,其中XM4/XM6正是典型的SIMD DSP。但是DSP的特點(diǎn)決定了它可以做萬(wàn)金油,但用在特定領(lǐng)域時(shí)又發(fā)現(xiàn)不是最合適,所以很快市場(chǎng)上就出現(xiàn)了專(zhuān)用的AI加速芯片。
放大來(lái)看,這也是整個(gè)AI芯片產(chǎn)業(yè)蓬勃發(fā)展的一個(gè)典型范例。
然而,李豐表示,在關(guān)注度大增的AI市場(chǎng),過(guò)去幾年還出現(xiàn)了一些亂象,其中典型的現(xiàn)象比如“實(shí)際算力與紙面算力不符”,而背后的原因正是上面談到的運(yùn)算單元實(shí)際利用率的問(wèn)題。在他看來(lái),這種現(xiàn)象在市場(chǎng)上比比皆是。
“AI芯片市場(chǎng)的現(xiàn)狀更多來(lái)自落地問(wèn)題,特別是在端側(cè)落地,端側(cè)應(yīng)用比較碎片化,需要根據(jù)場(chǎng)景定制AI模型,而訓(xùn)練模型需要大數(shù)據(jù),此時(shí)大數(shù)據(jù)的獲取就成了問(wèn)題”,李豐接著說(shuō)。他同時(shí)指出,如果說(shuō)在山寨手機(jī)時(shí)代,芯片原廠還可以去做“turnkey”方案,那么到了AI時(shí)代,芯片原廠有心無(wú)力,關(guān)鍵是芯片原廠也沒(méi)有辦法獲取數(shù)據(jù),同時(shí)開(kāi)發(fā)者社區(qū)和方案公司都面臨這個(gè)問(wèn)題,導(dǎo)致了整個(gè)AI應(yīng)用開(kāi)發(fā)的活躍程度其實(shí)并不算高。
“你看到的AI應(yīng)用更多是圍繞圖像處理,也就是用AI去補(bǔ)充ISP功能,不否認(rèn)AI對(duì)圖像處理有幫助,但并不是通常意義的機(jī)器視覺(jué)應(yīng)用。”李豐強(qiáng)調(diào)。
AI芯片難在哪里
也許不少人和李豐一樣,在入局AI芯片的時(shí)候低估了其難度。作為一個(gè)鉆研這個(gè)行業(yè)多年的老兵,李豐也總結(jié)了幾點(diǎn)他在過(guò)去幾年對(duì)AI芯片的一些看法以及他認(rèn)為的一些挑戰(zhàn)。
李豐首先指出,AI屬于運(yùn)算密集型應(yīng)用,并行計(jì)算量很大,因此數(shù)據(jù)在運(yùn)算單元和存儲(chǔ)單元之間的傳輸非常頻繁,數(shù)據(jù)的流動(dòng)是產(chǎn)生功耗的主要原因。“因此AI芯片的一個(gè)重要指標(biāo)是能耗效率(energy efficiency), SIMD DSP之所以被替代的一個(gè)重要原因是這個(gè)指標(biāo)不夠好(另一個(gè)原因在于SIMD的并行度依然不夠高)。”李豐接著說(shuō)。
他告訴記者,這個(gè)指標(biāo)的影響因素之一是訪存(memory access),因此這些年產(chǎn)學(xué)界的大部分研究成果就是圍繞這件事,并總結(jié)出AI芯片的三條設(shè)計(jì)原則:1,存儲(chǔ)層次化(memory hierarchy); 2,數(shù)據(jù)復(fù)用(data reuse); 3,片上互連(interconnect)。這三條原則必須同時(shí)使用才能達(dá)到降低訪存的效果,其中選擇不同的數(shù)據(jù)復(fù)用算法又會(huì)有不同的微架構(gòu)。
“總體而言,AI芯片的硬件架構(gòu)比較單純,像谷歌的TPU只有五條指令,其中兩條指令是訪存,另外三條運(yùn)算指令?梢(jiàn),AI芯片硬件設(shè)計(jì)的重點(diǎn)在于如何在提高計(jì)算并行度的同時(shí)最大程度降低訪存,從而達(dá)到提高能耗效率的目標(biāo)。”李豐告訴記者。
此外,AI芯片的難點(diǎn)更多在于軟件部分,即配套的工具鏈,這其中兩個(gè)工具很重要:一個(gè)是編譯器,另一個(gè)是量化工具。
首先看編譯器方面。還是以英偉達(dá)為例。讀者就算沒(méi)用過(guò)也應(yīng)該都知道,英偉達(dá)GPU之所以能夠在AI市場(chǎng)所向披靡,除了得益于其領(lǐng)先的性能外,芯片巨頭花重金打造的CUDA生態(tài)也是不可或缺的重要一環(huán)。
按照東吳證券的報(bào)告,GPU 的微架構(gòu)天生適合矩陣類(lèi)并行計(jì)算,其能力不僅限于顯卡領(lǐng)域,于是從 21 世紀(jì)早期就有專(zhuān)業(yè)的計(jì)算人員想要使用 GPU 做一些 AI 領(lǐng)域相關(guān)的并行計(jì)算。但在 CUDA 問(wèn)世之前,想要調(diào)用 GPU 的計(jì)算能力必須編寫(xiě)大量的底層語(yǔ)言代碼,這是主要使用高級(jí)語(yǔ)言為主的程序員不折不扣的噩夢(mèng)。有見(jiàn)及此,英偉達(dá)公司的 David Kirk主導(dǎo)推出了 CUDA (Compute Unified Device Architecture,統(tǒng)一計(jì)算架構(gòu))系統(tǒng),這是是一個(gè)基于英偉達(dá) GPU 平臺(tái)上面定制的特殊計(jì)算體系/算法,一般只能在英偉達(dá)的 GPU 系統(tǒng)上使用。
英偉達(dá)這個(gè)在一開(kāi)始不被看好的項(xiàng)目,現(xiàn)在成為了公司最堅(jiān)實(shí)的堡壘。過(guò)去幾年的一些AI芯片和GPGPU創(chuàng)業(yè)者,在發(fā)布產(chǎn)品的時(shí)候,也大多談到了與CUDA的兼容,這足以證明一個(gè)好的編譯器的價(jià)值。而根據(jù)英偉達(dá)在GTC 2022上公布的數(shù)據(jù),CUDA 平臺(tái)自 2008 推出以來(lái)已經(jīng)下載了 3300 萬(wàn)次以上,僅在 2021 年就有 800 萬(wàn)次下載,三年內(nèi)增長(zhǎng)了 3 倍。
李豐也指出,編譯器雖然不是新技術(shù),但基于并行計(jì)算的編譯器還并不算成熟,運(yùn)算單元利用率很大程度上取決于編譯器,或者說(shuō)即使硬件層面實(shí)現(xiàn)了足夠高的并行度,但由于編譯器的原因?qū)е聦?shí)際能調(diào)用的運(yùn)算單元達(dá)不到要求,從而體現(xiàn)在算力不夠。
“另外,量化技術(shù)五花八門(mén),多種流派并存,量化手段的多樣性雖然給用戶(hù)帶來(lái)了多種選擇,但似乎沒(méi)有哪個(gè)流派最終勝出,這就給跨平臺(tái)的開(kāi)發(fā)和移植帶來(lái)一些不便。”李豐告訴記者。
“總之,這兩個(gè)工具是AI芯片的難點(diǎn),能做好并不容易!”李豐強(qiáng)調(diào)。
AI芯片何去何從
雖然困難重重,但人工智能是大勢(shì)所趨,AI芯片也是必然需求。對(duì)于相關(guān)從業(yè)者而言,需要考量的就是,未來(lái)的AI芯片會(huì)走向何方。
針對(duì)這個(gè)問(wèn)題,李豐回應(yīng)道,這很大程度依賴(lài)于AI算法的演進(jìn)。他指出,當(dāng)前CNN和transformer兩種算法架構(gòu)并存,單從硬件上看這是兩種運(yùn)算類(lèi)型,前者是卷積運(yùn)算,后者是矩陣乘法,對(duì)硬件設(shè)計(jì)要求不同。
“處理卷積運(yùn)算時(shí),專(zhuān)用硬件有發(fā)揮空間,或者說(shuō)有創(chuàng)新機(jī)會(huì);但處理矩陣乘法運(yùn)算時(shí),是否一定要用專(zhuān)用硬件都是未知數(shù),因?yàn)橥ㄓ锰幚砥鲬?yīng)對(duì)此類(lèi)運(yùn)算已經(jīng)足夠成熟。”李豐表示。
他同時(shí)重申,在數(shù)據(jù)中心(IDC)市場(chǎng),GPU架構(gòu)已經(jīng)是事實(shí)標(biāo)準(zhǔn),其他架構(gòu)難以撼動(dòng),特別是專(zhuān)用硬件在云計(jì)算領(lǐng)域基本上沒(méi)有機(jī)會(huì)。“在端側(cè)市場(chǎng),如果transformer最終勝出,那么不排除出現(xiàn)直接將算法硬件化的芯片,這與我們近年來(lái)提出了DSA(domain specific accelerator)概念也是相符的。”李豐接著說(shuō)。
同時(shí),李豐還談到了近年來(lái)火熱的存內(nèi)計(jì)算概念在AI市場(chǎng)的機(jī)遇。
他指出,這些年比較火的存內(nèi)計(jì)算和神經(jīng)形態(tài)計(jì)算(neuromophic processing)都可以劃歸在模擬計(jì)算領(lǐng)域(analog computing)。其中,存內(nèi)計(jì)算首先在AI領(lǐng)域出現(xiàn)源自三個(gè)原因:第一,訪存問(wèn)題,也即存儲(chǔ)墻問(wèn)題;第二,量化精度進(jìn)入int8時(shí)代;第三,AI本質(zhì)是近似計(jì)算。三者是存內(nèi)計(jì)算在AI領(lǐng)域出現(xiàn)的條件。
“但是這里有一個(gè)問(wèn)題就是,與模擬計(jì)算整體配套的軟件開(kāi)發(fā)環(huán)境并不成熟,換句話說(shuō)雖然硬件上是模擬計(jì)算,或者非馮諾依曼架構(gòu),但軟件還被迫與馮氏架構(gòu)兼容,否則開(kāi)發(fā)者無(wú)法使用,其實(shí)這是一個(gè)很?chē)?yán)重的問(wèn)題。”李豐告訴記者。“說(shuō)的通俗一點(diǎn),像存內(nèi)計(jì)算或者神經(jīng)形態(tài)計(jì)算這種模擬計(jì)算應(yīng)該有屬于自己的軟件開(kāi)發(fā)流程和方法學(xué),但現(xiàn)在還沒(méi)有,何時(shí)能有,并不清晰。”李豐解釋說(shuō)。
在李豐看來(lái),在現(xiàn)在這個(gè)過(guò)渡時(shí)期,模擬計(jì)算或者存內(nèi)計(jì)算優(yōu)勢(shì)比較有限,證據(jù)之一就是這類(lèi)芯片中存在大量的ADC/DAC用于數(shù)模轉(zhuǎn)換。但這些ADC/DAC對(duì)芯片整體指標(biāo)的影響是顯而易見(jiàn)的。
“這好比給蘇炳添穿上緊身皮褲,那么從此再無(wú)9秒83。”李豐表示。