當(dāng)前人工智能(AI)計(jì)算主要是指以深度學(xué)習(xí)為代表的神經(jīng)網(wǎng)絡(luò)算法為主,傳統(tǒng)的CPU、GPU都可以用來做AI算法的運(yùn)算,但其并不是針對(duì)深度學(xué)習(xí)特性設(shè)計(jì)和優(yōu)化的,所以在速度和性能上都無法完全適配AI算法特性,通常來說,AI芯片指的是針對(duì)人工智能算法特性做特殊設(shè)計(jì)的ASIC(專用芯片)。
當(dāng)前深度學(xué)習(xí)算法在圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域都有非常廣泛的應(yīng)用,常見的深度學(xué)習(xí)網(wǎng)絡(luò)包括CNN,RNN以及Transformer等,他們本質(zhì)上都是大量矩陣或向量的乘法、加法的組合。比如主流的圖像目標(biāo)檢測(cè)算法YOLO-V3,其主要由大量的卷積、殘差、全連接等類型的計(jì)算組成,其本質(zhì)是大量的乘法和加法操作。以運(yùn)算神經(jīng)網(wǎng)絡(luò)算法為代表的AI專用芯片,需要硬件具有高效的線性代數(shù)運(yùn)算能力,其特點(diǎn)為:?jiǎn)蝹€(gè)任務(wù)簡(jiǎn)單、并行運(yùn)算量大、數(shù)據(jù)讀寫操作量大,邏輯控制要求低等。所以其對(duì)芯片的并行運(yùn)算、片上存儲(chǔ)、高帶寬、低延時(shí)等有更高的要求。
當(dāng)前GPU是較為成熟的用于深度學(xué)習(xí)訓(xùn)練和推理的芯片之一,谷歌、 微軟和百度等公司都在使用GPU做深度學(xué)習(xí)相關(guān)的模型訓(xùn)練和推理計(jì)算。GPU提供了高效并行計(jì)算的能力,且核心數(shù)非常多,可以支撐大量數(shù)據(jù)的并行計(jì)算,NVIDIA還開發(fā)了專用加速庫cuDNN和推理工具TensorRT以加速深度學(xué)習(xí)在GPU上計(jì)算效率。盡管GPU在深度學(xué)習(xí)中有非常廣泛的應(yīng)用,但由于GPU設(shè)計(jì)初衷并非專門針對(duì)深度學(xué)習(xí),而是為圖形計(jì)算設(shè)計(jì)的,因而其在性能和功耗等方面也存在一定的局限性:一是GPU注重的是低維數(shù)據(jù)結(jié)構(gòu),對(duì)深度學(xué)習(xí)的高維數(shù)據(jù)處理相對(duì)低效;二是圖形計(jì)算需要較高的精度,而深度學(xué)習(xí)推理則可以在更低的精度下有效運(yùn)行;三是GPU數(shù)據(jù)放在外部存儲(chǔ)上,使用共享存儲(chǔ)進(jìn)行核心間通訊,這會(huì)造成帶寬和延遲的瓶頸。ASIC則可以更有針對(duì)性地進(jìn)行硬件設(shè)計(jì)和優(yōu)化,所以為了獲得更好的性能和功耗比,在深度學(xué)習(xí)算法穩(wěn)定后,往往還需要采用全定制化人工智能芯片在性能、功耗和面積等指標(biāo)上做進(jìn)一步的優(yōu)化。
鄭重聲明:文中僅代表作者觀點(diǎn),不代表本公司觀點(diǎn),本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或者刪除,感謝您的關(guān)注!