欧美日韩亚州综合,国产一区二区三区影视,欧美三级三级三级爽爽爽,久久中文字幕av一区二区不卡

你的位置:首頁 > 測試測量 > 正文

基于FPGA的通用CNN加速設計

發(fā)布時間:2017-10-31 責任編輯:lina

【導讀】隨著互聯(lián)網(wǎng)用戶的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的需求也在迅猛上漲。同時,人工智能、高性能數(shù)據(jù)分析和金融分析等計算密集型領域的興起,對計算能力的需求已遠遠超出了傳統(tǒng)CPU處理器的能力所及。



 隨著互聯(lián)網(wǎng)用戶的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的需求也在迅猛上漲。同時,人工智能、高性能數(shù)據(jù)分析和金融分析等計算密集型領域的興起,對計算能力的需求已遠遠超出了傳統(tǒng)CPU處理器的能力所及。

基于FPGA的通用CNN加速設計

  異構計算被認為是現(xiàn)階段解決此計算溝壑的關鍵技術,目前 “CPU+GPU”以及“CPU+FPGA” 是最受業(yè)界關注的異構計算平臺。它們具有比傳統(tǒng)CPU并行計算更高效率和更低延遲的計算性能優(yōu)勢。面對如此巨大的市場,科技行業(yè)大量企業(yè)投入了大量的資金和人力,異構編程的開發(fā)標準也在逐漸成熟,而主流的云服務商更是在積極布局。

基于FPGA的通用CNN加速設計

  WHY?通用CNN FPGA加速

  業(yè)界可以看到諸如微軟等巨頭公司已經(jīng)部署大批量的FPGA來做AI inference加速,F(xiàn)PGA相較于其他器件的優(yōu)勢是什么呢?

  Flexibility:可編程性天然適配正在快速演進的ML算法

  DNN、CNN、LSTM、MLP、reinforcement learning以及決策樹等等

  任意精度動態(tài)支持

  模型壓縮、稀疏網(wǎng)絡、更快更好的網(wǎng)絡

  Performance:構建實時性AI服務能力

  相較于GPU/CPU數(shù)量級提升的低延時預測能力

  相較于GPU/CPU數(shù)量級提升的單瓦特性能能力

  Scale

  板卡間高速互聯(lián)IO

  Intel CPU-FPGA構架

  與此同時,F(xiàn)PGA的短板也非常的明顯,F(xiàn)PGA使用HDL硬件描述語言來進行開發(fā),開發(fā)周期長,入門門檻高。以單獨的經(jīng)典模型如Alexnet以及Googlenet為例,針對一個模型進行定制的加速開發(fā),往往需要數(shù)月的時間。業(yè)務方以及FPGA加速團隊需要兼顧算法迭代以及適配FPGA硬件加速,十分痛苦。

  一方面需要FPGA提供相較于CPU/GPU有足夠競爭力的低延時高性能服務,一方面需要FPGA的開發(fā)周期跟上深度學習算法的迭代周期,基于這兩點我們設計開發(fā)了一款通用的CNN加速器。兼顧主流模型算子的通用設計,以編譯器產(chǎn)生指令的方式來驅動模型加速,可以短時間內(nèi)支持模型切換;同時,對于新興的深度學習算法,在此通用基礎版本上進行相關算子的快速開發(fā)迭代,模型加速開發(fā)時間從之前的數(shù)月降低到現(xiàn)在的一到兩周之內(nèi)。

  HOW?通用CNN FPGA架構

  基于FPGA的通用CNN加速器整體框架如下,通過Caffe/Tensorflow/Mxnet等框架訓練出來的CNN模型,通過編譯器的一系列優(yōu)化生成模型對應的指令;同時,圖片數(shù)據(jù)和模型權重數(shù)據(jù)按照優(yōu)化規(guī)則進行預處理以及壓縮后通過PCIe下發(fā)到FPGA加速器中。FPGA加速器完全按照指令緩沖區(qū)中的指令集驅動工作,加速器執(zhí)行一遍完整指令緩沖區(qū)中的指令則完成一張圖片深度模型的計算加速工作。每個功能模塊各自相對獨立,只對每一次單獨的模塊計算請求負責。加速器與深度學習模型相抽離,各個layer的數(shù)據(jù)依賴以及前后執(zhí)行關系均在指令集中進行控制。

基于FPGA的通用CNN加速設計

  簡單而言,編譯器的主要工作就是對模型結構進行分析優(yōu)化,然后生成FPGA高效執(zhí)行的指令集。編譯器優(yōu)化的指導思想是:更高的MAC dsp計算效率以及更少的內(nèi)存訪問需求。

  接下來我們以Googlenet V1模型為例,對加速器的設計優(yōu)化思路做簡單的分析。IncepTIon v1的網(wǎng)絡,將1x1、3x3、5x5的conv和3x3的pooling stack在一起,一方面增加了網(wǎng)絡的width,另一方面增加了網(wǎng)絡對尺度的適應性。下圖為模型中IncepTIon的基本結構。

基于FPGA的通用CNN加速設計

  數(shù)據(jù)依賴關系分析

  此部分主要分析挖掘模型中可流水化以及可并行化的計算。流水化的設計可以提高加速器中的計算單元利用率,并行化的計算可以在同一時刻利用盡量多的計算單元。

  關于流水,分析部分包括數(shù)據(jù)從DDR加載到FPGA片上SRAM的操作與PE進行計算的流水,通過此項優(yōu)化將內(nèi)存訪問的時間overlap;DSP計算整列的計算控制過程,保證DSP利用率的提升。

  關于并行,需要重點分析PE計算陣列與激活、pooling以及歸一化等“后處理”模塊之間的并行關系,如何確定好數(shù)據(jù)依賴關系以及防止沖突是此處設計關鍵。在IncepTIon中,可以從其網(wǎng)絡結構中看到,branch a/b/c的1x1的卷積計算與branch d中的pooling是可以并行計算的,兩者之間并不存在數(shù)據(jù)依賴關系。通過此處優(yōu)化,3x3 max pooling layer的計算就可以被完全overlap。

  模型優(yōu)化

  在設計中主要考慮兩個方面:尋找模型結構優(yōu)化以及支持動態(tài)精度調(diào)整的定點化。

  FPGA是支持大量計算并行的器件,從模型結構上尋找更高維度的并行性,對于計算效率以及減少內(nèi)存訪問都十分有意義。在IncepTIon V1中,我們可以看到branch a branch b branch c的第一層1x1卷積層,其輸入數(shù)據(jù)完全一致,且卷積layer的stride以及pad均一致。那我們是否可以在output feature map維度上對齊進行疊加?疊加后對input data的訪存需求就降低到了原來的1/3。

  另一方面,為了充分發(fā)揮FPGA硬件加速的特性,模型的Inference過程需要對模型進行定點化操作。在fpga中,int8的性能可以做到int16的2倍,但是為了使公司內(nèi)以及騰訊云上的客戶可以無感知的部署其訓練的浮點模型,而不需要retrain int8模型來控制精度損失,我們采用了支持動態(tài)精度調(diào)整的定點化int16方案。通過此種方法,用戶訓練好的模型可以直接通過編譯器進行部署,而幾乎無任何精度損失。

  內(nèi)存架構設計

  帶寬問題始終是計算機體系結構中制約性能的瓶頸之一,同時內(nèi)存訪問直接影響加速器件功耗效率。

  為了最大化的減少模型計算過程中的DDR訪存,我們設計了如下的內(nèi)存架構:

  Input buff以及output buffer ping-pong設計,最大化流水以及并行能力

  支持Input buff和output buffer自身之間的inner-copy操作

  Input buff和output buffer之間的cross-copy操作

  通過這種架構,對于大多數(shù)目前主流模型,加速器可以做到將中間數(shù)據(jù)全部hold在FPGA片上,除了模型權重的加載外,中間無需消耗任何額外的內(nèi)存操作。對于無法將中間層feature map完全存儲在片上的模型,我們在設計上,在Channel維度上引入了slice分片的概念,在feature map維度上引入了part分片的概念。通過編譯器將一次卷積或是poolingNorm操作進行合理的拆分,將DDR訪存操作與FPGA加速計算進行流水化操作,在優(yōu)先保證DSP計算效率的前提下盡量減少了DDR的訪存需求。

基于FPGA的通用CNN加速設計

  計算單元設計

  基于FPGA的通用CNN加速器的核心是其計算單元,本加速器當前版本基于Xilinx Ku115芯片設計,PE計算單元由4096個工作在500MHz的MAC dsp核心構成,理論峰值計算能力4Tflops。其基本組織框架如下圖所示。

  基于FPGA的通用CNN加速設計

  KU115芯片由兩個DIE對堆疊而成,加速器平行放置了兩組處理單元PE。每個PE由4組32x16=512的MAC計算DSP核心組成的XBAR構成,設計的關鍵在于提升設計中的數(shù)據(jù)復用降低帶寬,實現(xiàn)模型權重復用和各layer feature map的復用,提升計算效率。

  應用場景及性能對比

  當前深度學習主流使用GPU做深度學習中的Training過程,而線上Inference部署時需綜合考慮實時性、低成本以及低功耗特性選擇加速平臺。按深度學習落地場景分類,廣告推薦、語音識別、圖片/視頻內(nèi)容實時監(jiān)測等屬于實時性AI服務以及智慧交通、智能音箱以及無人駕駛等終端實時低功耗的場景,F(xiàn)PGA相較于GPU能夠為業(yè)務提供強有力的實時高性能的支撐。

  對于使用者而言,平臺性能、開發(fā)周期以及易用性究竟如何呢?

  加速性能

  以實際googlenet v1模型為例,CPU測試環(huán)境:2個6核CPU(E5-2620v3),64G內(nèi)存。

  將整機CPU打滿,單張基于KU115的加速器相較于CPU性能提升16倍,單張圖片檢測延時從250ms降低到4ms,TCO成本降低90%。

  同時,F(xiàn)PGA預測性能略強于Nvidia的GPU P4,但延時上有一個數(shù)量級的優(yōu)化。

基于FPGA的通用CNN加速設計

  開發(fā)周期

  通用的CNN FPGA加速架構,能夠支持業(yè)務快速迭代持續(xù)演進中的深度學習模型,包括Googlenet/VGG/Resnet/ShuffleNet/MobileNet等經(jīng)典模型以及新的模型變種。

  對于經(jīng)典模型以及基于標準layer自研的算法變種,現(xiàn)有加速架構已經(jīng)可以支持,可以在一天內(nèi)通過編譯器實現(xiàn)模型對應指令集,實現(xiàn)部署上線。

  對于自研的特殊模型,例如不對稱卷積算子和不對稱pooling操作等,需要根據(jù)實際模型結構在本平臺上進行相關算子迭代開發(fā),開發(fā)周期可縮短在一到兩周之內(nèi)進行支持。

  易用性

  FPGA CNN加速器對底層加速過程進行封裝,向上對加速平臺的業(yè)務方提供易用SDK。業(yè)務方調(diào)用簡單的API函數(shù)即可完成加速操作,對業(yè)務自身邏輯幾乎無任何改動。

  如果線上模型需要改動,只需調(diào)用模型初始化函數(shù),將對應的模型指令集初始化FPGA即可,加速業(yè)務可以在幾秒內(nèi)進行切換。

  結語

  基于FPGA的通用CNN加速設計,可以大大縮短FPGA開發(fā)周期,支持業(yè)務深度學習算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較于GPU數(shù)量級的延時優(yōu)勢。通用的RNN/DNN平臺正在緊張研發(fā)過程中,F(xiàn)PGA加速器為業(yè)務構建最強勁的實時AI服務能力。

  在云端,2017年初,我們在騰訊云首發(fā)了國內(nèi)第一臺FPGA公有云服務器,我們將會逐步把基礎AI加速能力推出到公有云上。

  AI異構加速的戰(zhàn)場很大很精彩,為公司內(nèi)及云上業(yè)務提供最優(yōu)的解決方案是架平FPGA團隊持續(xù)努力的方向。




推薦閱讀:


基于SoC FPGA進行工業(yè)設計及電機控制 

結合實例解讀模擬開關關鍵技術 

不可不知的射頻測試探針基本知識 

一文讀懂DC/AC SCAN測試技術 
 

特別推薦
技術文章更多>>
技術白皮書下載更多>>
熱門搜索
?

關閉

?

關閉

欧美日韩亚州综合,国产一区二区三区影视,欧美三级三级三级爽爽爽,久久中文字幕av一区二区不卡
久久影院电视剧免费观看| 高清在线不卡av| 欧美精品1区2区| 日韩 欧美一区二区三区| 欧美精品乱码久久久久久| 久久精品国产99久久6| 欧美成人精品二区三区99精品| 久久99这里只有精品| 久久精品人人做| 97久久精品人人爽人人爽蜜臀| 亚洲香肠在线观看| 日韩一级欧美一级| 国产a久久麻豆| 亚洲高清免费观看| 欧美精品一区二区三区高清aⅴ | 精品国产免费视频| 成人污视频在线观看| 一区二区国产盗摄色噜噜| 欧美一区三区二区| 成人午夜在线免费| 偷拍亚洲欧洲综合| 国产欧美一区二区三区网站| 欧美怡红院视频| 国产精品一二一区| 亚洲午夜免费电影| 欧美经典一区二区| 在线成人免费视频| 成人av在线电影| 日本午夜精品一区二区三区电影| 日本一区二区三区视频视频| 欧美中文字幕一二三区视频| 国产乱子伦一区二区三区国色天香| 亚洲天堂a在线| 精品欧美一区二区三区精品久久| 99麻豆久久久国产精品免费优播| 日本人妖一区二区| 亚洲综合激情网| 欧美国产日韩一二三区| 日韩一区二区免费视频| 色综合色狠狠综合色| 国产精品1024| 日本免费新一区视频| 亚洲欧美日韩国产一区二区三区| 久久亚洲捆绑美女| 日韩色在线观看| 欧美日本一区二区三区四区| 99精品视频一区| 国产精品一区在线观看乱码| 日本一区中文字幕| 亚洲6080在线| 亚洲日本成人在线观看| 国产精品毛片a∨一区二区三区| 欧美成人欧美edvon| 欧美日韩成人在线一区| 欧美亚男人的天堂| 色激情天天射综合网| 成人黄色软件下载| 国产99精品国产| 国产成人综合亚洲网站| 极品少妇一区二区| 精品一区二区三区视频在线观看| 偷窥国产亚洲免费视频| 亚洲第一福利视频在线| 亚洲精品高清在线观看| 亚洲欧美日韩国产综合| 亚洲卡通动漫在线| 亚洲欧美日韩一区二区 | 91精品国产综合久久小美女| 欧美视频日韩视频在线观看| 欧美中文字幕不卡| 欧美午夜精品理论片a级按摩| 91捆绑美女网站| 色老综合老女人久久久| 在线国产亚洲欧美| 欧美日韩亚洲另类| 欧美精品第1页| 欧美一二三四区在线| 日韩精品在线一区二区| 337p日本欧洲亚洲大胆精品| 久久久国际精品| 国产精品色呦呦| 亚洲免费观看视频| 亚洲国产精品人人做人人爽| 日韩精品欧美精品| 国产一区二区三区在线看麻豆| 国产高清精品久久久久| www.欧美日韩国产在线| 色综合天天综合狠狠| 欧美亚洲综合久久| 日韩欧美国产高清| 国产精品女同一区二区三区| 亚洲女与黑人做爰| 日本欧美加勒比视频| 国产一区二区三区精品视频| 99视频国产精品| 欧美色视频在线观看| 日韩一区二区免费高清| 国产无人区一区二区三区| 亚洲激情第一区| 青青草91视频| av中文字幕一区| 91精品国产乱| 亚洲国产精品传媒在线观看| 亚洲综合清纯丝袜自拍| 精品一区免费av| 92精品国产成人观看免费 | 久久先锋资源网| 亚洲精品免费播放| 老司机精品视频一区二区三区| 99久久er热在这里只有精品66| 欧美久久久久久久久久| 亚洲国产精品t66y| 日本在线不卡视频| 99精品黄色片免费大全| 日韩精品中文字幕在线一区| 尤物视频一区二区| 国产在线精品一区在线观看麻豆| 91精品1区2区| 久久久精品综合| 香蕉成人啪国产精品视频综合网| 国产成人免费视频网站| 7777精品久久久大香线蕉| 中文字幕一区二| 国产一区二区美女| 69堂国产成人免费视频| **性色生活片久久毛片| 韩国在线一区二区| 欧美日韩国产高清一区二区| 国产精品美女一区二区三区 | 亚洲精品一区二区三区在线观看| 亚洲欧美一区二区三区久本道91 | 欧美成人午夜电影| 亚洲自拍与偷拍| aaa亚洲精品| 久久综合久久综合亚洲| 日韩一区精品视频| 日本韩国欧美三级| 国产精品美女久久久久高潮| 国内精品视频一区二区三区八戒| 欧美日韩在线播放三区四区| 一区二区三区中文在线观看| 春色校园综合激情亚洲| 久久久噜噜噜久久中文字幕色伊伊| 日韩精品成人一区二区在线| 欧美系列日韩一区| 一区二区三区在线免费观看| 91亚洲资源网| 综合婷婷亚洲小说| 91影院在线观看| 中文字幕中文在线不卡住| 成人免费看的视频| 国产女人aaa级久久久级| 国产精品99久久久久| 久久蜜桃av一区精品变态类天堂 | 99久久99久久久精品齐齐| 久久久久久久久久久电影| 久久99精品久久久| 精品久久久久av影院| 麻豆免费看一区二区三区| 欧美一区二区三区视频免费播放| 日日夜夜免费精品| 7777精品伊人久久久大香线蕉最新版| 亚瑟在线精品视频| 欧美男同性恋视频网站| 亚洲综合色区另类av| 欧美在线看片a免费观看| 亚洲午夜久久久久中文字幕久| 欧美午夜精品一区二区蜜桃| 亚洲一级二级在线| 91.com视频| 国产精品一区二区久久不卡| 欧美韩日一区二区三区四区| 成人av一区二区三区| 中文字幕日韩一区| 欧美视频三区在线播放| 日韩中文欧美在线| 精品久久一二三区| 成人av午夜电影| 亚洲综合色自拍一区| 日韩一区二区视频| 国产乱子伦视频一区二区三区 | 欧美美女bb生活片| 日本aⅴ精品一区二区三区| 精品久久久影院| 白白色亚洲国产精品| 亚洲福中文字幕伊人影院| 欧美一区二区三区男人的天堂| 黄一区二区三区| 亚洲欧美日韩中文字幕一区二区三区| 精品视频色一区| 久久er99精品| 亚洲欧美另类小说视频| 91精品国产欧美一区二区成人| 国产精品综合二区| 亚洲成人午夜影院| 久久久国产精品午夜一区ai换脸| 在线视频亚洲一区| 国产乱淫av一区二区三区| 亚洲黄色免费网站| 久久影音资源网|