憑實力對抗封殺 華為發布業內最強AI軟件平台 性能超越對手一倍

撰文:機器之心
出版:更新:

華為的Atlas,一次就讓業界最佳水平翻了一倍。「硬件是AI的基礎,但軟件是核心。目前華為昇騰有70%研發人員專注於軟件的開發,希望能把昇騰處理器的潛力全部發揮出來。」華為昇騰計算業務總裁許映童說道。在本週舉行的HAI 2020新品發布會上,華為發布了迄今為止業界最完整的AI全棧軟件平台,覆蓋從基礎軟件到應用能力的所有方面,在推出業內最強AI處理器「昇騰」系列之後,軟件成為了華為昇騰技術發展的新方向。

【相關圖輯】華為超越Samsung成出貨量世界第一手機品牌 回顧十年手機登頂路(點圖放大閱讀):

+13

價格更低,性能翻倍

後摩爾定律時代,人們要想獲得算力提升,很大程度上需要仰賴計算堆棧的「頂層」,即軟件、算法和硬件架構,這將成為一個新的歷史趨勢。前不久,刊登在Science上的一篇文章《There's plenty of room at the Top: What will drive computer performance after Moore's law?》引起了人們的廣泛討論:研究人員指出,在軟件層面上,我們還能找到大幅度提升AI計算性能的方法。

在HAI 2020大會上,華為展示了Atlas300I 單卡支持80路1080P智能視頻分析的能力,這個數字是目前競爭對手Tesla T4 的兩倍。在這背後,既有硬件架構的設計,也有強大軟件的功勞。

HAI 2020大會現場(包括介紹昇騰應用部分):

+20

截止2018 年,國內的攝像頭的數量就已經超過了2 億個,攝像頭的數量越來越多,視頻數量暴增,然而大部分視頻內容是無效的,想要剔除大部分無效視頻數據,需要人工智能技術對視頻進行智能​​分析。對於技術供應者和用戶來說,智能視頻分析技術需要大規模應用需要解決算法精度的問題,並不斷降低應用成本。

隨著近年來深度學習等技術的發展,AI 算法識別的精度已不成問題,但越來越多的數據、不斷倍增的模型算力需求和緩慢的芯片製程提升之間存在不小的矛盾。華為的Atlas 300I 單卡視頻分析能力,可以為公安、交警等部門,以及不少企業用戶在應用場景中帶來巨大的便利。一張推理卡接管80 路高清視頻,這是怎麼做到的?從視頻解碼到系統優化,華為在任務處理的每個環節上都做了極致的優化。

首先,在進行人臉識別、視頻結構化、動作識別等智能視頻分析之前,我們需要將視頻流解碼為圖片流,隨後才能輸出給深度學習算法。每塊昇騰310 芯片中都搭載了DVPP 硬件單元,至少可支持16 路1080P@30fps 的視頻解碼需求,對於25FPS 的視頻流,則可以支持超過20 路——在每張Atlas 300I 卡上,有4 塊這樣的芯片。

Ascend(昇騰)310 芯片的邏輯結構圖。(huawei)

在視頻解碼之後,我們還希望在計算卡上進行數據的臨時存儲。在這裡,智能視頻分析路數越多,需要緩存的目標圖像數量就越大,存儲空間佔用量也就越大。在Atlas 310I 計算卡上,華為塞進了共計32GB 的DDR 存儲空間。另一方面,由於異構計算架構CANN 3.0 對視頻解碼流程和底層驅動進行了優化,每路1080P 視頻的解碼存儲空間佔用量可以小於90MB。

在硬件部署之後,設備的算力峰值是固定的,進一步提升算法性能的任務就落在了軟件優化上。華為的工程師希望從算子性能和神經網絡結構兩方面提升算力效率。昇騰系列處理的離線模型轉換工具ATC 集成了大量深度優化後的算子和算子融合規則,在離線算子轉化過程中會對計算圖進行優化和融合,從而提升硬件資源佔用率,提升網絡性能。

從之前的各種實驗結果看,昇騰處理適合於YOLO V3、Inception V3、ResNet 系列神經網絡的加速,因此在智能視頻分析任務(如動態人臉識別)中,我們可以選擇類YOLO V3 架構(如YOLO V3-Tiny)的算法模型作為目標檢測算法,Inception V3、ResNet 系列算法作為分類、特徵提取算法或其他網絡模型的主網絡,可以極大的提升處理性能,充分發揮算力優勢。

在以上四個優化步驟之後,華為還有多線程時間並行、合理多Batch 推理、異構資源優化等方式進一步對整個流程的各部分進行優化,充分利用異構計算資源,提升了系統的線性程度,提高了吞吐量。使用昇騰芯片進行智能視頻分析,大幅度降低了視頻分析的單路硬件成本,為AI 智能視頻分析技術的大規模推廣奠定了基礎。

【相關圖輯】華為將推出真摺機?新手機設計專利曝光或挑戰Galaxy Z Flip(點圖放大瀏覽):

+3

與Galaxy Z Flip比較:

+11

極簡易用的昇騰AI 全棧軟件平台

Atlas300I 業內最佳性能的成績,是華為昇騰軟件強大的體現。不僅效率極高,而且簡單易用,華為在HAI 大會上新發布的產品包括異構計算架構CANN 3.0、全場景AI 計算框架MindSpore、全流程開發工具鏈MindStudio 2.0、昇騰應用使能MindX 等。提供的能力覆蓋從算子、模型開發到應用開發等所有方面:簡而言之,就是可以用一套工具搞定所有任務。「把簡單留給別人,把複雜留給自己。華為昇騰AI 全棧軟件平台可以最大程度發揮硬件性能,降低AI 應用開發的門檻。」許映童在發布會上表示。

此前,想把最先進的AI 技術應用到實踐中去,我們面臨著不少挑戰。「對於行業用戶來說,選擇哪些AI 模型是一個難以抉擇的問題。我們看到很多客戶還在使用三四年前提出的,較為落後的模型,他們的技術升級速度較慢,技術難倒英雄漢。」許映童說道。

AI 算法到產品化應用有很遠,從模型獲取,數據準備到最終的適配開發,初創企業沒有時間和精力完整走完所有歷程。即使對於一些大公司來說,人工智能的人員專業性需求高,同樣影響了AI 技術在產業落地。這些問題,華為認為都不應該由開發者來解決,新發布的MindX 和CANN 3.0,就是為了讓AI 直接可用而生的。

「汽車司機關心的是如何把人和貨物準確送到目的地,而不會去研究汽油如何煉化,或發動機如何工作,」華為昇騰計算業務CTO 周斌博士說道。「我相信大量行業應用的AI 開發者更需要AI 能力的支持,而不是研究原理。這就是我們推出MindX 的初衷:把複雜的工作交給MindX,你只需關注如何開發應用,如何把AI 能力集成進去。」

MindX 1.0 帶來了「2+1+X」模式,其中的2 是指兩個平台MindX DL(Atlas 深度學習平台)和MindX Edge(Atlas 智能邊緣平台),分別面向雲端和邊緣側;1 指優選模型庫Model Zoo,而X 則是使能各行業的SDK 工具,先期開放的包括視覺SDK mxVision 和製造SDK mxManufacture。

另一個重要是軟件系統是CANN 3.0 異構計算架構。自2018 年隨華為第一代AI 芯片發布起,CANN 已經走過兩個大版本的更新,8 月10 日發布的CANN 3.0 核心理念在於統一端邊雲和架構,自動部署,支持多種計算架構,同時支持後向兼容和演進。CANN 3.0 不是簡單地軟件或平台,它是一個完整的開發體系,其中包含編程語言TBE,編譯及調試工具,還有編程模型。正是得益於CANN 3.0 的架構優化,華為實現了一塊Atlas 300I 推理卡實時處理80 路視頻的能力,此前業內最佳的水平是40 路。華為表示,在實驗室裡,這個數字還可以更高。

有關人們是如何把AI 技術應用到各個行業的,華為對開發者做了一個簡單的畫像:最頂尖的開發者希望進行AI 算子和神經網絡開發,人數只佔到1%——他們需要用到CANN 3.0 和Mind Studio 的解決方案。第二類是佔比10% 的AI 應用開發者,他們需要AI 的能力來輔助各類研究。這既需要AI 基礎知識,也需要相關專業領域的知識,他們需要的是開源AI 框架MindSpore——在大多數時間內,開發者們無需了解AI 算法的具體實現。

「第三類開發者,則是把AI 技術當作一種服務的90% 客戶,他們無需理解應用背後的是YOLO v3,ResNet50 還是其他什麼算法。使用華為全新的MindX 1.0,可以全面加速這類工作的開發速度。」許映童表示。

【相關圖輯】華為「天才美少女」年薪百萬 被網民捧為IT界女神(點圖預覽內容):

+3

發力軟件的華為

在以往華為的發布會上,最吸引眼球的往往是硬件和芯片。這次的HAI 大會則不太一樣,華為花費大量篇幅探討軟件的重要性。正如研究人員所說,除了發展新形態的AI 硬件之外,軟硬結合才能發揮AI 的澎湃算力。而在這一方面,華為也證明了自己能做到最好。

華為的全場景AI 技術已在很多客戶的業務中部署,當然首先就是華為自己。在松山湖園區,基於Atlas 的智能製造方案已經在計算產品的生產線上實現了大規模應用——AI 技術貫穿了華為製造的每個環節,就連Atlas 闆卡也是使用Atlas 技術製造的。人工智能在完成標籤缺陷檢測、螺釘缺失等任務上已可以實現「秒級檢測」,將質檢準確率由之前的傳統機器視覺質檢的90% 提升至99.9%,質檢人員的工作效率提升了3 倍。

華為已在自家工廠裡實現AI 的工位級、線體級、車間級應用,覆蓋了超過80 個產線,面向雲計算、5G 通信、終端等產品。而實現如此大規模的AI 應用,除了打造軟件工具之外,華為只投入了三名開發人員。

「在過去一年裡,華為昇騰的生態佈局初見成效。目前在國內已有60 所高校開設了昇騰課程,預計到今年年底,這個數字會增長到100 個以上,昇騰的開發者數量已達到4 萬多人。這些發展只是小小的第一步,當前的AI 技術正處在爆發性增長的前夜。」許映童說道。

在HAI 2020 大會上,華為也為即將推出的昇騰處理器做出了一點預告:搭載新一代芯片的華為AI 訓練卡,其性能超過了英偉達A100。做好軟硬協同硬核能力,保持開源開放,吸引更多合作夥伴,華為正希望通過領先技術讓昇騰領跑​​產業AI的未來。

【相關圖輯】不用食多啦A夢「翻譯麵包」 日本智能口罩 通曉8國語言(點圖預覽內容):

+7

【相關圖輯】珠寶業的下一步是智能珠寶嗎?巴菲特投資集團旗下Richline將推出(點圖預覽內容):

【本文轉自「機器之心」,微信公眾號:almosthuman2014】