欧美情侣作爱WWW_久99热这里只有国产中文精品_第一次怎么找到孔_国产人妇三级视频在线观看_锕锕锕锕锕锕锕锕好疼没打码

131 1300 0010
其他
當前位置: 首頁>> 元件技術>>其他>>
  • 導航欄目
  • 二極管
  • 整流橋
  • MOS管
  • 其他
  • ARM發(fā)布新架構Neoverse 性能表現(xiàn)已接近Intel和AMD處理
    ARM發(fā)布新架構Neoverse 性能表現(xiàn)已接近Intel和AMD處理
  • ARM發(fā)布新架構Neoverse 性能表現(xiàn)已接近Intel和AMD處理
  •   發(fā)布日期: 2019-03-12  瀏覽次數(shù): 1,476

    在這個移動設備成為主要計算平臺的大時代,稍微關注行業(yè)的人都聽說過ARM,該公司作為技術推動者,提供各種處理器架構以及核心參考設計,基本上已成為當今所有移動設備的動力之源,并在過去的5~7年里,引領著智能手機和平板電腦SoC性能的飛速發(fā)展。

    ARM的雄心遠遠超出了移動和嵌入式設備領域。從商業(yè)意義上來看,服務器和相關基礎設施等高端領域有著更大的利潤空間,對于像ARM這樣的公司來說,這是一個非常有利可圖的市場。

     

    不過,盡管ARM在移動和嵌入式設備領域取得了巨大的成功,但迄今為止始終未能觸及更高性能產(chǎn)品的領域。

    雖然在過去的十年中,許多關于“ARM將掀起服務器和基礎架構市場革命”的預言層出不窮,也有不同的供應商試圖實現(xiàn)這一目標,然而前幾代產(chǎn)品并沒有獲得成功,ARM的服務器生態(tài)系統(tǒng)也遇到了相當大的困難。

    ARM發(fā)布新架構Neoverse 性能表現(xiàn)已接近Intel和AMD處理器

    服務器領域,多事之秋

    去年年中,全新的Cortex A76架構橫空出世,ARM對其寄予厚望,以至于隨后公開分享了未來三年的CPU路線圖,并宣布將在PC筆記本電腦領域與Intel展開正面競爭。盡管驍龍8CX等產(chǎn)品的上市還需要等待很久,但外媒Anandtech已經(jīng)拿到了首批搭載Cortex A76的移動設備,并驗證了ARM的所有性能和效率聲明。

    最近,ARM又發(fā)布了新星架構Neoverse,并希望通過新一代處理器設計大幅提升其性能,并提高在服務器和基礎設施領域的競爭力。

    這些新架構對ARM來說都很重要,它們代表了市場的一個轉(zhuǎn)折點:ARM處理器的性能表現(xiàn)已經(jīng)接近了Intel和AMD處理器,且ARM有信心保持每年25~30%的性能提升,大幅超越Intel和AMD的迭代幅度。

    過去幾個月對于ARM服務器生態(tài)系統(tǒng)來說是非常值得欣喜的。在去年的Hotchips大會上,富士通展示了全新的A64FX高性能計算處理器,不僅代表了公司從SPARC架構體系轉(zhuǎn)向ARMv8架構體系,還提供了第一款在ARM架構中實現(xiàn)新SVE(可擴展矢量擴展)的芯片。

    Cavium的ThunderX2也取得了令人印象深刻的性能飛躍,使其新處理器成為首批能夠與Intel和AMD競爭的處理器。

    前陣子,我們又看到了華為推出的全新鯤鵬920服務器芯片,該芯片有望成為業(yè)界性能最高的ARM服務器CPU。

    上述三種產(chǎn)品之間最大的共性是,每種產(chǎn)品都代表了各供應商在實施基于ARMv8架構許可的定制微體系結構方面所做的努力。這實際上引出了一個問題:ARM自己的服務器和基礎設施市場計劃是什么?

    此次,我們將詳細介紹Neoverse N1這個新平臺,它們將成為未來幾年ARM的基礎設施戰(zhàn)略的核心,并初步實現(xiàn)服務器生態(tài)系統(tǒng)。

    Neoverse N1 CPU:無妥協(xié)性能

    Neoverse N1平臺的核心是Neoverse N1 CPU,即CPU品牌與平臺品牌有相同的命名。ARM所描述的平臺不僅是CPU核心,還包括周圍的互連IP,使整個系統(tǒng)可以擴展到多核系統(tǒng)。

    Neoverse N1平臺和CPU代表了ARM首款專為服務器和基礎設施市場設計的專用計算IP。這是對過去IP產(chǎn)品的重大改變,其中將為消費產(chǎn)品和行業(yè)解決方案提供相同的CPU IP。這些IP家族之間的新技術區(qū)別促使ARM為新的基礎架構目標產(chǎn)品采用新的營銷名稱,因此Neoverse品牌誕生,與面向消費者的Cortex CPU品牌區(qū)別開來。

    Neoverse N1平臺代表了ARM奧斯汀設計中心“第二代奧斯汀家族”的第一次迭代。Neoverse N1原名為“戰(zhàn)神”,代表了與Cortex A76相對應的服務器處理器核心。同時,奧斯汀團隊可能已經(jīng)完成了第二次迭代所需的Zeus架構的設計工作;隨后Poseidon架構將成為這一家族的最后一次迭代,然后將接力棒傳遞給由法國的索菲亞團隊設計的下一個架構家族。

    由于Neoverse N1是Cortex A76架構的兄弟,兩款核心之間自然有很多相似之處。我們?nèi)ツ暝敿毥榻B了Cortex A76架構,這些設計細節(jié)也同樣適用于Neoverse N1,二者僅在適應基礎設施用例方面有些差異。

    就高層設計目標而言,ARM的目標似乎相當直接:創(chuàng)建一個毫不妥協(xié)的架構,并成為未來幾年內(nèi)可重復使用的基礎。

    特別值得一提的是,我們從Cortex A76上可以看出,ARM正在調(diào)整架構設計,使其能夠在基礎設施部署中以最高頻率運行。這與Intel和AMD在服務器CPU上采用的策略形成了鮮明的對比。

    ARM在服務器CPU上的優(yōu)勢在于可以同時優(yōu)化性能、功耗和面積,而Intel和AMD不得不在這些指標中做出妥協(xié),使其產(chǎn)品雖然與對應的消費級產(chǎn)品有著類似的架構,但頻率往往非常有限,這取決于給定的SKU針對的是哪個細分市場。

    Neoverse N1的流水線結構與Cortex A76相同,均為11級短流水線設計,前端都是4寬的讀取/解碼器。ARM將其稱為“手風琴”管道,因為根據(jù)指令長度不同,它可以在延遲敏感的情況下將第二預測階段與第一獲取階段重疊,將調(diào)度階段與第一發(fā)布階段重疊,將流水線長度減少到9級。

    執(zhí)行后端也看起來與Cortex A76完全相同,擁有2個處理加減運算的簡單ALU、1個處理乘除運算的復雜ALU,以及2個處理向量和浮點運算的全寬128位SIMD流水線。

    數(shù)據(jù)吞吐量是處理器架構的一項重要指標,ARM為Neoverse N1設計了兩個128位加載/存儲單元,能夠維持足夠的帶寬來提供和服務執(zhí)行流水線。

    架構前端與Cortex A76同樣非常相似,大容量的L1和L2具有低延遲訪問性能。這里的ARM還采用了業(yè)界公知的一些最大的分支目標和方向預測緩沖器,嘗試保持數(shù)據(jù)流經(jīng)核心,并最小化分支預測和緩存命中失敗的概率來提高性能。

    在緩存層次結構方面,Neoverse N1與Cortex A76相差很大。二者的L1緩存容量均為64KB,讀取延遲為4個周期,但是Neoverse N1上最大的不同在于緩存是完全一致的。

    需要注意的是,硬件I-cache的一致性并不是ISA所要求的,到目前為止,通常都是通過軟件維護操作來完成的。

    為N1實現(xiàn)硬件一致性對ARM來說非常重要,因為它極大地提高了性能并簡化了虛擬環(huán)境的實現(xiàn),如果ARM想要在超大規(guī)??蛻糁芯哂懈偁幜?,就必須具備這些特性。擁有I-Cache的一致性被認為是一個關鍵的支持因素,可以使系統(tǒng)具有非常大的內(nèi)核計數(shù),ARM表示16核以上的系統(tǒng)都必須具備這一特性。

    L2緩存可選擇512KB或1MB的配置,使用512KB配置時與Cortex A76基本相同,而1MB緩存則可以應對內(nèi)存占用更大的應用程序。不過,將L2緩存加倍到1MB并不是沒有代價的,這會讓緩存的延遲增加2個周期,達到11個周期的負載使用延遲。

    Neoverse N1與Cortex A76的一個很大的區(qū)別在于,在進行大尺度緩存操作時,Neoverse N1不會去尋找集群,而是會使用mash互聯(lián)的方式。

    如圖所示,該連接首先通過一個CAL或組件聚合層。每個CAL最多支持兩個接口,這就是為什么我們在每個“集群”中只能看到兩個CPU(它本身并不是真正的集群)。然后CAL連接到網(wǎng)格的XP(交叉點),它本質(zhì)上是網(wǎng)絡的交換機/路由器組件。每個XP都有兩個可用端口;在ARM參考設計示例中,第二個端口連接一個系統(tǒng)級緩存。

    在64核系統(tǒng)搭配2MB系統(tǒng)級緩存的示例系統(tǒng)中,整個64MB緩存的平均負載使用延遲為22ns。ARM給出的延遲數(shù)據(jù)是納秒數(shù)而不是周期數(shù)的原因是系統(tǒng)級緩存和mesh運行在與CPU異步的頻率上,通常是內(nèi)核頻率的2/3左右。

    直接連接是Neoverse N1和CMN-600的一個整體特征。這個特性只存在于這個平臺上,而在Cortex架構上是不可能實現(xiàn)的。本質(zhì)上,它刪除了DSU的所有L3和探聽過濾器邏輯,而是直接將CPU內(nèi)核連接到CMN的CHI接口。因此,內(nèi)存控制器和CPU核心之間的通信本質(zhì)上只需要通過一個中間層,即mash網(wǎng)絡本身。

    直接從內(nèi)存控制器向CPU數(shù)據(jù)傳輸可能有點難以解釋,當CPU向內(nèi)存控制器發(fā)出數(shù)據(jù)請求時,它能夠立即同時首先向其發(fā)送“預取”類型請求,同時通過mesh網(wǎng)絡中XP主節(jié)點的探聽過濾器正常傳輸命令,然后將請求路由到內(nèi)存控制器。因此,內(nèi)存控制器將提前知道請求的到來,并且已經(jīng)開始獲取數(shù)據(jù),從而隱藏部分有效的內(nèi)存延遲,而不是整個傳輸按串行順序進行。

    預取對整個系統(tǒng)的性能非常重要,智能管理數(shù)據(jù)預取可以有效優(yōu)化系統(tǒng)級帶寬。據(jù)說在具有64核心和8個DDR4 3200內(nèi)存通道的Neoverse N1參考系統(tǒng)中,可以實現(xiàn)高達175GB/s的內(nèi)存帶寬。ARM還公布了延遲數(shù)據(jù),但ARM的數(shù)據(jù)表示LMBench數(shù)據(jù),同時配置了256MB測試深度的2MB大頁面。選擇大頁面可以減少TLB的遺漏,并更接近實際的內(nèi)存延遲,這就是ARM在這種情況下發(fā)布度量的基本原理。

    我們還沒有機會測試啟用了大頁面的競品系統(tǒng),但是AMD的EPYC 7601(LRDIMM DDR4 2666 19-19-19)可在芯片的高速緩存層次結構的末端通過類似于LMBench的測試來實現(xiàn)約73ns的延遲,而定制開發(fā)的延遲測試將TLB失敗最小化后延遲約為57ns。Intel W-3175X(RDIMM DDR 2666 24-19-19)在相同測試下延遲分別為94ns和64ns。

    使用臺積電7nm工藝制造的Neoverse N1芯片面積非常小,在使用512KB二級緩存時核心面積約為1.2平方毫米,與麒麟980所用Cortex A76的1.26平方毫米幾乎相同,將L2緩存加倍到1MB后,核心面積也只有1.4平方毫米。

    在頻率范圍方面,ARM的設想是在0.75V電壓下達到2.6GHz,在1V電壓下可實現(xiàn)3.1GHz。在這條頻率曲線末端,提升44%的功耗只能得到19%頻率和性能提高,因此大多數(shù)供應商都希望更接近功率曲線中更有效的部分。

    不過從絕對數(shù)字來看,Neoverse N1的功耗只有1~1.8W,這為64核SoC提供了充足的空間,ARM對于64核Neoverse N1參考設計的總功率預算約為105W。

    Neoverse N1超大規(guī)模參考設計

    ARM提供Neoverse N1的完整參考設計,其中包含一組完全由ARM自己驗證的IP。這套參考設計的目標是為供應商提供“甜點”配置選項,這樣他們就可以用相對最少的努力來實現(xiàn)最優(yōu)的性能。

    Neoverse N1的參考設計中可采用64或128核心配置,集成在具有64 MB或128MB 系統(tǒng)級緩存的CMN-600 mash網(wǎng)絡中。I/O接口方面,128條PCI-E 4.0通道分別用于I/O和CCIX接口,可提供足夠的I/O帶寬。

    在內(nèi)存方面,ARM為其配置了8通道DDR4控制器,最高支持3200MHz。不過實際上,ARM已經(jīng)放棄了自行研發(fā)內(nèi)存控制器,因為大多數(shù)情況下客戶會使用各自的內(nèi)部設計,或者選擇從其他第三方供應商(如Cadence或Synopsys)處選擇方案。

    對于目前的參考設計來說,ARM自己的DMC-520內(nèi)存控制器仍然是最新的,且對于公司來說是一個很好理解的模塊。不過在未來,像DDR5這樣的較新的內(nèi)存控制器也將不得不依賴于第三方IP。

    SoC的物理實現(xiàn)將使用便于設計的可復用分層構建塊。每個CPU模塊由兩個Neoverse N1內(nèi)核、一組系統(tǒng)級緩存,以及CMN的交叉點和本地節(jié)點的一部分組成。通過翻轉(zhuǎn)和鏡像來復制CPU模塊,即可生成最終的SoC頂層網(wǎng)格。

    在7nm工藝節(jié)點上,ARM的64核Neoverse N1參考設計搭配64MB高速緩存,芯片尺寸接近400平方毫米,可能略高于供應商想要的可制造性目標。為了緩解這種擔憂,ARM同時提出了小芯片設計的想法,讓多個小芯片通過CCIX鏈路進行通信,保證了必要的靈活性,供應商可自行決定如何設計解決方案。

    智能網(wǎng)卡的集成能力也是其設計和靈活性的一個重要方面,為了在大型系統(tǒng)中最大限度地提高計算能力,加速網(wǎng)絡連接實際上是在盡可能密集且有效的形式因素下實現(xiàn)高吞吐量的關鍵。

    CMN-600允許在其交叉點上設置從端口,通過高達128GB/s的高帶寬總線與內(nèi)存管理單元連接,可輕松外掛其他固定功能的硬件模塊。

    CCIX對ARM非常重要,因為它使其產(chǎn)品組合能夠與第三方IP產(chǎn)品集成。 為外部IP模塊啟用高速緩存一致性是一個非常有吸引力的功能,因為它大大簡化了供應商的軟件設計。 基本上這意味著軟件只是看到一個巨大的內(nèi)存塊,而非相干系統(tǒng)需要驅(qū)動程序和軟件知道并跟蹤內(nèi)存的哪個部分是有效的,哪些不是。 在IP集成方面,ARM提供與CMN-600集成的CCIX一致網(wǎng)關,而另一方面,它是第三方IP提供商提供CCIX轉(zhuǎn)換層的責任。

    對ARM來說,CCIX非常重要,它可讓其產(chǎn)品組合能夠與第三方IP產(chǎn)品集成。為外部IP塊啟用緩存一致性是一個非常有吸引力的特性,可大大簡化供應商的軟件設計,不再需要系統(tǒng)、驅(qū)動和軟件跟蹤哪些是有效內(nèi)存。在IP集成方面,ARM提供了與CMN-600集成的CCIX相干網(wǎng)關,而第三方IP提供商則提供CCIX翻譯層。

    在芯片的邏輯設計中,供應商還必須設計一套健壯的配電網(wǎng)絡,以支撐實際使用情況中各種突發(fā)且嚴苛的電能需求。這對許多供應商而言都是一個非常頭疼的問題,因為設計需要復雜的模型,且在大多數(shù)情況下,配電網(wǎng)絡需要過度設計以提供穩(wěn)定性保證,這反過來又增加了實施的復雜性和成本。

    ARM旨在通過以專用微控制器的形式提供極細粒度的DVFS(動態(tài)電壓頻率調(diào)整)機制來緩解這些問題??刂破髟L問CPU核心內(nèi)部的詳細活動監(jiān)視單元,查看實際有多少晶體管正在積極工作,并將此信息反饋給系統(tǒng)控制器以更改DVFS狀態(tài)。這使供應商能夠?qū)⑵渑潆娋W(wǎng)絡設計為更保守的容差,從而節(jié)省實施成本。

    性能預測

    關于性能和效率的討論,必然需要用具體的數(shù)字來衡量。在ARM公布Neoverse N1時,大多數(shù)性能數(shù)據(jù)都是相對于Cortex A72的改進,這并沒有將Neoverse N1真正置于競爭格局中最相關的數(shù)據(jù)點。Cortex A72是一款2015年推出的架構,兩款產(chǎn)品之間有著3~4年的時間跨度。

    與相同頻率且同樣配有系統(tǒng)級緩存的Cortex A72平臺相比,全新的Neoverse N1平臺直接以碾壓的姿態(tài)獲得完勝。在SPEC的單線程測試中,Neoverse N1的整數(shù)運算PPC(每時鐘性能)和絕對性能相比Cortex A72增長了60%~70%,浮點運算性能則更令人印象深刻,增幅高達100%~120%。且鑒于Neoverse N1還有許多其他SoC級別的改進及軟件優(yōu)化,實際的性能表現(xiàn)將會更高。

    與現(xiàn)有解決方案相比,ARM再次迭代了非常大幅的性能演進,在向量工作負載中實現(xiàn)了超過2倍的性能提升。自然,Neoverse N1支持ARMv8.2指令集也意味著它支持8位點積和FP16半精度指令,這些指令特別適合機器學習工作負載,實現(xiàn)了比前一個平臺近5倍的性能提升。

    對于運行速度約為2.6GHz的64核Neoverse N1超大規(guī)模參考設計,在105瓦TDP下,其SPECint2006單線程得分約為37,而多線程得分預計約為1310。

    不過這一性能不是在實際運行的產(chǎn)品上測出的,而是在ARM的服務器群上使用RTL模擬環(huán)境中估算出來的。

    Neoverse N1的單線程得分,明顯高于在同源的Cortex A76上測量的26分,撇開軟件和編譯器的考慮不提,造成42%性能差異的原因之一可能是Neoverse N1擁有更好的內(nèi)存和緩存系統(tǒng),整個系統(tǒng)帶寬比Cortex A76這種移動SoC高6倍,在單線程工作負載中,線程可以完全訪問64MB系統(tǒng)級緩存,這比Cortex A76設計的L3緩存大16倍。

    ARM強調(diào),在改善生態(tài)系統(tǒng)性能的眾多努力中,除了提供更好的硬件之外,還需要提供更好的軟件。在過去的幾年里,ARM投入了大量精力來改進開源工具和編譯器,比如將最新版GCC9與舊版的GCC5進行比較,其整數(shù)和浮點工作負載的性能提高了13~15%,且這些優(yōu)化是面向?qū)嶋H用例的改進,而不是旨在提升SPEC跑分的針對性的改變。

    就單線程性能而言,Neoverse N1看起來非常出色,它以很大的優(yōu)勢擊敗了目前性能最佳的ARM服務器CPU,即Cavium的ThunderX2。

    既然是面向服務器領域的產(chǎn)品,免不了要與老牌供應商Intel和AMD進行對比,在Intel和AMD最新的、也是最好的Xeon W-3172X以及EPYC 7601上,同樣使用GCC8編譯一組二進制文件進行。

    Intel的Xeon W-3172X很難說是最具代表性的超大規(guī)模CPU,但它4.5GHz的單核睿頻頻率可提供多核CPU中最強的單線程性能。 AMD的EPYC 7601則是一個更有代表性的數(shù)據(jù)點,其3.2GHz的頻率和Neoverse N1很有的比,實際成績來看也確實如此。

    再來看SPECrate2006的多線程測試,這是所有平臺的最佳擴展場景,沒有序列化或線程間通信,測試套件只是并行運行多個進程。

    從ARM給出的模擬測試結果來看,64核的Neoverse N1以105瓦的TPD實現(xiàn)了極高的性能和效率,x86解決方案甚至很難能夠競爭。

    雖然測試比較的是64核ARM平臺與32/28核x86平臺,貌似使用AMD即將推出的64核Rome處理器才更公平,但從數(shù)據(jù)來看,即使AMD的64核處理器能實現(xiàn)目前雙倍的性能,其TDP也不太可能降低到Neoverse N1這樣105 瓦的水平(EPYC 7601的TDP 是180瓦)。

    總結

    Neoverse N1看起來是一款優(yōu)秀的架構,它保持了ARM一貫領先的電源效率,實現(xiàn)了峰值計算性能和總體吞吐量之間的最佳平衡。

    ARM對Neoverse N1及其最終的繼任者抱有很高的期望,希望從Intel等供應商中搶走x86處理器根深蒂固的市場份額。ARM正在盡最大努力,雖然Neoverse N1不會成為旗艦x86的核心競爭對手,但在可以輕松擴展到更多核心的工作負載中,它會構成重大威脅。

    當然,在實際硬件產(chǎn)品出現(xiàn)之前,我們還不能下任何定論,但ARM此前對Cortex A76的性能預測非常符合實際設備上的測量結果,因此我們有理由給予Neoverse N1的性能預測以信任,實現(xiàn)預測中的性能肯定是有希望的。

    盡管新的硬件IP令人印象深刻,但同樣重要的是ARM在加強ARM軟件生態(tài)系統(tǒng)方面的努力。與不同行業(yè)的硬件和軟件合作伙伴合作,試圖促進軟件堆棧和與ARM的互操作性,這不僅有利于使用ARM自己的硬件IP的供應商,而且有利于選擇使用自己的定制CPU和SoC設計的供應商。同樣,那些試圖改進和加強自己產(chǎn)品的供應商,也將反過來加強ARM的生態(tài)系統(tǒng)。本質(zhì)上,這是許多公司之間的集體努力,未來將繼續(xù)獲得動力。

    可以看出,ARM正非常認真地對待基礎設施建設,過去的一年對于ARM生態(tài)系統(tǒng)來說是革命性的,我們第一次看到了ARM廠商平臺與Intel和AMD等主流廠商競爭。雖然ARM沒有透露誰將首先使用Neoverse N1平臺的信息,但ARM正無可辯駁地成為行業(yè)主流。

    據(jù)傳Neoverse N1將在未來12~18個月內(nèi)進行商業(yè)部署,這將是ARM的關鍵時刻。如果一切進展順利,ARM和合作伙伴實現(xiàn)了承諾的改進,未來1~2年里,服務器行業(yè)必將迎來一次重大轉(zhuǎn)變。


  • ·上一篇:
    ·下一篇:
  • 其他關聯(lián)資訊
    深圳市日月辰科技有限公司
    地址:深圳市寶安區(qū)松崗鎮(zhèn)潭頭第二工業(yè)城A區(qū)27棟3樓
    電話:0755-2955 6626
    傳真:0755-2978 1585
    手機:131 1300 0010
    郵箱:hu@szryc.com

    深圳市日月辰科技有限公司 版權所有:Copyright?2010-2023 www.mm696mp8f.cn 電話:13113000010 粵ICP備2021111333號