ARM Cortex-A78

ARM Cortex-A78是一個基於ARMv8.2-A64位指令集架構設計的中央處理器以及ARM內核[1]。由安謀控股旗下奧斯汀設計中心的奧斯汀團隊設計[1]

ARM Cortex-A78
產品化2020
設計團隊安謀控股
指令集架構ARMv8-A
擴展指令集ARMv8.1-A, ARMv8.2-A, 密码学, RAS, ARMv8.3-A LDAPR
核心数量1–4個為一個集群
一級快取32–64 KB
二級快取256–512 (private L2 ECC) KiB
三級快取Optional, 512 KB to 4 MB (up to 8 MB) with Cortex-X1
CPU主频范围至 3.0 GHz(手機平台), 3.3 GHz(平板電腦/筆記本電腦) 
上代產品ARM Cortex-A77
繼任產品ARM Cortex-A710
相關產品ARM Cortex-X1

設計

ARM Cortex-A78是ARM Cortex-A77的繼任產品,比上一代節能多達50%。A78可以與 DynamIQ技術中的ARM Cortex-X1ARM Cortex-A55配對,以提供較高的性能和能效比[2]

ARM Cortex-A78擁有四條超純量亂序執行解碼流水線並包含1.5K macro-OP(MOPs)緩存。A78每個週期可以獲取4條指令和6Mops,並且每個週期可以重命名和調度6Mops和13µops(Micro-operation)。亂序執行窗口大小為160位,後端有13個執行端,流水線深度為13個階段,執行延遲(execution latencies)為10個階段[3][4]

標準ARM Cortex-A78方案在 2.1 GHz (5 nm) 的情況下,比上一代Cortex-A77

  • 性能提高7%
  • 功耗降低4%
  • 面積減少5%,令在四核集群的情況下提供給GPU和NPU區域面積增加了15%。

ARM Cortex-A78支持ARM DynamIQ技術,令在設計多核產品時更加靈活和增加擴展性。L1緩存可以從64KB減至更小的32KB。為了抵消更小L1內存所帶來的影響,分支預測器需要更好地覆蓋不規則的搜索模式,並且能夠在每個週期跟踪兩個採用的分支,從而減少L1緩存未命中的問題並有助於隱藏流水線氣泡(pipeline bubbles)以保持內核持續運作。與A77相比,流水線長了一個週期,並且是每週期6條指令的設計。這確保A78可以達到3GHz左右的時鐘頻率

ARM還在A78的執行單元中加個整數乘法單元和一個額外的負載地址生成單元 (Address Generation Unit,AGU),以將數據負載和帶寬都增加50%。A78的其他優化包括增加融合指令[5]指令調度程序寄存器重命名結構重排序緩衝區的效率。

L2緩存最高可達512KB,並具有雙倍帶寬以提高性能,而L3緩存最高可達4MB,是前幾代 Cortex-A產品的兩倍。動態共享單元 (Dynamic Shared Unit,DSU) 還允許和共享ARM Cortex-X1 8MB配置[6][7][8][9]

對外授權

ARM Cortex-A76可作為半導體IP核授權給被許可方(例如高通聯發科),其設計使其適合與其他IP內核(例如 GPU數位訊號處理器(DSP)、顯示控制器)集成到一個片上系統(SoC)中。

上市產品

2020年11月,Cortex-A78首次用於三星Exynos 1080以及之後的2020年12月的三星Exynos2100[10][11]。驍龍888中使用的是定制Kryo680 Gold內核并基於Cortex-A78微架構

上市產品分別還有:

參考資料