高頻寬記憶體

计算机随机存储器

高頻寬記憶體(英文:High Bandwidth Memory,縮寫HBM)是三星電子超微半導體SK海力士發起的一種基於3D堆疊工藝的高效能DRAM,適用於高記憶體頻寬需求的應用場合,与高性能圖形處理器、網路交換及轉發裝置(如路由器交換器)、高性能数据中心的AI特殊应用集成电路结合使用,在 CPU 中用作包内高速缓存,在即将推出的 CPU 和 FPGA 中用作包内 RAM,还用于某些超级计算机(如 NEC SX-Aurora TSUBASA 和富士通 A64FX)。[1][2]首款HBM内存芯片由SK海力士于2013年生产,[3]首款使用高頻寬記憶體的裝置是AMD Radeon Fury系列顯示核心[4][5]

採用高頻寬記憶體的顯示卡橫截面概略圖,更多詳見矽穿孔工藝(TSV)

2013年10月,高頻寬記憶體正式被JEDEC采纳为业界标准。[6]第二代高頻寬記憶體(HBM2)于2016年1月被JEDEC采纳。[7]NVIDIA在該年發表的新款旗艦型Tesla運算加速卡 —— Tesla P100、AMD的Radeon RX Vega系列IntelKnight Landing也採用了第二代高頻寬記憶體。

技术细节

相比较DDR4GDDR5而言,高頻寬記憶體以更小的体积、更少的功率达到更高的带宽。[8]通过堆叠多达八个DRAM芯片裸晶(即三维集成电路)和一个可选的基本芯片(包括缓冲电路和测试逻辑)来实现。[9]堆栈通常通过基板连接到 GPU 或 CPU 上的内存控制器。另外,存储器芯片也可以直接堆叠在CPUGPU芯片上。[10][11]堆栈内,芯片通过硅穿孔(TSV)及微突起英语microbump相连接的可选基底裸晶,附带内存控制器。高頻寬記憶體技术原理上与美光科技开发的混合内存立方体英语Hybrid Memory Cube接口类似,但不相兼容。[12][13]

高頻寬記憶體内存总线与其他DRAM内存(如DDR4或GDDR5)相比更加宽阔。在拥有四块DRAM裸晶的高頻寬記憶體堆(4-Hi)上,每个裸晶均有两条128比特的信道,四块加起来总共有八条。搭载四块4-Hi高頻寬記憶體堆的图形卡(GPU)将拥有4096比特宽的内存总线。做个比较,GDDR内存给图形显示卡的信道宽度为32比特,其内存接口则为512比特。[14]高頻寬記憶體最高支持每个封装4GB的内存。

相比较DDR4或GDDR5而言,内存的最大连接数越多,高頻寬記憶體就需要以更新的方法连接至图形处理器(或其他处理器)。[15]AMD和英伟达均使用为特定目的打造的硅片——中介層,来连接内存及图形处理器。中介層需要将内存与处理器放置在相邻的位置,以减短内存路径。但由于半导体器件制造的制造费用比印刷电路板的高出不少,客户也需花费更多金钱购买此类产品。

接口

高頻寬記憶體DRAM需要将宿主计算裸晶与分为多个独立信道的分布式接口紧密结合起来。这些信道相互之间完全独立,且不一定同步。高頻寬記憶體DRAM使用宽接口架构来执行高速、节能的计算操作。高頻寬記憶體DRAM使用500 MHz的差分时钟 CK_t / CK_c(前缀“_t”表示“真”(True)、“正值”(Positvie)及差分对组件(Components of differential pair),“_c”则代表“互补”部分(Complementary))。指令在CK_t和CK_c的信号上升沿注册。每个信道以双数据速率(DDR)管理128比特的数据总线。高頻寬記憶體支持每针1 GT/s英语GT/s(1比特)的传输速率,总体封装带宽则能达到128 GB/s。[16]

HBM2

第二代高頻寬記憶體(HBM2)指定了每堆8个裸晶及每帧传输速度上至2 GT/s英语GT/s的标准。为保持1024比特宽的访问,第二代高頻寬記憶體得以在每个封装中达到256GB/s的内存带宽及上至8GB的内存。业界预测第二代HBM在极其需要性能的应用程序(如虚拟现实)中至关重要。[17]

2016年1月19日,三星集团宣布进入大量生产第二代高頻寬記憶體的早期阶段,每堆拥有高达8GB的内存。[18][19]SK海力士同时宣布于2016年8月发布4GB版本的内存。[20]

HBM2E

2018年下半年,JEDEC宣布升级第二代HBM标准,提升带宽及其能力。[21]官方标准中明确每堆最高307GB/s(有效数据速率则为2.4Tbit/s),但就实际而言,市面上已早有以此速度运行的产品。除此之外,标准还添加了对12-Hi堆的支持,使每堆24GB的内存成为可能。

2019年3月20日,三星发布了Flashbolt HBM2E,每个堆栈有8个芯片,传输速率为3.2 GT/s,每个堆栈总共提供16 GB和410 GB/s。[22]8月12日,SK海力士宣布推出HBM2E,每个堆栈有8个芯片,传输速率为3.6 GT/s,每个堆栈总共提供16 GB和460 GB/s,[23][24]2020年7月2日,宣布开始量产。[25]

HBM3

第三代高頻寬記憶體(HBM3)于2016年正式发布,[26][27]此代标准扩大了内存容量、提升了内存带宽(512GB/s或更高)并降低了电压与价格。人们猜测高頻寬記憶體的密度增加是因为裸晶数量及其密度的增加导致。业界尚未宣布正式发布日期。三星专家预测在2020年前进行第三代高頻寬記憶體的量产。

HBM4

为了打造能进行百亿亿次计算英语Exascale computing的高性能计算机,慧與科技预测OPGHC HBM3+及HBM4将在2022年至2024年间发布。更为强大的堆叠能力及更高的物理密度理论上应能让每块插槽的可寻址内存及运行速度更上一层楼。HBM3+的计划速度为4 TB/s,每块插槽的计划可寻址内存(做个类比,AMD的高端EPYC芯片在每个插槽上可以150GB/s的速度寻址)。[28]有了32 Gbit(4 GB)的DRAM裸晶,再加上HBM3+每堆上的16片裸晶,每个HBM3+组件理论上能提供64GB的容量。

历史

AMD Fiji英语Graphics Core Next,首款使用高頻寬記憶體技术的图形处理器

早在2008年,AMD就开始着手研发高頻寬記憶體来解决日益增长的能源使用及计算机内存的形状因数。其中,AMD高级研究员布赖恩·布莱克(Bryan Black)解决了裸晶堆叠问题。AMD还从内存行业(SK海力士)、插入器行业(聯華電子)及封装行业(日月光半導體)的合作伙伴中获得了帮助,让高頻寬記憶體从设想变成现实。[29]2015年,SK海力士在韩国利川市的工厂正式开始量产。

在2010年AMD与SK海力士共同发表提案后的2013年10月,高頻寬記憶體被JEDEC设立为业界标准(JESD235)。[6]首款使用高頻寬記憶體的裝置是AMD Radeon Fury系列顯示核心,其驱动了AMD Radeon R9 Fury X。[30][4][31]

第二代高頻寬記憶體则于2016年1月被JEDEC认可为业界标准(JESD235a)。[7]首款使用第二代高頻寬記憶體技术的图形处理器是于2016年4月发布的英伟达 Tesla P100。[32][33]

未来

在2016年8月的热门芯片英语Hot Chips上,三星与海力士均宣布了下一代高頻寬記憶體技术。[34][35]两家公司都预计下一代产品的裸晶密度、带宽得到提升,同时减少能源消耗。三星还宣布将发布低成本版本的高頻寬記憶體,此类产品将移除缓存裸晶、减少硅穿孔,并将总带宽降至200GB/s。

另请参阅

参考文献

外部链接