

论文入选ISSCC 2026。
编译 | 程茜
裁剪 | Panken
芯东西2月26日音信,2月15日-19日,在被业界誉为“芯片想象海外奥林匹克会议”的海外固态电路大会(ISSCC 2026)上,清华大学、等大学与公司的参议东谈主员发表论文,初次提倡一款基于HYDAR框架的28nm羼杂存内蓄意(CiR)芯片的保举系统(RecSys)加快器。

这款36M RRAM CiR芯片能完毕390K QPS的朦拢率与1574K QPS/W能效比。其构建的多芯片系统可完毕百万级及时端到端保举系统(RecSys)。

▲芯片显微像片与系统笼统
在执行保举系统任务中,CiR通过彭胀至576M领域的多芯片系统,QPS进步了66倍,QPS/W进步181倍,准确率与CPU止境。

▲芯片性能与现时顶尖想象的对比
该芯片的中枢上风包括:接收DL-ADC完毕非Top-K蓄意的早期拆开;基于展望的预取颐养活水线(PPSP)数据流进步不礼貌责任负载的朦拢量;由粗到细的检索架构(coarse-to-fine)在保证系统调回精度的同期,可彭胀至大领域应用。
保举系统中的中枢运算单位是相同向量检索(SVS),该样貌通过蓄意查询向量与大领域向量库之间的距离,检索出Top‑K最左近向量。
SVS会占据保举系统绝大部分的蓄意时辰与功耗,主要原因是外部存储器拜访(EMA)支拨。其中,接收羼杂键合本领的DRAM加快器本钱崇高,基于NAND TCAM的加快器存在读取蔓延高、数据与距离示意精度有限等问题。
针对上述痛点,参议东谈主员提倡一种基于RRAM的数模羼杂存内蓄意加快器HYDAR,可完毕高朦拢量、高能效、高精度的SVS。
基于RRAM的存内蓄意(Compute-in-RRAM,CiR)因能最大铁心减少数据迁徙、存储密度高、并行度极大,已被公觉得深度学习加快的极具远景的本领阶梯。但将CiR应用于SVS仍会带来稀奇挑战,如能耗与蔓延急剧加多、镌汰PE期骗率与朦拢量、精度镌汰等。

▲面向高效保举系统的、基于CiR的SVS加快器的参议动机与想象挑战
HYDAR通过CiR PE(存内蓄意处理单位)、羼杂芯片想象与多芯片系统架构协同优化,管理了上述挑战:
最初是带动态蔓延ADC(DL‑ADC)的CiR PE,其通过多位模拟CiR PE集成DL‑ADC,用于基于直方图的相同向量检索,可提前将距离与检索阈值相比,并跳过非Top‑K向量,从而镌汰蔓延与功耗。
其次是基于展望的霸占式颐养活水线(PPSP),通过这种羼杂芯片机制,展望每个PE的启动时辰、中断对抗衡任务、插入短任务来均衡负载,以符合动态SVS责任流,进步期骗率与朦拢量。
终末是两步由粗到精的检索架构,其软硬件协同想象框架,先在CiR PE上进行粗粒度检索以保证高朦拢量,再在数字SVS引擎上进行精粒度检索,在保证调回精度的同期最大化朦拢量。
在此基础上,基于HYDAR框架,参议东谈主员接收28nm工艺流片完毕了一款CiR原型芯片,包含36M RRAM单位,分为16个并行PE,每个PE包含一个288×4096阵列

▲HYDAR全体架构与中枢特点及基于CiR的端到端检索系统
具体来看基于模拟存内蓄意单位(CiR PE)的直方图相同向量检索(SVS)完毕,以及缓助蓄意提前拆开的DL‑ADC想象。
其通过查询向量与基础向量之间的距离漫衍直方图来细目Top‑K检索的截断阈值(CK)。在欧氏距离框架下,距离跨越CK的基础向量由双模DL‑ADC过滤,该ADC可动态监测相比赶走,完毕非Top‑K向量的蓄意提前拆开。
欧氏距离蓄意可在288×4096的CiR阵列上完成,其中每个2T2R单位示意一个4位维度,每一列代表一个256维基础向量及32维偏置。
本想象中,CiR PE在蓄意过程中将直方图存入腹地直方图存储器,随后同步至跨PE直方图单位(CHU),归并漫衍式赶走以生成CK。该论文想象了三条定制领导来实施该经由。
在DL‑ADC方面,基于逐次贴近寄存器(SAR)的结构缓助提前拆开样子(ET),将预生成的CK看成输入,与每个周期生成的SAR码一同送入按位相比器。
在迭代调整IDAC以贴近ADC输入电流的过程中,任何一位不匹配王人标明蓄意赶走与CK存在互异,触发提前拆开,罢手蓄意并输出2位向量掩码(vMask)。
终末,blackjack通过将DL‑ADC配置为ET样子,距离蓄意与过滤可同期实施。

▲基于动态蔓延ADC(DL‑ADC)的直方图式SVS的CiR完毕
该ET机制在数据库领域扩大时着力显赫,平均减少60%的蓄意时辰和71%的功耗,宏单位面积支拨加多7%。
{jz:field.toptypename/}其次是面向SVS负载提倡的基于展望的霸占式颐养活水线(PPSP)。
查询在不同PE间并行蓄意,而每个PE参与蓄意的基础向量数目经常不同,这会变成蓄意周期互异与PE间同步支拨,进而激发颐养停顿与活水线气泡。
PPSP接收一语气霸占式颐养与动态任务颐养器(DTS)管理了这一问题。
DTS会对各PE上查询实施的完成时辰戳进行监测与展望。该论文提倡的霸占式颐养机制允许新任务霸占那些行将完成的正在启动任务,这不错排斥活水线气泡、让任务更早完成、PE更快开释,以劳动后续查询。
在接纳到领导时,任务会占用一个DTS槽位,并将其PE/段掩码存入任务表,然后看成子任务路由到贪图PE的两个待处理缓冲区之一。
DTS同期监控每个任务的展望关节赶行运辰(PCET),其界说为所有子任务PET的最大值。其中的仲裁器检查PE与正在启动任务的重复情况,如若新任务的PET不错镌汰且不影响正在启动任务的PCET,则切换待处理缓冲区以霸占式颐养新任务,从而进步朦拢量、镌汰蔓延。
此外,在查询颐养时间,DTS会在后端内存分派器中为每个查询预分派地址空间,使得PE不错径直将赶走写入输出缓冲区,无需PE间同步,从而完毕PE快速开释以处理新查询。

▲面向动态SVS负载的、所提倡的基于展望的霸占式颐养活水线(PPSP)
通过以上优化,PPSP将PE期骗率进步至91%,平均查询蔓延镌汰30%,QPS朦拢量进步1.82倍。
终末是面向SVS、基于CiR的两步检索架构。
为进步系统精度,该架构集成了数字精检索引擎,在高朦拢粗检索赶走中精准筛选向量。这使得即使在模拟CiR存在噪声与低精度处理的情况下,仍能保抓高调回精度。
该架构还通过多CiR芯片并行彭胀了向量库容量,并缓助更广漠的并行粗检索,同期接收Thresh‑IVF经由与系统活水线,进一步进步朦拢量。
CiR PE分为三类:质心PE(CPE)存储聚类中心坐标,采样PE(SPE)存储从每个聚类中采样的极少向量,用于表征漫衍并生成CK;全量库PE(FPE)存储所有基础向量,并全程启动在高能效的DL‑ADC提前拆开(ET)样子下,在所有这个词经由中占据92.7%的向量存储。
CiR专用的Thresh‑IVF责任经由包括查询最初送入CPE,通过IT运共蓄意查询与聚类中心的距离,识别最近的聚类;系统将查询路由到所选聚类的SPE,通过IH在多芯片间生成直方图,进而生成CK;CK被路由到按次1所细目聚类的所有FPE,通过IC完成粗检索ID生成。
这种系统级基于阈值的粗检索,最小化了每个芯片输出的过滤赶走数目,幸免了在各芯片上实施疏浚Top‑K蓄意带来的冗余ID过滤。终末,极少候选ID被送入数字引擎,以FP16体式进行精检索,使系统级存储带宽需求镌汰97.44%。

▲两步由粗到精检索系统架构与责任经由
该想象完毕了系统级四级活水线并行;同期芯片内不同PE也可并行处理不同任务。相较于传统基于CPU的IVF决策,这种多芯片层级活水线可将蔓延镌汰90.17%。
保举系统在相接用户与海量内容和劳动方面领悟着至关紧迫的作用,已广漠部署于电商和流媒体平台,但看成其中枢运算单位相同向量检索占据了保举系统绝大部分的蓄意时辰和功耗。
其中接收羼杂键合本领的DRAM加快器进步了带宽以缓解EMA问题,但其本钱崇高,且仍受限于DRAM与逻辑单位之间的数据传输瓶颈;基于NAND TCAM的加快器将蓄意集成到存储阵列中以减少EMA,但存在读取蔓延高、数据和距离示意精度有限的问题。
基于此,这篇最新参议提倡了一款高效的SVS加快器,能在保证高朦拢量检索的同期,不葬送调回精度,进一步镌汰保举系统的功耗。
上一篇:21点游戏app 老歌王廖百威现状曝光: 淡出乐坛后重返舞台, 父子三代现身引热议
下一篇:没有了

备案号: