高效神经符号AI之:从使命特征到硬件设想

  人工智能(AI)近年来取得了显著进展,次要得益于深度神经收集的鞭策,但其成长反面临计较开销不成持续、鲁棒性无限以及可注释性不脚等挑和。为建立下一代认知型人工智能系统,神经符号人工智能(Neuro-Symbolic AI)做为一种有前景的新范式应运而生:它融合神经取符号方式,以提拔模子的可注释性、鲁棒性取可托度,并支撑正在少少数据前提下进行进修。近期的神经符号系统已正在需推理取认知能力的人机协做场景中展示出庞大潜力。本文旨正在深切理解神经符号AI的工做负载特征并摸索其潜正在硬件架构。我们起首对神经符号AI算法进行系统性分类,继而基于CPU、GPU及边缘端SoC平台,从运转时长、内存占用、计较算子类型、稀少性及系统行为等多个维度对其开展尝试评估取阐发。研究发觉,现有通用硬件正在运转神经符号模子时存正在显著低效问题,根源正在于:向量-符号运算取逻辑操做具有强内存依赖性;节制流复杂;数据依赖性强;稀少性模式多变;以及可扩展性受限。基于上述机能分解成果,我们提出跨条理优化策略,并以向量-符号架构(Vector-Symbolic Architecture)为例,展现一种硬件加快设想方案,以提拔神经符号计较的机能、能效取可扩展性。最初,我们从系统取架构两个层面,切磋神经符号AI当前面对的挑和取将来可能的成长标的目的。I。 引言人工智能(AI)所取得的显著进展已对社会发生了深远影响。这些进展次要由深度神经收集鞭策,并依托于一个良性轮回:即大规模收集、海量数据集取不竭加强的计较能力三者彼此推进。然而,正在享受其成功盈利的同时,越来越多的表白,若继续沿当前径成长,可能难以充实AI的全数潜力。起首,AI日益增加的计较需求取能耗正步入不成持续的轨道[1],其规模恐将立异仅能由少数机构从导,从而障碍全体前进;其次,当前AI系统正在鲁棒性取可注释性方面仍面对严峻挑和,这很可能源于现有进修方式的固有局限[2][3];第三,现代AI系统往往孤立运转,人取人、人取AI、AI取AI之间的协做极为无限。因而,亟需成长新一代AI范式,以应对社会对更高效率、更强可注释性及更高可托度的火急需求。神经符号人工智能(Neuro-symbolic AI)[4]是一种新兴范式,它将神经方式、符号方式取概率表征相融合,旨正在提拔AI系统的可注释性取鲁棒性,并支撑正在少少量数据下实现无效进修(见图1)。此中,神经方式擅长从数据中提取复杂特征,特别合用于视觉取言语使命;符号方通过整合对物理世界已有建模的学问,显著加强系统可注释性,并降低对大规模标注数据的依赖;而概率表征则使认知系统能更无效地处置不确定性,从而正在非布局化下表示出更强的鲁棒性。神经取符号方式的协同融合,使神经符号AI无望成为引领“第三代AI海潮”[5][6]的环节范式。神经符号AI无望催生具备类人沟通取推理能力的系统——它们可自从识别、分类并顺应新情境。例如,神经-向量符号架构(Neuro-Vector-Symbolic Architecture)[7]正在时空推理使命上达到了98。8%的精确率,显著超越人类表示(84。4%)、纯神经收集ResNet(53。4%)及GPT-4(89。0%)。除正在视觉取言语使命中展示出杰出机能[8]外,神经符号AI正在提拔人机协同使用的可注释性取可托度方面亦具有严沉潜力[9]。此类使用涵盖协同机械人、夹杂现实系统及各类人机交互场景:机械人可正在实正在中取人类天然互动;智能体能以可注释的体例进行推理取决策;智能系统可泛正在摆设,脱节对云端的依赖,实现边缘端自从运转。虽然算法层面喜人,神经符号计较却因更高的内存强度、更复杂的算子异构性以及更犯警则的数据拜候模式,取当前以矩阵乘法(MatMul)和卷积(Conv)优化为从导的硬件演进线]日益脱节,导致严沉低效取硬件资本操纵率低下。因而,深切理解其计较取内存需求,对于正在通用及定制硬件上实现高效施行至关主要。本文旨正在量化神经符号AI的工做负载特征,并摸索其潜正在系统架构。基于我们前期工做[4][15],我们起首对前沿神经符号AI工做负载进行系统性梳理取布局化分类(第二节);继而,正在通用计较平台取边缘端SoC上,对七种代表性神经符号负载开展详尽特征阐发,涵盖运转时延、内存行为、计较算子形成、算子图布局、硬件资本操纵率及稀少性特征(第三节至第五节)。我们的工做负载阐发了若干环节察看取洞见,包罗:神经组件以矩阵乘法(MatMul)取卷积(Conv)为从,而符号组件则以向量/逐元素运算及逻辑操做为从导;后者ALU操纵率低、缓存射中率低、数据搬运量大,导致其正在CPU/GPU上效率低下,易成为系统机能瓶颈;神经部门凡是为计较稠密型(compute-bound),而符号部门则多为内存稠密型(memory-bound),并面对可扩展性挑和;符号操做常依赖神经模块的输出成果,或需被编译嵌入神经布局之中,因此往往处于端到端神经符号系统的临界径上;部门神经取向量-符号组件呈现出高度非布局化稀少性,且其稀少模式随使命场景取输入属性动态变化。受上述工做负载分解的,我们提出一系列跨条理软硬件协同优化方案,以提拔神经符号系统的效率取可扩展性(第五节)。具体地,我们以向量-符号架构(Vector-Symbolic Architecture)为案例,展现一套硬件加快设想方,涵盖算子建模、微架构设想、数据流组织取节制机制(第六节)。最初,我们切磋神经符号计较范畴的研究机缘,并对将来成长标的目的提出瞻望(第七节)。据我们所知,本文是首批从系统取架构双注沉角对神经符号计较开展全面特征建模的工做之一,旨正在为其高效、可扩展施行奠基根本。我们期望通过神经符号算法、系统、架构及算法-硬件协同设想的协同冲破,鞭策下一代认知计较系统的立异设想。本节对神经符号人工智能(Neuro-Symbolic AI)算法的近期研究进展进行系统性综述取分类。概述。神经符号AI是一种跨学科方式,通过协同融合符号推理取神经收集(NN)进修,建立智能系统,充实阐扬二者互补劣势,以提拔模子的精确性取可注释性。鉴于神经符号算法同时包含符号取神经组件,其分歧范式可根据这两类组件若何整合为同一系统进行划分。受Henry Kautz分类系统[31]的,我们将其系统性地归纳为五类范式(见表I)。下文将一一详述各范式;此外,表II基于表I的分类,列举了若干底层典型运算的实例。:指一类以符号推理为从干、并借帮神经收集统计进修能力加以加强的智能系统。这类系统凡是包含一个完整的符号问题求解器,此中嵌入若干松耦合的神经子模块,用于施行统计进修使命。典型案例包罗DeepMind的AlphaGo[16]取AlphaZero[32]:它们以蒙特卡洛树搜刮(MCTS)做为符号求解器,辅以神经收集形态估量器,用于进修统计模式。:指神经取符号组件以流水线体例组合的夹杂系统,此中各组件凡是别离承担互补性使命。据我们所知,绝大大都现有神经符号算法属于此范式。例如,IBM的神经-向量符号架构(NVSA)[7]采用神经收集做为前端模块进行语析,并以符号推理器做为后端,正在RAVEN[33]取I-RAVEN[34]数据集上施行概率性溯因推理(abductive reasoning)。概率溯因取施行(PrAE)进修器[22]采用雷同架构,其区别正在于:NVSA先将特征映照至高维向量空间,而PrAE间接将原始特征做为神经收集输入。其他实例还包罗:基于向量符号架构的图像到图像翻译(VSAIT)[21]、神经概率软逻辑(NeuPSL)[17]、神经概率逻辑编程(DeepProbLog)[35]、神经谜底集编程(NeurASP)[18]、神经符号动态推理[36]、神经符号概念进修器(NSCL)[8]、溯因进修(ABL)[19],以及正在CLEVRER数据集[36]上的神经符号视觉问答(NSVQA)[20]。:指将符号法则嵌入神经收集,以指导其进修过程;此中符号学问被编译进神经模子的布局中,从而加强模子的可注释性。例如,逻辑神经收集(LNNs)[23]将范畴学问或专家经验编码为符号法则(如一阶逻辑或恍惚逻辑),并将其做为对神经收集输出的束缚前提。其他案例包罗:符号数学的深度进修使用[24],以及可微分的归纳逻辑编程(ILP)[25]。:指将符号逻辑法则取神经收集相融合的一种夹杂方式,其焦点正在于将符号逻辑法则映照为嵌入向量,并做为软束缚或正则项于神经收集的丧失函数之上。例如,逻辑张量收集(LTNs)[26]操纵逻辑公式对张量表征束缚,正在学问图谱补全使命(即预测实体间缺失的现实或关系)中表示优异。该范式的其他实例包罗深度本体收集(DONs)[27]取张量化(tensorization)方式[37]。值得留意的是,此类方式的推理过程仍由神经收集从导,因而其能否(以及正在何种程度上)会可注释性,仍是待深切研究的问题。:指一类以神经收集为从体、但通过引入符号推理以加强其可注释性取鲁棒性的系统。取Symbolic[Neuro](符号推理指导神习)分歧,正在Neuro[Symbolic]中,神经模子正在特定前提下自动挪用或关心特定符号消息,从而内化符号推理能力。例如,配备留意力机制的图神经收集(GNNs)可用于表征符号表达式[28]:该留意力机制可进一步用于将符号法则融入GNN模子,使其能动态聚焦于图中相关的符号消息。其他实例包罗神经逻辑机(NLM)[30],以及零样本概念识别取获取(ZeroC)[29]——后者采用图布局表征,此中构成性概念模子做为节点,概念间关系做为边。分歧神经符号范式对应各别的底层算子类型取数据依赖模式。因而,本文迈出理解其计较特征的初步环节一步,旨正在为将来神经符号系统的架构设想取现实摆设奠基根本。本节拔取若干普遍利用的神经符号AI工做负载做为代表性案例,用于后续阐发。我们认定其具有代表性,是因其正在使用场景、模子布局及计较模式等方面呈现高度多样性。B。 逻辑神经收集(LNN)LNN是一种将神习取符号逻辑相融合的神经符号框架,具备间接可注释性、范畴学问可嵌入性及健旺的问题求解能力[23]。其焦点思惟是将神经元映照为逻辑公式中的元素,并采用带参数的函数暗示逻辑联合词(如∧、∨),同时束缚以连结逻辑行为的准确性。LNN正在一个同一的神经框架内整合现实取法则,借帮Łukasiewicz逻辑实现加权实值逻辑推理[26]。相较于纯神经模子,LNN正在逻辑表达能力、对不完整学问的容错性及使命普适性方面更具劣势,特别正在具备组合性取模块化布局的证明使命中表示凸起。C。 逻辑张量收集(LTN)LTN是一种面向数据取笼统学问的查询、进修取推理的神经符号框架,基于恍惚一阶逻辑(Fuzzy First-Order Logic, FOL)[26]。LTN通过神经图布局将FOL元素“落地”(grounding)于具体数据,并借帮恍惚逻辑将逻辑联合词转换为实值运算,再通过近似聚合操做注释量词(如∀、∃)。该收集操纵嵌入的张量表征计较命题的“实值度”(truth degree)。相较于纯神经模子,LTN通过正在数据之上逻辑来表达学问,显著提拔了模子的可注释性、数据效率及分布外泛化能力。D。 神经-向量符号架构(NVSA)NVSA是一种面向笼统推理的神经符号架构,通过融合神经视觉取向量-符号概率推理,提拔溯因推理效率[7]。该架构采用全息分布式表征(holographic distributed representations),协同设想取推理模块,使视觉表征取符号法则处置得以同一,从而正在瑞文渐进矩阵(RPM)测试中实现高精确率[50][51]。相较于纯神经模子,NVSA无效降服了“绑定问题”(binding problem)取“叠加灾难”(superposition catastrophe),正在RPM使命中不只机能超越保守神经收集,以至跨越人类平均程度。E。 神经逻辑机(NLM)NLM是一种面向归纳进修取逻辑推理的神经符号架构,将神经收集做为函数迫近器,连系逻辑编程实现符号处置[30]。NLM操纵神经收集近似实现逻辑运算,并通过神经模块的毗连体例实现逻辑量词;其多层布局可逐层推导对象间关系,构成更高阶笼统。相较于纯神经模子,NLM正在关系推理取决策使命中表示优异,能从小规模使命优良泛化至大规模场景,机能优于保守神经收集及纯符号逻辑编程系统。F。 基于向量符号架构的图像到图像翻译(VSAIT)VSAIT旨正在处理跨域分布差别显著时图像翻译中的“语义翻转”(semantic flipping)问题,借帮向量符号架构提拔生成图像的逼线]。该方式正在超向量(hypervector)空间中进修可逆映照,确保源图像取翻译成果间的分歧性,并将特征编码至随机生成的向量-符号高维空间(hyperspace)。相较于纯神经模子,VSAIT能无效语义翻转现象,并显著削减正在大域间距非配对图像翻译使命中常见的图像“”(hallucination)。G。 零样本概念识别取获取(ZeroC)ZeroC是一种神经符号架构,通过符号图布局实现新鲜概念的零样本识别取习得[29]。它采用图布局取基于能量的模子(energy-based models)表征概念及其关系,支撑层级化概念模子正在推理阶段跨域泛化。相较于纯神经模子,ZeroC正在零样本概念识别使命中表示杰出,特别正在缺乏大量标注样本的新概念进修场景下,显著超越纯神经方式。H。 概率溯因取施行进修器(PrAE)PrAE是一种面向时空认知推理的神经符号进修器,它融合神经视觉取符号推理,可预测对象属性并生成概率性场景表征,进而揣度躲藏法则以实现系统性泛化。相较于纯神经模子,PrAE正在时空推理使命中机能更优,同时具备通明性、可注释性及接近人类程度的泛化能力。本节引见我们所采用的神经符号AI工做负载分解方式(第IV-A节)及算子特征分类系统(第IV-B节),这些方式取分类系统将正在第V节中加以使用。(Convolution):指将一个矩阵(即卷积核)叠放正在另一矩阵(输入)之上,逐计较对应元素乘积之和,并滑动遍历整个输入矩阵以完成数据变换的操做。该操做普遍用于神经收集中,凡是具有较高的运算强度(operational intensity)。(Matrix Multiplication):泛指两个矩阵(浓密或稀少)之间的一般矩阵乘法(GEMM)。神经收集中的全毗连条理要依赖GEMM做为其焦点数算。大规模浓密矩阵乘法凡是计较稠密且高度可并行;而稀少矩阵乘需正在稀少模式通用性取硬件优化开销之间衡量——其高效施行依赖于对非零元素索引表的快速查找机制。(Vector/Element-wise Tensor Operation):指正在张量(广义的矩阵、向量及高维数组)上逐元素施行的操做,包罗两张量间对应元素的加、减、乘、除;也涵盖神经元模子中的激活函数、归一化操做及关系运算(如比力)。(Data Transformation):指对数据进行外形沉构或子采样类操做,包罗矩阵转置、张量沉排序、掩码选择(masked selection),以及“归并”(coalescing)——后者特指正在稀少矩阵中,对统一坐标的反复条目通过乞降其对应值予以归并的过程。(Data Movement):指各类数据传输操做,包罗内存取计较单位之间、从机取设备之间(如CPU↔GPU)、设备取从机之间的数据搬运,以及张量复制、赋值等操做。(Others):涵盖部门符号AI工做负载中利用的特殊操做,例如恍惚一阶逻辑(fuzzy first-order logic)运算及各类逻辑法则推理操做。本节对代表性神经符号工做负载的机能特征展开阐发,涵盖其运转时取可扩展性(第V-A节)、计较算子形成(第V-B节)、内存利用(第V-C节)、操做图布局(第V-D节)、硬件操纵率(第V-E节)及稀少性(第V-F节)。端到端延迟分化我们起首描绘代表性神经符号AI工做负载的端到端延迟(见图2)。可察看到以下现象:(1)符号部门的计较延迟不成轻忽,以至可能成为系统瓶颈。相较于纯神经负载,神经取符号部门正在各模子中的运转时占比别离为:LNN(54。6% 神经 / 45。4% 符号)、LTN(48。0% / 52。0%)、NVSA(7。9% / 92。1%)、NLM(39。4% / 60。6%)、VSAIT(16。3% / 83。7%)、ZeroC(73。2% / 26。8%)、PrAE(19。5% / 80。5%)(图2a)。尤为凸起的是,NVSA的运转时几乎全由符号部门从导(92。1%),其从因正在于推理过程中法则检测步调具有强序列性且计较稠密。(2)及时性需求难以满脚。例如,NVSA正在瑞文矩阵(RPM)使命上,RTX 2080 Ti GPU需耗时380秒,而Jetson TX2则高达7507秒(图2b)。即便投入更多算力缩短神经推理时间,基于向量-符号的推理所引入的庞大开销仍使其无法实现及时施行。(3)符号操做正在GPU上难以无效加快。以NVSA为例,其符号部门占总推理时间的92。1%,但仅贡献19%的浮点运算量(FLOPS),表白计较效率极低。→ 环节结论1:相较纯神经模子,神经符号AI模子遍及具有更高延迟,难以满脚及时使用需求;符号操做正在CPU/GPU上施行效率低下,易构成系统瓶颈。端到端延迟可扩展性阐发我们进一步评估分歧使命规模取复杂度下的端到端运转时(以NVSA正在RPM使命为例,见图2c):(1)神经取符号部门的运转时占比正在分歧使命规模下相对不变。例如,当使命尺寸从2×2增至3×3时,符号部门占比仅从91。59%微降至87。35%;(2)总运转时随使命规模呈近似平方级增加——上述案例中总延迟增加达5。02倍,凸显神经符号模子潜正在的可扩展性瓶颈。→ 环节结论2:神经取符号组件的运转时比例根基不变,但总延迟随使命复杂度急剧上升;其可扩展性瓶颈亟需高可扩展、高能效的新型架构支撑。→ 1:为建立及时、高效、可扩展的认知系统,亟需从算法–系统–硬件跨条理协同优化神经符号工做负载。图3a根据第IV-B节的六类算子分类,对LNN、NVSA、NLM、VSAIT、ZeroC取PrAE中神经取符号部门的运转时进行分化,得出以下察看:LNN、LTN取NLM(符号)均含大量逻辑运算,其数据库查询取算术操做存正在并行优化潜力,特别正在更大规模符号模子中;,根源正在于其稀少且犯警则的访存模式及双向推理机制——采用模子的数据流架构无望缓解该瓶颈;NVSA、VSAIT取PrAE(符号)次要涉及向量-符号操做,其典型操做(如绑定binding、bundling)依赖高维分布式向量计较以实现符号表征,此类操做正在GPU上难以高效施行;→ 环节结论3:神经组件以MatMul取卷积为从,符号组件则以向量/逐元素张量运算及逻辑操做为从;神经取符号模块正在CPU/GPU上分手施行所激发的数据传输开销,为高效硬件设想带来严峻挑和。(2)存储脚印方面:神经收集权沉取符号码本(codebook)凡是占领从导。例如,NVSA中神经收集取全息向量的码本合计占内存占用超90%——因其神经前端需表达的对象组合数远超向量空间维度,要求码本脚够大以涵盖所有对象组归并近似正交性。→ 3(算法层):可采用模子压缩手艺(如量化、剪枝)及神经/符号组件的高效因子分化,正在不损认知推理精度的前提下,降低内存取数据挪动开销。→ 4(手艺层):新型存储器(如高带宽存储、存算一体/近存计较)可无效缓解符号操做的内存瓶颈,从而提拔神经符号系统的可扩展性、机能取能效。→ 存正在若干优化机遇:如数据预处置、法则查询并行化,以及采用异构/可沉构硬件架构设想,以缓解该瓶颈。→ 环节结论5:符号操做或依赖神经模块成果,或需被编译进神经布局之中,因此遍及处于神经符号系统端到端推理的环节径上;其向量-符号计较阶段取复杂的节制流,施行效率差。→ 5(系统层):可采用自顺应工做负载安排策略,对神经取符号组件进行并行化处置,以缓解资本闲置问题,提拔运转时效率。施行神经符号工做负载时的硬件低效性次要源于:ALU操纵率不脚、缓存射中率低、以及大量数据传输。我们操纵Nsight Systems/Compute东西进一步描绘所选神经符号负载正在GPU上的行为。以NVSA为例,表IV列出了其典型神经取符号内核的计较、内存及数据挪动特征。我们察看到:→ 环节结论6:虽然神经内核正在GPU上展示出高计较操纵率取内存效率,符号操做却遍及存正在ALU操纵率低、L1缓存射中率低、内存事务屡次等问题,导致全体施行效率低下。→ 6(架构层):可设想异构或可沉构的神经/符号融合架构,集成高效的向量-符号计较单位取高带宽片上收集(NoC),以提拔ALU操纵率、削减数据挪动,从而改善系统机能。神经符号工做负载亦呈现出显著的稀少性特征。例如,图5描绘了NVSA符号模块(包罗:概率质量函数→VSA变换、概率计较、VSA→概率质量函数变换)正在分歧推理法则属性下的稀少性。我们察看到:→ 环节结论7:部门神经取向量-符号组件展示出高度非布局化稀少性,且其稀少程度取模式随使命场景及属性动态变化。→ 7(算法取架构层):采用稀少知的神经取符号算法及架构设想,可无效降低内存占用、通信开销取计较FLOPS需求。(Compute kernels)神经符号负载由异构的神经取符号内核形成;此中符号算子(如向量、图、逻辑运算)正在通用CPU/GPU上施行效率低下——表示为硬件操纵率低、缓存射中率差,易成为运转时延迟瓶颈。(Dataflow and scalability)神经符号负载的节制流比纯神经收集更复杂;符号操做或严酷依赖神经内核输出,或需被编译嵌入此中;其本节以向量符号架构(Vector-Symbolic Architecture, VSA)为对象,开展一项跨条理加快设想案例研究。VSA是浩繁神经符号使命中一种强大且焦点的模子[7][21][53][54]。我们提出一套完整的设想方式,涵盖:我们所提出的硬件设想方案,间接受第V节工做负载特征阐发所得洞见的。如表V所示,该设想具备以下环节特征:(1)采用高能效数据流,集成异构算术单位,可矫捷施行各类焦点向量-符号运算;(2)采用分布式存储系统,连系近存计较(near-memory computing)手艺,以提拔可扩展性取内存机能;(3)对符号算子进行压缩存储,显著减小向量码本(vector codebooks)的内存占用;(4)采用向量符号单位的瓦片化(tiled)设想,最大限度削减数据挪动,并优化计较效率。上述特征协同感化,配合建立出一款高能效、高可扩展的向量符号公用硬件加快器,其机能显著超越保守通用计较平台。正在向量符号内核中,标量取对象等计较元素以超向量(hypervectors)暗示,并可通过一组代数运算进行操做[15][55],具体包罗:(1)绑定(binding),即逐元素乘法,用于生成一个取其形成元素近似正交(即不类似)的新超向量;(2)(bundling),即逐元素加法,通过逐元素大都投票机制组合多个超向量;(3)置换(permutation),即沉排超向量中的元素挨次,以连结序列内部的相对关系;(4)标量乘法(scalar multiplication),即利用标量权沉对超向量元素进行缩放。向量间的类似性可通过多种距离怀抱来权衡,例如点积、汉明距离、L1距离和L2距离[56][57]。这些运算配合形成了一个数学框架,特地用于实现面向VSA运算的各类认知功能[58]。我们采用形式化暗示——即“内核函数”——描述所提出的硬件加快器的操做特征取可编程能力。我们将该内核函数表达为:O != F(y, s),此中F(·)整合了一组内核子函数fi,配合笼盖加快器所有操做域;y = {y₁, y₂, …} 暗示参取计较的所有项目向量取原型向量构成的数组;参数s定义为一组前提变量s = (s₁, s₂, …),用于配合确定各子函数fi所对应的子域。该内核功能整合了编码取解码、内存拜候及推理所需的各类计较。接下来,我们对子函数fi进行形式化建模,以描述这些计较过程。编码取解码内核。为便于编码取解码操做,内核函数需支撑对超向量运算(绑定、、置换)的矫捷设置装备摆设。我们考虑到绑定运算可分布于运算之上[59],并据此提出如下内核函数:紧凑型内核形式化描述。基于上述消息,我们提出以下简练且形式化的描述,用以描绘VSA硬件加快器的内核功能:正在该定义中,节制变量( s 1 , s 2 , s 3)用于正在运转时动态调整内核行为。图6展现了该内核若何被设置装备摆设以施行各类VSA工做负载;基于这些工做负载及其他负载映照所得的机能成果见第VI-E节。我们提出一种根据前述VSA内核推导出的架构数据流建立方式。图7展现了全体架构,包含三个子系统:另设一个节制单位,用于指令译码并确定各子系统的节制设置装备摆设。下文将一一引见这些子系统的功能及其内部操做。从当地SRAM加载的向量仅正在本瓦片内部逻辑中处置,以充实阐扬近存计较(near-memory computing)劣势。SRAM初始化时载入随机生成的原子向量(即符号码本),用于符号编码。因为向量维度受限于物理数据通宽度,我们采用折叠机制(folding mechanism)以支撑扩展维度;此中,CA-90是焦点组件,通过XOR取移位操做动态生成新的随机向量[60]。此设想大幅降低内存占用——当地SRAM仅需存储种子折叠(seed folds)即可。CA-90 RF用于暂存重生成的折叠,以削减CA-90的冗余激活;QRY寄放器则保留类似性计较所需的查询数据,是VSA中的环节组件。VOP 子系统(Vector-Symbolic Operations Subsystem)该子系统实现VSA焦点运算,用于建立分布式表征并施行符号推理。其包含五个逻辑单位:BIND毗连当地向量缓存,用于施行向量间的绑定操做(binding);多个绑定成果的叠加(即超向量的生成)通过BND中的逐元素加法(即,bundling)实现。BIND取BND采用分歧数据暗示:BIND利用二进制格局,BND利用整数格局;MULT担任格局转换(二进制→整数)并施行逐元素标量乘法——该操做对神经符号编码至关主要。BND输出的整数折叠可暂存于BND RF中以支撑持续叠加,或经SGN转为二进制格局,以便通过全局向量-符号数据通传输。参数化多瓦片架构(Parameterized Multi-Tile Architecture)上述模块组合形成“单瓦片(single-tile)”根本架构,包含一个MCG取一个DC实例。我们进一步提出“多瓦片(multi-tile)”架构:将内存受限的向量加载取类似性计较使命分派至少个瓦片,并操纵SIMD并行机制加快施行。该设想实现了符号计较的并行化近存处置,显著提拔计较单位操纵率;同时扩展了存储容量,以支撑更大规模模子。各瓦片配备设置装备摆设寄放器,答应正在指令发射前选择性激活(或休眠)特定瓦片,实现矫捷能效办理。如前所述,各模块的设置装备摆设形成一种七级流水线架构,每级对应特定类型的操做(见图8)。这种流水线布局推进了数据流取节制流原语的顺畅集成,使得分歧节制方式可正在无冒险(hazard-free)的前提下矫捷使用。为开展本研究,我们沉点调查该加快器的两种节制方式:单操做每周期(Single-Operation-Per-Cycle, SOPC)取多操做每周期(Multiple-Operations-Per-Cycle, MOPC)。节制方式对比:我们以谐振器收集(resonator network)内核实现的因子分化使命为例,对比SOPC取MOPC(见图9)。成果表白:我们正在设想当选用 MOPC,因其更强的加快能力正在需并发施行多个异构使命时尤为环节;此外,MOPC 的加快比可按照低功耗需求矫捷设置装备摆设,实现机能取能效的动态衡量。加快器指令格局:为支撑 MOPC 节制方式,我们设想了一种采用宽字宏格局(称为Instruction Word)的指令集架构。其雷同超长指令字(VLIW),但环节区别正在于:该设想具备高度矫捷性,是范畴公用处置器的常见实践。受限于篇幅,指令字段细节取编译器优化策略从略。建立类ImageNet的神经符号数据集神经符号系统正在实现类人机能方面展示出庞大潜力[63],但当前使用仍局限于根本决策取推理使命,远未实现人类认知能力的完整图景——例如演绎推理、组合泛化(compositionality)取反现实思维(countectual thinking)。一个环节问题是:若何将从其他范畴习得的能力迁徙至笼统推理使命?为显著提拔神经符号系统的元认知能力(metacognitive capabilities),亟需建立更具挑和性、更契合其特征的新型数据集,以充实其潜能。同一神经符号模子融合神经、符号取概率方式无望显著提拔AI模子的可注释性取鲁棒性。然而,目前对这些互补范式的整合仍处于初步阶段——若何以原、系统性体例实现三者融合,仍是严沉挑和。出格地,符号组件可取狂言语模子(LLMs)连系,以加强其规划取推理能力[64]。我们瞻望将来能建立一个同一框架:支撑算法设想者矫捷融合神经取符号方式,并连系概率表征;同时,可对“神经符号推理”取“纯大规模神经模子”之间的扩展律(scaling laws)进行量化比力取建模。开辟高效软件框架神经符号AI系统凡是依赖底层逻辑(如恍惚逻辑、参数化机制、可微布局)以支持进修取推理能力。然而,当前大都系统实现均针对特定逻辑定制公用推理软件,严沉限制了模块化取可扩展性。因而,亟需开辟新型软件框架:建立多样化的神经符号工做负载基准测试面临神经符号算法的快速出现取硬件手艺的迅猛成长,亟需成立可比、可验证的基准测试系统::需建立代表性基准集,精确捕捉神经取符号模子的焦点工做负载特征(如计较内核、访存模式、稀少性),并支撑正在人机协同使用场景中开展量化评估;:需成长建模-仿实框架,支撑针对此类负载的新型架构摸索,并基于工做负载特征建立可复用的优化模块库。系统性的基准测试将指导机械进修研究者取系统架构师深切衡量各类神经符号算法正在精度、机能取能效间的选择,并鞭策设想认知导向的硬件架构融合神经、符号取概率方式的神经符号工做负载,正在计较内核异构性、稀少模式、访存犯警则性及内存强度等方面,均远超深度神经收集(DNNs)。这使其取当前以矩阵乘法取法则化数据流优化为从导的硬件演进线日益脱节。因而,亟需新型硬件架构:神经符号人工智能(Neuro-symbolic AI)是一种新兴范式,旨正在建立高效、鲁棒、可注释且具备高级认知能力的人工智能系统。本文对神经符号系统的机能进行了系统性特征描绘,并深切阐发了其各操做组件的特征。基于分解所得洞见,我们提出了跨条理优化手艺,并以一项硬件架构设想案例研究,展现了若何显著提拔其机能取能效。我们相信,本研究将有帮于应对环节挑和,并凸显鞭策下一代神经符号AI系统成长所必需的机缘取标的目的。