Untether(AI引领通用AI推理加速器市场)

凭借其独特的内存计算架构,Untether AI希望引领通用人工智能推理加速器市场。这家创业公司能否取代主导AI训练领域的领先CPU和GPU供应商,将触角伸向AI推理领域?这些令人印象深刻的展示足以让这家公司成功吗?Untether AI是一家总部位于多伦多的人工智能芯片初创公司。上周,它在Hot Chips 2022上发布了最新的通用人工智能推理加速器speedAI,这是基于该公司 at内存计算架构。SpeedAI旨在解决人工智能计算工作量的爆炸式增长,以及广泛的人工智能推理应用对更高精度、更低延迟、灵活性和更好能效的日益增长的需求。Untether AI专注于推理应用,并试图模仿英伟达人工智能训练的成功。AI处理分为两个阶段。在培训阶段,开发人员为他们的模型提供一个计划好的数据集,这样它就可以学习它将分析的数据类型所需的一切。然后,在推理阶段,模型可以根据实时数据进行预测,并产生可操作的结果。后者是Untether AI所追求的细分市场。是解开了艾目标是否过于雄心勃勃?也许吧。但基于其30 TFLOPS/W和2 PFLOPS芯片的前所未有的性能,Untether AI认为它有机会。该公司声称其最新的推理加速器树立了能效和计算密度的新标准。Yole Intelligence的计算和软件技术及市场分析师Adrien Sanchez称speedAI s 30 flops/W 令人印象深刻。他补充说,这击败了英伟达与Nvidia s料斗装置。桑切斯说。诚然,对比为训练量身定制的硬件和专注于推理的硬件是完全不同的,但仍然令人印象深刻。"人工智能推理市场涵盖了从自动驾驶汽车到智能城市/零售、自然语言处理和科学应用的所有领域。

十字路口的人工智能推理

在今天美国通用AI处理器市场,Nvidia无疑是训练领域的王者。虽然英伟达的高功率解决方案并不适合AI推理应用,在现实中,许多英伟达客户最终会使用英伟达的基于GPU的解决方案来满足他们的推理需求。然而,AI推理市场正处于十字路口。很多用户很难在AI推理引擎中找到能效和灵活性的折中。一方面,有广泛使用的基于CPU和GPU的解决方案。另一方面,许多推理处理器通常被专门化为视觉处理器。Untether AI的产品副总裁Bob Beachler说,像Mobileye和Ambarella 可以在他们的SOC上实现一些AI功能,其中一些已经成功实现量产。"目前,在碎片化的AI推理市场中,缺乏能够处理各种应用中AI工作负载的推理引擎。TechInsights的首席分析师Linley Gwennap认为考虑神经网络的多样性和变化,即使对于推理来说,最好的解决方案仍然是通用的AI处理器。另一个选择是更具体的处理器,例如,只在卷积网络上工作。Gwennap说,GPU更通用,这也是它如此受欢迎的原因。"Untether AI (at speedAI)增加了更多的灵活性,以满足AI推理应用程序的这些更广泛的要求。可扩展产品系列Beachler表示,Untether AI将把speedAI变成一个可扩展的系列。上周发布的SpeedAI 240被认为是最大的设备,而一些缩小版的列(在不同的电源节点上有更少的内存)正在开发中。Beachler说,这些加速器的功率范围从10W到5W甚至更高。我们的芯片可以是任何嵌入式SoC的协处理器,取决于你可能需要多少AI计算。"Speed240计划于2023年初出样。按比例缩小的推理加速器计划于明年晚些时候推出。

内存计算

人工智能出名是因为它发明了一种at内存计算架构。

这家初创公司设计了at-memory computing,以将其AI推理加速器从CPU和GPU的冯诺依曼架构固有的低能效中解放出来。这是因为在冯诺依曼架构下,从DRAM到本地缓存,再到处理元件的距离要长得多。

放开艾的at-memory方案处理驻留的数据,专用SRAM使用短而宽的总线。这种记忆库架构允许AI计算所需的效率和带宽,同时支持计算的大规模并行直连。

Untether AI使用At-Memory计算进行AI加速。

这并不是UntetherAI的第一次展示。内存计算架构。该公司首先通过其原创的人工智能推理加速器runAI展示了其方法的优势。润爱在2020年秋季宣布将于本季度投产。

对于新的speedAI架构,Untether AI在能效、准确性和吞吐量方面增加了许多改进。它们包括第二代at-memory计算架构、超过1400个优化的RISC-V处理器和定制指令,并采用浮点数据类型FP8来增强推理加速。这些指标表明,runAI原有的性能(整数数据类型8 TOPS/W)已经提升到30TFLOPS/W(浮点计算)。

近内存/冯诺依曼架构的局限性,比如吞吐量和能效不足,是众所周知的。像Mythics这样的芯片设计公司一直在宣传所谓的内存计算。

然而,内存计算是不同的。比彻勒:人们试图制造带有记忆单元的产品。"他解释说,问题在于你尝试使用模拟技术,导致模拟效应,也就是说你需要在它周围安装很多补偿电路。"他补充说,额外的电路可以让内存中的计算设备更加高效。

相比之下,在《人工智能》中,我们将处理元件直接连接到标准SRAM单元上。"速度是数字化的,采用TSMC 7纳米CMOS技术。比彻勒补充道:我们围绕SRAM做一切事情,以最大限度地降低功耗。我们不不做缓存,每个ALU都有自己的内存。"

RISC-V处理器

人工智能的独特之处的第二代内存计算体系结构在于使用RISC-V处理器。

两年半前,当Beachler加入Untether AI时,他问这个团队我知道你为什么不不使用Arm,但为什么不你不用RISC-V处理器吗?"

RunAI,Untether AI必须设计一个定制的RISC处理器。Beachler说RISC-V的生态系统还没有完全成型。

对于speedAI来说,团队增加了一堆扩展指令,我们称之为自定义指令,超过20 。比彻勒解释说:这是特定于我们正在进行的计算类型的,包括神经网络计算和我们的内存计算架构。"

比彻勒指出,这种定制是人工智能无法做到的。今天也不行Arm处理器,因为Arm没有打开它的指令集。恰恰相反,RISC-V允许这种情况发生。我们可以用自己的指令设计自己的定制处理器,但还是用RISC-V指令集架构。"

记忆银行

Untether AI的第二代内存库将使用RISC-V处理器,实现灵活高效的AI加速。

根据Untether AI的说法,speedAI架构中的每个存储体都有512个直接连接到专用SRAM的处理元件。这些处理元件支持INT4、FP8、INT8和BF16数据类型,以及用于节能的零检测电路,并支持2:1结构稀疏性。

ai加速器采用双多线程RISC-V来提高内存条的编程灵活性。

布置成8行64个处理元件,每行具有其自己的专用行控制器和硬布线减少功能,以允许编程的灵活性和变压器网络功能的有效计算。

两个RISC-V处理器(每个处理器有20多个定制的推理加速指令)管理每一行。据该公司称,这种灵活的记忆库可以适应许多不同的神经网络架构,包括卷积、变换和推荐网络以及线性代数模型。

准确性问题

除了能效,UntetherAI团队还专注于提高其高速人工智能芯片的人工智能精度。比彻勒说:人工智能推理芯片的用户发现,当他们经历量化步骤时,有时会出现不可接受的准确性损失。对于某些应用来说,这没问题,但当AI推理加速器用于推荐引擎和自动驾驶汽车时就不是这样了。"

Beachler解释说,在人工智能推荐引擎中,如果你的准确率只下降0.1%,你可能会损失5000万到1亿美元的广告收入,因为你给消费者提供了错误的广告或推荐。精确度很重要的另一个领域是自动驾驶汽车,因为汽车制造商不会在精确度上妥协。"

今年早些时候,当Nvidia宣布其Hopper架构时,这家GPU巨头谈到了一种新的8位浮点(FP8)数据类型。与标准的FP16训练相比,FP8格式的吞吐量提高了一倍。

SpeedAI也在用FP8。经过他们自己的研究,该团队得出结论,两种不同的FP8格式为人工智能推理提供了准确性、范围和效率的最佳组合。该公司解释说,4尾数(FP8p表示精度)和3尾数(FP8r表示范围)的组合为跨各种不同网络的推理提供了最佳精度和吞吐量。"

对于卷积网络,Untether AI声称使用FP8 与使用BF16数据类型相比,精度损失不到1%的十分之一,吞吐量和能量效率提高了4倍。

不是一刀切

为什么市场需要一个通用的AI推理加速器?首先是因为AI推理加速了应用的出现。

Beachler指出,除了中央计算系统必须处理越来越多感知数据的自动驾驶汽车之外,智能城市还部署了广泛的监控市场。"他们需要收集数百个摄像头来生成实时的可操作情报。"这同样适用于军事AI应用,例如对抗无人机。"他们试图用不同的传感器扫描天空,以对抗无人机。或者他们会寻找雷达信号来了解空域的情况。"其他AI推理应用包括自然语言处理加速,这是由Untether AI添加到speedAI中的。

Yole Intelligence的Sanchez表示,通用人工智能推理的其他应用包括实时分类的智能零售,金融领域的语音转文本,企业数据中心的气候建模和高性能计算。

其次,在执行AI时,神经网络和客户使用它们的方式有无数的变化。比彻勒说:我们已经分析了50多个不同的客户神经网络。每一个都不一样。他们可能会从最基本的开始,但随后他们会做出一些偏差适合他们的数据集和培训。

综上所述,你需要的是一个具有可扩展性和灵活性的AI推理加速器架构。

然而,目前许多AI应用依赖于现有的通用CPU和GPU。对于服务器中的人工智能应用,桑切斯说我们看到大部分的推理都是由CPU完成的。这是因为推理任务的需求是零星的。对于客户来说,使用几个Xeon或Epyc内核进行快速推理比整个硬件池更方便。"

Untether AI面临的挑战之一是确定需要特殊推理硬件的细分市场。桑切斯说。超可扩展性和服务器分离可能会增加推理专用硬件迎接挑战的机会。"

软件陷阱

比彻勒,谁在奥尔特拉工作(像许多成员Untether艾的执行团队),非常清楚软件和工具流的重要性。正如FPGA客户遇到了软件编译问题或提议的硬件架构利用率低一样,一些AI芯片客户也遇到了类似的问题。你可以程序,还是它编程太难了。"

比彻勒说。正如我们在Altera学到的,我们确保我们的工具始终是行业中最好的。我们正试图在人工智能上做同样的事情,并在软件上过度投资。"

然而,Untether AI尚未提交给MLPerf对其AI芯片进行基准测试。比彻勒说,该公司的工程团队被50个客户拉去做50个不同的神经网络。这次创业的首要任务是确保软件可以运行所有这些不同的神经网络。

他说这些是任何人工智能初创公司都会遇到的成长烦恼。但是runAI,UntetherAI 的第一个人工智能加速器,已经投入使用,并为客户运行网络。

与大量现成的特定应用程序的AI推理引擎不同,Untether AI 人工智能推理加速器被设计成一个通用设备。然而,这家创业公司似乎被拉向许多方向,以满足客户的不同需求。Untether AI成功的关键在于其软件和编程工具,使客户在使用Untether AI时能够独立地做出自己的偏离和修改加速器。

审计刘清