Untether（AI引领通用AI推理加速器市场）-胜象大百科-提升认知,打开格局

Untether（AI引领通用AI推理加速器市场）

凭借其独特的内存计算架构，Untether AI希望引领通用人工智能推理加速器市场。这家创业公司能否取代主导AI训练领域的领先CPU和GPU供应商，将触角伸向AI推理领域？这些令人印象深刻的展示足以让这家公司成功吗？Untether AI是一家总部位于多伦多的人工智能芯片初创公司。上周，它在Hot Chips 2022上发布了最新的通用人工智能推理加速器speedAI，这是基于该公司 at内存计算架构。SpeedAI旨在解决人工智能计算工作量的爆炸式增长，以及广泛的人工智能推理应用对更高精度、更低延迟、灵活性和更好能效的日益增长的需求。Untether AI专注于推理应用，并试图模仿英伟达人工智能训练的成功。AI处理分为两个阶段。在培训阶段，开发人员为他们的模型提供一个计划好的数据集，这样它就可以学习它将分析的数据类型所需的一切。然后，在推理阶段，模型可以根据实时数据进行预测，并产生可操作的结果。后者是Untether AI所追求的细分市场。是解开了艾目标是否过于雄心勃勃？也许吧。但基于其30 TFLOPS/W和2 PFLOPS芯片的前所未有的性能，Untether AI认为它有机会。该公司声称其最新的推理加速器树立了能效和计算密度的新标准。Yole Intelligence的计算和软件技术及市场分析师Adrien Sanchez称speedAI s 30 flops/W 令人印象深刻。他补充说，这击败了英伟达与Nvidia s料斗装置。桑切斯说。诚然，对比为训练量身定制的硬件和专注于推理的硬件是完全不同的，但仍然令人印象深刻。"人工智能推理市场涵盖了从自动驾驶汽车到智能城市/零售、自然语言处理和科学应用的所有领域。

十字路口的人工智能推理

在今天美国通用AI处理器市场，Nvidia无疑是训练领域的王者。虽然英伟达的高功率解决方案并不适合AI推理应用，在现实中，许多英伟达客户最终会使用英伟达的基于GPU的解决方案来满足他们的推理需求。然而，AI推理市场正处于十字路口。很多用户很难在AI推理引擎中找到能效和灵活性的折中。一方面，有广泛使用的基于CPU和GPU的解决方案。另一方面，许多推理处理器通常被专门化为视觉处理器。Untether AI的产品副总裁Bob Beachler说，像Mobileye和Ambarella 可以在他们的SOC上实现一些AI功能，其中一些已经成功实现量产。"目前，在碎片化的AI推理市场中，缺乏能够处理各种应用中AI工作负载的推理引擎。TechInsights的首席分析师Linley Gwennap认为考虑神经网络的多样性和变化，即使对于推理来说，最好的解决方案仍然是通用的AI处理器。另一个选择是更具体的处理器，例如，只在卷积网络上工作。Gwennap说，GPU更通用，这也是它如此受欢迎的原因。"Untether AI (at speedAI)增加了更多的灵活性，以满足AI推理应用程序的这些更广泛的要求。可扩展产品系列Beachler表示，Untether AI将把speedAI变成一个可扩展的系列。上周发布的SpeedAI 240被认为是最大的设备，而一些缩小版的列(在不同的电源节点上有更少的内存)正在开发中。Beachler说，这些加速器的功率范围从10W到5W甚至更高。我们的芯片可以是任何嵌入式SoC的协处理器，取决于你可能需要多少AI计算。"Speed240计划于2023年初出样。按比例缩小的推理加速器计划于明年晚些时候推出。

内存计算

人工智能出名是因为它发明了一种at内存计算架构。

这家初创公司设计了at-memory computing，以将其AI推理加速器从CPU和GPU的冯诺依曼架构固有的低能效中解放出来。这是因为在冯诺依曼架构下，从DRAM到本地缓存，再到处理元件的距离要长得多。

放开艾的at-memory方案处理驻留的数据，专用SRAM使用短而宽的总线。这种记忆库架构允许AI计算所需的效率和带宽，同时支持计算的大规模并行直连。

Untether AI使用At-Memory计算进行AI加速。

这并不是UntetherAI的第一次展示。内存计算架构。该公司首先通过其原创的人工智能推理加速器runAI展示了其方法的优势。润爱在2020年秋季宣布将于本季度投产。

对于新的speedAI架构，Untether AI在能效、准确性和吞吐量方面增加了许多改进。它们包括第二代at-memory计算架构、超过1400个优化的RISC-V处理器和定制指令，并采用浮点数据类型FP8来增强推理加速。这些指标表明，runAI原有的性能(整数数据类型8 TOPS/W)已经提升到30TFLOPS/W(浮点计算)。

近内存/冯诺依曼架构的局限性，比如吞吐量和能效不足，是众所周知的。像Mythics这样的芯片设计公司一直在宣传所谓的内存计算。

然而，内存计算是不同的。比彻勒：人们试图制造带有记忆单元的产品。"他解释说，问题在于你尝试使用模拟技术，导致模拟效应，也就是说你需要在它周围安装很多补偿电路。"他补充说，额外的电路可以让内存中的计算设备更加高效。

相比之下，在《人工智能》中，我们将处理元件直接连接到标准SRAM单元上。"速度是数字化的，采用TSMC 7纳米CMOS技术。比彻勒补充道：我们围绕SRAM做一切事情，以最大限度地降低功耗。我们不不做缓存，每个ALU都有自己的内存。"

RISC-V处理器

人工智能的独特之处的第二代内存计算体系结构在于使用RISC-V处理器。

两年半前，当Beachler加入Untether AI时，他问这个团队我知道你为什么不不使用Arm，但为什么不你不用RISC-V处理器吗？"

RunAI，Untether AI必须设计一个定制的RISC处理器。Beachler说RISC-V的生态系统还没有完全成型。

对于speedAI来说，团队增加了一堆扩展指令，我们称之为自定义指令，超过20 。比彻勒解释说：这是特定于我们正在进行的计算类型的，包括神经网络计算和我们的内存计算架构。"

比彻勒指出，这种定制是人工智能无法做到的。今天也不行Arm处理器，因为Arm没有打开它的指令集。恰恰相反，RISC-V允许这种情况发生。我们可以用自己的指令设计自己的定制处理器，但还是用RISC-V指令集架构。"

记忆银行

Untether AI的第二代内存库将使用RISC-V处理器，实现灵活高效的AI加速。

根据Untether AI的说法，speedAI架构中的每个存储体都有512个直接连接到专用SRAM的处理元件。这些处理元件支持INT4、FP8、INT8和BF16数据类型，以及用于节能的零检测电路，并支持2:1结构稀疏性。

ai加速器采用双多线程RISC-V来提高内存条的编程灵活性。

布置成8行64个处理元件，每行具有其自己的专用行控制器和硬布线减少功能，以允许编程的灵活性和变压器网络功能的有效计算。

两个RISC-V处理器(每个处理器有20多个定制的推理加速指令)管理每一行。据该公司称，这种灵活的记忆库可以适应许多不同的神经网络架构，包括卷积、变换和推荐网络以及线性代数模型。

准确性问题

除了能效，UntetherAI团队还专注于提高其高速人工智能芯片的人工智能精度。比彻勒说：人工智能推理芯片的用户发现，当他们经历量化步骤时，有时会出现不可接受的准确性损失。对于某些应用来说，这没问题，但当AI推理加速器用于推荐引擎和自动驾驶汽车时就不是这样了。"

Beachler解释说，在人工智能推荐引擎中，如果你的准确率只下降0.1%，你可能会损失5000万到1亿美元的广告收入，因为你给消费者提供了错误的广告或推荐。精确度很重要的另一个领域是自动驾驶汽车，因为汽车制造商不会在精确度上妥协。"

今年早些时候，当Nvidia宣布其Hopper架构时，这家GPU巨头谈到了一种新的8位浮点(FP8)数据类型。与标准的FP16训练相比，FP8格式的吞吐量提高了一倍。

SpeedAI也在用FP8。经过他们自己的研究，该团队得出结论，两种不同的FP8格式为人工智能推理提供了准确性、范围和效率的最佳组合。该公司解释说，4尾数(FP8p表示精度)和3尾数(FP8r表示范围)的组合为跨各种不同网络的推理提供了最佳精度和吞吐量。"

对于卷积网络，Untether AI声称使用FP8 与使用BF16数据类型相比，精度损失不到1%的十分之一，吞吐量和能量效率提高了4倍。

不是一刀切

为什么市场需要一个通用的AI推理加速器？首先是因为AI推理加速了应用的出现。

Beachler指出，除了中央计算系统必须处理越来越多感知数据的自动驾驶汽车之外，智能城市还部署了广泛的监控市场。"他们需要收集数百个摄像头来生成实时的可操作情报。"这同样适用于军事AI应用，例如对抗无人机。"他们试图用不同的传感器扫描天空，以对抗无人机。或者他们会寻找雷达信号来了解空域的情况。"其他AI推理应用包括自然语言处理加速，这是由Untether AI添加到speedAI中的。

Yole Intelligence的Sanchez表示，通用人工智能推理的其他应用包括实时分类的智能零售，金融领域的语音转文本，企业数据中心的气候建模和高性能计算。

其次，在执行AI时，神经网络和客户使用它们的方式有无数的变化。比彻勒说：我们已经分析了50多个不同的客户神经网络。每一个都不一样。他们可能会从最基本的开始，但随后他们会做出一些偏差适合他们的数据集和培训。

综上所述，你需要的是一个具有可扩展性和灵活性的AI推理加速器架构。

然而，目前许多AI应用依赖于现有的通用CPU和GPU。对于服务器中的人工智能应用，桑切斯说我们看到大部分的推理都是由CPU完成的。这是因为推理任务的需求是零星的。对于客户来说，使用几个Xeon或Epyc内核进行快速推理比整个硬件池更方便。"

Untether AI面临的挑战之一是确定需要特殊推理硬件的细分市场。桑切斯说。超可扩展性和服务器分离可能会增加推理专用硬件迎接挑战的机会。"

软件陷阱

比彻勒，谁在奥尔特拉工作(像许多成员Untether艾的执行团队)，非常清楚软件和工具流的重要性。正如FPGA客户遇到了软件编译问题或提议的硬件架构利用率低一样，一些AI芯片客户也遇到了类似的问题。你可以程序，还是它编程太难了。"

比彻勒说。正如我们在Altera学到的，我们确保我们的工具始终是行业中最好的。我们正试图在人工智能上做同样的事情，并在软件上过度投资。"

然而，Untether AI尚未提交给MLPerf对其AI芯片进行基准测试。比彻勒说，该公司的工程团队被50个客户拉去做50个不同的神经网络。这次创业的首要任务是确保软件可以运行所有这些不同的神经网络。

他说这些是任何人工智能初创公司都会遇到的成长烦恼。但是runAI，UntetherAI 的第一个人工智能加速器，已经投入使用，并为客户运行网络。

与大量现成的特定应用程序的AI推理引擎不同，Untether AI 人工智能推理加速器被设计成一个通用设备。然而，这家创业公司似乎被拉向许多方向，以满足客户的不同需求。Untether AI成功的关键在于其软件和编程工具，使客户在使用Untether AI时能够独立地做出自己的偏离和修改加速器。

审计刘清

Untether（AI引领通用AI推理加速器市场）

网站分类

标签列表

热门文章

Untether（AI引领通用AI推理加速器市场）

相关文章

网站分类

标签列表

热门文章