快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

栏目分类

热点资讯

苹果id有什么用被别人拿去你的位置：ins账号自助购买10元 > 苹果id有什么用被别人拿去 >

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

发布日期：2024-07-03 07:15 点击次数：88

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

芯片初创公司Etched近日晓示推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”，并宣称其在AI大言语模子（LLM）推感性能方面打败了NVIDIA最新的B200 GPU，AI性能达到了H100的20倍。

这也意味着Sohu芯片将不错大幅裁减现存AI数据中心的采购本钱和装置本钱。

咫尺，Etched公司已就其Sohu芯片的出产与台积电4nm工艺张开径直协作，况且已从顶级供应商处得回满盈的 HBM 和工作器供应，以快速提高第一年的出产能力。

一些早期客户照旧向Etched公司预订了数千万好意思元的硬件。

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

一、AI性能突出NVIDIA H100的20倍，是怎样作念到的？

据Etched公司先容，Sohu是寰球上第一个基于Transformer架构的ASIC。

把柄Etched公司清晰的数据清晰，一台配备了8颗Sohu芯片的工作器每秒不错惩处突出 500，000 个 Llama 70B Token，达到了相同配备8张NVIDIA H100 GPU加快卡的工作器的20倍。

相同，也远远突出了配备8张NVIDIA最新的B200 GPU加快卡的工作器约10倍。

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

△基准测试针对的是 FP8 精度的 Llama-3 70B：无稀少性、8x 模子并行、2048 输入/128 输出长度。使用 TensorRT-LLM 0.10.08（最新版块）策划的 8xH100，8xGB200 的数字是估算的。

Etched公司暗意，Sohu速率比NVIDIA的最新一代Blackwell架构的B200 GPU还要快一个数目级，而且价钱更低廉。不错匡助客户构建 GPU 无法杀青的家具。

不外，这里如故要强调以下，天然Sohu的AI性能要比NVIDIAGPU更好，但这是有一个前提的，因为Sohu是专为基于Transformer架构的大模子定制的，是以其也仅支捏基于Transformer架构的大模子加快。

“通过将Transformer架构集成到咱们的芯片中，天然无法运行大大宗传统的 AI 模子，比如为 Instagram 告白提供支捏的 DLRM、像 AlphaFold 2 这么的卵白质折叠模子、像 Stable Diffusion 2 这么的旧的图像模子，以及CNN、RNN 或 LSTM等模子，然则针对基于Transformer架构的大模子，Sohu将是有史以来最快的AI芯片，莫得哪个芯片大略与之匹敌。”Etched公司说谈。

1、更高的策划愚弄率

由于Sohu只运行Transformer这一种类型的算法，因此不错删除绝大大宗适度流逻辑，从而领有更大宗学策划逻辑。因此，Sohu的 FLOPS 愚弄率突出 90%（而使用 TRT-LLM 的GPU上 FLOPS 愚弄率约为 30%）。

天然NVIDIA H200 领有 989 TFLOPS 的 FP16/BF16 策划能力（无稀少性），这无疑是相当苍劲的，以致比谷歌的新 Trillium 芯片还要好。

但NVIDIA照旧发布的B200的策划能力仅跨越25%（每个芯片 1，250 TFLOPS）。这是由于 GPU 的绝大部分区域都用于可编程性，因此专注于 Transformer 不错让芯片进行更多的策划。

比如，构建单个 FP16/BF16/FP8 乘加电路需要 10，000 个晶体管，这是通盘矩阵数学的基石。NVIDIA H100 SXM 有 528 个张量中枢，每个都有4 x 8 × 16FMA 电路。

因此，NVIDIA H100 有 27 亿个专用于张量中枢的晶体管。然则 H100 领有 800 亿个晶体管！这意味着 H100 GPU 上唯独 3.3% 的晶体管用于矩阵乘法！

这是NVIDIA和其他生动的 AI 芯片历程三念念此后行的遐想决定的。如果想要支捏通盘类型的模子（比如CNN、LSTM、SSM 等），那么莫得比这更好的遐想了。

而Etched公司的Sohu芯片仅支捏运行Transformer架构的AI大模子，这使得其不错在芯片上装置更多的 FLOPS，且无需裁减精度或稀少性。

2、栽种内存带宽愚弄率

频繁来说，AI推搭理受到内存带宽的肆意，策划的肆意相对较小。然则事实上，关于像Llama-3这么的当代模子来说，需要更高的策划力来栽种带宽的愚弄率。

如果使用NVIDIA和 AMD 的要领基准：2048 个输入标记和 128 个输出标记。大大宗 AI 家具的辅导比完成期间长得多（即使是新的 Claude 聊天应用在系统辅导中也有 1，000 多个标记）。

在 GPU 和Sohu上，推理是分批运行的。每个批次加载一次通盘模子权重，并在批次中的每个标记中重迭使用它们。

频繁，大言语模子输入是策划密集型的，而输出是内存密集型的。当咱们将输入和输出标记与不时批惩处相都集时，职责负载变得相当策划密集型。

以下是大言语模子不时批惩处的示例。这里咱们运行具有四个输入标记和四个输出标记的序列；每种激情都是不同的序列。

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

咱们不错推广相同的手段来运行具有 2048 个输入标记和 128 个输出标记的 Llama-3-70B。让每个批次包含一个序列的 2048 个输入标记和 127 个不同序列的 127 个输出标记。

如果咱们这么作念，每个批次将需要梗概(2048 + 127) × 70B params × 2 bytes per param = 304 TFLOPs，而只需要加载70B params × 2 bytes per param = 140 GB模子权重和梗概127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GBKV缓存权重。这比内存带宽要多得多。

NVIDIA H200需要6.8 PFLOPS的策划才能最大限制地愚弄其内存带宽。这是在100%的愚弄率下——如果愚弄率为30%，将需要3倍的策划量。

由于Sohu领有如斯之多的策划能力且愚弄率极高，因此不错运行巨大的蒙眬量而不会出现内存带宽瓶颈。

3、软件问题不再是一场恶梦

在 GPU 和 TPU 上，频繁软件开发是一场恶梦。惩处随性 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片（AMD、英特尔、AWS 等）在软件上所有破耗了数十亿好意思元，但奏效甚微。

但由于Etched公司的Sohu只运行Transformers，因此开发东谈主员只需要为 Transformer 编写软件！

基础即为简约，简约即是高级！在夏日的街头，出镜率最高的就是T恤，宽松版型的灰色纯棉T恤，和同色系的百褶半身裙，就是最佳拍档，踩一双白色半拖鞋，拎一款灰色包包不要太时尚。

大大宗运行开源或里面模子的公司都使用特定于 Transformer 的推理库，如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

这些框架相当僵化 ——天然你不错治愈模子超参数，但骨子上不支捏鼎新底层模子代码。但这不紧要，因为通盘 Transformer 模子都相当相似（以致是文本/图像/视频模子），治愈超参数就是你确切需要的。

www.funnelbots.xyz

天然这支捏了 95% 的 AI 公司，但最大的 AI 实验室如故汲取定制化。他们有工程师团队手动治愈 GPU 内核以挤出更多的愚弄率，逆向工程哪些寄存器对每个张量中枢的蔓延最低。

Etched公司暗意，“有了Sohu，您不再需要进行逆向工程。因为咱们的软件（从驱动门径到内核再到工作堆栈）都将是开源的。如果您想杀青自界说调度器层，您的内核向导不错解放地这么作念。”

4、本钱上风

关于咫尺的AI基础市集运营商来说，NVIDIA的AI GPU是最为勉力的一项投资，其H100 80G版块的价钱高达3万好意思元，即即是低廉的英特尔Gaudi 3 的价钱也要15，650好意思元傍边。

现在一座大型的AI数据中心的成就照旧达到了数百亿好意思元，以致别传微软和OpenAI正掂量推出被称为“星际之门”（Stargate）的AI超等策划机，用来为OpenAI提供更强的算力支捏，该状貌的总本钱或将突出1150亿好意思元。光显，这当中NVIDIAAI GPU将会占据非常大的一部分本钱。

况且这些高能耗的GPU还将会带来重大的能源供应开销（按照现存的发展速率，好多地区的能源供应照旧不及以复旧大型AI数据中心的成就）互联开销和散热开销。

如果一颗Etched的Sohu芯片就大略代替20颗NVIDIA H100芯片，那么这无疑将会带来巨大的采购及成就本钱和运营本钱的裁减。

二、专用芯片替代GPU已不可幸免

在Etched看来，比年来天然GPU性能得到了增长，然则骨子上并莫得变得更好，因为主如果通过更先进的制程工艺以及更大的芯单方面积来杀青的。

近四年来，GPU芯片单元面积的策划能力 (TFLOPS) 简直保捏不变。比如NVIDIA的GB200、AMD的MI300、英特尔的Gaudi 3 和亚马逊的Trainium2 简直都将两块芯片当作称一张加快卡，以杀青“双倍”性能。

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

面对越来越重大的大言语模子关于AI算力需求的快速增长，GPU芯片在摩尔定律放缓以及单元面积AI算力栽种放缓的布景之下，照旧难以直爽需求，因此提高性能的独一阵势就是汲取专用芯片。

Etched公司指出，在Transformer架构的模子总揽寰球之前，许多公司都构建了生动的 AI 芯片和 GPU 来惩处数百种不同的算法模子。

比如：NVIDIA的GPU、谷歌的TPU、亚马逊的 Trainium、AMD的MI系列加快器、英特尔的Gaudi加快器、Graphcore 的 IPU、SambaNova SN 系列芯片、Cerebras的CS系列晶圆级AI芯片、Groq的GroqNode、Tenstorrent 的 Grayskull、D-Matrix 的 Corsair、寒武纪的念念源等。

然则简直莫得厂商制造过有意针对Transformer架构算法的专用 AI 芯片 (ASIC)。因为一个芯片状貌至少将破耗 5000 万到 1 亿好意思元，需要数年期间才能参加出产。

如简直的一个特定算法模子推出专用的AI芯片，很可能在这技术由于新的更优秀算法架构出现，而使得本来的专用的AI芯片不再有用，这将会莫得市集。

然则现在情况变了，Transformer 架构的算法模子市集限制正在赶快增长。在 ChatGPT 出现之前，Transformer 推理的市集限制约为 5000 万好意思元，而现在已达到数十亿好意思元。

通盘大型科技公司都使用 Transformer 架构的模子，比如OpenAI、谷歌、亚马逊、微软、Meta 等。

另外，AI算法历程多年的发展，照旧运行出现架构上的交融趋势。AI模子畴昔发展很快，因此可能每个几个月就会有新的AI模子出来。

然则自GPT-2以来，来源进的模子架构简直保捏不变，岂论是OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa，以致 Tesla FSD 都是基于Transformer架构。

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

△基于Transformer架构的模子惊东谈主地相似。诸如 SwiGLU 激活和 RoPE 编码之类的治愈被广漠应用于LLM、镶嵌模子、图像开荒和视频生成。

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

△天然 GPT-2 和 Llama-3 是相隔五年的来源进的 (SoTA) 模子，但它们的架构简直疏导，独一的主要辞别是限制。

在此布景之下，如果算法模子架构运行趋于踏实，那么想要进一步栽种算力，专拥的ASIC芯片将会是很好的遴荐。

非常是在咫尺基于GPU的AI训诲和推理基础设施本钱突出100亿好意思元时，这么勉力的本钱的压力之下，专用的AISC是不可幸免的，因为1%的改造就足以诡秘专用AISC的本钱。

事实上，在特定算法模子上，ASIC 的速率可能会比 GPU 快几个数目级。比如，当针对比特币矿机的AISC芯片于 2014 年进入市集时，传统的愚弄GPU 来“挖矿”的作念法很快被撤销，因为使用AISC比使用GPU来挖掘比特币更低廉。

光显，在AI算法模子基础架构运行趋于踏实，GPU算力栽种遭逢瓶颈以及本钱越来越高的情况下，东谈主工智能畛域可能也将会发生相同的事情。这也恰是Etched公司下重注推出基于Transformer架构专用的AISC芯片 “Sohu”的原因。

三、关于畴昔的一场豪赌

与NVIDIA等头部的AI公司一样，Etched公司也展望，在五年内，AI模子在大大宗要领化测试中将变得比东谈主类更机灵。

Etched公司进一步指出， Meta训诲的 Llama 400B（2024 SoTA，比大大宗东谈主类都机灵）所用的策划量，比 OpenAI 在 GPT-2（2019 SoTA）上所用的策划量要跨越 50，000 倍。通过为东谈主工智能模子提供更多策划力和更好的数据，它们会变得更机灵。

限制化将是畴昔几十年来独一捏续有用的诀窍，每家大型东谈主工智能公司（谷歌、OpenAI / 微软、Anthropic / 亚马逊等）都将在畴昔几年参加突出 1000亿好意思元来保捏限制的增长。咱们正处于有史以来最大限制的基础设施成就中。

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

OpenAI 首席推行官Sam Altman此前就曾暗意：“限制化如实是一件功德。当咱们在太阳周围建造出戴森球时，咱们就不错磋议是否应该罢手限制化，但在此之前不可罢手。”

Anthropic 首席推行官 Dario Amodei也暗意：“我以为（咱们）的限制不错扩大到 1000 亿好意思元，咱们将在几年内杀青这一目标。”

不外，如果按照现在的AI数据中默算力，再扩大 1，000 倍，将会濒临相当勉力的本钱。下一代数据中心的本钱将突出一个小国一年的GDP。按照咫尺的速率，现存的硬件、电网和资金参加都跟不上需求。

Etched公司暗意：“咱们并不惦记数据破钞。岂论是通过合成数据、瞩目管谈如故新的 AI 标记数据源，咱们都以为数据问题骨子上是推理策划问题。Meta CEO Mark Zuckerberg、Anthropic CEO Dario Amodei、 Google DeepMind CEO Demis Hassabis 似乎都快乐这一不雅点。”

基于这么的发展趋势，Etched公司以为，畴昔大略告捷的大模子一定会是那些大略在硬件上运行速率最快、本钱最低的模子。

Transformer 功能苍劲、实用且利润丰厚，足以在替代决议出现之前垄断每个主要的 AI 策划市集。

咫尺，Transformer 正在为每款大型 AI 家具提供能源：从代理到搜索再到聊天。好多AI 实验室已参加数亿好意思元进行研发，以优化 GPU 以支捏 Transformer。

况且刻下的和下一代来源进的大模子也都是 Transformer架构的。

跟着这些大模子的限制在畴昔几年内所需要的硬件资源从 10 亿好意思元扩大到 100 亿好意思元，再到 1000 亿好意思元，测试新架构的风险也随之飙升。

与其重新测试缩放定律和性能，不如花期间在 Transformer 之上构立功能，举例多标记展望等。

现在的好多软件堆栈也针对 Transformer 进行了优化。每个流行的库（TensorRT-LLM、vLLM、Huggingface TGI 等）都有用于在 GPU 上运行 Transformer 架构模子的罕见内核。

许多基于Transformer 构建的功能在替代决议中不易得回支捏（举例揣摸解码、树搜索）。

是以，畴昔的硬件堆栈也将捏续针对 Transformer 进行优化。比如，NVIDIA的 GB200 非常支捏 Transformer（TransformerEngine）。

在Etched公司看来，Transformer架构就是畴昔，“如果咱们猜对了，Soho将转变寰球。这就是咱们下注的原因。”Etched公司在网站上写谈。

在2022年的时候，Etched公司就照旧运行下注，运行研发基于Transformer架构的Sohu芯片，其时ChatGPT还莫得推出，图像和视频生成模子是 U-Nets，自动驾驶汽车由 CNN 驱动，而 Transformer 架构并未无处不在。光显这是一场豪赌。

天然现在看来，Sohu不错支捏通盘的Transformer架构的AI大模子，比如OpenAI的GPT、Sora，谷歌的Gemini、Stability AI公司的Stable Diffusion 3 等，然则在两年前，这些模子都还莫得出现。

如果，Transformer架构的AI大模子莫得成为主流，再加上无法支捏CNN、RNN 、LSTM等传统模子以及SSM、RWKV 或其他的全新架构的AI大模子，那么Sohu将会绝不消处。

交运的是，从咫尺来看，时事照旧对Etched公司成心。从言语到视觉，每个畛域的顶级模子现在都是基于Transformer架构的。

这种交融不仅考证了Etched公司下对了赌注，也有望使Sohu成为十年来最弥留的硬件状貌。

“像 Sohu 这么的 ASIC 芯片进入市集，标志着进入一条不归路。其他Transformer “杀手”要想胜仗，需要在 GPU 上的运行速率需要比 Transformer 在 Sohu 芯片上的运行速率更快。

如果发生这种情况，咱们也会为此构重新建一个 ASIC！”Etched公司相当鉴定的说谈。

终末说一句，Etched公司的见解与芯智讯在多年前所写的《NVIDIA的AI盛世危急！》所抒发的中枢不雅点雷同，即GPU并是不专为惩处特定AI算法所遐想的，其上风在于比其他AI芯片更通用，不错合适各式AI算法，然则当畴昔AI算法的演进运行趋于踏及时，那么届时专用的面向特定算法的更高效的ASIC芯片无疑将会更具上风。

现在越来越多的云工作厂商都有推出自研的云霄AI芯片也恰是适应这一趋势小红书号怎么注册。

上一篇：脸书账号注册教程

下一篇：百度36亿好意思元收购YY直播，预计2021年上半年完成|yy|交往|性公约

让建站和SEO变得简单

快20倍 还低廉！NVIDIA GPU的“掘墓东谈主”出现了？

快20倍还低廉！NVIDIA GPU的“掘墓东谈主”出现了？