ins账号自助购买10元

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

苹果id有什么用被别人拿去你的位置:ins账号自助购买10元 > 苹果id有什么用被别人拿去 >

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

发布日期:2024-07-03 07:15    点击次数:88

  

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

芯片初创公司Etched近日晓示推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并宣称其在AI大言语模子(LLM)推感性能方面打败了NVIDIA最新的B200 GPU,AI性能达到了H100的20倍。

这也意味着Sohu芯片将不错大幅裁减现存AI数据中心的采购本钱和装置本钱。

咫尺,Etched公司已就其Sohu芯片的出产与台积电4nm工艺张开径直协作,况且已从顶级供应商处得回满盈的 HBM 和工作器供应,以快速提高第一年的出产能力。

一些早期客户照旧向Etched公司预订了数千万好意思元的硬件。

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

一、AI性能突出NVIDIA H100的20倍,是怎样作念到的?

据Etched公司先容,Sohu是寰球上第一个基于Transformer架构的ASIC。

把柄Etched公司清晰的数据清晰,一台配备了8颗Sohu芯片的工作器每秒不错惩处突出 500,000 个 Llama 70B Token,达到了相同配备8张NVIDIA H100 GPU加快卡的工作器的20倍。

相同,也远远突出了配备8张NVIDIA最新的B200 GPU加快卡的工作器约10倍。

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

△基准测试针对的是 FP8 精度的 Llama-3 70B:无稀少性、8x 模子并行、2048 输入/128 输出长度。使用 TensorRT-LLM 0.10.08(最新版块)策划的 8xH100,8xGB200 的数字是估算的。

Etched公司暗意,Sohu速率比NVIDIA的最新一代Blackwell架构的B200 GPU还要快一个数目级,而且价钱更低廉。不错匡助客户构建 GPU 无法杀青的家具。

不外,这里如故要强调以下,天然Sohu的AI性能要比NVIDIAGPU更好,但这是有一个前提的,因为Sohu是专为基于Transformer架构的大模子定制的,是以其也仅支捏基于Transformer架构的大模子加快。

“通过将Transformer架构集成到咱们的芯片中,天然无法运行大大宗传统的 AI 模子,比如为 Instagram 告白提供支捏的 DLRM、像 AlphaFold 2 这么的卵白质折叠模子、像 Stable Diffusion 2 这么的旧的图像模子,以及CNN、RNN 或 LSTM等模子,然则针对基于Transformer架构的大模子,Sohu将是有史以来最快的AI芯片,莫得哪个芯片大略与之匹敌。”Etched公司说谈。

1、更高的策划愚弄率

由于Sohu只运行Transformer这一种类型的算法,因此不错删除绝大大宗适度流逻辑,从而领有更大宗学策划逻辑。因此,Sohu的 FLOPS 愚弄率突出 90%(而使用 TRT-LLM 的GPU上 FLOPS 愚弄率约为 30%)。

天然NVIDIA H200 领有 989 TFLOPS 的 FP16/BF16 策划能力(无稀少性),这无疑是相当苍劲的,以致比谷歌的新 Trillium 芯片还要好。

但NVIDIA照旧发布的B200的策划能力仅跨越25%(每个芯片 1,250 TFLOPS)。这是由于 GPU 的绝大部分区域都用于可编程性,因此专注于 Transformer 不错让芯片进行更多的策划。

比如,构建单个 FP16/BF16/FP8 乘加电路需要 10,000 个晶体管,这是通盘矩阵数学的基石。NVIDIA H100 SXM 有 528 个张量中枢,每个都有4 x 8 × 16FMA 电路。

因此,NVIDIA H100 有 27 亿个专用于张量中枢的晶体管。然则 H100 领有 800 亿个晶体管!这意味着 H100 GPU 上唯独 3.3% 的晶体管用于矩阵乘法!

这是NVIDIA和其他生动的 AI 芯片历程三念念此后行的遐想决定的。如果想要支捏通盘类型的模子(比如CNN、LSTM、SSM 等),那么莫得比这更好的遐想了。

而Etched公司的Sohu芯片仅支捏运行Transformer架构的AI大模子,这使得其不错在芯片上装置更多的 FLOPS,且无需裁减精度或稀少性。

2、栽种内存带宽愚弄率

频繁来说,AI推搭理受到内存带宽的肆意,策划的肆意相对较小。然则事实上,关于像Llama-3这么的当代模子来说,需要更高的策划力来栽种带宽的愚弄率。

如果使用NVIDIA和 AMD 的要领基准:2048 个输入标记和 128 个输出标记。大大宗 AI 家具的辅导比完成期间长得多(即使是新的 Claude 聊天应用在系统辅导中也有 1,000 多个标记)。

在 GPU 和Sohu上,推理是分批运行的。每个批次加载一次通盘模子权重,并在批次中的每个标记中重迭使用它们。

频繁,大言语模子输入是策划密集型的,而输出是内存密集型的。当咱们将输入和输出标记与不时批惩处相都集时,职责负载变得相当策划密集型。

以下是大言语模子不时批惩处的示例。这里咱们运行具有四个输入标记和四个输出标记的序列;每种激情都是不同的序列。

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

咱们不错推广相同的手段来运行具有 2048 个输入标记和 128 个输出标记的 Llama-3-70B。让每个批次包含一个序列的 2048 个输入标记和 127 个不同序列的 127 个输出标记。

如果咱们这么作念,每个批次将需要梗概(2048 + 127) × 70B params × 2 bytes per param = 304 TFLOPs,而只需要加载70B params × 2 bytes per param = 140 GB模子权重和梗概127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GBKV缓存权重。这比内存带宽要多得多。

NVIDIA H200需要6.8 PFLOPS的策划才能最大限制地愚弄其内存带宽。这是在100%的愚弄率下——如果愚弄率为30%,将需要3倍的策划量。

由于Sohu领有如斯之多的策划能力且愚弄率极高,因此不错运行巨大的蒙眬量而不会出现内存带宽瓶颈。

3、软件问题不再是一场恶梦

在 GPU 和 TPU 上,频繁软件开发是一场恶梦。惩处随性 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(AMD、英特尔、AWS 等)在软件上所有破耗了数十亿好意思元,但奏效甚微。

但由于Etched公司的Sohu只运行Transformers,因此开发东谈主员只需要为 Transformer 编写软件!

基础即为简约,简约即是高级!在夏日的街头,出镜率最高的就是T恤,宽松版型的灰色纯棉T恤,和同色系的百褶半身裙,就是最佳拍档,踩一双白色半拖鞋,拎一款灰色包包不要太时尚。

大大宗运行开源或里面模子的公司都使用特定于 Transformer 的推理库,如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

这些框架相当僵化 ——天然你不错治愈模子超参数,但骨子上不支捏鼎新底层模子代码。但这不紧要,因为通盘 Transformer 模子都相当相似(以致是文本/图像/视频模子),治愈超参数就是你确切需要的。

www.funnelbots.xyz

天然这支捏了 95% 的 AI 公司,但最大的 AI 实验室如故汲取定制化。他们有工程师团队手动治愈 GPU 内核以挤出更多的愚弄率,逆向工程哪些寄存器对每个张量中枢的蔓延最低。

Etched公司暗意,“有了Sohu,您不再需要进行逆向工程。因为咱们的软件(从驱动门径到内核再到工作堆栈)都将是开源的。如果您想杀青自界说调度器层,您的内核向导不错解放地这么作念。”

4、本钱上风

关于咫尺的AI基础市集运营商来说,NVIDIA的AI GPU是最为勉力的一项投资,其H100 80G版块的价钱高达3万好意思元,即即是低廉的英特尔Gaudi 3 的价钱也要15,650好意思元傍边。

现在一座大型的AI数据中心的成就照旧达到了数百亿好意思元,以致别传微软和OpenAI正掂量推出被称为“星际之门”(Stargate)的AI超等策划机,用来为OpenAI提供更强的算力支捏,该状貌的总本钱或将突出1150亿好意思元。光显,这当中NVIDIAAI GPU将会占据非常大的一部分本钱。

况且这些高能耗的GPU还将会带来重大的能源供应开销(按照现存的发展速率,好多地区的能源供应照旧不及以复旧大型AI数据中心的成就)互联开销和散热开销。

如果一颗Etched的Sohu芯片就大略代替20颗NVIDIA H100芯片,那么这无疑将会带来巨大的采购及成就本钱和运营本钱的裁减。

二、专用芯片替代GPU已不可幸免

在Etched看来,比年来天然GPU性能得到了增长,然则骨子上并莫得变得更好,因为主如果通过更先进的制程工艺以及更大的芯单方面积来杀青的。

近四年来,GPU芯片单元面积的策划能力 (TFLOPS) 简直保捏不变。比如NVIDIA的GB200、AMD的MI300、英特尔的Gaudi 3 和亚马逊的Trainium2 简直都将两块芯片当作称一张加快卡,以杀青“双倍”性能。

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

面对越来越重大的大言语模子关于AI算力需求的快速增长,GPU芯片在摩尔定律放缓以及单元面积AI算力栽种放缓的布景之下,照旧难以直爽需求,因此提高性能的独一阵势就是汲取专用芯片。

Etched公司指出,在Transformer架构的模子总揽寰球之前,许多公司都构建了生动的 AI 芯片和 GPU 来惩处数百种不同的算法模子。

比如:NVIDIA的GPU、谷歌的TPU、亚马逊的 Trainium、AMD的MI系列加快器、英特尔的Gaudi加快器、Graphcore 的 IPU、SambaNova SN 系列芯片、Cerebras的CS系列晶圆级AI芯片、Groq的GroqNode、Tenstorrent 的 Grayskull、D-Matrix 的 Corsair、寒武纪的念念源等。

然则简直莫得厂商制造过有意针对Transformer架构算法的专用 AI 芯片 (ASIC)。因为一个芯片状貌至少将破耗 5000 万到 1 亿好意思元,需要数年期间才能参加出产。

如简直的一个特定算法模子推出专用的AI芯片,很可能在这技术由于新的更优秀算法架构出现,而使得本来的专用的AI芯片不再有用,这将会莫得市集。

然则现在情况变了,Transformer 架构的算法模子市集限制正在赶快增长。在 ChatGPT 出现之前,Transformer 推理的市集限制约为 5000 万好意思元,而现在已达到数十亿好意思元。

通盘大型科技公司都使用 Transformer 架构的模子,比如OpenAI、谷歌、亚马逊、微软、Meta 等。

另外,AI算法历程多年的发展,照旧运行出现架构上的交融趋势。AI模子畴昔发展很快,因此可能每个几个月就会有新的AI模子出来。

然则自GPT-2以来,来源进的模子架构简直保捏不变,岂论是OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa,以致 Tesla FSD 都是基于Transformer架构。

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

△基于Transformer架构的模子惊东谈主地相似。诸如 SwiGLU 激活和 RoPE 编码之类的治愈被广漠应用于LLM、镶嵌模子、图像开荒和视频生成。

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

△天然 GPT-2 和 Llama-3 是相隔五年的来源进的 (SoTA) 模子,但它们的架构简直疏导,独一的主要辞别是限制。

在此布景之下,如果算法模子架构运行趋于踏实,那么想要进一步栽种算力,专拥的ASIC芯片将会是很好的遴荐。

非常是在咫尺基于GPU的AI训诲和推理基础设施本钱突出100亿好意思元时,这么勉力的本钱的压力之下,专用的AISC是不可幸免的,因为1%的改造就足以诡秘专用AISC的本钱。

事实上,在特定算法模子上,ASIC 的速率可能会比 GPU 快几个数目级。比如,当针对比特币矿机的AISC芯片于 2014 年进入市集时,传统的愚弄GPU 来“挖矿”的作念法很快被撤销,因为使用AISC比使用GPU来挖掘比特币更低廉。

光显,在AI算法模子基础架构运行趋于踏实,GPU算力栽种遭逢瓶颈以及本钱越来越高的情况下,东谈主工智能畛域可能也将会发生相同的事情。这也恰是Etched公司下重注推出基于Transformer架构专用的AISC芯片 “Sohu”的原因。

三、关于畴昔的一场豪赌

与NVIDIA等头部的AI公司一样,Etched公司也展望,在五年内,AI模子在大大宗要领化测试中将变得比东谈主类更机灵。

Etched公司进一步指出, Meta训诲的 Llama 400B(2024 SoTA,比大大宗东谈主类都机灵)所用的策划量,比 OpenAI 在 GPT-2(2019 SoTA)上所用的策划量要跨越 50,000 倍。通过为东谈主工智能模子提供更多策划力和更好的数据,它们会变得更机灵。

限制化将是畴昔几十年来独一捏续有用的诀窍,每家大型东谈主工智能公司(谷歌、OpenAI / 微软、Anthropic / 亚马逊等)都将在畴昔几年参加突出 1000亿好意思元来保捏限制的增长。咱们正处于有史以来最大限制的基础设施成就中。

快20倍 还低廉!NVIDIA GPU的“掘墓东谈主”出现了?

OpenAI 首席推行官Sam Altman此前就曾暗意:“限制化如实是一件功德。当咱们在太阳周围建造出戴森球时,咱们就不错磋议是否应该罢手限制化,但在此之前不可罢手。”

Anthropic 首席推行官 Dario Amodei也暗意:“我以为 (咱们)的限制不错扩大到 1000 亿好意思元,咱们将在几年内杀青这一目标。”

不外,如果按照现在的AI数据中默算力,再扩大 1,000 倍,将会濒临相当勉力的本钱。下一代数据中心的本钱将突出一个小国一年的GDP。按照咫尺的速率,现存的硬件、电网和资金参加都跟不上需求。

Etched公司暗意:“咱们并不惦记数据破钞。岂论是通过合成数据、瞩目管谈如故新的 AI 标记数据源,咱们都以为数据问题骨子上是推理策划问题。Meta CEO Mark Zuckerberg、Anthropic CEO Dario Amodei、 Google DeepMind CEO Demis Hassabis 似乎都快乐这一不雅点。”

基于这么的发展趋势,Etched公司以为,畴昔大略告捷的大模子一定会是那些大略在硬件上运行速率最快、本钱最低的模子。

Transformer 功能苍劲、实用且利润丰厚,足以在替代决议出现之前垄断每个主要的 AI 策划市集。

咫尺,Transformer 正在为每款大型 AI 家具提供能源:从代理到搜索再到聊天。好多AI 实验室已参加数亿好意思元进行研发,以优化 GPU 以支捏 Transformer。

况且刻下的和下一代来源进的大模子也都是 Transformer架构的。

跟着这些大模子的限制在畴昔几年内所需要的硬件资源从 10 亿好意思元扩大到 100 亿好意思元,再到 1000 亿好意思元,测试新架构的风险也随之飙升。

与其重新测试缩放定律和性能,不如花期间在 Transformer 之上构立功能,举例多标记展望等。

现在的好多软件堆栈也针对 Transformer 进行了优化。每个流行的库(TensorRT-LLM、vLLM、Huggingface TGI 等)都有用于在 GPU 上运行 Transformer 架构模子的罕见内核。

许多基于Transformer 构建的功能在替代决议中不易得回支捏(举例揣摸解码、树搜索)。

是以,畴昔的硬件堆栈也将捏续针对 Transformer 进行优化。比如,NVIDIA的 GB200 非常支捏 Transformer(TransformerEngine)。

在Etched公司看来,Transformer架构就是畴昔,“如果咱们猜对了,Soho将转变寰球。这就是咱们下注的原因。”Etched公司在网站上写谈。

在2022年的时候,Etched公司就照旧运行下注,运行研发基于Transformer架构的Sohu芯片,其时ChatGPT还莫得推出,图像和视频生成模子是 U-Nets,自动驾驶汽车由 CNN 驱动,而 Transformer 架构并未无处不在。光显这是一场豪赌。

天然现在看来,Sohu不错支捏通盘的Transformer架构的AI大模子,比如OpenAI的GPT、Sora,谷歌的Gemini、Stability AI公司的Stable Diffusion 3 等,然则在两年前,这些模子都还莫得出现。

如果,Transformer架构的AI大模子莫得成为主流,再加上无法支捏CNN、RNN 、LSTM等传统模子以及SSM、RWKV 或其他的全新架构的AI大模子,那么Sohu将会绝不消处。

交运的是,从咫尺来看,时事照旧对Etched公司成心。从言语到视觉,每个畛域的顶级模子现在都是基于Transformer架构的。

这种交融不仅考证了Etched公司下对了赌注,也有望使Sohu成为十年来最弥留的硬件状貌。

“像 Sohu 这么的 ASIC 芯片进入市集,标志着进入一条不归路。其他Transformer “杀手”要想胜仗,需要在 GPU 上的运行速率需要比 Transformer 在 Sohu 芯片上的运行速率更快。

如果发生这种情况,咱们也会为此构重新建一个 ASIC!”Etched公司相当鉴定的说谈。

终末说一句,Etched公司的见解与芯智讯在多年前所写的《NVIDIA的AI盛世危急!》所抒发的中枢不雅点雷同,即GPU并是不专为惩处特定AI算法所遐想的,其上风在于比其他AI芯片更通用,不错合适各式AI算法,然则当畴昔AI算法的演进运行趋于踏及时,那么届时专用的面向特定算法的更高效的ASIC芯片无疑将会更具上风。

现在越来越多的云工作厂商都有推出自研的云霄AI芯片也恰是适应这一趋势小红书号怎么注册。



Powered by ins账号自助购买10元 @2013-2022 RSS地图 HTML地图

copy; 2013-2025 สล็อต 版权所有