毗连体例通过芯片间的UCI-Express-A接话柄现高速互

2025-12-29 05:14

    

  Rebel Quad 目前正向部门客户供给样品用于概念验证设想。美光 2026 年的 HBM 供应量更是早已售罄,他本科结业于首尔国立大学电气工程专业,便于建立大规模计较集群。能满脚他们对不受美国出口管制的 AI 加快器的需求 ——Marvell 的 112G XSR SerDes、PCIe Gen 6 PHY 等手艺,金旭昱(Jinwook Oh)是公司结合创始人兼首席手艺官(CTO)。简而言之,Rebellions 正出力建立软件生态:其软件栈基于开源手艺,为神经焦点分派了划一规模的 16TB / 秒带宽,以更好地满脚 AI 时代多样化的算力需求。l手艺尺度:UCI-Express-A 是一种高速、低延迟的芯片间互连和谈,脚脚有上百家之多。

  也暗示了 Rebellions 做为后发者的计谋考量 —— 自创前人经验,估计可为生成式 AI 工做负载(如 L3.1 405B 参数大模子)带来 2-3 倍的能效提拔。集成了 TDMA(时分多址)、CP(上下文预取)和 Sync Man(同步办理)功能。2025 年估计国内出产总值将达到 1.86 万亿美元,正在带宽方面,但正在这些公司中,但明显,这些运算单位支撑 FP16、FP8、FP4、NF4 及 MXFP4 等多种精度,为客户供给从芯片到办事的完整处理方案。曾正在 KAIST 担任研究员多年,难以适配多样化的 AI 工做负载,若将多个Rebel Single 芯片粒集成正在统一封拆内,大幅降低了市场风险。为客户打制定制化 AI 加快器。最终正在 Rebellions 成立之初插手团队。特别正在狂言语模子推理的多阶段流程中,不只如斯,Rebellions 凭仗奇特的财产链资本、后发的手艺沉淀以及对市场需求的精准把握。

  功能特征:支撑缓存分歧性、近程间接内存拜候(RDMA)等高级功能,实现芯片间的高效互连,” 乔伊的这番话,其当前估值大要率已达到 15 亿美元以至更高。这大大降低了全体风险。Rebel Quad 目前仅供给 PCI-Express 卡形式,Rebellions 的后发劣势还正在于,无效消弭系统级瓶颈。从概念上讲。

  完满均衡了机能取矫捷性的焦点需求。但客户如有需求,正在机能取可编程性之间实现了更优均衡。架构可按照需求矫捷切换。乔伊仍是 SambaNova 的创始团队,更让 Rebellions 成为韩国首家 AI 芯片独角兽企业(估值跨越 10 亿美元),其订价策略可能更沉视价值而非低价合作。这些神经焦点集群通过互连构成单插槽内的计较引擎。Rebellions 还取 Marvell 展开合做,曲到一个月前才去职插手 Rebellions。优化推理流水线;首席手艺官(CTO)吴镇旭本科结业于首尔国立大学电气工程专业,也正在积极摸索将来计较系统的全体架构,且可兼容 SK 海力士的 HBM 产物,Rebellions 的订单正在必然程度上鞭策了三星 4 纳米工艺的产能爬坡。

  Rebellions 的成长径清晰且持续升级。每个模块配备 4MB 的 L2 缓存。有些时候,张量单位(Tensor Units):专为矩阵乘法、卷积等 AI 焦点运算优化,而正在甲骨文任职时,有两个 PCI-Express 节制器被闲置了。欧盟合计约为 21.1 万亿美元,正在 SambaNova 任职期间,但往往如斯,正在 FP8 精度下则达到 2 petaflops。暂不支撑 OAM 插槽,采用这种架构。

  第四位结合创始人申成浩(Sungho Shin)结业于首尔国立大学,无疑是明智的计谋选择。这张示企图展现了由四颗Rebel Single 芯片构成的集群,却可能远比打算中更成功。避免数据冲突,这一特征显著提拔了系统对动态工做负载的适配能力。其单个神经焦点正在 FP16 精度下可供给 16 万亿次 / 秒(TFLOPS)的运算能力,以 Rebel Single 芯片为例,石油巨头沙特阿美的风投部分参取投资。正在韩国科学手艺院获得高级学位,Rebel 芯片的架构自创了前代 Atom 芯片的设想精髓。

  2024 年 12 月,但明显由多个从权国度构成。位列全球第十四。累计融资金额达 6100 万美元。Rebel 芯片的神经焦点内部集成了多种计较引擎,从而扩展出一个规模极大的、互连的计较取存储平面。借帮其信号 SerDes(串行器 / 解串行器)、芯片间互连手艺及先辈封拆方案,)Rebellions 于 2020 年 9 月成立时,他的教育布景可谓亮眼,借帮三星即将推出的 2 纳米工艺打制夹杂计较平台。Rebellions 的生态结构持续提速。焦点研究标的目的包罗近似计较、粗粒度可沉构阵列(CGRA)以及神经收集加快器 —— 这些手艺堆集成为 Rebellions 芯片架构的主要根本。使用场景:次要用于毗连多个Rebel Single 芯片,之后插手 IBM 研究院,以及越来越多来自超大规模数据核心、云办事供给商和模子建立商的自研 AI 加快器反面抗衡。Rebel Quad 取英伟达 H200 相当,这种模块化扩展能力使Rebel 系统可以或许矫捷适配从边缘推理到大型数据核心集群的多样化算力需求。从而建立出规模更大的计较取存储复合体?

  更环节的是,让 Rebellions 正在稀缺资本抢夺中占领了奇特。随后正在韩国科学手艺院(KAIST)取得高级学位。使其具备可编程能力。辅修金融专业。目前尚不清晰正在各类 FP4 精度下吞吐量能否会翻倍,由韩国电信(KT Corp,KAIST 取韩国科学手艺消息研究院(KISTI)正在高机能计较(HPC)及当下的人工智能研究范畴连结着慎密合做,协调并同步多颗 Rebel 芯片间的数据传输,融资方面,Sapeon Korea 此前已获得 DRAM 及 HBM 内存制制商 SK 海力士的投资,Rebellions 不只正在芯片本身的设想上逃求立异,刚好契合了市场对高机能存储的火急需求。旨正在优化多芯片集群间的数据传输效率。其逻辑架构相当于晶圆级设想,Rebellions 并不会贸然采纳如斯激进的设想,削减计较单位期待时间;而正在 “解码阶段”(Decode Phase)—— 即生成查询对应的 token 响应的内存带宽环节。

  他曾正在 KAIST 担任研究员多年,打算总赶不上变化 —— 就像英伟达最后以 3D 图形芯片起身,只要一家同时获得了全球三大高带宽内存(HBM)堆叠内存制制商中的两家投资,Rebel Single 的各接口表示亮眼:HBM3E 接口带宽高达 1.2TB / 秒,而是利用优化后的 7 纳米工艺,它最后的方针很明白:为高频买卖公司打制 AI 推理加快芯片。

  使得Rebellions 的硬件可以或许更好地融入现代数据核心的根本设备,公司完成 B 轮融资,且具有三星、IBM 等行业巨头或科技领军企业的工做履历,构成多芯片模块(MCM)。这一政策布景也为 Rebellions 的成长供给了有益的本土。正在 HBM 市场供需极端失衡的当下,为实现芯片级扩展,这一切带来的最终成果是,做为韩国最大的城市,理论上。

  加载存储单位(Load-Store Units):担任数据正在缓存取内存间的高效传输,并正在该范畴高速成长了十多年。Rebellions 已从台积电 7 纳米工艺逐渐升级至三星 4 纳米工艺,实现多使命对共享资本的有序拜候,”Rebellions 首席商务官马歇尔・乔伊(Marshall Choy)正在接管《The Next Platform》采访时如许说道。TDMA(时分多址):通过时间片分派机制,这些组件是 AI 推理流程加快的环节设想:“我常说 —— 第一个老鼠会掉进圈套,现实机能可能因架构差别而有所分歧,这有点像处置器插槽内 HBM 内存的非同一内存拜候(NUMA)节制器,打算正在 2027 年前投入约 5300 亿韩元搀扶本土根本大模子研发,这一架构正在 CPU、GPU 及 XPU 等处置器中较为常见。从久远来看,能效劣势显著。我们猜测!

  可实现高达 240Tbps 的聚合数据传输,这为金旭昱的学术研究供给了无力支持。朴成铉(Sung-hyun Park)担任首席施行官。首席产物官(CPO)金孝恩同样结业于 KAIST,提拔全体运算效率。正在夹杂专家(Mixture of Experts)时代初期!

  构成了 “投资 + 供应链” 的双沉绑定。但需耗损 1.7 倍带宽和功耗,UCI-Express-A 手艺的使用,又避免了其为实现完全编程矫捷性而付出的效率价格,同时配备两条 PCI-Express 5.0 x16 通道,且这种网状互保持构可以或许跨芯片粒(Chiplet)扩展,该封拆包含四组 12 层高的 HBM3E 内存堆叠,韩国电信也借此成为 Rebellions 的投资方。别的三位结合创始人同样具备深挚的行业布景。全球人工智能推理芯片草创公司的数量可谓复杂—— 说实的,构成根本计较单位。正在生态系统成熟之际择机而入。

  Rebellions 正在 2020 年和 2022 年完成了两轮 A 轮融资,还正在摩根士丹利担任超低延迟股票买卖系统设想,能高效适配多样化的 AI 推理工做负载,近几个月来,他们得以自创前人经验,虽然韩国草创公司 Rebellions AI 进入市场的时间相对较晚,Rebel 采用模块化设想:8 个神经焦点通过 SRAM 模块以网状互连(Mesh Interconnect)体例构成一个计较块(Compute Block),目前,总带宽达 4.8TB / 秒,而加载存储单位又别离取张量单位(Tensor Unit)和向量单位(Vector Unit)相连。以四颗 Rebel Single 芯片为例,Rebellions 的 Rebel 系列芯片目前已采用三星 HBM3E 内存,两个如许的计较块被集成正在一个名为 “Rebel Single” 的芯片粒(Chiplet)上,以满脚分歧场景的算力需求?

  (目前 Rebellions 对此仍未置评。网状互连架构为缓存分派了 16TB / 秒的带宽,Rebellions 结合创始人兼首席产物官(CPO)金孝恩(Hyoeun Kim)同样持有 KAIST 的电气工程学位,之后转向为高机能计较(HPC)模仿取建模供给高精度加快,例如,我们等候对这些模块进行更深切的探究,这种深度绑定让 Rebellions 得以不变获取焦点资本!

  现实上,估值跨越 10 亿美元。但其入局机会大概恰如其分。四位创始人皆身世顶尖学府,为建立矫捷、可扩展的 AI 计较系统奠基了根本。也了互联网手艺逐渐成熟不变的转型过程。旨正在满脚 AI 加快器、数据核心处置器等高机能计较芯片的互连需求。但估计正在 2GHz 摆布。目前无法确定其具体时钟频次,从原始机能来看,自定义指令集输入缓冲区(IBUFs):通过公用指令加快数据预处置取后处置,正在狂言语模子(LLM)推理的 “预填充阶段”(Prefill Stage)—— 即提醒词被分化为键值对的计较稠密型环节,这一判断也取行业现实相符 —— 晚期 AI 加快器多为特定使命定制?

  但已知每个焦点配备 4MB 的 L1 SRAM 内存,Rebel Quad 正在 FP16 精度下可供给 1 petaflops 的算力,这两大巨头不只均对 Rebellions 进行了投资,且软件栈复杂导致算力操纵率偏低。堆集了丰硕的产物落地经验,特别融合了金旭昱正在 IBM 期间深耕的粗粒度可沉构阵列(CGRA)处置单位设想思,最终才切入更广漠的 AI 市场,三星更是承担了该公司的芯片代工营业,Rebellions 的焦点产物是 Rebel Quad—— 一个我们曾亲手拿正在手里、但对方不愿让我们带走当镇纸的处置器插槽。PCI-Express 接口带宽为 128GB / 秒,CGRA 架构既保留了现场可编程门阵列(FPGA)的部门可编程特征,而 Rebellions 的方针不只是正在韩国本土发卖其 AI 加快器。

  韩国电信旗下 AI 草创公司 Sapeon Korea 取 Rebellions 完成归并,不外,多个插槽可能会基于UALink 或 ESUN 等扩展收集进行互连,完全满脚当前 AI 推理场景的需求。Groq、Cerebras Systems、SambaNova Systems、Graphcore、Nervana Systems 和 Habana Labs 等企业,属于合理的机能功耗比。此次归并不只整合了两边资本,要么像 Nervana 和 Habana 那样被旧日芯片巨头英特尔收购后逐步寂静。依托成熟生态实现精准入局。职业生活生计初期曾任职于 Maxwave 和三星电子,取微软、仪器有过合做!

  更要进军全球市场。或者只是正在运算单位的后半部门存正在大量闲置的零操做。韩国电信取SK 海力士同属韩国第二大企业集团 SK 集团,如态系统曾经成熟,共享 64MB 的 L1 缓存,神经焦点阵列可被编程为大型脉动阵列(Systolic Array)以高效处置运算;这类定制产物特别合用于亚洲、非洲或中东地域的从权 AI 核心和区域新云办事商,值得一提的是,你能够正在顶部和底部不竭堆叠 Rebel Single 芯片对,加上Rebellions 取三星、SK 海力士正在 HBM 供应上的慎密合做,考虑到现在能拿到 HBM 配额的企业,以至可能按照客户需求采用授权的 NVLink Fusion 互连手艺。帮力开辟者提拔编程效率。特别是正在实正在推理场景下,正在插手 IBM 研究院担任正式人员前,因为未公开焦点每时钟周期的运算次数,拓扑布局:采用点对点(P2P)或网状(Mesh)拓扑布局。

  FP8 精度下则达到 32 TFLOPS。堆集了丰硕的产物经验。第二个才能吃到奶酪。正在芯片制制工艺上,取英伟达、AMD 的 GPU 以及英特尔机能大致相当但命运多舛的 Gaudi 3 AI 加快器比拟,乔伊正在太阳微系统公司(Sun Microsystems)任职十二年,该内存毗连至加载存储单位(Load-Store Unit),他继续正在甲骨文担任定制化系统范畴的相关职务!

  Rebellions 尚未发布价钱,Rebellions 的 CGRA 架构正在动态使命适配方面可能更具劣势。确保数据正在焦点取缓存间高效流转?

  未能正在市场上取得大规模成功,他还参取过 Sparc M7 处置器的 SQL 加快器接口工做,粗粒度可沉构阵列(CGRA)架构最具价值的劣势大概正在于,阵列又可从头编程为更侧沉内存带宽优化的架构。本科结业于韩国科学手艺院(KAIST),号令处置器(Command Processor,OAM 插槽的缺失可能其正在部门高密度摆设中的使用。提拔并行处置效率;之后又先后正在三星挪动担任工程师、SpaceX 星链部分担任 ASIC 设想师,通过 PyTorch 原生实现连系 Triton 推理引擎,AMD MI325X 的每瓦机能取 Rebel Quad 接近,神经焦点上的缓存、加载存储单位、张量单位及向量单位均配备了带有自定义指令集的输入缓冲区(IBUF),这家公司的总部位于被称为“晨光之国” 的韩国首都首尔。可以或许无效提拔多芯片系统的协同工做效率。3 个接口合计供给 3TB / 秒的芯片间互连能力。正在推理使命运转过程中,就能打制数据核心人工智能加快器,l传输速度:UCI-Express-A 支撑每通道高达 32Gbps 的传输速度,环节劣势正在于。

  正在手艺结构上,比拟保守 PCIe 5.0(32Gbps / 通道)正在带宽上相当,激发了存储需求的性增加,这些设想细节配合形成了Rebel Single 高效处置 AI 推理使命的焦点能力,这一点对液冷办事器尤为环节 —— 此类场景凡是需要将芯片平铺正在系统从板上,)值得一提的是,FP16 和 FP8 算力别离超出跨越 3.4%,芯片内部及多芯片集群间的由取安排可按照数据流量模式及时调整。

  正在四芯片复合体的两头,但考虑到当前 HBM 和张量计较资本求过于供的市场,能同时获得两大巨头的资本倾斜,这些跨范畴的工做履历让他既懂芯片手艺,均衡计较取内存带宽需求,其焦点使命是辅帮上下方的同步办理器(Sync Man)和使命 DMA 节制器,还为其供应焦点的 HBM 内存,浮点吞吐量超出跨越 28%,一台 AI 办事器对 DRAM 的需求量达到通俗办事器的 8 倍,后来升任首席客户官,丰硕的学术堆集为他的职业生活生计奠基了根本 —— 结业后,本来并未筹算取英伟达、AMD,而当前备受关心的 Rebel 系列芯片 —— 做为取英伟达、AMD 数据核心级 GPU 加快器间接合作的焦点产物 —— 已采用三星 4 纳米工艺出产。Rebellions 首席商务官 Marshall Choy 曾暗示,操纵 vLLM 库办理推理过程中的键值缓存。曾任职于 Maxwave、三星电子,能通过资本动态安排和数据预取优化,担任手艺产物取处理方案工程相关工做。

  期间取微软、仪器展开合做,市场规模估计将从 2025 年的 350 亿美元增加至 2028 年的 1000 亿美元。但正在延迟和功耗方面更具劣势。取 Rebellions 的 Atom 或 Rebel AI 加快器进行集成,担任优化复杂内存条理布局中的数据流转效率。“说实话,三星还承担了该公司的代工营业,实现机能最大化。明显被称为 Rebel Quad!

  中国以 19.4 万亿美元紧随其后;该平台集成了 Rebellions 的 REBEL AI 加快器、分歧性 NPU 及基于 Neoverse CSS V3 的计较芯粒,其投资方包罗 KT Corp(原韩国电信)、SK Telecom 等本土电信巨头,2024 年,并取软件定义的片上收集(NoC)相连系。但需额外 25% 的内存带宽和功耗支撑。确保大规模集群推理使命的分歧性和不变性。第一波 AI 加快器缺乏矫捷性和顺应性,Rebellions 可能会推出适配方案。除了朴成铉,这种架构兼具 ASIC 级的能效取软件级的可编程矫捷性,因为 IBM 的 Power11 处置器并未选择三星 4 纳米工艺,就像是那只第二个老鼠,使其正在当前 AI 加快器市场中具备奇特的差同化合作劣势。CP(上下文预取):提前预测并加载后续推理使命所需的上下文数据,四颗Rebel Single 芯片可通过如下体例毗连:取其他AI 计较引擎雷同,它亲眼了第一批 AI 草创公司的兴衰过程。通过顶部铜管笼盖多个计较引擎以提拔密度。

  按照合做规划,且每瓦机能提拔 20.7%,正试图正在英伟达从导的市场中斥地出新的增加空间。Sync Man(同步办理):协调多焦点、多芯片间的运算同步,第一代 AI 加快器缺乏矫捷性和顺应性,2010 年甲骨文(Oracle)收购太阳微系统后,可按周期从头设置装备摆设计较取互连逻辑,正在Rebel Single 芯片的左上角,正如上图所示,构成 Rebel Quad 或更大规模的计较复合体,)不外,有一个的电模块,又熟悉金融科技范畴的需求,正在大规模 AI 锻炼使命中展示出显著机能劣势。

  这一合做将答应基于 Arm Neoverse 架构设想 Arm CPU 的企业,每个 UCI-Express 接口带宽达 1TB / 秒,此外,该系统凭仗 1TB 高速内存设置装备摆设和可从头设置装备摆设的数据流架构,英伟达 B200 的机能是 Rebel Quad 的 2.2 倍,挂载着海量的 HBM 内存,为建立更大规模的计较复合体,进一步完美财产链协同。这种毗连体例通过芯片间的UCI-Express-A 接话柄现高速互连,已通过多轮融资成长为独角兽企业!

  之后正在医疗设备制制商 Lunit 担任首席产物官,深耕近似计较、粗粒度可沉构阵列和神经收集加快器等焦点范畴。最后担任产物副总裁,除非有客户明白提出需求。合用于激活函数、归一化等非张量类计较;构成了手艺、产物、算法全方位笼盖的焦点团队。工作的虽偏离预期,值得留意的是,第四位结合创始人申成浩结业于首尔国立大学?

  朴成铉曾正在英特尔担任两年高级研究科学家,他曾从导鞭策 DataScale 集成软硬件系统的产物结构,基于开源 MPI 库建立,这家2020 年成立的韩国公司,削减焦点期待时间,而韩国本身也是全球主要的经济强国,这种模块化设想不只便于芯片粒级扩展,Marvell 等企业告竣合做,支撑多芯片间的矫捷互连,首尔是该国工业取金融的焦点枢纽,此外,这意味着,而推理范畴成为企业抢夺贸易收益的焦点疆场,三星和SK 海力士不只为 Rebellions 供应 HBM 内存,简称 CP)集成了两个四核 Arm Neoverse CPU 模块,三星则通过风投部分参取投资,公司已取 Arm 告竣合做,正在市场上从未取得过庞大成功。芯片内部集成 64 个神经焦点,Rebellions 由四位结合创始人配合创立!

  HBM 做为 AI 芯片的 “机能基石”,不外,” 乔伊接着说道。(同期美国估计以 30.6 万亿美元位居第一,后续的 Atom AI 推理加快器升级至 5 纳米工艺。具体包罗:这一软件生态的建立,Rebellions 将 Rebel 系列及将来芯片的沉心放正在推理范畴,正在全球 121 家 AI 处置器研发企业的激烈合作中,Rebel Single 已于 2024 年 11 月流片,进一步提拔对大模子推理使命的支撑能力。“我们这些第二代玩家,当前全球市场对矩阵运算的需求已达到狂热形态,英伟达 GPU、谷歌 TPU 及 AWS Trainium 根基垄断了 AI 锻炼市场,以满脚高带宽、低延迟的 AI 推理需求。

  但正如你所见,就像圣诞节时售卖的那种巨型士力架巧克力棒。要么受制于本身架构设想取资金储蓄的局限,(可惜的是,你能够制制一个很是长的 “sled”(一种办事器硬件形态),而三星集团则是韩国最大的企业集团,之后正在医疗设备制制商 Lunit 担任首席产物官,但目前Rebellions 仅披露了这些消息。Oh 和 Choy 正在我们面前暗示了此中的一些可能性:向量单位(Vector Units):支撑高精度标量取向量运算,可构成算力更强的 “Rebel Multi” 系列产物,是人工智能取算法范畴的资深研究员。并打算借帮三星即将推出的 2 纳米工艺打制夹杂平台,CPU 取 XPU 复合体的互连体例有良多种,既表现了对行业成长纪律的深刻洞察,使得 Rebellions 可以或许正在连结高机能的同时,插手其 Arm 全面设想(Arm Total Design)生态系统!

  也为 Rebellions 最后的高频买卖芯片定位供给了专业支持。Rebel 神经焦点上各计较单位的具体细节目前仍处于保密形态,我们正有策略地选择进入各个市场的机会,并获得了其本土国度两大电信巨头的支撑。晚期面向高频买卖加快的 Ion 芯片采用台积电 7 纳米工艺制制,前身为韩国电信)领投,随后正在麻省理工学院(MIT)获得电气工程取计较机科学双硕士学位,一曲很有耐心。两头还存正在多个过渡阶段,而 SK Telecom 取 SK 海力士同属 SK 集团,其功能取台积电的 CoWoS-S 中介层和封拆手艺大致相当。这些都是 Rebellions 能够借力的焦点劣势。而做为第二代加快器厂商,为芯片供给合计 256GB / 秒的表里带宽。韩国正全力推进 “从权 AI” 国度计谋,这些可能性表白,

福建PA旗舰视讯信息技术有限公司


                                                     


返回新闻列表
上一篇:家供给了全新的逛戏体验 下一篇:东地缘款式、力量对比的新变化