资讯分类
全部资讯
最新活动
商城公告
行业信息
新品推荐
元器件知识
资讯标签
艾迈斯欧司朗(95) 英伟达NVIDIA(70) 艾为awinic(45) 飞腾派V3(37) 萤火工场(30) 罗彻斯特电子(28) Jetson Orin Nano SUPER 开发套件(21) 资料下载专区(18) 进迭时空(15) 兆易创新(14) 艾为 awinic(13) 赛昉科技(StarFive)(12) 灵动微电子(11) 小华半导体(9) 日清纺微电子(9) 上海雷卯Leiditech(8) 微源半导体 LPSemi(8) 赛昉科技(8) NVIDIA(8) Seeed矽递科技(8) 龙芯中科(7) GD32VW553-IOT(7) 物奇WuQi(7) 日清纺微电子Nisshinbo(5) 庆科(5) 开源口碑分享(5) 飞腾派(4) 创捷电子(4) TROQ创捷电子(4) Geehy极海半导体(4) 航顺芯片(4) CEM5826-M11(4) 一件包邮专区(3) FTHR-G0001(3) 罗彻斯特(3) 飞腾派eMMC(3) iCEasy商城(3) MM32SPIN060G(3) 飞腾派下载专区(2) 村田(2) 英伟达初创加速计划(2) 极海(2) 中国星坤(2) 极海半导体(2) 小华EVB-HC32F4A0开发板(2) 国产开源硬件(2) 野火(2) 杭晶(HCI)(2) Mini-SPIN0230(2) NVIDIA品牌专区(2) 华润微电子(2) 口碑评测(2) EVB-L0130(2) 教育优惠申请链接(2) 启明云端(2) 飞腾官网飞腾派(2) 弈安云(2) 国产毫米波雷达模块(1) 技术问答专区(1) 英特尔(1) NVIDIA Jetson Nano 模组(1) QCS6490 SOM EVB(1) 天微电子商家页(1) 迈巨微电子品牌专区(1) 飞腾派专链(1) 瑞隆源产品(1) 龙芯教育派(1) CEK8902-S905D3(1) EV Board (MM32L0136C7P)(1) 飞腾派试用申请链接(1) BeagleBone Black快速入门指南(1) 样片申请(1) NVIDIA NIM(1) 世野(Khadas)(1) 618大促(1) 竞买活动(1) 雷卯(1) Arduino品牌页(1) 飞腾派调研问卷链接(1) 微雪电子(1) 一件免邮专区(1) SFH 7018B(1) 极海半导体(Geehy)(1) 英伟达 NVIDIA品牌专区(1) 小脚丫(1) 618大促专区(1) 艾为(AWINIC)(1) 飞腾派V3版本上新(1) 飞虹半导体(1) MUSE Paper(1) 8月7日竞拍竞买(1) 萤火工场GD32VW553-IOT(1) 野火RK3566开发板(1) 乐动机器人(1) 海凌科电子(Hi-Link)(1) VF202040-A0(1) 教育优惠(1) COMBO模组 EMC3020-PZI5(1) 松科智能(1) 润石(1) 格力新元(1) CEM5825F(1) 庆科信息(MXCHIP)品牌专区(1) 附件(1) Jetson AGX Thor 开发套件/模组(1) Mini-F5333(1) 微源半导体(1) 周年抽奖活动(1) QCS6490 SOM EVB开发板(1) 附件下载地址(1) 迈巨微(1) 华大北斗(1) GD32无线生态专区(1) JETSON_AGX_ORIN_64GB_DEVELOPER_KIT(1) QCS8550 SOM EVB开发板(1) 申请样片:高光效红光OSCONIQ® P 3030, GR QSSPA1.23(1) 台容积电(1) 雷克沙(1) GD32VW553-IOT V2版本(1) 萤火工场品牌专区(1) 商城下载专区(1) GD32VW553-IOT V2(1) CEM5881-M11(1) NVIDIA Jetson Orin Nano 开发套件(1) 荣湃半导体(2Pai Semi)品牌专区(1) 进迭时空品牌页(1) 飞腾人才赋能(1) Jetson AGX Orin 64GB开发套件(1) Arduino UNO Rev 4 Minima开发板(1) 下载专区(1) B站风扇视频(1) Jetson AGX Xavier(32GB)(1) BeagleBoard.org®(1) 社区评奖活动(1) Arduino品牌专区(1) 国产自主可控(1) 英伟达 NVIDIA(1) CEM5861G-M11(1) 赛昉科技9折活动券(1) NVIDIA Jetson Orin Nano 开发套件(1) 24GHz毫米波雷达模块(1) NVIDIA DGX™ Spark:桌面级AI超级计算机(1) 品牌清仓(1) QCS8550 SOM EVB(1) Jetson AGX Orin 64GB开发套件(1)

进迭时空同构融合技术加速大模型AI应用创新

发布时间:2025-05-15

同构融合技术


为了加速AI计算,芯片企业设计了多种专用处理器架构,如GPGPU、NPU、TPU等。这些专用处理器架构在执行调度代码及应用层代码时,需要主控CPU的配合,如下图所示。因此,通常需要构建复杂的异构调度系统来协调CPU和XPU的额外数据交互和同步。

进迭时空践行的同构融合技术,创新性地在CPU内集成TensorCore,以RISC-V指令集为统一的软硬件接口,驱动Scalar标量算力、Vector向量算力和 Matrix AI算力,支持软件和AI模型同时在RISC-V AI核上运行,并通过程序正常跳转实现软件和AI模型之间的事件和数据交互,进而完成整个AI应用执行。我们将这种使用同构融合技术,得到具有AI算力的CPU称为AI CPU。


同构融合技术以更轻的软件基础设施构建接近Nvidia的软件层级


虽然市面上已有多种不同架构且硬件做的非常出色的AI加速器,但是除了AIOT细分场景之外,Nvidia占据了AI计算绝大多数市场份额,成为AI计算主流架构,并深刻影响工业界学术界AI计算的发展。Nvidia通过CUDA将异构开发的门槛降至最低,并基于多层级的软件栈构建了护城河。基于这些软件栈,全球开发者都在壮大Nvidia生态。很多企业的GPGPU发展策略是硬件上学习Nvidia,软件上兼容CUDA生态。由于很难跟上Nvidia的快速迭代,这条路径并不容易实现。

同构融合有望成为新的发展路径。相比于异构加速器和CPU的组合,同构融合技术在硬件层面上对AI算力和通用CPU进行了更高层次的封装,用户不需要关心主控CPU和异构加速器之间的数据同步,并且保留了通用CPU的调试和开发方式。厂商不需要开发复杂的异构调度系统,也不需要开发额外的驱动管理就可以让开发者便捷的使用AI算力。另外,同构融合技术中CPU的通用性和RISC-V架构良好的开源生态基础,进一步降低了需要自建软件栈的复杂度。

综上,进迭时空基于开源软件生态,以更轻的基础软件设施,构建了接近Nvidia的软件层级,如下图所示。我们的目标是,基于这些软件层级,达到接近Nvidia的AI通用性。

01  在模型加速层面,与Nvidia一样,进迭时空的推理引擎可以非常便捷的接入各主流第三方框架

02 在Tensor及多维数据块层面,SpineDNN、SpineTriton及SpineJit分别对标CUDNN、CUTLASS及CUTE

03 在Scalar及Vector层面,SpineDPC++可以对标CUDA

04 最底层的寄存器层面,标准的Intrinsic接口则对标Nvidia的PTX接口


进迭时空同构融合技术实践


进迭时空基于同构融合技术完成两代通用RISC-V AI核的研发。

第一代RISC-V AI核A60实现2Tops算力,支持INT8等数据格式。A60核已经应用于RISC-V AI CPU芯片K1,实践表明,同构融合AI算力可以无缝运行所有AI算法,更安全地加速从TEE到REE所有AI应用。RISC-V AI CPU芯片K1也是第一个完整提供Scalar、Vector和Matrix三个维度关键算力的RISC-V芯片。在运行常见的AI算法时,K1的实际性能是传统芯片的3-5倍,某些AI应用帧率提升可达10倍以上。

尤其是在运行大模型算法时,Matrix算力可以从容应对prefill阶段的算力需求,CPU出色的访存系统可以解决decode阶段的带宽需求,无需构建复杂的异构计算调度系统。此外,由于CPU的通用性,可以支持几乎所有低bit量化方式,将带宽需求降至最低。

更重要的是,将整个AI应用涉及的计算步骤全部迁移至AI CPU上,还可以为客户提供更加简单高效的开发方式。不仅能够避免在多个硬件设备上开发和调试,而且在一个编程模型覆盖AI开发全过程,能够让部署和调试变得轻松,让算法快速实现价值。例如,K1芯片在客户场景下,可以把在传统NPU上适配新算法所需的3-6个月时间压缩到1周以内,K1芯片已支持多个客户在语音和机器视觉领域快速开发了基于最新AI大模型的产品。

第二代RISC-V AI核A100已经研发完毕,预期无论在大模型运行效率方面,还是运行传统AI效率方面都能达到业界先进水平。

此外在算力堆叠方面,同构融合技术路线通过采用Core-to-Core coherence和Cluster-to-Cluster coherence,能以与GPU相同的技术实现多芯片级联和算力堆叠。与总线的Die2Die一致性技术结合后,通往多芯片算力堆叠的规模有望接近现有最先进GPU集群。


同构融合技术适合运行MoE大模型


MOE模型(Mixture of Experts,混合专家模型)是一种基于分而治之策略的神经网络架构,它将复杂的问题分解为多个子问题,每个子问题由一个独立的模型(称为专家)进行处理。MOE模型在单请求推理场景,每个token只需要使用部分专家参与计算。这些专家共同组成了MOE模型的激活参数。以DeepSeek-R1模型为例,671B的模型,只有37B的激活参数。对于FP8的模型,相当于需要将近700GB的容量来存放模型所有的权重,但是在进行单请求推理时,每个token只需要使用将近40GB的权重。相比于Dense模型,MOE模型是一个大容量,弱带宽的推理需求。相较于GDDR和HBM,内存容量更容易扩展;再加上专家的选择是动态的,其计算和访存模式是CPU极其擅长的。

GPU与NPU适合密集的重复计算模式,而CPU适合复杂调度场景下的计算模式,AI CPU介于两者之间。MoE的兴起,代表了一个兼具大容量与复杂逻辑的大模型发展趋势,而这正是AI CPU的发力场景。



想要了解及购买进迭时空产品,请前往iCEasy商城品牌专区:

https://s.iceasy.com/1Pjqx1

iCEasy商城欢迎您的到来!