资讯分类
全部资讯
最新活动
商城公告
行业信息
新品推荐
元器件知识
资讯标签
艾迈斯欧司朗(96) 英伟达NVIDIA(70) 艾为awinic(45) 飞腾派V3(37) 萤火工场(30) 罗彻斯特电子(28) Jetson Orin Nano SUPER 开发套件(21) 资料下载专区(18) 艾为 awinic(15) 进迭时空(15) 兆易创新(14) 赛昉科技(StarFive)(12) 灵动微电子(11) 日清纺微电子(9) 小华半导体(9) 上海雷卯Leiditech(8) 赛昉科技(8) 微源半导体 LPSemi(8) NVIDIA(8) Seeed矽递科技(8) GD32VW553-IOT(7) 物奇WuQi(7) 龙芯中科(7) 开源口碑分享(5) 日清纺微电子Nisshinbo(5) 庆科(5) TROQ创捷电子(4) 航顺芯片(4) CEM5826-M11(4) Geehy极海半导体(4) 飞腾派(4) 创捷电子(4) 罗彻斯特(3) 飞腾派eMMC(3) iCEasy商城(3) MM32SPIN060G(3) 一件包邮专区(3) FTHR-G0001(3) NVIDIA品牌专区(2) 华润微电子(2) 口碑评测(2) EVB-L0130(2) 教育优惠申请链接(2) 启明云端(2) 弈安云(2) 飞腾官网飞腾派(2) 村田(2) 飞腾派下载专区(2) 英伟达初创加速计划(2) 极海(2) 中国星坤(2) 极海半导体(2) 小华EVB-HC32F4A0开发板(2) 国产开源硬件(2) 杭晶(HCI)(2) 野火(2) Mini-SPIN0230(2) 雷克沙(1) GD32VW553-IOT V2版本(1) QCS8550 SOM EVB开发板(1) 申请样片:高光效红光OSCONIQ® P 3030, GR QSSPA1.23(1) 台容积电(1) GD32VW553-IOT V2(1) CEM5881-M11(1) NVIDIA Jetson Orin Nano 开发套件(1) 萤火工场品牌专区(1) 商城下载专区(1) Jetson AGX Orin 64GB开发套件(1) 荣湃半导体(2Pai Semi)品牌专区(1) 进迭时空品牌页(1) 飞腾人才赋能(1) Jetson AGX Xavier(32GB)(1) BeagleBoard.org®(1) 社区评奖活动(1) Arduino UNO Rev 4 Minima开发板(1) 下载专区(1) B站风扇视频(1) 国产自主可控(1) 英伟达 NVIDIA(1) CEM5861G-M11(1) 赛昉科技9折活动券(1) NVIDIA Jetson Orin Nano 开发套件(1) Arduino品牌专区(1) NVIDIA DGX™ Spark:桌面级AI超级计算机(1) 品牌清仓(1) QCS8550 SOM EVB(1) Jetson AGX Orin 64GB开发套件(1) 24GHz毫米波雷达模块(1) 技术问答专区(1) 英特尔(1) NVIDIA Jetson Nano 模组(1) QCS6490 SOM EVB(1) 天微电子商家页(1) 国产毫米波雷达模块(1) 瑞隆源产品(1) 龙芯教育派(1) CEK8902-S905D3(1) EV Board (MM32L0136C7P)(1) 迈巨微电子品牌专区(1) 飞腾派专链(1) 世野(Khadas)(1) 618大促(1) 竞买活动(1) 雷卯(1) 飞腾派试用申请链接(1) BeagleBone Black快速入门指南(1) 样片申请(1) NVIDIA NIM(1) 微雪电子(1) 一件免邮专区(1) SFH 7018B(1) 极海半导体(Geehy)(1) Arduino品牌页(1) 飞腾派调研问卷链接(1) 小脚丫(1) 618大促专区(1) 艾为(AWINIC)(1) 英伟达 NVIDIA品牌专区(1) 8月7日竞拍竞买(1) 飞腾派V3版本上新(1) 飞虹半导体(1) MUSE Paper(1) 乐动机器人(1) 海凌科电子(Hi-Link)(1) VF202040-A0(1) 教育优惠(1) 萤火工场GD32VW553-IOT(1) 野火RK3566开发板(1) 润石(1) 格力新元(1) CEM5825F(1) COMBO模组 EMC3020-PZI5(1) 松科智能(1) Jetson AGX Thor 开发套件/模组(1) Mini-F5333(1) 微源半导体(1) 周年抽奖活动(1) 庆科信息(MXCHIP)品牌专区(1) 附件(1) 华大北斗(1) GD32无线生态专区(1) JETSON_AGX_ORIN_64GB_DEVELOPER_KIT(1) QCS6490 SOM EVB开发板(1) 附件下载地址(1) 迈巨微(1)

进迭时空 | RISC-V架构CPU的RAS解决方案

发布时间:2025-06-23

RISC-V架构以追赶者的姿态在多个应用领域与X86架构和ARM架构展开竞争。在服务器应用领域,RISC-V架构正在重新定义服务器芯片领域必备的安全、虚拟化和RAS等规格和规范。

服务器CPU芯片作为服务器核心部件,承担了CPU算力、高速内存接口和高速IO传输接口等功能。从应用场景和需求出发,RAS(Reliability、Availability、Serviceability)已经成为服务器系统必备的功能属性:高可靠性(Reliability)可以延长整个系统硬件“满血”运行的持续时间,此阶段为服务器系统最理想状态;高可用性(Availability)使得硬件系统发生随机或者持续硬件故障时,通过软硬件协同处理,系统仍然可以维持“残血”运行,不至于因为关机导致服务中断;高可维护性(Serviceability)使得在系统崩溃时,能够迅速定位故障,通过替换部件等方式对服务器进行“补血”,为系统尽快恢复运行提供保障。


(图1: RAS定义框架)


进迭时空以RISC-V高性能算力计算核心SpacemiT X100™ Core 为基础构建的服务器CPU芯片,充分考虑了服务器的RAS需求,集成了包含RAS组件功能特性和RAS管理功能特性的完整RAS软硬件方案,并在应用层上对X86和ARM服务器的RAS方案做了兼容适配:RAS处理机制遵循Firmware First准则;通过RISC-V协议栈,支持ACPI的APEI规范,获得面向OS的错误信息格式兼容。进迭时空的RAS方案完全遵循RISC-V RERI (RAS Error Record Register Interface)故障处理接口规范,通过内存映射的寄存器接口统一了各种RAS信息的记录和上报。


进迭时空RAS组件架构


进迭时空服务器CPU芯片的RAS硬件方案主要围绕SpacemiT X100™ Core、DDR控制器、PCIe控制器、片上互连总线等几个核心部件展开。

(图2: 进迭时空RAS组件架构)


SpacemiT X100™  Core 和 Cluster

· 实现L1/L2 Cache的Parity校验和ECC,TLB 的Parity校验,对于Parity错误和ECC不可纠正错误会进行Cache line invalid并Reload,对于ECC可纠正错误会进行数据回刷 (Scrubbing);

· 实现系统总线数据的Data check和Data poison检测,在Core读取Cache line时若检测到数据错误则触发异常中断;

· 集成Core Boot MBIST,在启动中测试CPU内部的所有RAM单元,若MBIST failed则通知系统启动固件对Core进行隔离;

· 集成RISC-V规范RAS RERI接口模块;

· 支持Warm Reset,允许在保留RAS错误信息的同时重启CPU核。


DDR控制器

· 实现控制器端系统总线数据的Data check和Data poison;

· 实现控制器内部RAM的Parity校验;

· 通过ECC机制实现对DRAM的命令式和自动式巡检回刷 (Scrubbing);

· 对DRAM读写数据进行CRC校验,若有错误自动Retry;

· 支持DDR5的EAPAR(Encoded Address Parity)机制;

· 支持72-bit和80-bit的DDR5 ECC DIMM,可以实现内存颗粒Chipkill功能;

· 支持对DRAM颗粒的PPR(Post Package Repair)修复功能。


PCIe控制器

· 实现控制器端系统总线数据的Data check和Data poison;

· 实现控制器内部RAM的Parity校验;

· 支持传输层的ECRC校验;

· 支持链接层的LCRC校验;

· 在Lane training failed时,可以进行Lane isolation;

· 支持PCIe设备热插拔。


片上互连总线

· 实现所有总线数据的Data check和Data poison;

· 实现互连总线的错误Response传递;

· 支持SLC和SF的RAM ECC;

· 支持片间互连总线接口的ECRC和LCRC校验。


进迭时空RAS管理架构

(图3: 进迭时空RAS管理架构)


服务器CPU芯片对RAS信息的处理主要通过SpacemiT X100™ Core 主CPU单元和RMU管理单元实现,两者协同分工,实现了对本芯片中所有重要系统组件和多芯互连系统中其他芯片的RAS处理(如OS交互、BIOS固件执行、带外BMC通信等),极大提升了RAS处理的可靠性,它的管理架构特性主要有:

· SpacemiT X100™ Core 支持RAS中断接口,通过Cluster内部RERI模块,实现符合RISC-V RERI规范的CPU核故障记录和异常中断;

· PCIe支持符合规范的AER(Advanced Error Reporting);

· 通过CPU芯片的管理单元(RMU),实现整芯片RAS错误故障的异常处理:故障信息收集和存储、故障的软件通知和处理;

· 通过CPU芯片的带外接口,实现BMC芯片的带外RAS故障收集和交互。

进迭时空通过由RAS功能组件和RAS管理软硬件架构协同组建的RAS系统,实现完整的RISC-V架构服务器RAS解决方案,即将推出业界首个完整支持服务器RAS的CPU产品。



想要了解及购买进迭时空产品,请前往iCEasy商城品牌专区:

https://s.iceasy.com/1Pjqx1

iCEasy商城欢迎您的到来!