近日,星测未来顺利通过在轨OTA完成了GRID-10B载荷的EMMC修复,恢复因EMMC故障而中断的在轨观测任务。这是业内报告的首例成功完成EMMC故障在轨分析、定位、修复,并给出轨道辐射环境对比分析的案例。
下图为修复后天格10B载荷获取的光变曲线。

GRID-10B是清华大学“天格计划”联合星测未来研制的空间科学观测载荷,于2024年6月发射入轨。与之前使用较多的500km太阳同步轨道不同,GRID-10B首次采用了630km的30°低倾角轨道。
GRID-10B载荷沿用了具有多次在轨经历的高性能数采系统方案,在此之前,多套系统在在轨生命周期内均为零故障。然而,在入轨3个月后,GRID-10B载荷的两颗EMMC先后出现故障,导致载荷无法正常执行任务。
GRID-10B载荷沿用了星测未来研制的软件定义、灵活开放的技术架构,针对载荷运行全流程内置了详细的状态及日志记录和分析功能,同时集成了完备的OTA升级功能,可实现载荷功能的灵活重构。在检测到载荷故障后,第一时间根据下行遥测和运行日志等信息对问题进行了初步分析,将故障问题定位于EMMC设备。为进一步分析EMMC故障原因,公司技术人员于地面平台新研了EMMC故障诊断工具,并对在轨卫星程序进行了OTA升级。
经分析,在轨卫星的EMMC内部未检测到有效的分区表信息,且分区表无法修复,从而导致挂载失败。深入分析EMMC内部数据,我们发现EMMC内部出现了关键数据的比特翻转,导致EMMC进入写保护状态,从而导致EMMC的分区表无法修复。下图为在轨获取到的EMMC内部数据,其中蓝框部分的正确数据应为0x80000000,在轨出现1bit翻转后,该数据变成了0x80080000,导致数据出错,这极大概率是由单粒子效应造成的。

为了进一步分析EMMC故障原因,我们基于天格载荷的空间辐照探测能力,并结合AP8理论模型,从实测和模型数据两个角度对该轨道的辐射环境进行了详细评估。
天格载荷内部的SiPM芯片可以有效反映空间中的质子和带电粒子的通量水平。随着空间质子和带电粒子的辐照累积,SiPM漏电流会逐渐增大。下图为GRID-10B载荷SiPM漏电流随时间的变化曲线,在入轨30天左右即达到了1000uA的漏电流;

GRID-10B载荷(630km的30°低倾角轨道)SiPM漏电流随时间变化曲线
对比下图GRID-03B载荷(轨道高度550km,太阳同步轨道)SiPM漏电流随时间的变化曲线,约300天才达到1000uA,初步看GRID-10B所处的辐照水平大约为天格03B的10倍左右。
GRID-03B载荷(轨道高度550km,太阳同步轨道)SiPM漏电流随时间的变化曲线
而通过对比630km低倾角轨道与500km太阳同步轨道质子和电子平均通量图(根据AP8/AE8模型获取),可以看到630km低倾角轨道高能电子通量相比500km太阳同步轨道低一个量级,但高能质子通量却高4-6倍,而质子才是低轨轨道单粒子效应的主要贡献者之一,且是造成SiPM在轨漏电流增加的主要因素。

630km低倾角轨道与500km太阳同步轨道质子平均通量对比

630km低倾角轨道与500km太阳同步轨道电子平均通量对比
基于以上测试分析,我们与供应商合作,开发了EMMC修复工具,综合上注带宽和修复工具容量,采用了分包上注,星上合并的方式完成了工具上注、校验和在轨自动安装流程,并最终完成了两块EMMC的修复,修复后EMMC可以恢复正常工作。
同时,为了应对后续EMMC可能出现的问题,针对EMMC的定期自检和异常自动修复功能也以成熟APP的方式集成到了GRID-10B内部。
通过本次在轨故障分析和成功修复的实践,我们得到了以下关键认知:
卫星载荷可靠性设计不容忽视,对关键设备或节点,冗余备份特别是异构冗余设计可以有效加强系统可靠性;我们的设备共设计有两颗小容量flash系统芯片和两颗EMMC存储芯片,此次在两颗EMMC均失效的情况,经特殊处理将flash用于临时存储EMMC故障诊断及修复工具,成功完成了EMMC的修复;
重视卫星载荷的OTA上注与软件重构能力,OTA更新是载荷软件在轨修复、更新的唯一途径,OTA流程设计应保证灵活易用高效,同时也应认识到卫星上注带宽也是决定OTA能力的关键因素;此次上注也沿用了公司长期迭代形成的OTA功能,除了可支持预期内的在轨更新模式外,还可支持自定义更新模式,也凸显了软件定义的设计优势;
卫星轨道设计时,需要分别评估辐射的总剂量效应和单粒子效应,从经验上来看,低倾角轨道因为不经过南北高维度电离辐射带,其总剂量效应应该优于太阳同步轨道,但实际评估下来,因为SAA区的质子分布,低倾角轨道反而可能更容易发生单粒子效应。
>>核心技术支撑
在此次修复过程中,星测未来两大核心技术相辅相成,发挥了至关重要的作用
软件定义卫星技术:
传统卫星采用专用航天器件,硬件与处理软件强绑定,平台开放较不足,类似传统的功能手机,出厂时功能固定,应用部署不灵活,难以支持新业务与机动任务。若传统卫星发生上述故障,在数据分析、软件修复、在轨验证方面,都存在一定阻碍。
而智能卫星计算平台采用软件定义架构,具备快速更新和重构卫星的开放功能,可以快速适应复杂多变的业务需求,形成新的业务能力;当问题发生时,通过上注链路安装新的替换程序或者修复补丁,能够避免重大财产损失,让卫星不再是固定资产,而是可以长期运营,产生可持续价值的可持续资源。
系统级可靠性加固技术:
可靠性容错设计:主要考虑总剂量效应和单粒子效应,基于实测数据并依托 “天格计划” 成果进行轨道选择,降低总体辐射效应。针对总剂量效应,运用蒙卡分析确定元器件辐照水平,采取结构加厚、屏蔽材料优化等措施。对于单粒子效应,从硬件层、软件层和系统层协同保障,有效解决了载荷在太空环境下面临的可靠性挑战。

系统级健康管理:通过实时监测和智能分析来确保载荷稳定和快速恢复,包括数据采集、分析处理、预警机制和持续优化四个核心环节,实时对单机工作状态进行分析处理,在单机工作异常时可第一时间感知并定位到异常状态,并通过FPGA、GPU模块间的电源控制及时切断异常模块的电源,避免因单粒子闩锁或温度过高等原因导致的模块不可修复性损伤。
冗余设计:针对核心器件,比如电源模块、系统存储介质等,采用主备冗余设计,配合软件加固设计,可以实现系统级的可靠性容错加固。
星测未来在此次GRID-10B载荷EMMC故障在轨OTA修复实践中,不仅成功应对了空间辐射环境带来的挑战,也验证了公司在轨OTA修复技术和系统级健康管理的有效性,提供了在轨故障分析与修复的经验。
此外,星测未来通过多颗天格载荷联合观测,持续获得不同轨道处的空间辐射数据,为行业提供有价值的数据资产。此次对于GRID-10B载荷的故障修复和分析归零,很大程度上也正是得益于前期积累的宝贵数据。
未来,星测未来将继续致力于推动卫星智能化和可靠性技术的发展,为航天事业的持续进步贡献力量。