在人工智能驅動(dòng)的數字時(shí)代,海量數據的高效存儲與快速調用成為AI應用的核心支柱。從智能推薦系統的實(shí)時(shí)數據處理,到深度學(xué)習模型的參數訓練,固態(tài)硬盤(pán)(SSD)以其卓越的讀寫(xiě)速度與穩定性,正成為AI基礎設施的關(guān)鍵組件。然而,鮮為人知的是,在微觀(guān)世界中,中子輻射引發(fā)的比特翻轉問(wèn)題,正悄然威脅著(zhù)AI的數據安全與系統穩定性。
中子,作為一種不帶電的亞原子粒子,廣泛存在于宇宙射線(xiàn)、高海拔地區、核電站周邊等環(huán)境中。當這些微小的粒子穿透SSD的存儲單元時(shí),可能會(huì )導致存儲芯片中的比特值發(fā)生意外翻轉,使得原本存儲的“0”變成“1”,“1”變成“0”。這種看似微不足道的變化,在AI應用的海量數據處理場(chǎng)景下,可能引發(fā)數據錯誤、模型訓練偏差,甚至系統崩潰,嚴重影響AI應用的可靠性與效率。
憶聯(lián)作為國內唯一高分通過(guò)中子輻照測試的SSD廠(chǎng)商,聯(lián)合國內知名機構中國散裂中子源在遠超地表中子輻射量的模擬環(huán)境下,實(shí)測PCIe Gen5 ESSD UH812a的高可靠性,以期為AI時(shí)代提供更安全高效的存儲解決方案。
中國散裂中子源是國際前沿的高科技多學(xué)科應用的大型研究平臺,依托中國散裂中子源建成的大氣中子輻照譜儀是國內首臺、國際先進(jìn)的大氣中子地面模擬加速測試平臺,可為航空、電力電子、智能駕駛、高性能存儲與計算等領(lǐng)域的高可靠性的電子元器件及系統提供大氣中子單粒子效應風(fēng)險評估和測試服務(wù)。
本次試驗選取憶聯(lián)PCIe Gen5 ESSD UH812a及國際友商A、國內友商B的同代際產(chǎn)品進(jìn)行測試,所有SSD均在相同的中子注量率下持續輻照,直至盤(pán)片全部失效。
本次測試使用的中子注量率為9.6*104n/ (cm2·s) (En≥1MeV)。在國內地面條件下,阿里地區作為中子量最多的地區之一,其中子注量率僅為5.09*102n (cm2 ·h) (En≥1MeV)。由此可見(jiàn),在模擬宇宙射線(xiàn)峰值環(huán)境(中子注量率達阿里地面條件的68萬(wàn)倍)的極限測試中,憶聯(lián)UH812a SSD仍能保持優(yōu)秀的穩定性和可靠性,可護航千卡GPU集群完成百億參數大模型訓練,開(kāi)創(chuàng )存儲設備抗輻射性能新高度。
圖1:中子試驗環(huán)境實(shí)拍
圖2:憶聯(lián)與友商同類(lèi)產(chǎn)品實(shí)測對比
基準值232s是在高中子環(huán)境下SSD的使用壽命,等于在常規環(huán)境下SSD的5年使用壽命。在高中子環(huán)境下,SSD實(shí)際運行時(shí)間(實(shí)測值)比基準值越長(cháng),則說(shuō)明其可靠性及數據保護能力越強。在本次測試中,憶聯(lián)UH812a實(shí)際運行時(shí)間為416秒,比國內友商B的同類(lèi)產(chǎn)品運行時(shí)間長(cháng)約60%,比國際友商A的同類(lèi)產(chǎn)品運行時(shí)間長(cháng)約400%。在模擬環(huán)境的中子注量率下,為達到5年使用壽命,SSD正常運行時(shí)間需達到232秒,而憶聯(lián)UH812a平均運行時(shí)長(cháng)高出5年使用壽命等效時(shí)長(cháng)79%,可明顯滿(mǎn)足用戶(hù)在高中子環(huán)境下對SSD耐用性和可靠性的使用需求。
平均每小時(shí)故障率指SSD在單位時(shí)間(每小時(shí))內發(fā)生故障的概率,反映了SSD在運行過(guò)程中出現故障的頻率,該指標越低則說(shuō)明SSD的可靠性越高。
圖3:UH812a與上一代產(chǎn)品及友商平均每小時(shí)故障率對比
在高中子注量率的測試環(huán)境下,通過(guò)實(shí)測UH812a與上一代產(chǎn)品的故障率,可明顯發(fā)現UH812a的故障率不僅低于上一代產(chǎn)品,同時(shí)也遠低于友商同代際產(chǎn)品。UH812a的單個(gè)硬盤(pán)平均每小時(shí)故障率為3.22E-06,上一代際產(chǎn)品單個(gè)硬盤(pán)平均每小時(shí)故障率為4.18E-06,而友商Gen5代際產(chǎn)品平均每小時(shí)故障概率為6.95E-06。這說(shuō)明在正常使用情況下,不管是跟友商對比,還是跟上一代產(chǎn)品對比,UH812a出現故障的可能性更小,更能夠為用戶(hù)提供更穩定、持久的存儲服務(wù),有效保障數據的安全和業(yè)務(wù)的連續性。
憶聯(lián)UH812a除具備優(yōu)秀的硬件配置外,還采用了增強的LDPC糾錯算法、智能錯誤檢測與糾正(ECC)模式及不可糾正錯誤(UNC)保護模式,為用戶(hù)牢筑AI數據安全防線(xiàn)。
l LDPC糾錯算法:可提供比Flash顆粒要求更高的糾錯能力,能夠精準識別并修正數據傳輸與存儲過(guò)程中出現的各類(lèi)錯誤,實(shí)現小于1E-18的UBER(不可修復錯誤比特率)。
l ECC模式:能夠實(shí)時(shí)監測存儲數據狀態(tài),快速定位并糾正因中子輻射引發(fā)的比特翻轉錯誤,有效保障數據讀寫(xiě)的準確性。
l UNC保護模式:憑借智能錯誤識別與快速隔離技術(shù),在面對不可糾正錯誤時(shí),通過(guò)隔離錯誤區域防止數據進(jìn)一步損壞和丟失,全方位保障系統穩定運行與業(yè)務(wù)連續性。
圖4:憶聯(lián)UH812a亮點(diǎn)介紹
UH812a作為憶聯(lián)強勢推出的重量級PCIe Gen5 ESSD之一,其采用的多重數據保護技術(shù),在面對中子輻射的威脅時(shí),可最大限度降低數據丟失風(fēng)險,以全場(chǎng)景、全周期的數據防護策略,為大模型訓練、智能決策等AI業(yè)務(wù)構筑堅不可摧的存儲安全屏障。
受政策、自然環(huán)境等因素的影響,數據中心紛紛落戶(hù)高海拔地區。數據中心作為AI發(fā)展的基礎支撐,不僅可以提供海量存儲空間,也為AI模型訓練和推理提供強大計算力,加速模型訓練過(guò)程。在高海拔環(huán)境下,數據中心及AI應用極有可能受到中子影響,導致數據錯誤,引發(fā)模型訓練偏差、分析結果失真等,造成人力、物力與時(shí)間成本的浪費,增加運營(yíng)成本。
對于用戶(hù)而言,在高海拔的數據中心采用通過(guò)大氣中子測試的ESSD意味著(zhù)為數據安全與業(yè)務(wù)效率雙重賦能。憶聯(lián)UH812a憑借出色的數據保護能力,能夠有效降低SSD失效率,確保企業(yè)的智能決策系統、智能客服等AI應用穩定運行,保障數據的真實(shí)性與完整性,減少運維成本及人力,有效降低用戶(hù)TCO。
在AI驅動(dòng)的智能時(shí)代,選擇經(jīng)過(guò)嚴苛大氣中子測試的憶聯(lián)UH8系列SSD,就是選擇更穩定的系統運行、更精準的數據分析、更高效的業(yè)務(wù)推進(jìn)與更低的運維成本,為企業(yè)數字化轉型與技術(shù)創(chuàng )新筑牢可靠根基。
未來(lái),憶聯(lián)將繼續深耕AI存儲技術(shù)領(lǐng)域,持續創(chuàng )新,不斷優(yōu)化產(chǎn)品性能,為AI時(shí)代的數據存儲需求提供更安全、更高效、更可靠的解決方案,與客戶(hù)攜手共筑智能時(shí)代的數據基石。
注:本文的所有測試數據均基于中國散裂中子源大氣中子輻照譜儀輻射環(huán)境下的實(shí)測數據,測試對象包含憶聯(lián)SSD及主要國內外友商的同代際產(chǎn)品,相關(guān)數據僅供參考。
地址:深圳市南山區記憶科技后海中心B座19樓
電話(huà):0755-2681 3300
郵箱:support@unionmem.com