ChatGPT從2022年11月問(wèn)世至今,憑借著(zhù)“上知天文,下知地理”的智能表現火速出圈,在內容生成、搜索引擎優(yōu)化、編程協(xié)助、智能客服等領(lǐng)域展現出的巨大潛力,甚至引發(fā)了AI領(lǐng)域的新一輪技術(shù)升級與產(chǎn)業(yè)重構,國內外科技企業(yè)也紛紛加入這場(chǎng)人工智能的競賽。
就在不久前,北京市經(jīng)濟和信息化局發(fā)布的《2022年北京人工智能產(chǎn)業(yè)發(fā)展白皮書(shū)》中明確提出“支持頭部企業(yè)打造對標ChatGPT的大模型,著(zhù)力構建開(kāi)源框架和通用大模型的應用生態(tài)。加強人工智能算力基礎設施布局。加速人工智能基礎數據供給?!?/span>
一場(chǎng)全球化、全領(lǐng)域的AI新浪潮已經(jīng)來(lái)臨。
ChatGPT“狂飆”之路背后的存儲挑戰
ChatGPT是由美國人工智能研究實(shí)驗室OpenAI發(fā)布的一款生成式人工智能聊天機器人,是由人工智能技術(shù)驅動(dòng)的自然語(yǔ)言處理工具,它能夠通過(guò)學(xué)習和理解人類(lèi)的語(yǔ)言來(lái)進(jìn)行對話(huà),還能根據聊天的上下文進(jìn)行互動(dòng),真正像人類(lèi)一樣來(lái)聊天交流,甚至能完成撰寫(xiě)郵件、視頻腳本、文案、翻譯、代碼,寫(xiě)論文等任務(wù)。
ChatGPT使用的是GPT-3技術(shù),即第三代生成式預訓練Transformer (Generative Pretrained Transformer 3),這是一種自回歸語(yǔ)言模型,所采用的數據量多達上萬(wàn)億,主要使用的是公共爬蟲(chóng)數據集和有著(zhù)超過(guò)萬(wàn)億單詞的人類(lèi)語(yǔ)言數據集,對應的模型參數量也達到1,750億。
GPT-3.5則是GPT-3微調優(yōu)化后的版本,比后者更強大。ChatGPT正是由GPT-3.5架構的大型語(yǔ)言模型(LLM)所支持的,使ChatGPT能夠響應用戶(hù)的請求,做出“類(lèi)似人類(lèi)的反應”。在此背后是參數量和訓練樣本量的增加,據了解,GPT-3.5包含超過(guò)1746億個(gè)參數,預估訓練一次ChatGPT至少需要約3640 PFlop/s-day的算力(即1PetaFLOP/s效率跑3640天)。
ChatGPT“無(wú)所不知”的背后除了考驗算力成本外,對數據存儲在速度、功耗、容量、可靠性等層面也提出了更高要求。
ChatGPT每個(gè)訓練步驟對存儲都有著(zhù)嚴苛的要求:
①數據獲取 …
因為ChatGPT的訓練需要大量的文本數據,所以需要先準備一個(gè)大規模的語(yǔ)料庫。語(yǔ)料庫可以來(lái)自各種渠道,例如維基百科、新聞網(wǎng)站、社交媒體等,并進(jìn)行一定的預處理,例如去除特殊字符、分詞、轉換成小寫(xiě)等。為了縮短收集數據進(jìn)行分析所需的時(shí)間,需要同時(shí)從各渠道進(jìn)行采集,該階段的重點(diǎn)在持續寫(xiě)入,定期進(jìn)行容量存儲的非易失性寫(xiě)入,AI獲取的I/O配置文件通常是100%的順序寫(xiě)入。
②數據整理 …
由于從各種渠道收集到的數據結構多種多樣,因此需要對獲取的數據進(jìn)行整理后再進(jìn)行訓練,例如對不完整的數據進(jìn)行修復。針對不同屬性的數據,例如用于面部識別的圖像,必須進(jìn)行歸一化;非結構化數據需要進(jìn)行標記和注釋?zhuān)阌谏疃葘W(xué)習算法的訓練,進(jìn)而增強算法。最后將來(lái)源于不同渠道的數據進(jìn)行合并,并轉換為目標格式。
這是一個(gè)不斷迭代的過(guò)程,也是具有高度并發(fā)性的混合工作負載過(guò)程,因為需要讀寫(xiě)不同數量的數據,包括隨機和順序讀寫(xiě)。讀寫(xiě)比將根據攝入數據的準確性和達到目標格式所需的轉換程度而變化,極端情況下的工作負載可以接近50%的寫(xiě)入,擁有高吞吐量、低延遲以及高QoS的存儲設備是減少數據整理時(shí)間的關(guān)鍵。
③訓練 …
ChatGPT的訓練使用了自監督學(xué)習(Self-supervised learning)的方法,即根據文本數據中的上下文關(guān)系來(lái)預測下一個(gè)單詞或字符。在訓練過(guò)程中,ChatGPT 使用了基于梯度下降的優(yōu)化算法來(lái)調整模型參數,使得模型的預測結果更加接近實(shí)際結果。
這個(gè)階段非常耗費資源,因為涉及到從基于數據的預測到強化學(xué)習,再到神經(jīng)網(wǎng)絡(luò )和基于運動(dòng)模型的預測一系列重復的步驟,并不斷調節超參數與優(yōu)化模型性能。大多使用的是隨機讀取和一些寫(xiě)入用于檢查點(diǎn)設置,因此維持超快、高帶寬隨機讀取的存儲設備更有利于訓練,更快的讀取可以使有價(jià)值的訓練資源得到快速利用,而隨機性有助于提高模型的準確性。在此階段,減少I(mǎi)/O等待時(shí)間至關(guān)重要。
④推理 …
訓練結束后,將訓練好的模型執行推理,觀(guān)察并使用新的數據驗證推理結果是否符合預期。在推理階段同樣也需要大量讀取和具有極低響應時(shí)間的高性能存儲。推理可以部署在數據中心或邊緣設備中,實(shí)時(shí)邊緣部署不僅需要快速將已訓練好的模型讀入推理,還需要快速寫(xiě)入攝取的數據以進(jìn)行實(shí)時(shí)決策。隨著(zhù)更多邊緣部署采用強化學(xué)習,對存儲設備性能的要求將更高。
AI浪潮之下,憶聯(lián)SSD能做什么
面對AI應用更嚴苛的存儲要求,憶聯(lián)UH711a作為一款數據中心級SSD,憑借在各方面出色的性能表現可應用在A(yíng)I業(yè)務(wù)中的各個(gè)階段。
全場(chǎng)景調優(yōu),助推AI應用落地 …
UH711a面向數據中心級的讀密集場(chǎng)景、混合場(chǎng)景、寫(xiě)密集場(chǎng)景等業(yè)務(wù)場(chǎng)景和各類(lèi)IO pattern,可提供全面的性能、功耗調優(yōu)。尤其在數據庫、塊存儲、對象存儲、海量存儲等對隨機IOPS性能高要求場(chǎng)景下UH711a的性能顯著(zhù)。在與國內某互聯(lián)網(wǎng)客戶(hù)數據中心的合作中,通過(guò)使用憶聯(lián)UH711a,在混合讀寫(xiě)滿(mǎn)負載業(yè)務(wù)場(chǎng)景下,存儲集群能耗比提升了12.5%。
尤其在隨機讀寫(xiě)4K性能指標上,可提供更優(yōu)的SSD能耗比,能滿(mǎn)足AI業(yè)務(wù)中高吞吐量的需求,使其可以更快地收集更多的數據,縮短從數據中獲取反饋的時(shí)間。如下圖所示,UH711a在數據中心業(yè)務(wù)隨機4K場(chǎng)景下IOPS per Watt 相比友商可提升42%。在數據中心級應用場(chǎng)景中可獲得12.5%的IOPS per Watt收益。
各類(lèi)場(chǎng)景下的IOPS per Watt測試對比
SR-IOV技術(shù)加持,降本增效顯著(zhù) …
因SR-IOV技術(shù)可提供更好的密度性能、隔離性和安全性,目前已被數據中心廣泛采用。在面向AI應用進(jìn)行部署與邏輯較為復雜的場(chǎng)景時(shí),SR-IOV可為用戶(hù)提供安全、優(yōu)質(zhì)的AI計算資源。UH711a 通過(guò)使能SR-IOV技術(shù)優(yōu)化云業(yè)務(wù)虛擬機場(chǎng)景,相比SPDK方案優(yōu)勢顯著(zhù)。憶聯(lián)采用的SR-IOV 2.0優(yōu)化了各VF的性能隔離調度邏輯,使各VF間的性能隔離度更好,在純讀純寫(xiě)場(chǎng)景下從原來(lái)的5%波動(dòng)降低到3%;混合場(chǎng)景業(yè)務(wù)的波動(dòng)從部分場(chǎng)景10%的波動(dòng)優(yōu)化到5%以?xún)?/strong>。
此外,UH711a基于QOS保障的SR-IOV特性,在虛擬化AI場(chǎng)景,配合NVIDIA GPU Directed Storage場(chǎng)景下提供高達7GBps、170M IOPS訪(fǎng)問(wèn)能力,同時(shí)節約CPU算力10%,可減輕AI業(yè)務(wù)因數據持續增長(cháng)的算力壓力。
例:
一臺12盤(pán)位服務(wù)器(128vCPU Core)使用憶聯(lián)SR-IOV特性,每片盤(pán)可節省2個(gè)vCPU Core(累計節省24vCPU Core);CPU價(jià)格按40$來(lái)計算,單臺服務(wù)器可節約CPU算力18.5%,釋放的CPU算力可額外提供存儲租用服務(wù)12個(gè)(24vCPU core / 2個(gè)vcpu綁定一個(gè)虛擬盤(pán) )。
支持DIF特性,保障數據的可靠性 …
在機器學(xué)習中,若數據發(fā)生錯誤,研發(fā)人員可能花費大量時(shí)間進(jìn)行查錯,拉高時(shí)間成本的同時(shí)也會(huì )影響數據集的質(zhì)量,更有可能出現模型精度降低的風(fēng)險。憶聯(lián)UH711a可支持DIF特性,能提升全鏈路數據保護能力。不僅與系統配合,實(shí)現端到端的保護,更能夠在盤(pán)內實(shí)現獨立的端到端保護機制,確保盤(pán)內整個(gè)通路的數據安全,從而為AI業(yè)務(wù)中多種極端場(chǎng)景下的正常運維提供雙重保護。
憶聯(lián)UH711a還支持多種DIF配置,512+8、4K+8、4K+64,支持從應用到Flash的端到端數據保護,并能有效杜絕data replacement故障發(fā)生的可能,保障數據的完整性,助力AI模型的訓練與推理能順利完成。
優(yōu)異的QoS,提升用戶(hù)體驗 …
憶聯(lián)UH711a采用了One Time Read技術(shù),即結合介質(zhì)分組管理、最優(yōu)讀電壓實(shí)時(shí)追蹤技術(shù),對每個(gè)IO進(jìn)行最優(yōu)應答策略設計??稍鰪姳P(pán)片的QoS競爭力,99.9% IO讀一次成功,延時(shí)小于350us,能縮短在AI訓練與推理時(shí)的實(shí)時(shí)決策時(shí)間,并提升盤(pán)片QoS能力與延長(cháng)End of Life。
在前臺最優(yōu)響應用戶(hù)IO:
·以IO PPN信息,查詢(xún)最優(yōu)電壓分組管理表;
·同時(shí)獲取介質(zhì)狀態(tài)信息(Open \ Close \ Affected WL等);
·根據介質(zhì)狀態(tài)和分組表記錄最優(yōu)電壓,采用預先設計的最優(yōu)應答策略讀取數據,最大程度縮短每個(gè)IO的響應延時(shí)。
在后臺進(jìn)行智能維護:
·依據大數據分析,對介質(zhì)進(jìn)行智能分組管理;
·關(guān)鍵事件觸發(fā),對介質(zhì)狀態(tài)進(jìn)行更新維護;
·根據介質(zhì)狀態(tài)、實(shí)時(shí)巡檢,依托最優(yōu)電壓跟蹤IP,對電壓分組管理表進(jìn)行更新,保障電壓準確度。
面向未來(lái),憶聯(lián)推動(dòng)數據存儲再進(jìn)化
據報道,OpenAI已建立了一個(gè)比ChatGPT更先進(jìn)的大型語(yǔ)言模型GPT-4,更有傳聞稱(chēng)其可以通過(guò)圖靈測試,這意味人工智能將再次邁向新的臺階。憶聯(lián)作為科技浪潮中的一員將堅持以創(chuàng )新為驅動(dòng),為人工智能的部署與優(yōu)化提速。
產(chǎn)品層面:針對AI業(yè)務(wù)場(chǎng)景及IO pattern,對SSD的高穩態(tài)性能、虛擬化與高能耗提出的更高需求,憶聯(lián)將積極研發(fā)更具創(chuàng )新力與更高性能的存儲產(chǎn)品,從產(chǎn)品形態(tài)、性能、深度定制化特性等多維度豐富產(chǎn)品矩陣。
解決方案層面:聯(lián)合上下游伙伴探索先進(jìn)技術(shù),面向云計算、數據中心、服務(wù)器、運營(yíng)商等關(guān)鍵行業(yè)打造場(chǎng)景化的存儲解決方案,并積極推動(dòng)產(chǎn)品與基礎軟硬件的兼容適配,加快人工智能部署升級。
地址:深圳市南山區記憶科技后海中心B座19樓
電話(huà):0755-2681 3300
郵箱:support@unionmem.com