大數據時(shí)代的高速發(fā)展推動(dòng)互聯(lián)網(wǎng)、大數據、云計算、人工智能、區塊鏈等技術(shù)日益創(chuàng )新,金融、互聯(lián)網(wǎng)、運營(yíng)商、政府等數據密集型行業(yè)的數據存儲量呈現爆發(fā)性增長(cháng)的趨勢,如何從海量數據中幫助企業(yè)更好管理和挖掘業(yè)務(wù)數據價(jià)值,滿(mǎn)足企業(yè)業(yè)務(wù)快速發(fā)展的需求,成為大數據數倉應用的重要方向。
大數據數倉通常采用分布式計算技術(shù),利用大數據天然的擴展性來(lái)完成海量數據的存放,同時(shí)把SQL轉換成針對大數據計算引擎的任務(wù),實(shí)現數據分析,如Hadoop、Spark等作為存儲和計算引擎,使用工具或編程語(yǔ)言設計處理邏輯,實(shí)現對不同數據源的匯聚、清洗、計算和分析。除此之外,大數據數倉還具有面向海量數據、可高效查詢(xún)和分析、具備數據安全性以及靈活性等特點(diǎn)。
在國內,本地部署模式的數據倉庫仍是目前政府、金融、能源以及大型企業(yè)的首選。固態(tài)硬盤(pán)憑借其高吞吐量、低時(shí)延等特征逐漸成為大數據時(shí)代下數據存儲的重要載體,是當前本地部署的數據倉庫產(chǎn)品重要搭載硬件。
為更好應對數據密集型行業(yè)對高性能、高可靠存儲的需求,憶聯(lián)特聯(lián)合國內大數據倉儲的佼佼者——南大通用(下稱(chēng):GBase)共同探索大數據時(shí)代下數字化轉型存儲新方案。
南大通用大規模分布式并行數據庫集群系統(簡(jiǎn)稱(chēng)GBase 8a MPP Cluster),是在GBase 8a系列存儲數據庫基礎上開(kāi)發(fā)的一款Shared Nothing 架構的分布式并行數據庫集群,具備高性能、高可用、高擴展等特性,可為各種規模數據管理提供高性?xún)r(jià)比的通用計算平臺,廣泛用于支撐各類(lèi)數據倉庫系統、BI系統和決策支持系統。
圖1:GBase 8a MPP Cluster技術(shù)架構圖
GBase 8a MPP Cluster采用MPP+Shared Nothing的分布式聯(lián)邦架構,節點(diǎn)間通過(guò) TCP/IP網(wǎng)絡(luò )進(jìn)行通信,每個(gè)節點(diǎn)采用本地磁盤(pán)來(lái)存儲數據。GBase 8a MPP Cluster系統中的每一個(gè)節點(diǎn)都是相對獨立的、自給的,整個(gè)系統具有非常強的擴展性,可從幾個(gè)節點(diǎn)擴展到上百節點(diǎn),滿(mǎn)足業(yè)務(wù)規模增長(cháng)的要求。
1 驗證環(huán)境
1.1 本次驗證硬件配置
類(lèi)型 |
型號 |
硬件配置 |
備注 |
服務(wù)器 |
2U2路(X86) |
CPU:Intel? Xeon? Gold 6330 CPU@2.00GHz*2 |
3臺 |
內存:8*32GB |
|||
存儲控制器:支持RAID 5(數據盤(pán)) |
|||
網(wǎng)卡:1*2端口10GE以太網(wǎng)卡 |
|||
硬盤(pán) |
憶聯(lián)SSD |
系統盤(pán):2*480GB SATA SSD 數據盤(pán):6*3.84TB SAS SSD(UM511a) |
|
交換機 |
10GE 交換機 |
48端口10GE交換機 |
/ |
1.2 本次驗證軟件配置
類(lèi)型 |
型號 |
版本 |
備注 |
操作系統 |
redhat(x86) |
7.9 |
/ |
GBase版本 |
GBase 8a |
GBase8a_MPP_Cluster-License-9.5.3.14 |
/ |
客戶(hù)端 |
gccli |
9.5.3.14 |
/ |
數據庫壓測 |
TPC-DS |
3.2.0rc1 |
開(kāi)源 |
數據庫壓測 |
TPC-H |
3.0.0 |
開(kāi)源 |
網(wǎng)絡(luò )監控 |
SAR |
10.1.5 |
OS自帶 |
IOSTAT |
盤(pán)側IO統計 |
10.0.0 |
/ |
MPSTAT |
CPU利用 |
10.1.5 |
/ |
1.3 本次驗證組網(wǎng)規劃
圖2:本次GBase 8a MPP組網(wǎng)規劃架構圖
2 驗證方法
步驟1:將6塊SAS UM511a配置Raid5。
步驟2:創(chuàng )建數據庫和表
? 使用TPC-H工具評估數據庫分析處理能力,需要提前創(chuàng )建數據庫和TPC-H內置的8張表;
? 使用TPC-DS工具評估數據庫分析處理能力,提前創(chuàng )建數據庫和TPC-DS內置的25張表。
步驟3:參數調優(yōu)
根據GBase建議進(jìn)行相關(guān)參數調優(yōu)。
步驟4:數據生成
? TCH-H通過(guò)dbgen工具可以通過(guò)設置參數生成所需的測試數據,命令參數為/dbgen -C 10 -S 1 -s 3000 –vf;
? TPC-DS通過(guò)dsdgen工具可以通過(guò)設置參數生成所需的測試數據,命令參數為./dsdgen -scale 3000 -dir testdata -force -parallel 10 -child 1。
步驟5:數據加載
? 數據導入時(shí),在GBASE集群本地節點(diǎn)搭建FTP服務(wù)器,通過(guò)FTP加載數據。當一個(gè)表包含多個(gè)數據文件時(shí),將單表的多個(gè)數據文件集成一個(gè)導入語(yǔ)句中,以單表為粒度分別加載測試數據至8張數據庫表中。
步驟6:SQL執行
? 獨立的客戶(hù)端,通過(guò)業(yè)務(wù)平面網(wǎng)絡(luò )與GBase集群通信,使用gccli工具執行TPC-H 22個(gè)SQL用例,參考命令為/home/GBase/gccli_install/gcluster/server/bin/gccli -h 10.28.100.38 -uroot -Dtpch -vvv < query_1.sql。
3 驗證結果
本次在GBase 8a MPP場(chǎng)景下驗證結果如下:
3.1憶聯(lián)SAS SSD在Raid邏輯卷帶寬性能測試下的表現
圖3:憶聯(lián)SAS盤(pán)在Raid邏輯卷帶寬性能測試下的表現
在本次測試中,將6個(gè)SAS SSD配置Raid5,12塊SATA配置Raid50,在Server主機使用FIO測試工具進(jìn)行128KB順序讀寫(xiě)帶寬性能壓測。從圖3結果表現可知,SAS SSD讀寫(xiě)帶寬更優(yōu),讀帶寬比SATA有19.6% 左右提升,寫(xiě)帶寬提升34% 左右,展現了SAS SSD在Raid邏輯卷帶寬下的絕對優(yōu)勢。
3.2憶聯(lián)SAS SSD在單盤(pán)故障降級&重構讀性能下的表現
圖4:憶聯(lián)SAS SSD在單盤(pán)故障降級&重構讀性能下的表現
單盤(pán)降級讀性能是指RAID組在單盤(pán)故障或拔出情況下的RAID組邏輯卷讀業(yè)務(wù)性能,重構性能是指但盤(pán)故障后,RAID同時(shí)進(jìn)行熱備盤(pán)數據重構和業(yè)務(wù)下發(fā)時(shí)的業(yè)務(wù)側性能。本次通過(guò)將6塊憶聯(lián)SAS SSD配置Raid5后,在一塊SSD故障條件下進(jìn)行測試。
如圖4所示,不管是在單盤(pán)降級讀性能還是在重構讀帶寬條件下,SAS盤(pán)的表現都優(yōu)于SATA,單盤(pán)降級讀性能優(yōu)于SATA 22.7% 左右,重構讀帶寬性能上比SATA最大有38.4% 左右的提升。
3.3憶聯(lián)SAS SSD在TPC-DS場(chǎng)景下的表現
圖5:TPC-DS場(chǎng)景下憶聯(lián)SAS SSD的表現
TPC-DS測試是通過(guò)FTP協(xié)議加載數據到GBase數據庫表。從圖5可見(jiàn),在相同物理硬件環(huán)境下,SAS SSD不管是在數據導入還是在SQL用例執行時(shí)間上所用時(shí)間都略低于SATA SSD,具備一定時(shí)間優(yōu)勢。
3.4 憶聯(lián)SAS SSD在TCP-H場(chǎng)景下的表現
圖6: TPC-H場(chǎng)景下憶聯(lián)SAS SSD的表現
TPC-H測試是通過(guò)FTP協(xié)議加載數據到GBase數據庫表。圖6展現了SAS SSD以及SATA SSD在TPC-H測試下的表現,其中SAS SSD總用時(shí)略?xún)?yōu)于SATA SSD ,數據導入時(shí)間優(yōu)于SATA約6% ,對SQL用例執行時(shí)間上相比SATA SSD降低了3% 左右。
本次驗證可充分體現憶聯(lián)SAS SSD 在GBase 8a MPP場(chǎng)景下的性能優(yōu)勢,SAS SSD可有效支持業(yè)務(wù)高效開(kāi)展,具備單盤(pán)帶寬更高,盤(pán)故障重構、降級性能更優(yōu)等優(yōu)勢,不僅可以幫助企業(yè)節約硬件采購成本,也可解決海量數據下的大數據存儲和計算問(wèn)題,高效處理海量結構化數據。
憶聯(lián)深耕固態(tài)硬盤(pán)領(lǐng)域多年,已發(fā)布多款高性能、高可靠產(chǎn)品,具備應對復雜的業(yè)務(wù)環(huán)境和數據庫挑戰的能力,可滿(mǎn)足行業(yè)用戶(hù)海量數據處理需求。憶聯(lián)將持續聯(lián)合GBase共同打造數字化轉型背景下的存儲新方案。
地址:深圳市南山區記憶科技后海中心B座19樓
電話(huà):0755-2681 3300
郵箱:support@unionmem.com