Bladed是一個(gè)用于風(fēng)力發(fā)電機(jī)組性能和載荷仿真計(jì)算的建模工具,全球大型風(fēng)力機(jī)制造商約有半數(shù)采用該軟件。
在風(fēng)力發(fā)電機(jī)組的各個(gè)設(shè)計(jì)階段,優(yōu)化設(shè)計(jì)都是重中之重。如果不能正確地對(duì)載荷、惡劣環(huán)境和結(jié)構(gòu)完整性進(jìn)行建模,或不能執(zhí)行準(zhǔn)確試驗(yàn),都可能會(huì)極大地危害機(jī)組長(zhǎng)期的安全性、功能性和盈利能力。
風(fēng)力機(jī)設(shè)計(jì)項(xiàng)目經(jīng)常需要進(jìn)行大量仿真計(jì)算,一組仿真計(jì)算耗費(fèi)數(shù)千小時(shí)的計(jì)算機(jī)時(shí)。
一方面,算力在總量和項(xiàng)目波峰波谷期的彈性供應(yīng)上能否滿足需求。充足的算力意味著縮短產(chǎn)品上市時(shí)間,拉大市場(chǎng)優(yōu)勢(shì)。
另一方面,超大規(guī)模算力的調(diào)度使用和企業(yè)場(chǎng)景的復(fù)雜性帶來(lái)的管理等問(wèn)題對(duì)IT自動(dòng)化和智能化要求很高。如何調(diào)度超大規(guī)模集群的過(guò)程,還有其中隱藏的成本優(yōu)化問(wèn)題,其實(shí)很多。
怎么解決這些問(wèn)題?
我們拿實(shí)證說(shuō)話。
實(shí)證背景信息
某風(fēng)電新能源集團(tuán)建設(shè)有本地機(jī)房,但機(jī)器較陳舊,資源有限。跑Bladed仿真任務(wù)計(jì)算周期長(zhǎng),特別是有大型仿真任務(wù)時(shí),往往需要數(shù)周甚至數(shù)月才能出結(jié)果。
用戶要求將跑大型任務(wù)的時(shí)間縮短到一天以內(nèi),同時(shí)能夠?qū)θ蝿?wù)進(jìn)行管理和監(jiān)控。
實(shí)證目標(biāo)
1. Bladed任務(wù)能否在云端有效運(yùn)行?
2. fastone平臺(tái)能否將大規(guī)模Bladed仿真任務(wù)周期縮短到一天?
3. fastone平臺(tái)能否提供高效靈活的數(shù)據(jù)傳輸方案?
4. fastone平臺(tái)能否提供有效的任務(wù)管理和監(jiān)控?
實(shí)證參數(shù)
平臺(tái):
fastone企業(yè)版產(chǎn)品
應(yīng)用:
Bladed 4.10版
操作系統(tǒng):
Bladed 4.10之前的版本不支持Linux系統(tǒng),只支持Windows。
本次實(shí)證由于用戶更熟悉Windows操作系統(tǒng),所以并未選擇Linux鏡像。
主流云廠商對(duì)不同操作系統(tǒng)鏡像有不同的定價(jià)方式。整體上來(lái)說(shuō),通過(guò)Windows系統(tǒng)使用云資源價(jià)格比Linux系統(tǒng)要貴。

適用場(chǎng)景:
構(gòu)建風(fēng)力發(fā)電機(jī)性能模型,運(yùn)行仿真計(jì)算并處理結(jié)果,為工程師提供有關(guān)風(fēng)力機(jī)動(dòng)力學(xué)和優(yōu)化的重要決策信息。
License配置:
Bladed License Server設(shè)置在云端。
云端硬件配置:
Bladed是一個(gè)計(jì)算密集型應(yīng)用,對(duì)CPU要求高、內(nèi)存要求不大,因此平臺(tái)為用戶推薦選擇了滿足其應(yīng)用特點(diǎn)的計(jì)算優(yōu)化型實(shí)例機(jī)型。
調(diào)度器:
因?yàn)檫x擇了Windows操作系統(tǒng),所以本實(shí)證中集群調(diào)度使用的是PBS調(diào)度器。
技術(shù)架構(gòu)圖:
用戶通過(guò)Web方式登錄構(gòu)建于公有云上的fastone算力運(yùn)營(yíng)平臺(tái),根據(jù)實(shí)際計(jì)算需求自動(dòng)創(chuàng)建、銷(xiāo)毀集群,提交計(jì)算任務(wù),上傳下載任務(wù),監(jiān)控管理。
用戶通過(guò)NAT方式訪問(wèn)位于公網(wǎng)的License服務(wù)器。
用戶通過(guò)VPN接入,可更安全地訪問(wèn)云上私密的HPC環(huán)境。

實(shí)證場(chǎng)景一:大規(guī)模業(yè)務(wù)驗(yàn)證
9600個(gè)用例
----------------------------------------------------
本地VS云端300核
結(jié)論:
1. 云端可提供滿足Bladed應(yīng)用特點(diǎn)的機(jī)型,運(yùn)行Bladed Windows版本的任務(wù);
2. 本地資源運(yùn)算9600個(gè)用例,耗時(shí)約4天;通過(guò)fastone平臺(tái)調(diào)用300核計(jì)算優(yōu)化型實(shí)例運(yùn)算9600個(gè)用例,總耗時(shí)約8小時(shí),任務(wù)運(yùn)行時(shí)間7小時(shí);
3. fastone平臺(tái)的自動(dòng)化伸縮,有效降低整個(gè)計(jì)算周期資源占用率;
4. fastone平臺(tái)能提供靈活高效的數(shù)據(jù)傳輸方案,滿足計(jì)算數(shù)據(jù)量大需求;
5. fastone平臺(tái)可穩(wěn)定運(yùn)行Bladed任務(wù)、測(cè)試過(guò)程中未發(fā)生服務(wù)中斷;
6. fastone平臺(tái)可監(jiān)控、管理任務(wù)與集群的運(yùn)行情況。

實(shí)證過(guò)程:
- 數(shù)據(jù)上傳:用戶將Bladed風(fēng)文件、工況文件等上傳至fastone平臺(tái);
- 數(shù)據(jù)處理:自動(dòng)下載、解壓數(shù)據(jù),修改配置;
- 自動(dòng)可擴(kuò)展集群?jiǎn)?dòng):用戶選擇Bladed 應(yīng)用,按需構(gòu)建300個(gè)核的Bladed集群;
- 任務(wù)運(yùn)行:提交任務(wù)后,用戶可隨時(shí)在監(jiān)控界面查看任務(wù)和集群運(yùn)行情況;
- 結(jié)果數(shù)據(jù)上傳:任務(wù)運(yùn)行成功后,自動(dòng)將結(jié)果數(shù)據(jù)上傳至對(duì)象存儲(chǔ)供用戶下載。

數(shù)據(jù)傳輸優(yōu)化:
Bladed的風(fēng)文件和任務(wù)文件數(shù)據(jù)量極大,傳統(tǒng)傳輸模式往往會(huì)面臨以下問(wèn)題:
1、初始化大文件傳輸。在本實(shí)證中,用戶在跑任務(wù)之前需要上傳多達(dá)數(shù)百GiB的風(fēng)文件;
2、隨著任務(wù)的調(diào)整,有大量小文件需要增量上傳。在本實(shí)證中,用戶需要上傳9600個(gè)任務(wù)文件,每個(gè)幾十MiB不等。
fastone支持全自動(dòng)化數(shù)據(jù)上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數(shù)據(jù)。同時(shí),利用fastone自主研發(fā)的分段上傳、高并發(fā)、斷點(diǎn)續(xù)傳等數(shù)據(jù)傳輸技術(shù),優(yōu)化海量數(shù)據(jù)的傳輸效率。
自動(dòng)化部署:
在手動(dòng)模式下,通常都是先構(gòu)建一個(gè)固定規(guī)模的集群,然后提交任務(wù),全部任務(wù)結(jié)束后,關(guān)閉集群。在本實(shí)證中,如果是手動(dòng)部署,300核的集群一旦拉起,第一到第五步手動(dòng)配置的時(shí)間里,所有機(jī)器一直都是開(kāi)啟狀態(tài),也就是說(shuō),燒錢(qián)中。
更詳盡的涉云成本計(jì)算,可參考:幫助CXO解惑上云成本的迷思,看這篇就夠了
再看看我們的自動(dòng)化部署:
在本實(shí)證中,fastone平臺(tái)在任務(wù)的不同階段采取不同的策略應(yīng)對(duì),除任務(wù)運(yùn)行的7小時(shí)內(nèi)有300核云資源滿負(fù)荷運(yùn)作以外,在數(shù)據(jù)處理和結(jié)果數(shù)據(jù)上傳階段均只開(kāi)啟了1-2臺(tái)機(jī)器,而其他準(zhǔn)備過(guò)程不需要開(kāi)啟機(jī)器。
很重要的一點(diǎn)是:任務(wù)完成后會(huì)及時(shí)下載結(jié)果并自動(dòng)關(guān)機(jī)。

fastone的Auto-Scale功能可以自動(dòng)監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動(dòng)態(tài)按需地開(kāi)啟所需算力資源,在提升效率的同時(shí)有效降低成本。
用戶可根據(jù)自己需求,設(shè)置自動(dòng)化調(diào)度集群規(guī)模上下限。
- 所有操作都是自動(dòng)化完成,無(wú)需用戶干預(yù);
- 在實(shí)際開(kāi)機(jī)過(guò)程中,可能遇到云在某個(gè)可用區(qū)資源不足的情況,fastone會(huì)自動(dòng)嘗試從別的區(qū)域開(kāi)啟資源;
- 如果需要的資源確實(shí)不夠,又急需算力完成任務(wù),用戶還可以從fastone界面選擇配置接近的實(shí)例類(lèi)型來(lái)補(bǔ)充。

詳細(xì)分解手動(dòng)模式 VS 自動(dòng)部署,看這里:EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?
任務(wù)和集群管理:
提交任務(wù)后,可以在監(jiān)控界面中查看任務(wù)和集群運(yùn)行情況。

實(shí)證場(chǎng)景二:云端線性擴(kuò)展驗(yàn)證
9600個(gè)用例
---------------------------------------------------------
云端300核 VS 3000核
Bladed應(yīng)用具備線性擴(kuò)展性。
當(dāng)我們把自動(dòng)化調(diào)度集群規(guī)模上限設(shè)為3000核,任務(wù)運(yùn)行時(shí)間從7小時(shí)縮短到45分鐘,整體計(jì)算周期也從8小時(shí)縮短至1.75小時(shí)。

實(shí)證過(guò)程:

本實(shí)證中,單個(gè)任務(wù)運(yùn)行時(shí)間為10-30分鐘,當(dāng)有任務(wù)提前運(yùn)行完成且數(shù)據(jù)下載完后,相應(yīng)的機(jī)器會(huì)自動(dòng)關(guān)閉,避免資源浪費(fèi)。
實(shí)證小結(jié)
最后我們回顧一下實(shí)證目標(biāo):
1. Bladed Windows版本任務(wù)在云端能夠有效運(yùn)行;
2. fastone平臺(tái)成功將大規(guī)模Bladed仿真任務(wù)的運(yùn)算時(shí)間從4天縮短到1~7小時(shí);
3. fastone平臺(tái)能夠提供靈活高效的數(shù)據(jù)傳輸方案;
4. fastone平臺(tái)能夠提供可靠的任務(wù)管理和監(jiān)控。
除了Windows系統(tǒng),我們還支持通過(guò)fastone平臺(tái)同時(shí)調(diào)度任務(wù)至本地和云上的Windows節(jié)點(diǎn)和Linux節(jié)點(diǎn),滿足業(yè)務(wù)需求。同時(shí),我們也支持SLURM/SGE/LSF等主流調(diào)度器,本次實(shí)證未曾涉及。
本次CAE行業(yè)Cloud HPC實(shí)證系列Vol.2就到這里了。
在下一期的實(shí)證中,我們將利用速石平臺(tái),在混合云場(chǎng)景下調(diào)度集群運(yùn)行CAE分析,使LS-DYNA模擬性能得到極大提升。
未來(lái)我們還會(huì)帶給大家更多領(lǐng)域的用云“真香”實(shí)證,請(qǐng)保持關(guān)注哦!
- END -
2分鐘自動(dòng)開(kāi)通,即刻獲得TOP500超級(jí)算力
點(diǎn)擊下圖立即體驗(yàn)

2020年新版《六大云廠商資源價(jià)格對(duì)比工具包》
添加小F微信(ID: imfastone)獲取
你也許想了解具體的落地場(chǎng)景:
2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領(lǐng)域年均復(fù)合增長(zhǎng)率超21%
EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?
15小時(shí)虛擬篩選10億分子,《Nature》+HMS驗(yàn)證云端新藥研發(fā)未來(lái)
關(guān)于云端高性能計(jì)算平臺(tái):
國(guó)內(nèi)超算發(fā)展近40年,終于遇到了一個(gè)像樣的對(duì)手
幫助CXO解惑上云成本的迷思,看這篇就夠了
靈魂畫(huà)師,在線科普多云平臺(tái)/CMP云管平臺(tái)/中間件/虛擬化/容器是個(gè)啥
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500