http://www.kadhoai.com.cn 2026-04-08 01:49:21 來源:中國計算機報

近年來每年上億元的IT建設資金投入,讓中石油東方地球物理公司研究院(BGP)的高性能計算(HPC)部署規模迅速擴大。據該研究院副總工程師兼處理中心總工程師賴能和介紹,BGP的計算機規模已達到28014個核,運算能力為230T,存儲也有3600 TB,整裝、規模化軟硬件資源,為保證處理周期、及時提交成果提供了很好的保障。“這三年來,各油田的HPC都發展得很快,基本上達到了一定規模。”賴能和說。
這個被稱為“給地球做CT”的石油物探行業在商用HPC應用中相對成熟,對前沿技術的接受程度也很高。然而,也正是因為成熟,石油行業對於HPC的未來思考也就更為深入。未來石油業的HPC發展要抓住哪些大的技術趨勢,以適應地震資料成像應用的快速發展?上規模後的軟硬件資源又該如何進行科學化管理?
平衡的思維
BGP曾經為大港油田的3200平方米的地區做過模擬,投入近1萬顆CPU計算,7tianjiuwanchenglerenwu,erzaijinianqian,zheyangdexiaolvjihushibukexiangxiangde。duiyuwutanbumenlaishuo,yingjiantigongdeshijichunenglizhicheng,ruanjianyingyongzeshizhijiejuedingchanchudeguanjian。
客觀地說,同樣是“做CT”,但最後片子的成像質量會有不同,差別在於算法。算法的發展是從二維向三維、從聲波向彈性波發展。“我們的偏移方法從常規疊後、積分化的時間偏移到了現在的單層波振動偏移,與國外相比還有差距。我們正在實驗雙層波,再下一步才是彈性波。”賴能和說。相應地,地震資料處理模型演進,對計算平台資源的需求呈急劇增長趨勢。
英特爾軟件與服務集團高性能計算及工作站應用總監Paresh Pattani指出:“石油行業用戶不但要考慮軟件在多核上麵的性能,還要看到將來在眾核、在異構多核上的發展。”同時,在係統需求方麵,用戶也應從平衡的角度出發,考慮單位麵積投資的性能、每瓦性能,要考慮到係統能不能適應未來的係統架構……這一切都需要一個平衡係統。“地震資料處理的算法逐步發展,對計算能力提出高要求的不僅僅是CPU性能,還包括內存、帶寬、I/O、互聯,這一切都是需要共同平衡發展的性能。”Paresh Pattani說。
為了確保設計的均衡性,英特爾在高性能計算上其實做了很多方麵的工作,不僅在處理器和服務器平台上,在軟件工具、互聯,甚至數據中心設計方麵,也都有相應的資源投入。其中,軟件方麵的支持,對於發揮平台潛能起著關鍵作用。Paresh Pattani表示:“在我們的多核到眾核,再到將來異構核發展的藍圖裏,我們希望軟件的發展能始終向後兼容,不需要用戶再次投資,將原有積累打破。” 這樣做的好處,在Larrabee問世後就可以感受得到。
作為平台廠商,英特爾的軟硬件先天就具有相互優化的優勢,比如在後續路線圖中,SSE擴展的下一代產品AVX現在已經獲得支持,它可以更好地支持通用的向量計算。Paresh Pattani估計,在HPC領域,尤其是在用到大量向量運算的結構力學、航天航空、地震資料處理方麵,收益將達到10%以(yi)上(shang)。為(wei)了(le)充(chong)分(fen)釋(shi)放(fang)多(duo)核(he)潛(qian)能(neng),英(ying)特(te)爾(er)提(ti)供(gong)了(le)相(xiang)應(ying)工(gong)具(ju),以(yi)實(shi)現(xian)更(geng)高(gao)程(cheng)度(du)的(de)並(bing)行(xing)化(hua)。在(zai)中(zhong)國(guo),由(you)何(he)萬(wan)青(qing)博(bo)士(shi)領(ling)導(dao)的(de)英(ying)特(te)爾(er)支(zhi)持(chi)團(tuan)隊(dui),就(jiu)為(wei)HPC用戶做了大量優化工作,幫助用戶改進MPI應用,最大程度地提高應用效率。
可預期的平台演進
從硬件平台來說,高性能計算對硬件平台的需求主要聚焦於浮點性能、內存帶寬和I/O。基於Nehalem架構的英特爾至強5500處理器正因在這三方麵的出色表現,走進越來越多的石油用戶的機房。“從技術架構和實際表現來看,至強5500平台不僅麵向今天的需求,還麵向未來地震資料處理模型對計算資源、I/O資源、內存帶寬的需求。”英特爾服務器平台產品經理顧凡表示。
從技術角度來看,至強5500通過架構改進,無疑在浮點計算方麵取得了更大突破,AVX加速了這一進程。而同時,在與內存帶寬及I/O帶寬的平衡搭配方麵,也因為其技術的先進性得到了充分發揮。顧凡介紹說,在內存帶寬方麵,引入QPI之前,英特爾從單條前端總線到兩條獨立總線,再到把每條總線的主頻提升到1600MHz,直到Nehalem架構去除前端總線,代之以點對點串行總線,充分釋放CPU性能。“QPI是一個標誌性的時間點,未來的QPI會向下一代繼續演進,提高QPI帶寬,增加QPI可支持的串行連接數量。”在I/O方麵,PCI-E的演進仍在繼續,預計在2011年左右,第三代PCI-E也將麵世,保證I/O的通道暢通。而SSD的推廣使用,無論是替代內存、硬盤或是作為啟動硬盤,也都會在I/O方麵帶來巨大提升。
油藏模擬、地震資料處理等應用對內存帶寬的依賴都非常大。對於內存帶寬敏感型的應用來說,至強5500相比前代的性能提升接近2倍,甚至2.5倍。“為什麼說至強5500也能滿足未來需求呢?我們目前采用的地震資料處理模型也許提升幅度不一定達到兩倍,約為在30%~40%。但當模型向前演進後,內存帶寬一定是重中之重。至強5500會持續帶來性能提升。”顧凡說。
科學地管理好資源
快速擴大規模之後,軟硬件資源管理成為擺在石油行業用戶麵前的一道難題。在這方麵,BGP以數字化手段進行集中管理,成為行業標杆。“過去我們管理一二百個CPU很容易,現在是幾萬顆CPU,按照過去的方式管理就會出問題。計算機機房達到一定規模後,我們的生產和設備的安全問題也無法得到保障,究竟怎麼管理?”賴能和道出了這樣做的初衷。
困難還不止於此,軟件相對跟不上造成應用效率比較低,這又連帶造成了大規模投資。後來BGP意識到,持續通過硬件擴充來增加產值並非高明的策略。這會造成折舊非常驚人。“BGP 在2008年折舊費達到1.2億元,全年電費又是1100多萬元,我們的運作壓力非常大。” 賴能和牽頭開發了一整套數字化管理係統,來解決這樣的難題。
據介紹,BGP共gong開kai發fa了le四si套tao係xi統tong,對dui機ji房fang實shi現xian了le全quan麵mian管guan理li。一yi是shi用yong數shu字zi化hua管guan理li平ping台tai管guan理li所suo有you生sheng產chan項xiang目mu,項xiang目mu進jin度du和he所suo用yong資zi源yuan都dou一yi目mu了le然ran,每mei個ge項xiang目mu運yun作zuo的de每mei個ge階jie段duan用yong了le多duo少shao成cheng本ben,很hen容rong易yi進jin行xing統tong計ji。二er是shi開kai發faCPU資(zi)源(yuan)管(guan)理(li)平(ping)台(tai),對(dui)集(ji)群(qun)實(shi)行(xing)統(tong)一(yi)協(xie)調(tiao)管(guan)理(li),在(zai)一(yi)個(ge)板(ban)麵(mian)上(shang)可(ke)以(yi)實(shi)時(shi)監(jian)控(kong)到(dao)一(yi)百(bai)多(duo)個(ge)機(ji)櫃(gui)的(de)運(yun)行(xing)狀(zhuang)況(kuang),再(zai)加(jia)上(shang)視(shi)頻(pin)會(hui)議(yi)係(xi)統(tong),就(jiu)可(ke)以(yi)實(shi)現(xian)前(qian)後(hou)方(fang)遠(yuan)程(cheng)質(zhi)量(liang)監(jian)控(kong)專(zhuan)家(jia)協(xie)同(tong)工(gong)作(zuo),軟(ruan)硬(ying)件(jian)技(ji)術(shu)支(zhi)持(chi)和(he)係(xi)統(tong)維(wei)護(hu)。三(san)是(shi)開(kai)發(fa)存(cun)儲(chu)和(he)網(wang)絡(luo)管(guan)理(li)平(ping)台(tai),實(shi)現(xian)所(suo)有(you)存(cun)儲(chu)資(zi)源(yuan)的(de)遠(yuan)程(cheng)集(ji)中(zhong)監(jian)控(kong)。四(si)是(shi)開(kai)發(fa)UPS空調配電實時監控軟件,確保設備安全。
不僅如此,BGP還致力於提高數據中心的效能。他們不僅采用最新的節能設備,在基礎建設方麵也下足了功夫,如水冷技術、風道節能設計。在計算設備上,BGP最大的一筆開支節省是借助開發的自適應節能軟件。“用這個軟件動態調整服務器狀態,節能達到25%左右。一萬顆CPU一年