[中國(guó),北京,2013年12月16日] 全球領(lǐng)先的信息與通信解決方案供應(yīng)商華為今日宣布,中央研究院香農(nóng)實(shí)驗(yàn)室在2013Hadoop中國(guó)技術(shù)峰會(huì)(China Hadoop Summit 2013)上提出業(yè)界首創(chuàng)的HIMM (Hybrid Iterative Matrix Multiplication) 模型。使用該模型表達(dá)的圖數(shù)據(jù)挖掘算法能夠獲得10倍的性能提升,這對(duì)于大數(shù)據(jù)處理的實(shí)時(shí)性具有重要意義。
Hadoop中國(guó)技術(shù)峰會(huì)于2013年11月23日在北京圓滿(mǎn)落幕。作為本年度大中華地區(qū)規(guī)模最大的Hadoop技術(shù)峰會(huì),本屆大會(huì)的主題是“掘金大數(shù)據(jù)”。 華為香農(nóng)實(shí)驗(yàn)室的首席研究員顏友亮發(fā)表了“HiGraph:一種面向圖計(jì)算的領(lǐng)域編程語(yǔ)言”的演講,介紹了華為香農(nóng)實(shí)驗(yàn)室在圖計(jì)算以及Spark(Berkeley AMP Lab開(kāi)發(fā)的一種基于內(nèi)存計(jì)算的并行計(jì)算框架)上所取得的研究成果。
“大數(shù)據(jù)時(shí)代的一個(gè)重要方面就是圖的規(guī)模越來(lái)越大。”顏友亮說(shuō),“Facebook人際關(guān)系網(wǎng),包含頂點(diǎn)數(shù)目超過(guò)10億。其他網(wǎng)絡(luò)的規(guī)模也在數(shù)千萬(wàn)頂點(diǎn)左右。這使得這些圖上的大量應(yīng)用,例如好友推薦、尋找最短路徑等無(wú)法準(zhǔn)實(shí)時(shí)地得到結(jié)果。”
華為香農(nóng)實(shí)驗(yàn)室提出業(yè)界首創(chuàng)的HIMM模型,與傳統(tǒng)圖計(jì)算模型相比,具有操作更簡(jiǎn)單,接口更實(shí)用,編程更輕松等優(yōu)點(diǎn)。算法開(kāi)發(fā)者使用了HIMM模型,不僅可以用矩陣的方式來(lái)表達(dá)圖結(jié)構(gòu),而且還可以用自定義的矩陣運(yùn)算來(lái)表達(dá)圖上的各種操作,并通過(guò)提供一整套圖計(jì)算算子來(lái)實(shí)現(xiàn)高效的并行圖算法。在底層框架上,基于HIMM的圖計(jì)算框架HiGraph會(huì)根據(jù)不同的硬件環(huán)境實(shí)現(xiàn)有針對(duì)性的一些優(yōu)化措施,使得HiGraph的性能相比于業(yè)界獲得顯著提升。通過(guò)測(cè)試Pagerank和單源最短路徑的算法,結(jié)果顯示:在集群環(huán)境模式下,HiGraph借助Spark在迭代計(jì)算上的優(yōu)勢(shì),相比其他的解決方案如Bagel和Giraph,HiGraph的性能提高3倍到20倍;在單機(jī)環(huán)境模式下,HiGraph充分利用了多核的并行處理能力,實(shí)現(xiàn)最大化的并行加速設(shè)計(jì),使得在業(yè)界開(kāi)源方案的性能上獲得了至少10倍的提升。
“我們的HiGraph性能比業(yè)界高出了一個(gè)數(shù)量級(jí),能夠在秒級(jí)完成PageRank、單源最短路徑等算法,完全能夠勝任大數(shù)據(jù)處理實(shí)時(shí)性的要求。”顏友亮說(shuō)道。
HIMM模型與HiGraph框架對(duì)于完善香農(nóng)實(shí)驗(yàn)室在高性能計(jì)算研究的布局具有重要意義。華為香農(nóng)實(shí)驗(yàn)室也將繼續(xù)在圖計(jì)算領(lǐng)域和Spark框架上發(fā)力,并進(jìn)一步完善HiGraph,為華為的大數(shù)據(jù)研究提供了堅(jiān)實(shí)基礎(chǔ),助力華為更好地進(jìn)駐大數(shù)據(jù)領(lǐng)域。