新聞中心
11月9日,阿里巴巴宣布將開源一站式超大規(guī)模分布式圖計算平臺GraphScope。GraphScope項目組告訴DeepTech,12月將開源1.0版本,希望在易編程、高性能和一站式三個方面,解決全球圖計算領(lǐng)域主要研發(fā)瓶頸。

阿里巴巴以自有超大規(guī)模商業(yè)場景,和達(dá)摩院智能計算研究為基礎(chǔ),自研了交互式圖查詢引擎、高性能圖分析引擎和圖深度學(xué)習(xí)引擎及相關(guān)開發(fā)者生態(tài)工具和集成。各個引擎的核心能力由GraphScope整合。
同日,中國科協(xié)、中國科學(xué)院、中國工程院主辦的世界科技與發(fā)展論壇上,GraphScope被列為重要科技發(fā)布之一。正在進(jìn)行的雙11中,以GraphScope為底層框架的圖計算網(wǎng)絡(luò),也正在搜索推薦、智能風(fēng)控等核心場景發(fā)揮作用。
今年疫情期間,基于GraphScope的大規(guī)模因果圖推理,還幫助自動識別和預(yù)測了影響航線價格浮動及機(jī)場中轉(zhuǎn)變化的關(guān)鍵因素,克服了傳統(tǒng)深度學(xué)習(xí)的黑盒缺點,讓AI知其然、更知其所以然。
GraphScope項目總負(fù)責(zé)人、阿里巴巴集團(tuán)資深副總裁周靖人認(rèn)為,圖結(jié)構(gòu)數(shù)據(jù)是各種實體關(guān)聯(lián)關(guān)系的一種自然表達(dá),只有高效理解這些實體概念之間的廣泛聯(lián)系,才能讓數(shù)字智能技術(shù)進(jìn)一步賦能實體產(chǎn)業(yè)。
圖計算仍然面臨三大挑戰(zhàn)
1735年瑞士數(shù)學(xué)家萊昂哈德·歐拉面對的柯尼斯堡七橋問題,可能是最早的圖計算命題。而現(xiàn)代圖計算問題則復(fù)雜數(shù)千倍,圖計算性能近年來已經(jīng)進(jìn)步的數(shù)10倍,但仍然存在三個大規(guī)模應(yīng)用挑戰(zhàn):一是相關(guān)領(lǐng)域問題復(fù)雜,計算模式多樣,大量解決方案碎片化;二是學(xué)習(xí)難度大,對于非專業(yè)編程人士門檻很高;三是跨域數(shù)據(jù)量大、計算效率仍然偏低。
傳統(tǒng)的機(jī)器學(xué)習(xí)計算框架在解決時間序列數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(如視頻)已經(jīng)比較高效。但對于相對比較稀疏、高維度的關(guān)聯(lián)數(shù)據(jù),則需要圖計算性能、架構(gòu)和平臺的持續(xù)進(jìn)步。
若把中國484.65萬公里的公路組成一個巨大的迷宮,運用GraphScope可在一毫秒內(nèi)跑完所有的岔路。
“GraphScope提供了一站式的友好的編程環(huán)境 ,它不僅支持多種核心的圖計算范式和它們之間高效的數(shù)據(jù)交換,提供了面向Python接口的單機(jī)抽象,從而屏蔽了大規(guī)模分布式計算的系統(tǒng)復(fù)雜性。”阿里巴巴資深專家、GraphScope團(tuán)隊成員錢正平告訴DeepTech。
通俗來說,圖是一個由點和邊構(gòu)成的數(shù)學(xué)模型,能夠非常容易地表達(dá)實體和數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)。與阿里巴巴諸多技術(shù)開源項目類似,GraphScope來源于阿里巴巴集團(tuán)內(nèi)豐富的圖場景與真實應(yīng)用對于大規(guī)模圖計算提出的需求。比如電商的知識圖譜構(gòu)建、風(fēng)險控制、阿里云網(wǎng)絡(luò)安全、商品的搜索推薦和廣告等。正在進(jìn)行的雙11中,圖計算也在商品推薦、智能物流和網(wǎng)絡(luò)安全等方面發(fā)揮著重要作用。
“圖模型可以很自然表達(dá)這些領(lǐng)域中數(shù)據(jù)間的復(fù)雜關(guān)聯(lián)與結(jié)構(gòu)特征。利用這些特征往往可以增強(qiáng)大數(shù)據(jù)分析的效果,為用戶提供更精準(zhǔn)和可靠的信息?!卞X正平告訴DeepTech。
三大引擎支撐GraphScope
DeepTech獨家獲得資料顯示,GraphScope開源項目的核心引擎主要有三駕馬車:實時交互式圖查詢引擎、高性能圖分析引擎、可擴(kuò)展的圖深度學(xué)習(xí)引擎。
1)交互式圖查詢引擎:實時圖計算賦能行業(yè)革新
“深入理解圖數(shù)據(jù)”是在多樣化場景中有效利用圖計算,挖掘深層洞察和創(chuàng)造新數(shù)據(jù)價值的必要前提。為此,商業(yè)用戶及領(lǐng)域?qū)<彝枰诮换ナ江h(huán)境中,高效的探索和展現(xiàn)圖數(shù)據(jù)。
GraphScope利用了高層聲明式圖查詢語言—Gremlin,讓領(lǐng)域?qū)<液头怯嬎銠C(jī)專業(yè)用戶都可以簡潔的表達(dá)復(fù)雜圖遍歷模式。同時,還提供了“業(yè)界第一個自動并行化Gremlin執(zhí)行引擎”,讓大規(guī)模、分布式環(huán)境中對圖的復(fù)雜遍歷所涉及的內(nèi)存管理與動態(tài)策略優(yōu)化等系統(tǒng)難題得以向用戶隱藏。
GraphScope能夠降低使用門檻,促使圖計算人人可用,這方面具體體現(xiàn)在能夠促進(jìn)與更多行業(yè)領(lǐng)域?qū)<业纳疃群献?,讓他們能夠其領(lǐng)域知識跟圖計算本身系統(tǒng)能力結(jié)合起來,在更多行業(yè)實現(xiàn)技術(shù)革新。
錢正平告訴DeepTech:“在海量數(shù)據(jù)的計算上,相比已有圖上的交互式分析工具,我們希望GraphScope能提供至少一個數(shù)量級的性能(即查詢延時)優(yōu)勢,讓很多大規(guī)模的應(yīng)用從不可能變成可能,而這種性能的量變能夠觸發(fā)業(yè)務(wù)效果的質(zhì)變?!?/p>
2)高性能圖分析引擎:讓大規(guī)模圖計算人人可用
除了交互式的圖計算場景,圖分析也是大數(shù)據(jù)圖計算的重要一環(huán)?,F(xiàn)實世界中的各種實體間關(guān)系、線上線下的各種交互場景,如社交媒體網(wǎng)絡(luò),化學(xué)結(jié)構(gòu),蛋白質(zhì)相互作用網(wǎng)絡(luò)、知識圖譜、交通網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、供應(yīng)鏈與交易網(wǎng)絡(luò)等,都廣泛用到了大規(guī)模圖分析。
GraphScope團(tuán)隊研發(fā)了一個基于不動點計算的大規(guī)模分布式圖計算引擎。它擴(kuò)展自局部計算-增量計算的不動點計算理論。在分布式環(huán)境中,各計算節(jié)點在初始輪根據(jù)自身持有的數(shù)據(jù)進(jìn)行局部計算,之后通過幾輪信息交換,每一輪都將來自別的計算節(jié)點信息作為更新,觸發(fā)增量計算,一直到系統(tǒng)穩(wěn)定時計算結(jié)束。該過程經(jīng)過嚴(yán)謹(jǐn)?shù)睦碚撟C明,保證在前提條件滿足下,該分析引擎具有終止性和準(zhǔn)確性。
該引擎支持了阿里巴巴內(nèi)部20多種業(yè)務(wù),相對原有方案體現(xiàn)了十分顯著的性能提升效果,在一些業(yè)務(wù)上獲得2-3個數(shù)量級的性能提升。此外,該分析引擎還支撐了雙十一智能風(fēng)控、新春五福紅包發(fā)放等重點場景,經(jīng)受了海量數(shù)據(jù)和瞬時峰值的實戰(zhàn)考驗。
3)高性能、可擴(kuò)展的圖深度學(xué)習(xí)
圖引擎的應(yīng)用已經(jīng)延伸到了人工智能領(lǐng)域,融合了圖計算和深度學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)(GNN)更是成為了當(dāng)下AI領(lǐng)域中非常熱門的子領(lǐng)域,被研究者給予了很高的期待。圖結(jié)構(gòu)可以表達(dá)人類知識體系和現(xiàn)實生產(chǎn)生活中的復(fù)雜關(guān)系,從而在一切皆向量的深度學(xué)習(xí)中融入了知識和結(jié)構(gòu),使得深度學(xué)習(xí)由感知學(xué)習(xí)邁向認(rèn)知學(xué)習(xí)。
GNN算法從開發(fā)到工業(yè)化落地,仍然處在快速發(fā)展和迭代的階段。應(yīng)用場景的拓寬、算法理論的變化、編程范式的變化都可能帶來平臺的變化甚至顛覆。
GraphScope通過整合上述三個核心組件,提供了一站式圖計算的處理能力。同時,GraphScope通過生態(tài)豐富、語義靈活的Python編程接口,將多樣化的圖操作無縫集成。通過開發(fā)者本地的一個Python腳本,就可以實現(xiàn)對集群中海量圖數(shù)據(jù)的Gremlin交互查詢、圖分析算法調(diào)用和進(jìn)行圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練等等。此外,GraphScope還利用阿里已經(jīng)開源的Vineyard項目,實現(xiàn)了上述操作之間高效的全內(nèi)存中間結(jié)果數(shù)據(jù)交換,進(jìn)一度提高應(yīng)用流水線端到端的效率。
在世界科技與發(fā)展論壇上,阿里巴巴認(rèn)為,隨著GraphScope開源多個提升智能技術(shù)底層能力的突破,未來可對標(biāo)以TensorFlow和Hadoop為代表的人工智能底層計算架構(gòu),助益全球數(shù)字經(jīng)濟(jì)加快發(fā)展。
錢正平預(yù)計,“GraphScope與TensorFlow等框架,在系統(tǒng)上會有一個協(xié)同關(guān)系,即將深度學(xué)習(xí)和傳統(tǒng)的圖模型做更緊密的結(jié)合,取得更好的效果。”
文章題目:阿里巴巴開源GraphScope,有望解決全球圖計算研發(fā)瓶頸
本文URL:http://www.fisionsoft.com.cn/article/cojspis.html


咨詢
建站咨詢
