陳雷:在港科大(廣州),以大數(shù)據(jù)研究驅(qū)動前沿科技
系列報道“英才訪談”
- 第13篇 -


教授檔案
陳雷教授現(xiàn)任香港科技大學(xué)(廣州)信息樞紐數(shù)據(jù)科學(xué)與分析學(xué)域主任。他是IEEE(電氣與電子工程師協(xié)會)會士,ACM(美國計算機協(xié)會)杰出科學(xué)家,學(xué)術(shù)成就廣受業(yè)內(nèi)認可。陳雷教授是IEEE旗下專注計算機領(lǐng)域數(shù)據(jù)挖掘方向TKDE(Transactions on Knowledge and Data Engineering)期刊主編,VLDB(Very Large Database) Journal前任主編,同時擔任2023年數(shù)據(jù)庫頂級會議IEEE International Conference on Data Engineering (ICDE)的程序委員會聯(lián)席主席,以及VLDB基金會執(zhí)行委員會秘書長。
數(shù)據(jù)是什么樣的?在香港科技大學(xué)(廣州)信息樞紐數(shù)據(jù)科學(xué)與分析學(xué)域主任陳雷教授看來,數(shù)據(jù)不是簡單冰冷的數(shù)字,而是有著多種形態(tài)、可以流動變化的“數(shù)據(jù)立方體”(Data Cube)。數(shù)據(jù)中蘊含的信息和價值就像寶藏一般,需要挖掘和開采。在“工業(yè)革命4.0”時代,數(shù)據(jù)科學(xué)與分析不僅是一個典型的交叉學(xué)科,而且正顯示出驅(qū)動前沿科技發(fā)展的能量。
從2005年加入香港科技大學(xué),到2019年參與香港科技大學(xué)(廣州)的籌設(shè),作為世界數(shù)據(jù)科學(xué)與分析領(lǐng)域的領(lǐng)軍學(xué)者,陳雷看到了大數(shù)據(jù)學(xué)科在粵港澳大灣區(qū)更為廣闊的研究和應(yīng)用前景,也在港科大(廣州)這張“白紙”上看到了盡情揮灑的無限可能。
我不喜歡一眼看到頭(predictable)的生活
2005年,陳雷加入香港科技大學(xué)。從助理教授、副教授、正教授到講座教授,陳雷的學(xué)術(shù)道路走得非常順遂。在大數(shù)據(jù)學(xué)科領(lǐng)域,他的研究成果在多個國際頂尖的學(xué)術(shù)期刊和學(xué)術(shù)會議上發(fā)表,并獲得諸多榮譽,例如:2015年SIGMOD會議‘Test-of-Time Award’,獲獎?wù)撐模惱诪榈谝蛔髡撸┮驯灰贸^1500次;2022年VLDB“最佳論文獎”(Best Regular Paper Award)。陳雷帶領(lǐng)團隊獲得多項國家級基金資助,并與華為、微軟等世界知名企業(yè)建立了長期合作關(guān)系。
同時,在陳雷的帶領(lǐng)下,香港科技大學(xué)推出了全香港首個授課型大數(shù)據(jù)技術(shù)課程(MSc of Big Data Technology)。這個項目憑借雄厚的師資實力、科學(xué)合理的課程設(shè)置、與業(yè)界的緊密合作,已成為港科大最受歡迎、學(xué)生就業(yè)情況最好的研究生課程之一。
一路順風(fēng)順水,為什么要來港科大(廣州)、從零開始?陳雷說,他考慮了兩方面的情況。“大概從2018、2019年開始,我就感覺到,內(nèi)地城市、特別是科技企業(yè)比較集中的城市,公眾對數(shù)據(jù)智能化的接受程度很高。這樣的環(huán)境下,數(shù)據(jù)來源非常豐富,為研究提供了堅實基礎(chǔ),也孕育出很多研究課題。”陳雷說,舉個簡單的例子,香港至今還有很多場所是不接受電子支付的,只收實體貨幣;但在內(nèi)地,電子支付已經(jīng)成為常態(tài)。相比之下,電子支付的廣泛應(yīng)用可以產(chǎn)生大量的消費數(shù)據(jù),對其進行挖掘,能夠?qū)οM者的行為模式進行更精準的分析。
“同時,來自產(chǎn)業(yè)的需求也在急速增加。不僅騰訊、阿里巴巴等互聯(lián)網(wǎng)頭部企業(yè)重視大數(shù)據(jù),很多傳統(tǒng)行業(yè)的企業(yè)也在做數(shù)字化轉(zhuǎn)型,他們都希望與高校開展聯(lián)合科研,也愿意為學(xué)生提供實習(xí)機會。我當時就想,如果在內(nèi)地、特別是在大灣區(qū)的內(nèi)地城市有一個平臺,開展科研、交流、學(xué)生培養(yǎng),會便利得多,很多想法也可以落地實現(xiàn)?!标惱渍f,因此,在2019年,港科大(廣州)創(chuàng)新的融合學(xué)術(shù)架構(gòu)尚在討論和完善之時,他就義無反顧地加入了籌建團隊。
“我不喜歡predictable的生活。”陳雷說,在港科大(廣州),有任何想法都可以立刻放手去做。這里平臺廣闊,機會無限。

以數(shù)據(jù)驅(qū)動跨學(xué)科研究 創(chuàng)下建校以來多個“第一”
從加入港科大(廣州)至今,陳雷帶領(lǐng)團隊,為學(xué)校實現(xiàn)了許多“第一次”的突破。
2021年8月,陳雷率領(lǐng)團隊為仍在籌建中的港科大(廣州)贏得了數(shù)據(jù)庫領(lǐng)域國際頂級會議VLDB的2024年主辦權(quán)。這將是港科大(廣州)首次承辦頂級學(xué)術(shù)會議,也將是VLDB會議第二次到中國內(nèi)地舉辦。2022年,陳雷主持申報的“多模態(tài)數(shù)據(jù)驅(qū)動與知識融合的可解釋性知識圖譜推理技術(shù)”項目獲得2022年度國家自然科學(xué)基金重點支持項目—企業(yè)創(chuàng)新發(fā)展聯(lián)合基金資助,資助經(jīng)費(直接經(jīng)費部分)254萬元。這是香港科技大學(xué)(廣州)首次獲得國家自然科學(xué)基金該類型項目的資助。
香港科技大學(xué)(廣州)融合學(xué)科的學(xué)術(shù)架構(gòu)也為數(shù)據(jù)科學(xué)開辟了新的可能性?!氨热?,碳捕集與封存研究,需要尋找合適的材料。傳統(tǒng)的研究方法是將碳捕集的材料拿到實驗室測試,以了解它的性能和應(yīng)用效果,時間和經(jīng)費成本都比較高。我和社會樞紐的李佳教授一起討論,正在嘗試用數(shù)據(jù)驅(qū)動、用AI來模擬和預(yù)測碳捕集材料的性能,不僅可以節(jié)約時間金錢,還能尋求最優(yōu)解?!标惱捉榻B,所謂的“數(shù)據(jù)驅(qū)動”,就在于AI的模擬并不是“無中生有”,而是要先用數(shù)據(jù)增強的方式,讓AI去學(xué)習(xí)此前積累的數(shù)據(jù),才能進行科學(xué)的模擬和預(yù)測。沒有數(shù)據(jù)的支撐,人工智能、模擬測算都將會是無源之水。
數(shù)據(jù)驅(qū)動前沿科技發(fā)展,也體現(xiàn)在人工智能等多個領(lǐng)域。陳雷介紹,以目前最“火”的Chat GPT為例,就是用海量數(shù)據(jù)預(yù)訓(xùn)練模型,讓人工智能具備了分析、處理信息,與人進行實時、復(fù)雜的互動的能力。另一方面,數(shù)據(jù)又制約著人工智能的能力邊界?!氨热纾珻hat GPT所用的訓(xùn)練數(shù)據(jù)只截止到2021年,所以AI的‘知識’也就只到2021年,這從另一個方面凸顯了數(shù)據(jù)在人工智能學(xué)科中的基礎(chǔ)性作用?!?/p>
陳雷團隊與上海交通大學(xué)團隊合作,目前正在進行一項“大數(shù)據(jù)+金融科技”的跨學(xué)科研究項目——智能量化交易。以先進的數(shù)學(xué)模型替代人為的主觀判斷,通過對歷史數(shù)據(jù)的學(xué)習(xí)來制定投資策略?!肮景l(fā)布的所有信息,包括財報、公告、新聞報道,都被納入動態(tài)知識圖譜的表征學(xué)習(xí),隨著市場的動態(tài)不斷更新?!标惱捉榻B。
“數(shù)據(jù)科學(xué)的魅力,也正在于它是不可預(yù)知的(unpredictable)?!标惱渍f,物理、化學(xué)等基礎(chǔ)學(xué)科的很多問題有“唯一解”,但數(shù)據(jù)科學(xué)沒有“唯一解”,而是永遠在尋找“最優(yōu)解”。

學(xué)域師資強大背景多元 今年首招本科生
目前,數(shù)據(jù)科學(xué)與分析學(xué)域已招聘到15位全職教授,成為港科大(廣州)目前發(fā)展最快的學(xué)域之一,而且?guī)熧Y背景多元,實力雄厚。
比如,褚曉文教授的研究興趣在 GPU 計算、分布式機器學(xué)習(xí)、云計算和無線網(wǎng)絡(luò)等方面,近年來特別關(guān)注高性能機器學(xué)習(xí),取得了一系列有影響力的成果。羅瓊教授對人工智能在科學(xué)上的應(yīng)用(AI for science),科學(xué)數(shù)據(jù)處理(Scientific Data)的研究非常深入。王煒教授研究方向是高維數(shù)據(jù)建模和查詢,數(shù)據(jù)庫與人工智能技術(shù)融合(DB+AI),知識圖譜和自然語言處理等,發(fā)表了多篇高水平論文。
“招募優(yōu)秀人才的時候,我常說,這里是一張白紙,請大家一起來創(chuàng)業(yè)!”陳雷說。而讓老師們感到驚喜的是,越接觸港科大(廣州),越能感受到學(xué)校對人才的重視和全方位支持。學(xué)校提供了充足的科研啟動經(jīng)費、充分的實驗室場地,大型高性能計算機服務(wù)器等設(shè)備,為數(shù)據(jù)科學(xué)相關(guān)科研的順利開展奠定了堅實的基礎(chǔ)。學(xué)校的人才服務(wù)處、人力資源處、科研處等行政部門為相關(guān)的人才、科研項目申報提供專業(yè)協(xié)助。生活方面,學(xué)校對教授們的關(guān)懷也細致入微。
陳雷談到,國家高度重視、大力支持粵港澳大灣區(qū)的發(fā)展,而且大灣區(qū)已經(jīng)具備了全產(chǎn)業(yè)鏈的應(yīng)用環(huán)境,這里的創(chuàng)新活力正在吸引全世界的優(yōu)秀人才。在這樣的環(huán)境中,科研工作者很容易找到自身研究興趣和產(chǎn)業(yè)結(jié)合的突破口,從而擴大科研的影響力。“科研成果影響大眾生活帶來滿足感和發(fā)表學(xué)術(shù)論文帶來的滿足感是不一樣的。我相信,處于大灣區(qū)核心的港科大(廣州)能夠提供這樣的機會?!?/strong>
2023年,港科大(廣州)將面向廣東、河南、山東、四川等4個內(nèi)地省份,以及中國港澳臺地區(qū)招收本科生?!皵?shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”是我校首批招收本科生的三個專業(yè)之一。
陳雷介紹,學(xué)域踐行港科大(廣州)的“跨學(xué)科”理念,緊扣社會和產(chǎn)業(yè)的發(fā)展需求,讓學(xué)生有更多到產(chǎn)業(yè)界學(xué)習(xí)和實踐的機會。目前,數(shù)據(jù)科學(xué)與分析學(xué)域已吸納約20位來自業(yè)界的導(dǎo)師,包括來自阿里巴巴、京東、騰訊、字節(jié)跳動、貝殼、微軟、韓國電信等知名企業(yè)的技術(shù)專家及高級管理人員。
去年9月29日,香港科技大學(xué)(廣州)與中國移動通信集團廣東有限公司廣州分公司簽署戰(zhàn)略合作簽約儀式。如今,雙方的合作即將瓜熟蒂落,元宇宙聯(lián)合創(chuàng)新實驗室近日即將掛牌。陳雷正是這一實驗室的領(lǐng)軍科學(xué)家。

?
同時,陳雷團隊也向?qū)W校的教務(wù)委員會(Senate)提交了Data-Centric Artificial Intelligence 的授課式研究生項目計劃。不同于美國、英國及中國香港地區(qū)等普遍一年的授課制研究生項目,該項目計劃讓學(xué)生第一年在學(xué)校進行數(shù)據(jù)科學(xué)和AI等相關(guān)知識的學(xué)習(xí),第二年到業(yè)界跟隨產(chǎn)業(yè)導(dǎo)師學(xué)習(xí)。
對于有意報考數(shù)據(jù)科學(xué)專業(yè)的同學(xué),陳雷給出了建議?!跋M麑W(xué)生有比較扎實的數(shù)學(xué)基礎(chǔ),對數(shù)據(jù)感興趣,比如數(shù)據(jù)的模式(pattern)、數(shù)據(jù)的關(guān)聯(lián)(linkage)、數(shù)據(jù)的組合優(yōu)化,等等。更希望學(xué)生有科學(xué)挑戰(zhàn)的精神,我們一起去發(fā)掘數(shù)據(jù)的寶藏!”
“科技是第一生產(chǎn)力、人才是第一資源、創(chuàng)新是第一動力,深入實施科教興國戰(zhàn)略、人才強國戰(zhàn)略、創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略,開辟發(fā)展新領(lǐng)域新賽道,不斷塑造發(fā)展新動能新優(yōu)勢?!边@是國家重大戰(zhàn)略方向和部署。
國之所需,吾之所向。香港科技大學(xué)(廣州)長期面向全球招聘領(lǐng)軍學(xué)者、青年英才。歡迎有志之士加入我校,共同創(chuàng)建“中國特色、世界一流”的高水平大學(xué)!