港科大(廣州)斬獲國際頂會EuroSys最佳論文獎,中國高校高性能計(jì)算研究再突破
2025年3月30日至4月3日,計(jì)算機(jī)系統(tǒng)領(lǐng)域CCF A類國際頂會EuroSys在荷蘭鹿特丹召開。香港科技大學(xué)(廣州)信息樞紐數(shù)據(jù)科學(xué)與分析學(xué)域高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室的研究成果《SpInfer:利用低稀疏度在GPU上實(shí)現(xiàn)高效LLM推理》從全球696篇投稿中脫穎而出,獲評EuroSys 2025最佳論文獎,成為中國大陸及港澳地區(qū)高校中第三篇獲此殊榮的論文(前兩篇分別由上海交通大學(xué)團(tuán)隊(duì)于2015年、2024年完成)。
該研究針對大語言模型(LLM)推理效率難題,創(chuàng)新性地提出一個(gè)專為GPU上的稀疏化LLM推理設(shè)計(jì)的高性能框架,首次將非結(jié)構(gòu)化剪枝的理論優(yōu)勢有效轉(zhuǎn)化為LLM推理的實(shí)際性能提升。本屆EuroSys投稿量同比激增42%,錄用率僅為12.4%,最終僅評選出2項(xiàng)最佳論文獎,其學(xué)術(shù)含金量可見一斑。
此次獲獎標(biāo)志著港科大(廣州)在計(jì)算機(jī)系統(tǒng)領(lǐng)域?qū)崿F(xiàn)重要突破。作為建校不足三年的新興科研力量,我校已在高性能計(jì)算、AI系統(tǒng)優(yōu)化等方向形成鮮明特色,展現(xiàn)出強(qiáng)勁的學(xué)術(shù)競爭力。

ACM EuroSys (The European Conference on Computer Systems) 是計(jì)算機(jī)系統(tǒng)領(lǐng)域的國際頂級學(xué)術(shù)會議,也是中國計(jì)算機(jī)學(xué)會推薦的A類國際學(xué)術(shù)會議(CCF A),主要關(guān)注計(jì)算機(jī)系統(tǒng)領(lǐng)域的研究與實(shí)踐,主要包括操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、實(shí)時(shí)系統(tǒng)、網(wǎng)絡(luò)中間件、分布式、并行或嵌入式計(jì)算系統(tǒng)等領(lǐng)域。自2006年創(chuàng)辦以來,ACM EuroSys已經(jīng)出版了眾多具有深遠(yuǎn)影響的學(xué)術(shù)論文,在國際學(xué)術(shù)界與工業(yè)界形成了廣泛影響。
最佳論文獎

論文信息
題目:SpInfer:利用低稀疏度在 GPU 上實(shí)現(xiàn)高效的LLM推理
鏈接:https://dl.acm.org/doi/10.1145/3689031.3717481
論文簡介

大語言模型(LLM)展現(xiàn)出了卓越的能力,但其龐大規(guī)模在內(nèi)存和計(jì)算成本方面帶來重大挑戰(zhàn)。雖然非結(jié)構(gòu)化剪枝通過引入稀疏性來減少資源需求提供了有希望的解決方案,但在LLM推理中實(shí)現(xiàn)其優(yōu)勢仍然面臨困難。這主要是由于索引非零元素的存儲開銷,以及在低稀疏度(約50%)時(shí)稀疏矩陣乘法(SpMM)核心的低效率。
本文提出了SpInfer,這是一個(gè)專為GPU上的稀疏化LLM推理設(shè)計(jì)的高性能框架。SpInfer引入了面向Tensor Core的位圖編碼(TCA-BME),這是一種新型稀疏格式,通過利用高效的基于位圖的索引來最小化索引開銷,并為GPU Tensor Core架構(gòu)優(yōu)化。此外,SpInfer集成了具有共享內(nèi)存位圖解碼(SMBD)的優(yōu)化SpMM核心和異步流水線設(shè)計(jì),以提高計(jì)算效率。
實(shí)驗(yàn)結(jié)果表明,SpInfer在不同稀疏度(30%至70%)下顯著優(yōu)于最先進(jìn)的SpMM實(shí)現(xiàn)(分別比Flash-LLM和SparTA快至2.14倍和2.27倍),在內(nèi)存效率和端到端推理速度方面都有顯著提升(快至1.58倍)。在稀疏度低至30%時(shí),SpInfer就能超越高度優(yōu)化的cuBLAS,這標(biāo)志著首次將非結(jié)構(gòu)化剪枝的理論優(yōu)勢有效轉(zhuǎn)化為LLM推理的實(shí)際性能提升。
作者信息
- 范睿博,三年級博士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域,高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室;
- 余湘銳,二年級碩士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域;
- 董佩杰,二年級博士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域,高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室;
- 李澤宇,二年級博士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域,高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室;
- 鞏固,二年級碩士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域;
- 王強(qiáng),副教授,哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
- 王威,副教授,香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系;
- 褚曉文,教授,香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域,高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室。
第一作者簡介

范睿博,香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域的三年級博士生(PhD candidate),師從褚曉文教授與王威教授。目前論文被EuroSys、ASPLOS、ICLR、IPDPS等國際頂級會議接收。研究方向?yàn)楦咝阅苡?jì)算,重點(diǎn)聚焦GPU架構(gòu)性能優(yōu)化領(lǐng)域。目前主要致力于利用現(xiàn)代GPU架構(gòu)加速稀疏矩陣運(yùn)算和大模型推理的相關(guān)研究。
曾于2019-2022年在北京大學(xué)前沿交叉學(xué)科研究院獲得碩士學(xué)位,本科階段(2015-2019年)就讀于華中科技大學(xué)人工智能與自動化學(xué)院。
研究愿景是彌合計(jì)算機(jī)體系結(jié)構(gòu)理論與實(shí)際性能優(yōu)化之間的鴻溝,通過設(shè)計(jì)能充分發(fā)揮現(xiàn)代硬件效能的計(jì)算系統(tǒng),為人工智能、科學(xué)計(jì)算及大數(shù)據(jù)處理等領(lǐng)域提供更高效的解決方案。
導(dǎo)師簡介

褚曉文,本科畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,博士畢業(yè)于香港科技大學(xué)計(jì)算機(jī)科學(xué)系;2003年起在香港浸會大學(xué)計(jì)算機(jī)科學(xué)系任職助理教授、副教授、正教授;2021年加入香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域任職正教授,現(xiàn)擔(dān)任該學(xué)域主任;國家重大人才工程入選者。
主要科學(xué)研究領(lǐng)域包括分布式系統(tǒng)、高性能計(jì)算、機(jī)器學(xué)習(xí)系統(tǒng)、無線網(wǎng)絡(luò)等,已在國際學(xué)術(shù)期刊和會議發(fā)表學(xué)術(shù)論文270余篇;谷歌H-index為64,論文引用13900余次;曾獲得2025年EuroSys、2024年FL@FM-NeurIPS、2021年IEEE INFOCOM、2021年DASFAA-MUST、2020年IEEE GreenCom、2018年IEEE DataCom、2015年BigCom,以及2010年IEEE CIT等國際會議/研討會的最佳論文獎;擔(dān)任或曾擔(dān)任SCI國際期刊IEEE Transactions on Network Science and Engineering、IEEE Transactions on Cloud Computing、IEEE Internet of Things Journal、IEEE Transactions on Big Data、IEEE Network、IEEE Transactions on Industrial Informatics、ACM/Springer MONET的副編委或客座編委;擔(dān)任IEEE MetaCom 2025、IEEE/ACM IWQoS 2024、BigCom 2023、GreenCom 2022、HPCC 2021、DSS 2020、Qshine 2019等國際會議的大會主席或程序委員會主席;曾任中國通信學(xué)會區(qū)塊鏈專業(yè)委員會副主任委員;連續(xù)多年入選美國斯坦福大學(xué)發(fā)布的全球前2%頂尖科學(xué)家榜單;因在高效通信的分布式機(jī)器學(xué)習(xí)算法方面的貢獻(xiàn)當(dāng)選2025年IEEE Fellow;2025年當(dāng)選亞太人工智能學(xué)會(AAIA)會士。