通信世界網消息 近日,斯坦福大學根據研究論文、私人投資、專利等關鍵指標分析了來自36個國家的人工智能生態系統數據,中國排名第二,與美國仍有較大差距。我國生成式人工智能服務備案機制自2023年8月底開始實行,當年備案62個;截至2024年11月17日,備案數量達到252個,2024年已凈增190個。
根據公開發布的項目招投標信息,2024年國內的200多個智算中心項目分布于26個省(市、自治區)的100多個地市,有遍地開花之勢。本文從產業、集群、生態、市場和邊緣等多個角度分析了我國智算中心產業發展的現狀與成果,并進行了展望。
產業:智算的“新土壤”
2024年3月,為落實工業和信息化部等六部門聯合印發的《算力基礎設施高質量發展行動計劃》,中國信息通信研究院與中國通信標準化協會聯合主辦的第二屆“華彩杯”算力創新應用大賽啟動。大賽收到的8600個項目覆蓋信息傳輸、軟件信息技術服務業、公共管理、社會保障與社會組織,以及采礦、制造等19個行業門類、近30個細分行業。經過初賽和決賽,最終不到1%的項目獲得全國總決賽榮譽,“華彩杯”算力大賽亦成為我國算力方面重要賽事。
2024年9月,繼2023年國家標準 GB/T 43331《互聯網數據中心(IDC)技術和分級要求》發布之后,中國信息通信研究院聯合業界起草的GB/T 44463《互聯網數據中心(IDC)總體技術要求》正式發布。該標準規定了互聯網數據中心及設備在基礎、高技術、高算力、高能效和高安全5個方面的技術要求,適用于互聯網數據中心及設備的規劃、設計、建設、運維和評估,旨在為我國數據中心的建設、運營與維護提供全面的技術指導和支持。
2024年9月,商湯智算中心通過理論算力、有效算力、算力能效、業務模型場景支持能力、加分項等5個維度的技術評測,獲得DC Tech 5A級智算中心算力性能認證,成為國內智算中心建設的“樣板間”;11月,儀電智算中心(松江)、中國聯通上海臨港智算中心A1樓相繼榮獲5A級智算中心算力性能認證,成為標桿。
2024年11月,在由中國信息通信研究院主辦的國際算力標準與應用研討會(ISCT)上,來自工業和信息化部通信科技委、中國通信學會、中國信通院以及馬來西亞、德國、英國、哈薩克斯坦、印度尼西亞和美國的多國嘉賓共同發起《全球算力合作發展倡議》。該《倡議》計劃從算力技術研究創新、算力標準體系建設、算力人才交流合作等方面共同建設全球算力產業合作新生態,為全球算力產業發展注入新活力。
集群:智算值得用的關鍵
2006 年 ,亞 馬 遜 正 式 推 出 了AWS,提供存儲、數據庫等服務,是云計算的起點。2023年初,ChatGPT3.5 發布,成為智算進入大眾視野的起點。2024年10月,xAI公司在19天內完成十萬卡H100集群的部署,成為全球第一。按標稱數據,該集群的算力達到200EFlops(FP16),IT功率達到150MW。如果按照我們常用的2.5kW 為一個標準機架計算,該集群可以折算為60000個標準機架。
智算和云計算具有本質區別。一般來說,云計算是把CPU虛擬化后以更小顆粒度進行排列組合,并通過網絡提供各種計算、存儲服務;而用于訓練的智算則是把盡量多的GPU組成集群,提供更大規模的(不一定需要網絡接入)計算服務。
在規模化法則(Scaling Law)中,模型性能與參數量、數據集和算力等因素具有密切關系,參數量的提升,將帶來對算力需求的線性增長。互聯多個智算集群處理更大規模的訓練,技術方面存在巨大挑戰;互聯不同主體的智算集群,在商業邏輯方面存在諸多值得探討的問題。因此,在大模型訓練場景下,各種所謂的算力調度是否能帶來實際應用價值有待商榷。
生態:智算可以用的關鍵
英偉達在幾十年的發展過程中,構建了“GPU+NVlink+IB+CUDA”的計算網絡編程環境一體的生態體系,具有強大的競爭力。由于各種限制,以及國產訓練AI芯片產能有限,我國搭建超萬卡規模集群難度極大,在這種情況下如何發展我國的人工智能成為一個新的課題。
計算和網絡的融合,最終是要解決計算的擴展性問題。現在一個機器8 張GPU卡,以后可能是32張卡、256 張卡,甚至是1024張卡,這就涉及卡間通信是采用基于內存語義的加載/存儲交互,還是采用基于網絡語義的讀/寫交互。美國的云廠商和設備商“抱團取暖”,針對卡間互聯和機間互聯進行了合作創新,組建UEC和UALink等產業聯盟,基于統一的網絡協議和標準進行技術研發,支持多廠商卡間高速互聯。
為解決我國企業各自開展AI芯片和網絡研發可能導致未來出現多種芯片需要通過多種網絡進行互聯的問題,中國信息通信研究院聯合互聯網企業、電信運營商等成立“AI網絡特別任務組”,將聚焦Scale-up和Scale-out技術進行研究,求同存異、兼容并蓄,以期為我國計算網絡發展貢獻一份力量。
市場:智算用得好的關鍵
我國具有“應用場景豐富”這一獨特優勢,各類垂直大模型的使用,將是發展人工智能的突破口。一方面是大量的大模型應用,并不是所有的模型企業都有能力自建智算集群;另一方面是大量規劃建設的算力中心,并不是所有的建設方都有充分的用戶資源。兩者之間如何實現匹配是業界面臨的新問題。為深入貫徹落實國家相關政策,推進全國一體化算力網建設部署,在工業和信息化部的指導下,中國信息通信研究院全面推動中國算力平臺建設,目標實現“算力資源一本賬、算力監測一張網、算力匹配一站式、算力決策一盤棋”。
中國算力平臺算力匹配系統已正式推出公測版,試運行期間用戶注冊超百個,訪問量近萬次。系統包含算力廣場和模創空間兩大核心內容,算力廣場擁有七大類泛算力產品,包含算力資源、模型服務、AI應用、數據服務等在內的百余件商品,具備在線“選→購→用→管”能力,同時為“供、需、服”生態位構建“供應、購買、分銷”支撐體系;模創空間以算力、算法(模型)、數據為基底,匯聚十余類熱門模型共建“算力+模型+數據+AI創作”空間,形成自下而上的智算市場新格局。
邊緣:智算推理的新場景
隨著AI發展面臨瓶頸的出現,業內關注點正在轉向新的研究領域,如“推理”和“AI代理”。今年早些時候,英偉達財報顯示,公司數據中心40%的收入來自推理業務。邊緣應用中數據的計算和存儲需求逐年增長,云端處理在時延和隱私等方面顯得力不從心,邊緣計算應運而生。在邊緣計算誕生的若干年中,其發展不甚理想。隨著人工智能時代的到來,各類推理的應用場景使得邊緣計算煥發新的生機。從根本而言,推理就是一種新的邊緣計算。
訓練是讓模型從已有的數據中學習新能力,計算密度大,對算力要求較高;推理是給訓練好的模型輸入新數據,讓它解決同類型的新問題,對算力要求較低。在自動駕駛、智能家居、智慧醫療等場景下,邊緣推理技術的不斷發展催生出廣闊的應用前景。在自動駕駛領域,推理可實現高效的圖像識別和目標跟蹤,提高自動駕駛的安全性和可靠性;在智能家居領域,推理可實現智能語音識別和智能圖像識別等功能,提高家居的智能化水平;在智慧醫療領域,推理可實現醫學圖像識別和疾病診斷等功能,提高醫療服務的質量和效率。據研究機構報告,2023年人工智能推理芯片市場規模為158億美元,預計到2030年將達到906億美元,在2024—2030年預測期內的復合年增長率為22.6%。由此可見,邊緣計算(推理)將迎來新的發展機會。
挑戰:“卡”盡其用
25 年 前,英 偉達 發 布 了其 首 款GeForce GPU,經過不斷的投入、并購和創新,建成如今的“AI帝國”,產生了巨大的經濟效益和社會影響力。我國的智算發展起步較晚,但AI芯片技術路線較多。
“路雖遠行則將至,事雖難做則必成”。過去十年,我國的數據中心產業在國家和地方主管部門的指導和支持下蓬勃發展,市場整體保持每年30%左右的增長。技術創新活躍,整機柜服務器、液冷、微模塊數據中心、智能無損網絡、COCI(云服務器)和OTII(邊緣服務器)等已經成為全球領先的技術,得到大規模部署應用,且部分成果在算力“出海”的過程中發揮了重要作用。
智算時代產業面臨新的難題,需要從業者全心投入。
首先,必須從賦能的角度出發,在謀劃階段就應考慮建成后的應用,“卡”盡其用,將電力更多地轉化為算力,避免投資浪費;其次,必須從市場的角度出發,充分發揮各市場主體的主動性和市場調節的靈活性,能做到及時響應、及時調整,供需實現有序對接;再次,必須從實際的角度出發,多走訪調研,了解產業實際的困難和需求,精準施策,讓產業政策更具引導價值;最后,必須從生態的角度出發,只要規模化法則還有效,構建開放、包容的智算生態就刻不容緩。