近期發(fā)布的《中國人工智能開源軟件發(fā)展白皮書(2024)》(基于166頁PPT核心內(nèi)容)系統(tǒng)梳理了我國AI開源生態(tài),特別是人工智能基礎(chǔ)軟件開發(fā)現(xiàn)狀、趨勢與未來路徑。該白皮書為行業(yè)從業(yè)者、政策制定者及投資者提供了重要參考。以下為關(guān)鍵解讀。
一、核心框架:從開源生態(tài)到基礎(chǔ)軟件
白皮書首先構(gòu)建了AI開源軟件的宏觀圖譜,將其劃分為基礎(chǔ)軟件層、框架層、模型層和應(yīng)用層。本次解讀重點聚焦的“人工智能基礎(chǔ)軟件開發(fā)”,處于技術(shù)棧的底層與核心,主要包括:
- 計算編譯器與運行時:如針對國產(chǎn)AI芯片的優(yōu)化編譯工具鏈。
- 分布式訓(xùn)練與推理系統(tǒng):管理大規(guī)模集群資源,實現(xiàn)高效并行計算。
- 底層算子庫與高性能計算庫:提供芯片級性能優(yōu)化的數(shù)學(xué)運算核心。
- 數(shù)據(jù)管理與版本控制工具:專門針對AI數(shù)據(jù)流水線和模型生命周期的管理軟件。
二、發(fā)展現(xiàn)狀:追趕迅速,生態(tài)初具規(guī)模
白皮書指出,中國在AI基礎(chǔ)軟件開源領(lǐng)域已取得顯著進展:
- 自主框架崛起:以百度飛槳(PaddlePaddle)、華為MindSpore、一流科技OneFlow等為代表的深度學(xué)習(xí)框架,已在性能、易用性和特定場景(如科學(xué)計算、大模型訓(xùn)練)上形成特色,并積極開源,構(gòu)建了從硬件適配到上層應(yīng)用的初步生態(tài)。
- 硬件協(xié)同創(chuàng)新:為應(yīng)對復(fù)雜的國際環(huán)境與國產(chǎn)AI芯片(如昇騰、寒武紀、海光等)的繁榮,國內(nèi)團隊正大力開發(fā)與之深度綁定的基礎(chǔ)軟件棧(如CANN、Cambricon BANG),旨在打通從芯片指令集到框架調(diào)用的全鏈路,提升整體效率。
- 社區(qū)活躍度提升:主要項目的GitHub Star數(shù)、貢獻者數(shù)量、技術(shù)論文產(chǎn)出均呈快速增長態(tài)勢,吸引了全球開發(fā)者的部分關(guān)注。
- 大模型驅(qū)動新需求:大規(guī)模預(yù)訓(xùn)練模型的興起,對基礎(chǔ)軟件的分布式訓(xùn)練效率、超大模型存儲與加載、推理部署輕量化提出了前所未有的要求,催生了相關(guān)開源子領(lǐng)域的創(chuàng)新。
三、核心挑戰(zhàn):技術(shù)、生態(tài)與可持續(xù)性
盡管進步明顯,白皮書也深刻剖析了面臨的嚴峻挑戰(zhàn):
- 技術(shù)深度與原創(chuàng)性:在編譯器優(yōu)化、調(diào)度算法、異構(gòu)計算融合等最底層、最硬核的技術(shù)領(lǐng)域,與CUDA生態(tài)及PyTorch/TensorFlow的積累相比,仍存在差距。許多工作仍處于“跟隨創(chuàng)新”或“適配優(yōu)化”階段。
- 全球生態(tài)主導(dǎo)權(quán):國際主流生態(tài)(如PyTorch+GPU)已形成強大網(wǎng)絡(luò)效應(yīng)。國產(chǎn)基礎(chǔ)軟件如何吸引全球頂級開發(fā)者、學(xué)術(shù)研究者和企業(yè)用戶形成“回饋-貢獻”的正循環(huán),是破局關(guān)鍵。
- 產(chǎn)業(yè)鏈協(xié)同難度:基礎(chǔ)軟件需要芯片廠商、框架團隊、云服務(wù)商、終端應(yīng)用方緊密協(xié)作。目前國內(nèi)產(chǎn)學(xué)研用的協(xié)同效率與深度仍有提升空間,存在一定的重復(fù)建設(shè)和接口不統(tǒng)一問題。
- 開源可持續(xù)性與商業(yè)模式:純粹社區(qū)驅(qū)動的項目面臨資金與人力可持續(xù)壓力。如何構(gòu)建健康的開源商業(yè)模式(如開源核心+企業(yè)級增值服務(wù)),平衡開放與商業(yè)化,是眾多項目必須解答的命題。
四、未來趨勢與建議
白皮書對AI基礎(chǔ)軟件開源的未來發(fā)展做出展望并提出建議:
- 趨勢一:軟硬一體協(xié)同設(shè)計成為主流。未來AI基礎(chǔ)軟件的創(chuàng)新將更緊密地與國產(chǎn)AI芯片架構(gòu)結(jié)合,從設(shè)計之初就考慮軟硬件協(xié)同,以釋放最大算力潛能。
- 趨勢二:面向大模型與科學(xué)智能的專用化。基礎(chǔ)軟件將分化出更專注于千億參數(shù)以上模型訓(xùn)練、AI for Science仿真計算等垂直領(lǐng)域的優(yōu)化分支。
- 趨勢三:開源與標準、安全并重。在積極開源的將更注重參與或主導(dǎo)國際國內(nèi)標準制定,并加強AI基礎(chǔ)軟件本身的安全可信(如代碼安全、供應(yīng)鏈安全)能力建設(shè)。
建議方面,白皮書呼吁:
1. 國家層面加強戰(zhàn)略引導(dǎo)與投入,在關(guān)鍵底層技術(shù)(如新型編譯技術(shù)、并行計算模型)上設(shè)立長期攻關(guān)項目。
2. 鼓勵龍頭企業(yè)牽頭,組建跨行業(yè)的“開源聯(lián)盟”,共建共享基礎(chǔ)軟件生態(tài),避免碎片化。
3. 完善開源人才培養(yǎng)與激勵體系,將開源貢獻納入學(xué)術(shù)與職業(yè)評價,吸引更多人才投身底層開發(fā)。
4. 推動開源項目融入全球創(chuàng)新網(wǎng)絡(luò),積極參與國際頂級開源社區(qū),從參與到貢獻,再到主導(dǎo)。
###
《中國人工智能開源軟件發(fā)展白皮書(2024)》的發(fā)布,標志著對中國AI開源力量的一次系統(tǒng)性檢閱。人工智能基礎(chǔ)軟件作為“數(shù)字時代的操作系統(tǒng)”,其開源發(fā)展水平直接關(guān)系到我國AI產(chǎn)業(yè)的自主可控與創(chuàng)新高度。前路雖挑戰(zhàn)重重,但通過持續(xù)的技術(shù)深耕、開放的生態(tài)共建和健康的商業(yè)模式探索,中國有望在全球AI基礎(chǔ)軟件開源格局中扮演越來越重要的角色,為世界人工智能發(fā)展貢獻獨特價值。