國內首個國產AI推理千卡集群落地湛江 - 工控新聞自動化新聞中華工控網

返回工控網首頁

中國自動化學會專家谘詢工作委員會指定宣傳媒體

免費注冊

中華工控網

廣告服務 | 客服中心

新聞詳情

國內首個國產AI推理千卡集群落地湛江

http://www.kadhoai.com.cn 2026-04-07 08:56:17 來源：21世紀經濟報道

3 月 12 日，雲天勵飛中標湛江市AI滲透支撐新質生產力基礎設施建設項目，中標金額4.2億元。項目將基於雲天勵飛自研的國產AI推理加速卡，建設國產AI推理千卡集群。

該集群將搭載DeepSeek等國產大模型，為政務、產業及各類應用場景提供更加便捷、低成本的AI能力，探索打造“國模國芯”的AI生態樣板。

AI算力轉向“推理優先”

智算集群是人工智能時代的基礎設施。如果說電力支撐了工業時代，互聯網支撐了信息時代，那麼智算正在成為支撐AI時代的重要底座。

在AI算力體係中，算力大體可以分為訓練算力與推理算力。訓練算力決定模型如何完成“從0到1”的能力構建，而推理算力則直接支撐AI應用落地。

無論是春節期間大熱的SeeDance，近期廣泛討論的“小龍蝦”，還是各行業不斷上線的AI Agent應用，背後都離不開推理算力的支撐。根據Gartner預測，到2026年，約55%的AI專用雲基礎設施支出將用於推理工作負載。

過去，國內許多智算中心普遍采用“訓推一體”的建設模式。而此次在湛江建設的集群，則定位為專注推理任務的AI推理集群，主要麵向各類行業應用場景，為傳統產業的AI化提供直接支撐。

湛江也是國產大模型DeepSeek創始人梁文峰的家鄉。近年來，當地在“DeepSeek+”應用探索方麵動作頻頻。2025年初，DeepSeek-R1發布後，湛江即完成本地部署，基於國產技術棧的DeepSeek-R1大(da)模(mo)型(xing)率(lv)先(xian)在(zai)湛(zhan)江(jiang)政(zheng)務(wu)雲(yun)上(shang)線(xian)。該(gai)模(mo)型(xing)在(zai)處(chu)理(li)通(tong)用(yong)政(zheng)務(wu)事(shi)務(wu)的(de)同(tong)時(shi)，還(hai)能(neng)夠(gou)持(chi)續(xu)學(xue)習(xi)本(ben)地(di)產(chan)業(ye)知(zhi)識(shi)與(yu)方(fang)言(yan)表(biao)達(da)，逐(zhu)漸(jian)形(xing)成(cheng)具(ju)有(you)地(di)方(fang)特(te)色(se)的(de)“湛江智慧”。

此次雲天勵飛建設的AI推理集群，也將與DeepSeek等國產模型進行適配，為更多行業應用提供算力支撐。

麵向推理時代的千卡集群架構

在大模型應用場景中，推理係統通常需要同時滿足高並發、高吞吐與低延遲三項要求。為提升整體效率，當前業界普遍采用“Prefill–Decode分離”的推理架構，通過對不同階段進行資源優化，實現係統性能的整體提升。

其中，Prefill階段主要負責對長上下文進行理解和計算，計算量大、帶寬需求高；而Decode階段則負責持續生成Token，對係統延遲更加敏感。如何在兩個階段之間進行合理的資源配置，成為推理係統架構設計的重要問題。

與此同時，隨著大模型上下文長度不斷增加，大量中間狀態需要以KV Cache的形式存儲。業內普遍認為，未來推理係統的性能瓶頸將越來越多來自數據訪問效率，而不僅僅是計算能力。

在這一背景下，算力、存儲與網絡之間的協同設計，正逐漸成為AI基礎設施的重要競爭力。

此次在湛江落地的千卡推理集群，正是圍繞這一思路進行構建。

該集群采用雲天勵飛自主研發的AI推理芯片，並在係統架構上確立了“優先優化Prefill、兼顧Decode”的技術路線。通過在芯片設計中對計算資源與存儲帶寬進行針對性配置，使係統在長上下文推理場景下依然能夠保持較高的吞吐效率。

在網絡互聯方麵，係統采用統一高速互聯架構，通過400G光網絡構建集群物理層網絡，實現節點之間的高帶寬、低di延yan遲chi通tong信xin。與yu傳chuan統tong在zai節jie點dian內nei和he節jie點dian間jian分fen別bie采cai用yong不bu同tong協xie議yi構gou建jian網wang絡luo的de方fang式shi相xiang比bi，這zhe種zhong同tong構gou互hu聯lian架jia構gou減jian少shao了le協xie議yi轉zhuan換huan帶dai來lai的de額e外wai開kai銷xiao，也ye簡jian化hua了le係xi統tong部bu署shu。

在部署能力上，該架構既可以支持單節點數十卡規模擴展，也能夠平滑擴展至千卡級集群規模，從而適配不同規模的AI應用需求。

此外，針對大模型推理中KV Cache訪(fang)問(wen)帶(dai)來(lai)的(de)壓(ya)力(li)，係(xi)統(tong)在(zai)計(ji)算(suan)互(hu)聯(lian)與(yu)存(cun)儲(chu)互(hu)聯(lian)層(ceng)麵(mian)進(jin)行(xing)了(le)協(xie)同(tong)優(you)化(hua)。通(tong)過(guo)計(ji)算(suan)網(wang)絡(luo)與(yu)存(cun)儲(chu)網(wang)絡(luo)的(de)聯(lian)合(he)調(tiao)度(du)，可(ke)以(yi)顯(xian)著(zhu)提(ti)升(sheng)數(shu)據(ju)讀(du)取(qu)效(xiao)率(lv)，使(shi)模(mo)型(xing)在(zai)長(chang)上(shang)下(xia)文(wen)推(tui)理(li)場(chang)景(jing)下(xia)依(yi)然(ran)保(bao)持(chi)穩(wen)定(ding)性(xing)能(neng)。

通過芯片架構、網絡互聯以及係統調度等多層優化，這一推理集群在整體效率與成本控製方麵形成了明顯優勢，為AI規模化應用提供了更加經濟的算力方案。

低成本提供穩定的大規模推理能力

記者從雲天勵飛了解到，本次AI推理集群將分三期建設，並全部采用自研的國產AI推理加速卡。

其中，一期項目將部署雲天勵飛 X6000 推理加速卡；二、三期建設將率先搭載公司最新一代芯片產品。

根據公司規劃，未來三年雲天勵飛將推出三代AI推理芯片產品。

第一階段，將推出麵向長上下文場景優化的Prefill芯片，通過提升計算效率與內存訪問能力，為OpenClaw、各類AI Agent提供基礎算力支撐。

第二階段，將研發專注於Decode階段低延遲優化的芯片產品，進一步提升實時推理能力。

第三階段，則通過係統級協同優化，實現Prefill與Decode性能的整體提升，向毫秒級推理時延目標邁進。

其中，首款Prefill芯片DeepVerse100預計將在年內完成流片，並計劃在湛江集群中率先部署。

在更長期的規劃中，雲天勵飛提出“1001計劃”，即以“百億Token一分錢”為長期目標，通過芯片與係統協同優化持續降低大模型推理成本。

過去幾年，AI算力建設往往以“堆算力”為主要路徑，通過不斷擴大GPU規模來獲得更高性能。但隨著大模型逐漸進入應用階段，產業關注點正從“算力峰值”轉向“單位成本效率”。

換句話說，未來AI產業競爭的重要維度，不僅在於模型能力本身，還在於誰能夠以更低成本提供穩定的大規模推理能力。

湛江項目的落地，也為這一目標提供了重要的實踐場景。千卡級推理集群不僅能夠滿足當前AI應用需求，同時也為更大規模算力係統提供技術部署平台。

在典型架構下，一個千卡級集群通常由多級擴展結構組成：從單節點8卡、32卡，到64卡甚至百卡級超節點，再到跨節點的大規模集群。

通過這一規模係統的實際運行，可以充分驗證卡間互聯、節點通信和負載均衡等關鍵技術，為未來更大規模AI算力係統建設積累經驗。

隨著大模型逐步進入產業應用階段，AI基礎設施的發展邏輯也正在發生變化——從單純追求算力規模，轉向更加注重效率與成本。

在業內看來，推理算力將成為決定AI應用規模化落地的關鍵基礎設施。誰能夠以更高效率、更低成本提供穩定的大規模推理能力，誰就有機會在新一輪人工智能產業競爭中占據先機。

此次湛江AI推理千卡集群的建設，為當地產業數字化轉型提供了重要算力底座，國產模型與國產芯片協同發展有了實踐場景。AI基礎設施正逐步從技術探索走向規模化應用，為人工智能產業的下一階段發展打開新的空間。

相關新聞

編輯精選

工控原創

版權所有工控網 Copyright©2026 Gkong.com, All Rights Reserved