AI 架構演進系列(二):算力重構與邊緣計算的突圍,打破"內存牆"與小模型的春天
編者按
在上一篇中,我們探討了生成式 AI 是如何跨越它的"DOS 時代",通過大語言模型作業系統和智能體沙盒建立起類似 386 架構的"保護模式"。當軟體層的抽象與安全邊界逐漸成型,計算的物理極限就成了最大的攔路虎。本篇我們將深入硬體底層,看看 AI 時代的算力究竟在發生怎樣的重構。
在軟體工程中,當我們把系統架構理順之後,接下來的瓶頸往往會出現在最底層的物理硬體上。
當我們驚嘆於大語言模型(LLM)在雲端展現出的驚人推理能力時,支撐這些能力的底層基礎設施卻正在承受著巨大的物理煎熬。根據德勤 2026 年的行業預測,AI 計算的工作負載正在發生根本性轉變:推理(Inference)任務將占據整個 AI 計算量的近三分之二,遠超模型訓練的占比。
在這個"推理為王"的階段,傳統的計算架構正在撞上一堵堅不可摧的牆。
支 持 本 站: 捐贈伺服器等運維費用,需要您的支持!
傳統 GPU 的阿喀琉斯之踵:無法逾越的"內存牆"
如果你去觀察 AI 模型推理的底層邏輯,會發現它本質上是一個自回歸(Auto-regressive)的過程,必須一個詞一個詞(Token)地按順序生成。
這就帶來了一個致命問題:在生成每一個 Token 時,系統都需要將龐大的模型權重數據從外部高帶寬內存(HBM)搬運到計算核心中。正如我們在大規模系統工程中所熟知的,數據的"搬運"永遠比"計算"本身更耗時。在強大的傳統 GPU(如 NVIDIA H100)上,處理這類任務時,絕大部分的時間和功耗實際上都浪費在了等待數據傳輸上,這就是業界著名的"內存牆"(Memory-bound)問題。
到了 2025 年底,儘管雲服務商開始大規模部署新一代的 NVIDIA GB200 Blackwell 架構系統,展現出了極強的峰值性能,但傳統的 GPU 互連架構依然受制於外部內存帶寬的物理上限。
為突破這一瓶頸,半導體行業推出了晶圓級計算架構。
以 Cerebras Systems 為代表的企業放棄了將矽晶圓切割成小晶片的傳統做法。其 WSE-3(Wafer-Scale Engine)在一整塊物理矽片上集成了 4 萬億個電晶體,並將 44GB 的靜態隨機存取存儲器(SRAM)直接部署在計算核心旁。在片上 SRAM 訪問帶寬方面,這類設計相較傳統 GPU 依賴外部 HBM 的方案通常有數量級的提升。
這種架構使上千億參數的大模型能夠完整駐留在晶片內部,消除了 GPU 集群間的數據搬運瓶頸。根據最新的行業基準測試,該架構運行 Meta 的 Llama 3.2 70B 模型時,能夠達到每秒 2100 個 Token 的生成速度,較已知 GPU 方案提升約 16 倍。在處理 Llama 3.1 405B 模型時,速度可達每秒 969 個 Token,較傳統雲服務方案提升約 75 倍。
當 AI 響應時間從秒級縮短至毫秒級,其應用場景從簡單的對話工具擴展到實時高頻交互和大規模智能體並發操作。
過渡層:軟體基礎設施如何緩解"內存牆"
不過,從雲端"內存牆"到端側 NPU 爆發,中間還隔著一層經常被忽視但極其關鍵的推理基礎設施(Inference Infra)優化。
過去兩年,很多性能提升並不來自晶片代際更替,而來自推理系統的軟體工程改造。例如:
- `vLLM` 一類運行時通過更高效的內存管理提升吞吐與並發。
- `KV cache` 復用降低了重複計算與重複訪存開銷。
- `speculative decoding` 用近似草稿模型換取更高的解碼效率。
- `batching` 與調度優化提升了單位硬體時間內的有效 token 產出。
換句話說,硬體在"抬高上限",而 inference infra 在"抬高下限"。正是這兩層疊加,才讓大模型推理從實驗室能力逐步變成可規模化交付的工程能力。
邊緣計算的突圍:小模型與 AI PC 的黃金時代
儘管巨型數據中心的晶圓級晶片展現了顯著的性能提升,但計算革命往往伴隨著算力的去中心化。
如果日常任務如郵件回復、腳本編寫都需要調用雲端萬億參數模型,從工程造價和網絡延遲角度考慮並不現實。2025 到 2026 年,小型語言模型(SLM)在邊緣側設備的普及成為一個顯著趨勢。
這得益於神經網絡處理器(NPU)在個人電腦(AI PC)中的全面普及。預計到 2026 年,新一代 NPU 的算力將突破 100 TOPS,甚至能夠在本地流暢運行 70B 參數級別的模型,且推理延遲控制在亞毫秒級。
將大語言模型本地化運行,解決了傳統雲端 API 的三大痛點:
- 零網絡延遲:所有的推理計算都在本地 NPU 或 GPU 上瞬時完成,特別適合需要實時響應的代碼補全或語音交互。
- 零邊際成本:開發者和重度用戶不再需要為每個 Token 的生成支付高昂的 API 訂閱費用。
- 絕對的數據隱私:無論你是處理敏感的商業代碼,還是私人的財務數據,物理隔離的本地推理保障了數據永遠不會離開你的設備。
當年,個人電腦的普及讓計算能力從昂貴的企業大型機走入了尋常百姓家;如今,端側 NPU 和優化的本地小模型,正在讓高階的 AI 邏輯推理能力成為每台設備的"出廠標配"。
結語
無論是雲端突破"內存牆"的晶圓級架構,還是筆記本電腦中的 NPU,底層算力的重構正在為生成式 AI 發展奠定基礎。
但硬體進步並非故事的全部。摩爾定律的放緩意味著算力成本下降可能比預期更緩慢,而數據中心的能源消耗正在逼近物理和環境極限。端側設備雖然普及,但 70B 級別模型的本地化仍面臨散熱、功耗和晶片良率的工程挑戰。
對於需要大規模部署 AI 的企業而言,硬體參數只是基礎。如何優化"總體擁有成本(TCO)"?為何從公有雲 API 轉向本地私有模型?下一篇文章將從系統運維和商業工程的角度,探討企業級 AI 的"數據飛輪"與算力經濟學。
支 持 本 站: 捐贈伺服器等運維費用,需要您的支持!
留言簿