AIアーキテクチャ進化シリーズ（2）：コンピューティング再編とエッジの突破、「メモリの壁」を越える小型モデルの時代

編者注

前回は、生成AIがどのようにして「DOS 時代」を乗り越え、大規模言語モデル OS とエージェントサンドボックスを通じて、386 アーキテクチャに似た「保護モード」を築きつつあるのかを見てきました。ソフトウェア層の抽象化と安全境界がかたちを取り始めると、次に最大の障害として立ち現れるのは、コンピューティングの物理的な限界です。今回は、さらにハードウェアの下層へ降りていき、AI 時代のコンピューティングが実際にどのように組み替えられつつあるのかを見ていきます。

ソフトウェア工学の世界でも、システムアーキテクチャを整理し終えたあとに、本当のボトルネックが最下層の物理ハードウェアに現れることは珍しくありません。

大規模言語モデル（LLM）がクラウド上で見せる驚異的な推論能力に目を奪われがちですが、それを支える下層インフラは、いま大きな物理的負荷にさらされています。Deloitte の 2026 年予測によれば、AI コンピューティングのワークロードは大きく構造を変えつつあり、推論（Inference）タスクが AI 計算量全体のほぼ 3 分の 2 を占め、モデル訓練を大きく上回る見通しです。

この「推論が主役になる」段階で、従来のコンピューティングアーキテクチャは、ひとつの堅い壁に突き当たり始めています。

従来型 GPU のアキレス腱、越えられない「メモリの壁」

AI モデル推論の下層を見ていくと、その本質は自己回帰的（Auto-regressive）なプロセスです。つまり、Token をひとつずつ順番に生成していかなければなりません。

ここに致命的な問題があります。Token を 1 個生成するたびに、システムは巨大なモデル重みを外部の高帯域メモリ（HBM）から演算コアへ運び込まなければならない。大規模システムでよく知られている通り、データの「移動」は、しばしば「計算」そのものより高くつきます。高性能な従来型 GPU、たとえば NVIDIA H100 のような環境でも、この種の処理では時間と電力の大半が実際にはデータ転送待ちに費やされます。これが、よく知られた「メモリ律速（Memory-bound）」、いわゆる「メモリの壁」です。

2025 年末になると、クラウド事業者は NVIDIA GB200 Blackwell 世代の新システムを大規模に配備し始め、非常に高いピーク性能を見せるようになります。しかしそれでも、従来型 GPU の相互接続アーキテクチャは、依然として外部メモリ帯域の物理的上限に縛られています。

このボトルネックを越えるために、半導体業界ではウェハスケールのコンピューティングアーキテクチャが打ち出されました。

Cerebras Systems に代表される企業は、シリコンウェハを小さなチップに切り分けるという従来の発想そのものを捨てています。WSE-3（Wafer-Scale Engine）では、1 枚の物理シリコン上に 4 兆個のトランジスタを集積し、さらに 44GB の SRAM を演算コアのすぐそばに配置しています。オンチップ SRAM のアクセス帯域という点では、こうした設計は、外部 HBM に依存する従来型 GPU と比べて、通常は桁違いの向上をもたらします。

このアーキテクチャによって、数千億パラメータ級の大規模モデルをチップ内部に丸ごと載せることが可能になり、GPU クラスタ間で発生していたデータ移動のボトルネックを大きく減らせます。最新の業界ベンチマークでは、Meta の Llama 3.2 70B を動かした場合、毎秒 2100 Token の生成速度に達し、既知の GPU ベースの手法に比べておよそ 16 倍の向上が報告されています。Llama 3.1 405B を扱う場合でも、毎秒 969 Token に達し、従来のクラウド型手法より約 75 倍速いとされています。

AI の応答時間が秒単位からミリ秒単位へ縮まると、応用範囲は単純な対話ツールにとどまりません。リアルタイム性の高い高頻度インタラクションや、大量のエージェントを並行に走らせるユースケースへと広がっていきます。

中間層としての推論基盤、ソフトウェアはどう「メモリの壁」を和らげるか

もっとも、クラウド側の「メモリの壁」と端末側 NPU の普及のあいだには、見落とされがちですが極めて重要なレイヤーがあります。推論基盤（Inference Infra）の最適化です。

ここ 2 年の性能改善の多くは、チップ世代の更新そのものよりも、推論システム側のソフトウェア工学的な改善から生まれています。たとえば次のようなものです。

- `vLLM` のようなランタイムは、より効率的なメモリ管理によってスループットと並行性を引き上げる。
- `KV cache` の再利用は、重複計算と重複メモリアクセスのコストを下げる。
- `speculative decoding` は、近似的な下書きモデルを使うことでデコード効率を高める。
- `batching` やスケジューリング最適化は、一定時間あたりの有効な token 出力を増やす。

言い換えれば、ハードウェアは「上限」を押し上げ、推論基盤は「下限」を押し上げている。この二つが重なることで、ようやく大規模モデル推論は、研究室のデモから、スケールして届けられる実運用の技術へと変わってきたのです。

エッジコンピューティングの突破、小型モデルと AI PC の黄金期

巨大データセンターにおけるウェハスケールチップが目覚ましい性能向上を見せている一方で、コンピューティングの革命はたいてい、計算資源の脱中心化を伴います。

メール返信やスクリプト作成のような日常的な作業まで、毎回クラウド上の超巨大モデルを呼び出すとしたら、工学的コストの面でも、ネットワーク遅延の面でも現実的ではありません。2025 年から 2026 年にかけて、小型言語モデル（SLM）がエッジ側デバイスへ広がっていくことは、大きな流れのひとつになっています。

その背景にあるのが、ニューラルネットワーク処理装置（NPU）の AI PC への本格的な普及です。2026 年には新世代 NPU の性能が 100 TOPS を超え、70B クラスのモデルでさえローカルで滑らかに動かせるようになり、推論遅延もサブミリ秒級に抑えられると見込まれています。

大規模言語モデルをローカルで動かすことには、従来のクラウド API が抱えていた三つの痛点を解消する力があります。

- ネットワーク遅延がほぼゼロになる：推論はローカルの NPU や GPU 上で瞬時に行われ、リアルタイム性が重要なコード補完や音声対話に向いている。
- 限界費用がほぼゼロになる：開発者やヘビーユーザーは、生成される Token ごとに高額な API 利用料を払い続けずに済む。
- データプライバシーを強く守れる：機密性の高い業務コードでも、個人的な財務情報でも、ローカル推論ならデータは物理的に端末の外へ出ない。

かつてパーソナルコンピュータの普及が、計算能力を高価な企業向け大型機から家庭へ持ち込んだように、いま端末側の NPU と最適化されたローカル小型モデルは、高度な AI 推論能力を各デバイスの「標準装備」に変えつつあります。

結語

クラウド側で「メモリの壁」を突破しようとするウェハスケールアーキテクチャも、ノートPCの中に入り込んだ NPU も、その根底では同じ流れの上にあります。下層のコンピューティング資源が再編されることで、生成AIの次の発展の土台が作られつつあるのです。

ただし、ハードウェアの進歩だけで話が終わるわけではありません。ムーアの法則の鈍化は、コンピューティングコストの低下が想定より遅く進む可能性を意味していますし、データセンターの消費電力は、物理的にも環境的にも限界に近づきつつあります。端末側デバイスの普及が進んでも、70B クラスのモデルをローカルで動かすには、放熱、消費電力、チップ歩留まりといった工学的課題が残ります。

大規模に AI を展開したい企業にとって、ハードウェアのスペックは出発点にすぎません。総保有コスト（TCO）をどう最適化するのか。なぜパブリッククラウドの API からローカルな私有モデルへ移る必要があるのか。次回は、システム運用とビジネス実装の観点から、企業AIにおける「データフライホイール」とコンピューティングの経済学を見ていきます。

雪泥鴻爪--IT技術者の随筆