AI計算インフラ新白書:液冷、光インターコネクト、特化型チップの台頭
序文:
2025年、新設されたデータセンターに足を踏み入れた人は、その光景に衝撃を受けるでしょう。ファンの轟音も、ネットワークケーブルの密林もありません。
代わりに、フッ素系液体に浸されたサーバーが静かに沸騰し、ラック間でレーザー信号が点滅しています。大規模モデルのパラメータの指数関数的な増加に伴い、計算のボトルネックは「計算」から「相互接続(インターコネクト)」と「放熱」へとシフトしました。この記事では、物理層を掘り下げ、AI 2.0時代を支えるハードウェア基盤を解体します。
第1章: インターコネクトの壁:光が銅を置き換える必然性
H100の時代には、ラック内のGPUを接続するためにまだ銅ケーブル(DAC)を使用していました。しかし今日、1兆パラメータモデルの並列トレーニングにより、銅ケーブルの物理的限界は突破されました。
1.1 シリコンフォトニクスの爆発
2025年、CPO (Co-Packaged Optics) 技術がついに量産に向けて成熟しました。
- 原理: 以前は、光モジュールはスイッチパネルに差し込まれており、チップから数十センチ離れていたため、伝送中に大きな信号損失が発生していました。CPO技術は、光エンジン(Optical Engine)をGPUチップ基板上に直接パッケージングします。
- 利点:
- 電力削減50%: 信号が長距離を移動する必要がなくなりました。
- 帯域幅密度の向上: シングルチップのIO帯域幅が51.2 Tbpsを突破し、「計算は速いが転送が遅い」というメモリの壁問題を根本的に解決しました。
1.2 オールオプティカルスイッチングネットワーク (All-Optical Switching Network)
GoogleのJupiterデータセンターアーキテクチャは、将来の方向性を示しました:OCS (Optical Circuit Switches)。
- 従来の電気スイッチは、光信号を電気に変換し、処理してから光に戻す(O-E-O)必要があり、高遅延で電力消費も大きいです。
- OCSは、MEMS内の微小な鏡を使用して光線を直接反射させてルーティングします。光が入れば光が出る、ゼロレイテンシで、信号エネルギーを消費しません。
第2章: 放熱革命:空気から液体へ
シングルチップのTDP(熱設計電力)が1000W(Blackwell B200など)を超えると、レンガほどの大きさに作られた空冷ヒートシンクでも熱を抑えきれません。
2.1 コールドプレート液冷の普及
これは現在主流の過渡的なソリューションです。
- スキーム: 銅製のウォーターブロックをGPU表面に密着させ、パイプ内を循環する冷却液で熱を奪います。
- 課題: 漏れのリスク。冷却液が漏れると、マシン全体が廃棄になります。そのため、2025年には負圧システムが登場しました。パイプ内の圧力は外部よりも低いため、たとえ破裂しても、液体が流出するのではなく空気が吸い込まれます。
2.2 液浸冷却 (Immersion Cooling) の最終形態
これが本当の未来です。
- 単相液浸: サーバーを絶縁油に完全に浸し、液体の自然対流を利用して放熱します。
- 二相液浸: サーバーをフッ素系液体に浸します。液体は加熱されると沸騰して気体になり(相変化が巨大な潜熱を奪う)、気体は蓋まで上昇し、凝縮して液体に戻り滴下します。
- PUE (Power Usage Effectiveness): 従来の空冷PUEは約1.5ですが、二相液浸はPUEを1.02まで下げることができます。これは、電力のほぼすべてが空調ではなく計算に使用されることを意味します。
第3章: チップアーキテクチャ:ASICの逆襲
GPUは汎用ですが、推論において汎用は無駄を意味します。
3.1 ウェハスケールエンジン (Wafer-Scale Engine)
Cerebrasは極めて過激なルートを採っています:ウェハを切断しない。
- 従来のチップはウェハから切り出された小さな断片(ダイ)です。Cerebrasは12インチのウェハ全体を1つのチップにし、85万個のコアを持たせています。
- 利点: コア間の通信は完全にチップ内部で行われ、帯域幅はGPUインターコネクトの数千倍です。これにより、超大規模モデル推論を処理する際に、バッチサイズ=1という極限の低遅延を実現できます。
3.2 メモリ内処理 (Processing-in-Memory: PIM)
フォン・ノイマン・アーキテクチャの原罪は、計算ユニットと記憶ユニットの分離にあります。両者間のデータ移動は電力の90%を消費します。
- PIM技術: 単純な計算ロジックをDRAMメモリ顆粒内部に直接統合します。データがある場所で計算します。
- 応用: 行列乗算のようなAIの基本演算に非常に適しています。精度は低いですが、エッジ推論シナリオで大きな可能性を秘めています。
第4章: グリーンコンピューティング:炭素排出の拘束衣
AIは電力の大食漢です。2025年、エネルギー獲得能力がデータセンターの立地選定における主要因となりました。
4.1 源流を追う
データセンターは一級都市から内モンゴル、貴州、さらにはアイスランドへと移動しています。
- 安価な風力や水力発電がある場所に、計算能力が構築されます。
- Microsoftは海底にデータセンターを建設する試みさえ行っています(Project Natick)。無限の海水を利用して放熱するためです。
4.2 熱回収
ヨーロッパのデータセンターは暖房供給の役割を担い始めました。
- AIチップがこれほどの熱を発生させるなら、この廃熱を回収して周辺の住宅地に暖房を提供しない手はありません。これは炭素排出を削減するだけでなく、追加の経済的収益も生み出します。
結論
計算インフラの競争は、材料科学、流体力学、光学の総合的な競争へと進化しました。
この軍拡競争に「性能の余剰」はありません。なぜなら、ソフトウェア(モデル)は貪欲に計算能力を食い尽くすからです。あらゆるハードウェアの進歩は、即座により大きく、よりスマートなモデルによって埋め尽くされるでしょう。
このドキュメントは、2025年の世界半導体サプライチェーン調査に基づき、Augmunt先端技術研究所のハードウェアグループによって執筆されました。
