初の推論に特化した Google TPU「Ironwood」を発表

2025年4月10日

Google Cloud は本日、Google Cloud Next 25 で、第 7 世代の Tensor Processing Unit (TPU) 「Ironwood」を発表しました。Ironwood は、これまでで最もパフォーマンスが高く、スケーラブルなカスタム AI アクセラレータであり、初めて推論に特化し設計された TPU です。TPU は 10 年以上にわたり、Google の最も要求の厳しい AI トレーニングとサービス提供のワークロードを支え、Google Cloud のお客様にも同様のメリットを提供してきました。Ironwood は、これまでで最も強力で高性能、かつエネルギー効率に優れた TPU であり、大規模な思考および推論 AI モデル専用に設計されています。

Ironwood は、AI 開発と進歩を推進するインフラストラクチャにおける重要な局面を示しています。人間による解釈のためにリアルタイム情報を提供する「応答型」のAI モデルから、洞察と解釈を「積極的に」生成するモデルへの移行を表しているのです。当社はこれを「推論の時代」と呼んでおり、AI エージェントは積極的にデータ取得と生成を行い、データのみならず洞察と回答を協同的に提供します。

Ironwood は、次世代の生成 AI と、その膨大な計算および通信要件をサポートするために構築されました。最大 9,216 個の液冷チップを画期的なチップ間相互接続（ICI）ネットワークに接続でき、約 10 MW まで拡張可能です。これは、最も要求の厳しい AI ワークロード向けにハードウェアとソフトウェアを最適化した、Google Cloud AI ハイパーコンピュータアーキテクチャの新しいコンポーネントの 1 つです。Ironwood により、開発者は Google の Pathways ソフトウェアスタックを活用して、数万個の Ironwood TPU を組み合わせたコンピューティング能力を確実かつ簡単に利用できます。

これらのイノベーションがどのように連携して、比類のないパフォーマンス、コスト、電力効率で、最も要求の厳しいトレーニングおよびサービス提供のワークロードに対応するかを詳しく紹介します。

Ironwood で推論の時代を強化

Ironwood は、大規模言語モデル（LLM）、Mixture of Experts（MoE）、高度な推論タスクを含む「思考モデル」の複雑な計算とコミュニケーション要求を円滑に管理できるように設計されています。これらのモデルには、大規模な並列処理と効率的なメモリアクセスが必要です。特に Ironwood は、大規模なテンソル操作を実行しながら、チップ上のデータ移動とレイテンシを最小限に抑えます。最先端の思考モデルの計算要求は、単一のチップの能力をはるかに超えています。Ironwood TPU は、完全な TPU ポッド規模で連携、および同期されたコミュニケーションをサポートするために、低レイテンシ、高帯域幅の ICI ネットワークを備えています。

Google Cloud のお客様には、AI ワークロードの需要に基づいて、256 チップ構成と 9,216 チップ構成の 2 つのサイズで提供されます。

Ironwood は 1 ポッドあたり 9,216 個のチップ、合計 42.5 エクサフロップスに拡張することで、世界最大のスーパーコンピュータである El Capitan（1 ポッドあたりわずか 1.7 エクサフロップス）の 24 倍以上の計算能力をサポートします。また、超大規模高密度 LLM やトレーニングと推論のための思考能力を持つ MoE モデルなど、最も要求の厳しい AI ワークロードに必要な大規模な並列処理能力を提供します。各チップは、ピーク時で 4,614 TFLOPs のコンピュートを持っています。これは AI 能力の画期的な飛躍を表しています。Ironwood のメモリとネットワークアーキテクチャにより、適切なデータが常に利用可能となり、この大規模なスケールで最高のパフォーマンスがサポートされます。
Ironwood には、高度なランキングや推奨ワークロードで一般的な超大規模なエンベディングを処理する専用アクセラレータである、強化された SparseCore も搭載しています。拡張された SparseCore サポートにより、従来の AI 領域を超え、金融や科学の分野など、より広範囲のワークロードを加速できます。

Google DeepMind が開発した Google 独自の機械学習ランタイムである Pathways は、複数の TPU チップ間で効率的な分散コンピューティングを可能にします。Google Cloud 上の Pathways により、単一の Ironwood Pod を超えた移行が容易になり、数十万個の Ironwood チップを組み合わせて生成 AI コンピューティングの最前線を急速に進化させることができます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_zdA6ybN.max-1600x1600.png

図1. Google 初の外部から利用可能な TPU である TPU v2 との比較に基づく、合計 FP8 ピークフロップスパフォーマンスの向上。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_hDAmXnK.max-2000x2000.png

図2. 最新世代の Ironwood を含む Cloud TPU 製品の 3D トーラス版の技術仕様の比較。FP8 ピーク TFlops は v4 および v5p ではエミュレートで実現されますが、Ironwood ではネイティブにサポートされます。

Ironwood の主な特徴

Google Cloud は、最先端の研究をサポートする AI コンピューティングを 10 年以上にわたり提供してきた唯一のハイパースケーラーであり、Gmail や検索など、毎日数十億人のユーザーに提供される地球規模のサービスにシームレスに統合されています。こうした専門知識はすべて、Ironwood の能力が中核となっています。主な特徴は以下のとおりです。

電力効率に重点を置きつつパフォーマンスを大幅に向上し、AI ワークロードをよりコスト効率よく実行します。Ironwood は、2024 年に発表した Google の第 6 世代 TPU である Trillium と比較して 2 倍の消費電力あたりのパフォーマンスを発揮します。AI 機能を提供する上で、利用可能な電力が制約の 1 つとなっている現在、お客様のワークロードに対して 1 ワットあたりの能力を大幅に向上させています。当社の高度な液冷ソリューションと最適化されたチップ設計により、継続的な高負荷の AI ワークロード下でも、標準的な空冷の最大 2 倍のパフォーマンスを安定して維持できます。実際、Ironwood は 2018 年の初代の TPU と比べて電力効率が約 30 倍優れています。
高帯域幅メモリ（HBM）容量が大幅に増加しました。Ironwood はTrillium の 6 倍となる 1 チップあたり 192 GBのメモリ容量を提供します。これにより、より大きなモデルとデータセットの処理が可能になり、頻繁なデータ転送の必要性が減り、パフォーマンスが向上します。
HBM 帯域幅が大幅に向上し、Trillium の 4.5 倍の 1 チップあたり 7.2 Tbps を実現します。この高帯域幅により、現代の AI で一般的なメモリ集約型のワークロードにとって重要な、高速データアクセスが保証されます。
チップ間相互接続（ICI）帯域幅を強化しました。双方向で 1.2 Tbps に増加、Trillium の 1.5 倍となりました。チップ間の通信が高速化され、大規模な分散トレーニングと推論の効率化が促進されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image5_izkVvTQ.max-1600x1600.png

図3. 初代の Cloud TPU v2 と比較した Google の TPU 電力効率の向上。チップパッケージあたりの熱設計電力 1 ワットあたりに提供されるピーク FP8 フロップスによって測定されます。

Ironwood で将来の AI 需要を解決

Ironwood は、計算能力の向上、メモリ容量の拡大、ICI ネットワークの進歩、信頼性の向上により、推論の時代における独自のブレークスルーを実現します。これらの画期的な進歩に加え、ほぼ 2 倍に向上した電力効率により、最も要求の厳しいお客様においても、コンピューティング需要の急増に対応しながら、最高のパフォーマンスと最小のレイテンシでトレーニングとワークロード処理を実行できるようになります。現在、Gemini 2.5 やノーベル賞を受賞した AlphaFold などの主要な思考モデルはすべて TPU 上で実行されています。Ironwood は、今年後半にご利用いただけるようになる予定です。Ironwood により、当社の開発者や Google Cloud のお客様によって生み出される AI ブレークスルーを楽しみにしています。

引用