2025年9月12日、Googleは差分プライバシー(DP)技術を用いてゼロから訓練された最大規模のオープンソースLLM「VaultGemma」を発表しました。10億パラメータを持つこのモデルは、プライバシー保護と性能のバランスを追求した画期的な成果です。
プライバシー保護の革新
VaultGemmaは、訓練データの記憶を防ぐために較正されたノイズを追加する差分プライバシー技術を採用。訓練データから50トークンのプレフィックスを与えても、対応するサフィックスを生成できないことが確認されており、訓練データの記憶が検出されませんでした。
性能とトレードオフ
差分プライバシーを適用したモデルは、通常のモデルと比較して性能が低下する傾向がありますが、VaultGemmaは約5年前の非プライベートモデル(GPT-2 1.5B)と同等の性能を達成。これは、プライバシー保護技術の大きな進歩を示しています。

オープンソースで公開
GoogleはVaultGemmaのモデルウェイトをHugging FaceとKaggleで公開し、技術レポートも併せて発表。研究コミュニティが次世代のプライベートAIを開発できるよう、知見を共有しています。
引用