AMD、自社GPUで訓練した完全オープン型3B言語モデル「Instella」を発表

2025年3月5日、AMDは最新鋭の完全オープン型言語モデル「Instella(インステラ)」を発表した。Instellaは、AMD Instinct™ MI300X GPUを128基使用し、ゼロからトレーニングされた3億パラメータ(3B)のモデルである。Instellaは同規模の他のオープンモデルを性能で大きく上回るだけでなく、Llama-3.2-3BやGemma-2-2B、Qwen-2.5-3Bといった最新のオープンウェイトモデルに匹敵する競争力を示している。

Instellaは、AMDが2024年に発表した1B規模の「AMD OLMo」の成功を受けて開発された。OLMoが1.3兆トークンを用いて64基のMI250 GPUでトレーニングされたのに対し、Instellaは4.15兆トークンという大規模データを用いて128基の最新GPUでトレーニングされている。

モデルは2段階の事前学習を経て開発されている。第一段階では自然言語に関する一般的な理解を確立し、第二段階では特に数学・科学問題に対応する能力を大きく高めている。事前トレーニングに加え、対話形式でのユーザー指示を正しく理解し応答するための教師付きファインチューニング(SFT)と、人間の選好を考慮したDirect Preference Optimization(DPO)による調整も行っている。

公開されたInstellaモデルは、FlashAttention-2やTorch Compile、そしてハイブリッド型のFully Sharded Data Parallelism(FSDP)などの最新技術を活用し、効率的で大規模なトレーニングを実現している。

AMDは今回、Instellaモデルの学習済みウェイト、トレーニング設定、使用データセット、ソースコードをすべてオープンソースとして公開することで、AIコミュニティによる革新と協力を促進する方針だ。

Instella-3Bモデルは複数の業界標準ベンチマークで高得点を記録。特に、数学推論能力を測るGSM8kでは、既存のオープンモデルに対して約49%もの性能向上を示している。また、命令追従性能を強化したInstella-3B-Instructモデルは、他の完全オープン型の指示チューニング済みモデルを平均14%以上上回り、命令遂行や対話形式のタスクで優れた結果を見せている。

AMDはInstellaのモデルウェイトやコード、トレーニング設定を完全オープンソースとして提供し、AIコミュニティによるさらなるイノベーション促進を目指すとしています。

公開されたモデルやデータセット、コードは以下に公開されています。

Hugging face Model Cards

Datasets

Second stage pre-training GSM8k synthetic dataset: amd/Instella-GSM8K-synthetic

  • The dataset consists of two splits: “train” and “train_119K”.
  • For Instella-3B model second stage pre-training we used the “train_119K” split, which is a subset of the larger “train” split.

Code

引用

あわせて読みたい
Introducing Instella: New State-of-the-art Fully Open 3B Language Models — ROCm Blogs AMD is excited to announce Instella, a family of fully open state-of-the-art 3-billion-parameter language models (LMs). , In this blog we explain how the Instel...
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次