2025年3月5日、AMDは最新鋭の完全オープン型言語モデル「Instella(インステラ)」を発表した。Instellaは、AMD Instinct™ MI300X GPUを128基使用し、ゼロからトレーニングされた3億パラメータ(3B)のモデルである。Instellaは同規模の他のオープンモデルを性能で大きく上回るだけでなく、Llama-3.2-3BやGemma-2-2B、Qwen-2.5-3Bといった最新のオープンウェイトモデルに匹敵する競争力を示している。

Instellaは、AMDが2024年に発表した1B規模の「AMD OLMo」の成功を受けて開発された。OLMoが1.3兆トークンを用いて64基のMI250 GPUでトレーニングされたのに対し、Instellaは4.15兆トークンという大規模データを用いて128基の最新GPUでトレーニングされている。
モデルは2段階の事前学習を経て開発されている。第一段階では自然言語に関する一般的な理解を確立し、第二段階では特に数学・科学問題に対応する能力を大きく高めている。事前トレーニングに加え、対話形式でのユーザー指示を正しく理解し応答するための教師付きファインチューニング(SFT)と、人間の選好を考慮したDirect Preference Optimization(DPO)による調整も行っている。
公開されたInstellaモデルは、FlashAttention-2やTorch Compile、そしてハイブリッド型のFully Sharded Data Parallelism(FSDP)などの最新技術を活用し、効率的で大規模なトレーニングを実現している。
AMDは今回、Instellaモデルの学習済みウェイト、トレーニング設定、使用データセット、ソースコードをすべてオープンソースとして公開することで、AIコミュニティによる革新と協力を促進する方針だ。
Instella-3Bモデルは複数の業界標準ベンチマークで高得点を記録。特に、数学推論能力を測るGSM8kでは、既存のオープンモデルに対して約49%もの性能向上を示している。また、命令追従性能を強化したInstella-3B-Instructモデルは、他の完全オープン型の指示チューニング済みモデルを平均14%以上上回り、命令遂行や対話形式のタスクで優れた結果を見せている。
AMDはInstellaのモデルウェイトやコード、トレーニング設定を完全オープンソースとして提供し、AIコミュニティによるさらなるイノベーション促進を目指すとしています。
公開されたモデルやデータセット、コードは以下に公開されています。
Hugging face Model Cards
- Pre-trained models:
- Instella-3B-Stage1: amd/Instella-3B-Stage1, First stage pre-training checkpoint.
- Instella-3B: amd/Instella-3B, Final pre-training checkpoint.
- Instruction-tuned models:
- Instella-3B-SFT: amd/Instella-3B-SFT, Supervised fine-tuned checkpoint.
- Instella-3B-Instruct: amd/Instella-3B-Instruct, Final Instruction-tuned checkpoint.
Datasets
Second stage pre-training GSM8k synthetic dataset: amd/Instella-GSM8K-synthetic
- The dataset consists of two splits: “train” and “train_119K”.
- For Instella-3B model second stage pre-training we used the “train_119K” split, which is a subset of the larger “train” split.
Code
- Github: AMD-AIG-AIMA/Instella
引用