Stable Code 3B – エッジでのコーディング

ポイント

  • Stable Code 3Bは、30億パラメータを持つ大規模言語モデル(LLM)であり、CodeLLaMA 7bのような2.5倍の大きさを持つモデルと同等のレベルで、正確で応答性の高いコード補完を可能にします。
  • MacBook Airのような一般的なノートパソコンでGPUがなくてもオフラインで動作します。
  • モデルを商用利用するためには Stability AI メンバーシップ へのご登録をお願いします。

2024年最初の大規模言語モデルのリリースを発表します。 Stable Code 3B です。 この新しいLLMは、先にリリースされた Stable Code Alpha 3B に続くもので、Stable Codeの最初の大規模リリースとなります。

CodeLLaMA 7bと比較すると、Stable Code 3Bは60%小型化されている一方で、プログラミング言語全体において同様のハイレベルなパフォーマンスを発揮します。Stable Codeは、4兆トークンの自然言語データでトレーニングされた既存の Stable LM 3B の基礎モデルをベースに、コードを含むソフトウェアエンジニアリング固有のデータでさらにトレーニングされました。このモデルはコンパクトなサイズであるため、専用GPUを搭載していない最新のラップトップでも、エッジ上でプライベートなリアルタイム実行が可能です。

Stable Code 3Bは、FIM (Fill in the Middle)機能のサポートやコンテキストサイズの拡張など、多言語にわたってより多くの機能と大幅に向上したパフォーマンスを提供します。Stable Code 3Bは、最大16,384トークンのシーケンスで学習されますが、CodeLlamaと同様のアプローチでRotary Embeddingsが実装されており、オプションでRotary Baseを最大1,000,000まで変更することができます。

Stable Codeは、18のプログラミング言語 (2023 StackOverflow Developer Survey) で学習され、テストされた複数のプログラミング言語にわたって、MultiPL-Eメトリクスで(同規模のモデルと比較して)最先端のパフォーマンスを示しています。

性能比較

トレーニングインサイト

この学習パイプラインは Codellama と同様の多段階プロセスで構成されています。まず、自然言語データ(StableLM-3B-4e1t) で事前に訓練されたLMから始め、CommitPack、GitHub Issues、StarCoder、その他の数学データセットなど、複数のコードやコード関連データセットで、教師なしファインチューニングを行います。第2ステップでは、CodeLLamaで提案された基本的な修正を加えた16,384トークンの長いシーケンスでモデルをさらに微調整しました。新しいstable-codeモデルはFlash Attention 2もサポートしており、利用可能です。

データとモデルに関する詳しい情報は、モデルカードをご覧ください。私たちは、コミュニティに対してより透明でオープンであるために、詳細とアブレーションを追加した完全なテクニカルレポートを発表する予定です。

商用利用について

このモデルは Stability AI メンバーシップ に含まれます。SDXL TurboStable Video Diffusion を含む商業用コアモデルをご利用になるには、Stability AI メンバーシップ ページをご参照ください。

引用

Stability AI
Stability AI Stability AI sparked the Generative AI revolution with the release of Stable Diffusion, developing cutting-edge open models in image, video, 3D, and audio.
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次