OpenAIが新モデル「GPT-4.1」シリーズを発表

2025年4月14日にOpenAIは大幅に性能が向上した新たな大規模言語モデル「GPT-4.1」シリーズをAPI向けにリリースしました。今回のアップデートでは、従来のGPT-4oを上回る指示追従能力、長文コンテキスト処理能力、実践的なコーディング支援とともに、コスト面でも大きな改善が実現されました。

モデルラインナップ

GPT-4.1シリーズは、以下の3種類のモデルで構成され、用途や予算に応じた選択肢が用意されています。

  • GPT-4.1
    フラッグシップモデル。高精度な出力と堅牢な指示追従能力を実現し、フロントエンド開発など実務レベルのコード生成においても優れたパフォーマンスを発揮します。
  • GPT-4.1 mini
    高速かつ軽量なモデル。GPT-4oに比べ、レイテンシは約半分、運用コストは最大83%削減されており、バランスのとれた性能と効率性を両立しています。
  • GPT-4.1 nano
    最低レイテンシおよび低コストを追求。分類や補完タスクに最適化され、MMLU 80.1%、GPQA 50.3%、Aider diff 9.8%といった高い精度を記録しています。

主なアップデートと新機能

1. 指示追従能力の大幅強化

  • 評価結果
    • Scale社のMultiChallengeベンチマークでは38.3%を記録(GPT-4o比で+10.5%向上)。
    • IFEvalでは87.4%の正解率を達成(従来のGPT-4oは81.0%)。
  • 対応能力
    複雑なフォーマット遵守、否定命令、順序付き命令など具体的かつ明確なプロンプトに対して、より正確に対応できるようになりました。実務での活用シーンにおいて、高い精度の指示実行が期待されます。

2. 長文コンテキスト処理(最大100万トークン対応)

  • 大容量入力
    GPT-4.1シリーズは最大100万トークンの入力を処理可能。従来モデルの約8倍に相当する長文処理能力により、大規模なコードベースの解析、複数文書の一括処理、またRAG(Retrieval-Augmented Generation)用途での利用が容易になりました。
  • 新評価指標での実績
    Needle-in-a-Haystackテストや、新評価指標「OpenAI-MRCR」、「Graphwalks」において、長文全体で一貫した高精度を示しています。

3. コーディング性能の向上

  • 数値で見る改善
    • SWE-bench VerifiedではGPT-4.1が54.6%を記録(GPT-4oは33.2%)。
    • AiderのPolyglot benchmarkでも、GPT-4.5を上回る精度が実証されています。
  • 差分形式での編集提案
    コードの変更箇所を明確に示すdiff形式での編集支援により、コードレビューやバージョン管理システムとの連携が一層効率化されました。

価格情報とコスト効率

GPT4.1はGPT-4oよりも大幅にコスト削減された価格で提供しています。

(※価格は100万トークンあたり)

モデル名入力単価キャッシュ済み入力出力単価ブレンド価格(参考)
gpt-4.1$2.00$0.50$8.00$1.84
gpt-4.1 mini$0.40$0.10$1.60$0.42
gpt-4.1 nano$0.10$0.025$0.40$0.12

※ブレンド価格は、一般的な入力・出力・キャッシュ比率に基づく参考値です。

なお、これらのモデルはBatch APIでの利用にも対応しており、その場合は上記価格からさらに50%の割引が適用されます。

  • レスポンス速度と価格バランス
    最大100万トークン処理時でも、初期応答は約30秒以内に返され、nanoモデルでは128kトークンで5秒以内という高速性を確保。高性能と低コスト、両立を実現した点は、API利用における大きな魅力のひとつです。

開発者向けの情報

  • 提供形式と移行情報
    GPT-4.1シリーズは当面API経由でのみ提供されます。
    また、2025年7月14日にはGPT-4.5 Previewの提供が終了し、今後はGPT-4.1シリーズへの移行が推奨されます。

引用

あわせて読みたい
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。