2025年4月14日にOpenAIは大幅に性能が向上した新たな大規模言語モデル「GPT-4.1」シリーズをAPI向けにリリースしました。今回のアップデートでは、従来のGPT-4oを上回る指示追従能力、長文コンテキスト処理能力、実践的なコーディング支援とともに、コスト面でも大きな改善が実現されました。
モデルラインナップ
GPT-4.1シリーズは、以下の3種類のモデルで構成され、用途や予算に応じた選択肢が用意されています。
- GPT-4.1
フラッグシップモデル。高精度な出力と堅牢な指示追従能力を実現し、フロントエンド開発など実務レベルのコード生成においても優れたパフォーマンスを発揮します。 - GPT-4.1 mini
高速かつ軽量なモデル。GPT-4oに比べ、レイテンシは約半分、運用コストは最大83%削減されており、バランスのとれた性能と効率性を両立しています。 - GPT-4.1 nano
最低レイテンシおよび低コストを追求。分類や補完タスクに最適化され、MMLU 80.1%、GPQA 50.3%、Aider diff 9.8%といった高い精度を記録しています。
主なアップデートと新機能
1. 指示追従能力の大幅強化
- 評価結果
- Scale社のMultiChallengeベンチマークでは38.3%を記録(GPT-4o比で+10.5%向上)。
- IFEvalでは87.4%の正解率を達成(従来のGPT-4oは81.0%)。
- 対応能力
複雑なフォーマット遵守、否定命令、順序付き命令など具体的かつ明確なプロンプトに対して、より正確に対応できるようになりました。実務での活用シーンにおいて、高い精度の指示実行が期待されます。
2. 長文コンテキスト処理(最大100万トークン対応)
- 大容量入力
GPT-4.1シリーズは最大100万トークンの入力を処理可能。従来モデルの約8倍に相当する長文処理能力により、大規模なコードベースの解析、複数文書の一括処理、またRAG(Retrieval-Augmented Generation)用途での利用が容易になりました。 - 新評価指標での実績
Needle-in-a-Haystackテストや、新評価指標「OpenAI-MRCR」、「Graphwalks」において、長文全体で一貫した高精度を示しています。
3. コーディング性能の向上
- 数値で見る改善
- SWE-bench VerifiedではGPT-4.1が54.6%を記録(GPT-4oは33.2%)。
- AiderのPolyglot benchmarkでも、GPT-4.5を上回る精度が実証されています。
- 差分形式での編集提案
コードの変更箇所を明確に示すdiff形式での編集支援により、コードレビューやバージョン管理システムとの連携が一層効率化されました。
価格情報とコスト効率
GPT4.1はGPT-4oよりも大幅にコスト削減された価格で提供しています。
(※価格は100万トークンあたり)
モデル名 | 入力単価 | キャッシュ済み入力 | 出力単価 | ブレンド価格(参考) |
---|---|---|---|---|
gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1 mini | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1 nano | $0.10 | $0.025 | $0.40 | $0.12 |
※ブレンド価格は、一般的な入力・出力・キャッシュ比率に基づく参考値です。
なお、これらのモデルはBatch APIでの利用にも対応しており、その場合は上記価格からさらに50%の割引が適用されます。
- レスポンス速度と価格バランス
最大100万トークン処理時でも、初期応答は約30秒以内に返され、nanoモデルでは128kトークンで5秒以内という高速性を確保。高性能と低コスト、両立を実現した点は、API利用における大きな魅力のひとつです。
開発者向けの情報
- 提供形式と移行情報
GPT-4.1シリーズは当面API経由でのみ提供されます。
また、2025年7月14日にはGPT-4.5 Previewの提供が終了し、今後はGPT-4.1シリーズへの移行が推奨されます。
引用