OpenAI、画像推論・ツール連携が可能な最先端の思考型AI「o3」と「o4-mini」を発表

2025年4月17日

OpenAIは2025年4月14日、新たな大規模言語モデル「o3」と「o4-mini」を発表した。これらは同社の最新世代モデルであり、特に視覚推論能力とツール統合の面で大きな進化を遂げた。ChatGPT Plus、Pro、Teamの全ユーザーに即日提供が開始されており、ChatGPT Enterpriseおよび教育機関向けには1週間以内に展開される予定だ。

「o3」は、OpenAIが提供する中でも最も高性能な汎用モデルとして位置づけられ、コーディング、数学、科学、視覚推論の分野で新たなスタンダードを確立する。また、「o4-mini」はその軽量版ながらも非常に高い知性を持ち、処理速度とコスト効率に優れる点が特徴だ。これにより、API経由での高頻度かつ大量利用にも適しており、質問量の多いユースケースに最適とされている。

特筆すべきは、両モデルが「画像を使って考える（think with images）」という、全く新しい推論プロセスを実現している点である。ユーザーがアップロードした画像をチェーン・オブ・ソート（思考連鎖）の一部として統合することで、従来のモデルを凌駕する視覚的理解と文脈把握を可能にしている。これにより、単に画像を「見る」のではなく、画像から「考える」AIが実現された。

加えて、o3およびo4-miniはすでにChat Completions APIとResponses APIでも提供が開始されており、開発者も活用可能だ。特にResponses APIは、関数呼び出しの前後における思考トークンの保存や、要約の最適化、今後搭載予定のWeb検索やコード実行などのツール統合機能も視野に入れて開発が進められている。

今回のリリースにより、従来の「o1」「o3-mini」シリーズはモデル選択から外れ、新たに「o3」「o4-mini」「o4-mini-high」がChatGPTのモデル選択に加わった。Proユーザー向けには、今後「o3-pro」も追加予定である。

引用

Introducing OpenAI o3 and o4-mini—our smartest and most capable models to date.

For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE
— OpenAI (@OpenAI) April 16, 2025