2024年4月12日にxAIは同社初のマルチモーダルモデルである、「Grok-1.5V」を発表しました。
従来のテキスト処理能力に加え、Grok-1.5Vは文書、図表、チャート、スクリーンショット、写真など、さまざまな視覚情報の処理が可能です。
ベンチマークでは、一部の項目で他社の最新モデルを上回る性能を見せています。

また公式ブログでは「図からPythonコードを生成」するなどの7つのサンプルが公開されています。

この新モデルは早期テスターや既存のGrokユーザーに近日中に提供される予定です。
引用
あわせて読みたい
Grok-1.5 Vision Preview
Connecting the digital and physical worlds with our first multimodal model.