xAIは画像認識が可能な「Grok-1.5V」を発表

ChatGPT

2024年4月12日にxAIは同社初のマルチモーダルモデルである、「Grok-1.5V」を発表しました。

従来のテキスト処理能力に加え、Grok-1.5Vは文書、図表、チャート、スクリーンショット、写真など、さまざまな視覚情報の処理が可能です。
ベンチマークでは、一部の項目で他社の最新モデルを上回る性能を見せています。

また公式ブログでは「図からPythonコードを生成」するなどの7つのサンプルが公開されています。

この新モデルは早期テスターや既存のGrokユーザーに近日中に提供される予定です。

引用

Grok-1.5 Vision Preview
Connecting the digital and physical worlds with our first multimodal model.

AI・DX・LowCodeなど企業に役立つ情報を発信しています。


タイトルとURLをコピーしました