Stability AIは日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開しました。入力した画像に対して文字で説明を生成できる画像キャプション機能に加え、画像についての質問を文字で入力することで回答することもできます。
Japanese InstructBLIP Alpha
「Japanese InstructBLIP Alpha」は、先日公開された日本語向け指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を拡張した、画像を元にしたテキストが生成されるモデルです。
「Japanese InstructBLIP Alpha」は、高いパフォーマンスが報告されている画像言語モデルInstructBLIPのモデル構造を用いております。少ない日本語データセットで高性能なモデルを構築するために、モデルの一部を大規模な英語のデータセットで事前学習されたInstructBLIPによって初期化し、限られた日本語データセットを用いてチューニングしています。
このモデルの活用例として、画像を用いた検索エンジン、目の前に情景説明や質疑応答、そして目の不自由な方などに画像について文字で説明する、などが考えられます。
性能
日本語テキストを生成することに加えて、日本特有の建造物(例えば、東京スカイツリーや金閣寺)を正しく認識することが可能です。
また、入力は画像に加え、質問などのテキストも入力可能です。例えば以下の例のように、入力された画像についての質問に返答をすることもできます。
使用方法
このモデルは Hugging Face Hub において Hugging Face Transformers に準拠する形式で公開しています。Hugging Face Transformers の他のモデルと同様に推論や追加学習をお試しいただけます。詳しくは、Hugging Face Hub のページをご覧ください。
「Japanese InstructBLIP Alpha」は研究目的で作成されたモデルであり、研究目的での利用に限定した公開となります。詳細は Hugging Face Hub のページをご確認ください。
展望
「Japanese InstructBLIP Alpha」は、Stability AI Japanが発表する最初の画像言語モデルです。英語圏と比べ、日本語のデータセットは限られており、マルチモーダル(複数のデータ形式)なデータセットはさらに限られております。そのような中、Stability AIでは、研究開発を積極的に行い、今後も日本向けの生成基盤モデルを構築・公開することで、日本のAIコミュニティのさらなる活性化に貢献していく予定です。
Stability AI Japan株式会社について
Stability AI は、オープンな生成AIの企業であり、公共および民間のパートナーと協力して、次世代のインフラストラクチャを世界中の人々に提供しています。ロンドンに本社を置き、世界中に開発者を擁する Stability AI のオープン理念は、イメージング、言語、コード、オーディオ、ビデオ、3Dコンテンツ、デザイン、バイオテクノロジー、その他の科学研究における最先端の研究に新しい道を提供します。詳細については、https://ja.stability.ai をご参照ください。
引用