2024年12月7日、Googleは視覚と言語を統合した新たなAIモデル「PaliGemma 2」を発表しました。
このモデルは、画像や動画の内容を理解し、テキストで表現する能力を持ち、さまざまなタスクでの応用が期待されています。
PaliGemma 2は、前モデルであるPaliGemmaの性能を大幅に向上させ、より複雑な視覚情報の解析と高度な言語生成を可能にしました。
これにより、画像キャプション生成、視覚質問応答、物体検出、セグメンテーションなど、多岐にわたるタスクでの活用が見込まれます。
Googleは、PaliGemma 2をオープンソースとして公開し、研究者や開発者が自由に利用・改良できるようにしています。これにより、AIコミュニティ全体での技術革新が促進されることが期待されています。
PaliGemma 2の詳細やダウンロードは、Googleの公式サイトやKaggle、Hugging Faceなどで提供されています。また、デモンストレーションも公開されており、実際の動作を体験することが可能です。
この新モデルの登場により、視覚と言語を組み合わせたAIの可能性がさらに広がり、さまざまな分野での応用が進むことが期待されています。
引用