博報堂テクノロジーズ、日本語特化の視覚と言語を組み合わせた事前学習モデルを開発―画像検索において、英語モデルを上回る検索精度を実現―

2024年3月15日

画像検索や多様なAI応用に寄与する、日本語に特化した事前学習モデルの開発を発表、無償公開。

株式会社博報堂テクノロジーズ（東京都港区、代表者：米谷修）は、日本語に特化した画像とテキストの理解を深めるための視覚言語事前学習モデルを開発し、このたびHugging Face上で無償公開（ただし非商用に限る）したことをお知らせします。このモデルは、画像検索、テキストからの画像生成、画像のタグ付け、画像に対する質問応答など、多岐にわたる応用が可能です。

【研究・開発の背景と貢献】

多くの視覚言語事前学習（Vision-Language Pre-training; VLP）技術は、英語中心の開発により、日本語データへの対応が不十分でした。博報堂テクノロジーズは、画像エンコーダの改良と訓練データ量の増加、言語エンコーダの能力強化を通じ、日本語特化VLPモデルを開発。このモデルにより、例えば「桜の花が満開の公園」など具体的なシーンを日本語で検索した際、関連度の高い画像を正確に見つけ出すことが可能になります。

【今後の展望】

今回のモデル公開により、研究コミュニティやAI技術の開発者に対し、より高度な日本語の視覚言語理解の基盤を提供します。博報堂テクノロジーズは、今後も継続的な技術革新を通じて、研究コミュニティへの貢献を強化していく予定です。

【詳細情報】

開発したVLPモデルの技術的詳細や応用例については、博報堂テクノロジーズの公式Hugging Faceページを通じて提供します。興味のある研究者や開発者は、以下のリンクからアクセスし、モデルの使用や研究への応用が可能です。

Hugging Face:

Japanese CLIP ViT-H/14 (Base)：https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-base

Japanese CLIP ViT-H/14 (Deeper)：https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-deeper

Japanese CLIP ViT-H/14 (Wider)*：https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-wider

* 検索精度最高のモデル、推奨モデル

関連情報

・言語処理学会第30回年次大会(NLP2024)

・登壇テーマ：日本語特化の視覚と言語を組み合わせた事前学習モデルの開発 Developing Vision-Language Pre-Trained Models for Japanese
・登壇者：王直, 細野健人, 石塚湖太, 奥田悠太, 川上孝介
・所属：博報堂テクノロジーズプロダクト開発センター
・イベントページ：https://www.anlp.jp/proceedings/annual_meeting/2024/#B6-5

・NVIDIA GTC 2024

・登壇テーマ：日本語特化の視覚と言語を組み合わせた事前学習（VLP）モデルの開発
・登壇者：王直
・所属：博報堂テクノロジーズプロダクト開発センター
・イベントページ：https://www.nvidia.com/ja-jp/gtc/session-catalog/#/session/1699939485623001yQ5Z?search.sessionspokenlanguage=1594320459782002LzDW

・開発部署：プロダクト開発センター

博報堂テクノロジーズのプロダクト開発センターは、AI技術の研究開発をリードし、エンジン部分からアプリケーションに至るまでの開発をフルスクラッチで手がけています。このセンターは、広告業界に限らず、多様な分野に革新的なソリューションを提供することを目指しています。

株式会社博報堂テクノロジーズ

フルファネルマーケティング・生活者インターフェース市場・メディア・クリエイティブ領域をはじめとした各種テクノロジー戦略の立案・開発を行うテクノロジー専門会社。マーケティング×テクノロジーの力で、社会と生活者に新しい価値や体験を提供するテクノロジー戦略会社として、博報堂ＤＹグループの開発体制を集結し、体制強化・進化を目的として2022年4月に設立。

Webサイト：https://www.hakuhodo-technologies.co.jp/