今回の記事ではGoogle Bardにも使われている大規模言語モデルの「Gemini Pro」のAPIを使う方法の解説をしていきます。
Gemini Pro APIの概要
Gemini Pro APIは、Google AIが提供する生成AIモデルのAPIです。
テキスト生成、画像解釈、翻訳、チャットなど、さまざまなアプリケーションに組み込むことができます。
Gemini Pro APIでできること
Gemini ProのAPIを利用することで、
- テキスト生成:ニュース記事やブログ記事、Webサイトのコンテンツなど、さまざまなテキストを生成することができます。
- 画像解釈:画像内のテキストやオブジェクトを認識し、その情報をテキストとして出力することができます。
- 翻訳:テキストの翻訳を行うことができます。
- チャット:ユーザーの質問や要求に応じて、テキストを生成して会話を行うことができます。
などの機能を実装することができます。
Gemini Pro APIの利用開始手順
今回はGoogle AI StudioからAPIを利用する方法を試してみます。
以下のURLにアクセスしてください。
「Get API key in Google AI Studio」をクリックします。
利用規約が表示されるので、チェックを入れて「Continue」クリックします。
次に左側のメニューの「Get API Key」をクリックして、「Create API key in new project」をクリックしてください。
APIキーが発行されます。
※API Keyは厳重に保管してください。
Gemini Pro APIの動作確認
では実際にPythonを使って動作確認していきます。
最初に関係するライブラリをインポートします。
pip install google-generativeai
今回は日本の総理大臣を聞いてみました。
プログラミングコード
# APIキーを取得する
API_KEY = "API-Key"
# google-generativeaiモジュールをインポートし、APIキーを設定する
import google.generativeai as genai
genai.configure(api_key=API_KEY)
# 生成モデルを選択し、インスタンスを作成する
model = genai.GenerativeModel(model_name='gemini-pro')
# チャットを開始し、メッセージを送信する
chat = model.start_chat()
response = chat.send_message("日本の総理大臣は?")
# レスポンスを表示する
print(response.text)
実行結果
実行結果書き起こし
岸田文雄(きしだ ふみお): 2021年10月就任
2024年1月時点で正しい情報を提供してくれました。
次にGeminiProのマルチモーダル機能を試してみました。
料理の画像の情報を聞いてみました。
読み込む画像
プログラミングコード
import google.generativeai as genai
import PIL.Image
# APIキーを設定
API_KEY = "API-Key"
genai.configure(api_key=API_KEY)
# モデルを選択
model = genai.GenerativeModel('gemini-pro-vision')
# 画像を読み込む
image_path = PIL.Image.open('testimage.jpg')
# プロンプトと画像を使用してコンテンツを生成
prompt = "画像の料理について教えて下さい。"
response = model.generate_content([prompt,image_path], stream=True)
response.resolve()
# レスポンスを表示
print(response.text)
実行結果
実行結果書き起こし
サラダの上に、茹でたエビが乗っています。ドレッシングはマヨネーズベースで、ディルが入っています。
サラダとして認識しただけでなく、具材などの詳細も教えてくれました。
あとがき
今回の記事ではGemini Pro APIの利用方法を解説しました。
2024年1月現在、無料で利用可能ですので色々試してみたいと思います。