今回は日常のさまざまなタスクを実行できる、GPTを利用した先進的なプロジェクト「UFO」の紹介をします。
WindowsOSをLLMで操作できる「UFO」とは?
「UFO」はWindows UI-Focused Agentの略で、GPT-Visionの能力を活用して、Windows OS上のユーザーリクエストに対してアプリケーションを操作できるAIエージェントです。
UFOは2つのエージェントフレームワークを採用し、アプリケーション選択するエージェント(AppAgent)とアクションを実行するエージェント(ActAgent)から構成されます。
AppAgentはユーザーのリクエストに適したアプリケーションを選択し、リクエストが複数のアプリケーションにまたがる場合は切り替える役割を持ちます。
一方、ActAgentは選択されたアプリケーションでアクションを繰り返し実行し、タスクが特定のアプリケーション内で成功裏に終了するまで責任を持ちます。
両エージェントは、GPT-Visionのマルチモーダル機能を活用してアプリケーションのUIを理解し、ユーザーのリクエストを遂行します。
AppAgentは、現在アクティブなアプリケーションからリクエストを満たすための適切なアプリケーションを選択し、全体的な計画を立て、それをActAgentに渡します。ActAgentは選択されたコントロールに対して特定のアクションを実行し、この反復的なプロセスはユーザーリクエストが選択されたアプリケーション内で成功裏に完了するまで続きます。
ユーザーリクエストが複数のアプリケーションにまたがる場合、ActAgentはAppAgentにタスクを委譲し、別のアプリケーションに切り替えることでリクエストの第二フェーズを開始します。
このプロセスは、ユーザーのリクエストが完全に完了するまで続きます。UFOは、すべてのユーザーリクエストが成功裏に完了すると操作を終了します。
その結果、UFOは面倒で時間のかかるプロセスを自然言語のコマンドだけで達成できるシンプルなタスクに変えて実行することができます。
一言でいえば
です。
「UFO」でできること
UFOはWindows上で、実行されている複数のアプリケーションの操作をユーザーの指示を理解して自動化することができます。
また論文では、次の2つの事例が紹介されています。
- PowerPointプレゼンテーションからすべてのメモを削除する
- 複数のアプリケーションから収集した情報でメールを作成する
また1の事例の動画は次のリンクから確認できます。
あとがき
UFOは、Windows上で複雑なユーザーリクエストを自動で実行できるAIエージェントです。
まさに我々が想像するようなSFの世界に一歩近づいていますね。
このプロジェクトはGitHub上で公開されており、誰でも簡単にこの先進的なフレームワークを試すことができます。
次回の記事では実際に「UFO」を実行して記事を掲載する予定です。
引用
Github:
論文: