Windowsの操作を自動化!?Microsoftのオープンソースプロジェクト「UFO」

今回は日常のさまざまなタスクを実行できる、GPTを利用した先進的なプロジェクト「UFO」の紹介をします。

目次

WindowsOSをLLMで操作できる「UFO」とは?

「UFO」はWindows UI-Focused Agentの略で、GPT-Visionの能力を活用して、Windows OS上のユーザーリクエストに対してアプリケーションを操作できるAIエージェントです。

UFOは2つのエージェントフレームワークを採用し、アプリケーション選択するエージェント(AppAgent)とアクションを実行するエージェント(ActAgent)から構成されます。


AppAgentはユーザーのリクエストに適したアプリケーションを選択し、リクエストが複数のアプリケーションにまたがる場合は切り替える役割を持ちます。

一方、ActAgentは選択されたアプリケーションでアクションを繰り返し実行し、タスクが特定のアプリケーション内で成功裏に終了するまで責任を持ちます。

両エージェントは、GPT-Visionのマルチモーダル機能を活用してアプリケーションのUIを理解し、ユーザーのリクエストを遂行します。

AppAgentは、現在アクティブなアプリケーションからリクエストを満たすための適切なアプリケーションを選択し、全体的な計画を立て、それをActAgentに渡します。ActAgentは選択されたコントロールに対して特定のアクションを実行し、この反復的なプロセスはユーザーリクエストが選択されたアプリケーション内で成功裏に完了するまで続きます。

ユーザーリクエストが複数のアプリケーションにまたがる場合、ActAgentはAppAgentにタスクを委譲し、別のアプリケーションに切り替えることでリクエストの第二フェーズを開始します。

このプロセスは、ユーザーのリクエストが完全に完了するまで続きます。UFOは、すべてのユーザーリクエストが成功裏に完了すると操作を終了します。


その結果、UFOは面倒で時間のかかるプロセスを自然言語のコマンドだけで達成できるシンプルなタスクに変えて実行することができます。

一言でいえば

UFOはWindows上で複雑なユーザーリクエストを自動で実行できるAIエージェント

です。

「UFO」でできること

UFOはWindows上で、実行されている複数のアプリケーションの操作をユーザーの指示を理解して自動化することができます。

また論文では、次の2つの事例が紹介されています。

  1. PowerPointプレゼンテーションからすべてのメモを削除する
  2. 複数のアプリケーションから収集した情報でメールを作成する

また1の事例の動画は次のリンクから確認できます。

あわせて読みたい

あとがき

UFOは、Windows上で複雑なユーザーリクエストを自動で実行できるAIエージェントです。
まさに我々が想像するようなSFの世界に一歩近づいていますね。

このプロジェクトはGitHub上で公開されており、誰でも簡単にこの先進的なフレームワークを試すことができます。

次回の記事では実際に「UFO」を実行して記事を掲載する予定です。

引用

Github:

GitHub
GitHub - microsoft/UFO: A UI-Focused Agent for Windows OS Interaction. A UI-Focused Agent for Windows OS Interaction. Contribute to microsoft/UFO development by creating an account on GitHub.

論文:

arXiv.org
UFO: A UI-Focused Agent for Windows OS Interaction We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO...
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次