OpenAIは2025年1月24日、ブラウザ操作を自動化する新しいAIエージェント「Operator」を発表しました。
このエージェントは、ウェブ上でのタスクをユーザーに代わって実行する能力を持ち、現在は米国のProユーザー向けにリサーチプレビューとして提供されています。
Operatorは、日常の反復的なタスクを効率化することを目的とし、旅行の予約、フォームの記入、日用品の購入など、幅広い用途に対応します。このAIは、ユーザーが行うようなブラウザ操作(クリック、入力、スクロールなど)を再現できる「Computer-Using Agent(CUA)」モデルを搭載しています。CUAは、GPT-4oの視覚認識能力と強化学習による高度な推論を組み合わせて訓練されており、従来のカスタムAPI統合を必要とせず、ウェブ上のグラフィカルユーザーインターフェース(GUI)を直接操作することが可能です。
機能と使い方
Operatorの使い方はシンプルで、ユーザーが実行したいタスクを指示するだけで、残りの作業を自動化します。たとえば、「TripAdvisorでローマの1日ツアーを検索して予約する」といったリクエストを受けると、Operatorはブラウザ上で必要な操作を行い、結果を提示します。ユーザーは、必要に応じてブラウザの操作を引き継ぐことも可能です。また、繰り返し行うタスクはカスタムプロンプトとして保存し、迅速にアクセスできるようにすることもできます。
さらに、Operatorは複数のタスクを同時に実行する能力を備えており、例えば、Etsyでマグカップをカスタマイズしながら、キャンプ場を予約するといった並行作業も可能です。この機能により、時間の節約と作業効率の向上が期待されています。
段階的な展開
OpenAIは、Operatorの展開を慎重に進める方針を示しています。初期段階では米国のProユーザー限定で提供し、今後Plus、Team、Enterpriseユーザーへの拡大を計画しています。また、ユーザーのフィードバックを基に機能改善を行い、安全性と信頼性を向上させる予定です。Operatorは、ログイン情報や決済情報が必要な場合にユーザーの操作を求める設計となっており、安心して利用できる環境を整えています。
企業や公共部門への応用
Operatorは個人ユーザーだけでなく、企業や公共部門でも幅広い活用が見込まれています。OpenAIは、DoorDash、Instacart、Uberなどの企業と提携し、顧客体験の向上やコンバージョン率の向上を目指しています。また、公共部門では、米国カリフォルニア州ストックトン市との協力により、市民サービスの利用手続きを簡素化する取り組みを進めています。
引用