OperatorがあればBrowser-useも不要！

OpenAIは1月23日(米国時間)、ユーザの変わりにブラウザを操作しタスクを実行するAIエージェント「Operator」を発表しました。リアルタイムでBrowser-useを触っているボクとしては、俄然触りたい！そんな気分になりましたね。

YouTubeライブでデモ
Operatorがあれば
まとめ

YouTubeライブでデモ

まずはこちらをご覧下さい。

残念ながら、英語ができないボクには意味不明(笑)ですが、できることは、ある程度わかりました。

Operatorでは、Computer-Using Agent（CUA）という新しいモデルを採用しているそうです。これはビジョン機能付きGPT-4oを先進的な強化学習をで鍛え、人間がグラフィカルユーザーインタフェースを操作する様子を学習。

ユーザがタスクを指定すると、左側にエージェントの動作履歴、右側にブラウザが開き、操作画面を確認できます。

Operatorがあれば

本業のタスクはもちろん、副業でも色んなタスクを手助けしてくれるでしょう。もちろん、普通に家のことも！

具体的な使用イメージとしては

レストラン予約
ネットスーパーでの買い物
タイピング、クリック、スクロール
SNSやウェブ検索のリサーチ作業
マルチタスクの並行実行

と、色んなタスクが出来るのは間違いないんです。ただ、Browser-useとどう違うのか？基本的には同じなんですが、Browser-useと違うのは実行中のタスクにユーザが介入できることですね。

Browser-useでは処理が完了するまでは何も出来ません。基本的に。

なので、ここは大きな進化じゃないでしょうか？後は、マルチタスクですね。それぞれのスレッドでOperatorが自動で操作してくれます。なので、いくつものタスクを同時に実行できます。レストランの予約をしながら、SNSの検索なんて楽勝でしょう(笑)

まとめ

現在はProだけに提供していますが、Plus、Team、Enterpriseプランへの拡大も予定しているそうなので、期待が高まります。

まだまだ、セキュリティ関連も危険視されるかもしれませんが、便利になることは間違いない！

Operatorを使って、どんなツールを作るのかが楽しみです！