OperatorがあればBrowser-useも不要!
OpenAIは1月23日(米国時間)、ユーザの変わりにブラウザを操作しタスクを実行するAIエージェント「Operator」を発表しました。リアルタイムでBrowser-useを触っているボクとしては、俄然触りたい!そんな気分になりましたね。
YouTubeライブでデモ
まずはこちらをご覧下さい。
残念ながら、英語ができないボクには意味不明(笑)ですが、できることは、ある程度わかりました。
Operatorでは、Computer-Using Agent(CUA)という新しいモデルを採用しているそうです。これはビジョン機能付きGPT-4oを先進的な強化学習をで鍛え、人間がグラフィカルユーザーインタフェースを操作する様子を学習。
ユーザがタスクを指定すると、左側にエージェントの動作履歴、右側にブラウザが開き、操作画面を確認できます。
Operatorがあれば
本業のタスクはもちろん、副業でも色んなタスクを手助けしてくれるでしょう。もちろん、普通に家のことも!
具体的な使用イメージとしては
- レストラン予約
- ネットスーパーでの買い物
- タイピング、クリック、スクロール
- SNSやウェブ検索のリサーチ作業
- マルチタスクの並行実行
と、色んなタスクが出来るのは間違いないんです。ただ、Browser-useとどう違うのか?基本的には同じなんですが、Browser-useと違うのは実行中のタスクにユーザが介入できることですね。
Browser-useでは処理が完了するまでは何も出来ません。基本的に。
なので、ここは大きな進化じゃないでしょうか?後は、マルチタスクですね。それぞれのスレッドでOperatorが自動で操作してくれます。なので、いくつものタスクを同時に実行できます。レストランの予約をしながら、SNSの検索なんて楽勝でしょう(笑)
まとめ
現在はProだけに提供していますが、Plus、Team、Enterpriseプランへの拡大も予定しているそうなので、期待が高まります。
まだまだ、セキュリティ関連も危険視されるかもしれませんが、便利になることは間違いない!
Operatorを使って、どんなツールを作るのかが楽しみです!