「ブラウザ操作をAIに任せる」──そんな未来が、すでに現実のものになっています。

Pythonライブラリ 「browser-use」 を使えば、ChatGPT(GPT-4o)と連携して、Google検索、データ収集、フォーム入力、さらにはCAPTCHAの突破まで、あらゆるWeb操作を自動化できます。

「手作業でのリサーチが面倒」「定期的な情報取得を自動化したい」そんなあなたの悩みを、AIが一瞬で解決してくれる時代が到来しました。

本記事では、「browser-use」の基本から実践的な使い方、さらに応用的な活用法まで、 AIを活用したブラウザ自動化のすべて を徹底解説します。これを読めば、あなたも明日から「AIに仕事をさせる側」になれるかもしれません。

この記事の信ぴょう性
userimg
監修者 ライフコーポレーション 上田仁
当記事は、体験や実経験及び検証済みの知識を元に作成をして入念なチェックを行っています。

【検証ルール】仮説検証
当記事では対象とするコンテンツやサービスを確認し、実験や観察を通じてデータを収集、分析をしています。その上で商品の特徴やサービスの真偽を確認した上で記事にしています。万が一不明な点、誤りがありましたらお問い合わせよりご連絡を下さい。

「browser-use」とは?

「browser-use」 とは、Pythonで作られた強力なライブラリで、AIエージェントがブラウザを操作できるようにするツールです。ChatGPT(GPT-4o)などの大規模言語モデル(LLM)と連携し、人間が手作業で行うWeb操作を完全に自動化できます。

では見ていきましょう。

「browser-use」でできること

  • Webページの解析・情報取得 :ページのDOM(要素構造)を解析し、スクリーンショットやテキスト情報を取得
  • マルチタブ管理 :複数のタブを開いて並行作業が可能
  • カスタムアクション :データ保存や社内チャットへの通知など、独自のアクションを定義
  • 自己修正機能 :要素が見つからなかった場合に自動で修正・再試行
  • CAPTCHA突破 :特定のCAPTCHAをAIで解析して突破可能
  • LangChain・各種LLMとの互換性 :GPT-4oやClaude 3.5と連携可能
  • 複数エージェントの並列処理 :複数のタスクを同時に実行
ラッシー
ラッシー

このライブラリを使えば、「ブラウザを開いて情報を調べ、データを整理し、報告書を作成する」といった一連の作業をすべてAIに任せることが可能になります

2. 基本の使い方

とても簡単なので見ていきましょう。

1. インストール

まずは、「browser-use」をインストールしましょう。

pip install browser-use
playwright install

Python 3.11以上 が必要なので、事前に確認してください。

2. APIキーの設定

「browser-use」はLLMを活用するため、OpenAIやAnthropicのAPIキーを設定する必要があります。.env ファイルを作成し、以下のように記入します。

OPENAI_API_KEY=your_openai_api_key
ANTHROPIC_API_KEY=your_anthropic_api_key

3. WebUIの利用

「browser-use」には、コードを書かなくてもブラウザ操作を簡単に設定できる WebUI があります。

browser-use webui

このコマンドを実行すると、ローカルホストでWebUIが立ち上がり、ブラウザ上でタスクを設定・実行できます。

4. 基本的なコード(プログラムで実行したい場合)

「Googleで最新の天気を調べる」タスクを実行するサンプルコードです。

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="Googleで最新の天気予報を調べてください",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

このコードを実行すると、AIエージェントがGoogle検索を行い、最新の天気情報を取得してくれます。

3. 実践!ChatGPTでブラウザを操作する

ここでは、具体的なタスクを自動化する方法を紹介します。

1. Google検索を自動化

async def main():
    agent = Agent(
        task="AI関連の最新ニュースをGoogleで検索し、上位3件のタイトルを取得してください",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

このコードを実行すると、Google検索で最新のAIニュースを取得し、上位3件のタイトルを出力します。

2. フォーム入力を自動化

async def main():
    agent = Agent(
        task="Twitterのログイン画面を開いて、ユーザー名とパスワードを入力してください",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

4. 応用編(CAPTCHA突破・マルチタブ管理・ファイルアップロード)

1. CAPTCHA突破

「browser-use」は、GPT-4oを活用して特定のCAPTCHAを解析し突破できます。

async def main():
    agent = Agent(
        task='go to https://captcha.com/demos/features/captcha-demo.aspx and solve the captcha',
        llm=ChatOpenAI(model='gpt-4o'),
    )
    await agent.run()

asyncio.run(main())

2. マルチタブ操作

async def main():
    agent = Agent(
        task='open 3 tabs with Elon Musk, Trump, and Steve Jobs Wikipedia pages, then go back to the first tab and stop',
        llm=ChatOpenAI(model='gpt-4o'),
    )
    await agent.run()

asyncio.run(main())

3. ファイルアップロード

from browser_use.agent.views import ActionResult
from browser_use.browser.context import BrowserContext

@controller.action('Upload file', requires_browser=True)
async def upload_file(index: int, browser: BrowserContext):
    path = 'path/to/your/file.txt'
    dom_el = await browser.get_dom_element_by_index(index)
    await dom_el.set_input_files(path)
    return ActionResult(extracted_content='File uploaded successfully')

5. 活用例(仕事や趣味でどう使える?)

「browser-use」を活用すれば、以下のような作業を自動化できます。

  • ニュース記事の収集 → 毎朝自動で最新ニュースをまとめる
  • データスクレイピング → 特定サイトからデータを取得し、スプレッドシートに保存
  • SNS運用 → 自動投稿やDMの送信
  • ホテルや飛行機の予約 → 価格比較サイトで最安値を自動検索
  • ECサイトの価格監視 → 欲しい商品の値下げを自動でチェック

CHATGPTのオペレーターのようなものと思えば分かりやすいですね。

AIがWEBブラウザ上の文字を読み取って考えて移動して操作するというものです。

まだ、完璧とは言い切れませんが これはかなりのAIの進化です。

パソコンまで扱えるようになると人間がパソコンを利用して行う仕事の9割はAIがカバーできるようになると言われてます。

6. まとめ

「browser-use」は、単なるブラウザ自動化ツールではなく、 AIを活用した次世代のWebオートメーション を実現する強力なライブラリです。

PythonとChatGPTを組み合わせることで、「Web上の情報収集」「フォーム入力」「ファイルアップロード」「CAPTCHA突破」など、今まで手作業で行っていた作業をすべてAIに任せることが可能になります。

ラッシー
ラッシー

これからの時代、AIを「使われる側」ではなく、「使う側」になるために、今すぐ「browser-use」を試してみませんか?

追記 browser-use 値段

browser-useにはAP通信が必要です。

Image
Image
Image

全てテストしてませんがClaudは割と高くつきますが CHATGPT4oならリーズナブルに使えます。

まだ他のAIではテストしていませんが精度の低いモデルでは、基本的に使えません。

凄い!というのは事実ですが 何に使うの?というとアイデア必須。

コスパ的にはフル活用するなら GPTのプロ版 🈷200ドルの機能を使って自動操縦しまくるのが良いと言えます。