Firecrawl

OpenClaw は web_fetch のフォールバック抽出ツールとして Firecrawl を使用できます。これは、ボット回避とキャッシュをサポートするホスト型コンテンツ抽出サービスで、JavaScript を多用したサイトや通常の HTTP フェッチをブロックするページに役立ちます。

API キーの取得

  1. Firecrawl アカウントを作成し、API キーを生成します。
  2. 設定ファイルに保存するか、Gateway 環境で FIRECRAWL_API_KEY を設定します。

Firecrawl の設定

{
  tools: {
    web: {
      fetch: {
        firecrawl: {
          apiKey: "FIRECRAWL_API_KEY_HERE",
          baseUrl: "https://api.firecrawl.dev",
          onlyMainContent: true,
          maxAgeMs: 172800000,
          timeoutSeconds: 60
        }
      }
    }
  }
}

注意点:

  • firecrawl.enabled は API キーが存在する場合、デフォルトで true になります。
  • maxAgeMs はキャッシュされた結果の保持期間(ミリ秒)を制御します。デフォルトは 2 日間です。

ステルス / ボット回避

Firecrawl はボット回避のための プロキシモード パラメータ(basicstealth、または auto)を公開しています。 OpenClaw は常に Firecrawl リクエストに対して proxy: "auto"storeInCache: true を使用します。 プロキシが省略された場合、Firecrawl はデフォルトで auto になります。auto は基本的な試行が失敗した場合にステルスプロキシで再試行するため、基本のみのスクレイピングよりも多くのクレジットを使用する可能性があります。

web_fetch が Firecrawl を使用する方法

web_fetch の抽出順序:

  1. Readability(ローカル)
  2. Firecrawl(設定されている場合)
  3. 基本的な HTML クリーンアップ(最後のフォールバック)

完全な Web ツールの設定については、Web ツールを参照してください。