Firecrawl
OpenClaw 可以使用 Firecrawl 作为 web_fetch 的回退提取器。它是一个托管的 内容提取服务,支持规避机器人和缓存,这有助于 处理 JS 密集型网站或阻止普通 HTTP fetches 的页面。
获取 API key
- 创建 Firecrawl 账户并生成 API key。
- 将其存储在 config 中或在 gateway 环境中设置 FIRECRAWL_API_KEY。
配置 Firecrawl
{
tools: {
web: {
fetch: {
firecrawl: {
apiKey: "FIRECRAWL_API_KEY_HERE",
baseUrl: "https://api.firecrawl.dev",
onlyMainContent: true,
maxAgeMs: 172800000,
timeoutSeconds: 60
}
}
}
}
}
注意事项:
- 当存在 API key 时,firecrawl.enabled 默认为 true。
- maxAgeMs 控制缓存结果的年龄(ms)。默认为 2 天。
Stealth (隐身) / bot circumvention (规避机器人)
Firecrawl 暴露了一个用于规避机器人的 proxy mode (代理模式) 参数(basic, stealth 或 auto)。 OpenClaw 始终对 Firecrawl 请求使用 proxy: "auto" 加上 storeInCache: true。 如果省略 proxy,Firecrawl 默认为 auto。auto 在基本尝试失败时使用 stealth proxies 重试,这可能比仅基本抓取使用更多积分。
web_fetch 如何使用 Firecrawl
web_fetch 提取顺序:
- Readability (本地)
- Firecrawl (如果配置)
- 基本 HTML 清理(最后回退)
查看 Web tools 了解完整的 web tool 设置。