最快的方式：直接使用 Firecrawl Cloud。注册后获取 API Key。

# Docker 部署 docker run -d -p 3002:3002 -e API_KEY=your-key nickcernis/firecrawl

Q：能抓取需要登录的页面吗？A：Firecrawl 支持设置 Cookie 和自定义 Headers，可以模拟登录态抓取。

最快的方式：直接使用 Firecrawl Cloud。注册后获取 API Key。

# Docker 部署 docker run -d -p 3002:3002 -e API_KEY=your-key nickcernis/firecrawl

Q：能抓取需要登录的页面吗？A：Firecrawl 支持设置 Cookie 和自定义 Headers，可以模拟登录态抓取。

Firecrawl - 网页数据转LLM格式采集工具

训练 AI 模型，数据从哪里来？

做 RAG 知识库、微调大模型、训练行业 AI——嘴上说说很简单，真干起来第一步就卡住了：数据怎么搞？

网页上的内容最多最丰富，但复制粘贴显然不现实。几十上百个页面，手动复制到什么时候？还得把 HTML 转成干净的纯文本，去掉广告和导航栏，保留正文内容。用传统爬虫吧，写规则就得折腾半天。

🌐输入 URL

→

🕷️智能爬取

→

🧹内容提取

→

📝Markdown

→

🧩结构化数据

→

🤖LLM 就绪