今天我们将在阿里云百炼平台上实践,使用 Firecrawl 提供的 MCP 服务来构建一个新闻抓取 Agent。
配置 Firecrawl MCP 服务
首先,在阿里云百炼平台中找到“模型广场”下的“模型上下文协议 (MCP)”菜单项,然后在服务市场中找到 Firecrawl MCP 服务。
我们需要先从 Firecrawl 官网 (https://www.firecrawl.dev/) 获取 API Key。
获取到 API Key 后,返回阿里云百炼平台,在添加 Firecrawl MCP 服务时,将 API Key 填入对应的配置项。
创建并配置智能体 (Agent)
接下来,我们需要创建一个智能体 (Agent) 来使用这个 MCP 服务。如果你还没有智能体,可以先新建一个。
在选择模型时需要注意,目前(根据测试情况)Deepseek 模型可能尚不支持 MCP。因此,我们选择阿里云通义系列的模型,例如通义千问-Max。
为智能体设置合适的提示词 (Prompt),指导它如何使用工具进行新闻抓取和生成海报。
确保开启智能体的联网选项。
最后,将配置好的 Firecrawl MCP 服务添加到智能体的可用工具列表中。
测试新闻抓取与海报生成
现在,我们可以开始测试了。向配置好的智能体发出抓取新闻内容的指令。
观察 MCP 的运行情况,可以看到智能体正在调用 Firecrawl 服务抓取指定网页的内容。
抓取完成后,智能体会输出整理好的新闻内容。
最后,根据提示词中的要求,智能体生成了包含新闻内容的海报页面代码。
最终生成的海报显示效果:
补充知识:Firecrawl (https://www.firecrawl.dev/) 相关介绍
Firecrawl 简介
Firecrawl 是一款创新的 API 服务和爬虫工具,专注于将网页内容(URL)抓取并转化为干净的 Markdown 或结构化数据。它能够自动发现并抓取网站的所有可访问子页面,特别擅长处理使用 JavaScript 动态加载内容的网站,并将结果处理成适合大型语言模型 (LLM) 使用的格式。该项目在 GitHub 上广受欢迎(曾获 26.2K star)。
在 Firecrawl 网站可进行的操作
- 获取 API 密钥:
用户可以在官网注册并获取 API 密钥(https://www.firecrawl.dev/pricing)。提供免费计划(适合非商业项目)和付费计划。获取密钥后,可以通过设置环境变量或在代码中直接传递来使用官方 SDK。 - 体验 Playground 功能:
网站提供了一个 Playground 页面(https://www.firecrawl.dev/app/playground),用户可以直接输入 URL 进行抓取并下载结果。免费账户每月有 500 页的抓取额度。
Firecrawl 使用方法
代码使用
Firecrawl 提供了多种 SDK 和集成方式,包括 Python SDK、Langchain Integration、LlamaIndex Integration、Langchain JS Integration 等。默认情况下,SDK 使用在线 API 服务(https://api.firecrawl.dev/),需要 API Key。如果希望使用自托管的 Firecrawl 服务,需要修改 SDK 的实现(相关代码已开源)。
API 使用
需要注册并获取 API 密钥。主要 API 包括:
/scrape:抓取单个网页。 /crawl:抓取网站的多个页面(异步任务,返回 Job ID,可在后台查看进度)。 /search:进行信息搜索并将结果快速转换为 LLM 可用数据。
API 支持多种参数选项,例如在抓取时结合 LLM 进行内容提取 (extractorOptions)。详细参数请查阅官方文档。
需要更多免费AI工具、最新Ai信息、详细使用和丰富Ai教程、Ai变现方法的小伙伴可以加入 路上侠客的知识星球!
一年会员,原价199元,现在只需 99元!

