ai-map-py
ai-map-py 是由 Oxylabs AI Studio 推出的一款智能网站地图构建工具。它摒弃了传统爬虫需要编写复杂规则或依赖固定站点地图的模式,允许用户通过自然语言指令,自动发现并提取网站上符合特定需求的 URL 列表。
这一工具主要解决了数据采集中的“定位难”问题。在面对结构复杂、缺乏标准 sitemap 或内容动态变化的网站时,开发者无需手动分析 DOM 结构或调整爬取逻辑,只需描述想要查找的页面类型(例如“所有招聘广告页”),ai-map-py 即可精准导航并返回结构化结果。这极大地降低了构建定向数据采集流程的技术门槛和时间成本。
ai-map-py 非常适合开发者、数据分析师及研究人员使用,特别是那些需要快速从特定领域提取链接以进行后续数据处理的用户。其核心技术亮点在于将大语言模型的语义理解能力与网页探索相结合,支持自定义爬取深度、来源数量限制、地理位置代理以及 JavaScript 渲染等参数,确保在复杂场景下也能灵活适配。通过简单的 Python SDK 调用,用户即可高效完成从域名到目标链接清单的自动化映射,让数据收集工作更加直观且智能。
使用场景
某电商数据分析师需要快速抓取竞争对手网站上所有“冬季促销”相关的商品详情页,以进行实时价格监控和竞品分析。
没有 ai-map-py 时
- 规则编写繁琐:必须手动分析网站 HTML 结构,编写复杂的 XPath 或正则表达式来筛选链接,一旦对方改版,脚本立即失效。
- 无效抓取率高:传统爬虫会机械地遍历全站,抓取大量无关的“关于我们”、“博客文章”或已下架页面,浪费带宽和存储资源。
- 动态内容遗漏:若促销页面通过 JavaScript 动态加载,需额外配置 Selenium 等重型工具,导致开发周期延长且运行速度缓慢。
- 维护成本高昂:面对数千个页面的站点,人工确认链接相关性几乎不可能,后期清洗数据耗费大量人力时间。
使用 ai-map-py 后
- 自然语言直达目标:只需输入"find winter sale product pages"提示词,ai-map-py 即可智能理解意图,自动定位并提取符合条件的 URL。
- 精准过滤噪音:工具基于语义理解自动忽略无关页面,直接返回结构化的高价值链接列表,从源头保证数据纯净度。
- 无缝处理动态渲染:通过简单配置
render_javascript参数,ai-map-py 即可轻松抓取由 JS 生成的促销内容,无需复杂的前端模拟逻辑。 - 敏捷响应业务变化:当促销策略调整时,仅需修改提示词即可重新映射,将原本数天的开发工作缩短至几分钟。
ai-map-py 将原本依赖硬编码规则的繁琐爬取过程,转化为简单的自然语言交互,极大提升了数据采集的智能化水平与迭代效率。
运行环境要求
- 未说明
不需要
未说明

快速开始
AI-Map
AI-Map 是由 Oxylabs AI Studio 设计的一款网站地图搜索工具,旨在根据提示智能地探索并枚举网络上的相关页面。与传统的爬虫或站点地图不同,AI-Map 使用自然语言指令来引导地图搜索代理,并返回符合您请求的结构化 URL 列表。
借助 AI-Map,您可以无需编写复杂的爬取逻辑,即可快速映射整个网站或某个域名下的任意内容区域。
核心功能
- 灵活的域名或 URL 映射:可以从任意 URL 或域名根目录开始。
- 基于提示的指令:用自然语言描述您想要的页面类型。
- 可调参数:自定义来源数量、渲染方式和地理位置。
- 结构化输出:获取所有相关 URL 的结构化列表。
工作原理
要使用 AI-Map 开始映射目标网站,请按照以下步骤操作:
- 输入您想要映射的 URL 或域名。
- 用自然语言提示描述您的目标页面。
- 配置映射参数,如来源限制、映射深度和地理位置。
- 运行 AI 映射任务,从该域名中收集目标页面的 URL。
安装
首先,请确保您已获得 API 密钥(或通过 免费试用 获取 1000 个积分),并且已安装 Python 3.10 或更高版本。您可以使用 pip 安装 oxylabs-ai-studio 包:
pip install oxylabs-ai-studio
Python 示例代码
以下示例展示了如何使用 AI-Map 搜索代理执行一个简单的网站映射任务。
from oxylabs_ai_studio.apps.ai_map import AiMap
import json
# 初始化授权
ai_map = AiMap(api_key="<API_KEY>")
# 定义请求负载
payload = {
"url": "https://career.oxylabs.io",
"user_prompt": "招聘广告页面",
"return_sources_limit": 10,
"geo_location": None,
"render_javascript": False,
}
# 开始映射
result = ai_map.map(**payload)
# 以 JSON 格式输出结果
print("URLs:")
print(json.dumps(result.data, indent=2))
更多关于 AI-Map 和 Oxylabs AI Studio Python SDK 的信息,请访问我们的 PyPI 仓库。对于 JavaScript 用户,您还可以查看我们的 AI Studio JavaScript SDK 指南。
请求参数
| 参数 | 描述 | 默认值 |
|---|---|---|
url* |
映射的起始 URL 或域名 | – |
user_prompt* |
用于查找页面的自然语言提示 | – |
output_format |
返回的最大来源数量 | 25 |
render_javascript |
启用 JavaScript 渲染以处理动态内容 | False |
geo_location |
代理位置(ISO2 格式) | – |
* – 必填参数
输出示例
AI-Map 搜索会返回易于集成到各种数据采集工作流中的结果。以下是之前请求的直接 JSON 输出示例:
URLs:
[
"https://career.oxylabs.io/job/247ac098/head-of-marketing",
"https://career.oxylabs.io/job/2d9ae321/product-owner",
"https://career.oxylabs.io/job/496841ed/php-developer-golang",
"https://career.oxylabs.io/job/736ef009/talent-sourcer",
"https://career.oxylabs.io/job/7a4a4415/senior-python-engineer-webshare-product",
"https://career.oxylabs.io/job/88f7340c/devops-squad-lead",
"https://career.oxylabs.io/job/9946db47/junior-project-manager",
"https://career.oxylabs.io/job/b2e1397e/account-executive-north-america",
"https://career.oxylabs.io/job/d72db15b/senior-event-marketing-manager",
"https://career.oxylabs.io/job/e1efecf0/seo-and-growth-marketing-lead"
]
实际应用场景
您可以以多种方式使用 AI-Map 搜索代理,包括:
- 在电商网站上映射产品类别。
- 列出公司域名下的所有博客文章。
- 记录 API 端点。
- 发现所有文档页面或帮助文章。
- 在招聘门户网站上查找职位发布。
- 以及更多其他用途……
常见问题解答
什么是网站映射?
网站映射是指发现并列出网站或域名内所有相关 URL 的过程。AI-Map 利用 AI 自动化这一流程,解读您的请求,智能地探索目标域名,并返回结构化的结果——例如所有博客文章、文档页面或产品类别。
AI-Map 与 AI-Crawler 有何不同?
AI-Map 的重点在于查找网站内的相关页面,而 AI-Crawler 则是从这些页面中提取结构化数据。简而言之,AI-Map 帮助您找到“在哪里”收集数据,而 AI-Crawler 则帮助您获取“数据本身”。
AI-Map 是否适用于任何网站?
AI-Map 搜索适用于大多数公开网站,包括那些使用 JavaScript 渲染的内容。然而,需要身份验证、设有付费墙或位于私有网络中的页面,默认情况下无法访问。
AI-Map 可以免费使用吗?
Oxylabs AI Studio 的 AI-Map 提供免费试用,注册后即可获得 1,000 个积分。试用期结束后,月度套餐 从每月 12 美元起,包含 3,000 个积分和每秒 1 次请求;更高级的套餐则提供更多积分和更高的请求速率。
了解更多信息
如需深入了解可用参数、高级集成及其他示例,请参阅 AI Studio 文档。
联系我们
如果您有任何疑问或需要支持,请发送邮件至 support@oxylabs.io,或通过 Oxylabs 控制台 上的在线聊天联系我们,亦可加入我们的 Discord 社区。企业客户请直接联系您的专属客户经理。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
