oxylabs-ai-studio-py
oxylabs-ai-studio-py 是 Oxylabs 推出的 Python SDK,让你用自然语言就能从任意网站抓取结构化数据。无需编写复杂的 XPath 或正则表达式,只需像聊天一样告诉它"提取所有产品价格"或"找出游戏名称、平台和评分",AI 会自动理解并完成采集。
这个工具主要解决了传统爬虫开发门槛高、维护成本大的痛点。面对动态渲染的网页、反爬机制或复杂的页面结构,开发者往往需要投入大量时间调试。而 oxylabs-ai-studio-py 内置了 AI 驱动的爬虫、自动遍历网站的爬取器,以及能模拟真人操作的浏览器自动化代理,三者配合可以应对绝大多数数据采集场景。
它特别适合需要为 LLM 应用获取实时网络数据的开发者、从事市场情报分析的研究人员,以及任何希望快速构建数据管道的技术团队。技术亮点在于"自然语言即代码"的设计理念——你描述需求,AI 自动生成提取规则和数据 schema,大幅降低从想法到数据的实现周期。支持 Markdown、JSON、CSV 等多种输出格式,还能指定地理位置模拟不同地区的访问。
使用场景
一家电商数据分析公司需要定期从竞争对手网站抓取商品价格信息,用于市场分析和定价策略制定。
没有 oxylabs-ai-studio-py 时
- 数据采集效率低下,需要手动编写和维护复杂的爬虫代码,面对反爬机制经常失效
- 难以处理动态加载的网页内容,必须额外配置浏览器渲染环境,增加了开发成本
- 数据提取准确性差,需要人工分析网页结构并编写解析规则,容易因页面改版而出错
- 无法灵活应对多地区价格差异,需要手动设置代理和地理位置参数
- 数据格式不统一,每次都需要重新设计输出结构,增加了后续处理的工作量
使用 oxylabs-ai-studio-py 后
- 只需用自然语言描述需求即可完成数据采集,大幅降低了开发难度和维护成本
- 内置智能渲染功能,自动判断是否需要执行JavaScript,简化了动态内容处理流程
- 借助AI生成的数据提取模式,能够准确识别目标信息,减少因页面变化导致的错误
- 支持通过简单的地理位置参数设置,轻松获取不同区域的价格信息
- 提供标准化的数据输出格式,方便与后续分析系统无缝对接
oxylabs-ai-studio-py让企业能够以前所未有的效率获取高质量竞争情报,为商业决策提供有力支持。
运行环境要求
- 未说明
未说明
未说明

快速开始
OxyLabs AI Studio Python SDK
一个简单的 Python SDK,用于无缝对接 Oxylabs AI Studio API 服务,包括 AI-Scraper(AI 爬虫)、AI-Crawler(AI 抓取器)、AI-Browser-Agent(AI 浏览器代理)以及其他数据提取工具。
要求
- python 3.10 及以上版本
- API 密钥
安装
pip install oxylabs-ai-studio
使用方法
抓取 (AiCrawler.crawl)
from oxylabs_ai_studio.apps.ai_crawler import AiCrawler
crawler = AiCrawler(api_key="<API_KEY>")
url = "https://oxylabs.io"
result = crawler.crawl(
url=url,
user_prompt="查找所有包含代理产品价格的页面",
output_format="markdown",
render_javascript=False,
return_sources_limit=3,
geo_location="United States",
)
print("结果:")
for item in result.data:
print(item, "\n")
参数:
url(str): 起始抓取的 URL (必填)user_prompt(str): 指导提取的自然语言提示 (必填)output_format(Literal["json", "markdown", "csv", "toon"]): 输出格式 (默认值: "markdown")schema(dict | None): 结构化提取的 JSON Schema(当输出格式为 "json"、"csv" 或 "toon" 时必填)render_javascript(bool): 是否渲染 JavaScript (默认值: False)return_sources_limit(int): 返回来源的最大数量 (默认值: 25)geo_location(str): 代理位置,支持 ISO2 格式或国家规范名称。详见 文档max_credits(int | None): 最大使用的积分数量 (可选)
刮取 (AiScraper.scrape)
from oxylabs_ai_studio.apps.ai_scraper import AiScraper
scraper = AiScraper(api_key="<API_KEY>")
schema = scraper.generate_schema(prompt="想解析开发者、平台、类型、价格、游戏标题、类型(数组)和描述")
print(f"生成的 schema: {schema}")
url = "https://sandbox.oxylabs.io/products/3"
result = scraper.scrape(
url=url,
output_format="json",
schema=schema,
render_javascript=False,
)
print(result)
参数:
url(str): 目标刮取的 URL (必填)output_format(Literal["json", "markdown", "csv", "screenshot", "toon"]): 输出格式 (默认值: "markdown")schema(dict | None): 结构化提取的 JSON Schema(当输出格式为 "json"、"csv" 或 "toon" 时必填)render_javascript(bool | string): 渲染 JavaScript。可以设置为 "auto",表示服务会自动检测是否需要渲染 (默认值: False)geo_location(str): 代理位置,支持 ISO2 格式或国家规范名称。详见 文档user_agent(str): User-Agent 请求头。更多信息请参阅 https://developers.oxylabs.io/scraping-solutions/web-scraper-api/features/http-context-and-job-management/user-agent-type.
浏览器代理 (BrowserAgent.run)
from oxylabs_ai_studio.apps.browser_agent import BrowserAgent
browser_agent = BrowserAgent(api_key="<API_KEY>")
schema = browser_agent.generate_schema(
prompt="游戏名称、平台、评论星级和价格"
)
print("schema: ", schema)
prompt = "查找商店中是否有游戏 '超级马里奥奥德赛'。如果有,找到其价格。使用搜索栏查找该游戏。"
url = "https://sandbox.oxylabs.io/"
result = browser_agent.run(
url=url,
user_prompt=prompt,
output_format="json",
schema=schema,
)
print(result.data)
参数:
url(str): 起始浏览的 URL (必填)user_prompt(str): 提取的自然语言提示 (必填)output_format(Literal["json", "markdown", "html", "screenshot", "csv", "toon"]): 输出格式 (默认值: "markdown")schema(dict | None): 结构化提取的 JSON Schema(当输出格式为 "json"、"csv" 或 "toon" 时必填)geo_location(str): 代理位置,支持 ISO2 格式或国家规范名称。例如 'Germany'(首字母大写)。
搜索 (AiSearch.search)
from oxylabs_ai_studio.apps.ai_search import AiSearch
search = AiSearch(api_key="<API_KEY>")
query = "lasagna recipe"
result = search.search(
query=query,
limit=5,
render_javascript=False,
return_content=True,
)
print(result.data)
# 或者快速搜索
result = search.instant_search(
query=query,
limit=10,
)
print(result.data)
参数:
query(str): 搜索内容 (必填)limit(int): 返回结果的最大数量 (默认值: 10,最大值: 50)render_javascript(bool): 是否渲染 JavaScript (默认值: False)return_content(bool): 是否在结果中返回 Markdown 内容 (默认值: True)geo_location(string): 支持 ISO 两位字母格式、国家名称或坐标格式。更多信息请参阅 SERP 本地化.
注意: 当
limit <= 10且return_content=False时,搜索会自动使用即时端点 (/search/instant),无需轮询即可立即返回结果,从而提供更快的响应时间。
即时搜索支持的参数:
query(string): 搜索查询。limit(integer): 返回搜索结果的最大数量。最大值:10。geo_location(string): Google 的规范位置名称。更多信息请参阅 Google Ads 地理目标。
地图 (AiMap.map)
from oxylabs_ai_studio.apps.ai_map import AiMap
ai_map = AiMap(api_key="<API_KEY>")
payload = {
"url": "https://career.oxylabs.io",
"search_keywords": ["career", "jobs", "vacancy"],
"user_prompt": "job ad pages",
"max_crawl_depth": 2,
"limit": 10,
"geo_location": "Germany",
"render_javascript": False,
"include_sitemap": True,
"max_credits": None,
"allow_subdomains": False,
"allow_external_domains": False,
}
result = ai_map.map(**payload)
print(result.data)
参数:
url(str): 起始 URL 或域名进行映射 (必填)search_keywords(list[str]): 用于 URL 路径过滤的关键词 (默认值: None)user_prompt(str | None): 自然语言提示,用于关键词搜索。可以与 'search_keywords' 一起使用或单独使用 (可选)max_crawl_depth(int): 最大爬取深度 (1..5, 默认值: 1)limit(int): 返回的最大 URL 数量 (默认值: 25)geo_location(str): 代理位置,采用 ISO2 格式或国家规范名称。详见 文档render_javascript(bool): 是否渲染 JavaScript (默认值: False)include_sitemap(bool): 是否将站点地图作为种子包含 (默认值: True)max_credits(int | None): 使用的最大积分数量 (可选)allow_subdomains(bool): 是否包含子域名 (默认值: False)allow_external_domains(bool): 是否包含外部域名 (默认值: False)
有关每个方法的使用示例,请参阅 examples 文件夹。每个方法都有对应的异步版本。
版本历史
v0.2.192025/11/20相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
OpenHands
OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。
gpt4free
gpt4free 是一个由社区驱动的开源项目,旨在聚合多种可访问的大型语言模型(LLM)和媒体生成接口,让用户能更灵活、便捷地使用前沿 AI 能力。它解决了直接调用各类模型时面临的接口分散、门槛高或成本昂贵等痛点,通过统一的标准将不同提供商的资源整合在一起。 无论是希望快速集成 AI 功能的开发者、需要多模型对比测试的研究人员,还是想免费体验最新技术的普通用户,都能从中受益。gpt4free 提供了丰富的使用方式:既包含易于上手的 Python 和 JavaScript 客户端库,也支持部署本地图形界面(GUI),更提供了兼容 OpenAI 标准的 REST API,方便无缝替换现有应用后端。 其技术亮点在于强大的多提供商支持架构,能够动态调度包括 Opus、Gemini、DeepSeek 等多种主流模型资源,并支持 Docker 一键部署及本地推理。项目秉持社区优先原则,在降低使用门槛的同时,也为贡献者提供了扩展新接口的便利框架,是探索和利用多样化 AI 资源的实用工具。
scikit-learn
scikit-learn 是一个基于 Python 构建的开源机器学习库,依托于 SciPy、NumPy 等科学计算生态,旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口,涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具,内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。 对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言,scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点,让用户无需重复造轮子,只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。 其核心技术亮点在于高度一致的 API 设计风格,所有估算器(Estimator)均遵循相同的调用逻辑,极大地降低了学习成本并提升了代码的可读性与可维护性。此外,它还提供了强大的模型选择与评估工具,如交叉验证和网格搜索,帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目,scikit-learn 以其稳定性、详尽的文档和活跃的社区支持,成为连接理论学习与工业级应用的最
gstack
gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置,旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战,gstack 提供了一套标准化解决方案,帮助开发者实现堪比二十人团队的高效产出。 这套配置特别适合希望提升交付效率的创始人、技术负责人,以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具,涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令(如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能),即可自动化处理从需求分析到部署上线的全链路任务。 所有操作基于 Markdown 和斜杠命令,无需复杂配置,完全免费且遵循 MIT 协议。gstack 不仅是一套工具集,更是一种现代化的软件工厂实践,让单人开发者也能拥有严谨的工程流程。
keras
Keras 是一个专为人类设计的深度学习框架,旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。 无论是刚入门的学生、专注算法的研究人员,还是需要快速落地产品的工程师,都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码,即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性,还允许开发者根据需求自由选择:利用 JAX 或 PyTorch 的即时执行模式进行高效调试,或切换至速度最快的后端以获得最高 350% 的性能提升。此外,Keras 具备强大的扩展能力,能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群,是连接原型开发与生产部署的理想桥梁。

