[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-MikeChongCan--scylla":3,"tool-MikeChongCan--scylla":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65628,1,"2026-04-05T10:10:46",[20,18,14],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":10,"last_commit_at":38,"category_tags":39,"status":22},3364,"keras","keras-team\u002Fkeras","Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。\n\n无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。\n\nKeras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。",63927,"2026-04-04T15:24:37",[20,14,18],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":22},2403,"crawl4ai","unclecode\u002Fcrawl4ai","Crawl4AI 是一款专为大语言模型（LLM）设计的开源网络爬虫与数据提取工具。它的核心使命是将纷繁复杂的网页内容转化为干净、结构化的 Markdown 格式，直接服务于检索增强生成（RAG）、智能体构建及各类数据管道，让 AI 能更轻松地“读懂”互联网。\n\n传统爬虫往往面临反爬机制拦截、动态内容加载困难以及输出格式杂乱等痛点，导致后续数据处理成本高昂。Crawl4AI 通过内置自动化的三级反机器人检测、代理升级策略以及对 Shadow DOM 的深度支持，有效突破了这些障碍。它能智能移除同意弹窗，处理深层链接，并具备长任务崩溃恢复能力，确保数据采集的稳定与高效。\n\n这款工具特别适合开发者、AI 研究人员及数据工程师使用。无论是需要为本地模型构建知识库，还是搭建大规模自动化信息采集流程，Crawl4AI 都提供了极高的可控性与灵活性。作为 GitHub 上备受瞩目的开源项目，它完全免费开放，无需繁琐的注册或昂贵的 API 费用，让用户能够专注于数据价值本身而非采集难题。",63242,"2026-04-02T22:29:19",[14,17],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":22},193,"meilisearch","meilisearch\u002Fmeilisearch","Meilisearch 是一个开源的极速搜索服务，专为现代应用和网站打造，开箱即用。它能帮助开发者快速集成高质量的搜索功能，无需复杂的配置或额外的数据预处理。传统搜索方案往往需要大量调优才能实现准确结果，而 Meilisearch 内置了拼写容错、同义词识别、即时响应等实用特性，并支持 AI 驱动的混合搜索（结合关键词与语义理解），显著提升用户查找信息的体验。\n\nMeilisearch 特别适合 Web 开发者、产品团队或初创公司使用，尤其适用于需要快速上线搜索功能的场景，如电商网站、内容平台或 SaaS 应用。它提供简洁的 RESTful API 和多种语言 SDK，部署简单，资源占用低，本地开发或生产环境均可轻松运行。对于希望在不依赖大型云服务的前提下，为用户提供流畅、智能搜索体验的团队来说，Meilisearch 是一个高效且友好的选择。",56972,"2026-04-05T22:34:33",[13,17,14,20,16,18],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":22},223,"Made-With-ML","GokuMohandas\u002FMade-With-ML","Made-With-ML 是一个面向实战的开源项目，旨在帮助开发者系统掌握从设计、开发到部署和迭代生产级机器学习应用的完整流程。它解决了许多人在学习机器学习时“会训练模型但不会上线”的痛点，强调将软件工程最佳实践与 ML 技术结合，构建可靠、可维护的端到端系统。\n\n该项目特别适合三类人群：一是希望将模型真正落地的开发者（包括软件工程师、数据科学家）；二是刚毕业、想补齐工业界所需技能的学生；三是需要理解技术边界以更好推动产品的技术管理者或产品经理。\n\nMade-With-ML 的亮点在于注重第一性原理讲解，避免盲目调包；同时覆盖 MLOps 关键环节（如实验跟踪、模型测试、服务部署、CI\u002FCD 等），并支持在 Python 生态内平滑扩展训练与推理任务，无需切换语言或复杂基础设施。课程内容结构清晰，配有详细代码示例和视频导览，兼顾理论深度与工程实用性。",47108,"2026-04-05T10:42:55",[19,18,14,16,20],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":79,"owner_website":79,"owner_url":82,"languages":83,"stars":119,"forks":120,"last_commit_at":121,"license":122,"difficulty_score":10,"env_os":123,"env_gpu":124,"env_ram":124,"env_deps":125,"category_tags":132,"github_topics":133,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":22,"created_at":138,"updated_at":139,"faqs":140,"releases":176},3220,"MikeChongCan\u002Fscylla","scylla","Intelligent proxy pool for Humans™ to extract content from the internet and build your own Large Language Models in this new AI era","Scylla 是一款专为人工智能时代设计的智能代理池工具，旨在帮助用户高效地从互联网提取内容，为构建专属的大语言模型提供数据支持。在网络爬虫开发中，IP 被封禁和数据获取不稳定是常见痛点，Scylla 通过自动抓取并实时验证全球代理 IP，确保持续获得可用的高质量节点，从而解决数据采集过程中的连接障碍。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用。无论是需要大规模训练数据的模型构建者，还是进行网络信息收集的技术人员，都能从中受益。Scylla 的技术亮点在于其极简的部署体验：仅需一条命令即可启动服务，同时提供易用的 JSON API 和美观的 Web 界面，让用户能直观查看代理的地理分布与状态。此外，它能无缝集成 Scrapy 和 Requests 等主流框架，只需一行代码即可调用，并支持无头浏览器爬取模式。配合 Docker 一键部署能力，Scylla 让搭建高可用的代理基础设施变得简单而优雅，是数据采集工作中得力的助手。","![banner_scylla](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_0ff01ea1fb36.png) [![Build Status](https:\u002F\u002Ftravis-ci.org\u002FimWildCat\u002Fscylla.svg?branch=master)](https:\u002F\u002Ftravis-ci.org\u002FimWildCat\u002Fscylla)\n[![codecov](https:\u002F\u002Fcodecov.io\u002Fgh\u002FimWildCat\u002Fscylla\u002Fbranch\u002Fmaster\u002Fgraph\u002Fbadge.svg)](https:\u002F\u002Fcodecov.io\u002Fgh\u002FimWildCat\u002Fscylla)\n[![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_6bf48b3e9a6d.png)](https:\u002F\u002Fscylla.wildcat.io\u002Fen\u002Flatest\u002F?badge=latest)\n[![PyPI version](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fscylla.svg)](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fscylla)\n[![Docker Pull](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Fwildcat\u002Fscylla.svg)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fwildcat\u002Fscylla\u002F)\n[![Donate](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDonate-PayPal-green.svg)](https:\u002F\u002Fwww.paypal.com\u002Fcgi-bin\u002Fwebscr?cmd=_s-xclick&hosted_button_id=5DXFA7WGWPZBN)\n\n\n# Scylla\n\nAn intelligent proxy pool for humanities, to extract content from the internet and build your own Large Language Models in this new AI era.\n\nKey features:\n\n- Automatic proxy ip crawling and validation\n- Easy-to-use JSON API\n- Simple but beautiful web-based user interface (eg. geographical\n    distribution of proxies)\n- Get started with only **1 command** minimally\n- Simple HTTP Forward proxy server\n- [Scrapy] and [requests] integration with only 1 line of code\n    minimally\n- Headless browser crawling\n\n\nGet started\n===========\n\nInstallation\n------------\n\n### Install with Docker (highly recommended)\n\n```bash\ndocker run -d -p 8899:8899 -p 8081:8081 -v \u002Fvar\u002Fwww\u002Fscylla:\u002Fvar\u002Fwww\u002Fscylla --name scylla wildcat\u002Fscylla:latest\n```\n\n### Install directly via pip\n\n```bash\npip install scylla\nscylla --help\nscylla # Run the crawler and web server for JSON API\n```\n\n### Install from source\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla.git\ncd scylla\n\npip install -r requirements.txt\n\ncd frontend\nnpm install\ncd ..\n\nmake assets-build\n\npython -m scylla\n```\n\nUsage\n-----\n\nThis is an example of running a service locally (`localhost`), using\nport `8899`.\n\nNote: You might have to wait for 1 to 2 minutes in order to get some proxy ips populated in the database for the first time you use Scylla.\n\n### JSON API\n\n#### Proxy IP List\n\n```bash\nhttp:\u002F\u002Flocalhost:8899\u002Fapi\u002Fv1\u002Fproxies\n```\n\nOptional URL parameters:\n\n| Parameters  | Default value | Description                                                  |\n| ----------- | ------------- | ------------------------------------------------------------ |\n| `page`      | `1`           | The page number                                              |\n| `limit`     | `20`          | The number of proxies shown on each page                     |\n| `anonymous` | `any`         | Show anonymous proxies or not. Possible values：`true`, only anonymous proxies; `false`, only transparent proxies |\n| `https`     | `any` | Show HTTPS proxies or not. Possible values：`true`, only HTTPS proxies; `false`, only HTTP proxies |\n| `countries`   | None | Filter proxies for specific countries. Format example: ``US``, or multi-countries: `US,GB` |\n\nSample result:\n\n```json\n{\n    \"proxies\": [{\n        \"id\": 599,\n        \"ip\": \"91.229.222.163\",\n        \"port\": 53281,\n        \"is_valid\": true,\n        \"created_at\": 1527590947,\n        \"updated_at\": 1527593751,\n        \"latency\": 23.0,\n        \"stability\": 0.1,\n        \"is_anonymous\": true,\n        \"is_https\": true,\n        \"attempts\": 1,\n        \"https_attempts\": 0,\n        \"location\": \"54.0451,-0.8053\",\n        \"organization\": \"AS57099 Boundless Networks Limited\",\n        \"region\": \"England\",\n        \"country\": \"GB\",\n        \"city\": \"Malton\"\n    }, {\n        \"id\": 75,\n        \"ip\": \"75.151.213.85\",\n        \"port\": 8080,\n        \"is_valid\": true,\n        \"created_at\": 1527590676,\n        \"updated_at\": 1527593702,\n        \"latency\": 268.0,\n        \"stability\": 0.3,\n        \"is_anonymous\": true,\n        \"is_https\": true,\n        \"attempts\": 1,\n        \"https_attempts\": 0,\n        \"location\": \"32.3706,-90.1755\",\n        \"organization\": \"AS7922 Comcast Cable Communications, LLC\",\n        \"region\": \"Mississippi\",\n        \"country\": \"US\",\n        \"city\": \"Jackson\"\n    },\n    ...\n    ],\n    \"count\": 1025,\n    \"per_page\": 20,\n    \"page\": 1,\n    \"total_page\": 52\n}\n```\n\n#### System Statistics\n\n```bash\nhttp:\u002F\u002Flocalhost:8899\u002Fapi\u002Fv1\u002Fstats\n```\n\nSample result:\n\n```json\n{\n    \"median\": 181.2566407083,\n    \"valid_count\": 1780,\n    \"total_count\": 9528,\n    \"mean\": 174.3290085201\n}\n```\n\n### HTTP Forward Proxy Server\n\nBy default, Scylla will start a HTTP Forward Proxy Server on port\n`8081`. This server will select one proxy updated recently from the\ndatabase and it will be used for forward proxy. Whenever an HTTP request\ncomes, the proxy server will select a proxy randomly.\n\nNote: HTTPS requests are not supported at present.\n\nThe example for `curl` using this proxy server is shown below:\n\n```bash\ncurl http:\u002F\u002Fapi.ipify.org -x http:\u002F\u002F127.0.0.1:8081\n```\n\nYou could also use this feature with [requests][]:\n\n```python\nrequests.get('http:\u002F\u002Fapi.ipify.org', proxies={'http': 'http:\u002F\u002F127.0.0.1:8081'})\n```\n\n### Web UI\n\nOpen `http:\u002F\u002Flocalhost:8899` in your browser to see the Web UI of this\nproject.\n\n#### Proxy IP List\n\n```\nhttp:\u002F\u002Flocalhost:8899\u002F\n```\n\nScreenshot:\n\n![screenshot-proxy-list](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_8f4ee279685c.png)\n\n#### Globally Geographical Distribution Map\n\n```\nhttp:\u002F\u002Flocalhost:8899\u002F#\u002Fgeo\n```\n\nScreenshot:\n\n![screenshot-geo-distribution](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_0f10bfeb3729.png)\n\nAPI Documentation\n=================\n\nPlease read [Module\nIndex](https:\u002F\u002Fscylla.wildcat.io\u002Fen\u002Flatest\u002Fpy-modindex.html).\n\nRoadmap\n=======\n\nPlease see [Projects](https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla\u002Fprojects).\n\nDevelopment and Contribution\n============================\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla.git\ncd scylla\n\npip install -r requirements.txt\n\nnpm install\nmake assets-build\n```\n\nTesting\n=======\n\nIf you wish to run tests locally, the commands are shown below:\n\n```bash\npip install -r tests\u002Frequirements-test.txt\npytest tests\u002F\n```\n\nYou are welcomed to add more test cases to this project, increasing the\nrobustness of this project.\n\nNaming of This Project\n======================\n\n[Scylla](http:\u002F\u002Fprisonbreak.wikia.com\u002Fwiki\u002FScylla) is derived from the\nname of a group of memory chips in the American TV series, [Prison\nBreak](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FPrison_Break). This project was\nnamed after this American TV series to pay tribute to it.\n\nHelp\n======================\n[How to install Python Scylla on CentOS7](https:\u002F\u002Fdigcodes.com\u002Fhow-to-install-python-scylla-on-centos7\u002F)\n\n\nDonation\n========\n\nIf you find this project useful, could you please donate some money to\nit?\n\nNo matter how much the money is, Your donation will inspire the author\nto develop new features continuously! 🎉 Thank you!\n\nThe ways for donation are shown below:\n\nGitHub Sponsor\n------\n\nI super appreciate if you can join my sponsors here.\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fsponsors\u002FimWildCat>\n\nPayPal\n------\n\n[![paypal_donation](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_3ed0eaf21fb2.gif)](https:\u002F\u002Fwww.paypal.com\u002Fcgi-bin\u002Fwebscr?cmd=_s-xclick&hosted_button_id=5DXFA7WGWPZBN)\n\n\nLicense\n=======\n\nApache License 2.0. For more details, please read the\n[LICENSE](https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla\u002Fblob\u002Fmaster\u002FLICENSE) file.\n\n[Alipay and WeChat Donation]: https:\u002F\u002Fuser-images.githubusercontent.com\u002F2396817\u002F40589594-cfb0e49e-61e7-11e8-8f7d-c55a29676c40.png\n\n\n  [Scrapy]: https:\u002F\u002Fscrapy.org\n  [requests]: http:\u002F\u002Fdocs.python-requests.org\u002F\n","![banner_scylla](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_0ff01ea1fb36.png) [![构建状态](https:\u002F\u002Ftravis-ci.org\u002FimWildCat\u002Fscylla.svg?branch=master)](https:\u002F\u002Ftravis-ci.org\u002FimWildCat\u002Fscylla)\n[![codecov](https:\u002F\u002Fcodecov.io\u002Fgh\u002FimWildCat\u002Fscylla\u002Fbranch\u002Fmaster\u002Fgraph\u002Fbadge.svg)](https:\u002F\u002Fcodecov.io\u002Fgh\u002FimWildCat\u002Fscylla)\n[![文档状态](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_6bf48b3e9a6d.png)](https:\u002F\u002Fscylla.wildcat.io\u002Fen\u002Flatest\u002F?badge=latest)\n[![PyPI版本](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fscylla.svg)](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fscylla)\n[![Docker拉取次数](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Fwildcat\u002Fscylla.svg)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fwildcat\u002Fscylla\u002F)\n[![捐赠](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDonate-PayPal-green.svg)](https:\u002F\u002Fwww.paypal.com\u002Fcgi-bin\u002Fwebscr?cmd=_s-xclick&hosted_button_id=5DXFA7WGWPZBN)\n\n\n# Scylla\n\n一个面向人文领域的智能代理池，用于从互联网上提取内容，并在这一人工智能新时代构建您自己的大型语言模型。\n\n主要特性：\n\n- 自动化代理IP抓取与验证\n- 易于使用的JSON API\n- 简洁美观的Web用户界面（例如代理的地理分布）\n- 最少只需**一条命令**即可快速上手\n- 简单的HTTP正向代理服务器\n- 仅需一行代码即可与[Scrapy]和[requests]集成\n- 无头浏览器爬虫\n\n\n快速开始\n===========\n\n安装\n------------\n\n### 使用Docker安装（强烈推荐）\n\n```bash\ndocker run -d -p 8899:8899 -p 8081:8081 -v \u002Fvar\u002Fwww\u002Fscylla:\u002Fvar\u002Fwww\u002Fscylla --name scylla wildcat\u002Fscylla:latest\n```\n\n### 直接通过pip安装\n\n```bash\npip install scylla\nscylla --help\nscylla # 运行爬虫和提供JSON API的Web服务器\n```\n\n### 从源码安装\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla.git\ncd scylla\n\npip install -r requirements.txt\n\ncd frontend\nnpm install\ncd ..\n\nmake assets-build\n\npython -m scylla\n```\n\n使用方法\n-----\n\n以下是在本地(`localhost`)运行服务的示例，使用端口`8899`。\n\n注意：首次使用Scylla时，可能需要等待1到2分钟，以便数据库中填充一些代理IP。\n\n### JSON API\n\n#### 代理IP列表\n\n```bash\nhttp:\u002F\u002Flocalhost:8899\u002Fapi\u002Fv1\u002Fproxies\n```\n\n可选URL参数：\n\n| 参数        | 默认值   | 描述                                                  |\n| ----------- | -------- | ----------------------------------------------------- |\n| `page`      | `1`      | 当前页码                                              |\n| `limit`     | `20`     | 每页显示的代理数量                                    |\n| `anonymous` | `any`    | 是否显示匿名代理。可选值：`true`表示仅显示匿名代理；`false`表示仅显示透明代理 |\n| `https`     | `any`    | 是否显示HTTPS代理。可选值：`true`表示仅显示HTTPS代理；`false`表示仅显示HTTP代理 |\n| `countries` | 无       | 按特定国家筛选代理。格式示例：`US`，或多国组合：`US,GB` |\n\n示例结果：\n\n```json\n{\n    \"proxies\": [{\n        \"id\": 599,\n        \"ip\": \"91.229.222.163\",\n        \"port\": 53281,\n        \"is_valid\": true,\n        \"created_at\": 1527590947,\n        \"updated_at\": 1527593751,\n        \"latency\": 23.0,\n        \"stability\": 0.1,\n        \"is_anonymous\": true,\n        \"is_https\": true,\n        \"attempts\": 1,\n        \"https_attempts\": 0,\n        \"location\": \"54.0451,-0.8053\",\n        \"organization\": \"AS57099 Boundless Networks Limited\",\n        \"region\": \"英格兰\",\n        \"country\": \"GB\",\n        \"city\": \"Malton\"\n    }, {\n        \"id\": 75,\n        \"ip\": \"75.151.213.85\",\n        \"port\": 8080,\n        \"is_valid\": true,\n        \"created_at\": 1527590676,\n        \"updated_at\": 1527593702,\n        \"latency\": 268.0,\n        \"stability\": 0.3,\n        \"is_anonymous\": true,\n        \"is_https\": true,\n        \"attempts\": 1,\n        \"https_attempts\": 0,\n        \"location\": \"32.3706,-90.1755\",\n        \"organization\": \"AS7922 Comcast Cable Communications, LLC\",\n        \"region\": \"密西西比州\",\n        \"country\": \"US\",\n        \"city\": \"杰克逊\"\n    },\n    ...\n    ],\n    \"count\": 1025,\n    \"per_page\": 20,\n    \"page\": 1,\n    \"total_page\": 52\n}\n```\n\n#### 系统统计信息\n\n```bash\nhttp:\u002F\u002Flocalhost:8899\u002Fapi\u002Fv1\u002Fstats\n```\n\n示例结果：\n\n```json\n{\n    \"median\": 181.2566407083,\n    \"valid_count\": 1780,\n    \"total_count\": 9528,\n    \"mean\": 174.3290085201\n}\n```\n\n### HTTP正向代理服务器\n\n默认情况下，Scylla会在端口`8081`启动一个HTTP正向代理服务器。该服务器会从数据库中随机选择一个最近更新的代理作为转发代理。每当有HTTP请求到达时，代理服务器就会随机挑选一个代理进行转发。\n\n注意：目前不支持HTTPS请求。\n\n以下是使用此代理服务器的`curl`示例：\n\n```bash\ncurl http:\u002F\u002Fapi.ipify.org -x http:\u002F\u002F127.0.0.1:8081\n```\n\n您也可以通过[requests][]库使用此功能：\n\n```python\nrequests.get('http:\u002F\u002Fapi.ipify.org', proxies={'http': 'http:\u002F\u002F127.0.0.1:8081'})\n```\n\n### Web 界面\n\n在浏览器中打开 `http:\u002F\u002Flocalhost:8899` 即可查看该项目的 Web 界面。\n\n#### 代理 IP 列表\n\n```\nhttp:\u002F\u002Flocalhost:8899\u002F\n```\n\n截图：\n\n![screenshot-proxy-list](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_8f4ee279685c.png)\n\n#### 全球地理分布图\n\n```\nhttp:\u002F\u002Flocalhost:8899\u002F#\u002Fgeo\n```\n\n截图：\n\n![screenshot-geo-distribution](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_0f10bfeb3729.png)\n\nAPI 文档\n=================\n\n请阅读 [模块索引](https:\u002F\u002Fscylla.wildcat.io\u002Fen\u002Flatest\u002Fpy-modindex.html)。\n\n路线图\n=======\n\n请参阅 [项目](https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla\u002Fprojects)。\n\n开发与贡献\n============================\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla.git\ncd scylla\n\npip install -r requirements.txt\n\nnpm install\nmake assets-build\n```\n\n测试\n=======\n\n如果您希望在本地运行测试，命令如下：\n\n```bash\npip install -r tests\u002Frequirements-test.txt\npytest tests\u002F\n```\n\n欢迎您为该项目添加更多测试用例，以提高项目的健壮性。\n\n项目命名\n======================\n\n[Scylla](http:\u002F\u002Fprisonbreak.wikia.com\u002Fwiki\u002FScylla) 源自美国电视剧《越狱》(Prison Break) 中一组内存芯片的名称。本项目以此美剧命名，以向其致敬。\n\n帮助\n======================\n[如何在 CentOS7 上安装 Python Scylla](https:\u002F\u002Fdigcodes.com\u002Fhow-to-install-python-scylla-on-centos7\u002F)\n\n\n捐赠\n========\n\n如果您觉得这个项目很有用，请考虑为它捐赠一些资金吗？\n\n无论金额多少，您的捐赠都会激励作者持续开发新功能！🎉 谢谢！\n\n捐赠方式如下：\n\nGitHub 赞助\n------\n\n如果您能成为我的赞助者，我将不胜感激。\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fsponsors\u002FimWildCat>\n\nPayPal\n------\n\n[![paypal_donation](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_readme_3ed0eaf21fb2.gif)](https:\u002F\u002Fwww.paypal.com\u002Fcgi-bin\u002Fwebscr?cmd=_s-xclick&hosted_button_id=5DXFA7WGWPZBN)\n\n\n许可证\n=======\n\nApache 许可证 2.0。更多详情请参阅 [LICENSE](https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla\u002Fblob\u002Fmaster\u002FLICENSE) 文件。\n\n[支付宝和微信捐赠]: https:\u002F\u002Fuser-images.githubusercontent.com\u002F2396817\u002F40589594-cfb0e49e-61e7-11e8-8f7d-c55a29676c40.png\n\n\n  [Scrapy]: https:\u002F\u002Fscrapy.org\n  [requests]: http:\u002F\u002Fdocs.python-requests.org\u002F","# Scylla 快速上手指南\n\nScylla 是一个智能代理池工具，能够自动抓取并验证代理 IP，提供易用的 JSON API 和 Web 界面，适用于数据采集及大模型训练场景。\n\n## 环境准备\n\n*   **操作系统**：Linux \u002F macOS \u002F Windows (推荐 Linux)\n*   **前置依赖**：\n    *   **方案 A (推荐)**：已安装 Docker 和 Docker Compose。\n    *   **方案 B**：已安装 Python 3.6+、pip、Node.js 和 npm (用于从源码构建前端)。\n*   **网络要求**：服务器需能访问外网以抓取代理资源。\n\n## 安装步骤\n\n### 方式一：使用 Docker 安装（强烈推荐）\n\n这是最简便的方式，一键启动包含爬虫、API 服务和 Web 界面的完整环境。\n\n```bash\ndocker run -d -p 8899:8899 -p 8081:8081 -v \u002Fvar\u002Fwww\u002Fscylla:\u002Fvar\u002Fwww\u002Fscylla --name scylla wildcat\u002Fscylla:latest\n```\n\n### 方式二：使用 pip 直接安装\n\n适合快速体验核心功能（默认启动爬虫和 JSON API 服务）。\n\n```bash\npip install scylla\nscylla\n```\n\n### 方式三：从源码安装\n\n适合需要定制开发或修改前端代码的用户。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FimWildCat\u002Fscylla.git\ncd scylla\n\npip install -r requirements.txt\n\ncd frontend\nnpm install\ncd ..\n\nmake assets-build\n\npython -m scylla\n```\n\n## 基本使用\n\n启动服务后，请耐心等待 **1-2 分钟**，以便系统完成首批代理 IP 的抓取和验证入库。\n\n### 1. 获取代理列表 (JSON API)\n\n访问以下地址获取可用的代理 IP 列表：\n\n```bash\nhttp:\u002F\u002Flocalhost:8899\u002Fapi\u002Fv1\u002Fproxies\n```\n\n**常用参数示例：**\n*   仅获取 HTTPS 匿名代理：`http:\u002F\u002Flocalhost:8899\u002Fapi\u002Fv1\u002Fproxies?https=true&anonymous=true`\n*   指定国家（如美国、英国）：`http:\u002F\u002Flocalhost:8899\u002Fapi\u002Fv1\u002Fproxies?countries=US,GB`\n\n### 2. 使用 HTTP 转发代理服务\n\nScylla 默认在 `8081` 端口启动一个转发代理服务，它会自动从数据库中随机选择一个有效的代理进行转发。\n\n**注意**：当前版本暂不支持 HTTPS 请求的转发。\n\n**使用 curl 测试：**\n```bash\ncurl http:\u002F\u002Fapi.ipify.org -x http:\u002F\u002F127.0.0.1:8081\n```\n\n**在 Python 代码中使用 (requests 库)：**\n```python\nimport requests\n\nresponse = requests.get('http:\u002F\u002Fapi.ipify.org', proxies={'http': 'http:\u002F\u002F127.0.0.1:8081'})\nprint(response.text)\n```\n\n### 3. 访问 Web 管理界面\n\n在浏览器中打开以下地址，可查看代理列表、地理分布地图及系统统计信息：\n\n```text\nhttp:\u002F\u002Flocalhost:8899\n```\n\n*   **代理列表页**：`http:\u002F\u002Flocalhost:8899\u002F`\n*   **全球地理分布图**：`http:\u002F\u002Flocalhost:8899\u002F#\u002Fgeo`","某初创数据团队正致力于构建垂直领域的行业大模型，急需从全球新闻网站和论坛中持续抓取高质量训练语料。\n\n### 没有 scylla 时\n- **代理资源枯竭快**：手动寻找的免费代理 IP 存活时间极短，爬虫运行几分钟后便因大量连接超时或封禁而中断。\n- **维护成本高昂**：开发人员需编写复杂的脚本定期验证 IP 可用性，并花费大量时间清洗无效数据，严重挤占核心算法研发时间。\n- **缺乏智能调度**：无法根据目标网站的地理位置自动匹配当地代理，导致跨境访问延迟极高，甚至触发风控机制。\n- **集成流程繁琐**：每次切换代理池都需要修改底层网络配置，难以与 Scrapy 或 Requests 等主流框架快速对接。\n\n### 使用 scylla 后\n- **自动维持高可用池**：scylla 后台自动持续爬取并验证全球代理 IP，实时剔除失效节点，确保爬虫任务 7x24 小时稳定运行。\n- **零代码运维负担**：只需一条 Docker 命令即可部署，scylla 自动处理所有验证逻辑，团队可完全聚焦于数据清洗与模型训练。\n- **智能地理路由**：通过简单的 API 参数（如 `countries=US,GB`），scylla 自动分发对应区域的匿名代理，显著降低访问延迟并规避封锁。\n- **一行代码集成**：在现有 Python 爬虫项目中仅需增加一行配置即可调用 scylla 的 HTTP 转发服务，无缝融入现有技术栈。\n\nscylla 将不稳定的代理获取过程转化为可靠的自动化基础设施，让数据工程师能专注于构建下一代大语言模型的核心价值。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMikeChongCan_scylla_0ff01ea1.png","MikeChongCan","Mike Chong","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMikeChongCan_9bbeb6d4.jpg","Building something that people love, making a better world for everyone.\r\n\r\nPrev. Big boring tech. My code runs on 1B+ Browser\u002FAndroid\u002FiOS\u002FMac\u002FWin devices",null,"True North","dh.chong.can@gmail.com","https:\u002F\u002Fgithub.com\u002FMikeChongCan",[84,88,92,96,100,103,107,111,115],{"name":85,"color":86,"percentage":87},"Python","#3572A5",76.5,{"name":89,"color":90,"percentage":91},"TypeScript","#3178c6",15.7,{"name":93,"color":94,"percentage":95},"CSS","#663399",1.9,{"name":97,"color":98,"percentage":99},"HTML","#e34c26",1.7,{"name":101,"color":102,"percentage":99},"Makefile","#427819",{"name":104,"color":105,"percentage":106},"Dockerfile","#384d54",1.3,{"name":108,"color":109,"percentage":110},"SCSS","#c6538c",0.6,{"name":112,"color":113,"percentage":114},"JavaScript","#f1e05a",0.5,{"name":116,"color":117,"percentage":118},"Shell","#89e051",0.2,4019,476,"2026-04-03T19:49:27","Apache-2.0","Linux, macOS, Windows","未说明",{"notes":126,"python":127,"dependencies":128},"该工具是一个代理池系统，非深度学习模型，因此无 GPU 需求。安装方式支持 Docker、pip 或源码安装。源码安装时前端需要 Node.js (npm) 环境来构建资源。首次运行可能需要等待 1-2 分钟以填充初始代理 IP 数据。默认 HTTP 正向代理服务端口为 8081，Web UI 和 JSON API 端口为 8899。目前不支持 HTTPS 请求的正向代理转发。","未说明 (需支持 pip 和 requirements.txt)",[129,130,131],"scrapy","requests","npm (用于前端构建)",[14],[134,135,67,136,137],"crawler","python3","proxy-pool","python","2026-03-27T02:49:30.150509","2026-04-06T07:12:36.824413",[141,146,151,156,161,166,171],{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},14839,"为什么容器运行后会出现挖矿病毒或可疑文件？","维护者指出，在多台服务器上测试最新版本均未发现挖矿脚本。如果用户在容器内发现此类文件（如 xmrig），极有可能是 Docker 宿主机本身已被植入挖矿病毒，而非镜像自带。建议用户检查并重装 Docker 宿主机系统，或使用最新版本的官方镜像重新部署。","https:\u002F\u002Fgithub.com\u002FMikeChongCan\u002Fscylla\u002Fissues\u002F102",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},14840,"服务启动后不再获取新的代理源（Provider）怎么办？","这通常是因为某个特定的代理源（如 CoolProxy）失效或卡住，导致阻塞了后续流程。解决方案是注释掉有问题的 Provider 代码。例如，有用户通过注释掉 `CoolProxyProvider` 使服务恢复正常。也可以尝试禁用一两个提供商来排查具体是哪个源出了问题。","https:\u002F\u002Fgithub.com\u002FMikeChongCan\u002Fscylla\u002Fissues\u002F52",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},14841,"在 CentOS 7 源码安装时执行 'make assets-build' 报错找不到模块怎么办？","该错误通常是因为 Node.js 版本过低（如 v6.x）。Scylla 的前端构建工具要求 Node.js 版本必须大于等于 8。解决方法是升级 Node.js 版本。可以参考相关教程（如 linuxize.com 上的指南）在 CentOS 7 上安装新版 Node.js，升级后再次执行构建命令即可成功。","https:\u002F\u002Fgithub.com\u002FMikeChongCan\u002Fscylla\u002Fissues\u002F82",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},14842,"运行时提示 'peewee.ImproperlyConfigured: SQLite driver not installed!' 错误如何解决？","这不是 Scylla 本身的 Bug，而是 Python 环境缺少 SQLite 驱动支持。虽然 Python 2.5+ 通常内置 sqlite3，但在某些精简版系统（如 CentOS）的 Python 环境中可能缺失。用户不应只安装 `pysqlite3` 包，而应检查 Python 编译环境或安装系统级的 sqlite 开发库（如 `sqlite-devel`），并确保 Python 能正确加载 `_sqlite3` 模块。","https:\u002F\u002Fgithub.com\u002FMikeChongCan\u002Fscylla\u002Fissues\u002F42",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},14843,"如何增加可用的代理 IP 数量？默认采集源太少怎么办？","默认的公共代理源可用率较低，过滤后剩余 IP 很少。要增加代理数量，需要添加自定义的 Provider（采集源）。用户需要编写代码添加新的 IP 采集入口，将其集成到项目中。目前通过 Docker 运行时，尚未提供简单的配置方式来动态添加采集源，通常需要修改源码或挂载自定义脚本。","https:\u002F\u002Fgithub.com\u002FMikeChongCan\u002Fscylla\u002Fissues\u002F55",{"id":167,"question_zh":168,"answer_zh":169,"source_url":170},14844,"在 macOS 上通过 pip 安装后运行报错 'objc initializeAfterForkError' 或崩溃怎么办？","这是在 macOS 上运行时的已知兼容性问题，通常与多进程 fork 和 Objective-C 运行时初始化冲突有关。虽然依赖项已包含在 setup.py 中，但系统环境可能导致异常。如果遇到此类崩溃，建议尝试在 Linux 环境下运行，或者检查是否使用了不兼容的 Python 版本。部分用户反馈在修复环境变量或使用特定 Python 版本后可缓解，但这主要属于 macOS 系统层面的限制。","https:\u002F\u002Fgithub.com\u002FMikeChongCan\u002Fscylla\u002Fissues\u002F25",{"id":172,"question_zh":173,"answer_zh":174,"source_url":175},14845,"遇到 'NameError: name CIMultiDict is not defined' 错误如何处理？","该错误通常是由于依赖库版本不匹配导致的。维护者建议尝试升级到最新版本的 Docker 镜像或源码。更新后，相关的依赖（如 aiohttp）会被正确安装，从而解决 `CIMultiDict` 未定义的问题。如果问题依旧，请确认是否混用了不同版本的库文件。","https:\u002F\u002Fgithub.com\u002FMikeChongCan\u002Fscylla\u002Fissues\u002F157",[177,181,185,189,193,198,203,208,213],{"id":178,"version":179,"summary_zh":79,"released_at":180},81698,"1.2.0","2022-03-06T10:14:58",{"id":182,"version":183,"summary_zh":79,"released_at":184},81699,"1.2.0-pre","2022-03-05T12:45:21",{"id":186,"version":187,"summary_zh":79,"released_at":188},81700,"1.1.7","2019-08-25T06:19:59",{"id":190,"version":191,"summary_zh":79,"released_at":192},81701,"1.1.6","2019-08-09T11:32:03",{"id":194,"version":195,"summary_zh":196,"released_at":197},81702,"1.1.5","- 升级 `requests` 库","2018-12-26T13:27:22",{"id":199,"version":200,"summary_zh":201,"released_at":202},81703,"1.1.4","- 引入新的提供商：ipaddress.com（第37位，感谢@kivson）","2018-06-07T10:39:49",{"id":204,"version":205,"summary_zh":206,"released_at":207},81704,"1.1","- 引入 `ValidationProxy` #16\n- 为 JSON API 引入 `countries` 参数 #18\n- 支持验证 HTTPS 代理 #26\n- 改进 Web 界面 #26\n- 引入正向代理服务器 #26","2018-05-30T19:04:07",{"id":209,"version":210,"summary_zh":211,"released_at":212},81705,"1.0","面向人文领域的智能代理池，仅支持 Python 3.6。主要特性：\n\n- 自动爬取并验证代理 IP\n- 简单易用的 JSON API\n- 简洁美观的基于 Web 的用户界面（例如代理的地理分布）\n- 最少只需一条命令即可快速上手\n- 直观易懂的可编程 API\n- 无头浏览器爬取\n\n更多详情，请参阅文档：\u003Chttp:\u002F\u002Fscylla.wildcat.io\u002Fen\u002F1.0\u002F>。","2018-05-27T10:42:20",{"id":214,"version":215,"summary_zh":79,"released_at":216},81706,"0.1.3","2018-04-29T13:20:40"]