[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-deepseek-ai--smallpond":3,"tool-deepseek-ai--smallpond":65},[4,18,32,41,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[15,16,27,28,13,29,30,14,31],"视频","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":38,"last_commit_at":39,"category_tags":40,"status":17},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65628,1,"2026-04-05T10:10:46",[14,29,16],{"id":42,"name":43,"github_repo":44,"description_zh":45,"stars":46,"difficulty_score":24,"last_commit_at":47,"category_tags":48,"status":17},3364,"keras","keras-team\u002Fkeras","Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。\n\n无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。\n\nKeras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。",63927,"2026-04-04T15:24:37",[14,16,29],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":24,"last_commit_at":55,"category_tags":56,"status":17},2403,"crawl4ai","unclecode\u002Fcrawl4ai","Crawl4AI 是一款专为大语言模型（LLM）设计的开源网络爬虫与数据提取工具。它的核心使命是将纷繁复杂的网页内容转化为干净、结构化的 Markdown 格式，直接服务于检索增强生成（RAG）、智能体构建及各类数据管道，让 AI 能更轻松地“读懂”互联网。\n\n传统爬虫往往面临反爬机制拦截、动态内容加载困难以及输出格式杂乱等痛点，导致后续数据处理成本高昂。Crawl4AI 通过内置自动化的三级反机器人检测、代理升级策略以及对 Shadow DOM 的深度支持，有效突破了这些障碍。它能智能移除同意弹窗，处理深层链接，并具备长任务崩溃恢复能力，确保数据采集的稳定与高效。\n\n这款工具特别适合开发者、AI 研究人员及数据工程师使用。无论是需要为本地模型构建知识库，还是搭建大规模自动化信息采集流程，Crawl4AI 都提供了极高的可控性与灵活性。作为 GitHub 上备受瞩目的开源项目，它完全免费开放，无需繁琐的注册或昂贵的 API 费用，让用户能够专注于数据价值本身而非采集难题。",63242,"2026-04-02T22:29:19",[16,13],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":10,"last_commit_at":63,"category_tags":64,"status":17},4243,"MinerU","opendatalab\u002FMinerU","MinerU 是一款专为大语言模型（LLM）打造的文档解析工具，旨在将复杂的 PDF 文件高效转化为机器易读的 Markdown 或 JSON 格式。在日常工作中，许多用户面临从扫描版论文、技术手册或包含复杂排版的文档中提取高质量文本的难题，传统方法往往难以保留原有的公式、表格和结构信息，导致后续 AI 处理效果不佳。MinerU 正是为了解决这一痛点而生，它能精准识别并还原文档中的多栏布局、数学公式及图表内容，确保输出数据干净、结构化，直接适配各类智能体（Agentic）工作流。\n\n这款工具特别适合开发者、数据科学家以及需要构建知识库的研究人员使用。无论是希望微调专属模型的算法工程师，还是试图搭建企业级 RAG（检索增强生成）系统的技术团队，MinerU 都能提供强有力的支持。其核心技术亮点在于对复杂版面分析的深度优化，不仅支持批量处理，还能在保持高准确率的同时，大幅降低数据清洗的人力成本。通过 MinerU，用户可以轻松打通从原始文档到 AI 应用的数据链路，让非结构化文档真正变成可被智能体理解的高价值资产。",58197,"2026-04-06T01:37:49",[15,16,29,14,30],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":80,"owner_website":82,"owner_url":83,"languages":84,"stars":93,"forks":94,"last_commit_at":95,"license":96,"difficulty_score":24,"env_os":97,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":105,"github_topics":106,"view_count":24,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":109,"updated_at":110,"faqs":111,"releases":122},4334,"deepseek-ai\u002Fsmallpond","smallpond","A lightweight data processing framework built on DuckDB and 3FS.","smallpond 是一款轻量级数据处理框架，专为高效处理大规模数据集而设计。它巧妙结合了高性能分析数据库 DuckDB 与分布式文件系统 3FS，让用户无需部署复杂的长期运行服务，即可轻松完成从数据加载、清洗到聚合分析的全流程任务。\n\n面对 PB 级海量数据时，传统工具往往面临配置繁琐或性能瓶颈的问题，而 smallpond 通过底层架构优化，实现了卓越的可扩展性与处理速度。在基准测试中，它曾在百节点集群上以每分钟超过 3.6TB 的吞吐量完成百 TB 级数据排序，展现了强大的工程实力。\n\n这款工具特别适合需要处理大规模数据的开发者、数据工程师及 AI 研究人员。如果你习惯使用 Python 和 SQL 进行数据分析，smallpond 提供了直观易用的 API，支持直接编写 SQL 逻辑处理 Parquet 等格式文件，并能无缝对接 Pandas，极大降低了分布式数据处理的门槛。其独特的“无服务”架构意味着运维成本极低，启动即用，让团队能更专注于数据价值挖掘而非基础设施维护。","# smallpond\n\n[![CI](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002Fsmallpond\u002Factions\u002Fworkflows\u002Fci.yml\u002Fbadge.svg?branch=main)](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002Fsmallpond\u002Factions\u002Fworkflows\u002Fci.yml)\n[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fsmallpond)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsmallpond\u002F)\n[![Docs](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-latest-brightgreen.svg)](https:\u002F\u002Fdeepseek-ai.github.io\u002Fsmallpond\u002F)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-blue.svg)](LICENSE)\n\nA lightweight data processing framework built on [DuckDB] and [3FS].\n\n## Features\n\n- 🚀 High-performance data processing powered by DuckDB\n- 🌍 Scalable to handle PB-scale datasets\n- 🛠️ Easy operations with no long-running services\n\n## Installation\n\nPython 3.8 to 3.12 is supported.\n\n```bash\npip install smallpond\n```\n\n## Quick Start\n\n```bash\n# Download example data\nwget https:\u002F\u002Fduckdb.org\u002Fdata\u002Fprices.parquet\n```\n\n```python\nimport smallpond\n\n# Initialize session\nsp = smallpond.init()\n\n# Load data\ndf = sp.read_parquet(\"prices.parquet\")\n\n# Process data\ndf = df.repartition(3, hash_by=\"ticker\")\ndf = sp.partial_sql(\"SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker\", df)\n\n# Save results\ndf.write_parquet(\"output\u002F\")\n# Show results\nprint(df.to_pandas())\n```\n\n## Documentation\n\nFor detailed guides and API reference:\n- [Getting Started](docs\u002Fsource\u002Fgetstarted.rst)\n- [API Reference](docs\u002Fsource\u002Fapi.rst)\n\n## Performance\n\nWe evaluated smallpond using the [GraySort benchmark] ([script]) on a cluster comprising 50 compute nodes and 25 storage nodes running [3FS].  The benchmark sorted 110.5TiB of data in 30 minutes and 14 seconds, achieving an average throughput of 3.66TiB\u002Fmin.\n\nDetails can be found in [3FS - Gray Sort].\n\n[DuckDB]: https:\u002F\u002Fduckdb.org\u002F\n[3FS]: https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002F3FS\n[GraySort benchmark]: https:\u002F\u002Fsortbenchmark.org\u002F\n[script]: benchmarks\u002Fgray_sort_benchmark.py\n[3FS - Gray Sort]: https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002F3FS?tab=readme-ov-file#2-graysort\n\n## Development\n\n```bash\npip install .[dev]\n\n# run unit tests\npytest -v tests\u002Ftest*.py\n\n# build documentation\npip install .[docs]\ncd docs\nmake html\npython -m http.server --directory build\u002Fhtml\n```\n\n## License\n\nThis project is licensed under the [MIT License](LICENSE).\n","# smallpond\n\n[![CI](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002Fsmallpond\u002Factions\u002Fworkflows\u002Fci.yml\u002Fbadge.svg?branch=main)](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002Fsmallpond\u002Factions\u002Fworkflows\u002Fci.yml)\n[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fsmallpond)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsmallpond\u002F)\n[![Docs](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-latest-brightgreen.svg)](https:\u002F\u002Fdeepseek-ai.github.io\u002Fsmallpond\u002F)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-blue.svg)](LICENSE)\n\n一个基于 [DuckDB] 和 [3FS] 构建的轻量级数据处理框架。\n\n## 特性\n\n- 🚀 由 DuckDB 提供支持的高性能数据处理\n- 🌍 可扩展以处理 PB 级数据集\n- 🛠️ 操作简便，无需长时间运行的服务\n\n## 安装\n\n支持 Python 3.8 至 3.12。\n\n```bash\npip install smallpond\n```\n\n## 快速入门\n\n```bash\n# 下载示例数据\nwget https:\u002F\u002Fduckdb.org\u002Fdata\u002Fprices.parquet\n```\n\n```python\nimport smallpond\n\n# 初始化会话\nsp = smallpond.init()\n\n# 加载数据\ndf = sp.read_parquet(\"prices.parquet\")\n\n# 处理数据\ndf = df.repartition(3, hash_by=\"ticker\")\ndf = sp.partial_sql(\"SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker\", df)\n\n# 保存结果\ndf.write_parquet(\"output\u002F\")\n# 显示结果\nprint(df.to_pandas())\n```\n\n## 文档\n\n有关详细指南和 API 参考：\n- [入门指南](docs\u002Fsource\u002Fgetstarted.rst)\n- [API 参考](docs\u002Fsource\u002Fapi.rst)\n\n## 性能\n\n我们使用 [GraySort 基准测试]（[脚本]）在由 50 个计算节点和 25 个存储节点组成的集群上评估了 smallpond，该集群运行 [3FS]。基准测试在 30 分钟 14 秒内对 110.5TiB 的数据进行了排序，平均吞吐量达到 3.66TiB\u002Fmin。\n\n详情请参阅 [3FS - Gray Sort]。\n\n[DuckDB]: https:\u002F\u002Fduckdb.org\u002F\n[3FS]: https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002F3FS\n[GraySort 基准测试]: https:\u002F\u002Fsortbenchmark.org\u002F\n[脚本]: benchmarks\u002Fgray_sort_benchmark.py\n[3FS - Gray Sort]: https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002F3FS?tab=readme-ov-file#2-graysort\n\n## 开发\n\n```bash\npip install .[dev]\n\n# 运行单元测试\npytest -v tests\u002Ftest*.py\n\n# 构建文档\npip install .[docs]\ncd docs\nmake html\npython -m http.server --directory build\u002Fhtml\n```\n\n## 许可证\n\n本项目采用 [MIT 许可证](LICENSE)授权。","# smallpond 快速上手指南\n\n## 环境准备\n\n- **操作系统**：支持 Linux、macOS 和 Windows\n- **Python 版本**：3.8 至 3.12\n- **前置依赖**：无需额外安装复杂依赖，框架内置基于 DuckDB 和 3FS 的核心引擎\n\n> 💡 提示：国内用户建议使用清华或阿里镜像源加速 pip 安装。\n\n## 安装步骤\n\n使用 pip 直接安装最新稳定版：\n\n```bash\npip install smallpond -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n如需安装开发版本或包含文档\u002F测试依赖的版本：\n\n```bash\npip install .[dev]\n# 或\npip install .[docs]\n```\n\n## 基本使用\n\n以下是最简单的数据处理流程示例：\n\n1. **下载示例数据**\n\n```bash\nwget https:\u002F\u002Fduckdb.org\u002Fdata\u002Fprices.parquet\n```\n\n2. **编写 Python 脚本进行处理**\n\n```python\nimport smallpond\n\n# 初始化会话\nsp = smallpond.init()\n\n# 加载 Parquet 数据\ndf = sp.read_parquet(\"prices.parquet\")\n\n# 数据重分区（按 ticker 哈希分为 3 份）\ndf = df.repartition(3, hash_by=\"ticker\")\n\n# 执行 SQL 聚合查询\ndf = sp.partial_sql(\"SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker\", df)\n\n# 保存结果为 Parquet 文件\ndf.write_parquet(\"output\u002F\")\n\n# 打印结果预览\nprint(df.to_pandas())\n```\n\n该示例展示了从数据加载、重分区、SQL 聚合到结果输出的完整流程，适用于本地快速验证或小规模数据处理任务。","某量化交易团队需要每日处理来自全球交易所的数百 GB 行情数据，以计算各股票标的的日内极值与波动特征。\n\n### 没有 smallpond 时\n- **架构臃肿**：必须部署和维护 Hadoop\u002FSpark 等重型集群，不仅资源占用高，还需专人看护长驻服务。\n- **开发繁琐**：简单的聚合统计（如按股票代码分组求最大最小值）需要编写冗长的 MapReduce 代码或复杂的 Spark SQL 任务。\n- **启动缓慢**：每次调试代码都要等待漫长的集群资源申请与服务启动，严重拖慢策略迭代节奏。\n- **扩展困难**：面对突发增长的 PB 级历史数据回测需求，临时扩容存储与计算节点流程复杂且耗时。\n\n### 使用 smallpond 后\n- **轻量无服务**：基于 DuckDB 和 3FS 构建，无需任何长驻后台服务，单机脚本即可直接驱动分布式计算，运维成本归零。\n- **代码极简**：仅需几行 Python 代码调用 `partial_sql` 即可完成复杂的分片哈希与聚合逻辑，开发效率提升数倍。\n- **即时反馈**：省去了集群启动等待时间，数据加载与分析秒级响应，让研究员能快速验证新想法。\n- **弹性伸缩**：轻松利用现有存储集群处理 PB 级数据集，在 50 个计算节点上即可实现每分钟 3.66TiB 的惊人吞吐。\n\nsmallpond 让大规模数据清洗像本地脚本一样简单，同时保留了企业级的性能与扩展能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdeepseek-ai_smallpond_2e738363.png","deepseek-ai","DeepSeek","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdeepseek-ai_04503588.png","",null,"service@deepseek.com","https:\u002F\u002Fwww.deepseek.com\u002F","https:\u002F\u002Fgithub.com\u002Fdeepseek-ai",[85,89],{"name":86,"color":87,"percentage":88},"Python","#3572A5",100,{"name":90,"color":91,"percentage":92},"Makefile","#427819",0,4944,442,"2026-04-04T22:52:35","MIT","未说明","未说明（支持 PB 级数据集，实际需求取决于数据规模）",{"notes":100,"python":101,"dependencies":102},"该工具是一个基于 DuckDB 和 3FS 的轻量级数据处理框架。它无需长期运行的服务即可操作。在性能测试中，它在包含 50 个计算节点和 25 个存储节点的集群上运行，并依赖 3FS 文件系统来处理大规模数据。","3.8 - 3.12",[103,104],"DuckDB","3FS",[16],[107,108],"data-processing","duckdb","2026-03-27T02:49:30.150509","2026-04-06T18:54:08.393062",[112,117],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},19717,"遇到 'Failed to register worker to Raylet: IOError' 错误怎么办？","尝试重启机器。有用户反馈在按照官方步骤运行演示代码遇到该错误，且清理缓存无效后，通过重启机器解决了问题。","https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002Fsmallpond\u002Fissues\u002F17",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},19718,"如何为 DuckDB 设置临时目录以解决内存不足（OutOfMemory）错误？","可以在 `SqlEngineNode` 或 `map` 函数中添加参数 `enable_temp_directory=True`。默认情况下该功能是禁用的，因为将数据溢出到磁盘的速度非常慢，但在内存不足时开启此选项可以允许数据库使用持久化存储后端。","https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002Fsmallpond\u002Fissues\u002F2",[]]