[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mldbai--mldb":3,"tool-mldbai--mldb":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160015,2,"2026-04-18T11:30:52",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":76,"owner_website":78,"owner_url":79,"languages":80,"stars":121,"forks":122,"last_commit_at":123,"license":124,"difficulty_score":125,"env_os":126,"env_gpu":127,"env_ram":127,"env_deps":128,"category_tags":132,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":133,"updated_at":134,"faqs":135,"releases":164},9108,"mldbai\u002Fmldb","mldb","MLDB is the Machine Learning Database","mldb 是一款专为机器学习打造的开源 SQL 数据库。它旨在解决传统数据库在处理机器学习任务时的痛点，让用户能够直接使用熟悉的 SQL 语言完成从数据存储、探索分析，到模型训练及 API 部署的全流程，无需在不同工具间频繁切换。\n\n这款工具特别适合数据科学家、机器学习工程师以及希望深入探索底层算法的研究人员使用。对于需要在 Linux 或 macOS 环境下构建自定义 ML 流程的开发者而言，mldb 提供了极高的灵活性。\n\nmldb 拥有多项独特的技术亮点：它扩展了 SQL 方言以原生支持嵌套结构、嵌入向量和张量等机器学习专用数据类型；采用“万物皆表”的设计理念，允许用户像查询普通数据一样直接检视和操作训练好的模型；同时具备无锁高并发的 REST 接口，确保数据加载与模型预测的高效执行。此外，其架构正朝着核心精简、功能插件化的方向演进，支持通过 C++、Python 和 JavaScript 进行灵活扩展。虽然目前主要由社区志愿者维护，但它依然是探索高性能内存数据结构与独立计算抽象的优秀研究平台。","# MLDB is the Machine Learning Database\n\nMLDB is an open source SQL database designed for machine learning that was developed by [MLDB.ai](http:\u002F\u002Fmldb.ai\u002F).\nSince the sale of MLDB.ai to [Element AI](http:\u002F\u002Felementai.com) in 2017, it's no longer\na commercially supported product, instead it's being developed by a very small number\nof people in their spare time as an open source research project.\n\n*The former MLDB Enterprise Edition, the MLDB Docker Containers, and the MLDB Hub\nare no longer being maintained.  Please don't use them.*\n\n[![Join the chat at https:\u002F\u002Fgitter.im\u002Fmldbai\u002Fmldb](https:\u002F\u002Fbadges.gitter.im\u002Fmldbai\u002Fmldb.svg)](https:\u002F\u002Fgitter.im\u002Fmldbai\u002Fmldb?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge&utm_content=badge)\n\nMLDB is an open-source database designed for machine learning. \nYou can install it as a command-line tool wherever you want and either run as a script or send it commands over a RESTful API to \nstore data, explore it using SQL, then train machine learning models and expose them as APIs. More information is available at http:\u002F\u002Fmldb.ai\n\nThis repository contains the source code for MLDB, which can be used to [build MLDB](Building.md).  Building MLDB is the\n_only_ way to get an up to date version.  It can be built and run on Linux or OSX, on Intel, ARM or Apple processors.  The\nCI\u002FCD pipeline is hosted on [GitLab](https:\u002F\u002Fgitlab.com\u002Fmldbai\u002Fmldb\u002F).\n\nPlease [create a Github Issue](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Fissues\u002Fnew) or [chat with us on Gitter](https:\u002F\u002Fgitter.im\u002Fmldbai\u002Fmldb) if you have any questions or encounter problems while building or running MLDB.  Be mindful that it's open source and that everyone working on it has\na day job.\n\n## What's interesting about MLDB?\n\nMLDB contains some interesting concepts:\n* A dialect of SQL that is useful for machine learning\n* High efficiency implementations of data loading, training of classical ML algorithms and predition endpoints\n* Dataset abstractions that can effectivly model many kinds of real-world data (tabular, sparse, behavioral, logfiles, ...)\n* A data model and type system designed for ML, including nested structures, embeddings and tensors as data types\n* Everything-is-a-table, allowing manipulation and introspection of ML models\n* Lock-free and high performance REST endpoints\n* Extensibility via plugins, in C++, Python and Javascript\n\nIt is used to explore the following research topics:\n* High memory efficient data storage\n* High speed training of ML algorithms\n* Memory mappable data structures\n* Abstractions for compute-independent processing\n\nCurrently, MLDB is being rearchitected as a much smaller core with all of the other functionality implemented as plugins,\nand designed to run on a broader set of deployment platforms.\n\nThe ultimate vision for MLDB is as a machine-learning \"anti-plaform\": MLDB will make it easy to create\nand deploy machine learning solutions by allowing them to be manipulated and transformed outside of the\nplatforms on which they are created and specialized to their runtime environment.\n\n## Documentation\n\nRaw Markdown documentation files are located under `container_files\u002Fpublic_html\u002Fdoc` and you can browse them on Github or you can browse the full-rendered version at https:\u002F\u002Fdocs.mldb.ai.  This documentation is for the last commercial release, and so is out of date, but is still generally helpful.\n\n## Copyright & License (Apache License v2.0)\n\nMLDB is © 2016 mldb.ai Inc (and its successors) and the Contributors, and is distributed under the [Apache License, version 2.0](LICENSE), except for the contents of the `ext` directory, which contains (possibly) modified versions of other open-source software components, each of which is distributed under its own, Apache-compatible license and lists its own copyright information.  Source code of each component is available via its Git submodule, and any changes to those components in the `mldbai` GitHub organization are implicitly available under the same license as the modified work.\n","# MLDB 是机器学习数据库\n\nMLDB 是一个为机器学习设计的开源 SQL 数据库，由 [MLDB.ai](http:\u002F\u002Fmldb.ai\u002F) 开发。自 2017 年 MLDB.ai 被 [Element AI](http:\u002F\u002Felementai.com) 收购以来，它不再作为商业支持的产品提供服务，而是由极少数人利用业余时间以开源研究项目的形式进行开发。\n\n*原 MLDB 企业版、MLDB Docker 容器以及 MLDB Hub 均已停止维护，请勿使用。*\n\n[![加入 https:\u002F\u002Fgitter.im\u002Fmldbai\u002Fmldb 的聊天室](https:\u002F\u002Fbadges.gitter.im\u002Fmldbai\u002Fmldb.svg)](https:\u002F\u002Fgitter.im\u002Fmldbai\u002Fmldb?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge&utm_content=badge)\n\nMLDB 是一个专为机器学习设计的开源数据库。您可以将其作为命令行工具安装在任何地方，既可以以脚本方式运行，也可以通过 RESTful API 发送命令来存储数据、使用 SQL 进行探索，进而训练机器学习模型并将其部署为 API。更多信息请访问 http:\u002F\u002Fmldb.ai。\n\n本仓库包含 MLDB 的源代码，可用于 [构建 MLDB](Building.md)。构建是获取最新版本的唯一途径。MLDB 可以在 Linux 或 macOS 上编译和运行，支持 Intel、ARM 和 Apple 处理器。CI\u002FCD 流水线托管在 [GitLab](https:\u002F\u002Fgitlab.com\u002Fmldbai\u002Fmldb\u002F) 上。\n\n如果您在构建或运行 MLDB 时遇到任何问题，或者有任何疑问，请 [创建 GitHub 问题](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Fissues\u002Fnew) 或者在 [Gitter 上与我们交流](https:\u002F\u002Fgitter.im\u002Fmldbai\u002Fmldb)。请注意，这是一个开源项目，参与开发的人员都有自己的本职工作。\n\n## MLDB 有哪些值得关注的地方？\n\nMLDB 包含一些有趣的概念：\n* 一种对机器学习有用的 SQL 方言\n* 高效的数据加载实现、经典机器学习算法的训练以及预测端点\n* 数据集抽象，能够有效建模多种真实世界数据（表格型、稀疏型、行为数据、日志文件等）\n* 专为机器学习设计的数据模型和类型系统，包括嵌套结构、嵌入向量和张量等数据类型\n* “一切皆表”的设计理念，允许对机器学习模型进行操作和内省\n* 无锁且高性能的 REST 端点\n* 通过插件实现的扩展性，支持 C++、Python 和 JavaScript\n\nMLDB 目前被用于探索以下研究方向：\n* 高效的内存数据存储\n* 机器学习算法的高速训练\n* 内存映射数据结构\n* 不依赖计算平台的处理抽象\n\n目前，MLDB 正在进行重构，核心功能将大幅精简，其他功能则以插件形式实现，并计划支持更广泛的部署平台。\n\nMLDB 的最终愿景是成为一种“反平台”的机器学习工具：通过允许用户在独立于其原始创建平台的环境中对机器学习解决方案进行操作和转换，并根据运行时环境进行优化，从而简化机器学习解决方案的构建和部署流程。\n\n## 文档\n\n原始的 Markdown 格式文档位于 `container_files\u002Fpublic_html\u002Fdoc` 目录下，您可以在 GitHub 上浏览这些文件，也可以访问完整渲染后的版本：https:\u002F\u002Fdocs.mldb.ai。这些文档基于最后一次商业发布版本编写，因此已经过时，但仍然具有一定的参考价值。\n\n## 版权与许可（Apache License v2.0）\n\nMLDB © 2016 mldb.ai Inc（及其继承者）及贡献者所有，采用 [Apache 许可证 2.0 版](LICENSE) 进行分发。不过，`ext` 目录下的内容除外，该目录包含其他开源软件组件的修改版本（可能），每个组件都遵循各自的 Apache 兼容许可证，并标注了相应的版权声明。各组件的源代码可通过其 Git 子模块获取，而对这些组件在 `mldbai` GitHub 组织中的任何修改，均默认适用与被修改作品相同的许可证。","# MLDB 快速上手指南\n\nMLDB 是一个专为机器学习设计的开源 SQL 数据库。它允许用户通过 SQL 存储和探索数据，训练经典机器学习模型，并将模型作为 API 暴露出来。**注意**：自 2017 年项目转为社区维护的开源研究项目后，原有的商业版、Docker 容器及 Hub 已停止维护，**构建源码是获取最新版本的唯一途径**。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux 或 macOS (OSX)。\n*   **硬件架构**：支持 Intel、ARM 或 Apple Silicon 处理器。\n*   **前置依赖**：\n    *   由于需要从头编译，请确保系统已安装基础的构建工具链（如 `gcc`\u002F`clang`, `make`, `git` 等）。\n    *   建议预留充足的内存和磁盘空间以应对编译过程。\n\n> **提示**：本项目由志愿者利用业余时间维护，构建过程可能需要一定时间。如遇问题，可通过 [Gitter](https:\u002F\u002Fgitter.im\u002Fmldbai\u002Fmldb) 社区交流或在 [GitHub Issues](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Fissues) 反馈。\n\n## 安装步骤\n\n目前官方未提供预编译的二进制包或维护中的 Docker 镜像，您需要通过源码自行构建。\n\n1.  **克隆源代码仓库**\n    ```bash\n    git clone --recursive https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb.git\n    cd mldb\n    ```\n    *注意：务必使用 `--recursive` 参数以拉取必要的子模块。*\n\n2.  **执行构建**\n    具体的构建命令和依赖细节请参阅项目根目录下的 `Building.md` 文件。通常在 Linux 环境下，构建流程涉及配置和编译步骤：\n    ```bash\n    # 示例流程（具体请以 Building.md 为准）\n    .\u002Fconfigure\n    make\n    ```\n\n3.  **验证安装**\n    构建完成后，生成的可执行文件即可作为命令行工具使用，或通过 RESTful API 启动服务。\n\n## 基本使用\n\nMLDB 的核心工作流是：**加载数据 -> SQL 探索 -> 训练模型 -> 部署 API**。以下是最基础的使用概念示例：\n\n### 1. 启动服务\n构建完成后，运行 MLDB 服务器（默认监听本地端口）：\n```bash\n.\u002Fmldb_runner\n```\n\n### 2. 通过 REST API 交互\nMLDB 主要通过 HTTP REST API 进行操作。您可以使用 `curl` 发送请求。\n\n**示例：创建一个简单的数据集并插入数据**\n\n```bash\n# 创建一个名为 \"my_dataset\" 的稀疏数据集\ncurl -X PUT http:\u002F\u002Flocalhost:8080\u002Fv1\u002Fdatasets\u002Fmy_dataset \\\n     -d '{ \"type\": \"sparse.mutable\" }'\n\n# 向数据集中插入一行数据 (行名为 \"row_1\", 特征 \"feature_a\" 值为 10)\ncurl -X POST http:\u002F\u002Flocalhost:8080\u002Fv1\u002Fdatasets\u002Fmy_dataset\u002Frows \\\n     -d '{\n           \"rowName\": \"row_1\",\n           \"columns\": [ [\"feature_a\", 10, 0] ]\n         }'\n```\n\n**示例：使用 SQL 查询数据**\n\n```bash\ncurl -X GET \"http:\u002F\u002Flocalhost:8080\u002Fv1\u002Fquery?q=SELECT%20*%20FROM%20my_dataset\"\n```\n\n**示例：训练一个简单的分类器**\nMLDB 支持通过 SQL 语句直接触发机器学习训练任务（具体语法参考官方文档）：\n```sql\nCREATE PROCEDURE train_model AS\nTRAIN CLASSIFIER my_classifier\nON (SELECT * FROM my_dataset)\nUSING { 'algorithm': 'linear_regression', 'label': 'feature_a' };\n```\n\n### 3. 扩展性\nMLDB 支持通过插件进行扩展，您可以使用 **C++**、**Python** 或 **Javascript** 编写自定义功能，以适应特定的机器学习需求。\n\n---\n*更多详细文档（基于上一商业版本，仅供参考）可访问：https:\u002F\u002Fdocs.mldb.ai*","某电商数据团队需要基于海量用户行为日志（点击、浏览、购买）快速构建实时推荐模型，以优化首页商品展示。\n\n### 没有 mldb 时\n- 数据工程师需编写复杂的 ETL 脚本将非结构化的日志文件清洗并转换为传统关系型数据库所需的规整表格，耗时且易出错。\n- 算法科学家必须将数据导出到本地，使用 Python 或 R 进行特征工程，导致数据搬运频繁，难以处理嵌套的用户行为序列数据。\n- 模型训练与数据存储割裂，每次调整特征都需要重新导出数据，迭代周期长达数天，无法响应业务变化。\n- 部署模型时需额外开发 REST API 服务包裹算法代码，运维架构复杂，难以实现高并发下的低延迟预测。\n\n### 使用 mldb 后\n- 直接利用 mldb 特有的 SQL 方言加载原始日志文件，其原生支持稀疏数据和嵌套结构，无需繁琐的预处理即可直接查询探索。\n- 在数据库内部直接调用内置的高效机器学习算法进行训练，利用“一切皆表”的特性，像操作普通数据一样对模型进行 introspection 和特征变换。\n- 通过简单的 SQL 语句即可完成从数据准备到模型训练的全流程，将原本数天的迭代周期缩短至小时级，大幅提升实验效率。\n- 训练好的模型自动暴露为高性能、无锁的 REST API 端点，无需额外开发包装代码，即可直接集成到线上推荐系统中提供服务。\n\nmldb 通过将数据存储、探索、训练和服务部署融合在统一的 SQL 环境中，彻底消除了机器学习流程中的数据孤岛与工程摩擦。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmldbai_mldb_89f67250.png","mldbai","MLDB.ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmldbai_a9898767.png","",null,"info@mldb.ai","http:\u002F\u002Fmldb.ai","https:\u002F\u002Fgithub.com\u002Fmldbai",[81,85,89,93,97,101,105,109,113,117],{"name":82,"color":83,"percentage":84},"C++","#f34b7d",36.6,{"name":86,"color":87,"percentage":88},"C","#555555",33,{"name":90,"color":91,"percentage":92},"Jupyter Notebook","#DA5B0B",19.3,{"name":94,"color":95,"percentage":96},"JavaScript","#f1e05a",5.6,{"name":98,"color":99,"percentage":100},"Python","#3572A5",3.6,{"name":102,"color":103,"percentage":104},"Makefile","#427819",0.8,{"name":106,"color":107,"percentage":108},"HTML","#e34c26",0.6,{"name":110,"color":111,"percentage":112},"CMake","#DA3434",0.3,{"name":114,"color":115,"percentage":116},"Shell","#89e051",0.1,{"name":118,"color":119,"percentage":120},"CSS","#663399",0,685,101,"2026-03-01T17:18:56","Apache-2.0",4,"Linux, macOS","未说明",{"notes":129,"python":127,"dependencies":130},"该项目自 2017 年起不再作为商业产品维护，仅由少数人在业余时间作为开源研究项目开发。旧的 Docker 容器和企业版已停止维护，请勿使用。获取最新版本的唯一方式是自行从源码编译。支持 Intel、ARM 和 Apple 处理器。",[82,98,131],"Javascript",[14,16],"2026-03-27T02:49:30.150509","2026-04-18T22:35:24.063518",[136,141,146,151,156,160],{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},40859,"为什么编译或运行社区版（Community Edition）MLDB 时会提示需要许可证密钥？","这通常是因为在切换分支或克隆代码后，未初始化子模块导致的。请确保在执行构建前运行以下命令来更新子模块：\n\ngit submodule update --init\n\n特别注意 'pffft' 是一个子模块，应位于 'mldb\u002Fext\u002Fpffft' 目录下。完成此步骤后重新编译，社区版应可正常运行且无需许可证密钥。","https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Fissues\u002F746",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},40858,"如何在 macOS 上解决 Docker 启动 MLDB 时出现的 'directory mapped to \u002Fmldb_data owned by root' 错误？","MLDB 现在已支持直接在 macOS 上构建和运行，不再必须使用 Docker。如果仍需使用 Docker，可以通过以下命令修改数据目录的所有者来解决权限问题：\n\ndocker run --entrypoint=\"chown\" --rm=true -v ~\u002Fmldb_data:\u002Fmldb_data quay.io\u002Fdatacratic\u002Fmldb:latest -R _mldb: \u002Fmldb_data\n\n执行该命令后，即可正常启动 MLDB。","https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Fissues\u002F750",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},40860,"MLDB 项目目前是否还在维护或处于活跃状态？","该项目在被 Element AI 收购后，已不再作为活跃的商业项目进行开发。目前它主要作为一个研究和爱好项目存在，偶尔会有贡献者进行一些更新，但不再有定期的官方开发计划。新用户需注意该项目可能不再适合生产环境的关键任务。","https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Fissues\u002F907",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},40861,"在 Ubuntu 上构建 MLDB 社区版时遇到 'postgresql\u002Flibpq-fe.h: No such file or directory' 错误怎么办？","这是因为系统缺少 PostgreSQL 的开发库。请在构建前通过以下命令安装依赖：\n\napt-get install libpq-dev\n\n安装完成后重新执行 'make compile' 即可解决编译错误。如果运行时仍报错找不到 'libpq.so.5'，请确保运行时环境中也安装了相应的库文件。","https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Fissues\u002F745",{"id":157,"question_zh":158,"answer_zh":159,"source_url":140},40862,"有没有比本地安装更简单的方法来快速体验 MLDB？","如果您不想自行编译代码或配置环境，最简单的方法是直接访问 MLDB 官方网站 https:\u002F\u002Fmldb.ai ，然后点击页面上的 'Try MLDB right now' 按钮。这将允许您在浏览器中直接试用 MLDB，无需任何本地安装步骤。",{"id":161,"question_zh":162,"answer_zh":163,"source_url":145},40863,"在 macOS 上使用 MLDB 时，除了 Docker 方案外还有其他建议吗？","由于 Docker 在 macOS 上可能存在权限映射等兼容性问题，官方建议直接使用原生支持 macOS 的构建版本。MLDB 现已支持在 OSX 上直接构建，这意味着您可以绕过 Docker 容器直接在本地运行，从而避免许多与文件系统权限相关的错误。",[165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,249,254,259],{"id":166,"version":167,"summary_zh":168,"released_at":169},324445,"v2017.04.17.0","MLDB 是机器学习数据库。它是将机器学习或人工智能集成到您的应用程序或个人项目中的最佳方式。请访问 [MLDB.ai](https:\u002F\u002Fmldb.ai\u002F#signin) 立即试用，或参阅 [运行 MLDB](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FRunning.md.html) 以获取安装详情。\n\n我们很高兴地宣布 MLDB [2017.04.17.0 版本](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2017.01.17.0)现已正式发布。\n\n以下是本次版本的一些亮点：\n\n## 新特性\n* 除了共享库之外，MLDB 现在还会自动加载 [JavaScript](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Flang\u002FJavascript.md.html) 和 [Python](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Flang\u002FPython.md.html) 插件。\n* 新增函数：\n  * [`remove_prefix(string, prefix)`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FValueExpression.md.html)：如果字符串包含指定前缀，则返回移除该前缀后的字符串。\n  * [`remove_suffix(string, suffix)`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FValueExpression.md.html)：如果字符串包含指定后缀，则返回移除该后缀后的字符串。\n  * [`mime_type(x)`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FValueExpression.md.html)：返回二进制大对象 x 的 MIME 类型。\n* MLDB 现在通过 `azureblob:\u002F\u002F` URI 协议支持 Azure Blob 存储。\n* 为 MLDB 分类器的算法新增了对 [Fast Text](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FfastText) 的支持。请注意，我们实现的 Fast Text 分类器仅支持特征计数，目前不支持回归任务。这里的“特征计数”指的是词袋表示法，例如由 `tokenize()` 函数返回的结果。\n* 新增路由 `POST \u002Fredirect\u002Fget`，为无法在 GET 请求中附加请求体的 API 提供了一种替代方案，使其可以通过 POST 调用实现相同的功能。\n* 向 [`import.text` 过程](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002Fimporttextprocedure.md.html) 添加了新参数 `ignoreExtraColumns`，用于忽略标题行中未列出的额外列，而不会导致导入失败。\n* [`classifier.train`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FClassifier.md.html)、[`classifier.experiment`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FExperimentProcedure.md.html) 和 [`classifier.test`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FAccuracy.md.html) 现在支持多标签分类模式。\n* 函数 [`reshape`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FValueExpression.md.html) 现在可以处理行级表达式。\n* 函数 [`import.word2vec`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FWord2VecImporter.md.html) 现在支持命名参数。\n* 函数 [`fetcher`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Ffunctions\u002FFetcher.md.html) 现在支持并发限制，这尤其有助于避免因过多请求而使服务器过载。\n\n\n## 变更\n* 过程 [`export.csv`](http:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FCsvExportProcedure.md.html) 会自动展平结构。例如，如果您有一个名为 “ds”的数据集，其中列 “x” 包含一个结构 ‘{“a” : ","2017-05-25T19:52:40",{"id":171,"version":172,"summary_zh":173,"released_at":174},324446,"v2017.01.24.0","MLDB 是机器学习数据库。它是将机器学习或人工智能集成到您的应用程序或个人项目中的最佳方式。请立即前往 [MLDB.ai](https:\u002F\u002Fmldb.ai\u002F#signin) 体验，或参阅 [运行 MLDB](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FRunning.md.html) 获取安装详情。\n\n我们很高兴地宣布 MLDB [2017.01.24.0 版本](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2017.01.24.0)现已正式发布。\n\n本次发布包含 123 次新提交，并修改了 1653 个文件。除了大量的错误修复和性能改进外，以下是本次版本的一些亮点：\n\n- 我们新增了一些功能，以提高对长时间运行流程的可见性。大多数流程现在都会 [报告其进度](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FProcedures.md.html)。pymldb 8.1 版本为 Jupyter 添加了进度条，方便在笔记本中跟踪流程的进展。更多详情请参阅 [使用 pymldb 进度条和取消按钮教程](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_tutorials\u002F_latest\u002FUsing%20pymldb%20Progress%20Bar%20and%20Cancel%20Button%20Tutorial.html)。\n\n\u003Ccenter>\n\u003Cimg src=\"http:\u002F\u002Fblog.mldb.ai\u002Fimg\u002Fnotebook_progress.jpg\">\n\u003C\u002Fcenter>\n\n- 通过在绑定时评估所有常量表达式，而不是为每一行单独计算，大幅优化了查询执行时间。\n- 新增了 `blob_length(x)` 函数，用于返回二进制大对象 `x` 的长度（以字节为单位）。\n- 新增了 `parse_exif(blob)` 函数，该函数接受一个 JPEG 图像的二进制数据块，并从中提取基本的 EXIF 信息。\n- 新增了 `split_part(str, splitChars)` 函数，用于分割字符串 `str`，并返回由指定分隔符 `splitChars` 分割的所有标记的嵌入表示。\n- `fetcher()` 函数现在支持 UTF-8 编码的路径。\n- 修复了 `fetcher()` 函数在应返回 404 错误时却返回错误错误码的问题。\n- 修复了 `fetcher()` 函数可能导致 MLDB 长时间挂起的问题。\n- `\u002Flogs\u002Fmldb` 端点返回的日志行数已从 1024 行增加至 8192 行。\n- 改进了 `columnPathElement()` 函数在使用越界索引时返回的错误信息。\n- 现在可以对 `row_dataset` 进行转置操作，也可以将两个 `row_dataset` 合并在一起。\n- 修复了一个问题：当与 `UNION` 类型的数据集一起使用时，`WHERE` 子句无法正确应用。\n- 在 Docker 容器中运行 MLDB 时，如果 `mldb_runner` 进程以非零退出码退出，`docker run` 命令也会以非零退出码退出。\n- 在 [执行查询](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FQueryAPI.md.html) 时，新增了 `atom` 返回格式。该格式仅返回单个原子值，不包含行名或列名。如果返回的结果不是单行或单列，则查询会失败。此格式适用于 `\u002Fv1\u002Fquery` 端点或 pymldb。\n- 日志记录改进\n- 改进了 CUDA 启动的处理方式","2017-01-26T17:04:21",{"id":176,"version":177,"summary_zh":178,"released_at":179},324447,"v2016.12.16.0","MLDB 是机器学习数据库。它是将机器学习或人工智能集成到您的应用程序或个人项目中的最佳方式。请访问 [MLDB.ai](https:\u002F\u002Fmldb.ai\u002F#signin) 立即试用，或参阅 [运行 MLDB](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FRunning.md.html) 以获取安装详情。\n\n我们很高兴地宣布 MLDB [2016.12.16.0 版本](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2016.12.16.0)现已正式发布。\n\n本次发布包含 228 个新提交，并修改了 823 个文件。除了大量的错误修复和性能改进外，以下是本次版本的一些亮点：\n\n- 现在可以通过使用 `\u002Fv1\u002Ffunctions\u002F\u003Cfunction>\u002Fbatch` REST 路由，在一次 REST 调用中进行[多次预测](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FWorkingWithRest.md.html)。\n- 新增[识别有偏特征教程](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_tutorials\u002F_latest\u002FIdentifying%20Biased%20Features%20Tutorial.html)。\n- 新增[信号处理函数](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FValueExpression.md.html#signalprocfunctions)。其中包括 `fft(data [,direction='forward' [,type='real']])` 函数，用于对给定数据执行快速傅里叶变换。\n- 在 [`tensorflow.graph`](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#\u002Fv1\u002Fplugins\u002Ftensorflow\u002Fdoc\u002FTensorflowGraph.md.html) 函数中新增了 `devices` 配置参数，用于指定图可以在哪些设备上运行。\n- MLDB 现在包含了适用于 Shader Model 5.2 (Kepler)、5.3 (Maxwell)、6.0 (P100) 和 6.1 (Titan X) 的 CUDA 核心。\n- 改进了对 aarch64 和 ARM 架构的支持。Jetson TX1 现在也支持 CUDA。\n- 现在可以跟踪长时间运行的程序进度，并对其进行中断。更多详情请参阅 [程序简介](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FProcedures.md.html) 页面。\n- 新增数值函数：\n  - `sin(x)`、`cos(x)` 和 `tan(x)` 是常规三角函数。\n  - `asin(x)`、`acos(x)` 和 `atan(x)` 是常规反三角函数。\n  - `atan2(x, y)` 返回 `x` 和 `y` 的双参数反正切值，即从原点到点 `(x, y)` 的角度（以弧度为单位），相对于正 x 轴。\n  - `sinh(x)`、`cosh(x)` 和 `tanh(x)` 是常规双曲函数。\n  - `asinh(x)`、`acosh(x)` 和 `atanh(x)` 是常规反双曲函数。\n  - `pi()` 返回圆周率 π 的值，即圆的周长与其直径的比值，以双精度浮点数形式表示。\n  - `e()` 返回自然对数的底 e 的值，以双精度浮点数形式表示。\n- 新增 `concat(x, ...)` 函数，该函数接受多个除最后一维外尺寸完全相同的嵌入向量，并在最后一维上将其拼接在一起。\n- `import.json` 程序现在支持 `arrays` 配置参数，用于指定数组在 JSON 输出中的编码方式。\n- `import.text` 程序现在会返回一个 `rowCount` 字段，表示","2016-12-16T20:55:07",{"id":181,"version":182,"summary_zh":183,"released_at":184},324448,"v2016.10.05.0","MLDB 是机器学习数据库。它是将机器学习或人工智能集成到您的应用程序或个人项目中的最佳方式。请访问 [MLDB.ai](https:\u002F\u002Fmldb.ai\u002F#signin) 立即试用，或参阅 [运行 MLDB](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FRunning.md.html) 获取安装详情。\n\n我们很高兴地宣布 MLDB [2016.10.05.0 版](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2016.10.05.0) 即刻可用。\n\n本次发布包含 141 个新提交，并修改了 903 个文件。除了大量的错误修复和性能改进外，以下是本次发布的几个亮点：\n\n## 新增 MongoDB 接口\n\n一项重大新功能是支持与流行的 NoSQL 数据库 [MongoDB](https:\u002F\u002Fwww.mongodb.com) 之间进行数据的导入和导出。尽管 MongoDB 在某些场景下非常有用，但它本身并不具备机器学习能力。为了让用户更轻松地将数据导入 MLDB，我们新增了以下 MLDB 实体，以简化与 MongoDB 的交互：\n- [mongodb.import 过程](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002Findex.html#\u002Fv1\u002Fplugins\u002Fmongodb\u002Fdoc\u002FMongoImport.md.html)：用于将 MongoDB 集合导入到 MLDB 数据集中。\n- [mongodb.dataset 数据集](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002Findex.html#\u002Fv1\u002Fplugins\u002Fmongodb\u002Fdoc\u002FMongoDataset.md.html)：基于 MongoDB 集合的只读 MLDB 数据集。\n- [mongodb.record 数据集](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002Findex.html#\u002Fv1\u002Fplugins\u002Fmongodb\u002Fdoc\u002FMongoRecord.md.html)：写入 MongoDB 集合的只写 MLDB 数据集。\n- [mongodb.query 函数](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002Findex.html#\u002Fv1\u002Fplugins\u002Fmongodb\u002Fdoc\u002FMongoQueryFunction.md.html)：用于对 MongoDB 集合执行 MLDB SQL 查询的函数。\n\n## TensorFlow 更新至 0.10.0\n\n我们已将 MLDB 附带的 [TensorFlow](https:\u002F\u002Fwww.tensorflow.org) 版本升级至 [0.10.0 版](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Ftensorflow\u002Freleases\u002Ftag\u002Fv0.10.0rc0)。新版本包含大量错误修复和性能改进。此外，我们现在还为 MLDB 搭配了针对不同指令集优化的 TensorFlow 内核。例如，如果运行 MLDB 的处理器支持 AVX2 指令集，系统将自动使用配备 AVX2 指令的内核。\n\n如果您对深度学习感兴趣，请务必查看 [TensorFlow 图像识别教程](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002Fnblink.html#_tutorials\u002FTensorflow%20Image%20Recognition%20Tutorial) 和 [TensorFlow 迁移学习演示](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002Fnblink.html#_demos\u002FTransfer%20Learning%20with%20Tensorflow)，了解如何轻松地在 MLDB 中运行训练好的模型。\n\n## V8 更新至 5.0 版\n\n我们已将 MLDB 中使用的 JavaScript 引擎 [V8](https:\u002F\u002Fdevelopers.google.com\u002Fv8) 更新至 [5.0 版](http:\u002F\u002Fv8project.blogspot.ca\u002F2016\u002F03\u002Fv8-release-50.html)。此次更新带来了诸多改进和新特性，例如对 ECMAScript 2015 (ES6) 的更好支持以及性能提升。现在它也支持 ARM 架构的编译。","2016-10-05T19:59:32",{"id":186,"version":187,"summary_zh":188,"released_at":189},324449,"v2016.08.31.0","MLDB 是机器学习数据库。它是将机器学习或人工智能集成到您的应用程序或个人项目中的最佳方式。请访问 [MLDB.ai](https:\u002F\u002Fmldb.ai\u002F#signin) 立即试用，或参阅 [运行 MLDB](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FRunning.md.html) 以获取安装详情。\n\n我们很高兴地宣布 MLDB [2016.08.31.0 版本](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2016.08.31.0)现已正式发布。\n\n本次发布包含 114 个新提交，并修改了 366 个文件。除了大量的错误修复和性能改进外，以下是本次版本的一些亮点：\n\n# _MLPaint：实时手写数字识别器_ 插件\n\n我们非常激动地推出 _MLPaint，一款基于 MLDB 运行的实时手写数字识别器_。这款 Web 应用程序由今年夏天在我们团队实习的优秀实习生 [Jonathan](https:\u002F\u002Fgithub.com\u002Fjpilaul) 开发。您可以通过以下视频演示了解其功能：https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FWGdLCXDiDSo\n\n下面的两个示例深入探讨了该插件的技术实现细节。如果您想查看其实现代码，可以访问 [Github](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmlpaint) 上的项目页面。\n\n# 新增示例\n- [使用卷积进行图像处理示例](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_demos\u002F_latest\u002FImage%20Processing%20with%20Convolutions.html) 解释了什么是卷积，并展示了如何利用 MLDB 实现不同形式的卷积操作，包括直接在 SQL 中使用 TensorFlow 的 2D 卷积算子。\n- [手写数字识别示例](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_demos\u002F_latest\u002FReal-Time%20Digits%20Recognizer.html) 详细说明了构建 _MLPaint_ 插件所涉及的机器学习步骤。\n\n\u003Ccenter>\n\u003Cimg src=\"http:\u002F\u002Fblog.mldb.ai\u002Fimg\u002Fml_paint_image2.jpg\">\n\u003C\u002Fcenter>\n\n## 分类器测试流程现已全面支持权重\n\n正确为样本分配权重是训练具有良好泛化能力的机器学习模型的关键环节之一。它可用于补偿采样偏差、类别不平衡等问题。目前，这一功能已在训练阶段得到充分支持[详见文档](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FClassifier.md.html)，具体方式如下：\n- 在 `trainingData` 查询中通过 `weight` 列为每个样本指定权重；\n- 使用 `equalizationFactor` 参数调整权重，使所有类别的总权重相等。\n\n权重在测试阶段同样具有重要作用。例如，某些样本的误分类代价可能远低于其他样本。如果评估指标能够考虑这些权重差异，就能更准确地反映模型的实际性能表现。\n\n现在，[`classifier.test` 流程`](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FAccuracy.md.html) 报告的所有指标均已全面考虑每个样本的权重。您可以在 `testingData` 查询中通过 `weight` 列为每个样本指定权重。\n\n## 凭证\n\nMLDB 使得使用 [var","2016-09-01T16:05:50",{"id":191,"version":192,"summary_zh":193,"released_at":194},324450,"v2016.08.04.0","MLDB 是机器学习数据库。它是将机器学习或人工智能集成到您的应用程序或个人项目中的最佳方式。请访问 [MLDB.ai](https:\u002F\u002Fmldb.ai\u002F#signin) 立即试用，或参阅 [运行 MLDB](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FRunning.md.html) 获取安装详情。\n\n我们很高兴地宣布 MLDB [2016.08.04.0 版本](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2016.08.04.0)现已正式发布。\n\n本次版本包含 161 次新提交、修改了 290 个文件，并修复了 82 个问题。除了大量的错误修复和性能改进外，以下是本次版本的一些亮点：\n\n## 新增 `DISTINCT ON` 子句\n\n`DISTINCT ON` 子句可用于根据表达式的值筛选掉重复的行。其语法如下：\n\n``` sql\nSELECT DISTINCT ON (algorithm, project) algorithm, project, date\nFROM ml_experiments\nORDER BY algorithm, project\n```\n\n这将为 `algorithm` 和 `project` 列的每个唯一值返回一行。\n\n更多详细信息请参阅 [选择表达式](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FSelectExpression.md.html) 文档。\n\n## 新增 `try` 内置函数\n\n当查询处理过程中发生错误时，整个查询会失败且不会返回任何结果，即使只有单一行导致了错误。新的 `try` 函数旨在处理此类情况。第一个参数是要尝试执行的表达式，可选的第二个参数则是在遇到错误时返回的值。\n\n在下面的示例中，由于字符串 `_foo_` 无法解析为有效的 JSON，因此将返回行表达式 `{'error': 1}`：\n\n``` sql\nSELECT try(parse_json('foo'), {'error': 1}) AS *\n```\n\n有关更多详细信息，请查看 [`try` 函数文档](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FValueExpression.md.html#try)。\n\n## 深度学习\n\n新增对 NVIDIA CUDNN 的支持，从而提升了 MLDB 在 GPU 上与 TensorFlow 集成的性能。这是 MLDB 成为运行 TensorFlow 图最便捷平台的又一重要步骤。\n\n## pymldb 更新至 0.7.0 版本\n\n[pymldb 库](https:\u002F\u002Fgithub.com\u002Fdatacratic\u002Fpymldb)是一个开源的纯 Python 模块，提供了一个易于使用的封装库，方便从 Python 中操作 MLDB。版本 0.7.0 增加了在 GET 请求中传递 JSON 负载的支持。这在向 MLDB 函数传递大型特征向量时是必需的。\n\n更多信息请参阅 [使用 pymldb 教程笔记本](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_tutorials\u002F_latest\u002FUsing%20pymldb%20Tutorial.html)。\n\n## 内部哈希现采用 HighwayHash 实现\n\nMLDB 的哈希函数现使用 [Highway Tree Hash](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fhighwayhash)，据称该算法既安全可靠又非常快速。这将提升处理大量列时的速度。\n\n## 其他更改与修复\n- 新增聚合函数：`vertical_stddev`（`stddev` 的别名）和 `vertical_variance`（`varia","2016-08-04T19:35:21",{"id":196,"version":197,"summary_zh":198,"released_at":199},324451,"v2016.07.12.0","MLDB 是机器学习数据库。它是将机器学习或人工智能集成到您的应用程序或个人项目中的最佳方式。请访问 [MLDB.ai](https:\u002F\u002Fmldb.ai\u002F#signin) 立即试用，或参阅 [运行 MLDB](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FRunning.md.html) 以获取安装详情。\n\n我们很高兴地宣布 MLDB [2016.07.12.0 版本] 已经正式发布（链接：[https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2016.07.12.0](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2016.07.12.0)）。自上次发布以来，我们一直在推进许多令人振奋的项目。例如，我们已经开始将 MLDB 应用于 LiDAR 数据（[维基百科：LiDAR](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FLidar)）和头部竞价技术。同时，我们也正在筹备更多关于图像分类和深度学习的项目，这意味着 MLDB 对 TensorFlow 的支持将在接下来的几周和几个月内持续增强。\n\n本次版本包含 135 次新提交、修改了 283 个文件，并修复了 47 个问题。除了大量的错误修复和性能优化之外，以下是本次版本的一些亮点：\n\n## 新教程\n\n[使用列表达式以编程方式选择列教程](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002Fnblink.html#_tutorials\u002FSelecting%20Columns%20Programmatically%20Using%20Column%20Expressions%20Tutorial) 详细介绍了如何利用 [列表达式](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FSelectExpression.md.html) 来动态决定 SELECT 语句返回哪些列。这是 MLDB 对标准 SQL 进行的强大扩展之一，使得高效处理由数百万列组成的 [无模式稀疏数据集](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fdatasets\u002FDatasets.md.html) 成为可能。\n\n![选择列示例图](http:\u002F\u002Fblog.mldb.ai\u002Fimg\u002Fblog\u002F2016-07-12-selecting_columns.png)\n\n## 导入流程改进\n\n### `import.json` 流程新增 `SELECT` 和 `NAMED` 参数支持\n\n继 MLDB 上一版本（[博客文章](http:\u002F\u002Fblog.mldb.ai\u002Fblog\u002Fposts\u002F2016\u002F06\u002Fversion-2016.06.28.1\u002F)）中为 `import.json` 流程添加 `WHERE` 参数之后，该流程现在进一步支持 `SELECT` 和 `NAMED` 参数。\n\n`json.import` 流程允许用户导入由 JSON 数据块组成的数据集。其中，`SELECT` 参数可用于指定要导入的键，而 `NAMED` 参数则允许用户根据 JSON 数据块中的值为每一行命名。\n\n假设有一个包含以下两行内容的文件：\n\n``` json\n{\"a\": \"b1\", \"c\": {\"d\": 1}, \"e\": [0, 1]}\n{\"a\": \"b2\", \"c\": {\"d\": 2}}, \"e\": [0, 5]}\n```\n\n如果我们按如下方式使用新参数：\n- `SELECT: c.d`\n- `NAMED: a`\n\n最终生成的数据集将如下所示：\n\n| __rowName_ | _c.d_ |\n| --- | --- |\n| b1 | 1 |\n| b2 | 2 |\n\n### 在 `import.text` 流程中新增 `rowHash()` 函数\n\n在 [`import.text` 流程](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002Fimporttextprocedure.md.html)中，`SELECT`、`NAMED`、`WHERE` 和 `TIMESTAMP` 表达式中可以使用一些内置函数。\n\n这次 re","2016-07-12T21:04:06",{"id":201,"version":202,"summary_zh":203,"released_at":204},324452,"v2016.06.28.1","MLDB 是机器学习数据库。它是将机器学习或人工智能集成到您的应用程序或个人项目中的最佳方式。请访问 [MLDB.ai](https:\u002F\u002Fmldb.ai\u002F#signin) **立即试用**，或参阅 [运行 MLDB](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FRunning.md.html) 以获取安装详情。\n\n我们很高兴地宣布 MLDB [2016.06.28.1 版本](https:\u002F\u002Fgithub.com\u002Fmldbai\u002Fmldb\u002Freleases\u002Ftag\u002Fv2016.06.28.1) 即刻可用。这段时间以来，我们一直致力于将 MLDB 应用于多个面向客户的项目，并在其基础上开发内部功能。同时，我们也迎来了一位新成员——[Jonathan](https:\u002F\u002Fgithub.com\u002Fjpilaul)，他将在暑期专注于编写 MLDB 教程。欢迎他的加入！\n\n本次发布包含了 112 次新的提交，修改了 114 个文件，并修复了 41 个问题。除了大量的错误修复和性能提升之外，以下是本次版本的一些亮点：\n\n## 新的演示\n- [调查巴拿马文件](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_demos\u002F_latest\u002FInvestigating%20the%20Panama%20Papers.html) 演示通过探索 Offshore Leaks 数据库（即媒体所称的“巴拿马文件”）的原始数据，展示了 MLDB 的 SQL 引擎。MLDB 是理解数据集基本结构以及初步识别某些属性预测能力的绝佳工具。\n\n## 新的教程\n- [使用 jseval 函数在 SQL 查询中直接执行 JavaScript 代码教程](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_tutorials\u002F_latest\u002FExecuting%20JavaScript%20Code%20Directly%20in%20SQL%20Queries%20Using%20the%20jseval%20Function%20Tutorial.html) 展示了 MLDB 的一项独特功能：能够以高性能、多线程的方式将 JavaScript 直接嵌入 SQL 查询中。\n- [数据集虚拟操作教程](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_tutorials\u002F_latest\u002FVirtual%20Manipulation%20of%20Datasets%20Tutorial.html) 介绍了如何使用 [`sampled`](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fdatasets\u002FSampledDataset.md.html) 和 [`merged`](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fdatasets\u002FMergedDataset.md.html) 类型的数据集。这些数据集非常适合将数据集拆分为训练集和测试集，并随后重新组合。\n\n- [从 HTTP 服务器加载数据教程](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_tutorials\u002F_latest\u002FLoading%20Data%20From%20An%20HTTP%20Server%20Tutorial.html) 演示了如何从公共 Web 服务器加载数据。由于 MLDB 提供了开箱即用的功能，而机器学习的许多工作都依赖于来自网络的公开数据集，因此强调 MLDB 如何让初学者轻松上手显得尤为重要。\n\n## 导入流程的改进\n\n### `import.text` 流程新增 `autoGenerateHeaders` 选项\n\nMLDB 是处理列数众多的数据集的理想选择。导入数据的首选方法是使用 [`import.text` 流程](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002Fimporttextprocedure.md.html)。该流程提供了丰富的选项，以尽可能地满足灵活性需求。","2016-06-28T21:13:20",{"id":206,"version":207,"summary_zh":208,"released_at":209},324453,"v2016.06.08.0","- **新的演示 Notebook**：\n  - [映射选举新闻稿](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_demos\u002F_latest\u002FMapping%20Election%20Press%20Releases.html)\n- 性能、稳定性、文档和打包方面的改进\n","2016-06-08T17:41:44",{"id":211,"version":212,"summary_zh":213,"released_at":214},324454,"v2016.06.02.0","- [数据模型](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fdatasets\u002FDatasets.md.html) 变更：行和列的 _名称_ 现在是行和列 _路径_ 的字符串化版本。\n- 点号（`.`）现在是一个路径元素的间接引用运算符，因此不再允许在[标识符](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fsql\u002FSql.md.html)中未加引号地出现。\n- 新增函数类型：[`embedding.neighbors`](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Ffunctions\u002FNearestNeighborsFunction.md.html)。\n- 新增[内置函数](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002Fbuiltin\u002Fsql\u002FValueExpression.md.html#builtinfunctions)：\n  - `geo_distance()`、`levenshtein_distance()`、`jaccard_index()`\n  - `rowPath()`、`rowPathElement()`、`path_element()`、`stringify_path()`、`parse_path()`\n  - `isnan()`、`isinf()`、`isfinite()`、`replace_nan()`、`replace_inf()`、`replace_null()`、`replace_not_finite()`、`clamp()`\n  - `count_distinct()`（聚合函数）。\n- 新演示 Notebook：[Enron 垃圾邮件过滤](https:\u002F\u002Fdocs.mldb.ai\u002Fipy\u002Fnotebooks\u002F_demos\u002F_latest\u002FEnron%20Spam%20Filtering.html)。\n- [凭据管理](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002FUrl.md.html)：凭据守护进程现已成为 MLDB 进程的一部分，相关路由已从 `\u002Fv1\u002Fcreds\u002Frules` 移至 `\u002Fv1\u002Fcredentials`。\n- 重命名 [`classifier.experiment`](https:\u002F\u002Fdocs.mldb.ai\u002Fdoc\u002F#builtin\u002Fprocedures\u002FExperimentProcedure.md.html) 的输入参数：\n  - `trainingData` 改为 `inputData`，`testingData` 改为 `testingDataOverride`。\n  - `training_where` 改为 `trainingWhere`，`testing_where` 改为 `testingWhere`。\n  - `orderBy` 分别改为 `trainingOrderBy` 和 `testingOrderBy`。\n- 性能、稳定性、文档和打包方面的改进。","2016-06-02T19:49:49",{"id":216,"version":217,"summary_zh":218,"released_at":219},324455,"v2016.04.25.0","- Performance, stability, documentation and packaging improvements\n","2016-04-25T19:59:39",{"id":221,"version":222,"summary_zh":223,"released_at":224},324456,"v2016.04.04.0","- new builtin function: distinct_timestamp()\n- new Notebooks: Tensorflow demo and tutorial\n- Performance, stability, documentation and packaging improvements\n","2016-04-25T19:59:22",{"id":226,"version":227,"summary_zh":228,"released_at":229},324457,"v2016.03.22.0","- New Queries tab in Notebook interface\n- SQL `LIKE` operator\n- Performance, stability, documentation and packaging improvements\n","2016-03-22T19:40:31",{"id":231,"version":232,"summary_zh":233,"released_at":234},324458,"v2016.03.10.0","- Support for [Hosted MLDB](https:\u002F\u002Fhub.mldb.ai\u002F)\n- The `text.csv.tabular` dataset has been split into the `tabular` dataset and the `import.text` procedure\n- Uniform support for vertical, horizontal and temporal aggregators\n- `classifier.test` supports categorical and regression modes\n- Performance, stability, documentation and packaging improvements\n","2016-03-11T14:10:39",{"id":236,"version":237,"summary_zh":238,"released_at":239},324459,"v2016.02.19.0","- new functions: `tensorflow.graph`\n- upgraded versions of Python libaries including Jupyter 4.1\n- Performance, stability, documentation and packaging improvements\n","2016-02-19T21:36:22",{"id":241,"version":242,"summary_zh":243,"released_at":244},324460,"v2016.02.11.0","- embeddings are now N-dimensional for matrix and tensor support\n- new blob data type\n- new functions: `fetcher`, `gaussianclustering`\n- new procedures: `gaussianclustering.train`\n- Performance, stability, documentation and packaging improvements\n","2016-02-11T21:06:55",{"id":246,"version":247,"summary_zh":218,"released_at":248},324461,"v2016.02.01.0","2016-02-01T15:26:17",{"id":250,"version":251,"summary_zh":252,"released_at":253},324462,"v2016.01.26.0","- New dataset type: `sampled`\n- New procedure types: `melt` and `import.json`\n- New builtin function: `unpack_json`\n- Performance, stability, documentation and packaging improvements\n","2016-01-26T20:55:51",{"id":255,"version":256,"summary_zh":257,"released_at":258},324463,"v2016.01.18.0","- Streamlined procedure input dataset specification to accept SQL queries (breaking change)\n- Support for `INNER`, `OUTER`, `RIGHT`, `LEFT` and `FULL` flavours of `JOIN`\n- Performance, stability, documentation and packaging improvements\n","2016-01-18T19:42:51",{"id":260,"version":261,"summary_zh":262,"released_at":263},324464,"v2015.12.08.0","- new SQL from-functions: `transpose`, `merge`\n- new SQL functions: `horizontal_min`, `horizontal_max`, `horizontal_avg`\n- new function types: `filter_stopwords`, `stemmerdoc`, `pooling`, `tfidf`\n- new procedure type: `tfidf.train`\n","2015-12-08T20:55:41"]