mandala

540 16 非常简单 1 次阅读 1周前Apache-2.0数据工具开发框架其他

AI 解读由 AI 自动生成，仅供参考

mandala 是一款简洁优雅的 Python 实验追踪框架，旨在让开发者无需编写繁琐的存储代码，即可自动保存、查询和版本化计算过程。它主要解决了机器学习及各类科学计算中实验管理困难、重复计算浪费资源以及依赖关系难以追踪的痛点。

通过简单的 @op 装饰器，mandala 能自动捕获函数的输入、输出、代码逻辑及依赖项。其核心优势在于“智能复用”：一旦检测到相同的函数调用，它将直接返回过往结果，避免重复运算，从而大幅提升迭代效率。此外，mandala 引入了独特的 ComputationFrame 数据结构，能自动将复杂的命令式代码执行过程组织成高层级的计算图，直观呈现变量间的反馈循环、分支合并等关系，并支持像操作表格一样轻松查询和分析实验数据。

这款工具特别适合机器学习研究员、数据科学家以及需要频繁进行实验迭代的 Python 开发者。无论是构建端到端的持久化程序，还是探索异构的计算网络，mandala 都能让你在专注于纯 Python 逻辑的同时，享受高效、透明的实验管理体验。

使用场景

某数据科学团队正在迭代一个复杂的特征工程流水线，需要频繁调整预处理参数并重新训练模型以寻找最优解。

没有 mandala 时

重复计算浪费资源：每次微调上游参数，整个流水线都会从头运行，即使中间步骤的逻辑未变，也导致大量算力浪费在重复计算上。
实验记录混乱：开发者需手动编写代码将输入参数、输出结果和代码版本保存到数据库或文件中，容易遗漏关键依赖信息，导致实验不可复现。
结果追溯困难：当发现某个模型效果异常时，难以快速反向查询是哪些特定的输入数据或代码变更导致了该结果，缺乏自动化的血缘关系图谱。
开发流程割裂：为了持久化存储，必须在业务逻辑中嵌入大量样板代码，破坏了纯 Python 开发的流畅性，增加了维护负担。

使用 mandala 后

智能缓存加速迭代：通过 @op 装饰器，mandala 自动识别函数输入与代码指纹，若参数未变则直接复用历史结果，彻底消除重复计算，将迭代速度提升数倍。
零样本自动持久化：无需编写任何存储逻辑，mandala 自动捕获所有函数的输入、输出及依赖关系并持久保存，确保每个实验细节都可完整复现。
可视化血缘查询：利用 ComputationFrame 数据结构，团队可将复杂的执行过程转化为 DataFrame，轻松查询变量间的因果关系，秒级定位问题根源。
原生代码体验：开发者只需关注核心算法逻辑，mandala 将存储与管理透明化地融入标准 Python 流程，实现了“写即存”的高效开发模式。

mandala 通过将持久化逻辑无缝植入 Python 代码，让数据团队从繁琐的实验管理中解放出来，专注于真正的算法创新。

运行环境要求

操作系统

未说明 (基于 Python 和 joblib，通常支持 Linux
macOS
Windows)

GPU

未说明 (无需 GPU，纯 Python 计算工具)

内存

未说明 (核心轻量级，但处理 10k+ 调用时可能存在性能瓶颈)

依赖

notes该工具处于 Alpha 阶段，API 可能会发生变化。核心仅依赖 pandas 和 joblib。若需可视化计算框架（ComputationFrame），需在系统层面安装 'dot' 命令或安装 Python 'graphviz' 库。当存储调用次数超过 1 万次时，已知存在性能瓶颈。

python未说明 (需支持 pandas 和 joblib 的 Python 版本)

pandas

joblib

graphviz (可选，用于可视化 ComputationFrame)

dot (系统级命令，可选，用于可视化)

快速开始

安装 |

| 教程 | 文档 | 博客与论文 | 常见问题

自动保存、查询并版本化 Python 计算

mandala 通过两种通用工具，消除了机器学习实验跟踪（以及更多）所需的努力和代码开销：

@op 装饰器：
- 捕获 Python 函数调用的输入、输出及代码（包括依赖关系）
- 自动重用过往结果，绝不会对同一调用重复计算
- 专为组合成端到端持久化程序而设计，从而在纯 Python 中实现高效的迭代开发，无需考虑存储后端。

ComputationFrame 数据结构：
- 自动将命令式代码的执行组织为变量和操作的高层计算图。能够检测反馈循环、分支/合并以及聚合/索引等模式。
- 查询变量之间的关系，通过提取一个数据框，其中列代表计算图中的变量和操作，每行包含计算图部分执行的值或调用。
- 自动化对异构的 `@op` 调用网络进行探索和高层操作。

视频演示

快速演示如何在 mandala 中运行计算，同时更新对应的 ComputationFrame 视图及其提取的数据框（代码可在这里找到）：

https://github.com/amakelov/mandala/assets/1467702/85185599-10fb-479e-bf02-442873732906

安装

pip install pymandala

或者

pip install git+https://github.com/amakelov/mandala

教程

快速入门： | 阅读文档
ComputationFrames： | 阅读文档
玩具机器学习项目： | 阅读文档

博客与论文

整洁计算：介绍 ComputationFrame 数据结构及其应用
Python 函数调用的实用依赖跟踪：描述 mandala 依赖跟踪系统的设计动机与实现细节
该论文即将发表于 SciPy 2024 会议论文集。
在Hacker News上的讨论

常见问题

这与其他实验跟踪框架有何不同？

与 W&B、MLFlow 或 Comet 等流行工具相比，mandala：

更细粒度地与实际 Python 代码执行集成
- 函数调用是持久化、版本管理和查询的同步单元，而非整个脚本或笔记本，从而实现更高效的复用和增量开发。
- 更进一步，Python 集合类型（如 list、dict）可以对存储系统透明化，使得单个元素被单独存储和跟踪，并可在不同集合和调用之间复用。
- 由于基于记忆化而非日志记录，您无需考虑如何命名所记录的内容。
提供 ComputationFrame 数据结构，这是一种强大且简单的方法，用于表示、查询和操作复杂的已保存计算。
自动从当前代码库状态和调用输入中解析每个 @op 调用的版本号。

`@op` 缓存是如何失效的？

对于某个 @op 函数的调用，例如 f，系统会搜索过去使用相同内容输入（由哈希函数决定）的调用，且这些调用所访问的依赖项（包括 f 自身）的版本与当前状态兼容。
函数版本之间的兼容性由用户决定：您可以自由标记某些更改与过往结果兼容，但关于标记兼容性的限制，请参阅限制部分。
内部而言，mandala 使用略微修改后的 joblib 哈希算法来计算 Python 对象的内容哈希值。这在许多场景下非常实用，但并不完美，具体讨论请参见限制部分。

我可以修改 `@op` 的代码吗？如果修改了会发生什么？

常见用例：您一直在使用某个 @op，随后希望扩展其功能而不使过往结果失效。推荐的做法是添加一个新参数 a，并为其提供一个包裹在 NewArgDefault(x) 中的默认值。当传入等于 x 的值时，存储系统会回退到之前的调用。
除此之外，您可能需要利用版本控制系统来检测 @op 的依赖关系及其变化。详情请参阅文档。

是否已准备好投入生产环境？

mandala 目前处于 Alpha 阶段，API 可能会发生变化。
此外，已知存在性能瓶颈，可能导致处理超过 1 万次调用的存储时速度较慢。

它有多自包含？

mandala 的核心只有几千行代码，并且仅依赖于 pandas 和 joblib。
为了可视化 ComputationFrame，您需要在系统级别安装 dot 工具，和/或安装 Python 的 graphviz 库。

局限性

目前的版本控制系统功能不够丰富，文档也不够完善，无法满足实际使用场景的需求。例如，它不支持以一致的方式删除旧版本，也无法根据函数版本限制 ComputationFrame。此外，许多错误信息不够清晰，也未提供解决方案建议。
在使用版本控制时，如果您将某次更改标记为与历史结果兼容，需格外小心：如果此次更改引入了未被 mandala 跟踪的新依赖项，这些“隐形”依赖的变化可能不会被存储系统察觉，从而导致您误以为某些结果是最新的，而实际上并非如此。
请参阅“注意事项”笔记本，了解需要避免的常见错误：

未来功能路线图

总体

支持 @op 中的命名输出
支持重命名 @op 及其输入/输出

记忆化

为选定对象添加自定义序列化
找到一种忽略内容哈希中微小数值误差的解决方案
改进集合相关的文档
通过例如 dask 或 ray 支持并行执行 @op
支持从存储中排除特定的输入/输出

计算框架

添加对计算图中循环的支持
改进 expand_... 方法的启发式算法
增加通过谓词将 CF 限制到变量值特定子集的工具
改进集合的使用支持及示例
添加对 CF 中节点合并、拆分等简化操作的支持

版本控制

支持以一致方式删除旧版本
改进文档和错误信息
对该系统进行更全面的测试
支持按函数版本限制 CF
支持手动为版本添加依赖项，以避免“隐形依赖”问题

性能

提升内存缓存的性能
提升 ComputationFrame 操作的性能

高远愿景

从理想角度来看，mandala 的意义远不止于机器学习实验跟踪。其主要目标是 让持久化逻辑与最佳实践成为 Python 的自然延伸。一旦实现这一点，您原本就必须编写的纯“计算”代码，同时也将成为存储接口。很难再找到比这更简单、更可靠的方式来管理计算产物了。

一种基于第一性原理的计算产物管理方法

我们期望存储系统能够提供以下功能：

用简短且无歧义的描述引用产物：“这是我计算出的[庞大而复杂的 Python 对象]，对我而言，它代表[人类可读的描述]”
保存产物：“保存[庞大而复杂的 Python 对象]”
在后续时间点引用并加载产物：“请给我之前计算出的[人类可读的描述]”
确认是否已计算过某产物：“我是否已经计算过[人类可读的描述]？”
以更复杂的方式查询结果：“请给我所有满足[更高层次的人类可读描述]的事物”，这在实践中意味着对多个产物组合施加某种谓词条件。
获取产物生成过程的报告：“用于生成[人类可读的描述]的代码是什么？”

关键的观察是，执行轨迹几乎可以回答上述所有问题。

Mandala 快速上手指南

Mandala 是一个用于自动保存、查询和版本化 Python 计算的开源工具。它通过 @op 装饰器实现细粒度的函数级缓存与复用，并利用 ComputationFrame 数据结构将命令式代码执行自动组织为可查询的计算图，特别适合机器学习实验追踪及迭代开发。

环境准备

系统要求：支持 Linux、macOS 和 Windows。
Python 版本：建议 Python 3.8 及以上。
核心依赖：安装后会自动包含 pandas 和 joblib。
可选依赖（可视化）：若需可视化 ComputationFrame 计算图，请确保系统已安装 Graphviz (dot 命令) 或 Python graphviz 库。
- Ubuntu/Debian: sudo apt-get install graphviz
- macOS: brew install graphviz
- Windows: 下载并安装 Graphviz 安装包并将 bin 目录加入环境变量。

安装步骤

推荐使用 pip 进行安装。国内用户可使用清华或阿里镜像源加速下载。

方式一：从 PyPI 安装（推荐）

pip install pymandala -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：从 GitHub 源码安装（获取最新特性）

pip install git+https://github.com/amakelov/mandala -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

Mandala 的核心在于使用 @op 装饰器标记函数。一旦标记，该函数的输入、输出及代码依赖将被自动捕获。相同的输入和代码状态不会重复计算，而是直接返回缓存结果。

1. 最简单的示例

以下示例展示了如何定义一个带缓存的计算函数，并演示第二次调用时如何直接复用结果。

from mandala.core import OpStore

# 初始化存储后端 (默认使用本地临时目录)
store = OpStore()

# 使用 @op 装饰器标记函数
@store.op
def expensive_computation(x, y):
    print(f"正在计算 {x} + {y}...")  # 仅在首次执行或缓存失效时打印
    return x + y

# 第一次调用：实际执行计算
result1 = expensive_computation(2, 3)
print(f"结果 1: {result1}") 
# 输出:
# 正在计算 2 + 3...
# 结果 1: 5

# 第二次调用：相同参数，直接复用缓存，不执行函数体
result2 = expensive_computation(2, 3)
print(f"结果 2: {result2}")
# 输出:
# 结果 2: 5 (注意：没有打印 "正在计算..."，说明未重复执行)

# 参数变化：重新执行计算
result3 = expensive_computation(2, 4)
print(f"结果 3: {result3}")
# 输出:
# 正在计算 2 + 4...
# 结果 3: 6

2. 查询计算历史 (ComputationFrame)

Mandala 允许你将一系列 @op 调用组织成数据框（DataFrame）进行查询和分析。

# 假设已经运行了多次 expensive_computation
# 提取计算帧 (ComputationFrame)
cf = store.get_computation_frame()

# 查看包含所有变量和操作的数据框
df = cf.to_dataframe()
print(df.head())

# 你可以像操作 pandas DataFrame 一样筛选特定的计算结果
# 例如：找出所有第一个参数为 2 的计算记录
filtered = df[df['arg_x'] == 2]
print(filtered)

3. 开始你的第一个教程

想要更深入地了解如何在 ML 项目中使用或查看交互式演示，可以访问官方 Colab 教程：

快速入门: Open in Colab
ML 项目实战: Open in Colab

版本历史

v0.2.0-alpha2024/07/11

v0.1.02024/06/21

常见问题

如何安装 Mandala？是否支持通过 PyPi 安装？

计算帧（Computation Frames）的主要用途是什么？仅仅用于可视化吗？

在 `with storage.query():` 代码块中调用函数时，为什么传入普通值会报错 "value must be a `ValQuery` or `Ref`"？

遇到 "ModuleNotFoundError: No module named 'prettytable'" 错误该如何解决？

定义操作函数时，如果参数名仅大小写不同（例如 `x` 和 `X`），为什么会报 "duplicate column name" 错误？

Mandala 是如何为输出分配唯一标识符（UID）的？是基于内容哈希还是因果哈希？

`@track` 装饰器是否会忽略其下方的其他装饰器？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 mandala 时

使用 mandala 后

运行环境要求

快速开始

自动保存、查询并版本化 Python 计算

视频演示

安装

教程

博客与论文

常见问题

这与其他实验跟踪框架有何不同？

@op 缓存是如何失效的？

我可以修改 @op 的代码吗？如果修改了会发生什么？

是否已准备好投入生产环境？

它有多自包含？

局限性

未来功能路线图

高远愿景

一种基于第一性原理的计算产物管理方法

相关工作

Mandala 快速上手指南

环境准备

安装步骤

基本使用

1. 最简单的示例

2. 查询计算历史 (ComputationFrame)

3. 开始你的第一个教程

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown

`@op` 缓存是如何失效的？

我可以修改 `@op` 的代码吗？如果修改了会发生什么？