DATAGEN

1.7k 225 中等 1 次阅读昨天MIT其他Agent图像语言模型开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

DATAGEN 是一款由人工智能驱动的多智能体研究助手，旨在自动化完成从假设生成、数据分析到报告撰写的全流程科研工作。它通过整合 LangChain、GPT 大模型及 LangGraph 等前沿技术，将复杂的研究任务拆解并由多个专用智能体协同处理，有效解决了传统数据分析中人工操作繁琐、假设验证效率低以及报告产出周期长等痛点。

该平台特别适合科研人员、数据分析师及需要处理复杂数据集的企业团队使用。用户只需提供数据或研究方向，DATAGEN 即可自动执行数据清洗、转换和质量保证，并实时优化研究路径。其核心亮点在于创新的“多智能体协作架构”与“智能记忆管理”：系统内设有专门的“笔记记录员”智能体来追踪状态和保留上下文，确保跨阶段分析的连贯性；同时，动态可视化套件能自动提取洞察并生成交互式图表。无论是探索性研究还是企业级数据洞察，DATAGEN 都能以稳定、可扩展的方式提供生产级的分析支持，让研究者更专注于核心逻辑而非重复性劳动。

使用场景

某电商数据团队正急需从海量用户行为日志中挖掘季度消费趋势，以制定下一阶段的精准营销策略。

没有 DATAGEN 时

分析师需手动清洗杂乱无章的原始日志，耗时数天且极易因人为疏忽导致数据偏差。
假设生成依赖个人经验，往往局限于常规视角，难以发现隐蔽的非线性关联或新兴趋势。
撰写分析报告时，需在代码、图表和文档间反复切换，整合过程繁琐，严重拖慢决策节奏。
面对突发的大规模数据查询需求，单人算力瓶颈明显，无法实时调整分析维度进行深度下钻。

使用 DATAGEN 后

DATAGEN 的多智能体系统自动执行鲁棒的数据清洗与转换流水线，分钟级完成高质量数据预处理。
其内置的“高级假设引擎”能自主生成并验证数十种潜在业务假设，实时优化研究方向，捕捉人工易漏的关键洞察。
专门的报告代理自动提取核心观点，动态生成包含交互式可视化的完整研报，实现从数据到结论的无缝闭环。
自适应处理管道根据任务复杂度动态分配资源，协调多个专业代理并行工作，轻松应对大规模实时分析挑战。

DATAGEN 通过将分散的研究环节转化为自动化多智能体协作流，让数据团队从繁琐的执行中解放，专注于高价值的战略决策。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes需配置 ChromeDriver 路径；必须设置 WORKING_DIRECTORY 和 CONDA_ENV 环境变量；支持多种大模型提供商（OpenAI, Anthropic, Google, Ollama, Groq）并通过 YAML 文件单独配置每个 Agent 的模型；集成了 MCP (Model Context Protocol) 用于文件系统、GitHub 和网络搜索；系统会修改分析的数据，使用前务必备份；需要足够的 API 额度以支持多次调用。

python3.10+

LangChain

LangGraph

OpenAI API

Anthropic API

Google API

Firecrawl API

Tavily API

ChromeDriver

快速开始

DATAGEN（前身为AI-Data-Analysis-MultiAgent）

DATAGEN 横幅

关于 DATAGEN

DATAGEN 是一个强大的品牌名称，代表了我们利用人工智能技术进行数据生成和分析的愿景。该名称由“DATA”（数据）和“GEN”（生成）组合而成，完美体现了该项目的核心功能——通过多智能体系统实现自动化数据分析与研究。

系统架构

概述

DATAGEN 是一个先进的 AI 驱动的数据分析与研究平台，它利用多个专业化的智能体来简化数据分析、可视化和报告生成等任务。我们的平台采用了包括 LangChain、OpenAI 的 GPT 模型以及 LangGraph 在内的前沿技术，以处理复杂的研究流程，并整合多种 AI 架构以实现最佳性能。

核心特性

智能分析核心

高级假设引擎
- 基于 AI 的假设生成与验证
- 自动化研究方向优化
- 实时假设精炼
企业级数据处理
- 强大的数据清洗与转换
- 可扩展的分析流水线
- 自动化质量保证
动态可视化套件
- 交互式数据可视化
- 自定义报告生成
- 自动化洞察提取

先进的技术架构

多智能体智能
- 用于不同任务的专业化智能体
- 智能任务分配
- 实时协调与优化
智能记忆管理
- 最先进的笔记记录者智能体
- 高效的上下文保留系统
- 无缝的工作流集成
自适应处理流水线
- 动态工作流调整
- 自动资源优化
- 实时性能监控

DATAGEN 的独特之处

DATAGEN 通过其创新的多智能体架构和智能自动化能力，彻底革新了数据分析方式：

先进的多智能体系统
- 专业化智能体协同工作
- 智能任务分配与协调
- 实时适应复杂的分析需求
智能上下文管理
- 开创性的笔记记录者智能体用于状态跟踪
- 高效的内存利用与上下文保留
- 分析各阶段的无缝集成
企业级性能
- 健壮且可扩展的架构
- 一致且可靠的结果
- 生产就绪的实施

系统要求

Python 3.10 或更高版本

安装

克隆仓库：

git clone https://github.com/starpig1129/DATAGEN.git

创建并激活 Conda 虚拟环境：

conda create -n datagen python=3.10
conda activate datagen

安装依赖项：

pip install -r requirements.txt

设置环境变量： 将 .env Example 重命名为 .env 并填写所有值

# 您的数据存储路径（必填）
# 同时也被文件系统 MCP 服务器使用
WORKING_DIRECTORY = ./data/

# Conda 环境名称（必填）
CONDA_ENV = datagen

# ChromeDriver 可执行文件路径（必填）
CHROMEDRIVER_PATH = ./chromedriver-linux64/chromedriver

# Firecrawl API 密钥（可选）
# 注意：如果缺少此密钥，查询功能可能会降低
FIRECRAWL_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

# OpenAI API 密钥（可选）
OPENAI_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
# Anthropic API 密钥（可选）
ANTHROPIC_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
# Google API 密钥（可选）
GOOGLE_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

# LangChain API 密钥（可选）
# 用于监控处理过程
LANGCHAIN_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

# MCP（模型上下文协议）设置（可选）
# Tavily API 密钥用于网络搜索 MCP 服务器
TAVILY_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
# GitHub 令牌用于 GitHub MCP 服务器
GITHUB_TOKEN = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

使用方法

使用 Python 脚本

您可以通过 main.py 运行系统：

将您的数据文件（例如 YourDataName.csv）放入 data 目录中
修改 main.py 中 main() 函数中的 user_input 变量：

user_input = '''
datapath:YourDataName.csv
使用机器学习进行数据分析并撰写完整的图表报告
'''

运行脚本：

python main.py

主要组件

hypothesis_agent：生成研究假设
process_agent：监督整个研究过程
visualization_agent：创建数据可视化
code_agent：编写数据分析代码
searcher_agent：进行文献和网络搜索
report_agent：撰写研究报告
quality_review_agent：进行质量审查
note_agent：记录研究过程

工作流程

系统使用 LangGraph 创建了一个状态图，用于管理整个研究过程。工作流程包括以下步骤：

假设生成
人工选择（继续或重新生成假设）
处理（包括数据分析、可视化、搜索和报告撰写）
质量审查
必要时修改

智能体模型配置

用户可以通过编辑 config/agent_models.yaml 文件来自定义每个智能体的语言模型提供商及模型配置。这使得可以根据不同智能体的需求优化模型选择和参数。

以下是 config/agent_models.yaml 的示例结构：

agents:
  hypothesis_agent:
    provider: openai
    model_config:
      model: gpt-5-nano
      temperature: 1.0
  note_agent:
    provider: google
    model_config:
      model: gemini-2.5-pro
      temperature: 1.0
  code_agent:
    provider: anthropic
    model_config:
      model: claude-haiku-4-5
      temperature: 1.0

provider：指定要使用的语言模型提供商（例如 openai、google、anthropic、ollama、groq）
model_config：包含特定于模型的配置参数
- model：要使用的具体模型名称
- temperature：控制模型输出的随机性（范围：0.0–2.0）

高级配置系统

DATAGEN 实现了一种强大的基于 Claude Agent Skills 的 渐进式披露 架构来进行智能体配置。

文档

指南	描述
系统架构	高层次概述和核心概念
快速入门	5 分钟内创建新智能体
智能体配置参考	AGENT.md 和 config.yaml 的完整参考
工具配置	可用工具及自定义工具的创建
技能配置	创建并使用可重用的知识模块
MCP 配置	模型上下文协议服务器的设置

主要特性

基于技能的架构：可重用的技能存储在 config/skills/ 目录下
动态工具加载：通过 ToolFactory 使用 config.yaml 配置工具
模型上下文协议 (MCP)：外部服务器集成（文件系统、GitHub、网页搜索）
渐进式披露：三层加载策略，用于优化上下文窗口

注意事项

请确保您有足够的 API 调用额度，因为系统会进行多次 API 调用。
根据任务的复杂程度，整个研究过程可能需要一些时间。
警告：代理系统可能会修改正在分析的数据。强烈建议在使用本系统之前备份您的数据。

当前问题及解决方案

提高笔记记录效率
优化整体运行时性能
Refiner 模块仍需改进

参与贡献

欢迎提交 Pull 请求。对于重大更改，请先开 Issue 讨论您计划修改的内容。

许可证

本项目采用 MIT 许可证授权 - 详情请参阅 LICENSE 文件。

星标历史

其他项目

以下是我的一些其他知名项目：

PheroPath

PheroPath 是一种基于文件系统的刺激传递通信协议，允许代理和人类在文件上留下不可见的“信息素”（信号）。它无需修改文件内容即可传递上下文、风险（DANGER）或状态（TODO、SAFE），从而促进更好的多智能体协作。

GitHub: PheroPath

PigPig：高级多模态 LLM Discord 机器人：

一款基于多模态大型语言模型（LLM）的强大 Discord 机器人，旨在通过自然语言与用户互动。它结合了先进的 AI 技术与实用功能，为 Discord 社区提供丰富的体验。

GitHub: ai-discord-bot-PigPig

DATAGEN 快速上手指南

DATAGEN 是一个基于多智能体（Multi-Agent）架构的 AI 数据分析与研究平台。它利用 LangChain、LangGraph 及主流大模型（如 GPT、Claude、Gemini），自动化完成从假设生成、数据清洗、代码编写、可视化到报告撰写的全流程研究任务。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux / macOS / Windows (需配置相应环境变量)
Python 版本：3.10 或更高
包管理器：推荐安装 Conda 用于环境管理
浏览器驱动：需下载对应版本的 ChromeDriver（用于网页搜索与交互）
API Keys：准备至少一个大模型服务商的 API Key（OpenAI / Anthropic / Google 等），可选配置 Firecrawl、Tavily 等增强工具。

安装步骤

1. 克隆项目

git clone https://github.com/starpig1129/DATAGEN.git
cd DATAGEN

2. 创建并激活虚拟环境

建议使用 Conda 创建隔离环境以避免依赖冲突：

conda create -n datagen python=3.10
conda activate datagen

3. 安装依赖

pip install -r requirements.txt

提示：国内用户若下载缓慢，可添加清华或阿里镜像源： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

4. 配置环境变量

将示例配置文件重命名为 .env，并根据实际情况填写关键参数：

mv .env\ Example .env

编辑 .env 文件，务必修改以下必填项，并按需填入 API Key：

# 数据存储路径 (必填)
WORKING_DIRECTORY = ./data/

# Conda 环境名称 (必填，需与上面创建的名称一致)
CONDA_ENV = datagen

# ChromeDriver 路径 (必填，请确保已下载对应版本的 chromedriver)
CHROMEDRIVER_PATH = ./chromedriver-linux64/chromedriver

# --- API Keys (按需填写) ---
# Firecrawl (网页抓取，可选)
FIRECRAWL_API_KEY = your_firecrawl_key

# 大模型密钥 (至少配置一个，如 OpenAI)
OPENAI_API_KEY = sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
# ANTHROPIC_API_KEY = ...
# GOOGLE_API_KEY = ...

# LangChain 监控 (可选)
LANGCHAIN_API_KEY = ...

# MCP 工具密钥 (可选，用于联网搜索或 GitHub 访问)
TAVILY_API_KEY = ...
GITHUB_TOKEN = ...

基本使用

1. 准备数据

将您的数据文件（例如 sales_data.csv）放入项目根目录下的 data/ 文件夹中。

2. 配置任务

打开 main.py 文件，找到 main() 函数中的 user_input 变量，修改为您的数据文件名和分析需求：

user_input = '''
datapath:sales_data.csv
Use machine learning to perform data analysis and write complete graphical reports
'''

注：datapath 后的文件名需与 data/ 目录下的实际文件名一致。

3. 运行系统

在终端执行以下命令启动多智能体分析流程：

python main.py

系统将自动执行以下工作流：

假设生成：智能体分析数据并提出研究假设。
人工确认：暂停等待用户选择继续或重新生成假设。
执行分析：自动编写代码、清洗数据、生成图表并进行文献/网络搜索。
质量审查：对结果进行自我审查与修正。
报告输出：生成最终的研究分析报告。

注意：首次运行可能需要较长时间，且会消耗 API 额度。建议在运行前备份重要数据，因为智能体可能会在处理过程中修改数据文件。

常见问题

如何配置并使用非 OpenAI 的模型（如 SiliconFlow、DeepSeek 或 Qwen）？

如何在本地部署并使用 DeepSeek 模型？

如何将数据文件（如 CSV 或 JSON）放入项目中进行分析？

遇到 'ModuleNotFoundError: No module named langchain_core' 错误如何解决？

.env 文件中缺少 WORKING_DIRECTORY 变量导致路径错误怎么办？

MCP Server 的配置在代码中似乎没有生效，是配置错误吗？

collect_data 工具导致 Token 超出限制怎么办？

非计算机专业用户如何在 Google Colab 中使用此工具？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像