[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-starpig1129--DATAGEN":3,"tool-starpig1129--DATAGEN":62},[4,18,26,36,46,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160015,2,"2026-04-18T11:30:52",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":42,"last_commit_at":43,"category_tags":44,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,45],"插件",{"id":47,"name":48,"github_repo":49,"description_zh":50,"stars":51,"difficulty_score":32,"last_commit_at":52,"category_tags":53,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":32,"last_commit_at":60,"category_tags":61,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[45,13,15,14],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":76,"owner_location":77,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":10,"env_os":88,"env_gpu":88,"env_ram":88,"env_deps":89,"category_tags":101,"github_topics":103,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":119,"updated_at":120,"faqs":121,"releases":162},9199,"starpig1129\u002FDATAGEN","DATAGEN","DATAGEN: AI-driven multi-agent research assistant automating hypothesis generation, data analysis, and report writing. ","DATAGEN 是一款由人工智能驱动的多智能体研究助手，旨在自动化完成从假设生成、数据分析到报告撰写的全流程科研工作。它通过整合 LangChain、GPT 大模型及 LangGraph 等前沿技术，将复杂的研究任务拆解并由多个专用智能体协同处理，有效解决了传统数据分析中人工操作繁琐、假设验证效率低以及报告产出周期长等痛点。\n\n该平台特别适合科研人员、数据分析师及需要处理复杂数据集的企业团队使用。用户只需提供数据或研究方向，DATAGEN 即可自动执行数据清洗、转换和质量保证，并实时优化研究路径。其核心亮点在于创新的“多智能体协作架构”与“智能记忆管理”：系统内设有专门的“笔记记录员”智能体来追踪状态和保留上下文，确保跨阶段分析的连贯性；同时，动态可视化套件能自动提取洞察并生成交互式图表。无论是探索性研究还是企业级数据洞察，DATAGEN 都能以稳定、可扩展的方式提供生产级的分析支持，让研究者更专注于核心逻辑而非重复性劳动。","# DATAGEN (Previously AI-Data-Analysis-MultiAgent)\n\n![DATAGEN Banner](.\u002Fdocs\u002FDATAGEN.jpg \"DATAGEN Banner\")\n\n## About DATAGEN\nDATAGEN is a powerful brand name that represents our vision of leveraging artificial intelligence technology for data generation and analysis. The name combines \"DATA\" and \"GEN\"(generation), perfectly embodying the core functionality of this project - automated data analysis and research through a multi-agent system.\n\n![System Architecture](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstarpig1129_DATAGEN_readme_112efad3ff26.png)\n## Overview\n\nDATAGEN is an advanced AI-powered data analysis and research platform that utilizes multiple specialized agents to streamline tasks such as data analysis, visualization, and report generation. Our platform leverages cutting-edge technologies including LangChain, OpenAI's GPT models, and LangGraph to handle complex research processes, integrating diverse AI architectures for optimal performance.\n\n## Key Features\n\n### Intelligent Analysis Core\n- **Advanced Hypothesis Engine**\n  - AI-driven hypothesis generation and validation\n  - Automated research direction optimization\n  - Real-time hypothesis refinement\n- **Enterprise Data Processing**\n  - Robust data cleaning and transformation\n  - Scalable analysis pipelines\n  - Automated quality assurance\n- **Dynamic Visualization Suite**\n  - Interactive data visualization\n  - Custom report generation\n  - Automated insight extraction\n\n### Advanced Technical Architecture\n- **Multi-Agent Intelligence** \n  - Specialized agents for diverse tasks\n  - Intelligent task distribution\n  - Real-time coordination and optimization\n- **Smart Memory Management**\n  - State-of-the-art Note Taker agent\n  - Efficient context retention system\n  - Seamless workflow integration\n- **Adaptive Processing Pipeline**\n  - Dynamic workflow adjustment\n  - Automated resource optimization\n  - Real-time performance monitoring\n\n## Why DATAGEN Stands Out\n\nDATAGEN revolutionizes data analysis through its innovative multi-agent architecture and intelligent automation capabilities:\n\n1. **Advanced Multi-Agent System**\n   - Specialized agents working in harmony\n   - Intelligent task distribution and coordination\n   - Real-time adaptation to complex analysis requirements\n\n2. **Smart Context Management**\n   - Pioneering Note Taker agent for state tracking\n   - Efficient memory utilization and context retention\n   - Seamless integration across analysis phases\n\n3. **Enterprise-Grade Performance**\n   - Robust and scalable architecture\n   - Consistent and reliable outcomes\n   - Production-ready implementation\n\n## System Requirements\n\n- Python 3.10 or higher\n\n## Installation\n\n1. Clone the repository:\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN.git\n```\n2. Create and activate a Conda virtual environment:\n```bash\nconda create -n datagen python=3.10\nconda activate datagen\n```\n3. Install dependencies:\n```bash\npip install -r requirements.txt\n```\n4. Set up environment variables:\n**Rename `.env Example` to `.env` and fill all the values**\n```sh\n# Your data storage path (required)\n# Also used by filesystem MCP server\nWORKING_DIRECTORY = .\u002Fdata\u002F\n\n# Conda environment name (required)\nCONDA_ENV = datagen\n\n# ChromeDriver executable path (required)\nCHROMEDRIVER_PATH = .\u002Fchromedriver-linux64\u002Fchromedriver\n\n# Firecrawl API key (optional)\n# Note: If this key is missing, query capabilities may be reduced\nFIRECRAWL_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n\n# OpenAI API key (optional)\nOPENAI_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n# Anthropic API key (optional)\nANTHROPIC_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n# Google API key (optional)\nGOOGLE_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n\n# LangChain API key (optional)\n# Used for monitoring the processing\nLANGCHAIN_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n\n# MCP (Model Context Protocol) Settings (optional)\n# Tavily API key for web-search MCP server\nTAVILY_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n# GitHub token for github MCP server\nGITHUB_TOKEN = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n```\n\n## Usage\n\n### Using Python Script\n\nYou can run the system  using main.py:\n\n1. Place your data file (e.g., YourDataName.csv) in the data directory\n\n2. Modify the user_input variable in the main() function of main.py:\n```python\nuser_input = '''\ndatapath:YourDataName.csv\nUse machine learning to perform data analysis and write complete graphical reports\n'''\n```\n\nˇ. Run the script:\n```bash\npython main.py\n```\n\n## Main Components\n\n- `hypothesis_agent`: Generates research hypotheses\n- `process_agent`: Supervises the entire research process\n- `visualization_agent`: Creates data visualizations\n- `code_agent`: Writes data analysis code\n- `searcher_agent`: Conducts literature and web searches\n- `report_agent`: Writes research reports\n- `quality_review_agent`: Performs quality reviews\n- `note_agent`: Records the research process\n\n## Workflow\n\nThe system uses LangGraph to create a state graph that manages the entire research process. The workflow includes the following steps:\n\n1. Hypothesis generation\n2. Human choice (continue or regenerate hypothesis)\n3. Processing (including data analysis, visualization, search, and report writing)\n4. Quality review\n5. Revision as needed\n\n### Agent Model Configuration\n\nUsers can customize each agent's language model provider and model configuration by editing the `config\u002Fagent_models.yaml` file. This allows for optimization of model selection and parameters based on different agent requirements.\n\nHere's an example structure of `config\u002Fagent_models.yaml`:\n\n```yaml\nagents:\n  hypothesis_agent:\n    provider: openai\n    model_config:\n      model: gpt-5-nano\n      temperature: 1.0\n  note_agent:\n    provider: google\n    model_config:\n      model: gemini-2.5-pro\n      temperature: 1.0\n  code_agent:\n    provider: anthropic\n    model_config:\n      model: claude-haiku-4-5\n      temperature: 1.0\n```\n\n- **provider**: Specifies the language model provider to use (e.g., openai, google, anthropic, ollama, groq)\n- **model_config**: Contains model-specific configuration parameters\n  - `model`: The specific model name to use\n  - `temperature`: Controls the randomness of model output (range: 0.0-2.0)\n\n## Advanced Configuration System\n\nDATAGEN implements a powerful **Progressive Disclosure** architecture for agent configuration, inspired by [Claude Agent Skills](https:\u002F\u002Fplatform.claude.com\u002Fdocs\u002Fagents-and-tools\u002Fagent-skills\u002Foverview).\n\n### Documentation\n\n| Guide | Description |\n|-------|-------------|\n| [System Architecture](docs\u002FSYSTEM_ARCHITECTURE.md) | High-level overview and core concepts |\n| [Quick Start](docs\u002FQUICKSTART.md) | Create a new agent in 5 minutes |\n| [Agent Config Reference](docs\u002FAGENT_CONFIG.md) | AGENT.md and config.yaml full reference |\n| [Tool Configuration](docs\u002FTOOL_CONFIG.md) | Available tools and custom tool creation |\n| [Skill Configuration](docs\u002FSKILL_CONFIG.md) | Create and use reusable knowledge modules |\n| [MCP Configuration](docs\u002FMCP_CONFIG.md) | Model Context Protocol server setup |\n\n### Key Features\n- **Skill-Based Architecture**: Reusable skills stored in `config\u002Fskills\u002F`\n- **Dynamic Tool Loading**: Tools configured via `config.yaml` using `ToolFactory`\n- **Model Context Protocol (MCP)**: External server integration (Filesystem, GitHub, Web Search)\n- **Progressive Disclosure**: Three-level loading strategy for Context Window optimization\n\n## Notes\n\n- Ensure you have sufficient API credits, as the system will make multiple API calls.\n- The system may take some time to complete the entire research process, depending on the complexity of the task.\n- **WARNING**: The agent system may modify the data being analyzed. It is highly recommended to backup your data before using this system.\n\n## Current Issues and Solutions\n1. NoteTaker Efficiency Improvement\n2. Overall Runtime Optimization\n3. Refiner needs to be better\n## Contributing\n\nPull requests are welcome. For major changes, please open an issue first to discuss what you would like to change.\n\n## License\n\nThis project is licensed under the MIT License - see the [LICENSE](LICENSE) file for details.\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstarpig1129_DATAGEN_readme_19df6a2e1c2a.png)](https:\u002F\u002Fstar-history.com\u002F#starpig1129\u002FDATAGEN&Date)\n\n## Other Projects\nHere are some of my other notable projects:\n### PheroPath\nPheroPath is a filesystem-based stigmergy communication protocol that allows agents and humans to leave invisible \"pheromones\" (signals) on files. It enables communicating context, risks (DANGER), or status (TODO, SAFE) without modifying the file content itself, facilitating better multi-agent collaboration.\n- GitHub: [PheroPath](https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FPheroPath)\n### PigPig: Advanced Multi-modal LLM Discord Bot: \nA powerful Discord bot based on multi-modal Large Language Models (LLM), designed to interact with users through natural language. \nIt combines advanced AI capabilities with practical features, offering a rich experience for Discord communities.\n- GitHub: [ai-discord-bot-PigPig](https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002Fai-discord-bot-PigPig)\n","# DATAGEN（前身为AI-Data-Analysis-MultiAgent）\n\n![DATAGEN 横幅](.\u002Fdocs\u002FDATAGEN.jpg \"DATAGEN 横幅\")\n\n## 关于 DATAGEN\nDATAGEN 是一个强大的品牌名称，代表了我们利用人工智能技术进行数据生成和分析的愿景。该名称由“DATA”（数据）和“GEN”（生成）组合而成，完美体现了该项目的核心功能——通过多智能体系统实现自动化数据分析与研究。\n\n![系统架构](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstarpig1129_DATAGEN_readme_112efad3ff26.png)\n## 概述\n\nDATAGEN 是一个先进的 AI 驱动的数据分析与研究平台，它利用多个专业化的智能体来简化数据分析、可视化和报告生成等任务。我们的平台采用了包括 LangChain、OpenAI 的 GPT 模型以及 LangGraph 在内的前沿技术，以处理复杂的研究流程，并整合多种 AI 架构以实现最佳性能。\n\n## 核心特性\n\n### 智能分析核心\n- **高级假设引擎**\n  - 基于 AI 的假设生成与验证\n  - 自动化研究方向优化\n  - 实时假设精炼\n- **企业级数据处理**\n  - 强大的数据清洗与转换\n  - 可扩展的分析流水线\n  - 自动化质量保证\n- **动态可视化套件**\n  - 交互式数据可视化\n  - 自定义报告生成\n  - 自动化洞察提取\n\n### 先进的技术架构\n- **多智能体智能**\n  - 用于不同任务的专业化智能体\n  - 智能任务分配\n  - 实时协调与优化\n- **智能记忆管理**\n  - 最先进的笔记记录者智能体\n  - 高效的上下文保留系统\n  - 无缝的工作流集成\n- **自适应处理流水线**\n  - 动态工作流调整\n  - 自动资源优化\n  - 实时性能监控\n\n## DATAGEN 的独特之处\n\nDATAGEN 通过其创新的多智能体架构和智能自动化能力，彻底革新了数据分析方式：\n\n1. **先进的多智能体系统**\n   - 专业化智能体协同工作\n   - 智能任务分配与协调\n   - 实时适应复杂的分析需求\n2. **智能上下文管理**\n   - 开创性的笔记记录者智能体用于状态跟踪\n   - 高效的内存利用与上下文保留\n   - 分析各阶段的无缝集成\n3. **企业级性能**\n   - 健壮且可扩展的架构\n   - 一致且可靠的结果\n   - 生产就绪的实施\n\n## 系统要求\n\n- Python 3.10 或更高版本\n\n## 安装\n\n1. 克隆仓库：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN.git\n```\n2. 创建并激活 Conda 虚拟环境：\n```bash\nconda create -n datagen python=3.10\nconda activate datagen\n```\n3. 安装依赖项：\n```bash\npip install -r requirements.txt\n```\n4. 设置环境变量：\n**将 `.env Example` 重命名为 `.env` 并填写所有值**\n```sh\n# 您的数据存储路径（必填）\n# 同时也被文件系统 MCP 服务器使用\nWORKING_DIRECTORY = .\u002Fdata\u002F\n\n# Conda 环境名称（必填）\nCONDA_ENV = datagen\n\n# ChromeDriver 可执行文件路径（必填）\nCHROMEDRIVER_PATH = .\u002Fchromedriver-linux64\u002Fchromedriver\n\n# Firecrawl API 密钥（可选）\n# 注意：如果缺少此密钥，查询功能可能会降低\nFIRECRAWL_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n\n# OpenAI API 密钥（可选）\nOPENAI_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n# Anthropic API 密钥（可选）\nANTHROPIC_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n# Google API 密钥（可选）\nGOOGLE_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n\n# LangChain API 密钥（可选）\n# 用于监控处理过程\nLANGCHAIN_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n\n# MCP（模型上下文协议）设置（可选）\n# Tavily API 密钥用于网络搜索 MCP 服务器\nTAVILY_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n# GitHub 令牌用于 GitHub MCP 服务器\nGITHUB_TOKEN = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\n```\n\n## 使用方法\n\n### 使用 Python 脚本\n\n您可以通过 main.py 运行系统：\n\n1. 将您的数据文件（例如 YourDataName.csv）放入 data 目录中\n\n2. 修改 main.py 中 main() 函数中的 user_input 变量：\n```python\nuser_input = '''\ndatapath:YourDataName.csv\n使用机器学习进行数据分析并撰写完整的图表报告\n'''\n```\n\n3. 运行脚本：\n```bash\npython main.py\n```\n\n## 主要组件\n\n- `hypothesis_agent`：生成研究假设\n- `process_agent`：监督整个研究过程\n- `visualization_agent`：创建数据可视化\n- `code_agent`：编写数据分析代码\n- `searcher_agent`：进行文献和网络搜索\n- `report_agent`：撰写研究报告\n- `quality_review_agent`：进行质量审查\n- `note_agent`：记录研究过程\n\n## 工作流程\n\n系统使用 LangGraph 创建了一个状态图，用于管理整个研究过程。工作流程包括以下步骤：\n\n1. 假设生成\n2. 人工选择（继续或重新生成假设）\n3. 处理（包括数据分析、可视化、搜索和报告撰写）\n4. 质量审查\n5. 必要时修改\n\n### 智能体模型配置\n\n用户可以通过编辑 `config\u002Fagent_models.yaml` 文件来自定义每个智能体的语言模型提供商及模型配置。这使得可以根据不同智能体的需求优化模型选择和参数。\n\n以下是 `config\u002Fagent_models.yaml` 的示例结构：\n\n```yaml\nagents:\n  hypothesis_agent:\n    provider: openai\n    model_config:\n      model: gpt-5-nano\n      temperature: 1.0\n  note_agent:\n    provider: google\n    model_config:\n      model: gemini-2.5-pro\n      temperature: 1.0\n  code_agent:\n    provider: anthropic\n    model_config:\n      model: claude-haiku-4-5\n      temperature: 1.0\n```\n\n- **provider**：指定要使用的语言模型提供商（例如 openai、google、anthropic、ollama、groq）\n- **model_config**：包含特定于模型的配置参数\n  - `model`：要使用的具体模型名称\n  - `temperature`：控制模型输出的随机性（范围：0.0–2.0）\n\n## 高级配置系统\n\nDATAGEN 实现了一种强大的基于 [Claude Agent Skills](https:\u002F\u002Fplatform.claude.com\u002Fdocs\u002Fagents-and-tools\u002Fagent-skills\u002Foverview) 的 **渐进式披露** 架构来进行智能体配置。\n\n### 文档\n\n| 指南 | 描述 |\n|-------|-------------|\n| [系统架构](docs\u002FSYSTEM_ARCHITECTURE.md) | 高层次概述和核心概念 |\n| [快速入门](docs\u002FQUICKSTART.md) | 5 分钟内创建新智能体 |\n| [智能体配置参考](docs\u002FAGENT_CONFIG.md) | AGENT.md 和 config.yaml 的完整参考 |\n| [工具配置](docs\u002FTOOL_CONFIG.md) | 可用工具及自定义工具的创建 |\n| [技能配置](docs\u002FSKILL_CONFIG.md) | 创建并使用可重用的知识模块 |\n| [MCP 配置](docs\u002FMCP_CONFIG.md) | 模型上下文协议服务器的设置 |\n\n### 主要特性\n- **基于技能的架构**：可重用的技能存储在 `config\u002Fskills\u002F` 目录下\n- **动态工具加载**：通过 `ToolFactory` 使用 `config.yaml` 配置工具\n- **模型上下文协议 (MCP)**：外部服务器集成（文件系统、GitHub、网页搜索）\n- **渐进式披露**：三层加载策略，用于优化上下文窗口\n\n## 注意事项\n\n- 请确保您有足够的 API 调用额度，因为系统会进行多次 API 调用。\n- 根据任务的复杂程度，整个研究过程可能需要一些时间。\n- **警告**：代理系统可能会修改正在分析的数据。强烈建议在使用本系统之前备份您的数据。\n\n## 当前问题及解决方案\n1. 提高笔记记录效率\n2. 优化整体运行时性能\n3. Refiner 模块仍需改进\n\n## 参与贡献\n\n欢迎提交 Pull 请求。对于重大更改，请先开 Issue 讨论您计划修改的内容。\n\n## 许可证\n\n本项目采用 MIT 许可证授权 - 详情请参阅 [LICENSE](LICENSE) 文件。\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstarpig1129_DATAGEN_readme_19df6a2e1c2a.png)](https:\u002F\u002Fstar-history.com\u002F#starpig1129\u002FDATAGEN&Date)\n\n## 其他项目\n以下是我的一些其他知名项目：\n### PheroPath\nPheroPath 是一种基于文件系统的刺激传递通信协议，允许代理和人类在文件上留下不可见的“信息素”（信号）。它无需修改文件内容即可传递上下文、风险（DANGER）或状态（TODO、SAFE），从而促进更好的多智能体协作。\n- GitHub: [PheroPath](https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FPheroPath)\n### PigPig：高级多模态 LLM Discord 机器人：\n一款基于多模态大型语言模型（LLM）的强大 Discord 机器人，旨在通过自然语言与用户互动。\n它结合了先进的 AI 技术与实用功能，为 Discord 社区提供丰富的体验。\n- GitHub: [ai-discord-bot-PigPig](https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002Fai-discord-bot-PigPig)","# DATAGEN 快速上手指南\n\nDATAGEN 是一个基于多智能体（Multi-Agent）架构的 AI 数据分析与研究平台。它利用 LangChain、LangGraph 及主流大模型（如 GPT、Claude、Gemini），自动化完成从假设生成、数据清洗、代码编写、可视化到报告撰写的全流程研究任务。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Linux \u002F macOS \u002F Windows (需配置相应环境变量)\n*   **Python 版本**：3.10 或更高\n*   **包管理器**：推荐安装 [Conda](https:\u002F\u002Fdocs.conda.io\u002F) 用于环境管理\n*   **浏览器驱动**：需下载对应版本的 ChromeDriver（用于网页搜索与交互）\n*   **API Keys**：准备至少一个大模型服务商的 API Key（OpenAI \u002F Anthropic \u002F Google 等），可选配置 Firecrawl、Tavily 等增强工具。\n\n## 安装步骤\n\n### 1. 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN.git\ncd DATAGEN\n```\n\n### 2. 创建并激活虚拟环境\n建议使用 Conda 创建隔离环境以避免依赖冲突：\n```bash\nconda create -n datagen python=3.10\nconda activate datagen\n```\n\n### 3. 安装依赖\n```bash\npip install -r requirements.txt\n```\n> **提示**：国内用户若下载缓慢，可添加清华或阿里镜像源：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 4. 配置环境变量\n将示例配置文件重命名为 `.env`，并根据实际情况填写关键参数：\n```bash\nmv .env\\ Example .env\n```\n编辑 `.env` 文件，务必修改以下必填项，并按需填入 API Key：\n```sh\n# 数据存储路径 (必填)\nWORKING_DIRECTORY = .\u002Fdata\u002F\n\n# Conda 环境名称 (必填，需与上面创建的名称一致)\nCONDA_ENV = datagen\n\n# ChromeDriver 路径 (必填，请确保已下载对应版本的 chromedriver)\nCHROMEDRIVER_PATH = .\u002Fchromedriver-linux64\u002Fchromedriver\n\n# --- API Keys (按需填写) ---\n# Firecrawl (网页抓取，可选)\nFIRECRAWL_API_KEY = your_firecrawl_key\n\n# 大模型密钥 (至少配置一个，如 OpenAI)\nOPENAI_API_KEY = sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx\n# ANTHROPIC_API_KEY = ...\n# GOOGLE_API_KEY = ...\n\n# LangChain 监控 (可选)\nLANGCHAIN_API_KEY = ...\n\n# MCP 工具密钥 (可选，用于联网搜索或 GitHub 访问)\nTAVILY_API_KEY = ...\nGITHUB_TOKEN = ...\n```\n\n## 基本使用\n\n### 1. 准备数据\n将您的数据文件（例如 `sales_data.csv`）放入项目根目录下的 `data\u002F` 文件夹中。\n\n### 2. 配置任务\n打开 `main.py` 文件，找到 `main()` 函数中的 `user_input` 变量，修改为您的数据文件名和分析需求：\n\n```python\nuser_input = '''\ndatapath:sales_data.csv\nUse machine learning to perform data analysis and write complete graphical reports\n'''\n```\n*注：`datapath` 后的文件名需与 `data\u002F` 目录下的实际文件名一致。*\n\n### 3. 运行系统\n在终端执行以下命令启动多智能体分析流程：\n\n```bash\npython main.py\n```\n\n系统将自动执行以下工作流：\n1.  **假设生成**：智能体分析数据并提出研究假设。\n2.  **人工确认**：暂停等待用户选择继续或重新生成假设。\n3.  **执行分析**：自动编写代码、清洗数据、生成图表并进行文献\u002F网络搜索。\n4.  **质量审查**：对结果进行自我审查与修正。\n5.  **报告输出**：生成最终的研究分析报告。\n\n> **注意**：首次运行可能需要较长时间，且会消耗 API 额度。建议在运行前备份重要数据，因为智能体可能会在处理过程中修改数据文件。","某电商数据团队正急需从海量用户行为日志中挖掘季度消费趋势，以制定下一阶段的精准营销策略。\n\n### 没有 DATAGEN 时\n- 分析师需手动清洗杂乱无章的原始日志，耗时数天且极易因人为疏忽导致数据偏差。\n- 假设生成依赖个人经验，往往局限于常规视角，难以发现隐蔽的非线性关联或新兴趋势。\n- 撰写分析报告时，需在代码、图表和文档间反复切换，整合过程繁琐，严重拖慢决策节奏。\n- 面对突发的大规模数据查询需求，单人算力瓶颈明显，无法实时调整分析维度进行深度下钻。\n\n### 使用 DATAGEN 后\n- DATAGEN 的多智能体系统自动执行鲁棒的数据清洗与转换流水线，分钟级完成高质量数据预处理。\n- 其内置的“高级假设引擎”能自主生成并验证数十种潜在业务假设，实时优化研究方向，捕捉人工易漏的关键洞察。\n- 专门的报告代理自动提取核心观点，动态生成包含交互式可视化的完整研报，实现从数据到结论的无缝闭环。\n- 自适应处理管道根据任务复杂度动态分配资源，协调多个专业代理并行工作，轻松应对大规模实时分析挑战。\n\nDATAGEN 通过将分散的研究环节转化为自动化多智能体协作流，让数据团队从繁琐的执行中解放，专注于高价值的战略决策。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstarpig1129_DATAGEN_2d434956.png","starpig1129","CHAO ZI YUE","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fstarpig1129_a66cbd54.png",null,"Taipei","https:\u002F\u002Fgithub.com\u002Fstarpig1129",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,1688,225,"2026-04-17T04:19:52","MIT","未说明",{"notes":90,"python":91,"dependencies":92},"需配置 ChromeDriver 路径；必须设置 WORKING_DIRECTORY 和 CONDA_ENV 环境变量；支持多种大模型提供商（OpenAI, Anthropic, Google, Ollama, Groq）并通过 YAML 文件单独配置每个 Agent 的模型；集成了 MCP (Model Context Protocol) 用于文件系统、GitHub 和网络搜索；系统会修改分析的数据，使用前务必备份；需要足够的 API 额度以支持多次调用。","3.10+",[93,94,95,96,97,98,99,100],"LangChain","LangGraph","OpenAI API","Anthropic API","Google API","Firecrawl API","Tavily API","ChromeDriver",[102,13,15,35,14,16],"其他",[104,105,106,107,108,109,110,111,112,113,114,115,116,117,118],"artificial-intelligence","data-analysis","data-analytics","data-science","langchain","langgraph","large-language-model","large-language-models","multiagent-systems","python","ai-data-analysis","ai","code-generation","agent","llm","2026-03-27T02:49:30.150509","2026-04-19T03:16:51.126274",[122,127,132,137,142,147,152,157],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},41303,"如何配置并使用非 OpenAI 的模型（如 SiliconFlow、DeepSeek 或 Qwen）？","如果您使用的是 SiliconFlow 等第三方提供商，不能直接将 provider 设置为 'openai'。您需要：\n1. 将配置中的 provider 更改为对应的名称（例如 'siliconflow'）。\n2. 设置 base_url 为提供商的 API 地址，例如 SiliconFlow 需设置为 \"https:\u002F\u002Fapi.siliconflow.cn\u002Fv1\"。\n3. 确保 API 密钥与所选提供商匹配。\n示例配置：\nprocess_agent:\n  provider: siliconflow\n  model_config:\n    model: deepseek-ai\u002FDeepSeek-V3.2\n    temperature: 0.5","https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN\u002Fissues\u002F22",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},41304,"如何在本地部署并使用 DeepSeek 模型？","目前可以通过 Ollama 来使用 DeepSeek 模型。项目正在努力支持更多提供商，但由于 LangGraph 对其他提供商的支持尚不完善，更新速度可能较慢。请尝试通过 Ollama 集成 DeepSeek。","https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN\u002Fissues\u002F16",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},41305,"如何将数据文件（如 CSV 或 JSON）放入项目中进行分析？","您可以将任何文本数据文件（包括 .csv, .json 等格式）直接放入项目的 'data_storage' 目录中。系统会自动读取该目录下的数据进行后续处理。","https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN\u002Fissues\u002F17",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},41306,"遇到 'ModuleNotFoundError: No module named langchain_core' 错误如何解决？","这是因为依赖包缺失或版本不匹配。维护者已更新了 requirements.txt 文件，请拉取最新代码并重新安装依赖：\npip install -r requirements.txt","https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN\u002Fissues\u002F15",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},41307,".env 文件中缺少 WORKING_DIRECTORY 变量导致路径错误怎么办？","这是一个已知问题，旧版本代码硬编码了路径或缺少该变量定义。该问题已在commit 91092b4 中修复。请更新到最新版本，并在 .env 文件中正确配置 WORKING_DIRECTORY 指向您的数据存储路径，或者使用新版默认配置。","https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN\u002Fissues\u002F9",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},41308,"MCP Server 的配置在代码中似乎没有生效，是配置错误吗？","这不是用户的配置错误。之前版本的代码确实未完全实现 MCP Server 的配置逻辑。维护者确认已进行相关更新，请确保您使用的是最新版本的代码以启用该功能。","https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN\u002Fissues\u002F25",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},41309,"collect_data 工具导致 Token 超出限制怎么办？","目前的 collect_data 工具会将整个数据集加入提示词，容易导致 Token 超限。维护者承认这是一个需要改进的工具，计划使其变得更智能（例如只提取关键数据片段）。在当前版本中，建议手动筛选小规模数据或使用采样数据进行分析，避免直接加载全量大数据集。","https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN\u002Fissues\u002F18",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},41310,"非计算机专业用户如何在 Google Colab 中使用此工具？","虽然项目主要面向开发者，但非专业人士也可以尝试使用。对于特定环境（如 Azure OpenAI），您可以参考 core\u002Flanguage_models.py 文件进行修改适配。目前项目已支持 Grok 和 Azure 等接口，具体步骤需根据文档调整配置文件中的 provider 和 endpoint 设置。","https:\u002F\u002Fgithub.com\u002Fstarpig1129\u002FDATAGEN\u002Fissues\u002F5",[]]