OpenGenerativeUI

1.1k 130 较难 2 次阅读昨天MITAgent语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

OpenGenerativeUI 是一个开源的生成式用户界面框架，让你能通过自然语言指令让 AI 自动生成可交互的可视化内容。它结合 CopilotKit 和 LangChain Deep Agents，不仅能回答问题，还能实时创建算法动画（如二分查找、排序过程）、3D 场景、图表、网络图或交互式表单，并以内嵌的沙箱 iframe 形式安全地渲染为 HTML/SVG。

它解决了传统 AI 助手只能输出静态文本的局限，让复杂逻辑和数据以直观、动态的方式呈现，特别适合需要快速原型验证或教学演示的场景。主要面向开发者、AI 研究人员和技术型设计师——他们希望将大模型的能力延伸到富交互界面生成领域。

技术上，OpenGenerativeUI 采用 Turborepo 架构，包含前端（Next.js）、智能体后端（基于技能的 Deep Agent）和 MCP（Model Context Protocol）服务，支持与 Claude Desktop、Cursor 等工具集成。其亮点在于要求使用高能力模型（如 GPT-5.4、Claude Opus 等），确保生成的 UI 结构完整、交互可用，并自动适配明暗主题与响应式布局。

使用场景

某高校计算机系讲师正在准备一堂关于图遍历算法（BFS vs DFS）的互动教学课，希望让学生通过可视化方式直观理解两种算法的执行差异。

没有 OpenGenerativeUI 时

需手动编写大量 HTML/CSS/JavaScript 代码实现交互式图遍历动画，开发耗时且容易出错
若想切换不同算法或调整图结构，几乎要重写整个可视化组件，迭代成本高
缺乏统一设计语言，图表风格与课程网站不一致，影响整体体验
无法在课堂上实时响应学生提出的“如果改成加权图会怎样？”等假设性问题
部分学生使用手机访问，但自研组件未适配移动端，导致体验割裂

使用 OpenGenerativeUI 后

直接向内置 AI 代理输入自然语言指令（如“生成一个可交互的 BFS 和 DFS 对比动画，节点数为 8”），几秒内获得完整可视化组件
学生现场提问时，讲师只需修改提示词（如“将图改为带权重的有向图”），AI 自动重建并渲染新交互界面
所有生成内容自动继承课程网站的主题色、字体和暗色模式，视觉风格高度统一
组件内建响应式布局和渐进式加载动画，无论电脑还是手机都能流畅操作
所有交互逻辑封装在沙箱 iframe 中，确保教学页面稳定性不受生成内容影响

OpenGenerativeUI 将算法教学从静态演示升级为动态共创，让复杂概念“所想即所见”。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes需要配置 OpenAI、Anthropic 或 Google 的 API 密钥；必须使用高能力大模型（如 gpt-5.4、claude-opus-4-6 或 gemini-3.1-pro）才能正确生成复杂 UI；项目为 Turborepo 单体仓库，包含前端、Agent 和 MCP 三个子应用；需通过 make 或 pnpm 命令管理开发流程。

python未说明

CopilotKit

LangChain Deep Agents

LangGraph

Next.js

React

Tailwind CSS

Turborepo

Recharts

pnpm

Node.js

快速开始

Open Generative UI

一个开源示例项目，展示如何使用 CopilotKit 和 LangChain Deep Agents 构建丰富、交互式的 AI 生成 UI（Generative UI）。你可以让智能体（agent）可视化算法、创建 3D 动画、渲染图表或生成交互式图表——所有内容都以实时 HTML/SVG 的形式在沙箱化的 iframe 中呈现。

https://github.com/user-attachments/assets/ed28c734-e54e-4412-873f-4801da544a7f

https://github.com/user-attachments/assets/ba7db70d-07c0-49af-b221-f962f30245e2

功能说明

该智能体生成的是 生成式 UI（Generative UI） —— 不仅仅是文本回复，而是完全可交互的视觉组件：

算法可视化 —— 二分查找、BFS vs DFS、排序算法等
3D 动画 —— 交互式 WebGL/CSS3D 场景
图表与图示 —— 饼图、柱状图、网络图等
交互式小部件 —— 表单、模拟器、数学绘图等

所有视觉内容均在沙箱化 iframe 中渲染，并自动支持亮色/暗色主题、渐进式揭示动画和响应式尺寸调整。

快速开始

make setup    # 安装依赖 + 创建 .env 模板
# 编辑 apps/agent/.env 文件，填入你真实的 OpenAI API 密钥
make dev      # 启动所有服务

需要强大的模型。 生成式 UI 要求模型具备高能力，能够在单次输出中生成结构良好且复杂的 HTML/SVG。请在 .env 文件中将 LLM_MODEL 设置为以下之一：

模型提供商

gpt-5.4 / gpt-5.4-pro OpenAI

claude-opus-4-6 Anthropic

gemini-3.1-pro Google

较小或能力较弱的模型将导致布局错乱、缺少交互性或可视化不完整。

模型	提供商
`gpt-5.4` / `gpt-5.4-pro`	OpenAI
`claude-opus-4-6`	Anthropic
`gemini-3.1-pro`	Google

前端应用: http://localhost:3000
智能体服务: http://localhost:8123

可用命令

命令	说明
`make setup`	安装所有依赖并创建 `.env` 模板
`make dev`	启动所有服务（前端 + 智能体 + MCP）
`make dev-app`	仅启动 Next.js 前端
`make dev-agent`	仅启动 LangGraph 智能体
`make dev-mcp`	仅启动 MCP 服务器
`make build`	构建所有应用
`make lint`	对所有应用进行代码检查
`make clean`	清理构建产物
`make help`	显示所有可用命令

你也可以直接使用 pnpm（如 pnpm dev、pnpm dev:app、pnpm dev:agent 等）。

MCP 服务器（自托管）

本仓库包含一个独立的 Model Context Protocol (MCP) 服务器，向任何兼容 MCP 的客户端（包括 Claude Desktop、Claude Code 和 Cursor）提供设计系统、技能说明文档和 HTML 文档组装器。

提供的功能

assemble_document 工具 —— 将 HTML 片段包裹完整的 CSS 设计系统和桥接 JS，返回可直接用于 iframe 的完整文档
技能资源 —— 浏览和读取技能说明文档（skills://list、skills://{name}）
提示模板 —— 预先组合好的提示词，用于小部件、SVG 图表和高级可视化

Claude Desktop（stdio 模式）

在你的 Claude Desktop 配置文件（claude_desktop_config.json）中添加：

{
  "mcpServers": {
    "open-generative-ui": {
      "command": "node",
      "args": ["dist/stdio.js"],
      "cwd": "/path/to/apps/mcp"
    }
  }
}

Claude Code / HTTP 客户端

# 启动 HTTP 服务器
cd apps/mcp && pnpm dev

在 .mcp.json 中添加：

{
  "openGenerativeUI": {
    "url": "http://localhost:3100/mcp"
  }
}

完整配置、Docker 部署和 API 参考请见 apps/mcp/README.md。

架构

基于 Turborepo 的 monorepo，包含三个包：

apps/
├── app/       Next.js 16 前端（CopilotKit v2, React 19, Tailwind 4）
├── agent/     Deep Agent（deepagents + CopilotKit 中间件，基于技能）
└── mcp/       独立 MCP 服务器（设计系统 + 技能 + 文档组装器）

Deep Agent + 技能系统

智能体后端使用 LangChain Deep Agents（create_deep_agent），采用基于技能（skills-based）的架构。不同于将所有可视化指令注入系统提示词，技能被定义为 apps/agent/skills/ 目录下的 SKILL.md 文件，并通过渐进式披露（progressive disclosure）按需加载：

apps/agent/skills/
├── advanced-visualization/SKILL.md   # UI 原型、仪表盘、Chart.js、生成艺术
├── master-playbook/SKILL.md          # 回复理念、决策树、叙述模式
└── svg-diagrams/SKILL.md             # SVG 生成规则、组件模式、图表类型

Deep Agents 还内置了规划能力（write_todos）、文件系统工具和子智能体支持。

工作流程

用户通过 CopilotKit 聊天界面发送提示
Deep Agent 决定 是返回文本、调用工具，还是渲染视觉组件——必要时查阅相关技能
widgetRenderer —— 前端的 useComponent Hook —— 接收智能体生成的 HTML，并在沙箱化 iframe 中渲染
骨架屏加载 在 iframe 加载期间显示，随后内容平滑淡入
iframe 内部的 ResizeObserver 将内容高度回传给父页面，实现无缝自动调整尺寸

关键 CopilotKit 模式

模式	Hook	示例
生成式 UI	`useComponent`	饼图、柱状图、小部件渲染器
前端工具	`useFrontendTool`	主题切换
人在环路（Human-in-the-loop）	`useHumanInTheLoop`	会议调度器
默认工具渲染	`useDefaultRenderTool`	工具执行状态

决策矩阵 —— 选择合适的可视化方式

用户询问的内容……	输出类型	技术栈
X 的工作原理（物理层面）	示意图	SVG
X 的工作原理（抽象层面）	交互式讲解	HTML + 内联 SVG
流程 / 步骤	流程图	SVG
架构 / 包含关系	结构图	SVG
数据库模式 / 实体关系图（ERD）	关系图	Mermaid
随时间变化的趋势	折线图	Chart.js
类别对比	柱状图	Chart.js
整体中的部分	环形图（Doughnut chart）	Chart.js
关键绩效指标（KPI）/ 度量	仪表盘	HTML 指标卡片
设计用户界面（UI）	线框图（Mockup）	HTML
在多个选项间做选择	对比卡片	HTML 网格
循环流程	分步展示（Step-through）	HTML 步进器
物理 / 数学	仿真（Simulation）	Canvas + JS
函数 / 方程	绘图器（Plotter）	SVG + JS
数据探索	可排序表格	HTML + JS
创意 / 装饰性内容	艺术 / 插图	SVG
3D 可视化	3D 场景	Three.js
音乐 / 音频	合成器（Synthesizer）	Tone.js
网络 / 图结构	力导向布局（Force layout）	D3.js
快速的事实性回答	纯文本	无
代码解决方案	代码块	无
情感支持	温暖的文字	无

技术栈

Next.js 16、React 19、Tailwind CSS 4、LangChain Deep Agents、LangGraph、CopilotKit v2、Turborepo、Recharts

许可证

MIT

OpenGenerativeUI 快速上手指南

环境准备

操作系统：推荐 macOS / Linux（Windows WSL2 亦可）
Node.js：v20 或更高版本
包管理器：推荐使用 pnpm（v8+）
API 密钥：需准备以下任一 LLM 提供商的 API Key：
- OpenAI（推荐 gpt-5.4 或 gpt-5.4-pro）
- Anthropic（claude-opus-4-6）
- Google（gemini-3.1-pro）

⚠️ 注意：生成式 UI 对模型能力要求较高，低性能模型可能导致布局错乱或交互缺失。

安装步骤

克隆仓库：

git clone https://github.com/user-attachments/assets/OpenGenerativeUI.git
cd OpenGenerativeUI

安装依赖并生成配置模板：
```
make setup
```
配置 API 密钥：编辑 apps/agent/.env 文件，填入你的 OpenAI（或其他）API Key：
```
OPENAI_API_KEY=your_api_key_here
LLM_MODEL=gpt-5.4  # 或其他支持的模型
```
启动开发服务：
```
make dev
```

服务启动后，访问以下地址：

前端应用：http://localhost:3000
Agent 服务：http://localhost:8123

💡 国内用户建议配置 npm/pnpm 镜像加速安装：
pnpm config set registry https://registry.npmmirror.com

基本使用

打开 http://localhost:3000
在聊天框中输入可视化请求，例如：
- “用动画演示快速排序过程”
- “画一个展示用户登录流程的流程图”
- “创建一个可交互的饼图，显示各产品销量占比”
AI 将自动生成并渲染交互式 HTML/SVG 组件，嵌入在沙箱 iframe 中，支持自动亮暗色主题和响应式尺寸。

你也可以单独启动特定服务：

make dev-app      # 仅启动前端
make dev-agent    # 仅启动 Agent
make dev-mcp      # 仅启动 MCP 服务

常见问题

在移动设备上，Demo 画廊卡片背景透明导致文字难以阅读，如何解决？

为什么 Widget 渲染器在包含视口填充内容时高度会无限增长？

生成可视化内容前能否增加一个规划步骤，而不是直接生成代码？

BFS/DFS 算法可视化时图节点未渲染（显示空白画布），可能原因是什么？

能否为生成的可视化组件添加“复制代码”和“下载”功能？

Generative UI 组件在流式渲染时出现闪烁，如何实现平滑渐进渲染？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架