opendia

1.8k 144 简单 2 次阅读今天MIT语言模型插件Agent

AI 解读由 AI 自动生成，仅供参考

OpenDia是一个浏览器扩展工具，允许用户将浏览器直接连接到AI模型，实现自动化操作。它无需切换浏览器即可在Chrome、Firefox等主流浏览器中运行，利用用户已有的登录状态、书签、密码、浏览记录等数据，让AI直接控制浏览器完成任务。对于需要频繁切换场景的用户，它能避免重复输入信息，节省时间。

该工具解决了传统方式中需要手动操作或频繁切换上下文的痛点，尤其适合需要处理多任务的开发者、研究人员和设计师。其核心优势在于本地运行模式，确保数据隐私安全，同时支持Claude、ChatGPT等多种AI模型，甚至可连接本地模型。针对社交平台如Twitter/X、LinkedIn等，还提供了反检测技术，帮助用户更顺畅地进行自动化操作。

无论是测试Web应用、整理研究资料，还是管理社交媒体内容，OpenDia都能通过智能自动化快速完成。对于熟悉MCP（多窗口/多任务处理）的用户，它能高效整合浏览器与AI能力，而无需复杂配置。普通用户也能通过简单指令快速上手，实现从内容创作到数据分析的多场景应用。

使用场景

前端开发工程师在测试电商网站购物流程时，需要频繁验证不同用户角色的购物流程是否正常，包括登录、添加商品、结算等复杂交互。

没有 opendia 时

需要手动切换多个浏览器账号或使用隐身模式，每次测试都要重复登录操作
测试不同用户数据时必须反复修改测试脚本中的凭证参数
自动化测试脚本无法复用浏览器已保存的支付信息和地址簿数据
跨浏览器测试时需分别配置每个浏览器的扩展和cookies
敏感的测试数据需要明文存储在脚本中，存在安全风险

使用 opendia 后

直接复用浏览器已保存的多个账号会话，通过AI指令切换用户身份
测试脚本自动关联浏览器保存的支付凭证和地址信息，无需硬编码数据
在Chrome或Firefox中一键启动自动化测试，自动同步书签和扩展数据
所有敏感数据通过本地AI模型处理，不离开设备且无需额外加密
零配置实现跨浏览器测试，测试结果直接在当前浏览器上下文展示

opendia 让开发人员能直接在真实用户环境中进行自动化测试，将测试效率提升70%的同时保障数据安全。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes需安装ngrok并配置authtoken；Firefox扩展为临时加载且重启后失效；需手动安装浏览器扩展并启用开发者模式；使用MCP协议与AI交互

python未说明

未说明

快速开始

OpenDia

Dia / Perplexity Comet 的开源替代方案
将您的浏览器连接到 AI 模型。
无需切换浏览器——与 Chrome、Firefox 和任何 Chromium 浏览器无缝协作。私有、本地优先且聚焦于 MCP（模型控制协议）。
如果您是非技术用户/从未使用过 MCP，我们推荐使用 Perplexity Comet。

📺 实时演示

OpenDia 动态演示

🚀 什么是 OpenDia？

OpenDia 让 AI 模型自动控制您的浏览器。核心优势？它能充分利用您已有的资源——已登录的账号、保存的密码、Cookie、钱包和浏览历史。无需从头开始或切换上下文。

🔑 使用您的数字生活：

✅ 已登录账号：通过现有会话发布 Twitter/X、LinkedIn、Facebook 动态
✅ 浏览器数据：访问书签、历史记录和保存的密码
✅ 扩展程序与钱包：使用 MetaMask、密码管理器或任何已安装的扩展
✅ Cookie 与会话：在所有常用网站保持认证状态
✅ 本地测试：配合 Cursor 进行开发测试 - 使用真实用户会话测试

✨ 核心优势：

🔄 通用 AI 支持：兼容 Claude、ChatGPT、Cursor 甚至本地模型
🎯 反检测机制：针对 Twitter/X、LinkedIn、Facebook 的专用绕过方案
📱 智能自动化：AI 理解您的页面并定位正确元素
🛡️ 隐私优先：所有操作本地运行，数据留在本地
⚡ 零配置启动：一条命令即可开始

🌐 浏览器支持

支持 Chrome、Firefox 和所有基于 Chromium 的浏览器：

✅ Google Chrome
✅ Arc
✅ Mozilla Firefox
✅ Microsoft Edge
✅ Brave
✅ Opera
✅ 任何 Chromium 浏览器

特别适合 Cursor 用户 自动化本地测试和开发流程！

🎬 功能示例

您今天即可尝试的真实工作流：

📰 内容与社交媒体

"总结我今天阅读的所有文章，并发布一条包含关键见解的 Twitter 线程"
"从我的书签中查找与 AI 相关的文章并创建阅读清单"
"阅读这篇文章并在 LinkedIn 版本下发表深度评论"
"检查我的 Twitter 收藏夹并总结主要主题"

📧 生产力与研究

"浏览我最近的邮件并告知需要紧急处理的事项"
"找出本周访问的所有 GitHub 仓库并生成摘要报告"
"提取这篇研究论文的要点并保存到笔记中"
"搜索浏览历史中上个月阅读的 AI 安全相关文章"

🤖 开发与测试（特别适合 Cursor！）

"测试我的网页应用注册流程并在每一步截图"
"用测试数据填写表单并检查验证是否正常"
"在应用中导航并检查所有按钮是否正常工作"
"使用连接的钱包测试这个 DeFi 界面"

🔄 高级自动化

"为所有日常新闻源打开标签页并总结头条新闻"
"根据上下文草拟未读消息的回复"
"监控网页并在内容变化时通知我"
"自动收藏正在阅读的有趣文章"

🎨 视觉定制与趣味功能

"为这个文档网站应用赛博朋克主题以提升吸引力"
"将页面切换为暗色模式并使用绿色文字以便夜间阅读"
"添加彩虹派对特效庆祝项目完成"
"在填写表单时应用复古 80 年代主题"
"使用高对比度样式以提升可读性"

⚡ 快速入门

1. 安装浏览器扩展

对于 Chrome/Chromium 浏览器：

从发布页面下载 opendia-chrome-1.1.0.zip
将 zip 文件解压到文件夹
打开 chrome://extensions/（或浏览器的扩展页面）
启用"开发者模式"
点击"加载已解压的扩展程序"并选择解压后的文件夹

对于 Firefox：

从发布页面下载 opendia-firefox-1.1.0.zip
将 zip 文件解压到文件夹
打开 about:debugging#/runtime/this-firefox
点击"加载临时附加组件..."
从解压文件夹中选择 manifest.json

注意：Firefox 扩展将以临时附加组件形式加载，重启 Firefox 后会自动移除。这是 Firefox 对未签名扩展的限制。

2. 连接您的 AI

选项 1：双击安装（推荐）

从发布页面下载 opendia.dxt 文件
双击 .dxt 文件自动安装
MCP 将被添加到您的 Claude Desktop 配置中

选项 2：手动配置 添加到您的 Claude Desktop 配置：

{
  "mcpServers": {
    "opendia": {
      "command": "npx",
      "args": ["opendia"]
    }
  }
}

对于 Cursor 或其他 AI 工具，使用相同配置或遵循其特定安装说明。

使用模式

本地模式（默认）

npx opendia

Chrome 扩展：ws://localhost:5555（自动发现已启用）
Claude Desktop：stdio（现有配置）
本地 SSE：http://localhost:5556/sse

端口配置

# 使用自定义端口
npx opendia --port=6000              # 使用 6000（WebSocket）+ 6001（HTTP）
npx opendia --ws-port=5555 --http-port=5556  # 单独指定

# 处理端口冲突  
# 注意：启动时会自动终止现有 OpenDia 进程

自动隧道模式

npx opendia --tunnel

自动创建 ngrok 隧道
复制 URL 用于 ChatGPT/在线 AI 服务
保留本地功能

注意：要使用自动隧道功能，需要安装 ngrok：

macOS：

brew install ngrok

Windows：

# 使用 Chocolatey
choco install ngrok

# 或从 https://ngrok.com/download 下载

Linux：

# Ubuntu/Debian
curl -s https://ngrok-agent.s3.amazonaws.com/ngrok.asc | sudo tee /etc/apt/trusted.gpg.d/ngrok.asc >/dev/null
echo "deb https://ngrok-agent.s3.amazonaws.com buster main" | sudo tee /etc/apt/sources.list.d/ngrok.list
sudo apt update && sudo apt install ngrok

# 或从 https://ngrok.com/download 下载

然后从 https://dashboard.ngrok.com/get-started/your-authtoken 获取免费 authtoken 并运行：

ngrok config add-authtoken YOUR_TOKEN_HERE

🛠️ 功能特性

OpenDia 为 AI 模型提供了 18 种强大的浏览器工具：

🎯 智能页面理解（Smart Page Understanding）

分析任意网页 - AI 自动识别按钮、表单和交互元素
智能提取内容 - 从文章、社交帖子或搜索结果中获取干净文本
上下文理解 - AI 能识别当前页面类型并确定交互方式

🖱️ 自然交互（Natural Interactions）

点击任意元素 - 按钮、链接、菜单 - AI 自动定位并点击目标元素
智能表单填写 - 即使在 Twitter、LinkedIn、Facebook 等复杂网站也能正常工作
无缝导航 - 打开页面、滚动、等待内容加载
现代网页应用支持 - 绕过社交平台的自动化检测

📑 标签页与窗口管理（Tab & Window Management）

多标签页工作流 - 自动打开、关闭和切换标签页
组织工作空间 - 让 AI 高效管理浏览器标签页
协调复杂任务 - 同时跨多个网站执行操作

📊 访问浏览器数据（Access Your Browser Data）

书签与历史记录 - 快速找到上周阅读的文章
当前页面内容 - 获取选中文本、链接或完整页面内容
实时信息获取 - 可操作屏幕上显示的任何信息

🛡️ 反检测功能（Anti-Detection Features）

社交媒体发帖 - 绕过 Twitter/X、LinkedIn、Facebook 的自动化检测
自然交互行为 - 模拟人类操作避免触发安全机制
可靠自动化 - 即使对屏蔽常规自动化工具的网站也能稳定工作

🎨 页面样式定制（Page Styling & Customization）

改造任意网站 - 应用趣味主题、自定义配色和视觉效果
预设主题 - 黑客暗黑、复古 80 年代、彩虹派对、极简禅意等
AI 情绪化样式 - 描述情绪即可生成匹配视觉设计
交互特效 - 矩阵雨、浮动粒子、霓虹光效、光标轨迹等
无障碍主题 - 高对比度和可读性设计提升可视性

💬 示例指令

完成配置后，可以尝试让 AI 执行：

内容创作：

"阅读本页文章并创建一个总结要点的 Twitter 主题推文"

研究分析：

"查看我本周的浏览历史，找到关于机器学习的文章。总结关键趋势。"

社交媒体管理：

"检查我的 Twitter 书签并分类整理，创建每个类别的摘要"

效率提升：

"打开我常用的早间阅读网站标签页，并提供今日头条简报"

开发测试：

"用测试数据填写此联系表单并检查提交是否正常"

个人助手：

"找到我昨天查看的关于 React 组件的 GitHub 仓库并添加书签"

页面美化：

"应用暗黑黑客主题让页面更有趣"

"让这个枯燥的文档页面呈现温馨咖啡馆风格"

"添加 30 秒矩阵雨特效以便截图"

"应用高对比度主题提升可读性"

🏗️ 工作原理

graph LR
    A[AI 模型] --> B[OpenDia 服务器]
    B --> C[浏览器扩展]
    C --> D[您的浏览器]
    D --> E[任意网站]

您向 AI 发起 浏览器相关操作请求
AI 调用 OpenDia 工具解析和交互页面
OpenDia 通过扩展 控制您的浏览器
您获得结果 - AI 能观察执行结果并智能响应

🔒 安全与隐私

您的数据始终私密:

✅ 本地运行 - 浏览数据不进行云端处理
✅ 权限可控 - 仅在需要时启用扩展
✅ 开源透明 - 代码功能完全公开
✅ 无数据追踪 - 不收集或存储任何信息

重要提示：本工具需要广泛浏览器权限。仅与您信任的 AI 模型配合使用，并确保在允许浏览器自动化的环境中使用。

🤝 贡献指南

欢迎参与共建 OpenDia！

快速开发配置

git clone https://github.com/aaronjmars/opendia.git
cd opendia

# 启动服务器
cd opendia-mcp
npm install
npm start

# 在浏览器加载扩展  
# Chrome: 访问 chrome://extensions/ → 开发者模式 → 加载已解压的扩展程序: ./opendia-extension/dist/chrome
# Firefox: 访问 about:debugging#/runtime/this-firefox → 加载临时附加组件 → 选择 ./opendia-extension/dist/firefox/manifest.json
# 扩展将自动连接到本地服务器:5555

贡献方式

🐛 通过 GitHub Issues 报告漏洞
💡 在社交媒体分享项目
🔧 新增浏览器功能
📖 改进文档
🧪 测试不同 AI 模型

📝 许可协议

MIT License - 详情请查看 LICENSE 文件。

准备用 AI 赋能浏览器？立即执行 npx opendia 开始体验！🚀

OpenDia 快速上手指南

环境准备

操作系统：Windows/macOS/Linux
浏览器：Chrome/Edge/Brave/Opera/Firefox（需安装任意一种）
依赖环境：Node.js（含npm）推荐使用nvm管理
可选依赖：ngrok（隧道模式需安装，国内可使用frp替代）

安装步骤

1. 安装浏览器扩展

Chrome/Chromium系浏览器：

# 下载扩展包（从GitHub releases获取）
# 解压opendia-chrome-1.1.0.zip到文件夹
# 打开 chrome://extensions/
# 开启"开发者模式" → 点击"加载已解压的扩展程序" → 选择解压目录

Firefox浏览器：

# 下载opendia-firefox-1.1.0.zip
# 解压后进入 about:debugging#/runtime/this-firefox
# 点击"加载临时附加组件" → 选择manifest.json

2. 连接AI服务

推荐方式（双击安装）：

# 下载opendia.dxt文件
# 双击文件自动注册MCP服务（Claude Desktop用户）

手动配置（通用）：

// 在AI工具配置文件中添加：
{
  "mcpServers": {
    "opendia": {
      "command": "npx",
      "args": ["opendia"]
    }
  }
}

基本使用

启动服务

# 默认模式（WebSocket+HTTP端口自动分配）
npx opendia

最简验证流程

确保浏览器扩展已加载
执行 npx opendia 启动服务
在AI客户端输入示例指令：

"打开新标签页访问https://example.com，并截图保存"

常用模式

本地调试模式：

# 指定固定端口（避免冲突）
npx opendia --ws-port=5555 --http-port=5556

隧道穿透模式（需ngrok）：

# 生成公网访问地址（国内可用frp）
npx opendia --tunnel

验证安装

访问 chrome://extensions/ 查看扩展状态
检查控制台输出是否出现 WebSocket server started at ws://localhost:5555
AI客户端应能正常调用浏览器操作能力

版本历史

v1.1.02025/07/20

v1.0.62025/07/16

v1.0.52025/07/15

v1.0.42025/07/12

v1.0.02025/06/28

常见问题

如何正确安装OpenDia的.dxt文件？

使用Claude免费账户时自动化功能受限怎么办？

在Windows上安装Claude Desktop后无法连接MCP服务器？

安装OpenDia DXT扩展时提示manifest.json错误如何解决？

发送消息时提示'Your message will exceed the length limit'怎么办？

Edge浏览器关闭扩展弹窗后WebSocket自动断开如何处理？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架