kernel-images

737 47 较难 3 次阅读 2天前Apache-2.0开发框架Agent图像插件

AI 解读由 AI 自动生成，仅供参考

kernel-images 是一个为自动化任务和 Web 智能代理提供“浏览器即服务”的开源工具。它让你无需本地安装，就能远程调用沙盒化的 Chrome 浏览器，支持 Playwright、Puppeteer 等主流框架连接控制，还提供实时画面直播、回放录像、远程操作等可视化功能。

它解决了开发者在构建浏览器自动化或 AI 代理时面临的环境配置复杂、资源占用高、状态难保持等问题。尤其适合需要稳定复用登录态、调试交互流程或追求低延迟响应的场景。

主要面向开发者与 AI 研究人员，特别是正在构建 Web 自动化脚本、测试系统或基于浏览器的智能体（如自动填表、数据抓取、模拟用户行为）的人群。设计师或产品经理也可借助其可视化界面远程观察自动化运行过程。

技术亮点在于支持 Unikraft 轻量级内核部署：浏览器空闲时自动休眠节省资源，唤醒后精准恢复之前状态（包括页面、缩放、Cookie），冷启动仅需 20ms，兼顾效率与体验。同时支持 Docker 部署，灵活适配不同需求。

使用场景

某跨境电商公司的自动化测试团队，需要每天在真实浏览器环境中运行上千次购物流程测试，覆盖不同国家站点和登录状态，以确保促销活动期间前端功能稳定。

没有 kernel-images 时

每次测试都要从零启动完整 Chrome 实例，冷启动耗时长达 5–10 秒，拖慢整个 CI/CD 流水线
多个测试并行时容易因资源争抢导致浏览器崩溃，需人工重跑，浪费工程师时间
无法保存已登录的会话状态，每次测试都得重新走一遍验证码和登录流程，增加失败率
远程调试只能靠截图或录屏，出错后难以复现用户操作路径，排查效率极低
长时间运行的容器占用大量内存和 CPU，即使空闲也无法自动休眠，造成云资源浪费

使用 kernel-images 后

借助 Unikernel 快照机制，浏览器进入“睡眠模式”后可秒级唤醒，冷启动时间压缩到 20ms 内，测试吞吐量提升 5 倍
每个浏览器实例完全沙箱隔离，支持高并发运行而不互相干扰，测试稳定性达 99.8%
可复用带登录态的浏览器快照，跳过重复认证步骤，让测试聚焦核心购物流程
通过远程 GUI 实时直播或回放视频，测试失败时能精准定位到鼠标点击和页面跳转的瞬间，Debug 时间缩短 70%
空闲时自动进入低功耗待机，内存占用趋近于零，每月节省近 40% 的云服务器费用

kernel-images 让浏览器自动化从“笨重易碎的物理设备模拟”升级为“轻量可复用的云端服务”，真正实现按需调用、随启随停。

运行环境要求

操作系统

Linux

GPU

未说明

内存

8GB+

依赖

notes需安装 Docker 或 Unikraft 环境；使用 Unikernel 部署时需至少 8GB 内存，支持快速休眠与恢复；WebRTC 模式需配置 TURN/STUN 服务器；远程 GUI 地址公开，请勿用于敏感操作。

python未说明

快速开始

GitHub License

什么是 Kernel？

Kernel 提供沙箱化（sandboxed）、开箱即用的 Chrome 浏览器，用于浏览器自动化和 Web 代理（web agents）。本仓库为我们的托管服务提供支持。

立即注册这里！

核心特性

沙箱化的 Chrome 浏览器，可被基于 Chrome DevTools 协议的浏览器框架（如 Playwright、Puppeteer）连接
支持远程图形界面访问（实时画面流），便于可视化监控与远程控制
可配置的实时视图设置（只读模式、浏览器窗口尺寸）
支持对浏览器会话进行可控的视频回放

你可以用它做什么

运行基于浏览器的自动化工作流
开发和测试使用浏览器的 AI 代理（AI agents）
构建需要受控浏览器环境的自定义工具

实现方式

该镜像可用于在 Docker 容器中运行带图形界面的 Chromium，或配合 Unikraft unikernel 使用。unikernel 实现基于基础 Docker 镜像，并额外具备以下优势：

当无网络活动时自动进入待机 / “睡眠模式”（此时资源消耗可忽略不计）
进入待机模式时，unikernel 的状态会被快照保存，并可在唤醒时精确恢复（包括浏览器认证 Cookie、本地文件交互、浏览器设置，甚至页面和窗口缩放比例）
极快的冷启动速度（<20ms），适用于任何需要超低延迟事件处理器的应用场景

演示

https://github.com/user-attachments/assets/5888e823-5867-4c01-ad67-ec8989ba9573

在 Docker 中运行

你可以直接构建并运行 Dockerfile 作为 Docker 容器。

cd images/chromium-headful
IMAGE=kernel-docker ./build-docker.sh
IMAGE=kernel-docker ENABLE_WEBRTC=true ./run-docker.sh

在 Unikernel 上运行

你也可以选择在 Unikraft unikernel 上运行浏览器。

1. 安装 Kraft CLI

curl -sSfL https://get.kraftkit.sh | sh

2. 为 CLI 添加 Unikraft 密钥

export UKC_METRO=<region> export UKC_TOKEN=<secret>

3. 构建镜像

IMAGE=YOUR_UKC_USERNAME/chromium-headless-test:latest images/chromium-headless/build-unikernel.sh

4. 运行镜像

IMAGE=YOUR_UKC_USERNAME/chromium-headless-test:latest images/chromium-headless/run-unikernel.sh 或 IMAGE=YOUR_UKC_USERNAME/chromium-headful-test:latest VOLIMPORT_PREFIX=official images/chromium-headful/run-unikernel.sh

部署成功后，Kraft CLI 将输出类似如下内容：

Deployed successfully!
 │
 ├───────── name: kernel-cu
 ├───────── uuid: 0cddb958...
 ├──────── metro: <region>
 ├──────── state: starting
 ├─────── domain: https://<service_name>.kraft.host
 ├──────── image: onkernel/kernel-cu@sha256:8265f3f188...
 ├─────── memory: 8192 MiB
 ├────── service: <service_name>
 ├─ private fqdn: <id>
 ├─── private ip: <ip>
 └───────── args: /wrapper.sh

Unikernel 注意事项

该镜像至少需要 8GB 内存。
若需启用 WebRTC 桌面流而非 noVNC，请使用：ENABLE_WEBRTC=true NEKO_ICESERVERS=xxx ./run-unikernel.sh
当 ENABLE_WEBRTC=true 时，部署到 Unikraft Cloud 需要使用 TURN server，因为目前尚不支持直接暴露 UDP 端口。NEKO_ICESERVERS：描述多个 STUN 和 TURN 服务器，ICEAgent 可通过它们与对端建立连接。例如：[{"urls": ["turn:turn.example.com:19302", "stun:stun.example.com:19302"], "username": "name", "credential": "password"}, {"urls": ["stun:stun.example2.com:19302"]}]。
多个服务（如 mutter、tint）启动需数秒时间。启动完成后，待机与重启速度极快。
Unikraft 部署会生成一个 URL。该 URL 是公开的，意味着任何人只要拥有该 URL 即可访问远程 GUI。请仅用于非敏感的浏览器交互，并在使用完毕后删除 unikernel 实例。
你可以调用 browser.close() 断开与浏览器的连接，当网络活动结束后，unikernel 会进入待机状态。之后可通过 CDP 重新连接实例。browser.close() 仅断开 websocket 连接，并不会真正关闭浏览器。
可通过变量调整 VCPUS 值：VCPUS=8

通过 Chrome DevTools Protocol 连接浏览器

端口 9222 通过 ncat 暴露，允许你连接基于 Chrome DevTools Protocol 的浏览器框架，如 Playwright、Puppeteer（以及基于 CDP 的 SDK，如 Browser Use）。你可以使用这些框架驱动云端的浏览器，也可断开后再重新连接。

首先，获取浏览器的 CDP websocket 端点：

const url = new URL("http://localhost:9222/json/version");
const response = await fetch(url, {
  headers: {
    "Host": "<this can be anything>" // 使用 unikernel 时必需
  }
});
if (response.status !== 200) {
  throw new Error(
    `Failed to retrieve browser instance: ${
      response.statusText
    } ${await response.text()}`
  );
}
// webSocketDebuggerUrl 应形如：
// ws:///devtools/browser/06acd5ef-9961-431d-b6a0-86b99734f816
const { webSocketDebuggerUrl } = await response.json();

然后，连接远程的 Playwright 或 Puppeteer 客户端：

// Puppeteer
const browser = await puppeteer.connect({
  browserWSEndpoint: webSocketDebuggerUrl,
});
// Playwright
const browser = await chromium.connectOverCDP(webSocketDebuggerUrl);

浏览器远程 GUI / 实时视图

你可以使用内嵌的实时视图来监控和控制浏览器。实时视图支持对浏览器的读写操作。二者均映射到端口 443。

NoVNC：VNC 客户端，支持读写操作。在 ./run-docker.sh 中设置 ENABLE_WEBRTC=false。
WebRTC：基于 WebRTC 的客户端，支持读写、窗口缩放及复制粘贴功能，比 VNC 快得多。需设置 ENABLE_WEBRTC=true 才可用。

注意事项

WebRTC 实现中的音频流当前不可用，有待修复。
实时视图默认为读写模式。可通过在 docker run 中添加 -e ENABLE_READONLY_VIEW=true \ 设置为只读模式。

录像捕获

你可以使用内置的录制服务器，在我们的有头（headful）镜像中捕获整个屏幕的录像。该功能一次仅支持一个录制会话，可通过设置 WITH_KERNEL_IMAGES_API=true 启用。

例如：

cd images/chromium-headful
export IMAGE=kernel-docker
./build-docker.sh
WITH_KERNEL_IMAGES_API=true ENABLE_WEBRTC=true ./run-docker.sh

# 1. 开始新录制
curl http://localhost:10001/recording/start -d {}

# 正在录制中 —— 运行你的 agent

# 2. 停止录制
curl http://localhost:10001/recording/stop -d {}

# 3. 下载录制文件
curl http://localhost:10001/recording/download --output recording.mp4

注意：录制文件被编码为 H.264/MPEG-4 AVC 视频格式。QuickTime 存在已知播放问题，请确保使用兼容的媒体播放器！

文档

本仓库为我们的托管浏览器基础设施（browser infrastructure）提供支持。

贡献

提交 Pull Request 或 Issue 前，请先阅读我们的贡献指南（contribution guidelines）。

许可证

详情请参阅 LICENSE 文件。

支持

如遇问题、疑问或反馈，请在此仓库提交 Issue。你也可以加入我们的 Discord 社区。

致谢

我们的 WebRTC 实现改编自 Neko。
感谢 xonkernel 主导开发了我们的 WebRTC 实时预览功能。
感谢 Unikraft Cloud 团队在 unikernel 方面提供的帮助。

由 Kernel 团队 ❤️ 制作。

Kernel Images 快速上手指南

环境准备

系统要求：Linux 或 macOS（推荐 Ubuntu 20.04+ / macOS 12+）
内存要求：至少 8GB RAM（Unikernel 模式必需）
前置依赖：
- Docker（用于容器模式）
- Node.js + npm（用于连接 CDP 客户端，如 Puppeteer/Playwright）
- 可选：Kraft CLI（用于 Unikernel 部署）

国内用户建议配置 Docker Hub 镜像加速器（如阿里云、腾讯云镜像源）以提升拉取速度。

安装步骤

方式一：Docker 容器运行（推荐新手）

cd images/chromium-headful
IMAGE=kernel-docker ./build-docker.sh
IMAGE=kernel-docker ENABLE_WEBRTC=true ./run-docker.sh

方式二：Unikernel 运行（高性能场景）

安装 Kraft CLI：

curl -sSfL https://get.kraftkit.sh | sh

设置 Unikraft Cloud 凭据：

export UKC_METRO=<region>
export UKC_TOKEN=<secret>

构建并运行：

IMAGE=YOUR_UKC_USERNAME/chromium-headful-test:latest VOLIMPORT_PREFIX=official images/chromium-headful/build-unikernel.sh
IMAGE=YOUR_UKC_USERNAME/chromium-headful-test:latest VOLIMPORT_PREFIX=official images/chromium-headful/run-unikernel.sh

成功部署后，CLI 将输出访问 URL（如 https://<service_name>.kraft.host），请妥善保管。

基本使用

1. 通过 CDP 连接浏览器（Puppeteer/Playwright）

获取 WebSocket 调试地址：

const url = new URL("http://localhost:9222/json/version");
const response = await fetch(url, {
  headers: {
    "Host": "<任意值>" // Unikernel 模式必需
  }
});
const { webSocketDebuggerUrl } = await response.json();

连接 Puppeteer：

const browser = await puppeteer.connect({
  browserWSEndpoint: webSocketDebuggerUrl,
});

或连接 Playwright：

const browser = await chromium.connectOverCDP(webSocketDebuggerUrl);

2. 启用远程 GUI 监控（WebRTC 推荐）

启动时设置 ENABLE_WEBRTC=true，即可通过浏览器访问实时桌面界面（默认端口 443）。

3. 录制屏幕操作（可选）

启动容器时启用录制 API：

WITH_KERNEL_IMAGES_API=true ENABLE_WEBRTC=true ./run-docker.sh

录制流程：

# 开始录制
curl http://localhost:10001/recording/start -d {}

# 执行你的自动化任务...

# 停止录制
curl http://localhost:10001/recording/stop -d {}

# 下载视频
curl http://localhost:10001/recording/download --output recording.mp4

录制文件为 H.264 格式，建议使用 VLC 或 MPV 播放（QuickTime 可能不兼容）。

常见问题

如何设置 VNC 窗口分辨率为 1920x1080？

为什么密码管理器的自动填充功能被禁用？

WebRTC 模式下复制粘贴功能为何不工作？

WebRTC 显示双光标怎么办？

WebRTC 连接为何会因无活动而断开？

运行 build-docker.sh 时为何要求设置 UKC_TOKEN 和 UKC_METRO？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架