VisionClaw

GitHub
2k 371 较难 1 次阅读 今天NOASSERTION语言模型图像音频Agent其他
AI 解读 由 AI 自动生成,仅供参考

VisionClaw 是一款专为 Meta Ray-Ban 智能眼镜打造的实时 AI 助手,同时也支持在 iOS 和 Android 手机上运行。它让用户只需通过语音指令,就能让 AI“看见”你所见的场景并执行具体操作,真正实现了眼手解放的交互体验。

这款工具解决了智能眼镜以往只能被动记录或进行简单问答的局限。用户戴上眼镜后,可以随时询问“我正在看什么”,AI 会基于摄像头画面实时描述场景;也能直接下达复杂指令,如“把牛奶加入购物清单”、“给约翰发消息说我会迟到”或“搜索附近最好的咖啡馆”。VisionClaw 能自动调用联网应用完成这些任务,并将结果语音反馈给用户。

它非常适合开发者、技术爱好者以及希望探索下一代可穿戴设备交互模式的研究人员使用。对于普通用户而言,若具备一定动手配置能力,也能将其作为提升日常效率的智能伴侣。

VisionClaw 的核心亮点在于深度集成了谷歌 Gemini Live API 与 OpenClaw 框架。它摒弃了传统的“先转文字再处理”模式,采用原生音频流与低帧率视频流(约 1fps)并通过 WebSocket 实时传输,确保了极低的延迟和自然的对话体验。结合 OpenClaw 提供的 56 多种技能插件,它能无缝连接消息软件、智能家居及网络搜索,将视觉感知转化为实际行动。

使用场景

一位视障开发者在拥挤的地铁站尝试寻找特定的出口标识,并需要立即将当前位置发送给同事协助会合。

没有 VisionClaw 时

  • 视觉信息缺失:用户无法直接读取远处模糊或高处的指示牌内容,必须摸索着靠近或大声询问路人,效率极低且存在安全隐患。
  • 操作中断流程:若要发送位置,用户需停下脚步,从口袋掏出手机,解锁并打开地图应用,整个过程在人流中显得笨拙且易受干扰。
  • 交互延迟严重:传统的语音助手通常需要先录音、再转文字、最后处理,导致在嘈杂环境中识别率低,反馈慢,无法实现流畅的自然对话。
  • 多任务处理困难:用户难以一边观察周围环境变化,一边进行复杂的指令操作(如搜索附近设施并同步发送消息),注意力被迫频繁切换。

使用 VisionClaw 后

  • 实时视觉增强:用户只需佩戴 Meta Ray-Ban 眼镜注视前方,VisionClaw 即刻通过 Gemini Live 分析摄像头画面,主动播报“前方左侧是 B2 出口”,无需任何额外动作。
  • 无感代理执行:用户直接口述“告诉李明我在 B2 出口等他”,VisionClaw 自动调用 OpenClaw 网关连接即时通讯软件发送消息,全程双手解放,步履不停。
  • 原生流式交互:依托 WebSocket 双向音频流,用户在环境噪音中也能与 AI 进行低延迟的自然对话,AI 能像真人一样随时打断或补充视觉细节。
  • 视听同步闭环:用户在行走中连续发出“查看周围有无咖啡店”和“导航过去”的指令,VisionClaw 结合实时视频流与工具链,瞬间完成搜索并语音指引路线。

VisionClaw 将智能眼镜从简单的拍摄设备升级为具备“眼手协同”能力的实时代理,让用户在移动中真正实现所见即所得、所说即所行。

运行环境要求

操作系统
  • iOS
  • Android
GPU

未说明

内存

未说明

依赖
notes该工具是移动端应用(非桌面端),需在 iPhone (iOS 17+) 或 Android 手机上运行。核心依赖为 Google Gemini Live API(需 API Key)和 Meta Ray-Ban 眼镜的开发者模式。若需使用工具调用功能(如搜索、发消息),需额外部署 OpenClaw 网关。WebRTC 直播功能需要运行独立的 Node.js 信令服务器。无需本地 GPU 或 Python 环境,计算主要在云端 Gemini API 完成。
python未说明
Meta Wearables DAT SDK (iOS/Android)
Gemini Live API
OpenClaw (可选)
Xcode 15.0+ (iOS 开发)
Android Studio (Android 开发)
Node.js (WebRTC 信令服务器)
VisionClaw hero image

快速开始

VisionClaw

VisionClaw

一款专为 Meta Ray-Ban 智能眼镜打造的实时 AI 助手。它能够“看见你所见、听见你说的话”,并通过语音为你执行各种操作。

Cover

基于 Meta Wearables DAT SDK(iOS)/ DAT Android SDK(Android)+ Gemini Live API + OpenClaw(可选)构建而成。

支持平台: iOS(iPhone)和 Android(Pixel、三星等)

功能简介

戴上眼镜,轻触 AI 按钮,即可开始对话:

  • “我在看什么?” —— Gemini 会通过眼镜摄像头识别场景并进行描述。
  • “把牛奶加到购物清单里” —— 委托 OpenClaw 通过你已连接的应用程序完成操作。
  • “给约翰发消息说我晚点了” —— 信息将经由 OpenClaw 转发至 WhatsApp、Telegram 或 iMessage。
  • “搜索附近最好的咖啡店” —— 通过 OpenClaw 进行网络搜索,并将结果以语音形式反馈给你。

眼镜摄像头以约 1 帧/秒的速率向 Gemini 传输视频流以获取视觉上下文,同时音频则以实时双向方式传输。

工作原理

How It Works

Meta Ray-Ban 眼镜(或手机摄像头)
       |
       | 视频帧 + 麦克风音频
       v
iOS / Android 应用(本项目)
       |
       | JPEG 帧(约 1 帧/秒)+ PCM 音频(16kHz)
       v
Gemini Live API(WebSocket)
       |
       |-- 音频响应(PCM 24kHz)--> 应用 --> 扬声器
       |-- 工具调用(执行)-------> 应用 --> OpenClaw 网关
       |                                              |
       |                                              v
       |                                      56+ 技能:网页搜索、
       |                                      消息发送、智能家居控制、
       |                                      备忘录、提醒等
       |                                              |
       |<---- 工具响应(文本) <----- 应用 <-------+
       |
       v
  Gemini 将结果以语音播报出来

核心组件:

  • Gemini Live —— 基于 WebSocket 的实时语音与视觉 AI(原生音频处理,而非先转文字再处理)。
  • OpenClaw(可选)—— 本地网关,为 Gemini 提供访问 56+ 工具及所有已连接应用的权限。
  • 手机模式 —— 使用手机摄像头代替眼镜进行全流程测试。
  • WebRTC 流媒体 —— 可将眼镜视角实时共享给浏览器端观众。

快速入门(iOS)

1. 克隆并打开项目

git clone https://github.com/sseanliu/VisionClaw.git
cd VisionClaw/samples/CameraAccess
open CameraAccess.xcodeproj

2. 添加密钥信息

复制示例文件并填写你的值:

cp CameraAccess/Secrets.swift.example CameraAccess/Secrets.swift

编辑 Secrets.swift 文件,填入你的 Gemini API 密钥(必填),以及可选的 OpenClaw/WebRTC 配置。

3. 构建并运行

选择你的 iPhone 作为目标设备,然后点击运行(Cmd+R)。

4. 开始体验

无需眼镜(iPhone 模式):

  1. 点击 “在 iPhone 上启动” —— 使用 iPhone 后置摄像头。
  2. 点击 AI 按钮 启动 Gemini Live 会话。
  3. 与 AI 对话——它可以通过你的 iPhone 摄像头“看见”周围环境。

使用 Meta Ray-Ban 眼镜:

首先,在 Meta AI 应用中启用开发者模式:

  1. 打开 iPhone 上的 Meta AI 应用。
  2. 进入 设置(左下角齿轮图标)。
  3. 点击 应用信息
  4. 连续点击 应用版本号 5 次——这将解锁开发者模式。
  5. 返回设置页面,你会看到一个 开发者模式 开关,将其打开。

如何启用开发者模式

然后在 VisionClaw 中:

  1. 点击应用中的 “开始直播”
  2. 点击 AI 按钮 进行语音与视觉交互。

快速入门(Android)

1. 克隆并打开项目

git clone https://github.com/sseanliu/VisionClaw.git

在 Android Studio 中打开 samples/CameraAccessAndroid/ 目录。

2. 配置 GitHub Packages(DAT SDK)

Meta DAT Android SDK 通过 GitHub Packages 发布。你需要一个具有 read:packages 权限的 GitHub 个人访问令牌。

  1. 访问 GitHub > 设置 > 开发人员设置 > 个人访问令牌,创建一个具有 read:packages 权限的 经典 令牌。
  2. samples/CameraAccessAndroid/local.properties 文件中添加:
github_token=YOUR_GITHUB_TOKEN

提示: 如果你已安装 gh CLI,可以运行 gh auth token 获取有效令牌。确保该令牌具备 read:packages 权限——若没有,请运行 gh auth refresh -s read:packages

注意: 即使是公共仓库,GitHub Packages 也需要身份验证。出现 401 错误通常意味着你的令牌缺失或无效。

3. 添加密钥信息

cd samples/CameraAccessAndroid/app/src/main/java/com/meta/wearable/dat/externalsampleapps/cameraaccess/
cp Secrets.kt.example Secrets.kt

编辑 Secrets.kt 文件,填入你的 Gemini API 密钥(必填),以及可选的 OpenClaw/WebRTC 配置。

4. 构建并运行

  1. 让 Gradle 在 Android Studio 中同步(它将从 GitHub Packages 下载 DAT SDK)。
  2. 选择你的 Android 手机作为目标设备。
  3. 点击运行(Shift+F10)。

无线调试: 你也可以通过 ADB 无线方式安装。在手机的开发者选项中启用 无线调试,然后使用 adb pair <ip>:<port> 进行配对。

5. 开始体验

无需眼镜(手机模式):

  1. 点击 “在手机上启动” —— 使用手机后置摄像头。
  2. 点击 AI 按钮(火花图标)启动 Gemini Live 会话。
  3. 与 AI 对话——它可以通过你的手机摄像头“看见”周围环境。

使用 Meta Ray-Ban 眼镜:

在 Meta AI 应用中启用开发者模式(步骤同 iOS),然后:

  1. 点击应用中的 “开始直播”
  2. 点击 AI 按钮 进行语音与视觉交互。

设置:OpenClaw(可选)

OpenClaw 使 Gemini 能够执行实际操作——发送消息、上网搜索、管理待办事项、控制智能家居设备等。如果没有 OpenClaw,Gemini 仅具备语音与视觉功能。

1. 安装并配置 OpenClaw

请按照 OpenClaw 设置指南 操作。确保网关已启用:

~/.openclaw/openclaw.json 文件中:

{
  "gateway": {
    "port": 18789,
    "bind": "lan",
    "auth": {
      "mode": "token",
      "token": "your-gateway-token-here"
    },
    "http": {
      "endpoints": {
        "chatCompletions": { "enabled": true }
      }
    }
  }
}

关键设置:

  • bind: "lan" —— 将网关暴露在本地网络中,以便你的手机可以访问。
  • chatCompletions.enabled: true —— 启用 /v1/chat/completions 端点(默认关闭)。
  • auth.token —— 你的应用将用于认证的令牌。

2. 配置应用

iOS -- 在 Secrets.swift 中:

static let openClawHost = "http://Your-Mac.local"
static let openClawPort = 18789
static let openClawGatewayToken = "your-gateway-token-here"

Android -- 在 Secrets.kt 中:

const val openClawHost = "http://Your-Mac.local"
const val openClawPort = 18789
const val openClawGatewayToken = "your-gateway-token-here"

要查找您的 Mac 的 Bonjour 主机名:系统设置 > 通用 > 共享 -- 它显示在顶部(例如 Johns-MacBook-Pro.local)。

iOS 和 Android 还都提供应用内设置界面,您可以在运行时更改这些值,而无需编辑源代码。

3. 启动网关

openclaw gateway restart

验证是否正在运行:

curl http://localhost:18789/health

现在,当您与 AI 对话时,它可以通过 OpenClaw 执行任务。


架构

关键文件(iOS)

所有源代码都在 samples/CameraAccess/CameraAccess/ 目录下:

文件 用途
Gemini/GeminiConfig.swift API 密钥、模型配置、系统提示
Gemini/GeminiLiveService.swift Gemini Live API 的 WebSocket 客户端
Gemini/AudioManager.swift 麦克风录音(PCM 16kHz)+ 音频播放(PCM 24kHz)
Gemini/GeminiSessionViewModel.swift 会话生命周期、工具调用连接、对话记录状态
OpenClaw/ToolCallModels.swift 工具声明、数据类型
OpenClaw/OpenClawBridge.swift OpenClaw 网关的 HTTP 客户端
OpenClaw/ToolCallRouter.swift 将 Gemini 的工具调用路由到 OpenClaw
iPhone/IPhoneCameraManager.swift iPhone 摄像头模式的 AVCaptureSession 封装
WebRTC/WebRTCClient.swift WebRTC 对等连接 + SDP 协商
WebRTC/SignalingClient.swift WebRTC 房间的 WebSocket 信令

关键文件(Android)

所有源代码都在 samples/CameraAccessAndroid/app/src/main/java/.../cameraaccess/ 目录下:

文件 用途
gemini/GeminiConfig.kt API 密钥、模型配置、系统提示
gemini/GeminiLiveService.kt OkHttp WebSocket 客户端,用于 Gemini Live API
gemini/AudioManager.kt AudioRecord(16kHz)+ AudioTrack(24kHz)
gemini/GeminiSessionViewModel.kt 会话生命周期、工具调用连接、UI 状态
openclaw/ToolCallModels.kt 工具声明、数据类
openclaw/OpenClawBridge.kt OkHttp HTTP 客户端,用于 OpenClaw 网关
openclaw/ToolCallRouter.kt 将 Gemini 的工具调用路由到 OpenClaw
phone/PhoneCameraManager.kt CameraX 封装,用于手机摄像头模式
webrtc/WebRTCClient.kt WebRTC 对等连接(stream-webrtc-android)
webrtc/SignalingClient.kt OkHttp WebSocket 信令,用于 WebRTC 房间
settings/SettingsManager.kt SharedPreferences,带有 Secrets.kt 的后备机制

音频管道

  • 输入:手机麦克风 -> AudioManager(PCM Int16,16kHz 单声道,100ms 块)-> Gemini WebSocket
  • 输出:Gemini WebSocket -> AudioManager 播放队列 -> 手机扬声器
  • iOS iPhone 模式:使用 .voiceChat 音频会话进行回声消除,并在 AI 说话时关闭麦克风。
  • iOS 眼镜模式:使用 .videoChat 音频会话(麦克风在眼镜上,扬声器在手机上——无回声)。
  • Android:使用 VOICE_COMMUNICATION 音频源进行内置的声学回声消除。

视频管道

  • 眼镜:DAT SDK 视频流(24fps)-> 调整至 ~1fps -> JPEG(50% 质量)-> Gemini
  • 手机:相机拍摄(30fps)-> 调整至 ~1fps -> JPEG -> Gemini

工具调用

Gemini Live 支持函数调用。两个应用都声明了一个名为 execute 的工具,该工具将所有请求路由到 OpenClaw:

  1. 用户说“把鸡蛋加到我的购物清单里”
  2. Gemini 回答“好的,我现在就添加”(在工具调用之前进行口头确认)
  3. Gemini 发送包含 execute(task: "Add eggs to the shopping list")toolCall
  4. ToolCallRouter 向 OpenClaw 网关发送 HTTP POST 请求
  5. OpenClaw 使用其 56 多种已连接技能执行任务
  6. 结果通过 toolResponse 返回给 Gemini
  7. Gemini 再次回应确认信息。

WebRTC 实时直播

您可以将眼镜视角实时共享到浏览器观看者那里,实现双向音视频传输。

  1. 点击应用中的 Live 按钮
  2. 应用连接到信令服务器并获取一个 6 位数的房间代码
  3. 分享该代码——观看者在浏览器中打开服务器 URL 并输入代码
  4. 建立 WebRTC 对等连接(通过信令服务器进行 SDP + ICE 协商)
  5. 媒体以对等方式流动:眼镜视频传输到浏览器,浏览器摄像头再传回 iOS 的画中画窗口。

关键细节:

  • 信令服务器:Node.js + WebSocket,位于 samples/CameraAccess/server/ 目录下——为浏览器观看者提供服务,并中继 SDP/ICE。
  • NAT 穿透:Google STUN 服务器 + ExpressTURN 中继(从 /api/turn 获取)。
  • 视频:24 fps,最大比特率 2.5 Mbps。
  • 后台处理:iOS 应用进入后台后有 60 秒的宽限期——房间保持存活以便重新连接。
  • 限制:不能与 Gemini Live 同时运行(音频设备冲突)。

更多详细信息,请参阅 samples/CameraAccess/CameraAccess/WebRTC/README.md


要求

iOS

  • iOS 17.0+
  • Xcode 15.0+
  • Gemini API 密钥(可免费获取
  • Meta Ray-Ban 眼镜(可选——可使用 iPhone 模式进行测试)
  • 您的 Mac 上安装了 OpenClaw(可选——用于代理行动)

Android

  • Android 14+(API 34+)
  • Android Studio Ladybug 或更高版本
  • GitHub 账户及具有 read:packages 权限的令牌(用于 DAT SDK)
  • Gemini API 密钥(可免费获取
  • Meta Ray-Ban 眼镜(可选——可使用 Phone 模式进行测试)
  • 您的 Mac 上安装了 OpenClaw(可选——用于代理行动)

故障排除

一般问题

Gemini 听不到我的声音——请检查是否已授予麦克风权限。该应用使用激进的语音活动检测——请清晰地以正常音量说话。

OpenClaw 连接超时——请确保您的手机和 Mac 连接到同一 Wi‑Fi 网络,网关正在运行(openclaw gateway restart),并且主机名与您 Mac 的 Bonjour 名称一致。

OpenClaw 打开重复的浏览器标签页——这是 OpenClaw 的 CDP(Chrome 开发者工具协议)连接管理中已知的上游问题(#13851, #12317)。使用 profile: "openclaw"(托管 Chrome)而不是默认的扩展程序中继,可能会提高稳定性。

iOS 特定问题

“未配置 Gemini API 密钥”——请在 Secrets.swift 或应用内设置中添加您的 API 密钥。

iPhone 模式下的回声/反馈——当 AI 说话时,应用会静音麦克风。如果您仍然听到回声,请尝试调低音量。

Android 特定问题

Gradle 同步失败,返回 401 Unauthorized 错误 -- 您的 GitHub Token 丢失或未授予 read:packages 范围权限。请检查 local.properties 文件中的 gpr.usergpr.token 配置项。您可以在 github.com/settings/tokens 生成一个新的 Token。

Gemini WebSocket 超时 -- Gemini Live API 会发送二进制 WebSocket 帧。如果您正在构建自定义客户端,请确保同时处理文本帧和二进制帧。

音频无法工作 -- 请确保已授予 RECORD_AUDIO 权限。在 Android 13 及以上版本中,您可能需要手动前往“设置 > 应用”来授予此权限。

手机摄像头无法启动 -- 请确保已授予 CAMERA 权限。CameraX 需要同时具备该权限以及有效的生命周期。

如遇 DAT SDK 相关问题,请参阅 开发者文档讨论论坛

许可证

本源代码根据位于本项目根目录下 LICENSE 文件中的许可协议进行授权。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|昨天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

143.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|昨天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|昨天
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|昨天
开发框架图像Agent