[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ishan0102--vimGPT":3,"tool-ishan0102--vimGPT":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":78,"owner_twitter":73,"owner_website":79,"owner_url":80,"languages":81,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":10,"env_os":93,"env_gpu":94,"env_ram":95,"env_deps":96,"category_tags":102,"github_topics":77,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":105,"updated_at":106,"faqs":107,"releases":143},4830,"ishan0102\u002FvimGPT","vimGPT","Browse the web with GPT-4V and Vimium","vimGPT 是一款创新的开源项目，旨在让 GPT-4V 等多模态大模型能够像人类一样“看”并操作网页。它巧妙地将 OpenAI 的视觉能力与 Chrome 插件 Vimium 相结合，解决了传统方案中模型难以精准定位网页点击位置的难题。以往让 AI 浏览网页通常需要提供复杂的网页代码（DOM），而 vimGPT 另辟蹊径，利用 Vimium 为页面上的可交互元素生成键盘快捷键标签，让模型通过识别屏幕截图中的这些标签来发出指令，从而实现纯视觉驱动的网页导航。\n\n该项目不仅支持文本指令，还实验性地加入了语音模式，用户只需口述目标，vimGPT 即可实时执行操作。其独特的技术亮点在于完全依赖视觉输入进行决策，无需解析底层代码结构，并探索了结合辅助功能树、高分辨率图像以及微调开源视觉模型（如 LLaVa）等进阶方向。\n\nvimGPT 目前更适合开发者、AI 研究人员以及对人机交互前沿技术感兴趣的极客用户。对于希望探索多模态模型在实际场景中应用潜力，或研究如何让 AI 更自然地与图形界面互动的团队来说，这是一个极具参考价值的实验性工具。虽然距离大规模普通用户使用尚有距离，但它为未来“所见即所得","vimGPT 是一款创新的开源项目，旨在让 GPT-4V 等多模态大模型能够像人类一样“看”并操作网页。它巧妙地将 OpenAI 的视觉能力与 Chrome 插件 Vimium 相结合，解决了传统方案中模型难以精准定位网页点击位置的难题。以往让 AI 浏览网页通常需要提供复杂的网页代码（DOM），而 vimGPT 另辟蹊径，利用 Vimium 为页面上的可交互元素生成键盘快捷键标签，让模型通过识别屏幕截图中的这些标签来发出指令，从而实现纯视觉驱动的网页导航。\n\n该项目不仅支持文本指令，还实验性地加入了语音模式，用户只需口述目标，vimGPT 即可实时执行操作。其独特的技术亮点在于完全依赖视觉输入进行决策，无需解析底层代码结构，并探索了结合辅助功能树、高分辨率图像以及微调开源视觉模型（如 LLaVa）等进阶方向。\n\nvimGPT 目前更适合开发者、AI 研究人员以及对人机交互前沿技术感兴趣的极客用户。对于希望探索多模态模型在实际场景中应用潜力，或研究如何让 AI 更自然地与图形界面互动的团队来说，这是一个极具参考价值的实验性工具。虽然距离大规模普通用户使用尚有距离，但它为未来“所见即所得”的 AI 代理提供了生动的概念验证。","# vimGPT\nGiving multimodal models an interface to play with.\n\nhttps:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fassets\u002F47067154\u002F467be2ac-7e8d-47de-af89-5bb6f51c1c31\n\n## Overview\nLLMs as a way to browse the web is being explored by numerous startups and open-source projects. With this project, I was interested in seeing if we could only use [GPT-4V](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-4v-system-card)'s vision capabilities for web browsing.\n\nThe issue with this is it's hard to determine what the model wants to click on without giving it the browser DOM as text. [Vimium](https:\u002F\u002Fvimium.github.io\u002F) is a Chrome extension that lets you navigate the web with only your keyboard. I thought it would be interesting to see if we could use Vimium to give the model a way to interact with the web.\n\n## Usage\nInstall Python requirements:\n```\npip install -r requirements.txt\n```\n\nDownload Vimium locally (have to load the extension manually when running Playwright):\n```\n.\u002Fsetup.sh\n```\n\nRun the script:\n```\npython main.py\n```\n\n## Voice Mode\nVoice Mode: Engage with the browser using voice commands. Simply say your objective, and watch vimGPT perform actions in real-time.\n```\npython main.py --voice\n```\n\n## Ideas\nFeel free to collaborate with me on this, I have a number of ideas:\n- Use [Assistant API](https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fassistants\u002Foverview) once it's released for automatic context retrieval. The Assistant API will create a thread that we can add messages too, to keep the history of actions, but it doesn't support the Vision API yet.\n- Vimium fork for overlaying elements. A specialized version of Vimium that selectively overlays elements based on context could be useful, effectively pruning based on the user query. Might be worth testing if different sized boxes\u002Fcolors help.\n- Use higher resolution images, as it seems to fail at low res. I noticed that below a certain threshold, the model wouldn't detect anything. This might be improved by using higher resolution images but that would require more tokens.\n- Fine-tune [LLaVa](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) or [CogVLM](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVLM) to do this or [Fuyu-8B](https:\u002F\u002Fwww.adept.ai\u002Fblog\u002Ffuyu-8b). Could be faster\u002Fcheaper. CogVLM can accurately specify pixel coordinates which may be a good way to augment this.\n- Use JSON mode once it's released for Vision API. Currently the Vision API doesn't support JSON mode or function calling, so we have to rely on more primitive prompting methods.\n- Have the Vision API return general instructions, formalized by another call to the JSON mode version of the API. This is a workaround for the JSON mode issue but requires another LLM call, which is slower\u002Fmore expensive.\n- Add speech-to-text with Whisper or another model to eliminate text input and make this more accessible.\n- Make this work for your own browser instead of spinning up an artificial one. I want to be able to order food with my credit card.\n- Provide the frames with and without Vimium enabled in case the model can't see what's under the yellow square.\n- Pass the Chrome accessibility tree in as input in addition to the image. This provides a layout of interactive elements that can be mapped to the Vimium bindings.\n- Have it write longer things based on the context of the page or return information to the user based on the query. Examples are replying to an email, summarizing a news article, etc. Visual question answering.\n- Make this a useful tool for blind people by adding voice mode and a key that creates an Assistant API for a given page. Something where you can \"speak to an agent\" about a page content in natural language.\n- Use Javascript to label DOM elements with colored boxes, similar to [this](https:\u002F\u002Fx.com\u002FDivGarg9\u002Fstatus\u002F1659270501498523648?s=20).\n- Build a graph-based retry mechanism that makes sure we aren't falling into cycles, i.e. recursively clicking on the same element.\n\n## Shoutouts\n- HackerNews: https:\u002F\u002Fnews.ycombinator.com\u002Fitem?id=38200308\n- VisualWebArena - Evaluating Multimodal Agents on Realistic Visual Web Tasks (page 9): https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13649\n- WIRED: https:\u002F\u002Fwww.wired.com\u002Fstory\u002Ffast-forward-tested-next-gen-ai-assistant\u002F\n\n## References\n- https:\u002F\u002Fgithub.com\u002FGlobe-Engineer\u002Fglobot\n- https:\u002F\u002Fgithub.com\u002Fnat\u002Fnatbot\n","# vimGPT\n为多模态模型提供一个交互界面。\n\nhttps:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fassets\u002F47067154\u002F467be2ac-7e8d-47de-af89-5bb6f51c1c31\n\n## 概述\n许多初创公司和开源项目正在探索如何利用大语言模型来浏览网页。在这个项目中，我感兴趣的是仅使用 [GPT-4V](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-4v-system-card) 的视觉能力来进行网页浏览。\n\n问题在于，在不将浏览器的 DOM 以文本形式提供给模型的情况下，很难判断模型想要点击什么。[Vimium](https:\u002F\u002Fvimium.github.io\u002F) 是一款 Chrome 扩展程序，允许用户仅通过键盘导航网页。我认为，如果能利用 Vimium 为模型提供一种与网页交互的方式，将会非常有趣。\n\n## 使用方法\n安装 Python 依赖：\n```\npip install -r requirements.txt\n```\n\n在本地下载 Vimium（运行 Playwright 时需要手动加载扩展）：\n```\n.\u002Fsetup.sh\n```\n\n运行脚本：\n```\npython main.py\n```\n\n## 语音模式\n语音模式：通过语音命令与浏览器互动。只需说出你的目标，vimGPT 就会实时执行相应操作。\n```\npython main.py --voice\n```\n\n## 创意想法\n欢迎与我合作，我有一些想法：\n- 一旦 [Assistant API](https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fassistants\u002Foverview) 发布，就使用它自动获取上下文。Assistant API 会创建一个线程，我们可以向其中添加消息以保留操作历史，但目前还不支持 Vision API。\n- 分支 Vimium，实现元素叠加功能。开发一个根据上下文有选择性地叠加元素的专用版本，可以有效根据用户查询进行修剪。不妨测试不同大小或颜色的方框是否有所帮助。\n- 使用更高分辨率的图像，因为低分辨率时似乎效果不佳。我发现当分辨率低于某个阈值时，模型就无法检测到任何内容。提高分辨率可能会改善这一问题，但这会增加 token 的消耗。\n- 对 [LLaVa](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) 或 [CogVLM](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVLM) 进行微调，使其完成这项任务，或者尝试 [Fuyu-8B](https:\u002F\u002Fwww.adept.ai\u002Fblog\u002Ffuyu-8b)。这样可能会更快、更便宜。CogVLM 能够准确指定像素坐标，这或许可以很好地补充当前方案。\n- 一旦 Vision API 支持 JSON 模式，就加以利用。目前 Vision API 还不支持 JSON 模式或函数调用，因此我们只能依赖较为原始的提示方式。\n- 让 Vision API 返回通用指令，并通过调用 API 的 JSON 模式版本将其正式化。这是一种针对 JSON 模式问题的变通方案，但需要额外调用一次 LLM，速度较慢且成本较高。\n- 添加语音转文字功能，使用 Whisper 或其他模型，以消除文本输入，使系统更加易用。\n- 让这个工具直接作用于你自己的浏览器，而不是启动一个虚拟浏览器。我希望可以用我的信用卡点外卖。\n- 提供启用和未启用 Vimium 时的画面，以防模型看不到黄色方框下的内容。\n- 除了图像之外，还将 Chrome 的无障碍树作为输入传递。这提供了交互元素的布局信息，可以映射到 Vimium 的快捷键上。\n- 根据页面上下文生成更长的内容，或根据用户的查询返回相关信息。例如回复电子邮件、总结新闻文章等。还可以进行视觉问答。\n- 通过添加语音模式和一个用于为特定页面创建 Assistant API 的按键，将此工具打造成对视障人士有用的辅助工具。让用户能够用自然语言“与代理交谈”，了解页面内容。\n- 使用 JavaScript 为 DOM 元素添加彩色方框标记，类似于 [这个](https:\u002F\u002Fx.com\u002FDivGarg9\u002Fstatus\u002F1659270501498523648?s=20)。\n- 构建基于图的重试机制，确保不会陷入循环，即反复点击同一个元素。\n\n## 致谢\n- HackerNews：https:\u002F\u002Fnews.ycombinator.com\u002Fitem?id=38200308\n- VisualWebArena - 在真实的视觉网络任务上评估多模态智能体（第 9 页）：https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13649\n- WIRED：https:\u002F\u002Fwww.wired.com\u002Fstory\u002Ffast-forward-tested-next-gen-ai-assistant\u002F\n\n## 参考资料\n- https:\u002F\u002Fgithub.com\u002FGlobe-Engineer\u002Fglobot\n- https:\u002F\u002Fgithub.com\u002Fnat\u002Fnatbot","# vimGPT 快速上手指南\n\nvimGPT 是一个利用 GPT-4V 视觉能力结合 Vimium 扩展，实现通过自然语言或语音指令控制浏览器进行网页浏览的开源项目。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux 或 macOS（Windows 用户建议使用 WSL2）。\n*   **Python 版本**：推荐 Python 3.8 及以上版本。\n*   **浏览器**：已安装 Google Chrome 或 Chromium。\n*   **API Key**：拥有有效的 OpenAI API Key（需支持 GPT-4V 模型），并已在环境变量中配置 `OPENAI_API_KEY`。\n*   **依赖管理**：已安装 `pip`。\n\n> **注意**：本项目依赖 Playwright 进行浏览器自动化，首次运行时可能自动下载浏览器内核，请确保网络通畅。国内开发者若遇下载缓慢，可配置 Playwright 镜像源。\n\n## 安装步骤\n\n1.  **克隆项目代码**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT.git\n    cd vimGPT\n    ```\n\n2.  **安装 Python 依赖**\n    ```bash\n    pip install -r requirements.txt\n    ```\n    *(国内用户推荐使用清华或阿里镜像加速安装：`pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n3.  **配置 Vimium 扩展**\n    运行设置脚本以本地下载 Vimium 扩展（由于 Playwright 运行时需要手动加载扩展，此步骤必不可少）：\n    ```bash\n    .\u002Fsetup.sh\n    ```\n    *注：如果提示权限不足，请先执行 `chmod +x setup.sh`。*\n\n## 基本使用\n\n### 1. 启动文本交互模式\n运行主脚本即可启动 vimGPT。程序将打开一个浏览器窗口，您可以通过终端输入指令，模型将识别屏幕内容并操作 Vimium 快捷键完成浏览任务。\n\n```bash\npython main.py\n```\n\n### 2. 启动语音交互模式（可选）\n如果您希望直接使用语音命令控制浏览器，请添加 `--voice` 参数。说出您的目标，vimGPT 将实时执行操作。\n\n```bash\npython main.py --voice\n```\n\n### 使用提示\n*   运行后请耐心等待浏览器启动及初始画面分析。\n*   确保终端中输入的指令清晰明确，例如：“搜索最新的 AI 新闻”或“点击登录按钮”。\n*   项目目前处于实验阶段，复杂页面可能需要更高分辨率的截图支持（可在代码中调整相关参数）。","一位视障研究人员需要独立在复杂的学术新闻网站上查找并总结最新的 AI 论文资讯，但传统图形界面构成了巨大障碍。\n\n### 没有 vimGPT 时\n- 用户必须依赖屏幕阅读器逐行朗读网页内容，无法快速感知页面整体布局和视觉重点，效率极低。\n- 面对动态加载的图片、图表或非标准按钮，辅助技术往往无法识别，导致关键信息遗漏或操作中断。\n- 导航过程繁琐，需要记忆大量快捷键或反复尝试点击位置，极易在复杂的菜单结构中迷失方向。\n- 无法通过自然语言直接表达“找出昨天发布的关于多模态模型的文章”这类复杂意图，只能机械地手动筛选。\n- 跨页面收集信息时缺乏上下文记忆，每次跳转都需重新定位，难以形成连贯的研究工作流。\n\n### 使用 vimGPT 后\n- 研究人员只需语音说出目标，vimGPT 利用 GPT-4V 的视觉能力直接“看懂”页面布局，瞬间锁定核心内容区域。\n- 无论是嵌入式图表还是自定义 UI 控件，vimGPT 都能通过视觉识别精准定位，并通过 Vimium 模拟键盘操作完成交互。\n- 全程无需手动敲击复杂组合键，用户像与助手对话一样发出指令，vimGPT 自动规划最优导航路径并执行点击。\n- 直接口述复杂查询需求，vimGPT 自主浏览多个页面，智能过滤无关信息并提取关键摘要返回给用户。\n- 具备上下文记忆能力，能在多轮对话中持续跟踪任务状态，自动完成从搜索、阅读到整理的全流程闭环。\n\nvimGPT 将视觉智能与键盘导航完美结合，让残障人士也能通过自然语言轻松驾驭复杂的现代网页环境。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fishan0102_vimGPT_f3856a6f.png","ishan0102","Ishan Shah","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fishan0102_124e167b.png","let me cook",null,"ishan0102@gmail.com","ishanshah.me","https:\u002F\u002Fgithub.com\u002Fishan0102",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",98,{"name":87,"color":88,"percentage":32},"Shell","#89e051",2662,202,"2026-04-04T03:16:06","MIT","未说明 (需支持 Playwright 和 Chrome 扩展的系统)","未说明 (依赖云端 GPT-4V API，本地无需 GPU)","未说明",{"notes":97,"python":95,"dependencies":98},"该项目主要依赖 OpenAI 的 GPT-4V 视觉模型 API，因此需要有效的 API Key 并产生相应的调用费用。本地运行需要安装 Playwright 以控制浏览器，并需手动加载本地下载的 Vimium Chrome 扩展。支持语音模式（需额外依赖语音识别库）。由于使用云端大模型，本地对硬件（GPU\u002F内存）无特殊高要求，但需确保网络连接畅通。",[99,100,101],"playwright","openai","Vimium (Chrome 扩展)",[35,15,103,13,52,104],"音频","其他","2026-03-27T02:49:30.150509","2026-04-07T11:43:11.361354",[108,113,118,123,128,133,138],{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},21961,"使用该项目是否需要 ChatGPT 的 API Key？如何配置？","是的，必须拥有 OpenAI API Key。你可以将其设置为环境变量，或者直接硬编码在 `vision.py` 文件的第 11 行附近（不推荐硬编码，建议使用环境变量）。","https:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fissues\u002F13",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},21962,"项目是否有更多的使用示例或视频教程？","目前官方暂时没有提供更多的视频教程或额外示例。建议用户克隆项目后，在本地环境中尝试运行并创建自己的测试示例来熟悉用法。","https:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fissues\u002F12",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},21963,"项目采用什么开源许可证？","项目已添加 MIT 许可证，允许自由的开源贡献和使用。","https:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fissues\u002F1",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},21964,"为什么有人建议给项目改名？","因为 'Vim' 是一个非常著名的编辑器名称，为了避免混淆并确立项目的独特身份，有社区成员建议将项目重命名为能体现其独特功能的名字（例如 'Chatium'），尽管维护者目前倾向于保持名称简洁。","https:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fissues\u002F7",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},21958,"运行时报错 'AttributeError: module 'openai' has no attribute 'chat'' 怎么办？","这通常是因为安装了错误版本的 openai 库。请确保使用 `pip install -r requirements.txt` 安装正确的依赖版本。此外，还需要将 API Key 设置为环境变量，或者在代码中正确配置。","https:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fissues\u002F23",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},21959,"运行 main.py 时提示 'ModuleNotFoundError: No module named 'whisper_mic'' 如何解决？","需要先安装系统依赖 portaudio，然后依次安装 pyaudio 和 whisper_mic。具体命令如下：\n1. macOS 用户运行：`brew install portaudio`\n2. 安装 pyaudio：`pip install pyaudio`\n3. 安装 whisper_mic：`pip install whisper_mic`","https:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fissues\u002F21",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},21960,"在 Windows CMD 终端运行时浏览器窗口意外关闭或崩溃怎么办？","这个问题很可能是由于直接使用 Windows CMD 导致的。建议改用 WSL (Windows Subsystem for Linux) 或其他 Unix 风格的命令行环境来运行项目，以获得更好的兼容性。","https:\u002F\u002Fgithub.com\u002Fishan0102\u002FvimGPT\u002Fissues\u002F15",[]]