[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-McGill-NLP--webllama":3,"similar-McGill-NLP--webllama":108},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":19,"owner_website":20,"owner_url":21,"languages":22,"stars":27,"forks":28,"last_commit_at":29,"license":30,"difficulty_score":31,"env_os":32,"env_gpu":33,"env_ram":34,"env_deps":35,"category_tags":45,"github_topics":18,"view_count":48,"oss_zip_url":18,"oss_zip_packed_at":18,"status":49,"created_at":50,"updated_at":51,"faqs":52,"releases":92},6389,"McGill-NLP\u002Fwebllama","webllama","Llama-3 agents that can browse the web by following instructions and talking to you","WebLlama 是一款基于 Meta Llama 3 打造的开源智能体项目，旨在构建能够理解人类指令、通过对话协作并完成网页浏览任务的 AI 助手。它的核心目标并非取代用户，而是作为强大的副手，帮助用户自动执行复杂的网页导航操作，如点击链接、填写表单或提交信息，从而解决传统自动化脚本灵活性差、难以应对动态网页交互的痛点。\n\n该项目特别适合 AI 研究人员、开发者以及希望探索大模型在真实网络环境中应用的技术爱好者。WebLlama 的独特亮点在于其首个模型 Llama-3-8B-Web，该模型在包含超过 2.4 万条专家标注交互数据的数据集上进行了微调。在 WebLINX 1.0 基准测试中，它表现出色，甚至在零样本设置下超越 GPT-4V 达 18%，尤其在链接选择准确性和对话响应自然度上优势明显。此外，项目提供了完整的训练脚本、优化配置及评估基准，并支持与 Playwright、Selenium 等主流浏览器自动化框架无缝集成，方便用户快速部署和二次开发，是推动“以人为中心”的网页智能体发展的重要开源成果。","\u003Cdiv align=\"center\">\n\n\u003Ch1>🖥️ WebLlama🦙\u003C\u002Fh1>\n\n\u003Ci>Building \u003Cb>agents\u003C\u002Fb> that can browse the web by following instructions and talking to you\u003C\u002Fi>\n\n| 💻 [**GitHub**](https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama) | 🏠 [**Homepage**](https:\u002F\u002Fwebllama.github.io) | 🤗 [**`Llama-3-8B-Web`**](https:\u002F\u002Fhuggingface.co\u002FMcGill-NLP\u002FLlama-3-8B-Web) |\n| :--: | :--: | :--: |\n\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_e9202b714191.png\" style=\"width: 400px;\" \u002F>\n\n\n\u003C\u002Fdiv>\n\n| `WebLlama` helps you build powerful agents, powered by Meta Llama 3, for browsing the web on your behalf | Our first model, [`Llama-3-8B-Web`](https:\u002F\u002Fhuggingface.co\u002FMcGill-NLP\u002FLlama-3-8B-Web), surpasses GPT-4V (`*`zero-shot) by 18% on [`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) |\n|:---: | :---: |\n| ![Built with Meta Llama 3](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_60890051131f.jpg) | ![Comparison with GPT-4V](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_f6e0e7cda453.png) |\n\n## About the project\n\n| `WebLlama` | The goal of our project is to build effective human-centric agents for browsing the web. We don't want to replace users, but equip them with powerful assistants. |\n|:---: | :---|\n| Modeling | We are build on top of cutting edge libraries for training Llama agents on web navigation tasks. We will provide training scripts, optimized configs, and instructions for training cutting-edge Llamas. |\n| Evaluation | Benchmarks for testing Llama models on real-world web browsing. This include *human-centric* browsing through dialogue ([`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F)), and we will soon add more benchmarks for automatic web navigation (e.g. Mind2Web). |\n| Data | Our first model is finetuned on over 24K instances of web interactions, including `click`, `textinput`, `submit`, and dialogue acts. We want to continuously curate, compile and release datasets for training better agents. |\n| Deployment | We want to make it easy to integrate Llama models with existing deployment platforms, including Playwright, Selenium, and BrowserGym. We are currently focusing on making this a reality. |\n\n\n\u003Cdetails>\n\u003Csummary>Click to show citation\u003C\u002Fsummary>\u003Cbr>\n\nIf you use `WebLlama` in your research, you can cite the ICML 2024 paper upon which the training and evaluation are originally based on, by adding the following to your bibtex file:\n\n```\n@misc{lu_2024_weblinx,\n      title={WebLINX: Real-World Website Navigation with Multi-Turn Dialogue}, \n      author={Xing Han Lù and Zdeněk Kasner and Siva Reddy},\n      year={2024},\n      eprint={2402.05930},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n\nExample usage (in latex):\n\n```\nWe use the WebLlama library, which builds on top of WebLINX \\citep{lu_2024_weblinx}.\n```\n\n```\nWe use Llama-3-8B-Web, a model finetuned on WebLINX demonstrations \\citep{lu_2024_weblinx}.\n```\n\n\u003C\u002Fdetails>\n\n## Modeling\n\n> [!NOTE]\n> The model is available on the 🤗 Hugging Face Model Hub as [`McGill-NLP\u002FLlama-3-8B-Web`](https:\u002F\u002Fhuggingface.co\u002FMcGill-NLP\u002FLlama-3-8B-Web). The training and evaluation data is available on [Hugging Face Hub as `McGill-NLP\u002FWebLINX`](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMcGill-NLP\u002FWebLINX).\n\nOur first agent is a finetuned [`Meta-Llama-3-8B-Instruct`](https:\u002F\u002Fhuggingface.co\u002Fmeta-llama\u002FMeta-Llama-3-8B-Instruct) model, which was recently released by Meta GenAI team. We have finetuned this model on the [`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) dataset, which contains over 100K instances of web navigation and dialogue, each collected and verified by expert annotators. We use a 24K curated subset for training the data.\n\n![Comparison of Llama-3-Web, GPT-4V, GPT-3.5 and MindAct](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_13e7842ab614.png)\n\n**It surpasses GPT-4V (zero-shot `*`) by over 18% on the [`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) benchmark**, achieving an overall score of 28.8% on the out-of-domain test splits (compared to 10.5% for GPT-4V). It chooses more useful links (34.1% vs 18.9% *seg-F1*), clicks on more relevant elements (27.1% vs 13.6% *IoU*) and formulates more aligned responses (37.5% vs 3.1% *chr-F1*).\n\nIt's extremely straightforward to use the model via Hugging Face's `transformers`, `datasets` and `hub` libraries:\n\n```python\nfrom datasets import load_dataset\nfrom huggingface_hub import snapshot_download\nfrom transformers import pipeline\n\n# We use validation data, but you can use your own data here\nvalid = load_dataset(\"McGill-NLP\u002FWebLINX\", split=\"validation\")\nsnapshot_download(\"McGill-NLP\u002FWebLINX\", repo_type=\"dataset\", allow_patterns=\"templates\u002F*\")\ntemplate = open('templates\u002Fllama.txt').read()\n\n# Run the agent on a single state (text representation) and get the action\nstate = template.format(**valid[0])\nagent = pipeline(\"McGill-NLP\u002FLlama-3-8b-Web\")\nout = agent(state, return_full_text=False)[0]\nprint(\"Action:\", out['generated_text'])\n\n# Here, you can use the predictions on platforms like playwright or browsergym\naction = process_pred(out['generated_text'])  # implement based on your platform\nenv.step(action)  # execute the action in your environment\n```\n\n## Evaluation\n\nWe believe short demo videos showing how well an agent performs is NOT enough to judge an agent. Simply put, **we do not know if we have a good agent if we do not have good benchmarks.** We need to systematically evaluate agents on wide range of tasks, spanning from simple instruction-following web navigation to complex dialogue-guided browsing. \n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_aa4443d182ce.png\" style=\"width: 100%\"\u002F>\n\nThis is why we chose [`WebLINX`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) as our first benchmark. In addition to the training split, the benchmark has 4 real-world splits, with the goal of testing multiple dimensions of generalization: new websites, new domains, unseen geographic locations, and scenarios where the *user cannot see the screen and relies on dialogue*. It also covers 150 websites, including booking, shopping, writing, knowledge lookup, and even complex tasks like manipulating spreadsheets. Evaluating on this benchmark is very straightforward:\n\n```bash\ncd modeling\u002F\n\n# After installing dependencies, downloading the dataset, and training\u002Fevaluating your model, you can evaluate:\npython -m weblinx.eval # automatically find all `results.jsonl` and generate an `aggregated_results.json` file\n\n# Visualize your results with our app:\ncd ..\nstreamlit run app\u002FResults.py\n```\n\n> 👷‍♀️ **Next steps**\\\n> We are planning to evaluate our models on more benchmarks, including Mind2Web, a benchmark for automatic web navigation. We believe that a good agent should be able to navigate the web both through dialogue and autonomously, and potentially attain even broader ranges of capabilities useful for real-world web browsing.\n\n\n## Data\n\nAlthough the 24K training examples from [`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) provide a good starting point for training a capable agent, we believe that more data is needed to train agents that can generalize to a wide range of web navigation tasks. Although it has been trained and evaluated on 150 websites, there are millions of websites that has never been seen by the model, with new ones being created every day. \n\n**This motivates us to continuously curate, compile and release datasets for training better agents.** As an immediate next step, we will be incorporating `Mind2Web`'s training data into the equation, which also covers over 100 websites.\n\n> [!NOTE] \n> WebLINX is now available as a benchmark through [BrowserGym](https:\u002F\u002Fgithub.com\u002FServiceNow\u002FBrowserGym), allowing you to access demonstration steps in the same way you would access a web agent environment like [WebArena](https:\u002F\u002Fwebarena.dev\u002F) or [MiniWoB](https:\u002F\u002Fminiwob.farama.org\u002Findex.html). This also allows you to run agents from the [Agentlab](https:\u002F\u002Fgithub.com\u002FServiceNow\u002FAgentLab) library, including agents that achieve SOTA performance through Claude-3.5-Sonnet. To enable this integration, we are releasing the `weblinx-browsergym` extension for BrowserGym on PyPi, as well as a [new dataset, WebLINX 1.1, derived from WebLINX on Huggingface](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMcGill-NLP\u002Fweblinx-browsergym). In WebLINX 1.1, a small number of demonstrations were removed after processing, but no new demonstration was added. There are substantial changes to the steps being evaluated, with the inclusion of tab actions. Please report your results as \"WebLINX-1.1\", \"WebLINX-BrowserGym\" or \"WebLINX-BG\" in your work, to differentiate from the [initial release of weblinx (1.0)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMcGill-NLP\u002FWebLINX\u002Ftree\u002Fv1.0).\n\n\n## Deployment\n\nWe are working hard to make it easy for you to deploy Llama web agents to the web. We want to integrate `WebLlama` with existing deployment platforms, including Microsoft's Playwright, ServiceNow Research's BrowserGym, and other partners.\n\nAt the moment, we offer the following integrations:\n* `Browsergym`: Please find more information in [`examples\u002FREADME.md`](examples\u002FREADME.md) and [`docs\u002FREADME.md`](docs\u002FREADME.md).\n\n## Code\n\nThe code for finetuning the model and evaluating it on the [`WebLINX` 1.0](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) benchmark is available now. \n* **Modeling**: You can find the detailed instructions in [modeling](modeling\u002FREADME.md) for training `Llama-3-8B-Web` on the `WebLINX` 1.0 dataset.\n* **Examples**: We provide a few example for using the `webllama` API and models, including web API, end-to-end, and BrowserGym integration. You can find them in [examples](examples\u002FREADME.md).\n* **App**: We provide a simple Streamlit app for visualizing the results of your model on the `WebLINX` 1.0 benchmark. You can find the code in [app](app\u002FResults.py).\n* **Docs**: We provide detailed documentation for the code in [docs](docs\u002FREADME.md).\n\n\n> 👷‍♀️ **Next steps**\\\n> We are actively working on new data and evaluation at the moment! If you want to help, please create an issue describing what you would like to contribute, and we will be happy to help you get started.\n\n\n## License\n\nThe code in this repository is licensed under the MIT license, unless otherwise specified in the header of the file. Other materials (models, data, images) have their own licenses, which are specified in the original pages.\n\n## FAQ\n\n### How can I contribute to the project?\n\nWe are actively looking for collaborators to help us build the best Llama-3 web agents! To get started, open an issue about what you would like to contribute, and once it has been discussed, you can submit a pull request.\n\n\n## Citation\n\nIf you use `WebLlama` in your research, you can cite the ICML 2024 paper upon which the training and evaluation are originally based on, by adding the following to your bibtex file:\n\n```\n@misc{lu_2024_weblinx,\n      title={WebLINX: Real-World Website Navigation with Multi-Turn Dialogue}, \n      author={Xing Han Lù and Zdeněk Kasner and Siva Reddy},\n      year={2024},\n      eprint={2402.05930},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n\nExample usage (in latex):\n\n```\nWe use the WebLlama library, which builds on top of WebLINX \\citep{lu_2024_weblinx}.\n```\n\n```\nWe use Llama-3-8B-Web, a model finetuned on WebLINX demonstrations \\citep{lu_2024_weblinx}.\n```\n","\u003Cdiv align=\"center\">\n\n\u003Ch1>🖥️ WebLlama🦙\u003C\u002Fh1>\n\n\u003Ci>构建能够根据指令浏览网页并与您对话的\u003Cb>智能体\u003C\u002Fb>\u003C\u002Fi>\n\n| 💻 [**GitHub**](https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama) | 🏠 [**主页**](https:\u002F\u002Fwebllama.github.io) | 🤗 [**`Llama-3-8B-Web`**](https:\u002F\u002Fhuggingface.co\u002FMcGill-NLP\u002FLlama-3-8B-Web) |\n| :--: | :--: | :--: |\n\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_e9202b714191.png\" style=\"width: 400px;\" \u002F>\n\n\n\u003C\u002Fdiv>\n\n| `WebLlama` 帮助您构建由 Meta Llama 3 提供支持的强大智能体，以代表您浏览网页 | 我们的首个模型 [`Llama-3-8B-Web`](https:\u002F\u002Fhuggingface.co\u002FMcGill-NLP\u002FLlama-3-8B-Web) 在 [`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) 上的表现比 GPT-4V（*零样本*）高出 18% |\n|:---: | :---: |\n| ![基于 Meta Llama 3 构建](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_60890051131f.jpg) | ![与 GPT-4V 的对比](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_f6e0e7cda453.png) |\n\n## 关于项目\n\n| `WebLlama` | 我们项目的目标是构建高效、以人为本的网页浏览智能体。我们并不想取代用户，而是为他们配备强大的助手。 |\n|:---: | :---|\n| 建模 | 我们基于最先进的库来训练 Llama 智能体完成网页导航任务。我们将提供训练脚本、优化配置以及训练前沿 Llama 模型的指导说明。 |\n| 评估 | 用于测试 Llama 模型在真实世界网页浏览中表现的基准。这包括通过对话进行的*以人为本*的浏览（[`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F)），我们还将很快增加更多用于自动网页导航的基准（例如 Mind2Web）。 |\n| 数据 | 我们的第一个模型是在超过 2.4 万条网页交互实例上进行微调的，其中包括点击、文本输入、提交以及对话行为。我们希望持续整理、汇编并发布用于训练更优秀智能体的数据集。 |\n| 部署 | 我们希望让 Llama 模型与现有部署平台（如 Playwright、Selenium 和 BrowserGym）的集成变得简单易行。目前我们正致力于将这一目标变为现实。 |\n\n\n\u003Cdetails>\n\u003Csummary>点击以显示引用\u003C\u002Fsummary>\u003Cbr>\n\n如果您在研究中使用了 `WebLlama`，可以引用最初用于训练和评估的 ICML 2024 论文，并将其添加到您的 bibtex 文件中：\n\n```\n@misc{lu_2024_weblinx,\n      title={WebLINX: Real-World Website Navigation with Multi-Turn Dialogue}, \n      author={Xing Han Lù and Zdeněk Kasner and Siva Reddy},\n      year={2024},\n      eprint={2402.05930},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n\n示例用法（在 LaTeX 中）：\n\n```\n我们使用 WebLlama 库，该库建立在 WebLINX 的基础上 \\citep{lu_2024_weblinx}。\n```\n\n```\n我们使用 Llama-3-8B-Web 模型，该模型是在 WebLINX 示范数据上微调的 \\citep{lu_2024_weblinx}。\n```\n\n\u003C\u002Fdetails>\n\n## 建模\n\n> [!NOTE]\n> 该模型已在 🤗 Hugging Face Model Hub 上发布，名称为 [`McGill-NLP\u002FLlama-3-8B-Web`](https:\u002F\u002Fhuggingface.co\u002FMcGill-NLP\u002FLlama-3-8B-Web)。训练和评估数据则可在 Hugging Face Hub 上找到，数据集名为 `McGill-NLP\u002FWebLINX`。\n\n我们的首个智能体是一个基于 [`Meta-Llama-3-8B-Instruct`](https:\u002F\u002Fhuggingface.co\u002Fmeta-llama\u002FMeta-Llama-3-8B-Instruct) 微调的模型，该模型最近由 Meta GenAI 团队发布。我们在此基础上使用了 [`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) 数据集进行微调，该数据集包含超过 10 万个网页导航和对话实例，每一条都由专业标注人员收集并验证。我们从中选取了 2.4 万个精心筛选的子集用于训练。\n\n![Llama-3-Web、GPT-4V、GPT-3.5 和 MindAct 的对比](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_13e7842ab614.png)\n\n**它在 [`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) 基准测试中，比 GPT-4V（零样本 *）高出 18% 以上**，在域外测试划分上的综合得分达到 28.8%，而 GPT-4V 仅为 10.5%。它会选择更有用的链接（34.1% 对 18.9% 的 seg-F1），点击更相关的元素（27.1% 对 13.6% 的 IoU），并生成更贴合需求的响应（37.5% 对 3.1% 的 chr-F1）。\n\n使用 Hugging Face 的 `transformers`、`datasets` 和 `hub` 库来运行该模型非常简单：\n\n```python\nfrom datasets import load_dataset\nfrom huggingface_hub import snapshot_download\nfrom transformers import pipeline\n\n# 我们使用验证数据，但您也可以使用自己的数据\nvalid = load_dataset(\"McGill-NLP\u002FWebLINX\", split=\"validation\")\nsnapshot_download(\"McGill-NLP\u002FWebLINX\", repo_type=\"dataset\", allow_patterns=\"templates\u002F*\")\ntemplate = open('templates\u002Fllama.txt').read()\n\n# 在单个状态（文本表示）上运行智能体并获取行动\nstate = template.format(**valid[0])\nagent = pipeline(\"McGill-NLP\u002FLlama-3-8b-Web\")\nout = agent(state, return_full_text=False)[0]\nprint(\"Action:\", out['generated_text'])\n\n# 接下来，您可以将预测结果应用于 playwright 或 browsergym 等平台\naction = process_pred(out['generated_text'])  # 根据您的平台实现\nenv.step(action)  # 在您的环境中执行该动作\n```\n\n## 评估\n\n我们认为，仅仅通过简短的演示视频来展示智能体的表现，并不足以对其作出准确判断。简而言之，**如果没有完善的基准测试，我们就无法确定自己是否拥有一个优秀的智能体。** 我们需要系统地评估智能体在各种任务上的表现，从简单的遵循指令的网页导航，到复杂的对话引导式浏览。\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_readme_aa4443d182ce.png\" style=\"width: 100%\"\u002F>\n\n这就是我们选择 [`WebLINX`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) 作为首个基准的原因。除了训练划分之外，该基准还包含 4 个真实世界的划分，旨在测试智能体在多个维度上的泛化能力：新的网站、新的域名、未见过的地理位置，以及“用户无法看到屏幕而完全依赖对话”的场景。它还涵盖了 150 个网站，涉及预订、购物、写作、知识查询，甚至像操作电子表格这样复杂的任务。在这个基准上进行评估非常简单：\n\n```bash\ncd modeling\u002F\n\n# 安装好依赖项、下载数据集并训练\u002F评估完您的模型后，即可进行评估：\npython -m weblinx.eval # 自动查找所有 `results.jsonl` 并生成 `aggregated_results.json` 文件\n\n# 使用我们的应用可视化您的结果：\ncd ..\nstreamlit run app\u002FResults.py\n```\n\n> 👷‍♀️ **下一步计划**\\\n> 我们计划在更多基准上评估我们的模型，包括用于自动网页导航的 Mind2Web 基准。我们认为，一个优秀的智能体应该既能通过对话导航网页，也能自主导航，并且可能具备更广泛的技能，以应对真实世界的网页浏览需求。\n\n## 数据\n\n尽管来自 [`WebLINX 1.0`](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) 的 24K 个训练示例为训练一个功能强大的智能体提供了一个良好的起点，但我们认为，要训练出能够泛化到各种网络导航任务的智能体，还需要更多的数据。虽然该模型已经在 150 个网站上进行了训练和评估，但仍有数以百万计的网站是模型从未见过的，而且每天都有新网站不断涌现。\n\n**这促使我们持续地收集、整理并发布用于训练更好智能体的数据集。** 作为下一步，我们将把 `Mind2Web` 的训练数据纳入其中，这些数据同样涵盖了超过 100 个网站。\n\n> [!NOTE] \n> WebLINX 现已通过 [BrowserGym](https:\u002F\u002Fgithub.com\u002FServiceNow\u002FBrowserGym) 作为一个基准测试平台提供，您可以像使用 [WebArena](https:\u002F\u002Fwebarena.dev\u002F) 或 [MiniWoB](https:\u002F\u002Fminiwob.farama.org\u002Findex.html) 这样的网络智能体环境一样，访问演示步骤。同时，您也可以运行来自 [Agentlab](https:\u002F\u002Fgithub.com\u002FServiceNow\u002FAgentLab) 库中的智能体，其中包括利用 Claude-3.5-Sonnet 实现 SOTA 性能的智能体。为了实现这一集成，我们在 PyPi 上发布了 BrowserGym 的 `weblinx-browsergym` 扩展，以及在 Huggingface 上发布的基于 WebLINX 的新数据集 `WebLINX 1.1` ([链接](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMcGill-NLP\u002Fweblinx-browsergym))。在 WebLINX 1.1 中，经过处理后移除了少量演示，但未添加新的演示。评估步骤有了重大变化，加入了标签页操作。请在您的工作中将结果标注为“WebLINX-1.1”、“WebLINX-BrowserGym”或“WebLINX-BG”，以区别于 [WebLINX 初始版本 (1.0)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMcGill-NLP\u002FWebLINX\u002Ftree\u002Fv1.0)。\n\n\n## 部署\n\n我们正在努力使您能够轻松地将 Llama 网络智能体部署到网络上。我们希望将 `WebLlama` 与现有的部署平台集成，包括 Microsoft 的 Playwright、ServiceNow Research 的 BrowserGym 以及其他合作伙伴。\n\n目前，我们提供以下集成：\n* `Browsergym`: 更多信息请参阅 [`examples\u002FREADME.md`](examples\u002FREADME.md) 和 [`docs\u002FREADME.md`](docs\u002FREADME.md)。\n\n\n## 代码\n\n用于微调模型并在 [`WebLINX` 1.0](https:\u002F\u002Fmcgill-nlp.github.io\u002Fweblinx\u002F) 基准上对其进行评估的代码现已公开。\n* **建模**: 您可以在 [modeling](modeling\u002FREADME.md) 中找到详细的说明，了解如何在 WebLINX 1.0 数据集上训练 `Llama-3-8B-Web`。\n* **示例**: 我们提供了一些使用 `webllama` API 和模型的示例，包括网页 API、端到端流程以及与 BrowserGym 的集成。这些示例可在 [examples](examples\u002FREADME.md) 中找到。\n* **应用**: 我们提供了一个简单的 Streamlit 应用程序，用于可视化您的模型在 WebLINX 1.0 基准上的结果。相关代码可在 [app](app\u002FResults.py) 中找到。\n* **文档**: 我们为代码提供了详细的文档，详见 [docs](docs\u002FREADME.md)。\n\n\n> 👷‍♀️ **下一步**\\\n> 目前我们正积极开发新的数据和评估方法！如果您想参与贡献，请创建一个议题，说明您希望做出哪些贡献，我们将很乐意帮助您入门。\n\n\n## 许可证\n\n本仓库中的代码采用 MIT 许可证，除非文件头部另有说明。其他材料（模型、数据、图片）则有各自的许可证，具体信息见原始页面。\n\n## 常见问题解答\n\n### 我如何参与该项目？\n\n我们正在积极寻找合作者，共同打造最优秀的 Llama-3 网络智能体！要开始参与，请提交一个关于您希望贡献内容的议题，讨论确定后，您可以提交拉取请求。\n\n\n## 引用\n\n如果您在研究中使用了 `WebLlama`，可以引用其训练和评估所基于的 ICML 2024 论文，并在您的 BibTeX 文件中加入以下条目：\n\n```\n@misc{lu_2024_weblinx,\n      title={WebLINX: Real-World Website Navigation with Multi-Turn Dialogue}, \n      author={Xing Han Lù and Zdeněk Kasner and Siva Reddy},\n      year={2024},\n      eprint={2402.05930},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n\n使用示例（LaTeX）：\n\n```\n我们使用 WebLlama 库，它基于 WebLINX \\citep{lu_2024_weblinx}。\n```\n\n```\n我们使用 Llama-3-8B-Web 模型，该模型是在 WebLINX 演示数据上微调得到的 \\citep{lu_2024_weblinx}。\n```","# WebLlama 快速上手指南\n\nWebLlama 是一个基于 Meta Llama 3 构建的开源项目，旨在打造能够理解指令、通过对话协助用户浏览网页的智能体（Agent）。其核心模型 `Llama-3-8B-Web` 在 WebLINX 基准测试中表现优异，超越了零样本设置的 GPT-4V。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux 或 macOS（推荐 Linux 以获得最佳兼容性）。\n*   **Python 版本**：Python 3.9 或更高版本。\n*   **硬件要求**：\n    *   推理：建议至少 16GB GPU 显存（用于运行 8B 参数模型）。\n    *   训练：需要多卡 GPU 环境（如需微调）。\n*   **前置依赖**：\n    *   `pip` 包管理工具\n    *   `git`\n    *   Hugging Face 账号（用于访问模型和数据集）\n\n> **提示**：国内开发者若遇到 Hugging Face 连接超时问题，建议配置镜像源加速：\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> ```\n\n## 安装步骤\n\n### 1. 克隆项目代码\n首先从 GitHub 获取源代码：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama.git\ncd webllama\n```\n\n### 2. 安装 Python 依赖\n安装项目所需的 Python 库。建议使用虚拟环境：\n```bash\npython -m venv venv\nsource venv\u002Fbin\u002Factivate  # Windows 用户使用: venv\\Scripts\\activate\n\npip install -r requirements.txt\n# 如果项目中没有 requirements.txt，请安装核心依赖：\npip install transformers datasets huggingface_hub accelerate streamlit\n```\n\n### 3. 下载模型与数据模板\n使用 `huggingface_hub` 下载必要的模型权重和数据集模板。\n*(注：若已配置上述 `HF_ENDPOINT` 环境变量，将自动通过国内镜像下载)*\n\n```python\nfrom huggingface_hub import snapshot_download\n\n# 下载数据集模板 (用于构建输入状态)\nsnapshot_download(\"McGill-NLP\u002FWebLINX\", repo_type=\"dataset\", allow_patterns=\"templates\u002F*\")\n\n# 模型将在首次运行时自动下载，也可预先下载：\n# snapshot_download(\"McGill-NLP\u002FLlama-3-8B-Web\", repo_type=\"model\")\n```\n\n## 基本使用\n\n以下是最简单的 Python 示例，展示如何加载 `Llama-3-8B-Web` 模型并生成网页操作动作。\n\n### 代码示例\n\n```python\nfrom datasets import load_dataset\nfrom transformers import pipeline\n\n# 1. 加载验证数据集（也可替换为您自己的数据）\n# 注意：确保已下载 templates 文件夹\nvalid = load_dataset(\"McGill-NLP\u002FWebLINX\", split=\"validation\")\n\n# 2. 读取并格式化输入模板\ntemplate_path = 'templates\u002Fllama.txt'\nwith open(template_path, 'r') as f:\n    template = f.read()\n\n# 构造单个状态输入\nstate = template.format(**valid[0])\n\n# 3. 初始化 Agent 管道\n# 模型会自动从 Hugging Face Hub 下载（如果本地不存在）\nagent = pipeline(\"text-generation\", model=\"McGill-NLP\u002FLlama-3-8B-Web\")\n\n# 4. 生成动作预测\nout = agent(state, return_full_text=False)[0]\naction_text = out['generated_text']\n\nprint(\"预测动作:\", action_text)\n\n# 5. 执行动作（伪代码，需根据具体平台如 Playwright\u002FBrowserGym 实现解析逻辑）\n# action = process_pred(action_text) \n# env.step(action)\n```\n\n### 结果可视化\n项目提供了一个 Streamlit 应用，用于直观查看模型在 WebLINX 基准上的评估结果：\n\n```bash\nstreamlit run app\u002FResults.py\n```\n\n### 下一步\n*   **集成部署**：参考 `examples\u002FREADME.md` 了解如何将模型集成到 Playwright 或 BrowserGym 环境中进行实际网页操控。\n*   **微调训练**：如需针对特定场景优化模型，请参阅 `modeling\u002FREADME.md` 获取详细的训练脚本和配置说明。","一位市场分析师需要跨多个新闻网站和论坛，实时收集并整理关于“最新 AI 监管政策”的分散信息以撰写日报。\n\n### 没有 webllama 时\n- **人工遍历效率低**：分析师必须手动打开十几个网页，逐个点击“下一页”或展开折叠内容，耗时数小时才能完成基础信息搜集。\n- **多轮交互易中断**：在复杂网站（如需登录或处理弹窗）中，传统脚本一旦遇到未预设的页面结构就会报错停止，无法像人类一样灵活调整策略。\n- **信息整合困难**：从不同来源复制粘贴的数据格式混乱，需要额外花费大量时间进行清洗和对齐，难以直接形成连贯的分析结论。\n- **缺乏对话式引导**：无法通过自然语言指令让工具“只关注负面评价”或“对比三家观点”，只能机械地抓取所有文本，噪音极大。\n\n### 使用 webllama 后\n- **自主导航提速度**：webllama 能理解“查找最近三天的相关政策新闻”这类指令，自动在浏览器中点击、滚动和翻页，将数小时的工作压缩至几分钟。\n- **动态适应强鲁棒**：基于 Llama-3 的微调模型能像真人一样处理多轮对话和突发弹窗，即使面对未见过的网站布局也能自主决策下一步操作，确保持续运行。\n- **结构化输出省心**：工具直接在浏览过程中提取关键要素并按指定格式汇总，生成整洁的对比表格或摘要，省去了后续繁琐的数据清洗环节。\n- **意图对齐更精准**：用户可随时通过对话修正方向，例如告诉 webllama“忽略官方博客，只看第三方评论”，它能立即调整搜索策略，精准锁定高价值信息。\n\nwebllama 将原本枯燥的“人肉爬虫”工作转化为高效的“对话式协作”，让开发者能专注于洞察分析而非机械操作。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMcGill-NLP_webllama_e9202b71.png","McGill-NLP","McGill NLP","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMcGill-NLP_b9668b8b.png","Research group within McGill University and Mila focusing on various topics in natural language processing. ",null,"McGill_NLP","https:\u002F\u002Fmcgill-nlp.github.io\u002F","https:\u002F\u002Fgithub.com\u002FMcGill-NLP",[23],{"name":24,"color":25,"percentage":26},"Python","#3572A5",100,1403,104,"2026-04-10T10:27:52","MIT",4,"","未说明（基于 Llama-3-8B 模型，通常推理需显存 6GB+，训练需更高）","未说明",{"notes":36,"python":34,"dependencies":37},"README 未明确列出具体的系统版本、Python 版本或硬件最低要求。项目依赖 Hugging Face 生态库进行模型加载与评估，并支持集成 Playwright、Selenium 和 BrowserGym 等浏览器自动化工具。核心模型为微调后的 Meta-Llama-3-8B-Instruct，使用时需确保本地环境能运行该量级的 Transformer 模型。评估部分包含 Streamlit 可视化应用。",[38,39,40,41,42,43,44],"transformers","datasets","huggingface_hub","streamlit","playwright","selenium","browsergym",[46,47],"语言模型","Agent",2,"ready","2026-03-27T02:49:30.150509","2026-04-11T03:25:16.740892",[53,58,62,67,72,77,82,87],{"id":54,"question_zh":55,"answer_zh":56,"source_url":57},28907,"如何在 Windows 系统上快速开始使用该项目？","官方不推荐直接在 Windows 上运行，因为尚未在该操作系统上进行测试，且配置 CUDA 和运行大模型存在困难。建议 Windows 用户使用 WSL 2 (Windows Subsystem for Linux)、Mac 或 Ubuntu 系统。详细的安装说明位于 README 文件的 `Code` 部分：https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama#code","https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fissues\u002F13",{"id":59,"question_zh":60,"answer_zh":61,"source_url":57},28908,"是否有更简单的入门教程或示例？文档太分散了。","主要的入门指南位于项目的 docs\u002FREADME.md 文件中。虽然目前可能需要在不同文档间跳转，但这是获取完整信息的最佳途径。如果用户觉得理解困难，建议先确保环境（如 WSL\u002FUbuntu）配置正确，再参照文档中的示例代码运行。",{"id":63,"question_zh":64,"answer_zh":65,"source_url":66},28909,"该模型目前还是最先进（SOTA）的吗？是否有新的研究进展或更大规模的版本？","该模型已不再是 SOTA。由于缺乏收集大规模训练数据的预算和训练更大模型的算力，维护者未继续跟进此项目。建议使用其他开源权重模型（如 Gemma 4 和 Qwen 3.5）。目前团队正致力于改进 WebLinx，关注 Llama 3.2，但在推进前需要简化评估流程并增强训练数据。欢迎社区贡献针对 Llama 3.2 的视觉能力 PR。","https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fissues\u002F15",{"id":68,"question_zh":69,"answer_zh":70,"source_url":71},28910,"是否提供基于 Docker 的即用型 Web GUI 镜像？","目前官方没有提供现成的 Web GUI 或 Docker 镜像。维护者认为使用 Huggingface 的 Gradio 构建 UI 是一个好主意（参考 LaVague 项目的实现）。该项目暂时关闭了此需求，但欢迎社区贡献者参与开发并提交 PR。","https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fissues\u002F3",{"id":73,"question_zh":74,"answer_zh":75,"source_url":76},28911,"为什么找不到详细的本地安装指令？支持 Conda 或 Windows 原生安装吗？","详细的安装指令实际上一直存在于 README 的 `Code` 章节中（https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama#code），主要针对 Linux 环境。由于缺乏配备足够显存 GPU 的 Windows 测试环境以及 CUDA 配置的复杂性，官方计划不支持非 WSL 的 Windows 原生安装。强烈建议 Windows 10\u002F11 用户使用 WSL 2 进行部署。","https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fissues\u002F11",{"id":78,"question_zh":79,"answer_zh":80,"source_url":81},28912,"运行代码时遇到 `snapshot_download()` 参数数量错误的 TypeError 怎么办？","这是一个已知问题，通常由 huggingface_hub 库的版本差异引起。维护者已在 Issue #8 中修复了相关示例代码。请检查并更新您的代码以匹配最新的 API 调用方式，或直接参考仓库中修正后的示例文件。","https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fissues\u002F7",{"id":83,"question_zh":84,"answer_zh":85,"source_url":86},28913,"该微调模型与原始的 Llama-3-8b-Instruct 相比表现如何？","根据 WebLinx 论文（https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05930），未经微调的模型表现不如微调后的模型，因此 Llama-3-8b-Instruct 不太可能超越 Llama-3-8B-Web。如果您想自行验证，可以通过修改配置文件，使用仓库中的评估脚本来运行对比测试：https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Ftree\u002Fmain\u002Fmodeling#run-llama-on-evaluation-splits","https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fissues\u002F6",{"id":88,"question_zh":89,"answer_zh":90,"source_url":91},28914,"有哪些推荐的数据集可以用于训练类似的 Web 导航或功能调用代理？","推荐以下数据集：1. EddieChen372\u002Freact_repos (约 800Mb)；2. 任何高质量的 SOTA 功能调用（function calling）数据集；3. Fsoft-AIC\u002Fthe-vault-function，这是一个巨大的函数数据集，包含大量 API 端点函数，只需进行筛选即可使用。","https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fissues\u002F4",[93,98,103],{"id":94,"version":95,"summary_zh":96,"released_at":97},197762,"0.1.0","## 变更内容\n* @xhluca 在 https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F1 中添加了用于 PyPI 发布的文件\n* @xhluca 在 https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F2 中进行了初始开发\n* 文档：@eltociear 在 https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F5 中更新了 README.md\n* @xhluca 在 https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F8 中更新了 README.md\n* @xhluca 在 https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F12 中添加了 `webllama.experimental` API\n\n## 新贡献者\n* @xhluca 在 https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F1 中完成了首次贡献\n* @eltociear 在 https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F5 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fcommits\u002F0.1.0","2024-06-25T18:21:05",{"id":99,"version":100,"summary_zh":101,"released_at":102},197763,"0.1.0pre1","# 新增\n* 新的 `webllama.experimental` API：https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F12\n* @xhluca 在 https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fpull\u002F2 中提供的建模代码\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fcommits\u002F0.1.0pre1","2024-06-13T22:30:42",{"id":104,"version":105,"summary_zh":106,"released_at":107},197764,"0.0.1pre1","**完整更新日志**: https:\u002F\u002Fgithub.com\u002FMcGill-NLP\u002Fwebllama\u002Fcommits\u002F0.0.1pre1","2024-04-20T02:07:29",[109,121,129,137,145,154],{"id":110,"name":111,"github_repo":112,"description_zh":113,"stars":114,"difficulty_score":115,"last_commit_at":116,"category_tags":117,"status":49},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[47,118,119,120],"开发框架","图像","数据工具",{"id":122,"name":123,"github_repo":124,"description_zh":125,"stars":126,"difficulty_score":115,"last_commit_at":127,"category_tags":128,"status":49},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[118,119,47],{"id":130,"name":131,"github_repo":132,"description_zh":133,"stars":134,"difficulty_score":48,"last_commit_at":135,"category_tags":136,"status":49},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,"2026-04-10T11:32:46",[118,47,46],{"id":138,"name":139,"github_repo":140,"description_zh":141,"stars":142,"difficulty_score":48,"last_commit_at":143,"category_tags":144,"status":49},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[118,119,47],{"id":146,"name":147,"github_repo":148,"description_zh":149,"stars":150,"difficulty_score":48,"last_commit_at":151,"category_tags":152,"status":49},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[153,47,119,118],"插件",{"id":155,"name":156,"github_repo":157,"description_zh":158,"stars":159,"difficulty_score":115,"last_commit_at":160,"category_tags":161,"status":49},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[46,119,47,118]]