[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-eric-ai-lab--MiniGPT-5":3,"tool-eric-ai-lab--MiniGPT-5":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",158594,2,"2026-04-16T23:34:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":10,"env_os":88,"env_gpu":89,"env_ram":88,"env_deps":90,"category_tags":98,"github_topics":100,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":105,"updated_at":106,"faqs":107,"releases":141},8234,"eric-ai-lab\u002FMiniGPT-5","MiniGPT-5","Official implementation of paper \"MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens\"","MiniGPT-5 是一款专注于“图文交错生成”的开源人工智能模型，旨在让机器能够像人类一样，在生成连贯文本叙述的同时，自然地穿插产出相关图像。它主要解决了当前大语言模型虽擅长文字处理，却难以在同一上下文中高质量地协同生成图片与文字的痛点，特别适用于创作多模态故事、视觉对话等场景。\n\n这款工具非常适合 AI 研究人员、开发者以及对多模态内容生成感兴趣的技术探索者使用。其核心技术创新在于引入了“生成性词元（Generative Vokens）”概念，将其作为连接文本与图像的桥梁，实现了两者的和谐统一。此外，MiniGPT-5 采用独特的两阶段训练策略，无需依赖详尽的图像描述即可进行多模态学习，并融合了无分类器引导技术以显著提升图像生成质量。实验表明，它在多个基准测试中均优于前代模型，能稳定输出高质量的图文混合内容，为多模态交互研究提供了强有力的基线支持。","# MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens\n[Kaizhi Zheng](https:\u002F\u002Fkzzheng.github.io\u002F)* , [Xuehai He](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=kDzxOzUAAAAJ&hl=en)* , [Xin Eric Wang](https:\u002F\u002Feric-xw.github.io\u002F) \n\nUniversity of California, Santa Cruz\n\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02239'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-Arxiv-red'>\u003C\u002Fa> \u003Ca href='https:\u002F\u002Feric-ai-lab.github.io\u002Fminigpt-5.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-green'>\u003C\u002Fa>\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Feric-ai-lab_MiniGPT-5_readme_5118ce0ced1b.png)\n\nLarge Language Models (LLMs) have garnered significant attention for their advancements in natural language processing, demonstrating unparalleled prowess in text comprehension and generation. Yet, the simultaneous generation of images with coherent textual narratives remains an evolving frontier. In response, we introduce an innovative interleaved vision-and-language generation technique anchored by the concept of ``generative vokens\", acting as the bridge for harmonized image-text outputs. Our approach is characterized by a distinctive two-staged training strategy focusing on description-free multimodal generation, where the training requires no comprehensive descriptions of images.  To bolster model integrity, classifier-free guidance is incorporated, enhancing the effectiveness of vokens on image generation. Our model, MiniGPT-5, exhibits substantial improvement over the baseline Divter model on the MMDialog dataset and consistently delivers superior or comparable multimodal outputs in human evaluations on the VIST dataset, highlighting its efficacy across diverse benchmarks.\n\n## Model Architecture\n![arch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Feric-ai-lab_MiniGPT-5_readme_26cd1e3ef032.png)\n\n## Getting Started\n### Installation\n\n**1. Download repo and create environment**\n\nClone our repo and create a new python environment.\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5.git\ncd MiniGPT-5\nconda create -n minigpt5 python=3.10\nconda activate minigpt5\npip install -r requirements.txt\n```\n\n**2. Prepare the pretrained weights**\n\nOur model is based on the pretrained [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4) (including [Vicuna](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat) and [BLIP-2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS)). Please download [Vicuna V0 7B](https:\u002F\u002Fhuggingface.co\u002FVision-CAIR\u002Fvicuna-7b\u002Ftree\u002Fmain) weights. Then, set the path to the vicuna weight in the [model config file](minigpt4\u002Fconfigs\u002Fmodels\u002Fminigpt4.yaml#L16) at Line 16.\n\nSince the Pretrained MiniGPT-4 Aligned Checkpoint is small, we already download in config folder, and the model path is set in [config file](config\u002Fminigpt4.yaml#10) at Line 10.\n\n**3. Download MiniGPT-5 Checkpoint**\n\nSince our model is trained with two stages **(Stage 1: Unimodal Alignment Stage, Stage 2: Multimodal Learning Stage)**, we provide both two-stage checkpoints here:\n\n|                                          Stage 1: CC3M                                           |                                          Stage 2: VIST                                          |                            Stage 2: MMDialog                             |\n:------------------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------------------:\n [Download](https:\u002F\u002Fhuggingface.co\u002FKZ-ucsc\u002FMiniGPT5\u002Ftree\u002Fmain) | [Download](https:\u002F\u002Fhuggingface.co\u002FKZ-ucsc\u002FMiniGPT5\u002Ftree\u002Fmain) | [Download](https:\u002F\u002Fhuggingface.co\u002FKZ-ucsc\u002FMiniGPT5\u002Ftree\u002Fmain)\n\nStage 2 needs the pretrained weights in Stage 1, so always download Stage 1 weights first. \n\nPlease download these weights into a single folder, and we will call this folder as ***WEIGHT_FOLDER*** in the following sections.\n\n### Demo\nWe provide a [python file](examples\u002Fplayground.py) to try our model. This file will generate multimodal outputs under the [example folder](examples\u002F) by taking a two-turn multimodal inputs.\n\n```bash\ncd examples\nexport IS_STAGE2=True\npython3 playground.py --stage1_weight WEIGHT_FOLDER\u002Fstage1_cc3m.ckpt \n                        --test_weight WEIGHT_FOLDER\u002Fstage2_vist.ckpt\n```\n\n### Evaluation\nOur model evaluate on three datasets: [CC3M](https:\u002F\u002Fai.google.com\u002Fresearch\u002FConceptualCaptions\u002Fdownload), [VIST](https:\u002F\u002Fvisionandlanguage.net\u002FVIST\u002F), and [MMDialog](https:\u002F\u002Fgithub.com\u002Fvictorsungo\u002FMMDialog). Due to the license, we only share some dataset examples under the [datasets](datasets\u002F) folder. If you want to fully test the performance, please download the full dataset and format into the same data structures under the [datasets](datasets\u002F) folder.\n\n**1. Stage 1: Unimodal Alignment Stage (CC3M) evaluation**\n\nDuring this stage, the goal is to generate correct images by giving image descriptions.\n\nGeneration (If you have more than one gpus, you can set gpus to 0,1,2...):\n```bash\nexport IS_STAGE2=False\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FCC3M\nexport OUTPUT_FOLDER=outputs\npython3 train_eval.py --test_data_path cc3m_val.tsv \n                        --test_weight stage1_cc3m.ckpt\n                        --gpus 0\n```\n\nCalculate Metric:\n```bash\nexport CC3M_FOLDER=datasets\u002FCC3M\npython3 metric.py --test_weight stage1_cc3m.ckpt\n```\n\n**2. Stage 2: Multimodal Learning Stage (VIST) evaluation**\n\nModel will take the previous multimodal story sequences and generate either unimodal or multimodal outputs. Here, the default code is about multimodal input & image generation. To test other settings, please remove the *not test* condition in [Line 280](dataloader.py#280).\n\nGeneration:\n```bash\nexport IS_STAGE2=True\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FVIST\nexport OUTPUT_FOLDER=outputs\npython3 train_eval.py --test_data_path val_cleaned.json \n                        --test_weight stage2_vist.ckpt\n                        --stage1_weight stage1_cc3m.ckpt\n                        --gpus 0\n```\n\nCalculate Metric:\n```bash\npython3 metric.py --test_weight stage2_vist.ckpt\n```\n\n**3. Stage 2: Multimodal Learning Stage (MMDialog) evaluation**\n\nModel will take previous turn multimodal inputs and generate multimodal response for multimodal conversations.\n\nGeneration:\n```bash\nexport IS_STAGE2=True\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FMMDialog\nexport OUTPUT_FOLDER=outputs\npython3 train_eval.py --test_data_path test\u002Ftest_conversations.txt \n                        --test_weight stage2_mmdialog.ckpt\n                        --stage1_weight stage1_cc3m.ckpt\n                        --gpus 0\n```\n\nCalculate Metric:\n```bash\npython3 metric.py --test_weight stage2_mmdialog.ckpt\n```\n\n### Training\n\n**1. Stage 1 training**\n\nDownload the CC3M dataset and format into the same data structure in dataset folder.\n\nThen, we use test data as example:\n```bash\nexport IS_STAGE2=False\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FCC3M\npython3 train_eval.py --is_training True\n                        --train_data_path cc3m_val.tsv\n                        --val_data_path cc3m_val.tsv\n                        --model_save_name stage1_cc3m_{epoch}-{step}\n                        --gpus 0\n```\n\n**2. Stage 2 training**\n\nDownload the VIST or MMDialog datasets and format into the same data structure in dataset folder.\n\nHere we use VIST test data as example:\n```bash\nexport IS_STAGE2=True\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FVIST\npython3 train_eval.py --is_training True\n                        --train_data_path val_cleaned.json\n                        --val_data_path val_cleaned.json\n                        --stage1_weight stage1_cc3m.ckpt\n                        --model_save_name stage2_vist_{epoch}-{step}\n                        --gpus 0\n```\n\n## If you find MiniGPT-5 useful in your research or applications, please cite as below:\n```bibtex\n@misc{zheng2023minigpt5,\n      title={MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens}, \n      author={Kaizhi Zheng and Xuehai He and Xin Eric Wang},\n      year={2023},\n      journal={arXiv preprint arXiv:2310.02239}\n}\n```\n","# MiniGPT-5：基于生成式 voken 的视觉-语言交织生成\n[Kaizhi Zheng](https:\u002F\u002Fkzzheng.github.io\u002F)* , [Xuehai He](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=kDzxOzUAAAAJ&hl=en)* , [Xin Eric Wang](https:\u002F\u002Feric-xw.github.io\u002F) \n\n加州大学圣克鲁斯分校\n\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02239'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-Arxiv-red'>\u003C\u002Fa> \u003Ca href='https:\u002F\u002Feric-ai-lab.github.io\u002Fminigpt-5.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-green'>\u003C\u002Fa>\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Feric-ai-lab_MiniGPT-5_readme_5118ce0ced1b.png)\n\n大型语言模型（LLMs）在自然语言处理领域取得了显著进展，展现出无与伦比的文本理解和生成能力。然而，同时生成与文本叙述一致的图像仍是一个不断发展的前沿课题。为此，我们提出了一种创新的视觉-语言交织生成技术，其核心是“生成式 voken”概念，作为实现图像与文本和谐输出的桥梁。我们的方法采用独特的两阶段训练策略，专注于无描述的多模态生成，训练过程中无需对图像进行详尽的文字描述。为增强模型的稳定性，我们引入了无分类器指导机制，从而提升了 voken 在图像生成中的效果。我们的模型 MiniGPT-5 在 MMDialog 数据集上相较于基线模型 Divter 取得了显著提升，并且在 VIST 数据集的人工评估中始终能够产生优于或与现有方法相当的多模态输出，充分展示了其在不同基准测试中的有效性。\n\n## 模型架构\n![arch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Feric-ai-lab_MiniGPT-5_readme_26cd1e3ef032.png)\n\n## 快速入门\n### 安装\n\n**1. 克隆仓库并创建环境**\n\n首先克隆我们的仓库，并创建一个新的 Python 环境。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5.git\ncd MiniGPT-5\nconda create -n minigpt5 python=3.10\nconda activate minigpt5\npip install -r requirements.txt\n```\n\n**2. 准备预训练权重**\n\n我们的模型基于预训练的 [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4)（包括 [Vicuna](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat) 和 [BLIP-2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS)）。请下载 [Vicuna V0 7B](https:\u002F\u002Fhuggingface.co\u002FVision-CAIR\u002Fvicuna-7b\u002Ftree\u002Fmain) 的权重，并将 Vicuna 权重的路径设置到 [模型配置文件](minigpt4\u002Fconfigs\u002Fmodels\u002Fminigpt4.yaml#L16) 的第 16 行。\n\n由于预训练的 MiniGPT-4 对齐检查点体积较小，我们已将其下载至 config 文件夹中，模型路径已在 [配置文件](config\u002Fminigpt4.yaml#10) 的第 10 行设定。\n\n**3. 下载 MiniGPT-5 检查点**\n\n由于我们的模型采用两阶段训练方式——**第一阶段：单模态对齐阶段；第二阶段：多模态学习阶段**——我们在此提供了两个阶段的检查点：\n\n|                                          第一阶段：CC3M                                           |                                          第二阶段：VIST                                          |                            第二阶段：MMDialog                             |\n:------------------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------------------:\n [下载](https:\u002F\u002Fhuggingface.co\u002FKZ-ucsc\u002FMiniGPT5\u002Ftree\u002Fmain) | [下载](https:\u002F\u002Fhuggingface.co\u002FKZ-ucsc\u002FMiniGPT5\u002Ftree\u002Fmain) | [下载](https:\u002F\u002Fhuggingface.co\u002FKZ-ucsc\u002FMiniGPT5\u002Ftree\u002Fmain)\n\n请注意，第二阶段需要使用第一阶段的预训练权重，因此务必先下载第一阶段的权重。\n\n请将这些权重下载到同一个文件夹中，后续我们将该文件夹称为 ***WEIGHT_FOLDER***。\n\n### 示例\n我们提供了一个 [Python 脚本](examples\u002Fplayground.py)，用于体验我们的模型。该脚本将根据 [示例文件夹](examples\u002F) 中的双轮多模态输入生成多模态输出。\n\n```bash\ncd examples\nexport IS_STAGE2=True\npython3 playground.py --stage1_weight WEIGHT_FOLDER\u002Fstage1_cc3m.ckpt \n                        --test_weight WEIGHT_FOLDER\u002Fstage2_vist.ckpt\n```\n\n### 评估\n我们的模型在三个数据集上进行了评估：[CC3M](https:\u002F\u002Fai.google.com\u002Fresearch\u002FConceptualCaptions\u002Fdownload)、[VIST](https:\u002F\u002Fvisionandlanguage.net\u002FVIST\u002F) 和 [MMDialog](https:\u002F\u002Fgithub.com\u002Fvictorsungo\u002FMMDialog)。受限于许可协议，我们仅在 [datasets](datasets\u002F) 文件夹中分享部分数据集示例。如需全面测试模型性能，请下载完整数据集，并按照相同的结构整理到 [datasets](datasets\u002F) 文件夹中。\n\n**1. 第一阶段：单模态对齐阶段（CC3M）评估**\n\n此阶段的目标是根据图像描述生成正确的图像。\n\n生成（若有多块 GPU，可指定使用 0,1,2... 号 GPU）：\n```bash\nexport IS_STAGE2=False\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FCC3M\nexport OUTPUT_FOLDER=outputs\npython3 train_eval.py --test_data_path cc3m_val.tsv \n                        --test_weight stage1_cc3m.ckpt\n                        --gpus 0\n```\n\n计算指标：\n```bash\nexport CC3M_FOLDER=datasets\u002FCC3M\npython3 metric.py --test_weight stage1_cc3m.ckpt\n```\n\n**2. 第二阶段：多模态学习阶段（VIST）评估**\n\n模型将接收先前的多模态故事序列，并生成单模态或多模态输出。默认代码针对多模态输入及图像生成。如需测试其他设置，请移除 [dataloader.py#280](dataloader.py#280) 中的 *not test* 条件。\n\n生成：\n```bash\nexport IS_STAGE2=True\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FVIST\nexport OUTPUT_FOLDER=outputs\npython3 train_eval.py --test_data_path val_cleaned.json \n                        --test_weight stage2_vist.ckpt\n                        --stage1_weight stage1_cc3m.ckpt\n                        --gpus 0\n```\n\n计算指标：\n```bash\npython3 metric.py --test_weight stage2_vist.ckpt\n```\n\n**3. 第二阶段：多模态学习阶段（MMDialog）评估**\n\n模型将接收前一轮的多模态输入，并生成用于多模态对话的多模态响应。\n\n生成：\n```bash\nexport IS_STAGE2=True\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FMMDialog\nexport OUTPUT_FOLDER=outputs\npython3 train_eval.py --test_data_path test\u002Ftest_conversations.txt \n                        --test_weight stage2_mmdialog.ckpt\n                        --stage1_weight stage1_cc3m.ckpt\n                        --gpus 0\n```\n\n计算指标：\n```bash\npython3 metric.py --test_weight stage2_mmdialog.ckpt\n```\n\n### 训练\n\n**1. 第一阶段训练**\n\n下载 CC3M 数据集，并将其格式化为与 dataset 文件夹中相同的数据结构。\n\n然后，我们以测试数据为例：\n```bash\nexport IS_STAGE2=False\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FCC3M\npython3 train_eval.py --is_training True\n                        --train_data_path cc3m_val.tsv\n                        --val_data_path cc3m_val.tsv\n                        --model_save_name stage1_cc3m_{epoch}-{step}\n                        --gpus 0\n```\n\n**2. 第二阶段训练**\n\n下载 VIST 或 MMDialog 数据集，并将其格式化为与 dataset 文件夹中相同的数据结构。\n\n这里我们以 VIST 测试数据为例：\n```bash\nexport IS_STAGE2=True\nexport WEIGHTFOLDER=WEIGHT_FOLDER\nexport DATAFOLDER=datasets\u002FVIST\npython3 train_eval.py --is_training True\n                        --train_data_path val_cleaned.json\n                        --val_data_path val_cleaned.json\n                        --stage1_weight stage1_cc3m.ckpt\n                        --model_save_name stage2_vist_{epoch}-{step}\n                        --gpus 0\n```\n\n## 如果您在研究或应用中使用了 MiniGPT-5，请按以下方式引用：\n```bibtex\n@misc{zheng2023minigpt5,\n      title={MiniGPT-5：基于生成型 Voken 的视觉与语言交替生成}, \n      author={郑凯志、何学海、王新埃里克},\n      year={2023},\n      journal={arXiv 预印本 arXiv:2310.02239}\n}\n```","# MiniGPT-5 快速上手指南\n\nMiniGPT-5 是一个创新的交错式视觉 - 语言生成模型，通过“生成性词元（generative vokens）”实现图文协同输出。它采用两阶段训练策略，无需详细的图像描述即可进行多模态生成。\n\n## 环境准备\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **Python 版本**: 3.10\n*   **硬件要求**: NVIDIA GPU (支持 CUDA)，建议显存 16GB 以上以运行 7B 模型\n*   **前置依赖**:\n    *   Conda (用于环境管理)\n    *   Git\n    *   Hugging Face 账号 (用于下载 Vicuna 和 MiniGPT-5 权重)\n\n> **提示**: 国内用户下载 Hugging Face 资源较慢，建议配置镜像加速。\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> ```\n\n## 安装步骤\n\n### 1. 克隆仓库并创建环境\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5.git\ncd MiniGPT-5\nconda create -n minigpt5 python=3.10\nconda activate minigpt5\npip install -r requirements.txt\n```\n\n### 2. 准备预训练权重\n\nMiniGPT-5 基于 MiniGPT-4 构建，需要下载以下权重：\n\n1.  **Vicuna 7B 权重**:\n    *   下载地址：[Vicuna V0 7B](https:\u002F\u002Fhuggingface.co\u002FVision-CAIR\u002Fvicuna-7b\u002Ftree\u002Fmain)\n    *   配置修改：下载后，打开 `minigpt4\u002Fconfigs\u002Fmodels\u002Fminigpt4.yaml`，在第 16 行设置 Vicuna 权重的路径。\n\n2.  **MiniGPT-4 对齐检查点**:\n    *   该文件较小，通常已包含在代码库的 config 文件夹中。\n    *   确认 `config\u002Fminigpt4.yaml` 第 10 行的路径设置正确。\n\n3.  **MiniGPT-5 检查点 (两阶段)**:\n    *   模型分为两个阶段，**必须先下载 Stage 1 权重**，因为 Stage 2 依赖 Stage 1。\n    *   下载地址：[HuggingFace - KZ-ucsc\u002FMiniGPT5](https:\u002F\u002Fhuggingface.co\u002FKZ-ucsc\u002FMiniGPT5)\n    *   需下载的文件：\n        *   `stage1_cc3m.ckpt` (Stage 1: 单模态对齐)\n        *   `stage2_vist.ckpt` 或 `stage2_mmdialog.ckpt` (Stage 2: 多模态学习)\n    *   将所有权重文件放入同一个文件夹，下文记为 `WEIGHT_FOLDER`。\n\n## 基本使用\n\n以下示例展示如何运行一个简单的多模态对话演示（Playground），输入两轮多模态内容并生成图文回复。\n\n假设你的权重文件位于 `\u002Fpath\u002Fto\u002Fweights` 文件夹：\n\n```bash\ncd examples\nexport IS_STAGE2=True\npython3 playground.py --stage1_weight \u002Fpath\u002Fto\u002Fweights\u002Fstage1_cc3m.ckpt \\\n                      --test_weight \u002Fpath\u002Fto\u002Fweights\u002Fstage2_vist.ckpt\n```\n\n运行成功后，生成的多模态输出将保存在 `examples\u002F` 目录下。\n\n---\n*注：如需进行完整的模型评估或重新训练，请参考原始 README 中的 Evaluation 和 Training 章节，并按要求准备 CC3M、VIST 或 MMDialog 数据集。*","一位社交媒体运营人员需要为电商产品快速生成包含连贯剧情和对应插图的营销推文，以吸引用户关注。\n\n### 没有 MiniGPT-5 时\n- **图文割裂严重**：先写文案再配图，导致图片内容与文字叙述的逻辑不匹配，甚至出现“文不对图”的尴尬情况。\n- **制作流程繁琐**：需要在文本生成工具和绘图工具之间反复切换，手动调整提示词以对齐上下文，耗时极长。\n- **缺乏叙事连贯性**：难以生成多轮对话或连续场景，每张图都是独立的，无法形成有起承转合的视觉故事线。\n- **依赖详细描述**：传统模型必须提供极其详尽的图片描述才能生成准确图像，增加了构思提示词的认知负担。\n\n### 使用 MiniGPT-5 后\n- **图文原生交织**：利用“生成式 Vokens\"技术，MiniGPT-5 能同步生成交错的文本与图像，确保每一帧画面都精准呼应上下文剧情。\n- **一站式流畅创作**：只需输入简单的主题或开头，MiniGPT-5 即可自动输出完整的图文混排内容，无需在不同软件间跳转。\n- **强化故事逻辑**：基于两阶段训练策略，MiniGPT-5 擅长处理无详细描述的多模态生成，能自然延续多轮对话场景，构建完整视觉叙事。\n- **智能引导优化**：内置的无分类器引导机制提升了图像生成的稳定性，即使提示词简略，也能产出高质量且符合语境的插图。\n\nMiniGPT-5 通过创新的交错生成机制，将碎片化的图文创作转化为流畅的视觉叙事体验，极大提升了多模态内容的生产效率与一致性。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Feric-ai-lab_MiniGPT-5_5118ce0c.png","eric-ai-lab","UCSB ERIC Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Feric-ai-lab_b198bc01.png","UCSB Embodiment, Reasoning, Interaction, and Communication (ERIC) Lab",null,"https:\u002F\u002Feric-ai-lab.github.io\u002Findex.html","https:\u002F\u002Fgithub.com\u002Feric-ai-lab",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,865,52,"2026-03-28T04:40:41","Apache-2.0","未说明","需要 NVIDIA GPU（训练和评估命令中包含 --gpus 参数，暗示多卡支持），具体型号和显存大小未说明，需兼容 PyTorch 和 MiniGPT-4\u002FVicuna-7B 运行环境",{"notes":91,"python":92,"dependencies":93},"1. 必须使用 conda 创建 Python 3.10 环境。2. 模型基于 MiniGPT-4 架构，需手动下载 Vicuna V0 7B 权重并配置路径。3. 模型训练分为两个阶段，Stage 2 依赖 Stage 1 的预训练权重，需按顺序下载 CC3M、VIST 或 MMDialog 对应的检查点。4. 数据集因许可限制仅提供示例，完整测试需自行下载 CC3M、VIST 和 MMDialog 数据集并按指定格式整理。","3.10",[94,95,96,97],"requirements.txt 中定义的库（具体列表未在 README 中展示）","MiniGPT-4","Vicuna (V0 7B)","BLIP-2",[35,99,15],"其他",[101,102,103,104],"diffusion-models","multimodal-generation","multimodal-llm","transformers","2026-03-27T02:49:30.150509","2026-04-17T09:53:31.074761",[108,113,118,123,128,133,137],{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},36862,"运行 playground.py 时遇到 'OSError: Can't load tokenizer for bert-base-uncased' 错误怎么办？","这通常是由于 transformers 库版本不兼容导致的。请尝试安装特定版本的 transformers：\npip install transformers==4.45.2\n如果问题仍然存在，可以尝试手动下载 bert-base-uncased 模型并在代码中配置本地路径。","https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5\u002Fissues\u002F43",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},36863,"生成的文本包含大量乱码（如 \u003Cunk>、[IMG0]）或外语混合字符，如何解决？","这是由 Transformers 版本不匹配引起的。请将 transformers 降级到 4.31.0 版本：\npip install transformers==4.31.0\n此外，确保正确加载了 checkpoint：必须先加载 stage_1 权重，然后再用 stage_2 权重替换部分参数。建议直接运行 playground.py 脚本而不是在 Jupyter Notebook 中运行，以确保加载顺序正确。","https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5\u002Fissues\u002F10",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},36864,"生成的文本和图像效果很差，即使没有报错，可能是什么原因？","最常见的原因是未正确设置环境变量 IS_STAGE2。请确保在运行代码前设置：\nexport IS_STAGE2=True\n如果设置为 True 后仍然效果不佳，请检查是否按照正确的顺序加载了模型权重（先 stage_1 后 stage_2）。另外，注意不要随意修改 image_pipeline 的 .to() 调用参数，移除 PRECISION 参数可能导致精度问题。","https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5\u002Fissues\u002F44",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},36865,"加载 checkpoint 文件时出现 'RuntimeError: PytorchStreamReader failed reading zip archive' 错误？","该错误通常不是由 CUDA 版本过低引起的（维护者确认 CUDA 11.7 也可正常运行）。主要原因可能是下载的 .ckpt 文件损坏或不完整。请重新下载 checkpoint 文件，并确保下载过程完整。同时检查 conda 环境中的 CUDA 版本是否与系统驱动匹配，虽然低版本通常不是直接原因，但保持环境一致有助于排查问题。","https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5\u002Fissues\u002F11",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},36866,"MMDialog 数据集中图像分辨率（256x256）低于 Stable Diffusion v2.1 要求（>=512），项目是如何处理的？","根据官方回复，MMDialog 测试集中约 7% 的对话轮次包含多张图像，且同一轮次内的图像相似。关于分辨率差距的具体缓解策略（如是否进行了超分辨率处理或调整了训练配置），维护者表示计划在后续使用更大规模 GPU 扩展模型时更新相关指标和细节。目前建议参考 Stable Diffusion 官方管道确认基础环境是否正常。","https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5\u002Fissues\u002F18",{"id":134,"question_zh":135,"answer_zh":136,"source_url":112},36867,"如何解决 'Segmentation fault (core dumped)' 错误？","该错误通常发生在手动下载并配置 bert-base-uncased 模型路径之后。这可能是由于内存不足、模型文件损坏或与当前环境的兼容性問題。建议首先确认系统内存充足，并尝试重新下载模型文件。如果问题依旧，请检查是否与其他库（如 stable diffusion pipeline）存在冲突，可先单独运行 Hugging Face 的 stable diffusion 示例管道以排除环境因素。",{"id":138,"question_zh":139,"answer_zh":140,"source_url":117},36868,"Peft 版本不同会影响模型生成效果吗？","根据维护者反馈，Peft 0.4.0 和 0.5.0 版本均可正常工作，只要能够生成正确的文本，Peft 版本通常不是导致图像生成异常的主要原因。图像问题更可能与 checkpoint 加载顺序（必须先 stage_1 后 stage_2）或环境变量配置有关。",[]]