[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-microsoft--i-Code":3,"tool-microsoft--i-Code":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":68,"owner_location":68,"owner_email":80,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":110,"forks":111,"last_commit_at":112,"license":113,"difficulty_score":114,"env_os":115,"env_gpu":116,"env_ram":116,"env_deps":117,"category_tags":120,"github_topics":68,"view_count":23,"oss_zip_url":68,"oss_zip_packed_at":68,"status":16,"created_at":121,"updated_at":122,"faqs":123,"releases":158},2687,"microsoft\u002Fi-Code","i-Code",null,"i-Code 是微软推出的一个开源项目，旨在构建高度整合且可灵活组合的多模态人工智能系统。其核心目标是打破视觉、语言、语音及文档布局等不同数据模态之间的壁垒，让 AI 能够像人类一样综合处理多种信息。\n\n该项目主要解决了传统 AI 模型往往只能单一处理文本或图像、难以跨模态协同工作的痛点。通过提供统一的框架，i-Code 支持从基础的“看图说话”到复杂的“任意模态互转”（如根据文字生成图像或语音，反之亦然），并能深度理解包含复杂排版的文档内容。\n\ni-Code 非常适合人工智能研究人员、算法开发者以及需要构建复杂多模态应用的企业技术团队使用。对于希望探索前沿多模态融合技术的学者，它提供了丰富的预训练模型和实验基准；对于开发者，其模块化的设计便于快速搭建定制化应用。\n\n在技术亮点方面，i-Code 系列包含了多个创新成果：V2 版本实现了基于自回归生成的视听说统一框架；V3 版本（即 CoDi）引入了可组合的扩散模型，实现了极具灵活性的“任意到任意”内容生成；而 Doc 系列（UDOP）则巧妙地将视觉、文本与版面布局统一，显著提升了文档智能处理的精度。作为一个开放生态，i-Code 欢迎","i-Code 是微软推出的一个开源项目，旨在构建高度整合且可灵活组合的多模态人工智能系统。其核心目标是打破视觉、语言、语音及文档布局等不同数据模态之间的壁垒，让 AI 能够像人类一样综合处理多种信息。\n\n该项目主要解决了传统 AI 模型往往只能单一处理文本或图像、难以跨模态协同工作的痛点。通过提供统一的框架，i-Code 支持从基础的“看图说话”到复杂的“任意模态互转”（如根据文字生成图像或语音，反之亦然），并能深度理解包含复杂排版的文档内容。\n\ni-Code 非常适合人工智能研究人员、算法开发者以及需要构建复杂多模态应用的企业技术团队使用。对于希望探索前沿多模态融合技术的学者，它提供了丰富的预训练模型和实验基准；对于开发者，其模块化的设计便于快速搭建定制化应用。\n\n在技术亮点方面，i-Code 系列包含了多个创新成果：V2 版本实现了基于自回归生成的视听说统一框架；V3 版本（即 CoDi）引入了可组合的扩散模型，实现了极具灵活性的“任意到任意”内容生成；而 Doc 系列（UDOP）则巧妙地将视觉、文本与版面布局统一，显著提升了文档智能处理的精度。作为一个开放生态，i-Code 欢迎全球开发者共同参与，推动多模态 AI 技术的边界。","# Project i-Code\nThe ambition of the i-Code project is to build integrative and composable multimodal Artificial Intelligence. The \"i\" stands for integrative multimodal learning.\n\n## Multimodal Foundation Models\n- [i-Code V1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-V1): i-Code: An Integrative and Composable Multimodal Learning Framework. AAAI 2023, [paper link](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01818).\n\n- [i-Code V2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-V2): i-Code V2: An Autoregressive Generation Framework over Vision, Language, and Speech Data. [Paper link](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.12311).\n\n- [i-Code V3 (CoDi)](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-V3): Any-to-Any Generation via Composable Diffusion, [paper link](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11846).\n\n- [i-Code Studio](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-Studio):  A Configurable and Composable Framework for Integrative AI, [paper link](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13738).\n\n## Multimodal Document Intelligence\n- [i-Code Doc (UDOP)](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-Doc): Unifying Vision, Text, and Layout for Universal Document Processing. CVPR 2023 Highlight, [paper link](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.02623).\n\n## Knowledge-Based Visual Question Answering\n- [MM-Reasoner] MM-Reasoner: A Multi-Modal Knowledge-Aware Framework for Knowledge-Based Visual Question Answering. EMNLP 2023 Findings.\n\n## Contributing\n\nThis project welcomes contributions and suggestions.  Most contributions require you to agree to a\nContributor License Agreement (CLA) declaring that you have the right to, and actually do, grant us\nthe rights to use your contribution. For details, visit https:\u002F\u002Fcla.opensource.microsoft.com.\n\nWhen you submit a pull request, a CLA bot will automatically determine whether you need to provide\na CLA and decorate the PR appropriately (e.g., status check, comment). Simply follow the instructions\nprovided by the bot. You will only need to do this once across all repos using our CLA.\n\nThis project has adopted the [Microsoft Open Source Code of Conduct](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct\u002F).\nFor more information see the [Code of Conduct FAQ](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct\u002Ffaq\u002F) or\ncontact [opencode@microsoft.com](mailto:opencode@microsoft.com) with any additional questions or comments.\n\n## Trademarks\n\nThis project may contain trademarks or logos for projects, products, or services. Authorized use of Microsoft \ntrademarks or logos is subject to and must follow \n[Microsoft's Trademark & Brand Guidelines](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Flegal\u002Fintellectualproperty\u002Ftrademarks\u002Fusage\u002Fgeneral).\nUse of Microsoft trademarks or logos in modified versions of this project must not cause confusion or imply Microsoft sponsorship.\nAny use of third-party trademarks or logos are subject to those third-party's policies.\n","# 项目 i-Code\ni-Code 项目的愿景是构建集成且可组合的多模态人工智能。“i”代表集成式多模态学习。\n\n## 多模态基础模型\n- [i-Code V1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-V1)：i-Code：一种集成且可组合的多模态学习框架。AAAI 2023，[论文链接](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01818)。\n\n- [i-Code V2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-V2)：i-Code V2：一种基于视觉、语言和语音数据的自回归生成框架。[论文链接](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.12311)。\n\n- [i-Code V3 (CoDi)](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-V3)：通过可组合扩散实现任意模态之间的生成，[论文链接](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11846)。\n\n- [i-Code Studio](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-Studio)：一个可配置且可组合的集成式人工智能框架，[论文链接](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13738)。\n\n## 多模态文档智能\n- [i-Code Doc (UDOP)](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-Doc)：统一视觉、文本和布局，用于通用文档处理。CVPR 2023 精选，[论文链接](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.02623)。\n\n## 基于知识的视觉问答\n- [MM-Reasoner] MM-Reasoner：一种多模态、具备知识感知能力的框架，用于基于知识的视觉问答。EMNLP 2023 研究成果。\n\n## 贡献说明\n\n本项目欢迎各类贡献与建议。大多数贡献都需要您签署一份贡献者许可协议（CLA），以声明您有权并将您的贡献权利授予我们使用。详情请访问 https:\u002F\u002Fcla.opensource.microsoft.com。\n\n当您提交拉取请求时，CLA 机器人会自动判断您是否需要提供 CLA，并相应地为 PR 添加标记（例如状态检查、评论）。您只需按照机器人提供的指示操作即可。对于所有使用我们 CLA 的仓库，您只需完成一次此步骤。\n\n本项目已采纳 [微软开源行为准则](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct\u002F)。更多信息请参阅 [行为准则常见问题解答](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct\u002Ffaq\u002F)，或如有任何其他问题或意见，请联系 [opencode@microsoft.com](mailto:opencode@microsoft.com)。\n\n## 商标说明\n\n本项目可能包含项目、产品或服务相关的商标或标识。未经授权使用微软商标或标识须遵守并遵循 [微软商标与品牌指南](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Flegal\u002Fintellectualproperty\u002Ftrademarks\u002Fusage\u002Fgeneral)。在本项目的修改版本中使用微软商标或标识时，不得造成混淆或暗示微软的赞助关系。任何第三方商标或标识的使用均应遵守该第三方的相关政策。","# i-Code 快速上手指南\n\ni-Code 是微软推出的集成式、可组合的多模态人工智能框架，支持视觉、语言、语音及文档布局的统一处理。本指南将帮助你快速搭建环境并运行基础模型。\n\n## 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**：Linux (推荐 Ubuntu 20.04+) 或 Windows (需 WSL2)。\n*   **Python 版本**：3.8 或更高版本。\n*   **GPU 支持**：推荐使用 NVIDIA GPU，并安装对应的 CUDA Toolkit (版本需与 PyTorch 匹配，通常建议 CUDA 11.7+)。\n*   **前置依赖**：\n    *   Git\n    *   Pip 或 Conda (推荐使用 Conda 管理虚拟环境)\n\n> **提示**：国内开发者建议使用清华源或阿里源加速 Python 包下载。\n\n## 安装步骤\n\n以下以安装最新的 **i-Code V3 (CoDi)** 为例，其他版本（V1, V2, Doc）安装逻辑类似，只需切换对应目录。\n\n1.  **克隆项目仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code.git\n    cd i-Code\n    ```\n\n2.  **创建并激活虚拟环境**\n    ```bash\n    conda create -n icode python=3.9 -y\n    conda activate icode\n    ```\n\n3.  **安装基础依赖**\n    进入你希望使用的具体模型目录（例如 i-Code-V3），并安装依赖。\n    \n    *注：若直接安装 `requirements.txt` 速度较慢，可临时替换为国内镜像源。*\n    \n    ```bash\n    cd i-Code-V3\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n4.  **安装项目包**\n    ```bash\n    pip install -e .\n    ```\n\n5.  **下载预训练模型**\n    根据各子项目 README 中的指引下载对应的预训练权重文件（Checkpoints），并将其放置在指定的 `checkpoints` 目录下。由于模型文件较大，建议使用支持断点续传的工具下载。\n\n## 基本使用\n\n以下是一个基于 **i-Code V3 (CoDi)** 进行“任意到任意”（Any-to-Any）生成的最简示例。假设你已经下载好了文本到图像生成的预训练模型。\n\n1.  **准备输入数据**\n    创建一个名为 `input_text.txt` 的文件，写入提示词：\n    ```text\n    A futuristic city with flying cars under a purple sky.\n    ```\n\n2.  **运行生成脚本**\n    在项目根目录或对应子目录下执行推理命令：\n\n    ```bash\n    python scripts\u002Fgenerate.py \\\n        --model_name codi_v3 \\\n        --input_path input_text.txt \\\n        --output_dir outputs \\\n        --task text_to_image \\\n        --checkpoint_path checkpoints\u002Fcodi_v3_pt.pt\n    ```\n\n3.  **查看结果**\n    生成的图像将保存在 `outputs` 文件夹中。\n\n> **注意**：不同子项目（如 i-Code-Doc 用于文档处理，MM-Reasoner 用于问答）的入口脚本和参数略有不同，请参考各子目录下的 `README.md` 获取特定任务的详细参数说明。","某大型金融机构的合规团队需要每天处理成千上万份包含复杂排版、图表和手写批注的扫描合同，从中提取关键条款并回答业务人员的查询。\n\n### 没有 i-Code 时\n- **多模态割裂**：团队必须分别使用 OCR 工具提取文字、独立的图像模型分析图表，再人工拼凑信息，流程繁琐且容易出错。\n- **布局理解缺失**：传统模型无法理解文档的版面逻辑（如页眉、分栏、表格嵌套），导致提取的条款上下文错乱，关键数据张冠李戴。\n- **交互能力受限**：业务人员无法直接用自然语言提问（如“找出所有风险高于中等的补充协议”），只能依赖固定的关键词搜索，漏检率极高。\n- **定制成本高昂**：针对特定类型的金融单据，每次都需要重新训练多个单一模型并进行复杂的后期集成，开发周期长达数周。\n\n### 使用 i-Code 后\n- **统一多模态处理**：利用 i-Code Doc (UDOP) 组件，系统能同时理解视觉、文本和布局信息，一次性完成从扫描件到结构化数据的端到端解析。\n- **精准版面还原**：模型自动识别文档的物理结构，准确区分正文、侧边批注和表格内容，确保提取的条款与其原始语境完美对应。\n- **智能问答交互**：基于 MM-Reasoner 框架，业务人员可直接用自然语言对文档内容进行深度推理查询，系统能结合知识库给出精准的推理答案。\n- **灵活组合部署**：通过 i-Code Studio 的可配置框架，团队能快速将预训练模块组合成专用流水线，将新单据类型的适配时间从数周缩短至几天。\n\ni-Code 通过打破视觉、文本与布局的界限，将非结构化文档转化为可推理、可对话的智能知识资产，极大提升了企业文档处理的自动化与智能化水平。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_i-Code_782047ee.png","microsoft","Microsoft","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmicrosoft_4900709c.png","Open source projects and samples from Microsoft","opensource@microsoft.com","OpenAtMicrosoft","https:\u002F\u002Fopensource.microsoft.com","https:\u002F\u002Fgithub.com\u002Fmicrosoft",[85,89,93,97,101,104,107],{"name":86,"color":87,"percentage":88},"Jupyter Notebook","#DA5B0B",66.7,{"name":90,"color":91,"percentage":92},"Python","#3572A5",33,{"name":94,"color":95,"percentage":96},"JavaScript","#f1e05a",0.1,{"name":98,"color":99,"percentage":100},"CSS","#663399",0,{"name":102,"color":103,"percentage":100},"HTML","#e34c26",{"name":105,"color":106,"percentage":100},"Shell","#89e051",{"name":108,"color":109,"percentage":100},"Procfile","#3B2F63",1709,169,"2026-03-27T18:52:42","MIT",4,"","未说明",{"notes":118,"python":116,"dependencies":119},"README 内容仅提供了项目概述、子模型列表（如 i-Code V1\u002FV2\u002FV3, UDOP 等）及贡献指南，未包含具体的运行环境配置、依赖库版本或硬件需求信息。用户需访问各子项目（如 i-Code-V1, i-Code-V2 等）的独立链接以获取详细安装说明。",[],[26,14,55,13,54],"2026-03-27T02:49:30.150509","2026-04-06T05:19:22.881260",[124,129,134,139,143,148,153],{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},12462,"生成的音频全是噪音，如何解决？","请检查是否正确加载了音频 LMD 检查点。确保 model_load_paths 列表中包含正确的音频扩散模型文件，例如：\nmodel_load_paths = ['CoDi_encoders.pth', 'CoDi_text_diffuser.pth', 'CoDi_video_diffuser_8frames.pth', 'CoDi_audio_diffuser_m.pth']","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Fissues\u002F46",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},12463,"UDOP 预训练中文本字符嵌入（character embeddings）的初始化权重是如何设置的？","字符嵌入主要是为了让模型更好地理解单词的构成。可以通过让模型在训练中自行学习每个字的特征，或者将中文字符进行拆解处理来实现。并没有使用特殊的初始化方法，而是依赖于训练过程中的学习。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Fissues\u002F90",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},12460,"Hugging Face 上的 UDOP 模型仓库缺少 config.json 和 tokenizer 文件，这些文件是否与 t5-large 相同？","维护者已修复该问题并更新了模型检查点。现在可以直接使用 Hugging Face 风格的配置加载模型。代码示例如下：\nfrom core.models import UdopDualForConditionalGeneration, UdopConfig, UdopTokenizer\nconfig = UdopConfig.from_pretrained(\"..\u002Fudop-dual-large-224\")\ntokenizer = UdopTokenizer.from_pretrained(\"..\u002Fudop-dual-large-224\")\nmodel = UdopDualForConditionalGeneration.from_pretrained(\"..\u002Fudop-dual-large-224\")","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Fissues\u002F17",{"id":140,"question_zh":141,"answer_zh":142,"source_url":128},12461,"使用官方示例笔记本时模型表现不佳或无法生成正确答案，可能是什么原因？","这可能是由于 transformers 库更新导致 CLIP 图像编码器未正确下载或加载。建议参考相关 PR (https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Fpull\u002F64) 下载最新的检查点。如果问题仍然存在，可能是本地权重加载问题，维护者正在更新以支持本地权重加载。",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},12464,"i-Code V1 在单模态任务中使用的是什么表示？微调时添加了什么分类头？多模态损失计算使用了哪些特征？","1. 单模态任务使用的是文本编码器（text encoder）之后的嵌入表示。\n2. 微调时在嵌入层后添加了一个类似于 BERT 的分类头（线性层）。\n3. 多模态损失（vl, vs, ls）计算使用的是融合层（fusion layer）之后的嵌入。在合并注意力机制中，并未将文本、视觉和语音特征从融合嵌入中分离出来。此外，融合层的初始化非常重要，默认使用了 BertEncoder 的参数初始化以避免梯度爆炸或不收敛。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Fissues\u002F85",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},12465,"UDOP 预训练过程中，图像重建损失和文本生成损失是同时优化还是交替优化？","提供的检查点是预训练后的结果。关于具体的预训练代码（包括损失函数的优化方式），目前未在公开仓库中提供，因为部分代码属于公司内部项目。当前仓库仅包含用于下游微调的代码。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Fissues\u002F73",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},12466,"UDOP 是否支持少样本学习（Few-shot learning）？对于只有少量样本（如\u003C50）的文档信息提取任务效果如何？","UDOP 支持通过微调进行少样本学习，但不支持上下文学习（in-context learning）。在 FUNSD 数据集上的测试结果显示：仅用 10 个样本微调，准确率可达 83.11%（全量 199 个样本微调剂准确率为 91.62%）。目前模型没有针对表格的特殊处理逻辑，也没有计划推出多语言版本。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Fissues\u002F12",[]]