[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Ucas-HaoranWei--Vary":3,"tool-Ucas-HaoranWei--Vary":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":78,"difficulty_score":88,"env_os":89,"env_gpu":90,"env_ram":91,"env_deps":92,"category_tags":101,"github_topics":78,"view_count":24,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":103,"updated_at":104,"faqs":105,"releases":139},10061,"Ucas-HaoranWei\u002FVary","Vary","[ECCV 2024] Official code implementation of Vary: Scaling Up the Vision Vocabulary of Large Vision Language Models.","Vary 是一款专为大型视觉语言模型（LVLM）设计的开源项目，核心目标是显著扩展模型的“视觉词汇量”。传统视觉模型往往难以精准识别复杂的文字、图表或密集排版的文档，而 Vary 通过引入高分辨率图像编码器和优化的训练策略，有效解决了这一痛点。它不仅能流畅地进行日常图像对话，更在文档理解、高精度 OCR（光学字符识别）、图表解析及物体检测等任务上表现出众，能够轻松处理包含中英文混合内容的复杂 PDF 页面。\n\n该项目特别适合人工智能研究人员、开发者以及需要处理大量文档数据的专业人士使用。对于希望从零开始训练模型的研究者，Vary 还提供了轻量级的 Vary-tiny 版本及配套的 60 万页多语言数据集，大大降低了实验门槛。作为 ECCV 2024 的接收论文成果，Vary 的技术亮点在于其独特的架构设计，成功打破了通用视觉模型在细粒度文字识别上的瓶颈，实现了从“看图说话”到“深度读懂文档”的跨越。目前，相关代码、权重及在线演示均已开放，遵循学术研究与特定商业许可协议，欢迎社区共同探索与改进。","\u003Ch3>\u003Ca href=\"\">Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models\u003C\u002Fa>\u003C\u002Fh3>\n\u003Ca href=\"https:\u002F\u002Fvarybase.github.io\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.06109\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-orange\">\u003C\u002Fa> \n\u003Ca href=\"http:\u002F\u002Fregion-31.seetacloud.com:22701\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdemo-blue\">\u003C\u002Fa> \n\u003Ca href=\"https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F671420712\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fzhihu-yellow\">\u003C\u002Fa> \n\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F5978\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FUcas-HaoranWei_Vary_readme_0b0cf02be0f5.png\" alt=\"Ucas-HaoranWei%2FVary | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\n[Haoran Wei*](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=J4naK0MAAAAJ&hl=en), Lingyu Kong*, Jinyue Chen, Liang Zhao, [Zheng Ge](https:\u002F\u002Fjoker316701882.github.io\u002F), [Jinrong Yang](https:\u002F\u002Fyancie-yjr.github.io\u002F), [Jianjian Sun](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=MVZrGkYAAAAJ&hl=en), Chunrui Han, [Xiangyu Zhang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=yuB-cfoAAAAJ&hl=en)\n\t\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FUcas-HaoranWei_Vary_readme_dfa35f440136.jpg\" style=\"width: 200px\" align=center>\n\u003C\u002Fp>\n\n## Release\n- [2024\u002F12\u002F24] 🔥🔥🔥 My new work on system-2 perception is released [slow-perception](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FSlow-Perception).\n- [2024\u002F9\u002F03] 🔥🔥🔥 We release a very strong and comprehensive OCR model [GOT-OCR2.0](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FGOT-OCR2.0).\n- [2024\u002F7\u002F16] 🎉🎉🎉 [OneChart](https:\u002F\u002Fgithub.com\u002FLingyvKong\u002FOneChart) is accepted by ACM'MM 2024 oral (3.97%)!\n- [2024\u002F7\u002F2] 🔥🔥🔥 Vary is accepted by ECCV2024. To thank everyone for their attention, I will release a model that performs on par with the Vary-document soon.\n- [2024\u002F5\u002F27] 🔥🔥🔥 We present a document understanding benchmark in [Fox](https:\u002F\u002Fgithub.com\u002Fucaslcl\u002FFox) .\n- [2024\u002F5\u002F24] 🔥🔥🔥 We propose a multi-page document understanding work -- [Fox](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14295), which supports 8-page pdf-image input !!!\n- [2024\u002F4\u002F21] 🔥🔥🔥 For OneChart, we have released the web demo in [Project Page](https:\u002F\u002Fonechartt.github.io\u002F). Have fun!!\n- [2024\u002F4\u002F21] 🔥🔥🔥 We present a Vary-tiny LAVIS codebase (for training from scratch) and the Vary-600k dataset (300K English and 300K Chinese pages) [here](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary-tiny-600k) !!!\n- [2024\u002F4\u002F15]🔥🔥🔥We release a chart parsing model OneChart [here](https:\u002F\u002Fgithub.com\u002FLingyvKong\u002FOneChart).\n- [2024\u002F4\u002F12]🔥🔥🔥We will release a chart parsing model based on Vary-tiny next week. The model supports both English and Chinese charts.\n- [2024\u002F3\u002F16]🔥🔥🔥I found many friends very interested in Vary-tiny(OPT-125M), so I opened source it [here](https:\u002F\u002Fhuggingface.co\u002FHaoranWei\u002FVary-tiny-opt125M\u002Ftree\u002Fmain), a PDF-dense OCR and object detection version.\n- [2023\u002F1\u002F23]🔥🔥🔥We release the Vary-toy [here](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary-toy). Besides, we show the super good Vary-family results [here](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary-family).\n- [2023\u002F12\u002F29]🔥🔥🔥We will release a new model (a small-size Vary, about 2B) at the beginning of next month and introduce a new feature (object detection). Our online demo will be temporarily closed to prepare for the deployment of the new model.\n- [2023\u002F12\u002F11] We released the online demo, have fun! \n- [2023\u002F12\u002F11] We released the codes of Vary (train and inference)! \n\n[![Code License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode%20License-Apache_2.0-green.svg)](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca\u002Fblob\u002Fmain\u002FLICENSE)\n[![Data License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FData%20License-CC%20By%20NC%204.0-red.svg)](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca\u002Fblob\u002Fmain\u002FDATA_LICENSE)\n**Usage and License Notices**: The data, code, and checkpoint are intended and licensed for research use only. They are also restricted to use that follow the license agreement of LLaMA, Vicuna, GPT-4, Qwen, and LLaVA. \n\n\n## Contents\n- [Install](#install)\n- [Vary Weights](#vary-weights)\n- [Demo](#Demo)\n- [Train](#train)\n\n## Install\n1. Clone this repository and navigate to the Vary folder\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary.git\ncd Vary\n```\n2. Install Package\n```Shell\nconda create -n vary python=3.10 -y\nconda activate vary\npip install e .\n```\n\n3. Install Flash-Attention\n```\npip install ninja\npip install flash-attn --no-build-isolation\n```\n\n## Vary Weights\n- If you are in urgent need of weights for your research recently, please contact me by email. \n- Download the CLIP-VIT-L in [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fclip-vit-large-patch14\u002Ftree\u002Fmain)\n- [Here](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary-toy) for Vary-toy weights. \n  \n## Demo\n1. Update the CLIP-VIT path in the codes (\u002Fcache\u002Fvit-large-patch14\u002F) to your path.\n\n2.\n```Shell\npython vary\u002Fdemo\u002Frun_qwen_vary.py  --model-name  \u002Fvary\u002Fmodel\u002Fpath\u002F --image-file \u002Fan\u002Fimage\u002Ffile.png\n```\n## Train\n- We currently do not plan to open source the weights of the intermediate.\n- However, we release the train codes. So you can train on your own dataset.\nIf you want to do this, you can try this:\n1. For Vary-base (one machine, if you have multiple machines you need to prepare your host file)\n```Shell\ndeepspeed   Vary\u002Ftrain\u002Ftrain_qwen_vary.py  --deepspeed \u002FVary\u002Fzero_config\u002Fzero2.json\n            --model_name_or_path \u002FQwen-7B\u002Fpath\u002F\n            --vision_tower \u002Fvit-large-patch14\u002Fpath\u002F\n            --freeze_vision_tower True\n            --freeze_lm_model False\n            --vision_select_layer  -2\n            --use_im_start_end True\n            --bf16 True\n            --per_device_eval_batch_size 4\n            --gradient_accumulation_steps 1\n            --evaluation_strategy \"no\"\n            --save_strategy \"steps\"\n            --save_steps 5000\n            --save_total_limit 1\n            --weight_decay 0.\n            --warmup_ratio 0.03\n            --lr_scheduler_type \"cosine\"\n            --logging_steps 1 --tf32 True\n            --model_max_length 4096\n            --gradient_checkpointing True\n            --dataloader_num_workers 4\n            --report_to none\n            --per_device_train_batch_size 4\n            --num_train_epochs 1\n            --learning_rate 5e-5\n            --datasets  data_name1+data_name2+data_name3\n            --output_dir \u002Fpath\u002Fto\u002Foutput\u002F\n```\n2. For Vary-tiny\n```Shell\ndeepspeed   Vary\u002Ftrain\u002Ftrain_opt.py  --deepspeed \u002FVary\u002Fzero_config\u002Fzero2.json\n            --model_name_or_path \u002Fopt125m\u002Fpath\u002F\n            --conversation_version opt\n            --freeze_vision_tower False\n            --freeze_lm_model False\n            --use_im_start_end True\n            --bf16 True\n            --per_device_eval_batch_size 4\n            --gradient_accumulation_steps 1\n            --evaluation_strategy \"no\"\n            --save_strategy \"steps\"\n            --save_steps 5000\n            --save_total_limit 1\n            --weight_decay 0.\n            --warmup_ratio 0.03\n            --lr_scheduler_type \"cosine\"\n            --logging_steps 1 --tf32 True\n            --model_max_length 4096\n            --gradient_checkpointing True\n            --dataloader_num_workers 4\n            --report_to none\n            --per_device_train_batch_size 16\n            --num_train_epochs 1\n            --learning_rate 5e-5\n            --datasets  data_name1+data_name2+data_name3\n            --output_dir \u002Fpath\u002Fto\u002Foutput\u002F\n```\n\n\n## Contact\nIf you have any questions related to the code or the paper, feel free to email (`weihaoran18@mails.ucas.ac.cn`).\n\n## Acknowledgement\n- [LLaVA](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat): the codebase we built upon!\n- [Qwen](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen): the LLM base model of Vary, which is good at both English and Chinese!\n\n\n\n\n## Citation\nIf you find our work useful in your research, please consider citing Vary:\n```bibtex\n@article{wei2023vary,\n  title={Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models},\n  author={Wei, Haoran and Kong, Lingyu and Chen, Jinyue and Zhao, Liang and Ge, Zheng and Yang, Jinrong and Sun, Jianjian and Han, Chunrui and Zhang, Xiangyu},\n  journal={arXiv preprint arXiv:2312.06109},\n  year={2023}\n}\n\n@article{wei2024small,\n  title={Small Language Model Meets with Reinforced Vision Vocabulary},\n  author={Wei, Haoran and Kong, Lingyu and Chen, Jinyue and Zhao, Liang and Ge, Zheng and Yu, En and Sun, Jianjian and Han, Chunrui and Zhang, Xiangyu},\n  journal={arXiv preprint arXiv:2401.12503},\n  year={2024}\n}\n```\n","\u003Ch3>\u003Ca href=\"\">Vary：扩展大型视觉-语言模型的视觉词汇表\u003C\u002Fa>\u003C\u002Fh3>\n\u003Ca href=\"https:\u002F\u002Fvarybase.github.io\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.06109\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-orange\">\u003C\u002Fa> \n\u003Ca href=\"http:\u002F\u002Fregion-31.seetacloud.com:22701\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdemo-blue\">\u003C\u002Fa> \n\u003Ca href=\"https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F671420712\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fzhihu-yellow\">\u003C\u002Fa> \n\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F5978\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FUcas-HaoranWei_Vary_readme_0b0cf02be0f5.png\" alt=\"Ucas-HaoranWei%2FVary | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\n[Haoran Wei*](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=J4naK0MAAAAJ&hl=en), Lingyu Kong*, Jinyue Chen, Liang Zhao, [Zheng Ge](https:\u002F\u002Fjoker316701882.github.io\u002F), [Jinrong Yang](https:\u002F\u002Fyancie-yjr.github.io\u002F), [Jianjian Sun](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=MVZrGkYAAAAJ&hl=en), Chunrui Han, [Xiangyu Zhang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=yuB-cfoAAAAJ&hl=en)\n\t\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FUcas-HaoranWei_Vary_readme_dfa35f440136.jpg\" style=\"width: 200px\" align=center>\n\u003C\u002Fp>\n\n## 发布\n- [2024\u002F12\u002F24] 🔥🔥🔥 我关于系统-2感知的新工作已发布 [slow-perception](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FSlow-Perception)。\n- [2024\u002F9\u002F03] 🔥🔥🔥 我们发布了一个非常强大且全面的OCR模型 [GOT-OCR2.0](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FGOT-OCR2.0)。\n- [2024\u002F7\u002F16] 🎉🎉🎉 [OneChart](https:\u002F\u002Fgithub.com\u002FLingyvKong\u002FOneChart) 被ACM'MM 2024口头会议接受（3.97%）！\n- [2024\u002F7\u002F2] 🔥🔥🔥 Vary已被ECCV2024接受。为了感谢大家的关注，我将很快发布一个性能与Vary-document相当的模型。\n- [2024\u002F5\u002F27] 🔥🔥🔥 我们在[Fox](https:\u002F\u002Fgithub.com\u002Fucaslcl\u002FFox)中提出了一个文档理解基准。\n- [2024\u002F5\u002F24] 🔥🔥🔥 我们提出了一项多页文档理解工作——[Fox](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14295)，它支持8页PDF图像输入！！！\n- [2024\u002F4\u002F21] 🔥🔥🔥 对于OneChart，我们已在[项目页面](https:\u002F\u002Fonechartt.github.io\u002F)上发布了网页演示。尽情体验吧！！\n- [2024\u002F4\u002F21] 🔥🔥🔥 我们提供了一个Vary-tiny LAVIS代码库（用于从头开始训练）和Vary-600k数据集（30万英文和30万中文页面）[在此处](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary-tiny-600k)！！！\n- [2024\u002F4\u002F15]🔥🔥🔥我们在这里发布了图表解析模型OneChart[此处](https:\u002F\u002Fgithub.com\u002FLingyvKong\u002FOneChart)。\n- [2024\u002F4\u002F12]🔥🔥🔥下周我们将发布基于Vary-tiny的图表解析模型。该模型同时支持英语和中文图表。\n- [2024\u002F3\u002F16]🔥🔥🔥我发现很多朋友对Vary-tiny(OPT-125M)非常感兴趣，因此我在[Hugging Face](https:\u002F\u002Fhuggingface.co\u002FHaoranWei\u002FVary-tiny-opt125M\u002Ftree\u002Fmain)上将其开源，这是一个PDF密集型OCR和目标检测版本。\n- [2023\u002F1\u002F23]🔥🔥🔥我们在[此处](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary-toy)发布了Vary-toy。此外，我们还在[此处](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary-family)展示了Vary家族的优异成果。\n- [2023\u002F12\u002F29]🔥🔥🔥我们将在下月初发布一款新模型（小型Vary，约20亿参数），并引入一项新功能（目标检测）。为准备部署新模型，我们的在线演示将暂时关闭。\n- [2023\u002F12\u002F11] 我们发布了在线演示，欢迎大家体验！\n- [2023\u002F12\u002F11] 我们还发布了Vary的代码（训练和推理）！\n\n[![代码许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode%20License-Apache_2.0-green.svg)](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca\u002Fblob\u002Fmain\u002FLICENSE)\n[![数据许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FData%20License-CC%20By%20NC%204.0-red.svg)](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca\u002Fblob\u002Fmain\u002FDATA_LICENSE)\n**使用与许可声明**：本数据、代码和检查点仅供研究使用，并受相关许可协议约束。它们也仅限于符合LLaMA、Vicuna、GPT-4、Qwen和LLaVA许可协议的用途。\n\n\n## 目录\n- [安装](#install)\n- [Vary权重](#vary-weights)\n- [演示](#Demo)\n- [训练](#train)\n\n## 安装\n1. 克隆此仓库并进入Vary文件夹\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary.git\ncd Vary\n```\n2. 安装软件包\n```Shell\nconda create -n vary python=3.10 -y\nconda activate vary\npip install e .\n```\n\n3. 安装Flash-Attention\n```\npip install ninja\npip install flash-attn --no-build-isolation\n```\n\n## Vary权重\n- 如果您近期急需用于研究的权重，请通过电子邮件联系我。\n- 在[Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fclip-vit-large-patch14\u002Ftree\u002Fmain)下载CLIP-VIT-L。\n- [此处](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary-toy)可获取Vary-toy的权重。\n  \n## 演示\n1. 将代码中的CLIP-VIT路径（\u002Fcache\u002Fvit-large-patch14\u002F）更新为您自己的路径。\n\n2.\n```Shell\npython vary\u002Fdemo\u002Frun_qwen_vary.py  --model-name  \u002Fvary\u002Fmodel\u002Fpath\u002F --image-file \u002Fan\u002Fimage\u002Ffile.png\n```\n\n## 训练\n- 我们目前不计划开源中间模型的权重。\n- 不过，我们已公开训练代码，因此您可以使用自己的数据集进行训练。\n如果您想这样做，可以尝试以下步骤：\n\n1. 对于 Vary-base（单机运行；如果您有多台机器，则需要准备主机文件）：\n```Shell\ndeepspeed   Vary\u002Ftrain\u002Ftrain_qwen_vary.py  --deepspeed \u002FVary\u002Fzero_config\u002Fzero2.json\n            --model_name_or_path \u002FQwen-7B\u002Fpath\u002F\n            --vision_tower \u002Fvit-large-patch14\u002Fpath\u002F\n            --freeze_vision_tower True\n            --freeze_lm_model False\n            --vision_select_layer  -2\n            --use_im_start_end True\n            --bf16 True\n            --per_device_eval_batch_size 4\n            --gradient_accumulation_steps 1\n            --evaluation_strategy \"no\"\n            --save_strategy \"steps\"\n            --save_steps 5000\n            --save_total_limit 1\n            --weight_decay 0.\n            --warmup_ratio 0.03\n            --lr_scheduler_type \"cosine\"\n            --logging_steps 1 --tf32 True\n            --model_max_length 4096\n            --gradient_checkpointing True\n            --dataloader_num_workers 4\n            --report_to none\n            --per_device_train_batch_size 4\n            --num_train_epochs 1\n            --learning_rate 5e-5\n            --datasets  data_name1+data_name2+data_name3\n            --output_dir \u002Fpath\u002Fto\u002Foutput\u002F\n```\n\n2. 对于 Vary-tiny：\n```Shell\ndeepspeed   Vary\u002Ftrain\u002Ftrain_opt.py  --deepspeed \u002FVary\u002Fzero_config\u002Fzero2.json\n            --model_name_or_path \u002Fopt125m\u002Fpath\u002F\n            --conversation_version opt\n            --freeze_vision_tower False\n            --freeze_lm_model False\n            --use_im_start_end True\n            --bf16 True\n            --per_device_eval_batch_size 4\n            --gradient_accumulation_steps 1\n            --evaluation_strategy \"no\"\n            --save_strategy \"steps\"\n            --save_steps 5000\n            --save_total_limit 1\n            --weight_decay 0.\n            --warmup_ratio 0.03\n            --lr_scheduler_type \"cosine\"\n            --logging_steps 1 --tf32 True\n            --model_max_length 4096\n            --gradient_checkpointing True\n            --dataloader_num_workers 4\n            --report_to none\n            --per_device_train_batch_size 16\n            --num_train_epochs 1\n            --learning_rate 5e-5\n            --datasets  data_name1+data_name2+data_name3\n            --output_dir \u002Fpath\u002Fto\u002Foutput\u002F\n```\n\n\n## 联系方式\n如果您对代码或论文有任何疑问，请随时发送邮件至 (`weihaoran18@mails.ucas.ac.cn`)。\n\n## 致谢\n- [LLaVA](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat)：我们在此基础上构建了代码库！\n- [Qwen](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen)：Vary 的基础大语言模型，擅长处理英语和中文！\n\n\n\n## 引用\n如果您在研究中认为我们的工作有所帮助，请考虑引用 Vary：\n```bibtex\n@article{wei2023vary,\n  title={Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models},\n  author={Wei, Haoran and Kong, Lingyu and Chen, Jinyue and Zhao, Liang and Ge, Zheng and Yang, Jinrong and Sun, Jianjian and Han, Chunrui and Zhang, Xiangyu},\n  journal={arXiv preprint arXiv:2312.06109},\n  year={2023}\n}\n\n@article{wei2024small,\n  title={Small Language Model Meets with Reinforced Vision Vocabulary},\n  author={Wei, Haoran and Kong, Lingyu and Chen, Jinyue and Zhao, Liang and Ge, Zheng and Yu, En and Sun, Jianjian and Han, Chunrui and Zhang, Xiangyu},\n  journal={arXiv preprint arXiv:2401.12503},\n  year={2024}\n}\n```","# Vary 快速上手指南\n\nVary 是一个旨在扩大大型视觉 - 语言模型（LVLM）视觉词汇量的开源项目，基于 Qwen 和 LLaVA 架构构建，在英文和中文场景下均表现出色，特别擅长文档理解和 OCR 任务。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **Python 版本**: 3.10\n*   **硬件要求**: 支持 CUDA 的 NVIDIA GPU（训练和推理均需）\n*   **前置依赖**:\n    *   Conda (用于环境管理)\n    *   Git\n    *   CUDA Toolkit (需与 PyTorch 版本匹配)\n\n## 安装步骤\n\n### 1. 克隆代码库\n首先将项目代码克隆到本地并进入目录：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary.git\ncd Vary\n```\n\n### 2. 创建并激活虚拟环境\n使用 Conda 创建名为 `vary` 的 Python 3.10 环境：\n```bash\nconda create -n vary python=3.10 -y\nconda activate vary\n```\n\n### 3. 安装项目依赖\n安装项目核心包：\n```bash\npip install e .\n```\n> **注意**：如果下载速度较慢，可添加国内镜像源加速，例如：`pip install e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 4. 安装 Flash-Attention\nVary 依赖 Flash-Attention 进行加速，需按顺序执行以下命令：\n```bash\npip install ninja\npip install flash-attn --no-build-isolation\n```\n> **提示**：编译 `flash-attn` 可能需要较长时间，请确保已正确安装 CUDA 开发工具包。若遇到编译错误，可尝试预编译 wheel 包或检查 CUDA 版本兼容性。\n\n### 5. 准备模型权重\n*   **视觉编码器**: 下载 `CLIP-VIT-L` 模型。\n    *   官方源：[Hugging Face - openai\u002Fclip-vit-large-patch14](https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fclip-vit-large-patch14)\n    *   国内加速：可使用 Hugging Face 镜像站或手动下载后放置于本地路径。\n*   **主模型权重**:\n    *   **Vary-toy**: 可直接在 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002FHaoranWei\u002FVary-tiny-opt125M) 获取。\n    *   **Vary-base\u002FVary-document**: 目前主要用于研究，如需近期使用权重进行科研，建议通过邮件 (`weihaoran18@mails.ucas.ac.cn`) 联系作者获取。\n\n## 基本使用\n\n以下是最简单的推理演示流程，以运行 Qwen 版本的 Vary 为例。\n\n### 1. 配置视觉模型路径\n在运行脚本前，请修改代码中默认的 CLIP-VIT 路径（默认为 `\u002Fcache\u002Fvit-large-patch14\u002F`），将其指向你本地下载的实际路径。\n\n### 2. 运行推理脚本\n使用以下命令启动 Demo，替换 `\u003Cmodel_path>` 为你的模型权重文件夹路径，`\u003Cimage_path>` 为你想要分析的图片路径：\n\n```bash\npython vary\u002Fdemo\u002Frun_qwen_vary.py --model-name \u003Cmodel_path> --image-file \u003Cimage_path>\n```\n\n**示例：**\n```bash\npython vary\u002Fdemo\u002Frun_qwen_vary.py --model-name \u002Fhome\u002Fuser\u002Fmodels\u002Fvary-base --image-file .\u002Ftest_doc.png\n```\n\n运行后，模型将对输入图片进行理解并输出文本结果（如文档内容识别、图表分析等）。\n\n---\n*注：本项目代码和数据仅供研究使用，使用时请遵循 LLaMA, Vicuna, Qwen 等相关模型的许可协议。*","某金融数据分析师需要每天从数百份包含复杂图表、密集表格和混合排版的跨国财报 PDF 中提取关键营收数据与趋势分析。\n\n### 没有 Vary 时\n- **细粒度文字识别失败**：面对财报中字号极小的脚注或高密度表格，传统 OCR 模型频繁出现漏字、错行，导致数据提取准确率低下。\n- **图表理解能力缺失**：模型只能机械地转录图表中的文字，无法理解折线图、柱状图背后的数据趋势，分析师必须人工看图并手动录入数据。\n- **多语言混合处理困难**：在处理中英文混排的国际化报表时，经常发生语言混淆或乱码，需要额外的人工校对和清洗步骤。\n- **流程割裂效率低**：需要串联多个独立工具（OCR 引擎 + 图表解析脚本 + 翻译接口），调试成本高且错误难以追溯。\n\n### 使用 Vary 后\n- **高密度文本精准捕获**：Vary 凭借扩大的视觉词汇量，能完美识别财报中密集的表格和小字脚注，直接输出结构化文本，无需二次校对。\n- **原生图表语义理解**：Vary 不仅能“看见”图表，还能直接回答“第三季度营收增长率是多少”这类问题，自动将视觉趋势转化为文字结论。\n- **中英混合无缝解析**：内置的多语言支持让 Vary 在处理中英文混杂的排版时游刃有余，准确保持原文语境，消除了乱码痛点。\n- **端到端一站式处理**：只需将 PDF 页面输入 Vary，即可直接获得包含数据、趋势分析和关键结论的综合报告，大幅简化了技术栈。\n\nVary 通过扩展大视觉语言模型的视觉词汇边界，真正实现了从“看清图片”到“读懂复杂文档”的质变，让非结构化文档的数据挖掘变得像对话一样简单。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FUcas-HaoranWei_Vary_dfa35f44.jpg","Ucas-HaoranWei","WeiHaoran","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FUcas-HaoranWei_902894a4.jpg","University of Chinese Academy of Sciences: \r\n\r\nweihaoran18@mails.ucas.ac.cn\r\n","DeepSeek@AI","Beijing",null,"https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,1893,145,"2026-04-10T06:12:43",4,"Linux","需要 NVIDIA GPU（因依赖 flash-attn 和 deepspeed），显存需求未明确说明（建议 16GB+ 以运行 Qwen-7B 版本），需支持 CUDA","未说明",{"notes":93,"python":94,"dependencies":95},"1. 必须安装 Flash-Attention (flash-attn) 且编译时需禁用隔离构建 (--no-build-isolation)。\n2. 训练脚本使用 DeepSpeed，需配置 zero_config (如 zero2.json)。\n3. 模型权重（Vary-base\u002FVary-tiny）未直接在 README 提供下载链接，需联系作者或通过 HuggingFace 获取特定变体（如 Vary-toy, Vary-tiny-opt125M）。\n4. 需单独下载 CLIP-VIT-Large 预训练权重并配置路径。\n5. 基础模型依赖 Qwen-7B 或 OPT-125M。","3.10",[96,97,98,99,100],"flash-attn","ninja","deepspeed","transformers (隐含，基于 Qwen\u002FLLaVA)","torch (隐含，基于 flash-attn)",[36,15,102],"其他","2026-03-27T02:49:30.150509","2026-04-20T16:52:35.239614",[106,111,116,120,125,130,134],{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},45202,"为什么在 DocVQA 等下游任务上的评估结果比论文报告的低很多？","这通常是因为评估脚本中的后处理问题。DocVQA 的 ANLS 指标对句末的句号非常敏感，如果模型输出的答案末尾包含句号（'.'），会导致分数大幅下降（约 10 分）。\n解决方案：在计算分数前，添加以下后处理代码去除末尾的句号：\nif answer[-1] == '.':\n    answer = answer[:-1]","https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary\u002Fissues\u002F76",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},45203,"加载 Vary-tiny 预训练权重进行训练时，Loss 居高不下或不下降怎么办？","如果在 train.py 中使用了 model.from_pretrained()，它可能会覆盖掉之前加载的 SAM 权重。必须确保在 from_pretrained 之后再次显式加载 SAM 权重。\n此外，检查 transformers 库的版本，Vary-tiny 权重目前仅在 transformers \u003C 4.37 版本下正常工作，高版本会导致输出乱码或训练失败。","https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary\u002Fissues\u002F96",{"id":117,"question_zh":118,"answer_zh":119,"source_url":115},45204,"如何正确加载 Vary-tiny 的 SAM 权重以避免被覆盖？","代码中加载权重的逻辑需要特别注意键名的匹配。如果修改了 vision_tower 的名称（例如改为 vision_tower_2），加载代码应调整为：\nimage_encoder.load_state_dict({k[21:]: v for k, v in state_dict.items() if 'vision_tower_2' in k}, strict=True)\n请确保在 model.from_pretrained() 调用之后执行此加载步骤，否则预训练的 SAM 权重会被丢弃。",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},45205,"使用 transformers 库训练多 epoch 时遇到收敛困难或 Bug 如何解决？","这是一个已知的 transformers Trainer 在多 epoch 训练和断点恢复（resume）时的兼容性问题。目前有两种解决方案：\n1. 暂时放弃使用 transformers 的 Trainer，自己编写训练循环。\n2. 通过增加数据重复次数（数据 * n 遍）来模拟多个 epoch，从而在一个 epoch 内完成收敛，避开多 epoch 的 Bug。","https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary\u002Fissues\u002F99",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},45206,"Vary-tiny 从零开始训练（不加载权重）是否可行？需要注意什么？","从零训练理论上是可行的，但收敛速度极慢且难度很大。例如，仅训练 ViT 部分可能需要 100 个 epoch 才能看到明显的 Loss 下降。\n如果不加载作者提供的插值过的 OPT 权重和 SAM 权重，直接从头预训练非常耗时。建议优先加载官方提供的 Vary-tiny 权重进行微调（Fine-tuning），config.json 中通常指定了适配的维度（如 4096）。","https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary\u002Fissues\u002F93",{"id":131,"question_zh":132,"answer_zh":133,"source_url":110},45207,"Vary-base 检查点是 Stage-1 还是 Stage-2 的？为什么效果有差异？","官方提供的 Vary-base 检查点通常是经过完整训练的。如果在下游任务（如 DocVQA, ChartQA）上效果低于预期，首先应排查评估代码的后处理逻辑（如去除句末标点），而非模型阶段问题。只要修正了评估脚本中的后处理（去掉末尾的 '.'），ANLS 分数通常能从 65 提升至 74 以上，达到报告水平。",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},45208,"训练 Vary-tiny 时 Loss 维持在 2.7 左右不下降，可能是什么原因？","除了检查数据格式是否正确外，最可能的原因是 transformers 版本不兼容或权重加载顺序错误。请确认：\n1. 使用的 transformers 版本低于 4.37。\n2. 确保 SAM 权重在初始化模型后正确加载，没有被 from_pretrained 重置。\n3. 尝试减少 batch size 或调整学习率，但首要任务是确保权重加载无误。","https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FVary\u002Fissues\u002F86",[]]