[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-microsoft--LLM2CLIP":3,"tool-microsoft--LLM2CLIP":65},[4,16,31,40,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":15},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,2,"2026-04-06T19:52:38",[13,14],"插件","开发框架","ready",{"id":17,"name":18,"github_repo":19,"description_zh":20,"stars":21,"difficulty_score":10,"last_commit_at":22,"category_tags":23,"status":15},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85052,"2026-04-08T11:03:08",[24,25,26,13,27,28,29,14,30],"图像","数据工具","视频","Agent","其他","语言模型","音频",{"id":32,"name":33,"github_repo":34,"description_zh":35,"stars":36,"difficulty_score":37,"last_commit_at":38,"category_tags":39,"status":15},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[27,24,14,29,28],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":37,"last_commit_at":46,"category_tags":47,"status":15},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75149,"2026-04-08T11:09:19",[29,24,14,28],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":15},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[14,28],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":37,"last_commit_at":63,"category_tags":64,"status":15},2181,"OpenHands","OpenHands\u002FOpenHands","OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。\n\n无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。\n\n其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。",70806,"2026-04-08T11:10:08",[29,27,14,13],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":81,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":99,"env_os":100,"env_gpu":101,"env_ram":100,"env_deps":102,"category_tags":107,"github_topics":108,"view_count":10,"oss_zip_url":81,"oss_zip_packed_at":81,"status":15,"created_at":112,"updated_at":113,"faqs":114,"releases":150},5624,"microsoft\u002FLLM2CLIP","LLM2CLIP","LLM2CLIP significantly improves already state-of-the-art CLIP models.","LLM2CLIP 是一个旨在显著提升现有 CLIP 模型性能的开源项目。它创新性地将大型语言模型（LLM）引入视觉编码训练，将其作为强大的“文本教师”，从而赋予多模态学习更丰富的语义理解能力。\n\n传统 CLIP 模型受限于较短的文本上下文窗口（仅 77 个 token），且文本编码器对复杂语句的理解往往停留在关键词匹配层面，难以处理长文本或深层语义。LLM2CLIP 有效解决了这些痛点：它不仅大幅扩展了输入上下文长度，让模型能读懂更详尽的图片描述，还利用 LLM 蕴含的开放世界知识，显著提升了图文对齐的精准度。即使在纯英文语料上微调，其在中文等多语言场景下的表现也能超越原生模型。\n\n该项目的核心技术亮点在于提出了“标题到标题的对比学习”（Caption-to-Caption Contrastive Learning）策略。这一方法克服了直接使用 LLM 输出空间可分性不足的难题，成功将 LLM 强大的语言理解力转化为高效的视觉表征能力，并在 AAAI 2026 荣获杰出论文奖。\n\nLLM2CLIP 非常适合从事多模态算法研究的研究人员、需要高性能视觉编码器的开发者，以及希望探索前沿图文","LLM2CLIP 是一个旨在显著提升现有 CLIP 模型性能的开源项目。它创新性地将大型语言模型（LLM）引入视觉编码训练，将其作为强大的“文本教师”，从而赋予多模态学习更丰富的语义理解能力。\n\n传统 CLIP 模型受限于较短的文本上下文窗口（仅 77 个 token），且文本编码器对复杂语句的理解往往停留在关键词匹配层面，难以处理长文本或深层语义。LLM2CLIP 有效解决了这些痛点：它不仅大幅扩展了输入上下文长度，让模型能读懂更详尽的图片描述，还利用 LLM 蕴含的开放世界知识，显著提升了图文对齐的精准度。即使在纯英文语料上微调，其在中文等多语言场景下的表现也能超越原生模型。\n\n该项目的核心技术亮点在于提出了“标题到标题的对比学习”（Caption-to-Caption Contrastive Learning）策略。这一方法克服了直接使用 LLM 输出空间可分性不足的难题，成功将 LLM 强大的语言理解力转化为高效的视觉表征能力，并在 AAAI 2026 荣获杰出论文奖。\n\nLLM2CLIP 非常适合从事多模态算法研究的研究人员、需要高性能视觉编码器的开发者，以及希望探索前沿图文检索技术的工程师使用。通过集成此框架，用户可以轻松获得在长短文本检索及多语言任务中表现卓越的新一代 CLIP 模型。","# LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation\n\nWelcome to the official repository for **LLM2CLIP**! This project leverages large language models (LLMs) as powerful textual teachers for CLIP's visual encoder, enabling more nuanced and comprehensive multimodal learning.\n\n[![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv-red)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04997) [![Project Homepage](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Homepage-blue)](https:\u002F\u002Faka.ms\u002Fllm2clip) [![HuggingFace Collection](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-Collection-orange)](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmicrosoft\u002Fllm2clip-672323a266173cfa40b32d4c)  \n**Paper:** Accepted to NeurIPS 2024 Workshop: Self-Supervised Learning – Theory and Practice, and AAAI 2026 (**Outstanding Paper Award**)\n\n\n---\n\n## News 🚀🚀🚀\n- **[2026-01-23]** 🎉 **LLM2CLIP received the AAAI 2026 Outstanding Paper Award!**  \n  Our work was recognized by AAAI for its contribution to multimodal representation learning, highlighting the effectiveness of leveraging large language models as textual teachers to significantly enhance CLIP-style visual representations.  \n  👉 [AAAI 2026 Conference Paper Awards and Recognition](https:\u002F\u002Faaai.org\u002Fabout-aaai\u002Faaai-awards\u002Faaai-conference-paper-awards-and-recognition\u002F)\n- **[2025-03-25]** 🔥 **SigLIP2 models updated with LLM2CLIP training.**  \n  The new SigLIP2-based checkpoints show **substantial improvements** in both **short- and long-text image retrieval**, as well as **multilingual text–image retrieval**, further validating the scalability and generality of the LLM2CLIP framework.\n- **[2024-11-18]** Our Caption-Contrastive finetuned Llama3-8B-CC released on [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FLLM2CLIP-Llama-3-8B-Instruct-CC-Finetuned), we will try release more version.\n- **[2024-11-08]** We are currently training a **scaled-up** version with ten times the training dataset, along with upcoming updates: EVA ViT-E, InternVL-300M, SigCLIP-SO-400M, and more VLLM results trained with LLM2CLIP. Stay tuned for the most powerful CLIP models, and thank you for your star!\n- **[2024-11-06]** OpenAI's CLIP and EVA02's ViT base and large models are now available on [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmicrosoft\u002Fllm2clip-672323a266173cfa40b32d4c).\n- **[2024-11-01]** Our paper was accepted to the NeurIPS 2024 SSL Workshop!\n\n---\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_LLM2CLIP_readme_a92d4da5a824.png\" style=\"max-width: 800px;\">\n\n## Challenges with Existing CLIP\n\nCurrent versions of CLIP face several limitations:\n\n- **Limited Context Window**: The text encoder has a short context window of only 77 tokens, which restricts its understanding of lengthy inputs.\n- **Weak Text Comprehension**: The text encoder is relatively limited in its ability to comprehend complex text, often functioning as a bag-of-words model with limited depth.\n\n## Why Integrate LLM with CLIP?\n\nLLM2CLIP brings the unimaginable power of large language models to CLIP, even surpassing native language capabilities. Our LLM2CLIP, fine-tuned purely on an English corpus, outperforms standard Chinese CLIP models:\n\n1. **Extended Input Window**: The LLM expands CLIP's input window, allowing richer textual context and better comprehension of long inputs.\n2. **Enhanced Understanding**: With LLM's help, CLIP gains a deeper understanding of dense, complex captions, leading to improved text-image alignment.\n3. **Open-World Knowledge**: The LLM provides open-world knowledge, enabling more globally informed multimodal feature alignment and boosting training efficiency.\n\n## Key Challenges\n\nWhile LLMs have strong inherent text encoding capabilities, the output space is often not highly separable, which limits their effectiveness for contrastive learning.\n![coco_score.svg](docs%2Fstatic%2Fimages%2Fcoco_score.svg)\n\n## Our Approach\n\nTo overcome these challenges, we designed a **Caption-to-Caption Contrastive Learning** strategy. We trained the LLM to better differentiate between captions of the same or different images, enhancing the separability of the LLM's output space. During training, the LLM gradients were frozen while CLIP's visual encoder was fine-tuned on limited data, resulting in significant performance gains. \n\nThrough this strategy, we better utilized the LLM's power to comprehend and process **long and dense captions**, improving the overall representation capabilities.\n\n## What Can You Achieve with LLM2CLIP?\n\n1. **Enhanced CLIP Models**: Fine-tune pretrained CLIP models with dense captions or task-specific image-text datasets, making CLIP stronger for various use cases.\n2. **Out-of-the-Box Power**: Directly use our enhanced CLIP models, significantly upgraded with LLM guidance for superior performance in multimodal tasks.\n\n---\n\n![main.svg](docs\u002Fstatic\u002Fimages\u002Fmain.svg)\n\n## Model Zoo (Continuously Updated)\n\nStay tuned for updates on pretrained models and datasets, which will be made available in the [HuggingFace Model Zoo](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmicrosoft\u002Fllm2clip-672323a266173cfa40b32d4c).\n\n---\n\n## 💻 Installation Guide\n\n1. **Create the environment**:\n   ```bash\n   conda create -n llm2clip python=3.8\n   conda activate llm2clip\n   pip install -r requirements.txt\n   ```\n2. **Data Preparation for LLM2CLIP**:\n   \n   ```bash\n   cd llm2clip\u002Fdata\n\n   # training datasets\n   DATASET=cc3m #options: \"cc3m\", \"cc12m\", \"yfcc15m\"\n   bash download_dataset.sh $DATASET\n   python extract_embedding.py $DATASET\n\n   # eval datasets\n   bash setup_eval_datasets.sh\n   python extract_eval_embedding.py\n   ```\n\n3. **🔥 Training**:\n\n   ```bash\n   sh run.sh\n   ```\n\n# 📚 FAQ\nFor more insights and answers, visit our [FAQ](FAQ.md).\n## Q1:\n\n> **Q: It is foreseeable that the technology of LLM2CLIP will be of great significance in expanding CLIP's support for more modal data. As far as the article is concerned, LLM2CLIP has surprisingly improved CLIP's adaptability to cross-language and long text tasks. At the same time, it also proposes application possibilities for higher-dimensional data modalities such as audio and video. Of course, this puts forward further requirements for LLM2CLIP's adaptation strategy and fine-tuning methods. Based on your team's current understanding of LLM2CLIP, what additional challenges will arise, for example, the feature space alignment problem of high-dimensional modalities?**\n\n> ![A1](https:\u002F\u002Fvia.placeholder.com\u002F15\u002Fblue\u002F000000?text=+) **A:** To be honest, we’re already exploring a video-based version of LLM2CLIP, including scaling up both the dataset size and model parameters by several orders of magnitude. Please stay tuned for our future updates, and if you’re interested, we’d be happy to discuss this further!\n>\n> Here are some additional challenges I see in this area:\n>\n> 1. **Enhancing the Supervisory Signal in Contrastive Learning:** While LLMs have a strong capability to understand text, providing valuable and rich textual information is equally critical. For instance, for video tasks, we could enrich the input with denser captions, prompts, or instructions. These could provide more complex and detailed information for the LLM to interpret, thereby enabling it to better guide the construction of the cross-modal space.\n> \n> 2. **Expanding Contrastive Learning Loss Across Dimensions:** Contrastive learning losses can be applied across various dimensions, such as the temporal dimension in video data. Different prompts provided to the LLM could be designed to guide and control the training process in these additional dimensions, further strengthening the multimodal representations.\n>\n> 3. **Tackling Complex Temporal Logic in Videos:** The challenges in video understanding often involve designing solutions for complex temporal relationships over extended time spans. Here, we could incorporate self-play techniques using the LLM to introduce tasks and increase the complexity of the training objectives. This might involve designing scenarios where the LLM can simulate and reason about sequences, further enhancing its learning.\n\n## Q2:\n\n> **Q: What a groundbreaking paper on LLM2CLIP! The innovative integration of large language models with CLIP to enhance cross-modal representation learning is truly inspiring. The performance improvements demonstrated, particularly in long-text and short-text retrieval tasks, are impressive and have significant implications for the field of multimodal AI.**\n>\n> **My admiration for your work encourages me to inquire about the potential applications of LLM2CLIP in more specialized domains, such as medicine or law, where the precision and expertise of textual understanding are paramount. Therefore, I am curious to know if LLM2CLIP has been tested or if there are plans to test it with domain-specific texts that require a high degree of accuracy and proficiency.**\n>\n> Looking forward to your insights on this matter and how LLM2CLIP might be adapted or extended to meet the challenges of these specialized fields!\n>\n> ![A2](https:\u002F\u002Fvia.placeholder.com\u002F15\u002Fgreen\u002F000000?text=+) **A:** Your idea is fantastic, and in fact, we have had similar thoughts. I believe there is significant potential in working on specialized fields, and here are my reasons:\n>\n> 1. **Limited Data, High Impact:** Our work focuses on fine-tuning pre-trained CLIP models with very limited data for LLM2CLIP, ranging from 3M to 60M. Compared to the 1-2B data commonly used in CLIP pre-training, this is a small amount, yet it has already demonstrated substantial performance improvements. If we focus on specialized fields, we could leverage limited domain-specific data to train the model exceptionally well in a specific knowledge area. This approach could potentially resolve issues like perception or cognition hallucinations in related multimodal domains entirely.\n>\n> 2. **Leveraging LLM Knowledge as Data Augmentation:** Certain specialized fields, such as medical reports, often suffer from a lack of data. Here, the knowledge encoded in LLMs can serve as an excellent data augmenter due to their access to open-world knowledge over time.\n>\n> We look forward to collaborating with you to push the boundaries of multimodal domains!\n>\n> BTW, we plan to release scaled-up LLM2CLIP models (10-100x larger) next quarter. These models will inherit our general-purpose parameters, potentially making them even more powerful. Please stay tuned to our GitHub!\n\n## Q3:\n\n> **Q: Thank you so much for such an outstanding work. I have a couple of questions regarding the fine-tuning process described in Section 3.2, particularly around the integration of loss functions and datasets:**\n>\n> **In the paper, two loss functions are mentioned: SimCSE loss and Masked Next Token Prediction (MNTP). However, it is unclear whether these two loss functions are used simultaneously during training, or if the training process is split into different phases where each loss is applied separately. Could you please clarify how the losses are used? If they are used together, what are the relative weights assigned to each?**\n>\n> **Regarding the datasets, CC-3M and Wikitext-103 are mentioned as part of the training process. It seems a bit unclear how these two datasets are combined in the training phase. Given that Wikitext-103 is a pure language corpus while CC-3M is image-caption based, how are they jointly used during the fine-tuning process? Are they used for different stages or tasks?**\n>\n> Looking forward to your insights on this!\n>\n> ![A3](https:\u002F\u002Fvia.placeholder.com\u002F15\u002Fred\u002F000000?text=+) **A:** Thank you for your question. I’m glad to clarify.\n>\n> **Loss Functions Integration:** We use the supervised SimCSE loss to make different captions of the same image positive samples for each other, while captions of different images serve as negative samples. This loss function is key to our method, allowing the LLM to provide meaningful supervisory signals to the image. However, the Masked Next Token Prediction (MNTP) was an initial stage we employed before using the supervised SimCSE loss; it can be understood as an earlier step in training. We first conduct MNTP, followed by supervised SimCSE loss, in a two-stage process. In practice, MNTP has little impact on the results, so removing it does not affect the conclusions. However, for optimal performance, we still chose to use MNTP before applying supervised SimCSE loss.\n>\n> **Dataset Combination:** We indeed mix both pure text and caption datasets. This is because the LLM is initially pre-trained on pure text data, so we aim to retain its original distribution with minimal shift by using the pure text dataset Wikitext-103, which also helps mitigate any bias introduced by captions. Our approach is to mix and shuffle the two datasets and then sample batches normally for training. This is a common and effective practice.\n>\n> If you have more questions, please feel free to ask.\n> \n> \n## ❤️ Acknowledgements\n\nOur code is built on top of [EVA-CLIP](https:\u002F\u002Fgithub.com\u002Fbaaivision\u002FEVA\u002Ftree\u002Fmaster\u002FEVA-CLIP). We would like to thank the EVA team for their foundational work.\n\n## Citation\n\nIf you use our work, please cite:\n\n```\n@misc{huang2024llm2clippowerfullanguagemodel,\n      title={LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation}, \n      author={Weiquan Huang and Aoqi Wu and Yifan Yang and Xufang Luo and Yuqing Yang and Liang Hu and Qi Dai and Xiyang Dai and Dongdong Chen and Chong Luo and Lili Qiu},\n      year={2024},\n      eprint={2411.04997},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04997}, \n}\n","# LLM2CLIP：强大语言模型解锁更丰富的视觉表征\n\n欢迎来到 **LLM2CLIP** 的官方仓库！本项目利用大型语言模型（LLMs）作为 CLIP 视觉编码器的强大文本教师，从而实现更加细腻和全面的多模态学习。\n\n[![论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv-red)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04997) [![项目主页](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Homepage-blue)](https:\u002F\u002Faka.ms\u002Fllm2clip) [![HuggingFace 专区](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-Collection-orange)](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmicrosoft\u002Fllm2clip-672323a266173cfa40b32d4c)  \n**论文**：已被 NeurIPS 2024 自监督学习——理论与实践研讨会以及 AAAI 2026 接受（**杰出论文奖**）\n\n\n---\n\n## 新闻 🚀🚀🚀\n- **[2026-01-23]** 🎉 **LLM2CLIP 荣获 AAAI 2026 杰出论文奖！**  \n  我们的成果因在多模态表征学习领域的贡献而受到 AAAI 的认可，凸显了利用大型语言模型作为文本教师来显著提升 CLIP 式视觉表征的有效性。  \n  👉 [AAAI 2026 大会论文奖项及表彰](https:\u002F\u002Faaai.org\u002Fabout-aaai\u002Faaai-awards\u002Faaai-conference-paper-awards-and-recognition\u002F)\n- **[2025-03-25]** 🔥 **SigLIP2 模型已更新为采用 LLM2CLIP 训练版本。**  \n  基于 SigLIP2 的新检查点在 **短文本和长文本图像检索** 以及 **多语言文本-图像检索** 方面均表现出 **显著提升**，进一步验证了 LLM2CLIP 框架的可扩展性和通用性。\n- **[2024-11-18]** 我们在 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FLLM2CLIP-Llama-3-8B-Instruct-CC-Finetuned) 上发布了基于 Caption-Contrastive 微调的 Llama3-8B-CC 模型，并计划推出更多版本。\n- **[2024-11-08]** 我们目前正在训练一个使用十倍数据集的 **扩展版**，同时还将发布 EVA ViT-E、InternVL-300M、SigCLIP-SO-400M 等模型，以及更多通过 LLM2CLIP 训练的 VLLM 结果。敬请期待最强大的 CLIP 模型，感谢您的 Star 支持！\n- **[2024-11-06]** OpenAI 的 CLIP 以及 EVA02 的 ViT 基础和大型模型现已在 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmicrosoft\u002Fllm2clip-672323a266173cfa40b32d4c) 上提供。\n- **[2024-11-01]** 我们的论文已被 NeurIPS 2024 SSL 研讨会接收！\n\n---\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_LLM2CLIP_readme_a92d4da5a824.png\" style=\"max-width: 800px;\">\n\n## 现有 CLIP 面临的挑战\n\n当前版本的 CLIP 存在若干局限性：\n\n- **有限的上下文窗口**：文本编码器的上下文窗口仅有 77 个 token，这限制了其对长篇输入的理解能力。\n- **较弱的文本理解能力**：文本编码器在理解复杂文本方面相对有限，常常表现为一种缺乏深度的词袋模型。\n\n## 为何将 LLM 与 CLIP 结合？\n\nLLM2CLIP 将大型语言模型难以想象的强大能力引入 CLIP，甚至超越了原生的语言能力。我们仅基于英文语料微调的 LLM2CLIP，在性能上超越了标准中文 CLIP 模型：\n\n1. **扩展输入窗口**：LLM 扩展了 CLIP 的输入窗口，允许更丰富的文本上下文，更好地理解长篇输入。\n2. **增强理解力**：借助 LLM，CLIP 对密集且复杂的标题有了更深入的理解，从而提升了文本与图像的对齐效果。\n3. **开放世界知识**：LLM 提供开放世界的知识，使多模态特征对齐更具全局性，并提高了训练效率。\n\n## 核心挑战\n\n尽管 LLM 具备强大的文本编码能力，但其输出空间往往分离度不高，这限制了它在对比学习中的有效性。\n![coco_score.svg](docs%2Fstatic%2Fimages%2Fcoco_score.svg)\n\n## 我们的解决方案\n\n为克服这些挑战，我们设计了一种 **标题到标题的对比学习** 策略。我们训练 LLM 更好地区分相同或不同图像的标题，从而增强 LLM 输出空间的可分离性。在训练过程中，LLM 的梯度被冻结，而 CLIP 的视觉编码器则在有限的数据上进行微调，最终实现了显著的性能提升。\n\n通过这一策略，我们更好地利用了 LLM 理解和处理 **长篇且密集标题** 的能力，从而提升了整体的表征能力。\n\n## 使用 LLM2CLIP 可以实现什么？\n\n1. **增强 CLIP 模型**：使用密集标题或特定任务的图像-文本数据集对预训练的 CLIP 模型进行微调，使其在各种应用场景中表现更强。\n2. **开箱即用的强大性能**：直接使用我们经过 LLM 指导大幅提升的 CLIP 模型，在多模态任务中获得卓越的表现。\n\n---\n\n![main.svg](docs\u002Fstatic\u002Fimages\u002Fmain.svg)\n\n## 模型库（持续更新）\n\n请持续关注预训练模型和数据集的更新，它们将在 [HuggingFace 模型库](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmicrosoft\u002Fllm2clip-672323a266173cfa40b32d4c) 中陆续发布。\n\n---\n\n## 💻 安装指南\n\n1. **创建环境**：\n   ```bash\n   conda create -n llm2clip python=3.8\n   conda activate llm2clip\n   pip install -r requirements.txt\n   ```\n2. **LLM2CLIP 数据准备**：\n\n   ```bash\n   cd llm2clip\u002Fdata\n\n   # 训练数据集\n   DATASET=cc3m #选项: \"cc3m\", \"cc12m\", \"yfcc15m\"\n   bash download_dataset.sh $DATASET\n   python extract_embedding.py $DATASET\n\n   # 评估数据集\n   bash setup_eval_datasets.sh\n   python extract_eval_embedding.py\n   ```\n\n3. **🔥 训练**：\n\n   ```bash\n   sh run.sh\n   ```\n\n# 📚 常见问题解答\n如需更多见解和解答，请访问我们的 [FAQ](FAQ.md) 页面。\n\n## Q1:\n\n> **问：可以预见，LLM2CLIP技术将在扩展CLIP对更多模态数据的支持方面具有重要意义。就文章内容而言，LLM2CLIP令人惊喜地提升了CLIP在跨语言和长文本任务中的适应性。同时，它也为音频、视频等更高维数据模态的应用提供了可能性。当然，这也对LLM2CLIP的适配策略和微调方法提出了更高的要求。基于贵团队目前对LLM2CLIP的理解，您认为还会面临哪些额外的挑战，比如高维模态的特征空间对齐问题？**\n\n> ![A1](https:\u002F\u002Fvia.placeholder.com\u002F15\u002Fblue\u002F000000?text=+) **答：** 说实话，我们已经在探索基于视频的LLM2CLIP版本，包括将数据集规模和模型参数都提升几个数量级。请大家持续关注我们的后续进展，如果您感兴趣，我们也非常乐意进一步交流！\n>\n> 在这一领域，我还看到了以下一些挑战：\n>\n> 1. **增强对比学习中的监督信号：** 虽然大语言模型在理解文本方面具有很强的能力，但提供有价值且丰富的文本信息同样至关重要。例如，在视频任务中，我们可以用更密集的字幕、提示或指令来丰富输入。这些信息能够为大语言模型提供更复杂、更细致的解读线索，从而更好地引导跨模态空间的构建。\n>\n> 2. **跨维度扩展对比学习损失：** 对比学习损失可以应用于多个维度，比如视频数据中的时间维度。针对这些额外维度，我们可以设计不同的提示输入给大语言模型，以引导和控制训练过程，进一步强化多模态表征。\n>\n> 3. **应对视频中复杂的时序逻辑：** 视频理解的难点往往在于如何处理长时间跨度内的复杂时序关系。对此，我们可以引入基于大语言模型的自我博弈技术，通过设置任务来增加训练目标的复杂度。例如，设计让大语言模型模拟并推理序列场景的情境，从而进一步提升其学习能力。\n\n## Q2:\n\n> **问：LLM2CLIP这篇论文真是太有突破性了！将大型语言模型与CLIP创新性地结合，以增强跨模态表征学习，确实令人振奋。文中展示的性能提升，尤其是在长文本和短文本检索任务上的表现，十分亮眼，对多模态人工智能领域具有重大意义。**\n>\n> **我对你们工作的钦佩促使我想要探讨LLM2CLIP在更为专业领域的应用潜力，比如医学或法律，这些领域对文本理解的精准性和专业性有着极高的要求。因此，我想了解一下，LLM2CLIP是否已经针对需要高度准确性和专业性的领域特定文本进行了测试？或者是否有相关计划？**\n>\n> 非常期待您就此问题的见解，以及LLM2CLIP如何被调整或扩展以应对这些专业领域的挑战！\n>\n> ![A2](https:\u002F\u002Fvia.placeholder.com\u002F15\u002Fgreen\u002F000000?text=+) **答：** 您的想法非常棒，事实上我们也曾有过类似的思考。我认为在专业领域开展研究具有巨大潜力，原因如下：\n>\n> 1. **数据有限，效果显著：** 我们的工作主要是在极少量数据（300万到6000万）上对预训练的CLIP模型进行LLM2CLIP微调。与CLIP预训练通常使用的10亿到20亿数据相比，这属于小样本范畴，但已展现出显著的性能提升。如果聚焦于专业领域，我们便能利用有限的领域专属数据，使模型在特定知识方向上得到极为出色的训练。这种方法甚至有可能彻底解决相关多模态领域中可能出现的感知或认知幻觉问题。\n>\n> 2. **利用大语言模型的知识作为数据增强：** 某些专业领域，如医疗报告，常常面临数据匮乏的问题。而大语言模型由于长期积累的开放世界知识，其内部所蕴含的知识恰恰可以作为优质的数据增强手段。\n>\n> 我们非常期待与您合作，共同推动多模态领域的边界拓展！\n>\n> 顺便提一下，我们计划在下个季度发布更大规模的LLM2CLIP模型（规模扩大10至100倍）。这些模型将继承我们通用型的参数，有望变得更加强大。请大家持续关注我们的GitHub！\n\n## 第三问：\n\n> **问：非常感谢您们发表了如此出色的工作。我有两个关于第3.2节中描述的微调过程的问题，尤其是关于损失函数和数据集的整合方式：**\n>\n> **论文中提到了两种损失函数：SimCSE损失和掩码下个词预测（MNTP）。然而，目前尚不明确这两种损失函数是在训练过程中同时使用，还是将训练过程分为不同阶段，分别应用每种损失。能否请您澄清一下这些损失的具体使用方式？如果它们是共同使用的，那么各自分配的权重是多少呢？**\n>\n> **关于数据集，文中提到CC-3M和Wikitext-103作为训练的一部分。但似乎不太清楚这两类数据集在训练阶段是如何结合使用的。考虑到Wikitext-103是一个纯文本语料库，而CC-3M则是图像-标题对数据集，它们在微调过程中是如何协同工作的？是用于不同的阶段或任务吗？**\n>\n> 期待您的解答！\n>\n> ![A3](https:\u002F\u002Fvia.placeholder.com\u002F15\u002Fred\u002F000000?text=+) **答：** 感谢您的提问，很高兴为您解答。\n>\n> **损失函数的整合：** 我们使用监督式SimCSE损失，使得同一张图片的不同标题互为正样本，而不同图片的标题则互为负样本。这一损失函数是我们方法的核心，它能够为图像提供有意义的监督信号。不过，掩码下个词预测（MNTP）是我们采用监督式SimCSE损失之前的初始阶段，可以理解为更早的训练步骤。具体来说，我们先进行MNTP训练，然后再进行监督式SimCSE损失训练，整个过程分为两个阶段。实际上，MNTP对最终结果的影响较小，因此即使去掉MNTP也不会影响结论。不过，为了达到最佳性能，我们仍然选择在应用监督式SimCSE损失之前先执行MNTP。\n>\n> **数据集的组合：** 我们确实混合了纯文本数据集和标题数据集。这是因为大语言模型最初是在纯文本数据上预训练的，所以我们希望通过使用纯文本数据集Wikitext-103来尽量保留其原始分布，避免出现较大偏移，同时也有助于缓解由标题数据可能带来的偏差。我们的做法是将两类数据集混合并随机打乱，然后按照常规方式采样批次进行训练。这是一种常见且有效的实践。\n>\n> 如果您还有其他问题，欢迎随时提出。\n>\n>\n## ❤️ 致谢\n\n我们的代码基于[EVA-CLIP](https:\u002F\u002Fgithub.com\u002Fbaaivision\u002FEVA\u002Ftree\u002Fmaster\u002FEVA-CLIP)构建。在此，我们要感谢EVA团队所做的基础性工作。\n\n## 引用信息\n\n如果您使用了我们的工作，请引用以下内容：\n\n```\n@misc{huang2024llm2clippowerfullanguagemodel,\n      title={LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation}, \n      author={Weiquan Huang and Aoqi Wu and Yifan Yang and Xufang Luo and Yuqing Yang and Liang Hu and Qi Dai and Xiyang Dai and Dongdong Chen and Chong Luo and Lili Qiu},\n      year={2024},\n      eprint={2411.04997},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04997}, \n}","# LLM2CLIP 快速上手指南\n\nLLM2CLIP 利用大型语言模型（LLM）作为强大的文本教师，指导 CLIP 的视觉编码器进行训练，从而显著提升多模态学习的能力。该方案有效解决了传统 CLIP 文本上下文窗口短（仅 77 tokens）及复杂文本理解能力弱的问题，特别擅长处理长文本描述和跨语言检索任务。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+) 或 macOS\n*   **Python 版本**: 3.8 (项目官方指定版本)\n*   **包管理工具**: Conda (推荐) 或 pip\n*   **硬件要求**: 建议配备 NVIDIA GPU 以进行训练或高效推理（显存需求视具体模型大小而定）\n\n## 2. 安装步骤\n\n### 2.1 创建虚拟环境\n使用 Conda 创建独立的 Python 3.8 环境并激活：\n\n```bash\nconda create -n llm2clip python=3.8\nconda activate llm2clip\n```\n\n### 2.2 安装依赖\n克隆项目代码后，进入目录并安装所需依赖包。\n> **提示**：国内用户若遇到 `pip` 下载缓慢，可添加清华或阿里镜像源加速。\n\n```bash\n# 标准安装\npip install -r requirements.txt\n\n# 国内加速安装示例 (使用清华源)\n# pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 3. 基本使用\n\n### 3.1 数据准备\n在使用或训练前，需下载数据集并提取嵌入向量。以下以 `cc3m` 数据集为例：\n\n```bash\ncd llm2clip\u002Fdata\n\n# 下载训练数据集 (可选: cc3m, cc12m, yfcc15m)\nDATASET=cc3m\nbash download_dataset.sh $DATASET\n\n# 提取训练数据嵌入向量\npython extract_embedding.py $DATASET\n\n# 准备评估数据集\nbash setup_eval_datasets.sh\npython extract_eval_embedding.py\n```\n\n### 3.2 启动训练\n完成数据准备后，运行以下脚本开始训练过程。该过程将冻结 LLM 梯度，并利用 Caption-to-Caption 对比学习策略微调 CLIP 视觉编码器。\n\n```bash\nsh run.sh\n```\n\n### 3.3 直接使用预训练模型\n如果您仅需使用已增强的高性能模型，无需重新训练，可直接从 HuggingFace 下载预训练权重。\n\n*   **模型集合地址**: [Microsoft LLM2CLIP Collection](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmicrosoft\u002Fllm2clip-672323a266173cfa40b32d4c)\n*   **支持模型**: 包含基于 OpenAI CLIP、EVA02 ViT 以及最新 SigLIP2 架构的多个版本，显著提升了长短文本及多语言图像检索性能。\n\n加载模型后，即可在您的多模态任务（如图像检索、零样本分类）中体验优于原生 CLIP 的效果。","某电商平台的算法团队正在构建一个支持长描述检索的智能图库系统，旨在让用户能通过详细的自然语言描述精准定位商品图片。\n\n### 没有 LLM2CLIP 时\n- **长文本截断严重**：传统 CLIP 模型仅支持 77 个 token 的上下文窗口，用户输入的“带有复古花纹且适合夏季穿着的红色棉质连衣裙”等长描述会被强制截断，导致关键特征丢失。\n- **语义理解浅层化**：文本编码器更像是一个“词袋模型”，难以理解复杂的修饰关系和抽象概念，无法区分“放在桌子上的苹果”与“作为图案印在衣服上的苹果”。\n- **跨语言检索效果差**：在处理非英语的多语言商品描述时，由于缺乏开放世界知识的支持，图文匹配准确率大幅下降，严重影响国际化业务体验。\n- **训练效率低下**：为了弥补文本理解的不足，团队不得不耗费大量算力收集并清洗海量配对数据进行暴力训练，但提升依然有限。\n\n### 使用 LLM2CLIP 后\n- **超长上下文完美支持**：LLM2CLIP 利用大语言模型扩展了输入窗口，能够完整处理冗长的商品详情描述，确保每一个形容词和场景细节都被纳入视觉对齐计算。\n- **深度语义对齐**：借助 LLM 强大的推理能力，模型能精准捕捉复杂句式中的逻辑关系，显著提升了对细粒度视觉特征的识别精度，误检率大幅降低。\n- **多语言能力跃升**：即使在纯英文语料上微调，LLM2CLIP 也能凭借大模型的开放世界知识，在中文等多语言检索任务中超越原生多语言 CLIP 模型的表现。\n- **数据效率显著提高**：通过“标题对标题”的对比学习策略，模型在更少的高质量数据下即可实现更优的特征分离度，大幅缩短了模型迭代周期。\n\nLLM2CLIP 通过将大语言模型转化为视觉编码器的“文本导师”，彻底突破了传统多模态模型在长文本理解与语义深度上的天花板。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_LLM2CLIP_a92d4da5.png","microsoft","Microsoft","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmicrosoft_4900709c.png","Open source projects and samples from Microsoft",null,"opensource@microsoft.com","OpenAtMicrosoft","https:\u002F\u002Fopensource.microsoft.com","https:\u002F\u002Fgithub.com\u002Fmicrosoft",[87,91],{"name":88,"color":89,"percentage":90},"Python","#3572A5",99.2,{"name":92,"color":93,"percentage":94},"Shell","#89e051",0.8,644,29,"2026-04-06T06:14:56","MIT",4,"未说明","未说明 (项目涉及 LLM 和 CLIP 视觉编码器训练，通常隐含需要 NVIDIA GPU，但 README 未指定具体型号、显存或 CUDA 版本)",{"notes":103,"python":104,"dependencies":105},"1. 建议使用 conda 创建名为 'llm2clip' 的虚拟环境。\n2. 运行前需准备数据集（如 CC3M, CC12M, YFCC15M），并执行脚本下载及提取嵌入向量。\n3. 模型权重可通过 HuggingFace Collection 获取。\n4. 该项目主要利用大语言模型作为文本教师来微调 CLIP 视觉编码器，训练时 LLM 梯度冻结。","3.8",[106],"requirements.txt 中定义的依赖 (具体列表未在 README 中展示)",[13,28],[109,110,111],"clip","fundation-models","multimodality","2026-03-27T02:49:30.150509","2026-04-09T02:38:33.875378",[115,120,125,130,135,140,145],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},25523,"如何使用 LLM2CLIP 模型进行文本 - 图像对的推理？特别是 EVA02 模型如何编码文本？","官方已在 HuggingFace 更新了 README，其中包含了使用示例。对于 EVA02 模型，虽然它不像 OpenAI-CLIP 模型那样直接拥有 `get_text_features` 方法，但维护者已表示会尽快上传相关代码和示例。建议查看 HuggingFace 上的最新文档：https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FLLM2CLIP-EVA02-L-14-336","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLLM2CLIP\u002Fissues\u002F8",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},25524,"下载模型后如何在离线环境下运行？是否需要特殊配置？","下载模型后可以直接在离线环境下运行。`trust_remote_code=True` 标志用于代码托管在 Hub 上而非 Transformers 库原生的模型，该标志的使用与离线操作不冲突。确保模型文件已完整下载到本地即可执行。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLLM2CLIP\u002Fissues\u002F15",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},25525,"COCO CRA 任务的具体评估细节是什么？候选集大小和计算方法是怎样的？","评估使用 mini-batches 进行，批次大小（batch size）为 128（即计算 128*128 的距离矩阵），然后对整个数据集取平均值。论文中的结果是每次仅使用 128 个候选者的平均值。对于不同模型的特征提取方式：CLIP text model 使用 `pooler_output`；EVA CLIP 使用 `encode_text`；LLaMA3 使用 `last_hidden_state`。直接使用全量数据集计算也是可行的，且可能效果更好。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLLM2CLIP\u002Fissues\u002F3",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},25526,"evaluate_retrieval.py 中使用的 JSON 文件是如何生成的？","该 JSON 文件是基于 DOCCI 数据集的测试集生成的。生成对应的 JSON 文件的脚本已上传至项目仓库，具体路径为：https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLLM2CLIP\u002Ftree\u002Fmain\u002Fllm2clip\u002Fdata。用户可以参考该目录下的脚本自行生成数据。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLLM2CLIP\u002Fissues\u002F28",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},25527,"为什么原始 LLaMA 模型检索到的标题几乎不相关？实验是如何进行的？","实验是在 LLaMA3（而非 Llava）上使用 MS COCO 5K 数据集进行的检索实验。每张图片有五个标题，实验使用前两个标题相互检索作为正样本，并报告 Top-1 检索准确率。目的是衡量 LLM 区分不同标题的能力，而非评估 LLM 本身的理解能力。由于 CLIP 训练时没有前缀文本，因此实验设计也未添加前缀，以保持与 CLIP 训练前提的一致性。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLLM2CLIP\u002Fissues\u002F7",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},25528,"是否有零样本分类（zero-shot classification）的结果？为什么 ImageNet 上的提升不明显？","目前尚未专门测试零样本分类，ImageNet 上的提升确实不明显（约 1 个点）。原因可能是使用了大量密集描述（dense captions），导致模型更倾向于复杂文本。ImageNet 性能与数据量强相关，目前对齐仅使用了 1500 万数据点。未来版本计划将训练数据增加数十倍并重新评估。此外，长标题对 CLIP 的提升有限，类似问题可参考 LongCLIP 和 DCI 等工作。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLLM2CLIP\u002Fissues\u002F4",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},25529,"如何使用自己的中文数据集微调 LLM2CLIP？为什么中文数据集上的指标较低？","可以使用 llama-3.2-1B-CC-Finetuned 模型从中文数据中提取文本特征，并使用项目默认配置参数微调 EVA02。如果中文数据集上的指标较低（甚至低于英文数据集 CC3M 微调的效果），可能是因为模型对中文数据的适应性或数据分布差异。建议检查数据预处理流程，并确保使用的文本编码器能有效处理中文。目前社区中有用户已成功使用最新代码完成自定义数据集的构建和微调。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLLM2CLIP\u002Fissues\u002F27",[]]