LLMxMapReduce
LLMxMapReduce 是一个专为处理超长文本而设计的开源框架,灵感来源于大数据领域的经典 MapReduce 算法。它帮助当前主流大语言模型(LLM)更高效地理解与生成长篇内容,尤其擅长从海量输入中提取、整合关键信息,解决“长文难读、长文难写”的核心痛点。无论是撰写综述、分析报告,还是处理冗长文档,LLMxMapReduce 都能显著提升模型的表现。
该工具特别适合研究人员、开发者和需要处理复杂长文本任务的专业用户。V1 版本通过结构化协议和置信度校准,让小模型也能媲美大模型的长上下文能力;V2 引入类似卷积神经网络的“分层聚合”机制,逐步融合局部信息形成全局理解;V3 更进一步,采用多智能体协作模式,支持自组织、模块化的学术综述生成。目前已集成 OpenAI 及兼容 API,开箱即用,并驱动了在线写作系统 SurveyGO。如果你正被长文本处理困扰,LLMxMapReduce 或许正是你需要的“长文加速器”。
使用场景
某高校科研团队正在撰写一篇关于“生成式AI在医疗影像诊断中的最新进展”的综述论文,需从近300篇顶会论文和临床报告中提取关键结论并整合成结构化长文。
没有 LLMxMapReduce 时
- 研究人员手动阅读上百篇PDF文献,耗时超过两周,且容易遗漏关键段落或重复内容。
- 使用普通LLM处理整批文献时,因上下文长度限制(如32K tokens),模型频繁截断输入,导致分析碎片化、逻辑断裂。
- 多人协作时各自总结不同章节,最终整合常出现观点冲突或结构混乱,需反复人工校对。
- 输出结果缺乏层次感,重要发现被淹没在冗长文本中,审稿人反馈“信息密度低、主线不清晰”。
- 遇到新加入的50篇补充材料时,必须从头重跑整个流程,迭代效率极低。
使用 LLMxMapReduce 后
- LLMxMapReduce自动将300篇文献按主题分块(Map阶段),由多个轻量级LLM并行提取摘要,再通过卷积式融合层(Reduce阶段)逐层提炼核心脉络,总耗时压缩至3天内。
- 借助其“熵驱动的卷积缩放机制”,即使输入总量超百万tokens,也能动态聚焦高信息密度段落,输出连贯、无截断的完整综述框架。
- 自动生成带层级标题与证据标注的初稿,团队只需微调重点章节,协作效率提升70%,版本冲突归零。
- 最终输出具备学术论文标准结构(背景→方法分类→临床验证→争议点→未来方向),关键结论加粗+引用溯源,直接满足期刊格式要求。
- 新增文献可单独注入Map阶段,系统自动增量更新全局摘要,无需全量重算,支持敏捷迭代。
LLMxMapReduce让研究者从“文献搬运工”升级为“知识架构师”,用分布式思维突破LLM长文本处理的物理极限。
运行环境要求
- Linux
- macOS
未说明
未说明

快速开始
LLMxMapReduce:使用大语言模型简化长序列处理
🎉 新闻
-
2025.09.13发布 LLMxMapReduce-V3 代码。 -
2025.04.22发布由 LLMxMapReduce-V2 驱动的在线写作系统 SurveyGO。 -
2025.04.09在 arXiv 上发布 LLMxMapReduce-V2 论文。 -
2025.02.21新增支持 OpenAI API 及兼容 OpenAI 的 API(如 vLLM)。 -
2024.10.12在 arXiv 上发布 LLMxMapReduce-V1 论文。 -
2024.09.12发布 LLMxMapReduce-V1 代码。
📚 概览
LLMxMapReduce 是一种分而治之(divide-and-conquer)框架,旨在增强现代大语言模型(Large Language Models, LLMs)对长序列的理解与生成能力。该框架由 AI9STARS、OpenBMB 和 THUNLP 联合开发,灵感源自大数据领域经典的 MapReduce 算法。我们的目标是构建一个由 LLM 驱动的分布式计算系统,以高效处理长序列。以下是 LLMxMapReduce 的主要版本:
- LLMxMapReduce-V1:采用结构化信息协议和上下文内置信度校准,提升长序列理解能力,使 MiniCPM3-4B 在长上下文评估中超越 70B 规模模型。
- LLMxMapReduce-V2:引入熵驱动的卷积式测试时缩放机制,以更好地整合海量信息,为在线系统 SurveyGO 提供动力。
- LLMxMapReduce-V3:引入交互式、模块化、自组织的多智能体系统,用于学术综述生成。
📖 简介
长文本生成在众多实际应用中至关重要,通常可分为“短到长”和“长到长”两类生成任务。尽管“短到长”生成已受到广泛关注,“从极长资源生成长文本”的“长到长”任务仍相对未被充分探索。其核心挑战在于如何有效整合并分析海量输入中的相关信息,这对当前的大语言模型(LLMs)而言仍十分困难。本文提出 LLMxMapReduce-V2,一种新颖的测试时缩放策略,旨在增强 LLM 处理极长输入的能力。受卷积神经网络(CNN)启发——CNN 通过迭代将局部特征融合为更高层次的全局表征——LLMxMapReduce-V2 利用堆叠的卷积缩放层逐步扩展对输入材料的理解。定量与定性实验结果均表明,本方法显著提升了 LLM 处理长输入并生成连贯、信息丰富的长文的能力,优于多个代表性基线模型。
⚡️ 快速开始
以下步骤针对 LLMxMapReduce-V2。若需使用 LLMxMapReduce-V1,请参阅 此处;若需使用 LLMxMapReduce-V3,请参阅 此处。
首先,请确保安装 requirements.txt 中列出的所有依赖项:
cd LLMxMapReduce_V2
conda create -n llm_mr_v2 python=3.11
conda activate llm_mr_v2
pip install -r requirements.txt
python -m playwright install --with-deps chromium
在评估前,需先下载 punkt_tab:
import nltk
nltk.download('punkt_tab')
环境配置
启动 pipeline 前,请在环境变量中设置 OPENAI_API_KEY 和 OPENAI_API_BASE。若使用 miniconda,请将 LD_LIBRARY_PATH 中的 anaconda3 替换为 miniconda3:
export LD_LIBRARY_PATH=${HOME}/anaconda3/envs/llm_mr_v2/lib/python3.11/site-packages/nvidia/nvjitlink/lib:${LD_LIBRARY_PATH}
export PYTHONPATH=$(pwd):${PYTHONPATH}
export OPENAI_API_KEY=您的 OpenAI 密钥。仅当 infer_type 设置为 OpenAI 时需要。
export OPENAI_API_BASE=您的 OpenAI 基础 URL
export GOOGLE_API_KEY=您的 Google Cloud 密钥。仅当 infer_type 设置为 Google 时需要。
export SERP_API_KEY= 从 https://serpapi.com 获取 SERP API 密钥
我们提供英文和中文版本的提示词(prompt),默认为英文。如需使用中文版,请设置如下环境变量:
export PROMPT_LANGUAGE="zh"
模型设置
⚠️ 我们强烈推荐使用 Gemini Flash 系列模型。使用其他模型可能会出现未知错误。本项目对 API 调用量和并发量要求较高,不建议使用本地部署模型。
生成过程中使用的模型配置位于 ./LLMxMapReduce_V2/config/model_config.json 文件中。目前支持 OpenAI API 和 Google API,可通过 infer_type 键指定所用 API,并在 model 键中指定模型名称。
此外,爬取过程同样需要大语言模型(LLM)推理,可在 ./LLMxMapReduce_V2/src/start_pipeline.py 文件中进行类似配置。
启动 LLMxMapReduce_V2 流程
按照说明生成报告,生成的 Markdown 文件位于 ./output/md 目录下:
cd LLMxMapReduce_V2
bash scripts/pipeline_start.sh TOPIC output_file_path.jsonl
如需使用自定义数据,请设置 --input_file 参数,且不要设置 --topic。
输入数据至少应包含以下字段:
{
"title": "您希望撰写的论文标题",
"papers": [
{
"title": "参考材料标题",
"abstract": "摘要内容(可选,若无则会截取部分正文)",
"txt": "参考材料全文"
}
]
}
您可以使用 此脚本 将 .jsonl 数据转换为多个 .md 文件。
📃 评估
以下步骤适用于 LLMxMapReduce-V2。如需使用 LLMxMapReduce-V1,请参考 此处。
请按以下步骤设置评估环境:
1. 下载数据集
在运行评估前,您需要下载 SurveyEval 数据集 的 test 分割部分,并将其保存为 .jsonl 文件。
2. 运行评估
执行 脚本 来评估生成结果。
cd LLMxMapReduce_V2
bash scripts/eval_all.sh output_data_file_path.jsonl
请注意,评估过程消耗大量 token,请确保您的账户余额充足。
📊 实验结果
我们的实验表明,在 SurveyEval 上使用 LLMxMapReduce-V2 框架可显著提升大语言模型(LLM, Large Language Model)的性能。详细结果如下所示。
| 方法 | 结构 | 事实性 | 相关性 | 语言 | 批判性 | 数量 | 密度 | 精确率 | 召回率 |
|---|---|---|---|---|---|---|---|---|---|
| Vanilla | 94.44 | 96.43 | 100.00 | 96.50 | 37.11 | 78.75 | 74.64 | 25.48 | 26.46 |
| + Skeleton | 98.95 | 97.03 | 100.00 | 95.95 | 41.01 | 135.15 | 72.96 | 62.60 | 65.11 |
| AutoSurvey | 86.00 | 93.10 | 100.00 | 92.90 | 68.39 | 423.35 | 31.97 | 50.12 | 51.73 |
| LLMxMapReduce_V2 | 95.00 | 97.22 | 100.00 | 94.34 | 71.99 | 474.90 | 52.23 | 95.50 | 95.80 |
📝 引用
如果您使用了本仓库的内容,请引用我们的论文并点个 Star :)。
@misc{wang2025llmtimesmapreducev2entropydrivenconvolutionaltesttime,
title={LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources},
author={Haoyu Wang and Yujia Fu and Zhu Zhang and Shuo Wang and Zirui Ren and Xiaorong Wang and Zhili Li and Chaoqun He and Bo An and Zhiyuan Liu and Maosong Sun},
year={2025},
eprint={2504.05732},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.05732},
}
@misc{zhou2024llmtimesmapreducesimplifiedlongsequenceprocessing,
title={LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models},
author={Zihan Zhou and Chong Li and Xinyi Chen and Shuo Wang and Yu Chao and Zhili Li and Haoyu Wang and Rongqiao An and Qi Shi and Zhixing Tan and Xu Han and Xiaodong Shi and Zhiyuan Liu and Maosong Sun},
year={2024},
eprint={2410.09342},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.09342},
}
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。