awesome-foundation-agents
awesome-foundation-agents 是一个专注于“基础智能体(Foundation Agents)”领域的精选资源库,旨在系统性地梳理通往通用智能体的技术路径。它汇集了该方向最前沿的学术论文、开源代码库、技术博客及综述文章,帮助从业者快速把握研究脉络。
当前大模型虽强,但构建具备认知、记忆、感知、规划及自我进化能力的完整智能体仍面临诸多挑战,相关研究分散且难以追踪。awesome-foundation-agents 通过将复杂的研究版图结构化,按认知机制、自我增强、多智能体协作及 AI 安全等核心维度进行分类整理,有效解决了信息碎片化问题,让开发者能一站式获取从理论框架到落地实践的关键资料。
该项目特别适合人工智能研究人员、大模型开发者以及对 Agent 架构感兴趣的技术决策者使用。无论是希望深入理解智能体底层原理的学者,还是寻求复现最新算法(如强化学习微调、思维链推理)的工程师,都能从中找到高价值的参考指引。
其独特亮点在于不仅罗列资源,更提出了清晰的基础智能体概念框架,并持续更新包括自进化机制、世界模型构建等前沿议题的最新成果。作为一个由社区共同维护的开放项目,它动态收录全球范围内的创新工作,是探索下一代自主智能系统不可或缺的导航图。
使用场景
某 AI 初创团队正致力于研发一款能自主规划行程、处理突发状况的“全能旅行代理”,但在构建其核心认知与推理模块时陷入瓶颈。
没有 awesome-foundation-agents 时
- 技术选型迷茫:面对海量零散的论文,团队难以区分哪些是真正提升 Agent“认知”与“记忆”的核心成果,哪些只是过时的实验,导致研发方向频繁摇摆。
- 重复造轮子:开发人员花费数周复现基础的思维链(Chain-of-Thought)或反射机制(Reflexion),却不知社区已有更先进的强化学习搜索方案(如 Search-R1)可直接复用。
- 架构设计缺失:缺乏对“世界模型”和“情感模块”等前沿组件的系统性理解,导致代理只能机械执行指令,无法像人类一样灵活应对航班取消等复杂情境。
- 资源浪费严重:团队在低效的试错中消耗了大量算力和时间,迟迟无法推出具备真正“自增强”能力的产品原型。
使用 awesome-foundation-agents 后
- 精准导航前沿:团队利用其分类清晰的目录,迅速锁定了关于“认知”与“推理”的最新 SOTA 论文(如 SKY-T1),直接确立了基于强化学习的技术路线。
- 高效代码复用:通过仓库提供的代码链接,快速集成了 Voyager 和 ReAct 等成熟框架,将原本需要一个月的开发周期缩短至三天。
- 系统架构升级:参考其中关于“协作进化系统”和“安全有益 AI"的综述,成功为代理添加了情绪反馈与多智能体协作模块,显著提升了用户体验。
- 研发加速落地:站在巨人肩膀上,团队得以跳过基础探索阶段,专注于业务逻辑创新,提前两个月完成了高智商旅行代理的 MVP 版本。
awesome-foundation-agents 如同智能体研发的“高德地图”,让开发者从盲目摸索转向精准导航,极大缩短了从理论到落地的距离。
运行环境要求
未说明
未说明

快速开始
令人惊叹的基础智能体
我们维护着一份精心整理的论文合集,旨在探索通往基础智能体的道路,重点关注核心概念的构建以及研究领域的梳理。
⌛️ 即将推出版本2!我们将持续收集并更新前沿洞见。如果您发现任何有价值的相关工作,欢迎随时提出建议!
我们在基础智能体方向上的成果
✨✨✨ 基础智能体的进展与挑战(论文)

令人惊叹的论文
智能体的核心组件
知识
学习
空间
完整
- 添加SFT、RLHF、PEFT
- ReFT:通过强化微调进行推理,arxiv 2024年,[论文] [代码]
- Search-R1:利用强化学习训练大语言模型进行推理并调用搜索引擎 [论文] [代码]
- R1-Searcher:通过强化学习激励大语言模型的搜索能力,arxiv 2025年,[论文] [代码]
部分
- 思维链提示激发大型语言模型的推理能力,Wei等人,2022年,[论文] [代码]
- Voyager:基于大型语言模型的开放式具身智能体,arxiv 2023年,[论文] [代码]
- Reflexion:具有口头强化学习的语言智能体,NeurIPS 2023年,[论文] [代码]
- ReAct遇见ActRe:用于对比自监督学习的智能体轨迹自主标注,arxiv 2024年,[论文] [代码]
- 生成式智能体:人类行为的交互式模拟,ACM UIST 2023年,[论文] [代码]
目标
感知
- CLIP:从自然语言监督中学习可迁移的视觉模型,ICML 2021年,[论文] [代码]
- LLaVA:视觉指令微调,NeurIPS 2023年,[论文] [代码]
- CogVLM:预训练语言模型的视觉专家,NeurIPS 2025年,[论文] [代码]
- Qwen2-Audio技术报告,arxiv 2024年,[论文] [代码]
- Search-R1:利用强化学习训练大语言模型进行推理并调用搜索引擎,arxiv 2025年,[论文] [代码]
推理
- SKY-T1:以450美元以内训练属于你自己的o1预览模型,2025年,[论文] [代码]
- 开放思想,2025年,[论文] [代码]
- LIMO:少即是多的推理方法,arxiv 2025年,[论文] [代码]
- STaR:用推理来启动推理,arxiv 2022年,[论文] [代码]
- ReST:用于语言建模的强化自训练,arxiv 2023年,[论文] [代码]
- OpenR:一个用于大语言模型高级推理的开源框架,arxiv 2024年,[论文] [代码]
- LLaMA-Berry:针对o1级别奥林匹克数学推理的成对优化,arxiv 2024年,[论文] [代码]
- RAGEN:通过强化推理来训练智能体,arxiv 2025年,[论文] [代码]
- Open-R1,2024年,[论文] [代码]
世界
- 内心独白:通过语言模型规划实现具身推理,CoRL 2023年,[论文] [代码]
- 自我精炼:基于自我反馈的迭代优化,NeurIPS 2024年,[论文] [代码]
- Reflexion:具有口头强化学习的语言智能体,NeurIPS 2023年,[论文] [代码]
- ExpeL:大语言模型智能体是体验式学习者,AAAI 2024年,[论文] [代码]
- AutoManual:由大语言模型智能体通过交互式环境学习生成使用说明书,arxiv 2024年,[论文] [代码]
- ReAct遇见ActRe:用于对比自监督学习的智能体轨迹自主标注,arxiv 2024年,[论文] [代码]
推理
结构化
动态
- ReAct:在语言模型中协同推理与行动,arXiv 2022,[论文] [代码]
- 用于高效数学推理的思维马尔可夫链,arXiv 2024,[论文] [代码]
- 思维之树:利用大型语言模型进行深思熟虑的问题解决,NeurIPS 2023,[论文] [代码]
- 语言智能体树搜索统一了语言模型中的推理、行动和规划,ICML 2024,[论文] [代码]
- 通过规划进行推理(RAP):利用世界模型改进语言模型,EMNLP 2023,[论文] [代码]
- 思维图:利用大型语言模型解决复杂问题,AAAI 2023,[论文] [代码]
- 思维路径:提取并遵循路径以实现稳健的关系推理,arXiv 2024,[论文] [代码]
- 论思维图,arXiv 2024,[论文] [代码]
静态
- 自我一致性提升语言模型中的思维链推理,ICLR 2023,[论文] [代码]
- 自我精炼:基于自我反馈的迭代优化,NeurIPS 2024,[论文] [代码]
- 渐进式提示引导提升大型语言模型的推理能力,arXiv 2023,[论文] [代码]
- 论大型语言模型在推理和规划任务中的自我验证局限性,arXiv 2024,[论文] [代码]
- 验证链降低大型语言模型中的幻觉现象,ICLR 2024研讨会,[论文] [代码]
领域
- MathPrompter:利用大型语言模型进行数学推理,ACL 2023,[论文] [代码]
- LLMs 可以通过教学型思维链发现数学推理中的错误,arXiv 2024,[论文] [代码]
- 物理推理器:利用知识增强的推理解决物理问题,COLING 2025,[论文] [代码]
非结构化
提示
- 思维链提示激发大型语言模型的推理能力,NeurIPS 2022,[论文] [代码]
- 退一步:通过抽象激发大型语言模型的推理能力,ICLR 2024,[论文] [代码]
- 问我任何问题:一种简单的语言模型提示策略,arXiv 2022,[论文] [代码]
- 知识链:通过动态适应异构知识源来 grounding 大型语言模型,arXiv 2023,[论文] [代码]
- 自解释关键词赋能大型语言模型进行代码生成,arXiv 2024,[论文] [代码]
模型
- DeepSeek-R1:通过强化学习激励 LLM 的推理能力,arXiv 2025,[论文] [代码]
- Claude 3.7 Sonnet,2025,[论文] [代码]
- OpenAI o1 系统卡片,arXiv 2024,[论文] [代码]
隐式
- Quiet-STaR:语言模型可以自我训练,在开口前先思考,arXiv 2024,[论文] [代码]
- 连续思维链(Coconut):训练大型语言模型在连续潜在空间中进行推理,arXiv 2024,[论文] [代码]
规划
- 描述、解释、计划与选择(DEPS):与大型语言模型交互式规划,arXiv 2023,[论文] [代码]
- ProgPrompt:利用大型语言模型生成情境化的机器人任务计划,ICRA 2023,[论文] [代码]
- ADAPT:按需分解与语言模型结合的规划,arXiv 2023,[论文] [代码]
- 思维之树:利用大型语言模型进行深思熟虑的问题解决,NeurIPS 2023,[论文] [代码]
- 通过规划进行推理(RAP):利用世界模型改进语言模型,EMNLP 2023,[论文] [代码]
- TravelPlanner:面向语言智能体的真实世界规划基准测试,ICML 2024,[论文] [代码]
- PDDL—规划领域定义语言,1998,[论文] [代码]
- Mind2Web:迈向通用网络智能体,NeurIPS 2023,[论文] [代码]
记忆
表征
感知
文本‑基
- RecAgent: 推荐系统的新仿真范式, TOIS 2025, [论文] [代码]
- CoPS: 认知个性化搜索:将大型语言模型与高效记忆机制结合, WWW 2024, [论文]
- MemoryBank: 利用长期记忆增强大型语言模型, AAAI 2024, [论文] [代码]
- Memory Sandbox: 面向对话代理的透明且可交互的记忆管理, UIST 2023 附录, [论文]
多模态
- VideoAgent: 一种用于视频理解的记忆增强型多模态代理, ECCV 2024, [论文] [代码]
- WorldGPT: 赋能大语言模型成为多模态世界模型, arXiv 2024, [论文] [代码]
- Agent S: 一个像人类一样使用计算机的开放代理框架, arXiv 2024, [论文][代码]
- OS‑Copilot: 朝着具备自我改进能力的通用计算机代理迈进, ICLR 2024 LLMAgents Workshop, [论文] [代码]
- MuLan: 用于渐进式和交互式多对象扩散的多模态‑LLM代理, arXiv 2024, [论文] [代码]
短期
上下文
- MemGPT: 朝着将大语言模型作为操作系统的方向发展, arXiv 2023, [论文] [代码]
- KARMA: 利用长短期记忆系统增强具身智能体, arXiv 2024, [论文] [代码]
- LSFS: 从命令到提示:基于大语言模型的语义文件系统, ICLR 2025, [论文] [代码]
- OSCAR: 基于状态感知推理与重规划的操作系统控制, ICLR 2025, [论文]
- RCI: 语言模型可以解决计算机任务(递归批评与改进), NeurIPS 2023, [论文] [代码]
工作
- Generative Agent: 人类行为的交互式模拟体, UIST 2023, [论文] [代码]
- RLP: 反思性语言编程 (RLP): 社会意识型 AGI 的垫脚石, arXiv 2023, [论文]
- CALYPSO: 大语言模型作为地下城主的助手, AIIDE 2023, [论文] [代码]
- HiAgent: 用于解决长 horizon 代理任务的大语言模型的层次化工作记忆管理, arXiv 2024, [论文] [代码]
长期
语义
- AriGraph: 利用情景记忆为大语言模型代理学习知识图谱世界模型, arXiv 2024, [论文] [代码]
- RecAgent: 见上文
- HippoRAG: 受神经生物学启发的大语言模型长期记忆, NeurIPS 2024, [论文] [代码]
情景
- MobileGPT: 为移动任务自动化赋予大语言模型类人应用记忆, ACM MobiCom 2024, [论文]
- MemoryBank: 见上文
- 利用生命历程机器人经验的层次化表示进行情景记忆言语化, arXiv 2024, [论文] [代码]
- MrSteve: 在 Minecraft 中具有“何地何时”记忆的指令遵循型代理, ICLR 2025, [论文] (项目代码待定)
过程
- AAG: 针对大语言模型的类比增强生成, ACL ARR 2024, [论文]
- Cradle: 赋能基础代理迈向通用计算机控制, ICLR 2025, [论文] [代码]
- JARVIS‑1: 具有记忆增强型多模态语言模型的开放世界多任务代理, NeurIPS 2023 ALOE Workshop, [论文] [代码]
- LARP: 面向开放世界游戏的语言‑代理角色扮演, arXiv 2023, [论文]
生命周期
获取
信息压缩
- HiAgent: 用于解决长 horizon 代理任务的大语言模型的层次化工作记忆管理, ACL 2025, [论文] [代码]
- LMAgent: 用于多用户仿真的大规模多模态代理社会, arXiv 2024, [论文]
- 一种受人类启发、具有超长上下文概要记忆的阅读代理, ICML 2024, [论文] [代码]
- 利用元记忆机制提升大语言模型中的无数据代码生成能力, arXiv 2025, [论文]
经验整合
- ExpeL: 大语言模型代理是体验式学习者, AAAI 2024, [论文] [代码]
- 统一心智模型: 重新构想大语言模型时代的自主代理, arXiv 2025, [论文]
- 元学习: 一篇综述, PAMI 2021, [论文]
- ``我的代理更懂我'': 在基于大语言模型的代理中集成动态类人记忆回忆与整合, CHI 2024, [论文] [代码]
编码
选择性注意力
- AgentCoord: 基于LLM的多智能体协作的视觉探索协调策略, arXiv 2024, [论文] [代码]
- 基于大型语言模型的智能体的记忆共享, arXiv 2024, [论文]
- 通过LLM驱动的实体关系图理解长视频, arXiv 2025, [论文]
- A-MEM: LLM智能体的代理记忆, arXiv 2025, [论文] [代码]
- 机器人也能多任务处理:集成记忆架构与LLM以增强跨任务机器人动作生成, Humanoids 2024, [论文]
多模态融合
- Optimus-1: 混合多模态记忆赋能的智能体在长时程任务中表现出色, NeurIPS 2024, [论文] [代码]
- Optimus-2: 具有目标-观察-动作条件策略的多模态Minecraft智能体, CVPR 2025, [论文] [代码]
- JARVIS-1: 多模态记忆增强的开放世界智能体, NeurIPS 2023 ALOE Workshop, [论文] [代码]
推导
反思
- Agent S: 一个像人类一样使用计算机的开放式代理框架, ICLR 2025海报, [论文] [代码]
- OSCAR: 基于状态感知推理和重规划的操作系统控制, ICLR 2025, [论文]
- R2D2: 面向网络智能体的记忆、反思与动态决策, ACL 2025, [论文]
- Mobile-Agent-E: 用于复杂任务的自我进化移动助手, ACL ARR 2025(已提交), [论文] [代码]
摘要
- SummEdits: 基于编辑的事实导向摘要, EMNLP 2023, [论文] [代码]
- SCM: 通过自控记忆框架增强大型语言模型, DASFAA 2025, [论文] [代码]
- 医疗健康助手:激发通用LLM在医疗咨询中的潜力, arXiv 2024, [论文]
- 递归摘要使大型语言模型具备长期对话记忆, Neurocomputing 2025, [论文]
知识蒸馏
- KnowAgent: 基于LLM的智能体的知识增强规划, Findings of NAACL 2025, [论文] [代码]
- AoTD: 通过思想代理蒸馏提升视频-LLM推理能力, CVPR 2025, [论文]
- LDPD: 语言驱动的策略蒸馏, ICLR 2024 LLM-Agents研讨会, [论文]
- 子目标蒸馏:弥合大型语言模型与目标条件强化学习,用于长时程任务, CoLLAs 2024, [论文]
- MAGDi: 记忆增强型生成式调试器, ICML 2024, [论文] [代码]
选择性遗忘
- Lyfe Agents: 用于低成本实时社交互动的生成式智能体, arXiv 2023, [论文]
- TiM: 思考即记忆的语言模型, ICLR 2024(已提交), [论文]
- MemoryBank: 通过长期记忆增强大型语言模型, AAAI 2024, [论文] [代码]
- S³: 基于大型语言模型智能体的社会网络模拟系统, arXiv 2023, [论文] [代码]
- ``我的智能体更懂我'': 见上文
检索
索引
- HippoRAG: 受神经生物学启发的大型语言模型长期记忆, NeurIPS 2024, [论文] [项目] [代码]
- TradingGPT: 具有分层记忆的多智能体系统,用于模拟股票交易, arXiv 2023, [论文]
- LongMemEval: 对聊天助手长期交互记忆的基准测试, ICLR 2025, [论文] [代码]
- SeCom: 长期个性化对话智能体的记忆构建与检索, ICLR 2025, [论文] [项目] [博客]
匹配
- 带有产品密钥的大内存层, NeurIPS 2019, [论文] [代码]
- OSAgent: 由LLM驱动的智能体辅助操作系统, IJCNN 2024, [论文]
- 通过联合学习对齐与翻译实现神经机器翻译, ICLR 2015, [论文]
- ``我的智能体更懂我'': 见上文
神经记忆
关联记忆
- 霍普菲尔德网络就是你需要的一切, NeurIPS 2020, [论文] [代码]
- 霍普菲尔德网络就是你需要的一切, ICLR 2021, [论文]
- 用于剩余使用寿命估计问题的神经图灵机, Computers in Industry 2022, [论文] [代码]
参数集成
- MemoryLLM:迈向自我更新的大语言模型,ICML 2024,[论文] [代码]
- SELF-PARAM:大语言模型的自参数化改造,ICLR 2025,[论文] [代码]
- MemoRAG:通过全局记忆增强的检索增强技术提升长上下文处理能力,万维网大会(WWW)2025,[论文] [代码]
- 学会(在测试时学习):具有表达性隐藏状态的循环神经网络,ICLR 2025,[论文] [代码]
- 泰坦:在测试时学习记忆,arXiv 2024,[论文] [非官方代码]
- R³Mem:一种用于大语言模型的三阶记忆,ICLR 2025(待发表),[论文]
应用
RAG
- RAGLAB:检索增强生成研究平台,EMNLP 2024,[论文] [代码]
- 何时不应信任语言模型:探究参数化与非参数化记忆的有效性,ACL 2023,[论文]
- Atlas:基于检索增强语言模型的少样本学习,arXiv 2022,[论文] [代码]
- 具有演化条件记忆的个性化大语言模型助手,COLING 2025,[论文]
长上下文建模
- 递归记忆Transformer,NeurIPS 2022,[论文]
- 利用RMT将Transformer扩展到100万 tokens及以上,arXiv 2023,[论文]
- 调整语言模型以压缩上下文,EMNLP 2023,[论文]
- 大型语言模型中用于上下文压缩的上下文自编码器,ICLR 2024,[论文]
- 学习使用要点令牌压缩提示,NeurIPS 2023,[论文]
- CompAct:为问答任务主动压缩检索文档,EMNLP 2024,[论文]
缓解幻觉
- 消除大语言模型幻觉需要重新思考泛化能力,arXiv 2024,[论文]
- Memoria:通过受人类启发的记忆架构解决致命遗忘问题,ICML 2024,[论文]
- 百万专家混合模型,arXiv 2024,[论文]
- 仅在需要时检索:用于缓解大语言模型幻觉的自适应检索增强技术,arXiv 2024,[论文]
感知
单模态模型
文本
- BERT:面向语言理解的深度双向Transformer预训练,2018年,[论文] [代码]
- RoBERTa:鲁棒优化的BERT预训练方法,2019年,[论文] [代码]
- ALBERT:用于语言表征自监督学习的轻量级BERT,2019年,[论文] [代码]
图像
- 用于图像识别的深度残差学习,CVPR 2016,[论文] [代码]
- 基于Transformer的端到端目标检测,2020年,[论文] [代码]
- Grounding DINO 1.5:推进开放集目标检测的“前沿”,2024年,[论文] [代码]
视频
音频
- FastSpeech 2:快速且高质量的端到端文本转语音,2020年,[论文] [代码]
- Seamless:多语言、富有表现力且流式传输的语音翻译,2023年,[论文] [代码]
- wav2vec 2.0:用于语音表征自监督学习的框架,2020年,[论文] [代码]
其他单模态
- Visual ChatGPT:与视觉基础模型对话、绘图和编辑,2023年,[论文] [代码]
- HuggingGPT:借助ChatGPT及其在Hugging Face中的伙伴解决AI任务,2024年,[论文] [代码]
- MM-REACT:引导ChatGPT进行多模态推理与行动,2023年,[论文] [代码]
- ViperGPT:通过Python执行实现视觉推理,2023年,[论文] [代码]
- AudioGPT:理解并生成语音、音乐、声音以及会说话的头部,2024年,[论文] [代码]
- LLaVA-Plus:学习使用工具创建多模态智能体,2025年,[论文] [代码]
跨模态模型
文本-图像
- 从自然语言监督中学习可迁移的视觉模型,2021年,[论文] [代码]
- 利用噪声文本监督扩展视觉及视觉-语言表征学习,2021年,[论文]
- 通过更优质的标题提升图像生成效果,2023年,[论文]
- VisualBERT:一种简单高效的视觉与语言基准模型,2019年,[论文] [代码]
文本-视频
- VideoCLIP:用于零样本视频-文本理解的对比预训练,2021年,[论文] [代码]
- Phenaki:基于开放域文本描述的变长视频生成,2022年,[论文] [代码]
- Make-A-Video:无需文本-视频数据的文本到视频生成,2022年,[论文] [代码]
文本-音频
- Wav2CLIP:从CLIP中学习鲁棒的音频表征,2022年,[论文] [代码]
- VATT:用于从原始视频、音频和文本进行多模态自监督学习的Transformer,2021年,[论文] [代码]
- AudioCLIP:将CLIP扩展至图像、文本和音频,2022年,[论文] [代码]
其他跨模态
多模态模型
VLM(视觉-语言模型)
- MiniGPT-v2:大型语言模型作为视觉-语言多任务学习的统一接口,2023年,[论文] [代码]
- LLaVA-NeXT:改进的推理、OCR和世界知识,2024年,[论文] [代码]
- CogVLM2:用于图像和视频理解的视觉语言模型,2024年,[论文] [代码]
- Qwen2-VL:在任何分辨率下增强视觉-语言模型对世界的感知能力,2024年,[论文] [代码]
- 生成式多模态模型是上下文学习者,2024年,[论文] [代码]
边缘侧VLM
- TinyGPT-V:通过小型骨干网络实现高效的多模态大型语言模型,2023年,[论文] [代码]
- MobileVLM:面向移动设备的快速、强大且开源的视觉语言助手,2023年,[论文] [代码]
- MiniCPM-V:你手机上的GPT-4V级别多模态大型语言模型,2024年,[论文] [代码]
- OmniParser:纯视觉驱动的GUI代理,2024年,[论文] [代码]
VLA(视觉-语言-行动模型)
- CLIPort:用于机器人操作的“什么”与“哪里”路径规划,2022年,[论文] [代码]
- RT-1:面向大规模真实世界控制的机器人Transformer,2022年,[论文] [代码]
- 利用预训练视觉-语言模型进行开放世界物体操作,2023年,[论文] [代码]
- Perceiver-Actor:用于机器人操作的多任务Transformer,2023年,[论文] [代码]
- Diffusion Policy:基于动作扩散的视觉-运动策略学习,2023年,[论文] [代码]
- PaLM-E:具身多模态语言模型,2023年,[论文] [代码]
- MultiPLY:3D世界中的多感官、以对象为中心的具身大型语言模型,2024年,[论文] [代码]
ALM(音频-语言模型)
- Audio Flamingo:一种具有少样本学习和对话能力的新颖音频语言模型,2024年,[论文] [代码]
- SpeechVerse:大规模可泛化的音频语言模型,2024年,[论文]
- UniAudio 1.5:由大型语言模型驱动的音频编解码器是少样本音频任务学习者,2024年,[论文] [代码]
- Qwen2-Audio技术报告,2024年,[论文] [代码]
- AudioLM:一种基于语言建模的音频生成方法,2024年,[论文] [代码]
- Mini-Omni:语言模型可以在流式处理中听、说并思考,2024年,[论文] [代码]
- SpeechGPT:赋予大型语言模型内在的跨模态对话能力,2023年,[论文] [代码]
AVLM(音频-视觉-语言模型)
- ONE-PEACE:探索一种通用表示模型,迈向无限模态,2023年,[论文] [代码]
- PandaGPT:一个模型即可完成所有指令遵循任务,2023年,[论文] [代码]
- Macaw-LLM:融合图像、音频、视频和文本的多模态语言建模,2023年,[论文] [代码]
- LanguageBind:通过基于语言的语义对齐,将视频-语言预训练扩展到N模态,2023年,[论文] [代码]
- UnIVAL:用于图像、视频、音频和语言任务的统一模型,2023年,[论文] [代码]
- X-LLM:通过将多模态视为外语来构建先进的大型语言模型,2023年,[论文] [代码]
其他多模态
- PointLLM:赋能大型语言模型理解点云数据,2025年,[论文] [代码]
- MiniGPT-3D:利用2D先验高效对齐3D点云与大型语言模型,2024年,[论文] [代码]
- NExT-GPT:任意模态之间的多模态大型语言模型,2023年,[论文] [代码]
- Unified-IO 2:扩展自回归多模态模型,涵盖视觉、语言、音频和行动,2024年,[论文] [代码]
- CoDi-2:任意模态之间的上下文内、交错式和交互式生成,2024年,[论文] [代码]
- ModaVerse:利用大型语言模型高效转换模态,2024年,[论文] [代码]
世界模型
外部方法
DINO-WM [358]:基于预训练视觉特征的视频世界模型实现零样本规划,arXiv 2024年,[论文],[[代码][]]
SAPIEN [351]:基于部件的交互式仿真环境,CVPR 2020年,[论文],[[代码][]]
MuZero [349]:通过学习模型规划掌握雅达利、围棋、国际象棋和将棋,Nature 2020年,[论文],[[代码][]]
GR-2 [357]:具有网络规模知识的生成式视频-语言-动作模型用于机器人操作,arXiv 2024年,[论文],[[代码][]]
COAT [356]:利用大型语言模型发现隐藏的世界,arXiv 2024年,[论文],[[代码][]]
AutoManual [108]:通过LLM智能体结合交互式环境学习生成使用说明书,arXiv 2024年,[论文],[[代码][]]
PILCO [355]:一种基于模型且数据高效的策略搜索方法,ICML 2011年,[论文],[[代码][]]
内部方法
ActRe [49]:ReAct遇上ActRe:用于对比自监督学习的智能体轨迹自主标注,arXiv 2024年,[论文],[[代码][]]
世界模型 [348]:世界模型,NeurIPS 2018年,[论文],[[代码][]]
Dreamer [350]:梦想即控制:通过潜在想象学习行为,ICLR 2020年,[论文],[[代码][]]
扩散世界模型 [353]:用于世界建模的扩散模型——雅达利游戏中视觉细节至关重要,arXiv 2024年,[论文],[[代码][]]
GQN [354]:神经场景表示与渲染,Science 2018年,[论文],[[代码][]]
Daydreamer [352]:用于物理机器人学习的世界模型,CoRL 2023年,[论文],[[代码][]]
行动
行动空间:
语言
文本
AutoGPT:构建、部署和运行AI智能体,Github,[代码]
代码
聊天
数字
游戏
多模态
网络
WebShop:迈向可扩展的真实世界网络交互——基于 grounded语言模型的智能体,NeurIPS 2022,[论文] [代码]
具备规划、长上下文理解与程序合成能力的真实世界网络智能体,ICLR 2024,[论文]
GUI
数据库与知识图谱
Alpha-SQL:基于蒙特卡洛树搜索的零样本文本到SQL转换,ICML 2025,[论文]
LLM是否已经可以作为数据库接口?大规模数据库接地文本到SQL的大规模基准测试,NeurIPS 2025,[论文] [项目]
物理
π0:用于通用机器人控制的视觉-语言-动作流模型,arXiv 2024,[论文]
学习
ICL(上下文学习)
提示
分解
Least-to-Most:由低到高提示使大型语言模型具备复杂推理能力,ICLR 2023,[论文]
HuggingGPT:Hugginggpt——结合ChatGPT及其在Hugging Face中的伙伴解决AI任务,NeurIPS 2024,[论文] [代码]
Plan-and-Solve:计划与求解提示——提升大型语言模型的零样本思维链推理能力,ACL 2023,[论文] [代码]
ProgPrompt:Progprompt——利用大型语言模型生成情境化的机器人任务规划,ICRA 2023,[论文] [项目]
角色扮演
精炼
PT & SFT(预训练与监督微调)
预训练
微调
CogACT:CogACT——用于协同机器人操作中认知与动作的基础性视觉-语言-动作模型,arXiv 2024,[论文] [项目]
$\pi_0$:$\pi_0$——一种用于通用机器人控制的视觉-语言-动作流模型,arXiv 2024,[论文] [项目]
强化学习 (RL)
RLHF:利用人类反馈训练语言模型遵循指令,NeurIPS 2022,[论文]
DPO:直接偏好优化:你的语言模型其实是一个奖励模型,NeurIPS 2023,[论文]
LEA:基于强化学习和大型语言模型的状态奖励与动作建模的推荐系统,ACM 2024,[论文]
MLAQ:通过Q-learning实现零样本最优决策,赋能LLM智能体,ICLR 2025,[论文]
When2Ask:通过强化学习实现智能体与LLM之间的智能交互,RLC 2024,[论文]
奖励
外在奖励
密集奖励
- 利用人类反馈训练语言模型遵循指令,2022年,[论文] [代码]
- 用于大型语言模型对齐的离线正则化强化学习,2024年,[论文]
- sDPO:不要一次性用尽你的数据,2024年,[论文]
- 理解基于人类偏好学习的一般理论范式,2024年,[论文]
- β-DPO:带有动态β的直接偏好优化,2025年,[论文]
- ORPO:无需参考模型的整体式偏好优化,2024年,[论文] [代码]
- 直接纳什优化:用通用偏好教导语言模型自我改进,2024年,[论文]
- 超越反向KL:通过多样化的散度约束推广直接偏好优化,2023年,[论文]
- 有些东西比其他东西更让人尴尬:基于成对“尴尬”损失的迭代偏好优化,2023年,[论文]
- 从r到Q∗:你的语言模型其实是一个Q函数,2024年,[论文] [代码]
稀疏奖励
- PAFT:一种用于高效微调LLM的并行训练范式,2024年,[论文]
- SimPO:一种无需参考奖励的简单偏好优化,2025年,[论文] [代码]
- LiPO:通过排序学习进行列表式偏好优化,2024年,[论文] [代码]
- RRHF:无需泪水地通过人类反馈对齐语言模型的回答排名,2023年,[论文] [代码]
- 用于人类对齐的偏好排序优化,2024年,[论文] [代码]
- 否定消极样本:通过分布式非偏好优化实现与人类负面样本对齐,2024年,[论文]
- 负向偏好优化:从灾难性崩溃到有效遗忘,2024年,[论文] [代码]
- 回归基础:重新审视LLM中基于人类反馈学习的REINFORCE风格优化,2024年,[论文] [代码]
延迟奖励
自适应奖励
- 利用人类反馈训练语言模型遵循指令,2022年,[论文] [代码]
- 用于大型语言模型对齐的离线正则化强化学习,2024年,[论文]
- β-DPO:带有动态β的直接偏好优化,2025年,[论文]
- ORPO:无需参考模型的整体式偏好优化,2024年,[论文] [代码]
- PAFT:一种用于高效微调LLM的并行训练范式,2024年,[论文]
- SimPO:一种无需参考奖励的简单偏好优化,2025年,[论文] [代码]
- 基于人类反馈的纳什学习,2023年,[论文]
- 一种极小极大主义的基于人类反馈的强化学习方法,2024年,[论文]
- 超越反向KL:通过多样化的散度约束推广直接偏好优化,2023年,[论文]
内在奖励
好奇心驱动的奖励
- 基于自监督预测的 curiosity-driven 探索, 2017, [论文] [代码]
- 通过分歧进行的自监督探索, 2019, [论文] [代码]
- 利用自监督世界模型规划探索, 2020, [论文] [代码]
多样性奖励
- Liir:多智能体强化学习中的个体内在奖励学习, 2019, [论文]
能力基础奖励
- CURIOUS:内在动机的模块化多目标强化学习, 2019, [论文] [代码]
- Skew-Fit:状态覆盖的自监督强化学习, 2019, [论文]
- DISCERN:基于多样性的质心选择,用于 k-估计与快速非随机聚类, 2021, [论文] [代码]
- 自我博弈微调将弱语言模型转化为强语言模型, 2024, [论文] [代码]
- KTO:作为前景理论优化的模型对齐, 2024, [论文] [代码]
探索奖励
信息增益奖励
- 通过信息论理解大语言模型中的思维链, 2024, [论文]
- VIME:变分信息最大化探索, 2016, [论文] [代码]
- EMI:基于互信息的探索, 2019, [论文] [代码]
- 基于模型的主动探索, 2019, [论文] [代码]
- KTO:作为前景理论优化的模型对齐, 2024, [论文] [代码]
混合奖励
内在奖励与外在奖励的结合
- RLAIF vs. RLHF:通过 AI 反馈扩展人类反馈强化学习, 2023, [论文]
- 宪法式 AI:来自 AI 反馈的无害性, 2022, [论文] [代码]
- 基于人类反馈的迭代偏好学习:在 KL 约束下弥合理论与实践的 RLHF, 2023, [论文]
- RLHF 工作流:从奖励建模到在线 RLHF, 2024, [论文] [代码]
层次奖励
层次奖励
情感
智能体中的自我提升
优化空间
提示
多步任务中的提示优化(promst):整合人类反馈与偏好对齐, EMNLP 2024 [论文]
StraGo:利用战略指导进行提示优化, EMNLP 2024 [论文]
大型语言模型与进化算法的结合可产生强大的提示优化器, ICLR 2024 [论文]
工作流
工具
优化算法
优化策略
大型语言模型是人类级别的提示工程师,ICLR 2023 [论文]
基于“梯度下降”和束搜索的自动提示优化,EMNLP 2023 [论文]
GPTSwarm:可优化图结构的语言智能体,ICML 2024 [论文]
Promptbreeder:通过提示进化实现自指性的自我改进,ICML 2024 [论文]
教导大型语言模型进行自我调试,ICLR 2024 [论文]
大型语言模型作为优化器,ICLR 2024 [论文]
DSPy:将声明式语言模型调用编译为可自我改进的流水线,ICLR 2024 [论文]
为提示工程师设计提示工程,ACL 2024 研究成果 [论文]
多步任务中的提示优化(promst):整合人类反馈与偏好对齐,EMNLP 2024 [论文]
StraGo:利用战略指导进行提示优化,EMNLP 2024 [论文]
针对多阶段语言模型程序的指令与示范优化,EMNLP 2024 [论文]
Trace 是下一代 AutoDiff:结合丰富反馈、执行轨迹与大模型的生成式优化,NeurIPS 2024 [论文]
通过反向传播语言模型反馈优化生成式 AI,Nature [论文]
大型语言模型是优秀的提示优化器吗?,arXiv [论文]
理论视角
将上下文学习解释为隐式贝叶斯推断,ICLR 2022,[论文]
重新思考示范的作用:是什么让上下文学习奏效?,EMNLP 2022,[论文]
Transformer 在上下文中能学习什么?以简单函数类为例,NeurIPS 2022,[论文]
上下文学习究竟是一种怎样的学习算法?基于线性模型的探究,ICLR 2023,[论文]
Transformer 通过梯度下降在上下文中学习,ICML 2023,[论文]
Transformer 学会实现上下文线性回归的二阶收敛速度,NeurIPS 2024,[论文]
应用场景
在线优化
Reflexion:具备言语强化学习能力的语言智能体,NeurIPS 2023,[论文]
Self-refine:基于自我反馈的迭代精炼,NeurIPS 2023,[论文]
ReAct:在语言模型中协同推理与行动,ICLR 2023,[论文]
思维之树:利用大型语言模型进行深思熟虑的问题解决,NeurIPS 2023,[论文]
Voyager:一个基于大型语言模型的开放式具身智能体,TMLR 2024,[论文]
让我们逐步验证,ICLR 2024,[论文]
MetaGPT:用于多智能体协作框架的元编程,ICLR 2024,[论文]
Camel:用于探索大型语言模型社会“心智”的沟通型智能体,NeurIPS 2023,[论文]
ChatDev:用于软件开发的沟通型智能体,ACL 2024,[论文]
Hugginggpt:借助 ChatGPT 及其在 Hugging Face 中的伙伴解决 AI 任务,NeurIPS 2023,[论文]
自学优化器(STOP):递归式自我改进的代码生成,COLM 2024,[论文]
Quiet-star:语言模型可以学会在开口前先思考,CoRR 2024,[论文]
Text2reward:为强化学习自动生成密集奖励函数,ICLR 2024,[论文]
通过逆向 LLM 输出提取提示,ACL 2024,[论文]
通过自引导优化对齐大型语言模型,arXiv 2024,[论文]
通过自引导优化对齐大型语言模型,arXiv 2024,[论文]
离线优化
大型语言模型是优秀的统计学家吗?,NeurIPS 2024,[论文]
nvBench 2.0:一种面向模糊情境下的自然语言到可视化基准测试,arXiv 2025,[论文]
Srag:面向维基百科图谱的多实体问答的结构化检索增强生成,arXiv 2025,[论文]
面向视觉问答的细粒度检索增强生成,arXiv 2025,[论文]
xLAM:赋能 AI 智能体系统的大型动作模型家族,arXiv 2024,[论文]
智能体系统的自动化设计,arXiv 2024,[论文]
LIRE:用于偏好对齐的列表式奖励增强,ACL 2024,[论文]
科学知识发现
假设生成与验证
大型语言模型能否生成新颖的研究思路?一项由100多名自然语言处理研究人员参与的大规模人类研究,arXiv 2024年,[论文]
SciAgents:通过生物启发的多智能体智能图推理实现科学发现自动化,Advanced Materials 2024年,[论文]
Genesis:迈向系统生物学研究的自动化,arXiv 2024年,[论文]
AI科学家:迈向完全自动化的开放式科学发现,arXiv 2024年,[论文]
Agent Laboratory:使用大型语言模型代理作为研究助理,arXiv 2025年,[论文]
ChemAgent:大型语言模型中的自我更新库提升化学推理能力,arXiv 2025年,[论文]
ChemOS 2.0:用于化学自动驾驶实验室的编排架构,Matter 2024年,[论文]
迈向AI联合科学家,arXiv 2025年,[论文]
实验方案规划与工具创新
用于探索性合成化学的自主移动机器人,Nature 2024年,[论文]
有机激光发射体的非局部、异步、闭环发现,Science 2024年,[论文]
虚拟实验室:AI代理设计新型SARS-CoV-2纳米抗体并经实验验证,bioRxiv 2024年,[论文]
数据分析与结论推导
无需人类示范即可解决奥林匹克几何问题,Nature 2024年,[论文]
面向基因表达数据科学发现的AI科学家团队,arXiv 2024年,[论文]
数据解释器:用于数据科学的LLM代理,arXiv 2024年,[论文]
协作与进化型智能系统
应用
战略学习
- RECONCILE(Chen等,2023)
- LLM-Game-Agent(Lan等,2023)
- BattleAgentBench(Wang等,2024)
建模与仿真
- Generative Agents(Park等,2023)
- Agent Hospital(Li等,2024)
- MedAgents(Tang等,2024)
- MEDCO(Wei等,2024)
协作式任务解决
- MetaGPT(Hong等,2023)
- ChatDev(Qian等,2024)
- Agent Laboratory(Schmidgall等,2025)
- The Virtual Lab(Swanson等,2024)
组成与协议
代理组成
同质性
- CoELA(Zhang等,2023)
- VillagerAgent(Dong等,2024)
- LLM-Coordination(Agashe等,2024)
异质性
- MetaGPT(Hong等,2023)
- ChatDev(Qian等,2024)
- Generative Agents(Park等,2023)
- S-Agents(Chen等,2024)
交互协议
消息类型
- SciAgents(Ghafarollahi等,2024)
- AppAgent(Chi等,2023)
- MetaGPT(Hong等,2023)
通信接口
- AgentBench(Liu等,2023)
- VAB(Liu等,2024)
- TaskWeaver(Qiao等,2024)
- HULA(Takerngsaksiri等,2025)
下一代协议
- MCP(Anthropic)
- Agora(Marro等,2024)
- IoA(Chen等,2024)
拓扑结构
静态拓扑
- MEDCO(Wei等,2024)
- Agent Hospital(Li等,2024)
- Welfare Diplomacy(Mukobi等,2023)
- MedAgents(Tang等,2024)
动态拓扑
- DyLAN(Liu等,2023)
- GPTSwarm(Zhuge等,2024)
- CodeR(Chen等,2024)
- Oasis(Yang等,2024)
协作
代理间协作
基于共识
- Agent Laboratory(Schmidgall等,2025)
- The Virtual Lab(Swanson等,2024)
- OASIS(Yang等,2024)
协作学习
- Generative Agents(Park等,2023)
- Welfare Diplomacy(Mukobi等,2023)
- LLM-Game-Agent(Lan等,2023)
- BattleAgentBench(Wang等,2024)
教学/指导
- MEDCO(Wei等,2024)
- Agent Hospital(Li等,2024)
任务导向
- MedAgents(Tang等,2024)
- S-Agents(Chen等,2024)
人机协作
- Dittos(Leong等,2024)
- PRELUDE(Gao等,2024)
进化
集体智慧
- Generative Agents(Park等,2023)
- Welfare Diplomacy(Mukobi等,2023)
- LLM-Game-Agent(Lan等,2023)
- BattleAgentBench(Wang等,2024)
个体适应性
- Agent Hospital(Li等,2024)
- Agent Laboratory(Schmidgall等,2025)
- MEDCO(Wei等,2024)
评估
针对特定任务的基准测试
- MBPP(dataset-mbpp)
- HotpotQA(dataset-hotpot-qa)
- MATH(dataset-math)
- SVAMP(dataset-svamp)
- MultiArith(dataset-multiarith)
针对MAS的基准测试
- Collab-Overcooked(Sun等,2025)
- REALM-Bench(Geng等,2025)
- PARTNR(Chang等,2024)
- VillagerBench(Dong等,2024)
- AutoArena(Zhao等,2024)
- MultiagentBench(Zhu等,2025)
构建安全且有益的AI
安全威胁
越狱
白盒越狱
针对对齐语言模型的越狱攻击与防御:综述, arXiv 2024, [论文]
对齐语言模型的通用且可迁移的对抗性攻击, arXiv 2023, [论文]
利用动量增强越狱攻击, arXiv 2024, [论文]
基于优化的大语言模型越狱技术改进, arXiv 2024, [论文]
通过句末MLP重新加权实现指令微调后的LLM越狱, arXiv 2024, [论文]
打开大语言模型的潘多拉魔盒:通过表征工程实现LLM越狱, arXiv 2024, [论文]
DROJ:一种针对大型语言模型的提示驱动攻击, arXiv 2024, [论文]
Autodan:在对齐的大语言模型上生成隐蔽的越狱提示, arXiv 2023, [论文]
POEX:政策可执行的具身AI越狱攻击, arXiv 2024, [论文]
黑盒越狱
被越狱了:LLM的安全训练为何会失效?, NeurIPS 2023, [论文]
在二十次查询内越狱黑盒大型语言模型, arXiv 2023, [论文]
通过密码字符越狱大型语言模型的审核护栏, NeurIPS 2024, [论文]
视觉对抗样本越狱对齐的大语言模型, AAAI 2024, [论文]
POEX:政策可执行的具身AI越狱攻击, arXiv 2024, [论文]
Autodan:在对齐的大语言模型上生成隐蔽的越狱提示, arXiv 2023, [论文]
Guard:通过角色扮演生成自然语言越狱提示以测试大型语言模型的准则遵守情况, arXiv 2024, [论文]
启发式诱导的多模态风险分布越狱攻击:针对多模态大型语言模型, arXiv 2024, [论文]
Rt攻击:通过随机令牌越狱文本到图像模型, arXiv 2024, [论文]
提示注入
直接提示注入
这不是你所期望的:利用间接提示注入攻陷现实世界中集成LLM的应用程序, AISec@CCS 2023, [论文]
针对大型语言模型的自动且通用的提示注入攻击, arXiv 2024, [论文]
基于优化的提示注入攻击:针对作为评判者的LLM, CCS 2024, [论文]
工具集成型大型语言模型代理中的间接提示注入基准测试, arXiv 2024, [论文]
不要信任AI:沿着CIA安全三要素进行提示注入, arXiv 2024, [论文]
大型视觉-语言模型在视觉提示注入导致的目标劫持方面的实证分析, arXiv 2024, [论文]
2024年SaTML LLM夺旗竞赛的数据集及经验教训, arXiv 2024, [论文]
忽略这个标题并HackAPrompt:通过全球提示黑客竞赛揭示LLM的系统性漏洞, EMNLP 2023, [论文]
间接提示注入
这不是你所期望的:利用间接提示注入攻陷现实世界中集成LLM的应用程序, AISec@CCS 2023, [论文]
HijackRAG:针对检索增强型大型语言模型的劫持攻击, arXiv 2025, [论文]
用于检索增强生成大型语言模型提示注入攻击的后门检索器, arXiv 2024, [论文]
提示感染:多智能体系统内的LLM到LLM提示注入, arXiv 2024, [论文]
针对大型语言模型的对抗性搜索引擎优化, arXiv 2024, [论文]
幻觉
知识冲突型幻觉
自然语言生成中的幻觉研究综述, ACM 计算评论 2023年, [论文]
大型语言模型中幻觉的综述:原理、分类、挑战与开放问题, arXiv 2023年, [论文]
DELUCIONQA:领域特定问答系统中的幻觉检测, EMNLP 2023年成果, [论文]
大型语言模型在金融领域的不足:幻觉的实证研究, NeurIPS 2023年故障模式研讨会, [论文]
MetaGPT:面向多智能体协作框架的元编程, ICLR 2023年, [论文]
幻觉不可避免:大型语言模型的先天性局限, arXiv 2024年, [论文]
ERBench:基于实体关系的大型语言模型自动可验证幻觉基准测试集, arXiv 2024年, [论文]
上下文冲突型幻觉
真相感知的上下文选择:缓解大型语言模型因虚假上下文而产生的幻觉, arXiv 2024年, [论文]
大型语言模型极易被误导:量化指标、安全影响及类型学分析, arXiv 2024年, [论文]
HaluEval-Wild:评估大型语言模型在真实场景下的幻觉情况, arXiv 2024年, [论文]
大型视觉-语言模型中目标幻觉的分析与缓解, ICLR 2023年, [论文]
通过无分类器指导缓解大型视觉-语言模型中的目标幻觉, arXiv 2024年, [论文]
当大型语言模型与人类相悖时?大型语言模型的阿谀奉承行为, arXiv 2023年, [论文]
HallusionBench:用于检测大型视觉-语言模型中语言幻觉与视觉错觉交织现象的高级诊断工具包, CVPR 2024年, [论文]
DiaHalu:大型语言模型的对话级幻觉评估基准, arXiv 2024年, [论文]
偏差
目标偏离型偏差
人工智能对齐:全面综述, arXiv 2023年, [论文]
规范博弈:人工智能创造力的另一面, DeepMind 博客 2020年, [论文]
从深度学习视角看对齐问题, arXiv 2022年, [论文]
模拟失调:大型语言模型的安全对齐可能适得其反!, arXiv 2024年, [论文]
社会规范演变中的智能体对齐, arXiv 2024年, [论文]
模型融合与安全对齐:一个不良模型会毁掉整个群体, arXiv 2024年, [论文]
能力滥用型偏差
可信的LLM:评估大型语言模型对齐程度的综述与指南, arXiv 2023年, [论文]
通过剪枝和低秩修改评估安全对齐的脆弱性, arXiv 2024年, [论文]
人工智能对齐:全面综述, arXiv 2023年, [论文]
对齐后的语言模型进行微调会损害安全性,即使用户并无此意图!, arXiv 2023年, [论文]
大型语言模型中对齐的根本局限性, arXiv 2023年, [论文]
毒化攻击
模型毒化
预训练模型上的权重毒化攻击,ACL 2020,[论文]
Badedit:通过模型编辑对大型语言模型进行后门植入,arXiv 2024,[论文]
哲学家的石头:大型语言模型插件中的特洛伊木马,arXiv 2023,[论文]
Obliviate:在参数高效微调范式中中和与任务无关的后门,arXiv 2024,[论文]
被毒化的ChatGPT为无所事事的人找到工作:利用受污染AI模型的不安全建议探索开发者的编码实践,IEEE S&P 2024,[论文]
生成式AI智能体之间的秘密合谋,arXiv 2024,[论文]
通过防御感知的架构后门利用大型语言模型的漏洞,arXiv 2024,[论文]
数据毒化
指令微调过程中对语言模型的毒化,ICML 2023,[论文]
Agentpoison:通过毒化记忆或知识库对LLM智能体进行红队测试,NeurIPS 2025,[论文]
Poison-RAG:推荐系统中检索增强生成的对抗性数据毒化攻击,arXiv 2025,[论文]
PoisonBench:评估大型语言模型对数据毒化的脆弱性,arXiv 2024,[论文]
人类反馈的阴暗面:通过用户输入毒化大型语言模型,arXiv 2024,[论文]
LLM中数据毒化的缩放定律,arXiv 2024,[论文]
话太多:在令牌限制下毒化大型语言模型,arXiv 2024,[论文]
最佳之毒:通过注入受污染的偏好数据攻击RLHF,arXiv 2024,[论文]
后门注入
潜伏者:训练能够经受安全训练仍存续的欺骗性LLM,arXiv 2024,[论文]
Wipi:面向LLM驱动网络代理的新网络威胁,arXiv 2024,[论文]
探索针对基于大型语言模型决策的后门攻击,arXiv 2024,[论文]
当后门开口说话时:通过模型生成的解释理解LLM后门攻击,arXiv 2024,[论文]
利用虚拟提示注入对指令微调后的大型语言模型进行后门植入,NAACL 2024,[论文]
隐私威胁
训练数据推断
成员身份推断攻击
针对机器学习模型的成员身份推断攻击,IEEE S&P 2017,[论文]
秘密分享者:评估与测试神经网络中的意外记忆现象,USENIX Security 2019,[论文]
仅标签成员身份推断攻击,ICML 2021,[论文]
通过自提示校准对微调后的大型语言模型实施实用成员身份推断攻击,arXiv 2023,[论文]
从基本原理出发的成员身份推断攻击,IEEE S&P 2022,[论文]
机器学习中的成员身份推断攻击:综述,ACM Computing Surveys 2022,[论文]
数据提取攻击
从大型语言模型中提取训练数据,USENIX Security 2021,[论文]
特殊字符攻击:迈向可扩展的大型语言模型训练数据提取,arXiv 2024,[论文]
伦理学家:通过损失平滑的软提示和校准置信度估计进行目标性训练数据提取,arXiv 2023,[论文]
语言模型反演,arXiv 2023,[论文]
通用语言模型的隐私风险,IEEE S&P 2020,[论文]
量化跨神经语言模型的记忆现象,arXiv 2022,[论文]
窃取生产级语言模型的一部分,arXiv 2024,[[论文](https://arxiv.org
交互数据推断
系统提示窃取
忽略先前提示:针对语言模型的攻击技术,TSRML@NeurIPS 2022,[论文]
针对文本到图像生成模型的提示窃取攻击,USENIX Security 2024,[论文]
保护大语言模型的系统提示,arXiv 2024,[论文]
InputSnatch:通过时序侧信道攻击窃取大语言模型服务中的输入,arXiv 2024,[论文]
从语言模型中有效提取提示,arXiv 2023,[论文]
最后的赢家:软提示调优、LoRA 和上下文学习的安全与隐私比较分析,arXiv 2023,[论文]
大语言模型应用商店分析:愿景与路线图,ACM TOSEM 2024,[论文]
用户提示窃取
Prsa:针对大型语言模型的提示反向窃取攻击,arXiv 2024,[论文]
多轮大语言模型交互中的提示泄露效应及防御策略,arXiv 2024,[论文]
探究多轮大语言模型交互中的提示泄露效应及黑盒防御方法,arXiv 2024,[论文]
我的提示为何会被泄露?揭秘定制化大型语言模型中的提示提取威胁,arXiv 2024,[论文]
Pleak:针对大型语言模型应用的提示泄露攻击,CCS 2024,[论文]
从专家混合模型中窃取用户提示,arXiv 2024,[论文]
通过反演大语言模型输出提取提示,arXiv 2024,[论文]
非大脑部分的威胁
感知安全威胁
对抗性攻击
文本类
大语言模型可以自欺其人:一种基于提示的对抗性攻击,arXiv 2023,[论文]
重新审视语言模型的字符级对抗性攻击,ICML 2024,[论文]
让困难提示变得简单:基于梯度的离散优化用于提示调优与发现,NeurIPS 2024,[论文]
对齐语言模型的通用且可迁移的对抗性攻击,arXiv 2023,[论文]
视觉类
图像劫持:对抗性图像可在运行时控制生成模型,arXiv 2023,[论文]
基于图像的多模态模型作为入侵者:针对视频型多模态大语言模型的可迁移多模态攻击,arXiv 2025,[论文]
剖析多模态语言模型代理的对抗鲁棒性,ICLR 2025,[论文]
波尔特盖斯特:针对摄像头和计算机视觉的声学对抗机器学习,IEEE S&P 2021,[论文]
听觉类
不可闻的对抗扰动:实时操纵用户语音识别,arXiv 2023,[论文]
无声操控者:针对语音识别系统的实用且不可闻后门攻击,ACM Multimedia 2023,[论文]
利用对抗性超声波在注册阶段对说话人识别系统进行后门攻击,IEEE IoT Journal 2023,[论文]
Ultrabd:通过对抗性超声波对自动说话人验证系统进行后门攻击,ICPADS 2023,[论文]
海豚攻击:不可闻的语音命令,CCS 2017,[论文]
其他模态
自动驾驶车辆中基于LiDAR的机器学习感知的对抗鲁棒性综述,arXiv 2024,[论文]
通过故意施加声音噪声干扰陀螺仪传感器来晃动无人机,USENIX Security 2015,[论文]
多智能体通信中的对抗性攻击,ICCV 2021,[论文]
用于增强自动驾驶车辆安全性的一种GPS定位欺骗攻击检测方法,IEEE VTC-Fall 2021,[论文]
错误感知问题
利用在线强化学习将大型语言模型置于交互环境中,ICML 2023,[论文]
大型语言模型中的偏见与公平性:一项综述,计算语言学 2024,[论文]
利用因果匹配进行领域泛化,ICML 2021,[论文]
GEM:无论强光还是昏暗,我都能看见你——端到端多模态目标检测,IEEE RA-L 2021,[论文]
NPHardEval:通过复杂度类动态评估大型语言模型的推理能力,arXiv 2023,[论文]
在线社交系统中意见错误感知及沉默现象的建模,PLOS ONE 2024,[论文]
弥合多智能体感知的领域差距,ICRA 2023,[论文]
多智能体强化学习中的合作与竞争偏见,arXiv 2021,[论文]
与模型无关的多智能体感知框架,ICRA 2023,[论文]
多智能体通信游戏中语言与感知之间的相互影响,PLOS 计算生物学 2022,[论文]
行动安全威胁
供应链攻击
LLM安全的新时代:探索真实世界中基于LLM系统的安全问题,arXiv 2024,[论文]
Wipi:面向LLM驱动Web代理的新型网络威胁,arXiv 2024,[论文]
利用LM模拟沙盒识别LM代理的风险,arXiv 2023,[论文]
并非你所期望的:通过间接提示注入攻陷真实世界的LLM集成应用,AISec@CCS 2023,[论文]
工具集成大型语言模型代理中的间接提示注入基准测试,arXiv 2024,[论文]
工具使用风险
利用LM模拟沙盒识别LM代理的风险,arXiv 2023,[论文]
Toolsword:揭示大型语言模型在工具学习三个阶段中的安全问题,arXiv 2024,[论文]
工具集成大型语言模型代理中的间接提示注入基准测试,arXiv 2024,[论文]
代理外部安全
代理-内存交互威胁
检索增强生成
Agentpoison:通过污染记忆或知识库对LLM代理进行红队测试,NeurIPS 2025,[论文]
ConfusedPilot:基于RAG的LLM中的混淆代理风险,arXiv 2024,[论文]
PoisonedRAG:针对大型语言模型检索增强生成的知识污染攻击,arXiv 2024,[论文]
机器对抗RAG:用阻断文档干扰检索增强生成,arXiv 2024,[论文]
BadRAG:识别大型语言模型检索增强生成中的漏洞,arXiv 2024,[论文]
TrojanRAG:检索增强生成可能成为大型语言模型中的后门驱动器,arXiv 2024,[论文]
语法中的低语:注入隐蔽后门以攻陷密集检索系统,arXiv 2024,[论文]
代理-环境交互威胁
物理环境
自动驾驶车辆:复杂攻击、安全问题、挑战、开放议题、区块链及未来方向,JCP 2023,[论文]
动态环境中机器人团队协作面临的工程挑战,Applied Sciences 2020,[论文]
关于空中平台的GPS欺骗:威胁、挑战、方法论及未来研究方向综述,PeerJ Computer Science 2021,[论文]
信息物理系统中的安全与隐私:综述,IEEE Communications Surveys & Tutorials 2017,[论文]
针对基于LiDAR的自动驾驶系统的对抗性物体,arXiv 2019,[论文]
在现实世界中以最小的人力成本学会行走,arXiv 2020,[论文]
优先保障而非自主:LLM代理对科学的风险,arXiv 2024,[论文]
数字环境
LLM安全的新时代:探索真实世界中基于LLM系统的安全问题,arXiv 2024,[论文]
揭秘LLM集成应用中的RCE漏洞,CCS 2024,[论文]
Wipi:面向LLM驱动Web代理的新型网络威胁,arXiv 2024,[论文]
大型语言模型在DDoS攻击检测中的应用,SPCPS 2023,[论文]
迫使LLM做并泄露(几乎)任何事情,arXiv 2024,[论文]
优先保障而非自主:LLM代理对科学的风险,arXiv 2024,[论文]
EIA:针对通用Web代理的环境注入攻击以实现隐私泄露,arXiv 2024,[论文]
AdvWeb:针对VLM赋能Web代理的可控黑盒攻击,arXiv 2024,[论文]
AGrail:具有有效且自适应安全检测功能的终身代理护栏,arXiv 2025,[论文]
代理-代理交互威胁
竞争性交互
来自先进AI的多智能体风险,arXiv 2025,[论文]
被蒙蔽:语言模型文本游戏中的欺骗与合作,arXiv 2023,[论文]
用解耦式对抗策略攻击深度强化学习,IEEE TDSC 2022,[论文]
拒绝服务攻击下多智能体系统的安全共识,Asian Journal of Control 2023,[论文]
完美合谋基准:如何以信息论不可检测的方式阻止AI代理合谋?,NeurIPS 2023多智能体安全研讨会,[论文]
合作性交互
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。