awesome-multi-agent-papers
awesome-multi-agent-papers 是由 Swarms 团队精心整理的多智能体(Multi-Agent)领域前沿论文合集。随着大语言模型从单一对话向复杂协作演进,如何设计高效的智能体系统成为技术难点,而该资源库正是为了解决研究者与开发者在海量文献中难以快速定位高质量成果的痛点而生。
这里汇集了关于智能体协作机制、系统架构设计及自动化生成的顶级研究,涵盖了如 AutoGen、AgentScope 等知名框架的理论基础,以及“更多智能体即所需”、“零监督系统设计”等创新理念。通过分类清晰的列表,用户可以直接获取论文名称、核心简介及原文链接,极大提升了科研调研与技术选型的效率。
这份合集特别适合人工智能研究人员、算法工程师以及对多智能体系统感兴趣的技术决策者使用。无论你是希望深入探索智能体间的思维通信与博弈推理,还是正在寻找构建下一代自主协作系统的理论支撑,awesome-multi-agent-papers 都能为你提供坚实的知识基石,帮助你紧跟这一快速发展的技术浪潮。
使用场景
某金融科技公司算法团队正致力于研发一套基于多智能体协作的自动化投研系统,旨在通过多个大模型角色的分工合作来提升复杂市场数据的分析精度。
没有 awesome-multi-agent-papers 时
- 文献检索效率低下:研究人员需在 arXiv 等海量数据库中手动筛选关键词,耗时数周才能拼凑出零散的多智能体架构资料。
- 技术选型盲目试错:缺乏对《AutoGen》、《MAS-Zero》等前沿论文的系统性认知,导致团队在通信机制和任务调度上重复造轮子。
- 长上下文处理瓶颈:未及时发现《LongAgent》等针对长文本协作的解决方案,使得系统在分析长篇财报时频繁出现信息丢失。
- 协作逻辑设计薄弱:缺少《K-Level Reasoning》等关于博弈与推理的理论支撑,智能体间难以形成深度的协同决策能力。
使用 awesome-multi-agent-papers 后
- 前沿成果一键获取:直接利用该清单锁定《Thought Communication in Multiagent Collaboration》等顶会论文,将调研周期从数周压缩至两天。
- 架构设计有据可依:参考《Mixture-of-Agents》和《Chain of Agents》中的成熟模式,快速构建了高鲁棒性的智能体交互拓扑。
- 性能瓶颈精准突破:依据《AgentScope》平台特性优化部署方案,成功实现了 128k 上下文窗口的稳定多智能体并行处理。
- 推理能力显著增强:引入《EvoAgent》的进化算法思想,让智能体自主优化协作策略,大幅提升了投资信号的信噪比。
awesome-multi-agent-papers 通过将分散的顶尖研究转化为结构化的知识地图,帮助团队站在巨人肩膀上快速构建出行业领先的多智能体应用。
运行环境要求
未说明
未说明

快速开始
这是由 Swarms 团队整理的超赞多智能体研究论文列表。Swarms 的使命是研究多智能体系统。立即加入我们的 Discord!
格式
- [论文名称] [描述] [链接]
多智能体协作与系统设计
- 多智能体协作中的思想交流
- MAS-Zero:零监督下的多智能体系统设计
- 基于大语言模型的K阶推理
- 更多智能体就是你需要的一切
- LongAgent:通过多智能体协作将语言模型上下文扩展至128k
- AgentScope:灵活且鲁棒的多智能体平台
- 利用多个语言模型协同解码的学习方法
- AIOS:LLM智能体操作系统
- AutoGen:通过多智能体对话赋能下一代LLM应用
- 智能体链:大语言模型在长上下文任务中的协作
- 混合智能体增强大语言模型能力
- EvoAgent:通过进化算法实现多智能体的自动构建
- 智能体互联网:编织异构智能体网络以实现协作智能
- 具有思维混合表示的大语言模型级联,用于低成本推理
- 优化基于LLM的智能体协作
- LLM-Agent-UMF:基于LLM的智能体统一建模框架
- Optima:优化基于LLM的多智能体系统的有效性和效率
- SwarmAgentic:通过群体智能实现完全自动化的智能体系统生成
- AGENTSNET:多智能体LLM中的协调与协作推理
- LLM经济学家:多智能体生成式模拟中的大规模人群模型与机制设计
- SOTOPIA-RL:面向社会智能的奖励设计
- 交谈并非总是廉价:理解多智能体辩论中的失效模式
- 虚拟智能体经济
- 智能体联邦:面向大规模智能体AI的语义感知通信架构
- 流式智能体系统优化:用于高效规划和工具使用
- 重新思考混合智能体:混合不同大语言模型是否有益?
- TUMIX:结合工具使用的混合策略进行多智能体测试时缩放
- 分布式多智能体系统的阿喀琉斯之踵
- CAMEL:用于探索大语言模型社会“心智”的沟通型智能体
- 多智能体协作:释放智能LLM智能体的力量
- 重新思考LLM推理的边界:多智能体讨论是关键吗?
- MAgIC:探究由大语言模型驱动的多智能体在认知、适应性、理性及协作方面的能力
- LLM和谐:用于问题解决的多智能体通信
- 通过大语言模型实现多智能体共识达成
- 我们组队吧:探索竞争性LLM智能体的自发合作
- 合作式战略规划提升大语言模型的推理能力
- SMoA:利用稀疏混合智能体改进多智能体大语言模型
- 自适应型基于LLM的多智能体系统
- 小型LLM的战略协调框架在数据合成方面可与大型LLM媲美
- 跨环境合作实现零样本多智能体协调
- 解锁多智能体LLM的推理潜力:从懒惰智能体到深思熟虑
- The Station:面向AI驱动发现的开放世界环境
- 迈向智能体系统规模化科学
- RouteMoA:无需预推理的动态路由提升混合智能体效率
- 智能AI委托
- AI智能体社会中会涌现社交行为吗?以Moltbook为例
- 通过上下文中的同伴推理实现多智能体合作
- SkillOrchestra:通过技能迁移学习智能体路由
- 用于LLM协作中多智能体强化学习的上下文反事实信用分配 GitHub
- CORAL:迈向面向开放式发现的自主多智能体进化
多智能体框架与基准测试
- MALLM:多智能体大型语言模型框架
- AgentGym:在多样化环境中进化基于大型语言模型的智能体
- AgentScope中的超大规模多智能体仿真
- AgentClinic:面向临床环境的人工智能多模态智能体基准测试
- MultiAgentBench:评估LLM智能体的协作与竞争能力
- TheAgentCompany:在具有实际意义的真实世界任务上对LLM智能体进行基准测试
- BoxingGym:自动化实验设计进展的基准测试
- Symphony:用于可扩展集体智慧的去中心化多智能体框架
- CoMAS:通过交互奖励实现多智能体系统的协同进化
- 协作鸿沟
- API-Bank:面向工具增强型LLM的综合基准测试
- AutoAgents:自动智能体生成框架
- MAS-GPT:训练LLM构建基于LLM的多智能体系统
- 通过演化编排实现多智能体协作
- TCAndon-Router:用于多智能体协作的自适应推理路由器
- 面向多智能体讨论的上下文学习
- 视觉虫洞:异构多智能体系统中的隐空间通信
- EvoSkill:多智能体系统的自动化技能发现
针对特定应用的多智能体系统
软件工程
- 利用大型语言模型自动改进单元测试
- 软件开发智能体的经验式协同学习
- ChatDev:用于软件开发的沟通型智能体
- MAGIS:基于LLM的多智能体框架,用于GitHub问题解决
- CodeR:结合多智能体与任务图的问题解决
- 从LLM到基于LLM的智能体用于软件工程:综述
- CodexGraph:通过代码图数据库连接大型语言模型与代码仓库
- 多样性赋能智能:整合软件工程智能体的专业知识
- 基于大型语言模型的智能体在软件工程中的应用:综述
- AutoSafeCoder:用于保障LLM代码生成安全的多智能体框架
- RGD:基于多LLM的智能体调试器,通过精炼与生成引导实现
- CoAct-1:以编码为行动的计算机使用型智能体
- 自组织智能体:迈向超大规模代码生成与优化的LLM多智能体框架
- 人机协作的软件开发智能体
- 基于LLM的多智能体系统在软件工程中的愿景与未来之路
- 基于LLM的多智能体系统在软件工程中的文献综述、愿景与未来之路
- 量身定制精准执行:基于编辑的智能体用于开放域流程自定义
- Agents4PLC:利用基于LLM的智能体自动化工业控制系统中闭环PLC代码的生成与验证
- 扩展长期运行的自主编码 —— Cursor博客
- 迈向自动驾驶代码库 —— Cursor
- 面向长期运行应用开发的Harness设计
医疗健康
- Agent Hospital:一个由可进化医疗智能体组成的医院模拟系统
- MEDCO:基于多智能体框架的医学教育副驾驶
- 面向边缘设备的多智能体医疗助手
- 人工智能智能体能否设计并实施药物研发管线?
- 利用语言模型进行顺序诊断 ||开源实现代码链接
- 迈向AI联合科学家 --- 实现**
- AI智能体虚拟实验室设计出新型SARS-CoV-2纳米抗体
- Cerebra:用于多模态痴呆症表征与风险评估的多学科AI委员会
- 在虚拟临床环境中进化诊断智能体
- MDAgents:用于医疗决策的LLM自适应协作
- Zodiac:面向多智能体诊断的心脏病学级LLM框架
- MADD:多智能体药物研发乐团
- SciAgent:用于通用科学推理的统一多智能体系统
数据与机器学习
- LAMBDA:基于大模型的数据代理
- 用于时间序列分析的智能体增强型检索生成
- 用于高效LLM预训练的多智能体协作数据选择
- AutoML-Agent:面向全链路AutoML的多智能体LLM框架
- AutoKaggle:用于自主数据科学竞赛的多智能体框架
- DataLab:由LLM驱动的统一商业智能平台
安全
多模态
- Mora:通过多智能体框架实现通用视频生成
- Mobile-Agent-v2:具备高效导航能力的移动设备操作助手
- Optimus-1:混合多模态记忆赋能的智能体在长时序任务中表现出色
- MP5:基于主动感知的多模态开放式具身系统,应用于Minecraft
- PC-Agent:用于PC端复杂任务自动化的分层多智能体框架
- 通过同伴群体学习提升大型视觉与语言模型性能
- PixelCraft:用于结构化图像高保真视觉推理的多智能体系统
- UFO:专注于Windows操作系统界面交互的UI导向型智能体
- 基于大型语言模型的多智能体系统,用于知识驱动的视觉问答
- 由LLM从并行TextWorld环境中训练的具身多模态智能体
- 双头胜于单头:用于人机交互的协作式LLM具身智能体
- LongVideoAgent:基于多智能体的长视频推理系统
其他领域
- 结合语言模型与战略推理实现外交游戏的人类级水平
- CulturePark:提升大型语言模型的跨文化理解能力
- 超越人类翻译:多智能体协作用于超长篇文学文本的翻译
- FanCric:用于构建奇幻板球11人阵容的多智能体框架
- 大型语言模型能否掌握法律理论?通过多智能体协作提升法律推理能力
- SQL-of-Thought:带引导式错误修正的多智能体文本到SQL转换
- CoMet:基于隐喻的隐蔽通信,用于多智能体语言游戏
- Richelieu:用于AI外交的自进化LLM驱动智能体
- 用于参与式城市规划的大型语言模型
- 大型语言模型赋能的参与式城市规划
- 法庭上的智能体:基于大型语言模型的多智能体框架,用于可信的数字司法
- AgentCourt:以对抗性可进化律师智能体模拟法庭
- MiniFed:集成LLM驱动的智能体工作流,用于模拟FOMC会议
- TRIZ智能体:基于TRIZ的创新方法的多智能体LLM方案
- 大型语言模型驱动的多智能体自动驾驶系统:最新进展综述
- KoMA:基于知识驱动的多智能体框架,用于大型语言模型辅助的自动驾驶
- 多智能体对话式推荐系统
- 提升超市机器人交互体验:用于处理多样化顾客意图的多层级LLM对话接口
- 大型语言模型在解决多智能体群集问题时面临的挑战
- 大型语言模型支持下的可扩展多机器人协作:集中式还是分布式系统?
- MALMM:用于零样本机器人操控的多智能体大型语言模型
- ControlAgent:通过LLM智能体与领域专业知识的创新融合,实现控制系统设计的自动化
- AgenticPay:用于买卖双方交易的多智能体LLM协商系统
评估与模型改进
- 硅基群体的智慧:大语言模型集成预测能力媲美人类群体准确性
- Chatbot Arena:基于人类偏好评估大语言模型的开放平台
- 是否只需增加大语言模型的调用次数?迈向复合推理系统的规模法则
- 模型合并方案的进化优化
- 用评审团取代评委:以多样化模型组成的专家组评估大语言模型生成内容
- 宪法式AI:通过AI反馈实现无害性
- 利用弱大语言模型评判强大语言模型的可扩展监督机制
- ChatEval:通过多智能体辩论构建更优秀的大语言模型评估工具
- RouteLLM:面向低成本大语言模型路由的开源框架
- 代理即评委:用代理评估代理
- 通过迭代辩论对大型语言模型进行对抗性多智能体评估
- MALT:利用多智能体大语言模型训练提升推理能力
- 为何多智能体大语言模型系统会失败?
- 借助多智能体思维树验证代理提升大语言模型推理能力
- Decrypto基准测试:用于多智能体推理与心智理论的评估标准
- Chain-of-Agents:通过多智能体蒸馏与代理式强化学习构建端到端的代理基础模型
- 探针式博弈:一种基于游戏的基准测试,用于评估大语言模型中的概念知识
- 面向大语言模型的代理式强化学习全景:综述
- 协作角色注入型大语言模型代理在立场检测中的应用
- 多智能体大语言模型在内容知识识别中的应用
- 为何目前尚未成功使用大语言模型解决多智能体路径规划问题?
- 多智能体大语言模型系统的可靠决策机制
- Collab-Overcooked:将大语言模型作为协作代理进行基准测试与评估
- AutoDefense:多智能体大语言模型防御越狱攻击的能力
社会仿真与代理社会
- TwinMarket:面向金融市场的可扩展行为与社会仿真平台
- 生成式代理:模拟人类行为的交互式虚拟形象
- SOTOPIA-π:社交智能语言代理的交互式学习
- 在多个仿真世界中规模化部署可指导性代理
- 利用10亿个人设规模化生成合成数据
- 合作还是崩溃:大语言模型代理社会中可持续合作的涌现
- 从文本到生命:论人工生命与大型语言模型之间的相互关系
- 自然语言驱动的心智社会中的心灵风暴
- 代理之室:通过多步协作生成叙事
- GenSim:基于大语言模型代理的一般社会仿真平台
- 大型语言模型能够实现社会平衡
- 大语言模型代理之间合作的文化演化
- SDPO:面向社交代理的分段直接偏好优化
- AgentSociety:大规模模拟由大语言模型驱动的生成式代理
- OASIS:拥有百万代理的开放式社会交互仿真
- 基于大语言模型的社会仿真需要设定边界
- 社会世界模型
- 以欲望驱动的自主性模拟类人日常活动
- 高风险人群仿真中语言代理的隐式行为对齐
- 大于各部分之和:探索多智能体的社会影响力
- 多智能体即社会群体:探究人机交互中多个智能体的社会影响
- 数字红皇后:在Core War中利用大语言模型进行对抗性程序进化
- 分布式的AGI安全:对抗压力下多智能体系统的治理权衡
工作流、架构与智能体设计
- AllHands:关于通过大型语言模型进行大规模原文反馈的问答
- AgentInstruct:迈向基于智能体流程的生成式教学
- SciAgents:通过多智能体智能图推理实现科学发现自动化
- Minstrel:面向非AI专家的多智能体协作结构化提示生成
- AFlow:智能体工作流自动生成
- 智能体快思考与慢思考:讲者-推理者架构
- DynaSaur:超越预定义动作的大规模语言模型智能体
- LLM作为方法派演员:提示工程与架构模型
- 提议者-智能体-评估者(PAE):面向基础模型互联网智能体的自主技能发现
- 智能体系统的自动化设计
- LLM联盟:用于合成偏好优化的多智能体工作流
- 基于智能体超网络的多智能体架构搜索
- 结构化对话,分层行动:LLM多智能体系统的协作框架
- 当一个LLM沉思时,多LLM协作主导一切
- 通过协作与记忆增强推理能力
- 扩散增强型智能体:高效探索与迁移学习框架
- 模型蜂群:利用群体智能协作搜索以适应LLM专家
- MDocAgent:用于文档理解的多模态多智能体框架
- Recon-Act:通过网络侦察、工具生成和任务执行的自我进化多智能体浏览器使用系统
- 构建你的个性化研究团队:持续且交互式的科学自动化多智能体框架
- 人机协作论文到页面制作,成本低于0.1美元
- 自对弈搜索:在无监督条件下推动智能体能力边界
- 沟通至完成:用智能多智能体通信建模协作工作流
- ComProScanner:基于多智能体的框架,用于从科学文献中提取成分-性质结构化数据
- LLM投票:人类选择与AI集体决策
- 通过协作语言智能体进行多约束规划
- 选举式方法用于多样化基于LLM的多智能体集体决策
- 交互式推测性规划:通过系统与用户界面协同设计提升智能体效率
- 基于最优控制视角的提示工程
- 用于零样本命名实体识别的合作式多智能体框架
- 集思广益胜于单打独斗:基于LLM的多智能体系统提升科学创意生成
- PlotGen:基于多智能体LLM的科学数据可视化,通过多模态反馈实现
- 利用基于LLM的多智能体框架增强金融市场异常检测
科学
- GenoTEX:用于自动化基因表达数据分析的LLM智能体基准测试
- GenoMAS:通过代码驱动的基因表达分析进行科学发现的多智能体框架
- aiXiv:由AI科学家生成的下一代开放获取科学发现生态系统
- AI科学家:世界上首个用于自动化科学研究的AI系统
对齐
强化学习
- MAPoRL:用于协作式大型语言模型的多智能体强化学习后协同训练
- YOLO-MARL:多智能体强化学习只需LLM一次
- 基于LLM的多智能体强化学习:现状与未来方向
- 用于推理的协作式多智能体测试时强化学习
- 通过过程奖励扩展多智能体系统
综述
- 基于大型语言模型的多智能体:进展与挑战综述
- 关于基于LLM的多智能体系统的综述:工作流、基础设施与挑战
- 多智能体协作机制:LLM综述
- 关于基于LLM的多智能体系统:近期进展与应用新前沿的综述
- 关于基于大型语言模型的自主智能体的综述
- 大型语言模型:综述
- LLM多智能体系统:挑战与开放问题
- 跨多种应用的多智能体协调:综述
- 基于LLM的多智能体系统:技术与商业视角
- 小型LLM是弱工具学习者:多LLM智能体的观点
其他
金融
用于科研的智能体
训练
引用
在 arxiv_bibtex.bib 文件中,您可以找到本仓库中所有论文的 BibTeX 引用。
引用本列表
如果您在研究中发现本资源很有用,请按以下方式引用:
BibTeX:
@misc{gomez2024awesome,
author = {Gomez, Kye},
title = {Awesome Multi-Agent Papers:最佳多智能体研究汇编},
year = {2024},
publisher = {GitHub},
journal = {GitHub 仓库},
howpublished = {\url{https://github.com/kyegomez/awesome-multi-agent-papers}},
note = {由 Swarms 团队维护。联系邮箱:kye@swarms.world}
}
APA:
Gomez, K. (2024). Awesome Multi-Agent Papers:最佳多智能体研究汇编。GitHub。https://github.com/kyegomez/awesome-multi-agent-papers
MLA:
Gomez, Kye. “Awesome Multi-Agent Papers:最佳多智能体研究汇编。” GitHub, 2024, https://github.com/kyegomez/awesome-multi-agent-papers.
如有任何问题或合作意向,请联系:kye@swarms.world
贡献
您是否有一篇未被列入清单的多智能体论文?我们非常欢迎您的贡献!请提交一个 Pull Request (PR),以添加新论文,并帮助我们维护这一全面且最新的多智能体研究资源库。通过您的贡献,您将使其他人——尤其是新手——能够在单一、集中的存储库中获取最新研究成果。感谢您为社区的发展贡献力量!
许可证
本项目采用 Apache License 2.0 许可证。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备