ICLR2025-Papers-with-Code
ICLR2025-Papers-with-Code 是一个专注于整理国际学习表征会议(ICLR)历年论文与对应开源代码的资源合集。它系统性地收录了从 2021 年至 2025 年的前沿研究成果,特别聚焦于大语言模型(LLM)、自然语言处理(NLP)及 AIGC 等热门方向。
在人工智能研究飞速迭代的今天,研究人员往往面临海量论文难以追踪、复现代码分散难找的痛点。ICLR2025-Papers-with-Code 通过“论文 + 代码”的一站式链接,有效解决了学术成果从理论到实践落地过程中的信息割裂问题。用户不仅能直接下载最新录用论文(包括备受关注的 Spotlight 文章),还能一键跳转至 GitHub 或 Hugging Face 获取官方实现代码,极大提升了科研效率。
该资源非常适合 AI 领域的研究人员、算法工程师及高校学生使用。无论是希望紧跟大模型推理、RAG 系统搭建、Agent 协作等前沿技术趋势的开发者,还是需要进行文献综述或寻找实验基准的学者,都能从中获益。其独特的亮点在于长期不定时的持续更新机制,以及对高质量 Spotlight 论文的精选呈现,确保用户能第一时间接触到如"JudgeLM"、"Internet of Agents"等具有行业风向标意义的创新工作,是探索深度学习未知边界的得力助手。
使用场景
某大厂算法团队正急需构建一个具备多跳推理能力的金融风控大模型,需要在短时间内复现并优化最新的知识编辑技术。
没有 ICLR2025-Papers-with-Code 时
- 检索效率低下:研究人员需在 OpenReview、GitHub 和 Hugging Face 等多个平台手动交叉搜索,耗时数天才能拼凑出完整的论文与代码链接。
- 错失前沿方案:容易遗漏像 "MQuAKE-Remastered" 这样针对多跳知识编辑评估的关键项目,导致模型评估基准落后于社区最新水平。
- 复现门槛极高:找不到官方开源实现或数据集,团队不得不从零编写基线代码,不仅增加了工程负担,还引入了潜在的复现误差。
- 方向判断模糊:缺乏对 ICLR 历年(2021-2025)技术演进的宏观视角,难以快速判断哪些技术路线(如 Agent 协作或知识稀释)真正值得投入资源。
使用 ICLR2025-Papers-with-Code 后
- 一站式获取资源:直接通过合集定位到 "MQuAKE-Remastered" 等 Spotlight 论文,一键下载 PDF 并跳转至对应的 Hugging Face 数据集与 GitHub 仓库。
- 精准锁定 SOTA:迅速发现 "Internet of Agents" 等异构智能体协作新范式,立即将其引入风控系统的多代理架构设计中,提升决策鲁棒性。
- 加速落地验证:利用仓库提供的官方代码链接,团队在两天内完成了基线模型的搭建与测试,将原本两周的预研周期压缩至三天。
- 清晰把握脉络:通过对比 2021 至 2025 年的收录项目,团队清晰识别出从单一模型微调向复杂系统演进的趋势,从而制定了更长远的技术路线图。
ICLR2025-Papers-with-Code 将分散的顶会成果转化为结构化的研发资产,让算法团队能从繁琐的信息搜集解放出来,专注于核心技术的突破与落地。
运行环境要求
未说明
未说明

快速开始
ICLR 2025 论文和开源项目合集
本仓库旨在收集ICLR最新研究进展,尤其是LLM方面,涉及NLP领域的各个方向,此项目长期不定时更新。 欢迎watch和fork!不过给个star⭐就更好了❤️。 知乎地址:ShuYini 微信公众号: AINLPer(每日更新,欢迎关注)
另外也欢迎大家进入AINLPer星球,每天推送最新、最优质论文,紧跟AIGC大模型前沿进展;另外星球也特设大模型Agent、大模型推理、RAG系统搭建、热门综述、大模型实操、数据集、测试基准、行业发展状况、大厂工作内推等专栏。详细介绍→:https://mp.weixin.qq.com/s/wHnm9ek4ojYTA_2EPLNILw
感兴趣的小伙伴,赶快扫描下方⬇二维码,新用户加入更有50元优惠券🔖,每年仅需49!
![]()
💎💎💎💎💎💎💎💎💎💎💎💎💎💎
历年ICLR 论文和开源项目合集
Accept Spotlight
1、新数据如何渗透到大语言模型的知识中以及如何稀释这种影响
2、JudgeLM:经过微调的大语言模型是可扩展的评判者
3、MQuAKE-重制版:只有通过可靠的评估才能推进多跳知识编辑
4、语言模型的物理学:第3.3部分,知识容量缩放定律
5、智能体互联网:编织异构智能体网络以实现协作智能
6、用于表示学习的鲁棒性重新编程
7、LayerDAG:一种逐层自回归扩散模型,用于生成有向无环图
8、日常困境:用日常生活中的两难问题揭示大语言模型的价值偏好
9、学习增强型频繁方向
10、动态图生成模型的质量度量
11、全面评估语言模型创建对环境的影响
12、混合智能体增强了大语言模型的能力
13、回答、组装、精通:理解大语言模型如何解答选择题
14、TopoNets:具有类脑拓扑结构的高性能视觉和语言模型
15、INCLUDE:用区域知识评估多语言语言理解能力
16、视觉-语言模型是在上下文中学习价值的模型
17、Wasserstein距离、神经元纠缠与稀疏性
18、WildBench:用来自真实用户的挑战性任务来评测大语言模型
19、对抗性扰动无法可靠地保护艺术家免受生成式AI的侵害
20、从不同细胞类型和脑区进行多会话、多任务神经解码
21、通过潜在空间引导降低大型视觉-语言模型中的幻觉现象
22、AutoDAN-Turbo:一种用于策略自我探索以越狱大语言模型的终身智能体
23、BRIGHT:一个现实且具有挑战性的推理密集型检索基准
24、非平稳上下文驱动环境中的在线强化学习
25、CEB:大型语言模型公平性评估的组合基准
26、TabWak:用于表格扩散模型的水印
27、生成自由形态内骨骼机器人
28、AnalogGenie:用于自动发现模拟电路拓扑结构的生成引擎
29、DataEnvGym:在教师环境中利用学生反馈生成数据的智能体
30、LoRA3D:三维几何基础模型的低秩自校准
31、针对标签污染的(图)神经网络精确认证
32、查询偏移下的跨模态检索测试时适应
33、寻找被遗忘的领域泛化
34、TOP-ERL:基于Transformer的离策略分幕式强化学习
35、利用多样性进行大型语言模型预训练中的重要数据选择
36、CausalRivers——面向真实世界时间序列的因果发现基准测试规模化
37、在数据污染存在时可证明可靠的共形预测集
38、文本到图像生成模型中的渐进式组合性
39、预测编码网络基准测试——简单实现
40、用户能否通过精心设计的提示识别出带有水印的语言模型?
41、关于为可变码率视频编码量化神经表征的研究
42、马尔可夫注意力:单层Transformer的一个有趣案例
43、关于模型组合性和增量学习的二阶视角
44、在弱监督条件下,迭代标签精炼比偏好优化更重要
45、EmbedLLM:学习大型语言模型的紧凑表示
46、Lean-STaR:学习思维与证明的交替进行
47、NV-Embed:训练通用嵌入模型的改进技术
48、大胆尝试极端:重新审视微调模型的Delta参数剪枝
49、代表性引导:具有一致性的扩散模型采样
50、基于自适应层冻结和频率采样的预算型在线持续学习
51、InverseBench:用于物理科学中逆问题的即插即用扩散先验基准测试
52、重访图上学习中的随机游走
53、DeFT:基于闪速树注意力的解码,用于高效的树结构大语言模型推理
54、面向控制的视觉潜在表征聚类
55、AIR-BENCH 2024:基于法规与政策指定风险类别的安全基准测试
56、并非所有大语言模型生成的数据都同等重要:重新思考文本分类中的数据加权
57、X-ALMA:即插即用模块与自适应拒绝机制,实现大规模高质量翻译
58、令牌统计变换器:通过变分速率缩减实现线性时间注意力
59、双线性MLP实现基于权重的机制可解释性
60、大型语言模型能否理解符号图形程序?
61、AgentTrek:利用网络教程引导回放进行智能体轨迹合成
62、优势引导蒸馏在小型语言模型偏好对齐中的应用
63、简化深度时序差分学习
64、SVBench:用于流式视频理解的包含时间多轮对话的基准测试
65、受生物学约束的桶状皮层模型整合胡须输入并重现关键脑网络动力学
66、拓宽你的SCOPE!基于语义空间的高效多轮对话规划,适用于大语言模型
67、使用伊藤密度估计器的扩散模型叠加
68、MAGNet:基于骨架的分子无模式生成
69、交错场景图用于交错文本与图像生成评估
70、IGL-Bench:建立全面的不平衡图学习基准测试
71、RegMix:作为回归的数据混合,用于语言模型预训练
72、当语言模型中出现注意力漏斗现象时:一种经验性的观察
73、PianoMotion10M:钢琴演奏中手部动作生成的数据集与基准测试
74、借助Gecko重新审视文本到图像评估:关于指标、提示词和人工评分
75、精简冗余层以压缩大型语言模型
76、SynFlowNet:在合成约束下设计多样且新颖的分子
77、重新思考与改进自动形式化:迈向忠实的度量标准与基于依赖关系检索的方法
78、从点过程观测中学习时空动力系统
79、基于稀疏性演化福克-普朗克-科尔莫戈洛夫方程的概率神经剪枝
80、揭示人类与大语言模型在解读主观语言方面的差距
81、SPA-BENCH:面向智能手机智能体评估的全面基准测试
82、揭秘深度选择性状态空间模型的标记动态
83、知识本地化:任务尚未完成?引入查询本地化!
84、深度部分标签学习算法的真实评估
85、基于图混合的图稀疏化
86、RAG-SR:用于神经符号回归的检索增强生成
87、MixEval-X:来自真实世界数据混合的任意对任意评估
88、DEEM:扩散模型作为大型语言模型感知图像的眼睛
89、BodyGen:迈向高效的具身协同设计
90、用于无监督表征学习的扩散桥自编码器
91、双因素偏好优化:平衡语言模型的安全性与助益性
92、通过目标条件探索将视频模型与动作对齐
93、基于不连续监督的密集视频对象字幕生成
94、RESuM:用于物理探测器设计的罕见事件代理模型
95、DeLLMa:利用大型语言模型进行不确定性下的决策
96、在可微多物理场仿真中稳定强化学习
97、用于材料生成的周期性贝叶斯流
98、SplatFormer:用于鲁棒3D高斯泼溅的点云Transformer
99、基于神经ODE的低光照图像增强的连续曝光学习
100、Lumina-T2X:可扩展的基于流的大规模扩散Transformer,用于灵活分辨率生成
101、迈向边际公平的切片Wasserstein重心
102、Co$^{\mathbf{3}}$Gesture:通过交互式扩散实现连贯的同时伴随言语的3D手势生成
103、在社交导航中跟随人类线索
104、OS-ATLAS:通用GUI智能体的基础行动模型
105、学生反馈指导的教师培训
106、基于伪反馈的推理偏好优化
107、OmniRe:全方位城市场景重建
108、多模态助力少样本3D点云语义分割
109、多模态智能体调优:构建基于VLM的高效工具使用智能体
110、多领域自适应检索
111、关于学习图像压缩中非线性变换的解耦训练
112、MMAU:大规模多任务音频理解与推理基准
113、ReDeEP:通过机制可解释性检测检索增强生成中的幻觉
114、迈向通用无模型强化学习
115、加速目标条件强化学习算法与研究
116、Time-MoE:基于专家混合的大规模时间序列基础模型
117、SimBa:深度强化学习中参数扩展的简单性偏差
118、带有执行反馈的自我博弈:提升大型语言模型的指令遵循能力
119、基于语法树的扩散模型用于程序合成
120、Vision-RWKV:基于RWKV类似架构的高效可扩展视觉感知
121、基于CLIP的强大框架,用于鲁棒且可泛化的数据选择
122、保留多数进行微调以减少噪声
123、GOLD:通过隐式对抗性潜在空间生成进行图结构分布外检测
124、Topograph:一种高效的基于图的严格拓扑保持图像分割框架
125、无需奖励过度优化的扩散模型测试时对齐
126、ImpScore:一种可学习的指标,用于量化句子的隐含程度
127、LoRA-Pro:低秩适配器是否得到了充分优化?
128、LLaVA-NeXT-Interleave:应对大型多模态模型中的多图像、视频和3D内容
129、面向增强CT图像理解的大规模细粒度视觉-语言预训练
130、GETS:用于图神经网络校准的集成温度缩放
131、通过延长路径间距离简化修正流模型的训练过程
132、利用Ollivier Ricci曲率恢复流形结构
133、AutoCGP:从无标签演示中生成闭环概念引导策略
134、Min-K%++:改进的大型语言模型预训练数据检测基线
135、MonST3R:一种在运动存在情况下估计几何形状的简单方法
136、用于3D生成的Atlas高斯扩散模型
137、Samba:用于多目标跟踪的同步序列集建模
138、Eagle:利用编码器混合探索多模态LLM的设计空间
139、基于条件激活引导的编程拒绝
140、Perm:一种用于多风格3D头发建模的参数化表示
141、CLoSD:在模拟与扩散之间形成闭环,实现多任务角色控制
142、ND-SDF:学习法向偏差场以实现高保真室内重建
143、D-FINE:将DETRs的回归任务重新定义为细粒度分布精炼
144、通过直接优化缓解基于树的强化学习中的信息损失
145、锐度感知最小化在训练后期高效选择更平坦的极小值
146、DartControl:一种基于扩散的自回归运动模型,用于实时文本驱动的运动控制
147、ThinK:通过查询驱动的剪枝实现更薄的键缓存
148、4K4DGen:4K分辨率下的全景4D生成
149、RelitLRM:大型重建模型的可生成重照明辐射场
150、ConFIG:迈向无冲突的物理信息神经网络训练
151、通过数据剪枝切断虚假相关性
152、MotionAura:使用离散扩散生成高质量且运动一致的视频
153、Hymba:一种适用于小型语言模型的混合头架构
154、大型语言模型中的免训练激活稀疏性
155、先确定再集成:大型语言模型集成中Top-k并集的必要性
156、CubeDiff:将基于扩散的图像模型重新用于全景生成
157、Poison-splat:针对3D高斯泼溅的计算成本攻击
158、稀有到常见:借助LLM指导,解锁扩散模型在稀有概念上的组合生成能力
159、可扩展且可认证的图遗忘:突破近似误差障碍
160、TokenFormer:用分词模型参数重新思考Transformer缩放
161、线性球面切片最优传输:一种快速比较球面数据的度量
- 论文:点击下载
- 代码:adni.loni.usc.edu
162、增强预训练表示的可分类性可以提升其可解释性
163、LiveBench:一个具有挑战性且污染受限的LLM基准测试
- 论文:点击下载
- 代码:https://livebench.ai
164、Stem-OB:通过扩散反演实现茎状收敛观测的可泛化视觉模仿学习
165、Reti-Diff:基于Retinex的潜在扩散模型用于光照退化图像恢复
166、MRS:基于ODE和SDE求解器的均值回归扩散快速采样器
167、SRSA:用于机器人装配任务的技能检索与适应
168、DenseMatcher:从单个演示中学习类别级操作的3D语义对应关系
169、超越下一个词预测:大型语言模型的补丁级训练
170、LeFusion:基于病灶聚焦扩散模型的可控病理合成
171、LOKI:利用大型多模态模型的综合合成数据检测基准
172、双耳大开:迈向语言驱动的空间音频生成
173、一提示一故事:使用单一提示实现免费午餐式的一致性文本到图像生成
174、MetaUrban:面向城市微出行的具身AI仿真平台
175、UniMatch:面向少样本药物发现的从原子到任务的通用匹配
176、DynamicCity:从动态场景中大规模生成4D占用信息
177、实例依赖的早停法
178、Moner:在欠采样径向MRI中利用无监督神经表示进行运动校正
179、SVDQuant:通过低秩成分吸收异常值,用于4位扩散模型
海报接收
1、自监督对比学习用于非线性系统辨识
2、稀疏自编码器揭示了视觉概念在适应过程中发生的选择性重映射
3、基于边界熵最小化的多标签测试时适应
4、TabM:通过参数高效的集成方法推进表格深度学习
5、ToolGen:通过生成统一工具检索与调用
6、基于激活梯度的后门攻击中毒样本检测
7、视频动作差分
8、时间序列插值的最优传输方法
9、RaSA:基于排名共享的低秩适应
10、通过学习排序实现离线基于模型的优化
11、从搜索到采样:用于鲁棒算法追索的生成模型
12、基于大型语言模型的蒙特卡洛规划,用于文本类游戏智能体
13、基于分布内干预的鲁棒根因诊断
14、提升大规模车辆路径问题的神经组合优化
15、SimulPL:在同时机器翻译中对齐人类偏好
16、SCOPE:一种用于提高条件文本生成忠实性的自监督框架
17、通过邻接矩阵排列的可微函数估计团数
18、ADAM:开放世界环境中的具身因果智能体
19、警惕用于剪枝大型语言模型的校准数据
20、利用专家混合的高效残差学习实现通用灵巧抓取
21、Herald:一个自然语言标注的Lean 4 数据集
22、HyperFace:通过探索人脸嵌入超球面生成合成人脸识别数据集
23、DPLM-2:一种多模态扩散蛋白质语言模型
24、基于语言不平衡的奖励机制用于多语言自我改进
25、具有世界模型的网络智能体:在网络导航中学习和利用环境动态
26、神经网络回归的无分布数据不确定性
27、LASeR:利用大语言模型实现多样化和可泛化的机器人设计
28、SOO-Bench:评估离线黑盒优化稳定性的一系列基准测试
29、隐蔽盾防御:一种基于条件互信息的对抗黑盒模型逆向攻击方法
30、比最多样化的还要多样:通过混合UCB带算法优化生成模型的混合策略
31、算术变换器能够在操作数长度和数量上进行长度泛化
32、基于实例诱导提示学习的一次性全场景少样本异常检测
33、URLOST:无需平稳性或拓扑结构的无监督表征学习
34、针对子图匹配的神经图表示设计空间探索
35、将数据集提炼为神经场
36、SIM:基于表面的fMRI分析,用于从观影实验中进行跨被试多模态解码
37、SPORTU:一个多模态大语言模型的综合性体育理解基准测试
38、利用影响力函数对亚群体偏移进行群体稳健的样本重加权
39、GotenNet:重新思考高效的3D等变图神经网络
40、基于上下文分解的Transformer高效自动化电路发现
41、如何评估RLHF中的奖励模型
42、一种用于扩散模型数据贡献者信用归属的高效框架
43、一次剪枝就够了:通过策略学习设计无校准模型压缩
44、SageAttention:适用于即插即用推理加速的精确8位注意力机制
45、FreDF:在频域中进行预测的学习方法
46、视觉语言模型是否失去了自信?对VLMs中溜须拍马现象的研究
47、生成式适配器:通过单次前向传播在参数层面实现语言模型的上下文化
48、通过自适应特征聚合集成扩散模型
49、利用奇异值分解进行模型合并以解开结点
50、让文本嵌入模型成为少样本学习者
51、PolyhedronNet:基于表面属性图的多面体表示学习
52、SafeDiffuser:使用扩散概率模型进行安全规划
53、通过贝叶斯优化利用LLM搜索最优解
54、用于求解车辆路径问题的对抗性生成流网络
55、LongMamba:通过免训练的感受野扩展提升Mamba的长上下文能力
56、Lawma:专业化在法律标注中的力量
57、施蒂费尔流匹配用于矩约束下的结构解析
58、不遗漏任何偏好:群体分布偏好优化
59、利用不动点分析为双曲正切神经网络进行鲁棒权重初始化
60、Agent S:一个像人类一样使用计算机的开放式代理框架
61、基于二进制词袋索引的半参数化检索
62、PN-GAIL:利用不完美演示中的非最优信息
63、双曲基因组嵌入
64、RTop-K:用于GPU上神经网络加速的超快速逐行Top-K选择
65、将受文化条件影响的生成归因于预训练语料库
66、揭秘秘密配方:小型LLM监督微调指南
67、DelTA:基于多级记忆的在线文档级翻译代理
68、模型编辑作为DPO的一种鲁棒且去噪的变体:以毒性为例
69、基于边际的语言模型对齐中的常见陷阱:梯度纠缠
70、ManiSkill-HAB:家庭整理任务中低级操作的基准测试
71、从多样化演示中学习泛化行为
72、DynaMath:用于评估视觉语言模型数学推理鲁棒性的动态视觉基准测试
73、用于不确定性感知离线强化学习的神经随机微分方程
74、面向约束强化学习的安全优先课程设置
75、面向大语言模型的聚合客户端偏好联邦RLHF
76、MetaDesigner:通过AI驱动、以用户为中心、多语言的WordArt合成推进艺术字体设计
77、语言模型的物理学:第3.2部分,知识操纵
78、基于LLM的守护模型校准在可靠内容审核中的应用
79、语言模型的物理学:第2.2部分,如何从小学数学问题的错误中学习
80、因果顺序:在因果推断中利用不完美专家的关键
81、语言模型的物理学:第2.1部分,小学数学与隐藏的推理过程
82、多智能体系统中的面向主体规划
83、扩散生成模型用于从组织学图像推断空间分辨基因表达
84、大型语言模型中的注意力机制可产生高效的零样本重排序器
85、ExACT:使用反思式MCTS和探索性学习教导AI智能体进行探索
- 论文:点击下载
- 代码:https://aka.ms/ExACT
86、STAFF:用于特定任务微调的推测性核心集选择
87、上下文线索:评估长上下文模型在电子健康记录数据上的临床预测任务
88、尺度感知对比反向蒸馏用于无监督医学异常检测
89、利用图神经网络学习高效的位置编码
90、大型语言模型预训练中的可扩展影响力与事实溯源
91、掌握任务算术:$\tau$Jp作为权重解耦的关键指标
92、扩散状态引导的投影梯度法用于逆问题
93、PALMBENCH:移动平台上压缩大型语言模型的全面基准测试
94、利用视觉-语言模型为3D设计生成CAD代码
95、MaxInfoRL:通过最大化信息增益提升强化学习中的探索
96、遗忘Transformer:带有遗忘门的Softmax注意力机制
97、ReMoE:基于ReLU路由的完全可微分专家混合模型
98、GSM-Symbolic:理解大型语言模型中数学推理的局限性
99、基于分数的自监督MRI去噪
100、ProteinBench:蛋白质基础模型的全面评估
101、LeanQuant:基于损失误差感知网格的准确且可扩展的大语言模型量化
102、Strategist:通过双层树搜索实现LLM决策的自我改进
103、GReaTer:基于推理的梯度使小型语言模型成为强大的提示优化器
104、LANTERN:利用松弛推测解码加速视觉自回归模型
105、跟随我的指令并坦白一切:从检索增强生成系统中可扩展的数据提取
106、EditRoom:用于可组合3D房间布局编辑的LLM参数化图扩散模型
107、MrT5:用于高效字节级语言模型的动态标记合并
108、简单即有效:图与大语言模型在基于知识图谱的检索增强生成中的作用
109、下一步是什么?基于显著点的混合模仿学习
110、LocoVR:虚拟现实中的多用户室内运动数据集
111、更绿色的GRASS:通过编码、重布线和注意力机制增强GNN
112、具有连贯事实性的共形语言模型推理
113、剖析多模态LM代理的对抗鲁棒性
114、ACC-Collab:一种用于多智能体LLM协作的演员-评论家方法
115、比星系还多的专家:具有生物启发式固定路由的条件重叠专家
116、上下文时间序列预测器
117、发现视觉Transformer中的关键神经元路径
118、用于基础模型稳健微调的方向梯度投影
119、AgentOccam:一个简单而强大的基于LLM的网络代理基线
120、探针剪枝:通过基于模型探测的动态剪枝加速LLM
121、L3Ms——拉格朗日大型语言模型
- 论文:点击下载
- 代码:https://www.reddit.com/r/LocalLLaMA/comments/180p17f/new_claude_21_refuses_to_kill_a_python_process/
122、ClimaQA:气候问答模型的自动化评估框架
123、受人类启发的无限上下文大语言模型情景记忆
124、ORSO:通过在线奖励选择与策略优化加速奖励设计
125、基于目标编码器自举的对象中心预训练
126、基于预训练扩散模型的有损压缩
127、用于视觉-语言通用模型的模态专用协同器
128、持续学习中具有可塑性的自归一化重置
129、通过模拟引导的微调快速适应真实世界的策略
130、CoRNStack:高质量对比数据,用于更好的代码检索与重排序
131、关于语言模型中的线性表示与预训练数据频率
132、大型语言模型泛化复杂度的量化
133、Real2Code:通过代码生成重建关节物体
134、{$\tau$}-bench:面向真实世界领域的工具-智能体-用户交互基准测试
135、DEPfold:将RNA二级结构预测视为依存句法分析
136、机器人操纵中从大规模数据集学习的关键因素
137、APE:通过自适应并行编码实现更快更长的上下文增强生成
138、模型与大脑之间相似度分数的可微优化
139、分块蒸馏语言建模
140、GOttack:通过图轨道学习对图神经网络进行的通用对抗攻击
141、NutriBench:用于评估大型语言模型从餐食描述中进行营养估算的数据集
142、传感器信息对机器人的价值
143、探索心智理论:程序引导的心智理论推理对抗数据生成
144、HelpSteer2-Preference:用偏好补充评分
145、从单张风景图像优化用于动态场景视频的4D高斯函数
146、Samba:简单混合状态空间模型,用于高效的无限上下文语言建模
147、Palu:基于低秩投影的KV缓存压缩
148、Shared-AE:高维神经与行为活动共享子空间的自动识别
149、多目标多解运输问题
150、用于安全离线强化学习的潜在安全约束策略方法
151、利用图神经网络学习探索与利用以进行无监督组合优化
152、InterMask:基于协作式掩码建模的3D人体交互生成
153、知识编辑真的能纠正幻觉吗?
154、BoneMet:用于乳腺癌骨转移诊断与预后的开放大型多模态小鼠数据集
155、ALLaM:面向阿拉伯语和英语的大语言模型
156、通过学习连续边方向改进图神经网络
157、SiReRAG:用于多跳推理的相似与相关信息索引
158、用语言模型激发人类偏好
159、在一次性剪枝中保留深度表示:一种无海森矩阵的二阶优化框架
160、受化学启发的不可微引导扩散模型
161、通过示范反馈对齐语言模型
162、使用专家去噪器混合的高效扩散Transformer策略,用于多任务学习
163、SymmCD:基于扩散模型的保对称性晶体生成
164、InvestESG:一个用于研究气候投资这一社会困境的多智能体强化学习基准测试
165、记忆的陷阱:当记忆损害泛化能力时
166、从我的角度看:语言如何影响图像理解中的文化偏见
167、Cocoon:具有不确定性感知传感器融合的鲁棒多模态感知
168、通过虚构人脸身份数据集评估视觉语言模型的遗忘能力
169、针对多智能体安全最优控制的离散GCBF近端策略优化
170、柯西-施瓦茨正则化项
171、HELMET:如何有效且全面地评估长上下文模型
172、R-Sparse:面向高效LLM推理的秩感知激活稀疏性
173、利用潜在空间变换的地下成像正问题与逆问题统一框架
174、回归相对未来:面向多轮RLHF的高效策略优化
175、MM-EMBED:基于多模态大语言模型的通用多模态检索
176、可合成分子的程序化合成
177、Instruct-SkillMix:强大的大语言模型指令调优流水线
178、用于修改大语言模型词汇表的适配器:哪些语言受益最大?
179、DOTS:通过最优推理轨迹搜索在大语言模型中学习动态推理
180、使用上下文微调教导大语言模型如何学习
181、一种用于生成式图像模型的不可检测水印
182、STRAP:用于增强策略学习的机器人子轨迹检索
183、基于多层稀疏自编码器的残差流分析
184、简化的动量方法促进李群上的扩散生成建模
185、迈向快速、专用的机器学习力场:通过能量海森矩阵蒸馏基础模型
186、关于以物体为中心的表征学习的迁移
187、少类竞技场:用于高效选择视觉模型及衡量数据集难度的基准测试
188、OvercookedV2:重新思考《Overcooked》以实现零样本协作
189、基于知识蒸馏的数据集蒸馏:迈向深度网络的高效自监督预训练
190、MA-RLHF:基于宏观动作的人类反馈强化学习
191、利用随机网络蒸馏的高效主动模仿学习
192、用于图变换的离散扩散薛定谔桥匹配
193、MatExpert:通过模仿人类专家分解材料发现过程
194、Fugatto 1:基础生成式音频Transformer作品1
195、轻松构建一致性模型
196、AttriBoT:高效近似留一法上下文归因的一系列技巧
197、ElasticTok:面向图像和视频的自适应分词
198、超越内容相关性:评估检索模型中的指令遵循能力
199、NNsight与NDIF: democratizing 访问开放权重基础模型内部机制
- 论文:点击下载
- 代码:https://nnsight.net/
200、利用半不平衡神经最优传输进行鲁棒的重心估计
201、文本领域的掩码扩散模型扩展
202、生成时思考:带有计划去噪的离散扩散
203、从因果视角评估文本到图像合成中的语义变化
204、Transformer能否进行枚举几何学计算?
205、EqNIO:次等变神经惯性里程计
206、交互不对称性:学习可组合抽象的一般原则
207、Pangea:面向39种语言的全开源多语言多模态大模型
208、CirT:基于几何启发的Transformer进行全球次季节至季节尺度预测
209、Provence:用于检索增强生成的高效且鲁棒的上下文剪枝方法
210、CViT:用于算子学习的连续视觉Transformer
211、通过假设分解与修正揭示代码推理的奥秘
212、Flow:模块化的代理式工作流自动化
213、利用熵约束3D高斯分布进行2D视频压缩的探索
214、视频大模型能否拒绝回答?视频大语言模型的回答能力对齐
215、面向机器人运动规划的物理信息引导的时间差度量学习
216、可扩展的机制神经网络
217、一招通天下:针对大语言模型的鲁棒越狱提示词生成
218、E(3)等变模型无法学习手性:基于场论的分子生成
219、受JPEG启发的深度学习
220、更清洁的生物信号:高保真神经压缩器实现从更清洁的iEEG到噪声更大的EEG的迁移
221、Tool-Planner:跨多个工具的聚类任务规划
222、基于认识论图神经网络的系统化关系推理
223、简单、优质、快速:无包袱的自监督世界模型
224、噪声条件下的基于能量的退火奖励(NEAR):一种从观察中学习模仿行为的生成框架
225、迈向语言模型的稳健对齐:分布稳健化的直接偏好优化
226、RAPID:差分隐私扩散模型的检索增强训练
227、三元组是关键:结构化使基于大语言模型的表格问答中的分解与验证更加容易
228、Agent's Room:通过多步协作进行叙事生成
229、等变去噪器无法复制图结构:对齐你的图扩散模型
230、MrSteve:在Minecraft中具有“什么-哪里-何时”记忆的指令遵循型智能体
231、面向自动驾驶的半监督视觉为中心的3D占用世界模型
232、InstantSplamp:用于生成式高斯点云渲染的快速且可泛化的隐写框架
233、通过组合式指令微调促进大语言模型的多轮函数调用
234、COFlowNet:基于保守约束的流方法实现高质量候选生成
235、用于生成式推荐的多模态量化语言
236、Monet:面向Transformer的单义专家混合模型
237、基于图的文档结构分析
238、从梦想到操控:组合式世界模型赋能机器人模仿学习中的想象力
239、3D-MolT5:利用离散结构信息进行分子-文本建模
240、重新定义生物活性预测任务
241、基于神经过程的缺失数据鲁棒仿真推断
242、物理启发扩散模型
243、DynFrs:随机森林中高效的机器遗忘框架
- 论文:点击下载
- 代码:shurong.22
244、Mix-LN:通过结合前置LN与后置LN释放深层网络潜力
245、在线中文手写生成中版面与笔画的解耦
246、多样性赋能智能:整合软件工程代理的专业知识
247、ADBM:用于可靠对抗净化的对抗性扩散桥模型
248、分而译之:面向复杂逻辑推理的组合式一阶逻辑翻译与验证
249、基于神经坍缩的特征分离用于分布外检测
250、MA$^2$E:利用掩码自编码器解决多智能体强化学习中的部分可观测性问题
251、大型多模态模型中的游离概念
252、迈向层次化修正流
253、具有可迁移静态稀疏性的零阶大语言模型微调
254、MMR:面向多目标、多粒度推理分割的大规模基准数据集
255、自我中心视频-语言模型真的理解手物交互吗?
256、无意识对比学习者的“法则”:未配对模态的概率对齐
257、系统1.x:利用语言模型学习平衡快速与慢速规划
258、探究上下文学习的预训练动态:任务识别 vs. 任务学习
259、通过贝塔扩散推进图生成
260、UniWav:迈向语音表征学习与生成的统一预训练
261、多头比单头好:用于实体表示学习的模态知识专家混合模型
262、置信度诱导:大型语言模型的新攻击向量
263、CoMRes:利用多分辨率共识促进的半监督时间序列预测
264、MCNC:用于神经网络压缩的流形约束重参数化方法
265、HARDMath:一个用于应用数学中挑战性问题的基准数据集
266、并非所有注意力头都重要:一种集成检索与推理的头级别KV缓存压缩方法
267、AdaIR:基于频率挖掘与调制的自适应一体化图像修复
268、Forte:通过表征典型性估计发现异常值
269、LLM-wrapper:用于指代表达理解的黑盒语义感知视觉-语言模型适配器
270、NextBestPath:未知环境的高效三维地图构建
271、LLaRA:为视觉-语言策略增强机器人学习数据
272、打破基于质心的深度聚类中的再聚类障碍
273、用于联邦持续学习的参数高效模块闭式合并
274、用于增强视觉自监督学习的频率引导掩码
275、用于图像操纵的广义一致性轨迹模型
276、API Pack:用于API调用生成的大规模多编程语言数据集
277、球面树切片Wasserstein距离
278、Dualformer:通过随机推理轨迹学习实现可控的快慢思维
279、训练鲁棒集成需要重新思考Lipschitz连续性
280、稀疏自编码器无法找到规范化的分析单元
281、MUSE:面向语言模型的机器遗忘六方评估
282、通过快速最优传输嵌入类别层次结构来学习结构化表示
283、小型模型是医学表格预测的LLM知识触发器
284、PQMass:利用概率质量估计对生成模型质量进行概率评估
285、通过模拟训练动态从深度神经网络中重建训练数据
286、BANGS:用于图自训练的博弈论节点选择
287、UNSURE:具有未知噪声水平和施坦无偏风险估计的自监督学习
288、使用求和-乘积网络生成可能的反事实情境
289、无意的不一致:直接偏好优化中的似然偏移
290、PooDLe🐩:基于自然视频的聚合稠密自监督学习
291、TweedieMix:改进基于扩散模型的图像/视频生成中的多概念融合
292、CHiP:用于多模态大语言模型的跨模态层次化直接偏好优化
293、TD-Paint:通过时间感知像素条件增强实现更快的扩散修复
294、数字烹饪书:语言模型的数字理解及其改进方法
295、将NeRF引入潜在空间:逆向图形自编码器
- 论文:点击下载
- 代码:https://ig-ae.github.io
296、智能体安全基准(ASB):对基于大语言模型的智能体中的攻击与防御进行形式化和基准测试
297、基于因子图的可解释神经网络
298、炼金术:通过符号突变提升定理证明能力
299、通过CycleQD为大型语言模型获取智能体技能
300、KBLaM:知识库增强型语言模型
301、MOFFlow:用于金属有机框架结构预测的流匹配
302、用于多模态数据可控解耦的信息准则
303、ReAttention:在有限注意力范围下实现无需训练的无限上下文
304、SORRY-Bench:系统性评估大型语言模型的安全拒绝能力
305、使用文本引导的联合扩散模型生成周期性材料
306、QERA:一种用于量化误差重构的分析框架
307、多目标强化学习中帕累托前沿的有效发现
308、通过强制语义和梯形一致性实现半监督CLIP适配
309、通过双值前向后向表示实现无监督零样本强化学习
310、通过物理启发式自监督学习预测随机动力系统的能量景观
311、生物 plausible 的脑图变换器
312、推理缩放法则:针对LLM问题解决的计算最优推理的实证分析
313、UV-Attack:基于动态NeRF的UV映射实现的人脸检测物理世界对抗攻击
314、摆脱MMI:通过探查输入利用率开启理性化的新前沿
315、乐观博弈:用于组合贝叶斯优化并应用于蛋白质设计的游戏
316、DAWN:用于说话头视频生成的非自回归扩散框架驱动的动态帧化身
317、用于无排练持续学习的视觉与语言协同
318、从特征空间到概率空间重新思考多示例学习
319、为什么大语言模型的有效上下文长度会不足?
320、通过正标签猜测和负标签增强的互补标签学习
321、通过挖掘标记概率序列进行无需训练的大语言模型生成文本检测
322、对比预训练模型中的数据集所有权验证
323、MMFakeBench:面向LVLMs的混合来源多模态虚假信息检测基准
324、结构因果模型的标准化
325、OpenVid-1M:用于文本到视频生成的大规模高质量数据集
326、VisRAG:基于视觉的多模态文档检索增强生成
327、利用DPO隐式奖励自举语言模型
328、在不遗忘的情况下学习系统动力学
329、对常规、自解释及领域不变性GNN中忠实性的再思考
330、SWIFT:用于加速大语言模型推理的即时自推测解码
331、SysBench:大语言模型能否遵循系统指令?
332、Fast Direct:针对扩散模型目标生成的高效在线黑盒引导
333、AdaRankGrad:用于内存高效的大语言模型训练与微调的自适应梯度排名及矩
334、OmniBind:通过绑定空间实现的大规模全模态表征
335、无需算法的算术:语言模型用启发式方法解决数学问题
336、用于Transformer的等变神经功能网络
337、用于隐式模型融合的加权奖励偏好优化
338、面向快速高质量渲染的局部感知高斯压缩
339、用于通勤起讫点流量生成的大规模数据集和基准
340、NeRAF:注入3D场景的神经辐射与声场
341、InstaRevive:通过动态分数匹配实现的一步图像增强
342、利用离线演示进行不确定性感知偏好对齐的分布方法
343、通过保持序数关系对图进行无监督多核学习
344、MolSpectra:基于多模态能量谱的三维分子表示预训练
345、记忆的精准定位:一种针对大语言模型的细粒度神经元级知识编辑技术
346、迈向对大语言模型后训练中合成数据的理论理解:反向瓶颈视角
- 论文:点击下载
- 代码:https://github.com/ZyGan1999/Towards-a-Theoretical-Understanding-of-Synthetic-Data-in-LLM-Post-Training
347、动量法性能分析:频域视角
348、学习为大语言模型代理增强决策能力而上下文化网页内容
349、Jamba:混合Transformer-Mamba语言模型
350、从他人的预测中学习三维感知
351、探索大语言模型代理的社会亲和性非理性行为:社会认知视角
352、将视觉对应关系融入扩散模型以实现虚拟试穿
353、通过退化分类进行通用图像修复预训练
354、ConMix:用于长尾深度聚类的表征级对比混合方法
355、ADePT:用于参数高效微调的自适应分解式提示调优
356、设计具有柱状阶段的简洁卷积神经网络
357、驯服大语言模型中的过度自信:RLHF中的奖励校准
358、改进扩散路径采样器的离策略训练的过渡路径采样
359、StringLLM:理解大型语言模型的字符串处理能力
360、用于文本到3D生成的一致性流蒸馏
361、大语言模型输出中语义敏感信息的基准测试
362、xFinder:作为自动化评估工具的大语言模型,用于可靠评估
363、从命令到提示:基于大语言模型的AIOS语义文件系统
364、SonicSim:用于移动声源场景下语音处理的可定制仿真平台
365、解耦图能量模型用于异质图上的节点分布外检测
366、BaB-ND:基于分支定界和神经动力学的长时程运动规划
367、BigDocs:用于文档和代码任务上多模态模型训练的开放数据集
368、HERO:面向在线扩散模型微调的人工反馈高效强化学习
369、任意图上的全归纳节点分类
370、用于逆向分子设计与逆合成规划的多模态大型语言模型
371、基于MDLformer引导搜索的符号回归:从最小化预测误差到最小化描述长度
372、对比语言图像预训练中的后门样本检测
373、无数据一步文本到图像生成的引导分数身份蒸馏
374、多智能体游戏环境中竞争的大型语言模型
375、用于耦合非平稳多臂赌博机的组合动作强化学习
376、OGBench:离线目标条件强化学习基准测试
377、CREMA:通过多模态模块化融合实现可泛化且高效的视频-语言推理
378、对齐的LLM并非对齐的浏览器代理
379、图神经网络的边缘提示调优
380、用于LLM推理的辅助模型优化多令牌联合解码
381、基于算法稳定性的对抗训练泛化界
382、学习参数化偏微分方程的神经求解器以增强物理信息方法
383、MS-Diffusion:具有布局指导的多主体零样本图像个性化
384、AdaManip:自适应铰接式物体操作环境与策略学习
385、使用大型语言模型的零样本基于模型的强化学习
386、解读CLIP中神经元的二阶效应
387、GOAL:通用组合优化智能体学习者
388、跨越鸿沟:通过模态反演揭示CLIP中的模态内不对齐
389、读懂你的心脏:通过预训练心电图语言模型学习心电图单词和句子
390、Dynamic-LLaVA:通过动态视觉-语言上下文稀疏化实现高效多模态大型语言模型
391、潜在一致性模型的改进训练技术
392、扩散模型的动态负向引导
393、用于防御标签污染攻击的对抗训练
394、轨迹注意力用于细粒度视频运动控制
395、Diff-Prompt:带有掩码监督的扩散驱动提示生成器
396、LDAdam:基于低维梯度统计的自适应优化
397、通过自适应熵感知优化实现鲁棒的多模态开放集测试时适应
398、HALL-E:用于分钟级零样本文本到语音合成的分层神经编解码语言模型
399、生成可解释语义文本嵌入的一般框架
400、多模态情境安全
401、Visual-O1:通过多模态多轮思维链推理理解模糊指令
402、基于进化式多视图融合的可信多视图分类
403、HQGS:在退化场景中利用高斯泼溅实现高质量新视角合成
404、REFINE:通过模型重编程实现无反演后门防御
405、紧密聚类催生专业专家
406、基于金字塔注意力广播的实时视频生成
407、通过滤波器子空间对大型卷积模型进行调优
408、光谱-黎曼图神经网络
409、迈向无需实例级模态对应关系的跨模态泛化
410、从分割演示中学习子任务感知的视觉奖励
411、TopoDiffusionNet:一种拓扑感知扩散模型
412、3DGS-Drag:拖拽高斯点以实现直观的基于点的3D编辑
413、从离线多任务数据中学习可泛化的技能,用于多智能体协作
414、当将扩散模型重新用于通用密集感知任务时,什么才是关键?
415、使用李雅普诺夫稳定嵌入进行对抗鲁棒的分布外检测
416、用欲望驱动的自主性模拟人类日常活动
417、CtrLoRA:一个可扩展且高效的可控图像生成框架
418、ParaSolver:一种用于扩散模型的分层并行积分求解器
419、挖掘你自己的秘密:用于文本到图像扩散模型持续个性化的扩散分类器得分
420、RAG-DDR:利用可微数据奖励优化检索增强生成
421、GeoX:通过统一的形式化视觉-语言预训练解决几何问题
422、两张稀疏矩阵胜过一张:利用双重稀疏分解稀疏化神经网络
423、Motion-Agent:一个基于LLM的人体运动生成对话框架
424、AstroCompress:用于天文数据多用途压缩的基准数据集
425、DCT-CryptoNets:在频域中扩展隐私推理
426、Unbounded:一场角色生命模拟的生成式无限游戏
427、面向视觉Transformer的度量驱动归因
428、扩散模型是实时游戏引擎
429、超越特征相似性:基于类感知条件互信息的有效数据集蒸馏
430、GravMAD:基于接地空间价值图引导的动作扩散用于通用3D操作
- 论文:点击下载
- 代码:[yangtaochen@smali.nju.edu.cn, {chenzx, huojing, gaoy} @nju.edu.cn,](yangtaochen@smali.nju.edu.cn, {chenzx, huojing, gaoy} @nju.edu.cn,)
431、DriveTransformer:用于可扩展端到端自动驾驶的统一Transformer
432、N-ForGOT:迈向开放时序图学习的不忘与泛化
433、重新思考基于轻量解码器的车辆路径问题求解器
434、重新思考扩散后验采样:从条件分数估计器到最大化后验分布
- 论文:点击下载
- 代码:https://github.com/tongdaxu/Rethinking-Diffusion-Posterior-Sampling-From-Conditional-Score-Estimator-to-Maximizing-a-Posterior
435、脉冲神经网络中的时间灵活性:迈向跨时间步的泛化与部署友好性
436、面向以对象为中心的学习和组合生成的预训练扩散模型的槽位引导适应
437、SpinQuant:基于学习旋转的LLM量化
438、大型语言模型低秩适配方法的优化景观
439、Transformer能否通过连接训练数据中的分离知识进行推理?
440、涌现的渗流模型:分析在形式语言上训练的Transformer
441、自适应保留与修正:持续学习的测试时训练
442、WGANs的成功是因为它们最小化了Wasserstein距离吗?来自离散生成器的启示
443、双注意力免疫原性预测助力疫苗靶点选择
444、将多模态模型中的指令微调与大脑中的视觉-语言处理相关联
445、WavTokenizer:用于音频语言建模的高效声学离散编解码分词器
446、Bad-PFL:针对个性化联邦学习的后门攻击
447、提升LLM的多语言推理能力:来自跨语言相关性和最优数据比例的洞见
448、PhysPDE:重新思考偏微分方程发现及物理假设选择基准
449、干预锚定标记:缓解MLLM幻觉的解码策略
450、通过解析注意力因果关系减轻多模态大型语言模型中模态先验诱发的幻觉
451、通过策划LLM驱动的评分系统提高数据效率
452、VL-ICL基准:多模态上下文学习细节中的魔鬼
453、ECHOPulse:基于心电图控制的心脏超声视频生成
454、一个目标就够了:无需奖励、示范或子目标的对比强化学习中涌现技能与探索能力
455、蜂鸟:通过多模态上下文对齐实现高保真图像生成
456、因果图变换器用于未知干扰下的治疗效应估计
457、菲迪亚斯:基于文本、图像和3D条件,并结合参考增强扩散技术生成3D内容的生成模型
458、多视角等变性在仅需少量特征微调的情况下提升3D对应关系理解能力
459、用于逆色调映射的学习增益图
460、具有3D感知2D表示的潜在辐射场
461、推测式知识蒸馏:通过交错采样弥合师生差距
462、SMI-Editor:基于片段级监督的编辑型SMILES语言模型
463、长序列推荐模型需要解耦嵌入
464、TIPS:具有空间感知的文本-图像预训练
465、OMNI-EPIC:通过基于人类趣味性概念的模型及代码编写的环境实现开放性
- 论文:点击下载
- 代码:https://dub.sh/omniepic
466、Cut the Crap:面向基于LLM的多智能体系统的经济高效通信管道
467、哈尔顿调度器用于掩码生成式图像Transformer
468、MVTokenFlow:利用多视角标记流生成高质量4D内容
469、羊群中的异类:利用伪相关属性进行视觉-语言识别
470、Framer:交互式帧插值
471、GS-CPR:基于3D高斯泼溅的高效相机位姿精炼
472、BrainUICL:用于EEG应用的无监督个体持续学习框架
473、上下文学习是否足以让大型语言模型遵循指令?
474、迈向有效的LLM去学习方法评估与比较
475、为大型语言模型学习演化工具
476、用于基于模型的上下文规划的强化学习算法蒸馏
477、OVTR:基于Transformer的端到端开放式多目标跟踪
478、BOFormer:通过非马尔可夫强化学习学习解决多目标贝叶斯优化问题
479、RDT-1B:用于双手操作的扩散基础模型
480、VILA-U:整合视觉理解和生成的统一基础模型
481、GS-LiDAR:基于全景高斯泼溅生成逼真的激光雷达点云
482、聚焦链提示:利用序列视觉线索提示大型自回归视觉模型
483、PAL:用于多元对齐的高效样本个性化奖励建模
484、动态扩散Transformer
485、McEval:大规模多语言代码评估
486、SEAL:通过双层数据选择实现安全增强的对齐大语言模型微调
487、双向解码:通过引导式测试时采样改进动作分块
488、通过隐藏状态匹配提升语言模型蒸馏效果
489、导航神经空间:重新审视概念激活向量以克服方向性偏差
490、中等难度样本构成了剪枝数据集上知识蒸馏的平滑决策边界
491、在DNA基础模型领域重访卷积架构
492、通过时间距离实现情境新颖性
493、通过自动奖励建模与规划扩展自主智能体
494、FlickerFusion:轨迹内域泛化多智能体强化学习
495、无梯度生成用于硬约束系统
496、M^3PC:使用预训练掩码轨迹模型进行测试时模型预测控制
497、动力学扩散:用扩散模型学习时间动态
498、ProtoSnap:楔形文字符号的原型对齐
499、DiffSplat:将图像扩散模型改造成可扩展的高斯泼溅生成工具
500、学习鲁棒视频目标分割的空间语义特征
501、迈向将视觉脑解码推广至未见受试者
502、关于自监督表征学习的判别式概率建模
503、从近期性和过度平滑的角度理解并缓解状态空间模型的瓶颈问题
504、PointOBB-v2:迈向更简单、更快、更强的单点监督定向目标检测
505、领域指导:一种针对预训练扩散模型的简单迁移方法
506、MoDGS:从随意拍摄的单目视频中结合深度先验进行动态高斯泼溅
- 论文:点击下载
- 代码:https://MoDGS.github.io
507、VEDIT:用于程序化视频表征学习的潜在预测架构
508、SAGEPhos:基于智慧生物耦合与增强融合的磷酸化位点检测
509、用于实例分割的无训练数据集剪枝
510、PuzzleFusion++:通过去噪与验证实现自动凝聚式三维断层拼接
511、ET-SEED:高效轨迹级 SE(3) 等变扩散策略
512、Video-STaR:自训练使视频指令微调在任意监督下成为可能
513、基于视频的局部敏感头像
514、流式视频理解与增强记忆的知识多轮交互
515、LaMP:用于运动生成、检索和字幕生成的语言-运动预训练
516、PostCast:通过无监督模糊度建模实现可泛化的降水临近预报后处理
517、电路表示学习:基于掩码门控建模与 Verilog-AIG 对齐
518、AuroraCap:高效、高性能的视频细节字幕生成及新基准
519、COME:通过保守地最小化熵进行测试时适应
520、细粒度验证器:视觉-语言对齐中的偏好建模作为下一个标记预测
521、CoInD:在扩散模型中实现逻辑组合
522、智能体系统的自动化设计
523、ParetoFlow:多目标优化中的引导流
524、理解标签平滑为何会降低选择性分类性能以及如何修复它
525、Meissonic:重振掩码生成式变压器,用于高效高分辨率文本到图像合成
526、一个系数让 SVRG 更加有效
527、FaceShot:让任何角色栩栩如生
528、深度神经网络解是否构成星形域?
529、FakeShield:基于多模态大型语言模型的可解释图像伪造检测与定位
530、重新审视大型语言模型中的上下文学习推理电路
531、VideoGrain:通过调节时空注意力实现多粒度视频编辑
532、COMBO:用于具身多智能体协作的组合世界模型
533、FasterCache:高质量无训练加速视频扩散模型
534、具有逻辑与属性自我反思的长 horizon 视觉指令生成
535、SaRA:通过渐进式稀疏低秩适配进行高效扩散模型微调
536、通过模块化归因与干预缓解大型视觉-语言模型中的幻觉现象
537、门控Delta网络:利用Delta规则改进Mamba2
538、3DTrajMaster:掌握视频生成中多实体运动的3D轨迹
539、理解并增强越狱攻击的可迁移性
540、AniSDF:具有各向异性编码的融合粒度神经表面,用于高保真3D重建
口头报告接收
1、RM-Bench:以细腻与风格为基准评估语言模型的奖励模型
2、TopoLM:基于地形学的语言模型中的类脑空间功能组织
3、Spider 2.0:在真实企业文本到SQL工作流上评估语言模型
- 论文:点击下载
- 代码:spider2-sql.github.io
4、基于扩散的自动驾驶规划与灵活引导
5、语言模型预训练过程中的知识熵衰减阻碍新知识的获取
6、从示范序列中学习搜索
7、通过有据可依的归因和学会拒绝来衡量与提升RAG中LLM的可信度
8、MAP:多人类价值观对齐调色板
9、传播偏好标注:用于高效LLM对齐的直接偏好判断
10、学习发现调控元件以预测基因表达
11、Brain Bandit:一种基于生物学原理的神经网络,用于高效控制探索行为
12、块扩散:在自回归与扩散语言模型之间进行插值
13、使用通用量化扩散模型进行渐进式压缩
14、标准高斯过程足以应对高维贝叶斯优化
15、即时策略:通过图扩散实现上下文模仿学习
16、RB调制:基于参考的调制实现无需训练的风格化处理
17、Kinetix:通过开放式物理控制任务研究通用智能体的训练
18、振荡状态空间模型
19、注意力作为超网络
20、基于能量的后门防御机制,用于对抗联邦图学习
21、通过条件对比对齐实现无引导的AR视觉生成
22、RMP-SAM:迈向实时多功能分割一切
23、流形上的残差深度高斯过程
24、学习离散化去噪扩散ODEs
25、Proteina:基于流的蛋白质结构生成模型的扩展
26、反馈有利于神经ODE的泛化
27、稀疏自编码器的扩展与评估
- 论文:点击下载
- 代码:http://example.com
28、我是否了解这个实体?语言模型中的知识意识与幻觉
29、TetSphere Splatting:用拉格朗日体积网格表示高质量几何体
30、通过自适应模型融合实现受版权保护的语言生成
31、BIRD:面向大型语言模型的可信贝叶斯推理框架
32、重新思考基于偏好对齐的大型语言模型中的奖励建模
33、渐进式蒸馏诱导出隐式课程
34、miniCTX:带有(长)上下文的神经定理证明
35、Ctrl-Adapter:一种高效且通用的框架,用于将多种控制方式适配到任何扩散模型
36、预测性逆动力学模型是可扩展的机器人操作学习者
37、用于生成的表征对齐:训练扩散Transformer比你想象的更容易
- 论文:点击下载
- 代码:https://sihyun.me/REPA
38、MMQA:使用多表多跳复杂问题评估LLM
39、关于3D高斯泼溅训练的扩展
40、BigCodeBench:使用多样化的函数调用和复杂指令评估代码生成
41、SD-LoRA:适用于类别增量学习的可扩展解耦低秩适配
42、通过最优对角协方差匹配改进概率扩散模型
43、PathGen-1.6M:通过多智能体协作生成160万张病理图像-文本对
44、大型语言模型去学习与对齐的概率视角
45、MLE-bench:在机器学习工程领域评估机器学习代理
46、用于局部泛化的子图联邦学习
47、不规则时间序列的连续状态空间费曼–卡茨模型的摊销控制
48、欺骗自动LLM基准测试:零模型也能获得高胜率
49、通过次模态文件选择对抗LLM预训练数据中的维度坍塌
50、SymmetricDiffusers:在有限对称群上学习离散扩散模型
51、机器人操作模仿学习中的数据规模法则
52、群体Transformer:学习神经活动的群体级表征
53、HiRA:面向大型语言模型的参数高效哈达玛高秩适配
54、关于网格细胞的共形等距性:学习距离保持的位置嵌入
55、我的数据集被使用了多少?机器学习中的定量数据使用推断
56、一种理论上有原则的分子稀疏、连通且刚性的图表示
57、MOS:用于基于LiDAR的3D目标检测测试时适应的模型协同
58、LARP:利用学习到的自回归生成先验对视频进行分词
59、解锁函数向量的力量:用于刻画和缓解持续指令微调中的灾难性遗忘
60、EmbodiedSAM:实时在线分割任意3D物体
61、受鲁棒性启发的图后门防御
62、无源域适应的代理去噪
63、Cybench:评估语言模型网络安全能力和风险的框架
64、关于利用瞬时依赖识别时间因果表征的研究
65、WizardMath:通过强化Evol-Instruct赋能大型语言模型的数学推理能力
66、LLM微调的动力学研究
67、更多的RLHF,更多的信任吗?关于偏好对齐对可信度的影响
68、拓扑盲点:从表达能力的角度理解并扩展拓扑深度学习
69、面向可变形状和可变形物体操作的几何感知强化学习
70、ProtComposer:基于3D椭球体的组合式蛋白质结构生成
71、MoE++:通过零计算专家加速混合专家方法
72、双曲视觉-语言模型的组合蕴含学习
73、DeepLTL:为多任务强化学习高效满足复杂LTL规范的学习
74、用于灵活对接与松弛的不平衡流组合
75、关于注意力头在大型语言模型安全性中的作用
76、AlphaEdit:针对语言模型的零空间约束模型编辑
77、优先级生成式重放
78、通过正则化不平衡最优传输从快照中学习随机动力学
79、无姿态,没问题:从稀疏无姿态图像中生成的惊人简单的3D高斯点云
80、大型语言模型中类别与层次概念的几何结构
81、具有中点引导的变分扩散后验采样
82、检索头机制性地解释了长上下文的事实性
83、NeuralPlane:基于神经场的平面基元结构化3D重建
84、微分Transformer
- 论文:点击下载
- 代码:https://aka.ms/GeneralAI
85、利用时空一致高斯表示进行天气临近预报的高动态雷达序列预测
86、信任还是升级?具备可证明保证的人类一致性LLM裁判
87、REEF:用于大型语言模型的表征编码指纹
88、你的专家混合LLM其实免费就是一个嵌入模型
89、基于最优控制的语言模型数据选择
90、GridMix:在PDE建模中探索用于神经场的空间调制
91、LLM-SR:通过大型语言模型编程进行科学方程发现
92、通过相似性感知评估重新思考药物靶点亲和力预测算法的泛化能力
93、LVSM:一种具有最小3D归纳偏置的大视图合成模型
94、MISL能飞吗?互信息技能学习的分析与要素
95、在大词汇量语言模型中减少损失
96、两种效应,一个触发器:关于对比视觉-语言模型中的模态差距、对象偏见和信息不平衡
97、FlexPrefill:一种上下文感知的稀疏注意力机制,用于高效的长序列推理
98、SANA:使用线性扩散Transformer实现高效高分辨率文本到图像合成
99、REGENT:一种检索增强型通才智能体,可在新环境中进行上下文行动
100、MMIE:大型视觉-语言模型的海量多模态交错理解基准测试
101、照我们做,别按你想:大型语言模型的一致性
102、Booster:通过削弱有害扰动来应对大型语言模型中的有害微调
103、概率性延迟学习:处理缺失的专家标注并控制工作负载分配
104、人工库拉莫托振荡神经元
105、ChartMoE:用于图表理解的多样化对齐专家连接器混合模型
106、十年的数据集偏见之争:我们是否已经到达终点?
107、了解你的目标:目标感知Transformer实现更好的时空视频定位
108、基于长短时想象的开放世界强化学习
109、SAM 2:在图像和视频中进行任何内容的分割
110、视觉-语言模型如何表征空间?在歧义条件下评估空间参考框架
111、用于建模人类大脑中色觉涌现的计算框架
接受条件口头报告
1、像人类一样导航数字世界:面向GUI智能体的通用视觉定位
2、TANGO:基于分层音频运动嵌入与扩散插值的共言语手势视频重现
3、Loopy:利用长期运动依赖驯服音频驱动的人像虚拟形象
4、CyberHost:一种单阶段扩散框架,用于生成音频驱动的会说话身体
5、PhysBench:用于物理世界理解的视觉-语言模型基准测试与提升
接受条件聚光灯报告
1、OmniCorpus:一个包含100亿级图像与文本交错的统一多模态语料库
2、FairMT-Bench:用于对话式大语言模型中多轮对话公平性的基准测试
接受条件海报展示
1、利用合成交错数据扩展语音-文本预训练
2、K-HALU:大型语言模型的多答案韩语幻觉基准测试
3、DiscoveryBench:迈向基于大型语言模型的数据驱动发现
4、使用可控再生从干净噪声中去除图像水印
5、ScienceAgentBench:迈向对数据驱动科学发现的语言智能体的严格评估
6、分辨率攻击:利用图像压缩欺骗深度神经网络
7、SafeWatch:一种高效的、具有透明解释的安全策略遵循视频护栏模型
8、用于图像生成的可解释压缩描述
9、衡量并提升文本到图像生成模型的参与度
10、AgentHarm:衡量LLM智能体危害性的基准测试
11、通过Q-learning赋予LLM智能体零样本最优决策能力
- 论文:点击下载
- 代码:http://mlaq.site/
12、TOMATO:评估多模态基础模型中的视觉时间推理能力
13、多样性奖励的CFG蒸馏
14、GUI-World:一个多模态GUI导向理解的视频基准和数据集
15、向后看:基于特征库的流式视频到视频翻译
16、个性化生成中的个性化表征
17、VD3D:驾驭大型视频扩散Transformer实现3D摄像机控制
18、少即是多:在图像条件特征中掩码元素可避免风格迁移扩散模型中的内容泄露
19、$F^3Set$:面向从视频中分析快速、频繁且细粒度事件
20、SWEb:斯堪的纳维亚语言的大规模网络数据集
21、通过掩码-属性对齐释放视觉-语言预训练在3D零样本病灶分割中的潜力
22、PersonalLLM:根据个人偏好定制大语言模型
23、BadRobot:在物理世界中越狱具身大语言模型
24、将多模态大语言模型 grounding 到 GUI 世界
25、个性化的视觉指令微调
26、TaskGalaxy:以数万种视觉任务类型扩展多模态指令微调
27、TAU-106K:用于全面理解交通事故的新数据集
28、从带有噪声标签的网络视频中学习生成多样化的行人运动
29、UNIP:重新思考用于红外语义分割的预训练注意力模式
30、DiTTo-TTS:无需领域特定因素即可实现可扩展文本转语音的扩散Transformer
31、Aria-MIDI:用于符号化音乐建模的钢琴MIDI文件数据集
32、利用可扩展的合成数据为任意视频添加深度信息
33、HART:使用混合自回归Transformer实现高效视觉生成
34、SONICS:合成与否——识别假冒歌曲
35、CycleResearcher:通过自动化评审改进自动化研究
36、适用于多样化生物医学任务的可解释双语多模态大语言模型
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器