[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-aimerou--awesome-ai-papers":3,"tool-aimerou--awesome-ai-papers":62},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":59,"last_commit_at":60,"category_tags":61,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,27],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":79,"stars":81,"forks":82,"last_commit_at":83,"license":79,"difficulty_score":59,"env_os":84,"env_gpu":85,"env_ram":85,"env_deps":86,"category_tags":89,"github_topics":91,"view_count":24,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":101,"updated_at":102,"faqs":103,"releases":104},8977,"aimerou\u002Fawesome-ai-papers","awesome-ai-papers","A curated list of the most impressive AI papers","awesome-ai-papers 是一个精心整理的 AI 论文清单，旨在帮助从业者快速追踪人工智能领域的最新突破与经典成果。面对海量且更新迅速的学术文献，研究人员和开发者往往难以高效筛选出高价值内容，awesome-ai-papers 通过按发布时间排序并细分领域的方式，有效解决了这一信息过载难题。\n\n该资源覆盖了计算机视觉、自然语言处理、音频处理、多模态学习及强化学习五大核心方向，收录了从 2022 年至今的前沿研究，同时也包含了具有里程碑意义的历史经典论文。其独特的亮点在于建立了一套清晰的分级标识系统：用不同图标区分“引用超万的奠基性历史论文”、“达到最先进水平的重点论文”以及“极具潜力的新兴趋势”，让用户能一眼识别论文的行业地位与创新程度。\n\n无论是希望紧跟技术前沿的算法工程师、需要调研文献的学术研究者，还是对 AI 发展脉络感兴趣的技术爱好者，都能从中获益。通过 awesome-ai-papers，用户可以轻松找到如 Segment Anything (SAM)、ControlNet、SDXL 等知名模型的原始论文，为技术选型、灵感激发或深入学习提供可靠指引。","# Awesome AI Papers ⭐️\n\n## Description\nThis repository is an up-to-date list of significant AI papers organized by publication date. It covers five fields : computer vision, natural language processing, audio processing, multimodal learning and reinforcement learning. Feel free to give this repository a star if you enjoy the work.\n\nMaintainer: [Aimerou Ndiaye](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Faimerou-ndiaye-867708162\u002F)\n\n## Table of Contents\n1. [2023 Papers](#2023)\n    - [Computer Vision](#2023cv)\n    - [Natural Language Processing](#2023nlp)\n    - [Audio Processing](#2023ap)\n    - [Multimodal Learning](#2023ml)\n    - [Reinforcement Learning](#2023rl)\n    - [Other Papers](#2023op)\n2. [2022 Papers](#2022)\n    - [Computer Vision](#2022cv)\n    - [Natural Language Processing](#2022nlp)\n    - [Audio Processing](#2022ap)\n    - [Multimodal Learning](#2022ml)\n    - [Reinforcement Learning](#2022rl)\n    - [Other Papers](#2022op)\n3. [Historical Papers](#history)\n\n## Taxonomy\nTo select the most relevant papers, we chose subjective limits in terms of number of citations. Each icon here designates a paper type that meets one of these criteria.\n\n🏆 Historical Paper : more than 10k citations and a decisive impact in the evolution of AI.\n\n⭐ Important Paper : more than 50 citations and state of the art results.\n\n⏫ Trend : 1 to 50 citations, recent and innovative paper with growing adoption.\n\n📰 Important Article : decisive work that was not accompanied by a research paper.\n\n----\n\n## 2023 Papers \u003Ca name=\"2023\">\u003C\u002Fa>\n\n### Computer Vision \u003Ca name=\"2023cv\">\u003C\u002Fa>\n* ⭐ 01\u002F2023: [Muse: Text-To-Image Generation via Masked Generative Transformers (Muse)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.00704)\n* ⭐ 02\u002F2023: [Structure and Content-Guided Video Synthesis with Diffusion Models (Gen-1)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.03011)\n* ⭐ 02\u002F2023: [Scaling Vision Transformers to 22 Billion Parameters (ViT 22B)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.05442)\n* ⭐ 02\u002F2023: [Adding Conditional Control to Text-to-Image Diffusion Models (ControlNet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.05543)\n* ⭐ 03\u002F2023: [Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models (Visual ChatGPT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04671)\n* ⭐ 03\u002F2023: [Scaling up GANs for Text-to-Image Synthesis (GigaGAN)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.05511)\n* ⭐ 04\u002F2023: [Segment Anything (SAM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.02643)\n* ⭐ 04\u002F2023: [DINOv2: Learning Robust Visual Features without Supervision (DINOv2)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07193)\n* ⭐ 04\u002F2023: [Visual Instruction Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08485)\n* ⭐ 04\u002F2023: [Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models (VideoLDM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08818)\n* ⭐ 04\u002F2023: [Synthetic Data from Diffusion Models Improves ImageNet Classification](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08466)\n* ⭐ 04\u002F2023: [Segment Anything in Medical Images (MedSAM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12306)\n* ⭐ 05\u002F2023: [Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold (DragGAN)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973)\n* ⭐ 06\u002F2023: [Neuralangelo: High-Fidelity Neural Surface Reconstruction (Neuralangelo)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03092)\n* ⭐ 07\u002F2023: [SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis (SDXL)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.01952)\n* ⭐ 08\u002F2023: [3D Gaussian Splatting for Real-Time Radiance Field Rendering](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3592433)\n* ⭐ 08\u002F2023: [Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization... (Qwen-VL)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12966)\n* ⏫ 08\u002F2023: [MVDream: Multi-view Diffusion for 3D Generation (MVDream)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.16512)\n* ⏫ 11\u002F2023: [Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks (Florence-2)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.06242)\n* ⏫ 12\u002F2023: [VideoPoet: A Large Language Model for Zero-Shot Video Generation (VideoPoet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14125)\n\n### NLP \u003Ca name=\"2023nlp\">\u003C\u002Fa>\n* ⭐ 01\u002F2023: [DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature (DetectGPT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11305)\n* ⭐ 02\u002F2023: [Toolformer: Language Models Can Teach Themselves to Use Tools (Toolformer)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761)\n* ⭐ 02\u002F2023: [LLaMA: Open and Efficient Foundation Language Models (LLaMA)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971)\n* 📰 03\u002F2023: [GPT-4](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-4)\n* ⭐ 03\u002F2023: [Sparks of Artificial General Intelligence: Early experiments with GPT-4 (GPT-4 Eval)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12712)\n* ⭐ 03\u002F2023: [HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace (HuggingGPT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580)\n* ⭐ 03\u002F2023: [BloombergGPT: A Large Language Model for Finance (BloombergGPT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17564)\n* ⭐ 04\u002F2023: [Instruction Tuning with GPT-4](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03277)\n* ⭐ 04\u002F2023: [Generative Agents: Interactive Simulacra of Human  (Gen Agents)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03442)\n* ⭐ 05\u002F2023: [PaLM 2 Technical Report (PaLM-2)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10403)\n* ⭐ 05\u002F2023: [Tree of Thoughts: Deliberate Problem Solving with Large Language Models (ToT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601)\n* ⭐ 05\u002F2023: [LIMA: Less Is More for Alignment (LIMA)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11206)\n* ⭐ 05\u002F2023: [QLoRA: Efficient Finetuning of Quantized LLMs (QLoRA)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14314)\n* ⭐ 05\u002F2023: [Voyager: An Open-Ended Embodied Agent with Large Language Models (Voyager)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291)\n* ⭐ 07\u002F2023: [ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (ToolLLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789)\n* ⭐ 08\u002F2023: [MetaGPT: Meta Programming for Multi-Agent Collaborative Framework (MetaGPT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.00352)\n* ⭐ 08\u002F2023: [Code Llama: Open Foundation Models for Code (Code Llama)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12950)\n* ⏫ 09\u002F2023: [RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback (RLAIF)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.00267)\n* ⭐ 09\u002F2023: [Large Language Models as Optimizers (OPRO)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03409)\n* ⏫ 10\u002F2023: [Eureka: Human-Level Reward Design via Coding Large Language Models (Eureka)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.12931)\n* ⏫ 12\u002F2023: [Mathematical discoveries from program search with large language models (FunSearch)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06924-6?utm_source=substack&utm_medium=email)\n\n### Audio Processing \u003Ca name=\"2023ap\">\u003C\u002Fa>\n* ⭐ 01\u002F2023: [Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (VALL-E)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.02111)\n* ⭐ 01\u002F2023: [MusicLM: Generating Music From Text (MusicLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11325)\n* ⭐ 01\u002F2023: [AudioLDM: Text-to-Audio Generation with Latent Diffusion Models (AudioLDM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12503)\n* ⭐ 03\u002F2023: [Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages (USM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.01037)\n* ⭐ 05\u002F2023: [Scaling Speech Technology to 1,000+ Languages (MMS)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13516)\n* ⏫ 06\u002F2023: [Simple and Controllable Music Generation (MusicGen)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05284)\n* ⏫ 06\u002F2023: [AudioPaLM: A Large Language Model That Can Speak and Listen (AudioPaLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.12925)\n* ⏫ 06\u002F2023: [Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale (Voicebox)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.15687)\n\n### Multimodal Learning \u003Ca name=\"2023ml\">\u003C\u002Fa>\n* ⭐ 02\u002F2023: [Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14045v2)\n* ⭐ 03\u002F2023: [PaLM-E: An Embodied Multimodal Language Model (PaLM-E)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03378)\n* ⭐ 04\u002F2023: [AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head (AudioGPT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12995)\n* ⭐ 05\u002F2023: [ImageBind: One Embedding Space To Bind Them All (ImageBind)](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2023\u002Fhtml\u002FGirdhar_ImageBind_One_Embedding_Space_To_Bind_Them_All_CVPR_2023_paper.html)\n* ⏫ 07\u002F2023: [Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning (CM3Leon)](https:\u002F\u002Fai.meta.com\u002Fresearch\u002Fpublications\u002Fscaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning\u002F)\n* ⏫ 07\u002F2023: [Meta-Transformer: A Unified Framework for Multimodal Learning (Meta-Transformer)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.10802)\n* ⏫ 08\u002F2023: [SeamlessM4T: Massively Multilingual & Multimodal Machine Translation (SeamlessM4T)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11596)\n\n### Reinforcement Learning \u003Ca name=\"2023rl\">\u003C\u002Fa>\n* ⭐ 01\u002F2023: [Mastering Diverse Domains through World Models (DreamerV3)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.04104)\n* ⏫ 02\u002F2023: [Grounding Large Language Models in Interactive Environments with Online RL (GLAM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02662)\n* ⏫ 02\u002F2023: [Efficient Online Reinforcement Learning with Offline Data (RLPD)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02948)\n* ⏫ 03\u002F2023: [Reward Design with Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.00001)\n* ⭐ 05\u002F2023: [Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18290)\n* ⏫ 06\u002F2023: [Faster sorting algorithms discovered using deep reinforcement learning (AlphaDev)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06004-9)\n* ⏫ 08\u002F2023: [Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization (Retroformer)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02151)\n\n### Other Papers \u003Ca name=\"2023op\">\u003C\u002Fa>\n* ⭐ 02\u002F2023: [Symbolic Discovery of Optimization Algorithms (Lion)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.06675)\n* ⭐ 07\u002F2023: [RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (RT-2)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.15818)\n* ⏫ 11\u002F2023: [Scaling deep learning for materials discovery (GNoME)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06735-9)\n* ⏫ 12\u002F2023: [Discovery of a structural class of antibiotics with explainable deep learning](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06887-8)\n\n\n\n## 2022 Papers \u003Ca name=\"2022\">\u003C\u002Fa>\n\n### Computer Vision \u003Ca name=\"2022cv\">\u003C\u002Fa>\n* ⭐ 01\u002F2022: [A ConvNet for the 2020s (ConvNeXt)](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FLiu_A_ConvNet_for_the_2020s_CVPR_2022_paper.html)\n* ⭐ 01\u002F2022: [Patches Are All You Need (ConvMixer)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.09792)\n* ⭐ 02\u002F2022: [Block-NeRF: Scalable Large Scene Neural View Synthesis (Block-NeRF)](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FTancik_Block-NeRF_Scalable_Large_Scene_Neural_View_Synthesis_CVPR_2022_paper.html)\n* ⭐ 03\u002F2022: [DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection (DINO)](https:\u002F\u002Fopenreview.net\u002Fforum?id=3mRwyG5one)\n* ⭐ 03\u002F2022: [Scaling Up Your Kernels to 31×31: Revisiting Large Kernel Design in CNNs (Large Kernel CNN)](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FDing_Scaling_Up_Your_Kernels_to_31x31_Revisiting_Large_Kernel_Design_CVPR_2022_paper.html)\n* ⭐ 03\u002F2022: [TensoRF: Tensorial Radiance Fields (TensoRF)](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-19824-3_20)\n* ⭐ 04\u002F2022: [MaxViT: Multi-Axis Vision Transformer (MaxViT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01697)\n* ⭐ 04\u002F2022: [Hierarchical Text-Conditional Image Generation with CLIP Latents (DALL-E 2)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06125)\n* ⭐ 05\u002F2022: [Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Imagen)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11487)\n* ⭐ 05\u002F2022: [GIT: A Generative Image-to-text Transformer for Vision and Language (GIT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14100)\n* ⭐ 06\u002F2022: [CMT: Convolutional Neural Network Meet Vision Transformers (CMT)](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FGuo_CMT_Convolutional_Neural_Networks_Meet_Vision_Transformers_CVPR_2022_paper.html)\n* ⭐ 07\u002F2022: [Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors... (Swin UNETR)](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-08999-2_22)\n* ⭐ 07\u002F2022: [Classifier-Free Diffusion Guidance](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.12598)\n* ⭐ 08\u002F2022: [Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (DreamBooth)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.12242)\n* ⭐ 09\u002F2022: [DreamFusion: Text-to-3D using 2D Diffusion (DreamFusion)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14988)\n* ⭐ 09\u002F2022: [Make-A-Video: Text-to-Video Generation without Text-Video Data (Make-A-Video)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14792)\n* ⭐ 10\u002F2022: [On Distillation of Guided Diffusion Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03142)\n* ⭐ 10\u002F2022: [LAION-5B: An open large-scale dataset for training next generation image-text models (LAION-5B)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.08402)\n* ⭐ 10\u002F2022: [Imagic: Text-Based Real Image Editing with Diffusion Models (Imagic)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09276)\n* ⭐ 11\u002F2022: [Visual Prompt Tuning](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-19827-4_41)\n* ⭐ 11\u002F2022: [Magic3D: High-Resolution Text-to-3D Content Creation (Magic3D)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10440)\n* ⭐ 11\u002F2022: [DiffusionDet: Diffusion Model for Object Detection (DiffusionDet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09788)\n* ⭐ 11\u002F2022: [InstructPix2Pix: Learning to Follow Image Editing Instructions (InstructPix2Pix)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09800)\n* ⭐ 12\u002F2022: [Multi-Concept Customization of Text-to-Image Diffusion (Custom Diffusion)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04488)\n* ⭐ 12\u002F2022: [Scalable Diffusion Models with Transformers (DiT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09748)\n\n### NLP \u003Ca name=\"2022nlp\">\u003C\u002Fa>\n* ⭐ 01\u002F2022: [LaMBDA: Language Models for Dialog Applications (LaMBDA)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239)\n* ⭐ 01\u002F2022: [Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (CoT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)\n* ⭐ 02\u002F2022: [Competition-Level Code Generation with AlphaCode (AlphaCode)](https:\u002F\u002Fwww.science.org\u002Fdoi\u002Ffull\u002F10.1126\u002Fscience.abq1158)\n* ⭐ 02\u002F2022: [Finetuned Language Models Are Zero-Shot Learners (FLAN)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)\n* ⭐ 03\u002F2022: [Training language models to follow human instructions with human feedback (InstructGPT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155)\n* ⭐ 03\u002F2022: [Multitask Prompted Training Enables Zero-Shot Task Generalization (T0)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207)\n* ⭐ 03\u002F2022: [Training Compute-Optimal Large Language Models (Chinchilla)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556)\n* ⭐ 04\u002F2022: [Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (SayCan)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691)\n* ⭐ 04\u002F2022: [GPT-NeoX-20B: An Open-Source Autoregressive Language Model (GPT-NeoX)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745)\n* ⭐ 04\u002F2022: [PaLM: Scaling Language Modeling with Pathways (PaLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)\n* ⭐ 06\u002F2022: [Beyond the Imitation Game: Quantifying and extrapolating the capabilities of lang... (BIG-bench)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04615)\n* ⭐ 06\u002F2022: [Solving Quantitative Reasoning Problems with Language Models (Minerva)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.14858)\n* ⭐ 10\u002F2022: [ReAct: Synergizing Reasoning and Acting in Language Models (ReAct)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629)\n* ⭐ 11\u002F2022: [BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (BLOOM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100)\n* 📰 11\u002F2022: [Optimizing Language Models for Dialogue (ChatGPT)](https:\u002F\u002Fopenai.com\u002Fblog\u002Fchatgpt\u002F)\n* ⭐ 12\u002F2022: [Large Language Models Encode Clinical Knowledge (Med-PaLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.13138)\n\n### Audio Processing \u003Ca name=\"2022ap\">\u003C\u002Fa>\n* ⭐ 02\u002F2022: [mSLAM: Massively multilingual joint pre-training for speech and text (mSLAM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.01374)\n* ⭐ 02\u002F2022: [ADD 2022: the First Audio Deep Synthesis Detection Challenge (ADD)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.08433)\n* ⭐ 03\u002F2022: [Efficient Training of Audio Transformers with Patchout (PaSST)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.05069)\n* ⭐ 04\u002F2022: [MAESTRO: Matched Speech Text Representations through Modality Matching (Maestro)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.03409)\n* ⭐ 05\u002F2022: [SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language... (SpeechT5)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07205)\n* ⭐ 06\u002F2022: [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (WavLM)](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9814838)\n* ⭐ 07\u002F2022: [BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for ASR (BigSSL)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.13226)\n* ⭐ 08\u002F2022: [MuLan: A Joint Embedding of Music Audio and Natural Language (MuLan)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.12415)\n* ⭐ 09\u002F2022: [AudioLM: a Language Modeling Approach to Audio Generation (AudioLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.03143)\n* ⭐ 09\u002F2022: [AudioGen: Textually Guided Audio Generation (AudioGen)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.15352)\n* ⭐ 10\u002F2022: [High Fidelity Neural Audio Compression (EnCodec)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.13438)\n* ⭐ 12\u002F2022: [Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04356)\n\n### Multimodal Learning \u003Ca name=\"2022ml\">\u003C\u002Fa>\n* ⭐ 01\u002F2022: [BLIP: Boostrapping Language-Image Pre-training for Unified Vision-Language... (BLIP)](https:\u002F\u002Fproceedings.mlr.press\u002Fv162\u002Fli22n.html)\n* ⭐ 02\u002F2022: [data2vec: A General Framework for Self-supervised Learning in Speech, Vision and... (Data2vec)](https:\u002F\u002Fproceedings.mlr.press\u002Fv162\u002Fbaevski22a.html)\n* ⭐ 03\u002F2022: [VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks (VL-Adapter)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.06825)\n* ⭐ 04\u002F2022: [Winoground: Probing Vision and Language Models for Visio-Linguistic... (Winoground)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.03162)\n* ⭐ 04\u002F2022: [Flamingo: a Visual Language Model for Few-Shot Learning (Flamingo)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.14198)\n* ⭐ 05\u002F2022: [A Generalist Agent (Gato)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.06175)\n* ⭐ 05\u002F2022: [CoCa: Contrastive Captioners are Image-Text Foundation Models (CoCa)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01917)\n* ⭐ 05\u002F2022: [VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts (VLMo)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.02358)\n* ⭐ 08\u002F2022: [Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks (BEiT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.10442v2)\n* ⭐ 09\u002F2022: [PaLI: A Jointly-Scaled Multilingual Language-Image Model (PaLI)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.06794)\n\n### Reinforcement Learning \u003Ca name=\"2022rl\">\u003C\u002Fa>\n* ⭐ 01\u002F2022: [Learning robust perceptive locomotion for quadrupedal robots in the wild](https:\u002F\u002Fwww.science.org\u002Fdoi\u002Fabs\u002F10.1126\u002Fscirobotics.abk2822)\n* ⭐ 02\u002F2022: [BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning](https:\u002F\u002Fproceedings.mlr.press\u002Fv164\u002Fjang22a.html)\n* ⭐ 02\u002F2022: [Outracing champion Gran Turismo drivers with deep reinforcement learning (Sophy)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-021-04357-7)\n* ⭐ 02\u002F2022: [Magnetic control of tokamak plasmas through deep reinforcement learning](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-021-04301-9%E2%80%A6)\n* ⭐ 08\u002F2022: [Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning (ANYmal)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.11978)\n* ⭐ 10\u002F2022: [Discovering faster matrix multiplication algorithms with reinforcement learning (AlphaTensor)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-022%20-05172-4)\n\n### Other Papers \u003Ca name=\"2022op\">\u003C\u002Fa>\n* ⭐ 02\u002F2022: [FourCastNet: A Global Data-driven High-resolution Weather Model... (FourCastNet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.11214)\n* ⭐ 05\u002F2022: [ColabFold: making protein folding accessible to all (ColabFold)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41592-022-01488-1)\n* ⭐ 06\u002F2022: [Measuring and Improving the Use of Graph Information in GNN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.13170)\n* ⭐ 10\u002F2022: [TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis (TimesNet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02186)\n* ⭐ 12\u002F2022: [RT-1: Robotics Transformer for Real-World Control at Scale (RT-1)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.06817)\n\n\n\n## Historical Papers \u003Ca name=\"history\">\u003C\u002Fa>\n* 🏆 1958: [Perceptron: A probabilistic model for information storage and organization in the brain (Perceptron)](https:\u002F\u002Fpsycnet.apa.org\u002Frecord\u002F1959-09865-001)\n* 🏆 1986: [Learning representations by back-propagating errors (Backpropagation)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002F323533a0)\n* 🏆 1986: [Induction of decision trees (CART)](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002FBF00116251)\n* 🏆 1989: [A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition (HMM)](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F18626)\n* 🏆 1989: [Multilayer feedforward networks are universal approximators](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002F0893608089900208)\n* 🏆 1992: [A training algorithm for optimal margin classifiers (SVM)](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F130385.130401)\n* 🏆 1996: [Bagging predictors](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002FBF00058655)\n* 🏆 1998: [Gradient-based learning applied to document recognition (CNN\u002FGTN)](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F726791)\n* 🏆 2001: [Random Forests](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1023\u002Fa:1010933404324)\n* 🏆 2001: [A fast and elitist multiobjective genetic algorithm (NSGA-II)](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F996017)\n* 🏆 2003: [Latent Dirichlet Allocation (LDA)](https:\u002F\u002Fjmlr.csail.mit.edu\u002Fpapers\u002Fv3\u002Fblei03a.html)\n* 🏆 2006: [Reducing the Dimensionality of Data with Neural Networks (Autoencoder)](https:\u002F\u002Fwww.science.org\u002Fdoi\u002Fabs\u002F10.1126\u002Fscience.1127647)\n* 🏆 2008: [Visualizing Data using t-SNE (t-SNE)](https:\u002F\u002Fwww.jmlr.org\u002Fpapers\u002Fv9\u002Fvandermaaten08a.html)\n* 🏆 2009: [ImageNet: A large-scale hierarchical image database (ImageNet)](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F5206848)\n* 🏆 2012: [ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2012\u002Fhash\u002Fc399862d3b9d6b76c8436e924a68c45b-Abstract.html)\n* 🏆 2013: [Efficient Estimation of Word Representations in Vector Space (Word2vec)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1301.3781)\n* 🏆 2013: [Auto-Encoding Variational Bayes (VAE)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1312.6114)\n* 🏆 2014: [Generative Adversarial Networks (GAN)](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2014\u002Fhash\u002F5ca3e9b122f61f8f06494c97b1afccf3-Abstract.html)\n* 🏆 2014: [Dropout: A Simple Way to Prevent Neural Networks from Overfitting (Dropout)](https:\u002F\u002Fjmlr.org\u002Fpapers\u002Fv15\u002Fsrivastava14a.html)\n* 🏆 2014: [Sequence to Sequence Learning with Neural Networks](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2014\u002Fhash\u002Fa14ac55a4f27472c5d894ec1c3c743d2-Abstract.html)\n* 🏆 2014: [Neural Machine Translation by Jointly Learning to Align and Translate (RNNSearch-50)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1409.0473)\n* 🏆 2014: [Adam: A Method for Stochastic Optimization (Adam)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1412.6980)\n* 🏆 2015: [Batch Normalization: Accelerating Deep Network Training by Reducing Internal Cov... (BatchNorm)](http:\u002F\u002Fproceedings.mlr.press\u002Fv37\u002Fioffe15.html)\n* 🏆 2015: [Going Deeper With Convolutions (Inception)](https:\u002F\u002Fwww.cv-foundation.org\u002Fopenaccess\u002Fcontent_cvpr_2015\u002Fhtml\u002FSzegedy_Going_Deeper_With_2015_CVPR_paper.html)\n* 🏆 2015: [Human-level control through deep reinforcement learning (Deep Q Network)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fnature14236\u002F)\n* 🏆 2015: [Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (Faster R-CNN)](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2015\u002Fhash\u002F14bfa6bb14875e45bba028a21ed38046-Abstract.html)\n* 🏆 2015: [U-Net: Convolutional Networks for Biomedical Image Segmentation (U-Net)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597)\n* 🏆 2015: [Deep Residual Learning for Image Recognition (ResNet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)\n* 🏆 2016: [You Only Look Once: Unified, Real-Time Object Detection (YOLO)](https:\u002F\u002Fwww.cv-foundation.org\u002Fopenaccess\u002Fcontent_cvpr_2016\u002Fhtml\u002FRedmon_You_Only_Look_CVPR_2016_paper.html)\n* 🏆 2017: [Attention is All you Need (Transformer)](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2017\u002Fhash\u002F3f5ee243547dee91fbd053c1c4a845aa-Abstract.html)\n* 🏆 2018: [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.04805)\n* 🏆 2020: [Language Models are Few-Shot Learners (GPT-3)](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html)\n* 🏆 2020: [Denoising Diffusion Probabilistic Models (DDPM)](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html)\n* 🏆 2020: [An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11929)\n* 🏆 2021: [Highly accurate protein structure prediction with AlphaFold (Alphafold)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-021-03819-2)\n* 📰 2022: [ChatGPT: Optimizing Language Models For Dialogue (ChatGPT)](https:\u002F\u002Fopenai.com\u002Fblog\u002Fchatgpt\u002F)\n","# 令人惊叹的AI论文 ⭐️\n\n## 简介\n本仓库是一个按发表日期排序的最新重要AI论文列表。涵盖五个领域：计算机视觉、自然语言处理、音频处理、多模态学习和强化学习。如果您喜欢这项工作，欢迎给本仓库点个赞。\n\n维护者：[Aimerou Ndiaye](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Faimerou-ndiaye-867708162\u002F)\n\n## 目录\n1. [2023年论文](#2023)\n    - [计算机视觉](#2023cv)\n    - [自然语言处理](#2023nlp)\n    - [音频处理](#2023ap)\n    - [多模态学习](#2023ml)\n    - [强化学习](#2023rl)\n    - [其他论文](#2023op)\n2. [2022年论文](#2022)\n    - [计算机视觉](#2022cv)\n    - [自然语言处理](#2022nlp)\n    - [音频处理](#2022ap)\n    - [多模态学习](#2022ml)\n    - [强化学习](#2022rl)\n    - [其他论文](#2022op)\n3. [历史经典论文](#history)\n\n## 分类体系\n为了筛选出最相关的论文，我们根据引用次数设定了主观标准。这里的每个图标代表符合某一标准的论文类型。\n\n🏆 历史经典论文：引用次数超过1万次，并且对AI的发展产生了决定性影响。\n\n⭐ 重要论文：引用次数超过50次，且结果处于当时的技术前沿。\n\n⏫ 趋势新作：引用次数在1到50次之间，属于近期且具有创新性的论文，正逐渐被广泛采用。\n\n📰 重要文章：虽未以研究论文形式发表，但具有决定性意义的工作。\n\n----\n\n## 2023年论文 \u003Ca name=\"2023\">\u003C\u002Fa>\n\n### 计算机视觉 \u003Ca name=\"2023cv\">\u003C\u002Fa>\n* ⭐ 01\u002F2023: [Muse：基于掩码生成式Transformer的文本到图像生成（Muse）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.00704)\n* ⭐ 02\u002F2023: [基于扩散模型的结构与内容引导视频合成（Gen-1）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.03011)\n* ⭐ 02\u002F2023: [将视觉Transformer扩展至220亿参数（ViT 22B）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.05442)\n* ⭐ 02\u002F2023: [为文本到图像扩散模型添加条件控制（ControlNet）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.05543)\n* ⭐ 03\u002F2023: [Visual ChatGPT：与视觉基础模型对话、绘图和编辑（Visual ChatGPT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04671)\n* ⭐ 03\u002F2023: [用于文本到图像合成的GAN扩展（GigaGAN）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.05511)\n* ⭐ 04\u002F2023: [Segment Anything（SAM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.02643)\n* ⭐ 04\u002F2023: [DINOv2：无监督学习鲁棒视觉特征（DINOv2）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07193)\n* ⭐ 04\u002F2023: [视觉指令微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08485)\n* ⭐ 04\u002F2023: [对齐潜在空间：基于潜在扩散模型的高分辨率视频合成（VideoLDM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08818)\n* ⭐ 04\u002F2023: [来自扩散模型的合成数据可提升ImageNet分类性能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08466)\n* ⭐ 04\u002F2023: [医学图像中的Segment Anything（MedSAM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12306)\n* ⭐ 05\u002F2023: [Drag Your GAN：在生成图像流形上进行交互式的点操作（DragGAN）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973)\n* ⭐ 06\u002F2023: [Neuralangelo：高保真度的神经表面重建（Neuralangelo）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03092)\n* ⭐ 07\u002F2023: [SDXL：改进潜在扩散模型以实现高分辨率图像合成（SDXL）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.01952)\n* ⭐ 08\u002F2023: [用于实时辐射场渲染的3D高斯泼溅技术](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3592433)\n* ⭐ 08\u002F2023: [Qwen-VL：一种多功能视觉-语言模型，可用于理解、定位等任务（Qwen-VL）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12966)\n* ⏫ 08\u002F2023: [MVDream：用于3D生成的多视角扩散模型（MVDream）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.16512)\n* ⏫ 11\u002F2023: [Florence-2：推进面向多种视觉任务的统一表征（Florence-2）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.06242)\n* ⏫ 12\u002F2023: [VideoPoet：用于零样本视频生成的大语言模型（VideoPoet）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14125)\n\n### 自然语言处理 \u003Ca name=\"2023nlp\">\u003C\u002Fa>\n* ⭐ 01\u002F2023: [DetectGPT：利用概率曲率进行零样本机器生成文本检测（DetectGPT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11305)\n* ⭐ 02\u002F2023: [Toolformer：语言模型可以自我教授如何使用工具（Toolformer）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761)\n* ⭐ 02\u002F2023: [LLaMA：开放且高效的基座语言模型（LLaMA）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971)\n* 📰 03\u002F2023: [GPT-4](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-4)\n* ⭐ 03\u002F2023: [人工通用智能的火花：GPT-4的早期实验（GPT-4评估）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12712)\n* ⭐ 03\u002F2023: [HuggingGPT：借助ChatGPT及其在HuggingFace中的伙伴解决AI任务（HuggingGPT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580)\n* ⭐ 03\u002F2023: [BloombergGPT：面向金融领域的大型语言模型（BloombergGPT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17564)\n* ⭐ 04\u002F2023: [使用GPT-4进行指令微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03277)\n* ⭐ 04\u002F2023: [生成式代理：人类的互动模拟体（Gen Agents）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03442)\n* ⭐ 05\u002F2023: [PaLM 2技术报告（PaLM-2）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10403)\n* ⭐ 05\u002F2023: [思维之树：利用大语言模型进行深思熟虑的问题解决（ToT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601)\n* ⭐ 05\u002F2023: [LIMA：对齐之道在于少即是多（LIMA）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11206)\n* ⭐ 05\u002F2023: [QLoRA：高效微调量化大语言模型的方法（QLoRA）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14314)\n* ⭐ 05\u002F2023: [Voyager：一个基于大语言模型的开放式具身智能体（Voyager）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291)\n* ⭐ 07\u002F2023: [ToolLLM：助力大语言模型掌握16000+真实世界API（ToolLLM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789)\n* ⭐ 08\u002F2023: [MetaGPT：面向多智能体协作框架的元编程（MetaGPT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.00352)\n* ⭐ 08\u002F2023: [Code Llama：面向代码的开放基座模型（Code Llama）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12950)\n* ⏫ 09\u002F2023: [RLAIF：通过AI反馈扩展人类反馈强化学习（RLAIF）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.00267)\n* ⭐ 09\u002F2023: [大语言模型作为优化器（OPRO）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03409)\n* ⏫ 10\u002F2023: [Eureka：通过编写大语言模型设计人类水平奖励（Eureka）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.12931)\n* ⏫ 12\u002F2023: [利用大语言模型进行程序搜索所发现的数学成果（FunSearch）](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06924-6?utm_source=substack&utm_medium=email)\n\n### 音频处理 \u003Ca name=\"2023ap\">\u003C\u002Fa>\n* ⭐ 01\u002F2023: [神经编解码语言模型是零样本文本到语音合成器（VALL-E）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.02111)\n* ⭐ 01\u002F2023: [MusicLM：从文本生成音乐（MusicLM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11325)\n* ⭐ 01\u002F2023: [AudioLDM：基于潜在扩散模型的文本到音频生成（AudioLDM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12503)\n* ⭐ 03\u002F2023: [Google USM：将自动语音识别扩展到超过100种语言（USM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.01037)\n* ⭐ 05\u002F2023: [将语音技术扩展到1000多种语言（MMS）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13516)\n* ⏫ 06\u002F2023: [简单可控的音乐生成（MusicGen）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05284)\n* ⏫ 06\u002F2023: [AudioPaLM：能够听和说的大型语言模型（AudioPaLM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.12925)\n* ⏫ 06\u002F2023: [Voicebox：大规模文本引导的多语言通用语音生成（Voicebox）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.15687)\n\n### 多模态学习 \u003Ca name=\"2023ml\">\u003C\u002Fa>\n* ⭐ 02\u002F2023: [语言并非全部所需：将感知与语言模型对齐（Kosmos-1）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14045v2)\n* ⭐ 03\u002F2023: [PaLM-E：具身多模态语言模型（PaLM-E）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03378)\n* ⭐ 04\u002F2023: [AudioGPT：理解并生成语音、音乐、声音及说话人头像（AudioGPT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12995)\n* ⭐ 05\u002F2023: [ImageBind：一个嵌入空间，将所有内容绑定在一起（ImageBind）](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2023\u002Fhtml\u002FGirdhar_ImageBind_One_Embedding_Space_To_Bind_Them_All_CVPR_2023_paper.html)\n* ⏫ 07\u002F2023: [自回归多模态模型的规模化：预训练与指令微调（CM3Leon）](https:\u002F\u002Fai.meta.com\u002Fresearch\u002Fpublications\u002Fscaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning\u002F)\n* ⏫ 07\u002F2023: [Meta-Transformer：多模态学习的统一框架（Meta-Transformer）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.10802)\n* ⏫ 08\u002F2023: [SeamlessM4T：大规模多语言多模态机器翻译（SeamlessM4T）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11596)\n\n### 强化学习 \u003Ca name=\"2023rl\">\u003C\u002Fa>\n* ⭐ 01\u002F2023: [通过世界模型掌握多样化的领域（DreamerV3）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.04104)\n* ⏫ 02\u002F2023: [利用在线强化学习将大型语言模型置于交互式环境中（GLAM）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02662)\n* ⏫ 02\u002F2023: [结合离线数据的高效在线强化学习（RLPD）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02948)\n* ⏫ 03\u002F2023: [使用语言模型进行奖励设计](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.00001)\n* ⭐ 05\u002F2023: [直接偏好优化：你的语言模型其实是一个奖励模型（DPO）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18290)\n* ⏫ 06\u002F2023: [利用深度强化学习发现更快的排序算法（AlphaDev）](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06004-9)\n* ⏫ 08\u002F2023: [Retroformer：采用策略梯度优化的回顾性大型语言代理（Retroformer）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02151)\n\n### 其他论文 \u003Ca name=\"2023op\">\u003C\u002Fa>\n* ⭐ 02\u002F2023: [优化算法的符号发现（Lion）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.06675)\n* ⭐ 07\u002F2023: [RT-2：视觉—语言—动作模型将网络知识迁移到机器人控制中（RT-2）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.15818)\n* ⏫ 11\u002F2023: [为材料发现扩展深度学习规模（GNoME）](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06735-9)\n* ⏫ 12\u002F2023: [利用可解释的深度学习发现一类新型抗生素结构](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06887-8)\n\n\n\n## 2022年论文 \u003Ca name=\"2022\">\u003C\u002Fa>\n\n### 计算机视觉 \u003Ca name=\"2022cv\">\u003C\u002Fa>\n* ⭐ 01\u002F2022: [面向2020年代的卷积神经网络（ConvNeXt）](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FLiu_A_ConvNet_for_the_2020s_CVPR_2022_paper.html)\n* ⭐ 01\u002F2022: [只需补丁就够了（ConvMixer）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.09792)\n* ⭐ 02\u002F2022: [Block-NeRF：可扩展的大场景神经视图合成（Block-NeRF）](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FTancik_Block-NeRF_Scalable_Large_Scene_Neural_View_Synthesis_CVPR_2022_paper.html)\n* ⭐ 03\u002F2022: [DINO：具有改进去噪锚框的DETR，用于端到端目标检测（DINO）](https:\u002F\u002Fopenreview.net\u002Fforum?id=3mRwyG5one)\n* ⭐ 03\u002F2022: [将卷积核扩大到31×31：重访CNN中的大卷积核设计（大卷积核CNN）](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FDing_Scaling_Up_Your_Kernels_to_31x31_Revisiting_Large_Kernel_Design_CVPR_2022_paper.html)\n* ⭐ 03\u002F2022: [TensoRF：张量辐射场（TensoRF）](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-19824-3_20)\n* ⭐ 04\u002F2022: [MaxViT：多轴视觉Transformer（MaxViT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01697)\n* ⭐ 04\u002F2022: [基于CLIP潜在空间的分层文本条件图像生成（DALL-E 2）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06125)\n* ⭐ 05\u002F2022: [具有深度语言理解的逼真文本到图像扩散模型（Imagen）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11487)\n* ⭐ 05\u002F2022: [GIT：一种用于视觉和语言的生成式图像到文本Transformer（GIT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14100)\n* ⭐ 06\u002F2022: [CMT：卷积神经网络遇见视觉Transformer（CMT）](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FGuo_CMT_Convolutional_Neural_Networks_Meet_Vision_Transformers_CVPR_2022_paper.html)\n* ⭐ 07\u002F2022: [Swin UNETR：用于脑肿瘤语义分割的Swin Transformer…（Swin UNETR）](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-08999-2_22)\n* ⭐ 07\u002F2022: [无分类器的扩散指导](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.12598)\n* ⭐ 08\u002F2022: [针对主题驱动生成对文本到图像扩散模型进行微调（DreamBooth）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.12242)\n* ⭐ 09\u002F2022: [DreamFusion：使用2D扩散实现文本到3D生成（DreamFusion）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14988)\n* ⭐ 09\u002F2022: [Make-A-Video：无需文本—视频数据即可生成视频（Make-A-Video）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14792)\n* ⭐ 10\u002F2022: [关于引导式扩散模型的蒸馏](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03142)\n* ⭐ 10\u002F2022: [LAION-5B：用于训练下一代图像—文本模型的开放大型数据集（LAION-5B）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.08402)\n* ⭐ 10\u002F2022: [Imagic：基于扩散模型的文本驱动真实图像编辑（Imagic）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09276)\n* ⭐ 11\u002F2022: [视觉提示调整](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-19827-4_41)\n* ⭐ 11\u002F2022: [Magic3D：高分辨率文本到3D内容创作（Magic3D）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10440)\n* ⭐ 11\u002F2022: [DiffusionDet：用于目标检测的扩散模型（DiffusionDet）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09788)\n* ⭐ 11\u002F2022: [InstructPix2Pix：学习遵循图像编辑指令（InstructPix2Pix）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09800)\n* ⭐ 12\u002F2022: [文本到图像扩散的多概念自定义（Custom Diffusion）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04488)\n* ⭐ 12\u002F2022: [带有Transformer的可扩展扩散模型（DiT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09748)\n\n### 自然语言处理 \u003Ca name=\"2022nlp\">\u003C\u002Fa>\n* ⭐ 2022年1月: [LaMBDA: 用于对话应用的语言模型 (LaMBDA)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239)\n* ⭐ 2022年1月: [思维链提示在大型语言模型中激发推理能力 (CoT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)\n* ⭐ 2022年2月: [AlphaCode: 竞赛级代码生成 (AlphaCode)](https:\u002F\u002Fwww.science.org\u002Fdoi\u002Ffull\u002F10.1126\u002Fscience.abq1158)\n* ⭐ 2022年2月: [微调后的语言模型是零样本学习者 (FLAN)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)\n* ⭐ 2022年3月: [通过人类反馈训练语言模型以遵循人类指令 (InstructGPT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155)\n* ⭐ 2022年3月: [多任务提示训练实现零样本任务泛化 (T0)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207)\n* ⭐ 2022年3月: [训练计算最优的大型语言模型 (Chinchilla)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556)\n* ⭐ 2022年4月: [像我能做到的那样做，而不是像我说的那样做：将语言与机器人操作可能性相结合 (SayCan)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691)\n* ⭐ 2022年4月: [GPT-NeoX-20B: 一个开源自回归语言模型 (GPT-NeoX)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745)\n* ⭐ 2022年4月: [PaLM: 通过Pathways扩展语言建模 (PaLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)\n* ⭐ 2022年6月: [超越模仿游戏：量化和外推语言模型的能力 (BIG-bench)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04615)\n* ⭐ 2022年6月: [利用语言模型解决定量推理问题 (Minerva)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.14858)\n* ⭐ 2022年10月: [ReAct: 在语言模型中协同推理与行动 (ReAct)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629)\n* ⭐ 2022年11月: [BLOOM: 一个拥有1760亿参数的开放获取多语言语言模型 (BLOOM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100)\n* 📰 2022年11月: [为对话优化语言模型 (ChatGPT)](https:\u002F\u002Fopenai.com\u002Fblog\u002Fchatgpt\u002F)\n* ⭐ 2022年12月: [大型语言模型编码临床知识 (Med-PaLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.13138)\n\n### 音频处理 \u003Ca name=\"2022ap\">\u003C\u002Fa>\n* ⭐ 2022年2月: [mSLAM: 大规模多语言语音与文本联合预训练 (mSLAM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.01374)\n* ⭐ 2022年2月: [ADD 2022: 首个音频深度合成检测挑战赛 (ADD)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.08433)\n* ⭐ 2022年3月: [通过Patchout高效训练音频Transformer (PaSST)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.05069)\n* ⭐ 2022年4月: [MAESTRO: 通过模态匹配实现语音文本表示的对齐 (Maestro)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.03409)\n* ⭐ 2022年5月: [SpeechT5: 统一模态编码器解码器预训练，适用于口语... (SpeechT5)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07205)\n* ⭐ 2022年6月: [WavLM: 面向全栈语音处理的大规模自监督预训练 (WavLM)](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9814838)\n* ⭐ 2022年7月: [BigSSL: 探索大规模半监督学习在ASR领域的前沿 (BigSSL)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.13226)\n* ⭐ 2022年8月: [MuLan: 音乐音频与自然语言的联合嵌入 (MuLan)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.12415)\n* ⭐ 2022年9月: [AudioLM: 基于语言模型的音频生成方法 (AudioLM)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.03143)\n* ⭐ 2022年9月: [AudioGen: 文本引导的音频生成 (AudioGen)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.15352)\n* ⭐ 2022年10月: [高保真神经音频压缩 (EnCodec)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.13438)\n* ⭐ 2022年12月: [通过大规模弱监督实现鲁棒语音识别 (Whisper)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04356)\n\n### 多模态学习 \u003Ca name=\"2022ml\">\u003C\u002Fa>\n* ⭐ 2022年1月: [BLIP: 用于统一视觉-语言任务的语言图像预训练增强 (BLIP)](https:\u002F\u002Fproceedings.mlr.press\u002Fv162\u002Fli22n.html)\n* ⭐ 2022年2月: [data2vec: 一种适用于语音、视觉等领域的自监督学习通用框架 (Data2vec)](https:\u002F\u002Fproceedings.mlr.press\u002Fv162\u002Fbaevski22a.html)\n* ⭐ 2022年3月: [VL-Adapter: 针对视觉与语言任务的参数高效迁移学习 (VL-Adapter)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.06825)\n* ⭐ 2022年4月: [Winoground: 探测视觉与语言模型的视觉-语言能力 (Winoground)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.03162)\n* ⭐ 2022年4月: [Flamingo: 用于少样本学习的视觉语言模型 (Flamingo)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.14198)\n* ⭐ 2022年5月: [通用智能体 (Gato)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.06175)\n* ⭐ 2022年5月: [CoCa: 对比描述符是图像-文本基础模型 (CoCa)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01917)\n* ⭐ 2022年5月: [VLMo: 基于模态专家混合的统一视觉-语言预训练 (VLMo)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.02358)\n* ⭐ 2022年8月: [将图像视为外语：BEiT预训练适用于所有视觉及视觉-语言任务 (BEiT)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.10442v2)\n* ⭐ 2022年9月: [PaLI: 联合缩放的多语言语言-图像模型 (PaLI)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.06794)\n\n### 强化学习 \u003Ca name=\"2022rl\">\u003C\u002Fa>\n* ⭐ 2022年1月: [在野外学习四足机器人稳健的感知运动能力](https:\u002F\u002Fwww.science.org\u002Fdoi\u002Fabs\u002F10.1126\u002Fscirobotics.abk2822)\n* ⭐ 2022年2月: [BC-Z: 通过机器人模仿学习实现零样本任务泛化](https:\u002F\u002Fproceedings.mlr.press\u002Fv164\u002Fjang22a.html)\n* ⭐ 2022年2月: [使用深度强化学习超越冠军Gran Turismo赛车手 (Sophy)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-021-04357-7)\n* ⭐ 2022年2月: [通过深度强化学习控制托卡马克等离子体的磁场](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-021-04301-9…)\n* ⭐ 2022年8月: [使用大规模并行深度强化学习在几分钟内学会行走 (ANYmal)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.11978)\n* ⭐ 2022年10月: [利用强化学习发现更快的矩阵乘法算法 (AlphaTensor)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-022-05172-4)\n\n### 其他论文 \u003Ca name=\"2022op\">\u003C\u002Fa>\n* ⭐ 2022年2月: [FourCastNet: 一个全球数据驱动的高分辨率天气模型... (FourCastNet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.11214)\n* ⭐ 2022年5月: [ColabFold: 让蛋白质折叠触手可及 (ColabFold)](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41592-022-01488-1)\n* ⭐ 2022年6月: [测量并改进图神经网络中图信息的使用情况](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.13170)\n* ⭐ 2022年10月: [TimesNet: 用于通用时间序列分析的时序二维变化建模 (TimesNet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02186)\n* ⭐ 2022年12月: [RT-1: 用于大规模现实世界控制的机器人Transformer (RT-1)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.06817)\n\n## 历史论文 \u003Ca name=\"history\">\u003C\u002Fa>\n* 🏆 1958年：[感知机：大脑中信息存储与组织的概率模型（感知机）](https:\u002F\u002Fpsycnet.apa.org\u002Frecord\u002F1959-09865-001)\n* 🏆 1986年：[通过反向传播误差来学习表示（反向传播）](https:\u002F\u002Fwww.nature.com\u002Farticles\u002F323533a0)\n* 🏆 1986年：[决策树的归纳（CART）](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002FBF00116251)\n* 🏆 1989年：[隐马尔可夫模型教程及其在语音识别中的应用（HMM）](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F18626)\n* 🏆 1989年：[多层前馈网络是通用逼近器](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002F0893608089900208)\n* 🏆 1992年：[最优间隔分类器的训练算法（SVM）](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F130385.130401)\n* 🏆 1996年：[装袋预测器](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002FBF00058655)\n* 🏆 1998年：[基于梯度的学习在文档识别中的应用（CNN\u002FGTN）](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F726791)\n* 🏆 2001年：[随机森林](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1023\u002Fa:1010933404324)\n* 🏆 2001年：[快速且精英的多目标遗传算法（NSGA-II）](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F996017)\n* 🏆 2003年：[潜在狄利克雷分配（LDA）](https:\u002F\u002Fjmlr.csail.mit.edu\u002Fpapers\u002Fv3\u002Fblei03a.html)\n* 🏆 2006年：[用神经网络降低数据维度（自编码器）](https:\u002F\u002Fwww.science.org\u002Fdoi\u002Fabs\u002F10.1126\u002Fscience.1127647)\n* 🏆 2008年：[使用t-SNE可视化数据（t-SNE）](https:\u002F\u002Fwww.jmlr.org\u002Fpapers\u002Fv9\u002Fvandermaaten08a.html)\n* 🏆 2009年：[ImageNet：一个大规模的层次化图像数据库（ImageNet）](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F5206848)\n* 🏆 2012年：[使用深度卷积神经网络进行ImageNet分类（AlexNet）](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2012\u002Fhash\u002Fc399862d3b9d6b76c8436e924a68c45b-Abstract.html)\n* 🏆 2013年：[高效地估计词向量表示（Word2vec）](https:\u002F\u002Farxiv.org\u002Fabs\u002F1301.3781)\n* 🏆 2013年：[变分自编码器（VAE）](https:\u002F\u002Farxiv.org\u002Fabs\u002F1312.6114)\n* 🏆 2014年：[生成对抗网络（GAN）](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2014\u002Fhash\u002F5ca3e9b122f61f8f06494c97b1afccf3-Abstract.html)\n* 🏆 2014年：[Dropout：防止神经网络过拟合的简单方法（Dropout）](https:\u002F\u002Fjmlr.org\u002Fpapers\u002Fv15\u002Fsrivastava14a.html)\n* 🏆 2014年：[使用神经网络进行序列到序列学习](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2014\u002Fhash\u002Fa14ac55a4f27472c5d894ec1c3c743d2-Abstract.html)\n* 🏆 2014年：[通过联合学习对齐和翻译实现神经机器翻译（RNNSearch-50）](https:\u002F\u002Farxiv.org\u002Fabs\u002F1409.0473)\n* 🏆 2014年：[Adam：一种用于随机优化的方法（Adam）](https:\u002F\u002Farxiv.org\u002Fabs\u002F1412.6980)\n* 🏆 2015年：[批量归一化：通过减少内部协…加速深度网络训练（BatchNorm）](http:\u002F\u002Fproceedings.mlr.press\u002Fv37\u002Fioffe15.html)\n* 🏆 2015年：[更深的卷积网络（Inception）](https:\u002F\u002Fwww.cv-foundation.org\u002Fopenaccess\u002Fcontent_cvpr_2015\u002Fhtml\u002FSzegedy_Going_Deeper_With_2015_CVPR_paper.html)\n* 🏆 2015年：[通过深度强化学习实现人类水平控制（Deep Q Network）](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fnature14236\u002F)\n* 🏆 2015年：[更快的R-CNN：通过区域建议网络实现实时目标检测（Faster R-CNN）](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2015\u002Fhash\u002F14bfa6bb14875e45bba028a21ed38046-Abstract.html)\n* 🏆 2015年：[U-Net：用于生物医学图像分割的卷积网络（U-Net）](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597)\n* 🏆 2015年：[用于图像识别的深度残差学习（ResNet）](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)\n* 🏆 2016年：[你只看一次：统一的实时目标检测（YOLO）](https:\u002F\u002Fwww.cv-foundation.org\u002Fopenaccess\u002Fcontent_cvpr_2016\u002Fhtml\u002FRedmon_You_Only_Look_CVPR_2016_paper.html)\n* 🏆 2017年：[注意力就是你需要的一切（Transformer）](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2017\u002Fhash\u002F3f5ee243547dee91fbd053c1c4a845aa-Abstract.html)\n* 🏆 2018年：[BERT：用于语言理解的深度双向变压器预训练（BERT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.04805)\n* 🏆 2020年：[语言模型是少样本学习者（GPT-3）](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html)\n* 🏆 2020年：[去噪扩散概率模型（DDPM）](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html)\n* 🏆 2020年：[一张图胜过16×16个词：用于大规模图像识别的Transformer（ViT）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11929)\n* 🏆 2021年：[AlphaFold实现高精度蛋白质结构预测（Alphafold）](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-021-03819-2)\n* 📰 2022年：[ChatGPT：优化对话型语言模型（ChatGPT）](https:\u002F\u002Fopenai.com\u002Fblog\u002Fchatgpt\u002F)","# awesome-ai-papers 快速上手指南\n\n`awesome-ai-papers` 并非一个需要安装运行的软件库，而是一个持续更新的 **AI 论文精选清单**。它按时间顺序整理了计算机视觉、自然语言处理、音频处理、多模态学习和强化学习等领域的重磅论文。\n\n本指南将帮助你快速浏览和利用该资源。\n\n## 环境准备\n\n由于该项目本质是一个文档仓库，无需复杂的系统依赖或运行环境。你只需要：\n\n*   **操作系统**：任意支持现代浏览器的系统（Windows, macOS, Linux）。\n*   **必备工具**：\n    *   Web 浏览器（推荐 Chrome, Edge 或 Firefox）。\n    *   Git（可选，用于克隆仓库到本地离线阅读）。\n*   **网络环境**：\n    *   访问 GitHub 和 arXiv 可能需要稳定的网络连接。\n    *   **国内加速建议**：如果访问 GitHub 较慢，建议使用国内镜像站（如 [Gitee](https:\u002F\u002Fgitee.com\u002F) 搜索同名项目）或通过代理工具加速；阅读 arXiv 论文时，推荐使用 [arXiv 国内镜像](https:\u002F\u002Farxiv.org\u002F) 或相关学术加速服务。\n\n## 获取与安装步骤\n\n你可以选择在线直接阅读，或克隆到本地建立个人知识库。\n\n### 方式一：在线浏览（推荐）\n直接访问 GitHub 仓库页面即可查阅最新列表：\n1. 打开浏览器访问：[https:\u002F\u002Fgithub.com\u002FAimerou\u002Fawesome-ai-papers](https:\u002F\u002Fgithub.com\u002FAimerou\u002Fawesome-ai-papers)\n2. 利用页面右侧的 **Table of Contents** 快速跳转到对应年份或领域（如 `2023 Papers` -> `Natural Language Processing`）。\n\n### 方式二：本地克隆\n如果你希望离线阅读或贡献内容，可使用 Git 克隆：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FAimerou\u002Fawesome-ai-papers.git\ncd awesome-ai-papers\n```\n\n*国内用户若克隆速度慢，可尝试使用 Gitee 镜像（如有）：*\n```bash\ngit clone https:\u002F\u002Fgitee.com\u002F\u003Cmirror-owner>\u002Fawesome-ai-papers.git\n```\n\n## 基本使用\n\n该项目的核心用法是**检索**与**溯源**。以下是典型的使用流程：\n\n### 1. 查找特定领域的最新论文\n在 `README.md` 中，论文按年份和领域分类。例如，你想找 **2023 年自然语言处理 (NLP)** 的重要论文：\n*   定位到 `2023 Papers` -> `Natural Language Processing` 章节。\n*   查看带有图标的条目：\n    *   🏆 **历史经典**：引用超 1 万，具有决定性影响。\n    *   ⭐ **重要论文**：引用超 50，具备 SOTA 结果。\n    *   ⏫ **趋势新星**：引用 1-50，近期创新且关注度上升。\n    *   📰 **重要文章**：无正式论文但具有决定性的技术报告。\n\n### 2. 获取论文原文\n点击列表中的论文标题链接（通常指向 `arxiv.org` 或会议官网）。\n\n*示例：查找 LLaMA 模型论文*\n1. 在 NLP 列表中找到：`⭐ 02\u002F2023: [LLaMA: Open and Efficient Foundation Language Models (LLaMA)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971)`\n2. 点击链接进入 arXiv 页面。\n3. 点击 `View PDF` 下载全文，或点击 `Code` 标签（如果有）跳转至官方代码仓库。\n\n### 3. 追踪前沿趋势\n关注标记为 `⏫ Trend` 的论文，这些通常是当月或当季最新的创新工作，适合寻找新的研究灵感或跟进尚未被广泛熟知的技术（如 `MVDream`, `VideoPoet` 等）。\n\n> **提示**：该项目由维护者人工筛选，重点关注高引用和高质量工作，可作为你构建个人文献综述的高效起点。","某计算机视觉团队的算法工程师正在为医疗影像分割项目寻找最新的 SOTA（最先进）模型方案，急需在两周内完成技术选型并复现基线。\n\n### 没有 awesome-ai-papers 时\n- **信息检索低效**：需要在 arXiv、Google Scholar 等多个平台手动关键词搜索，每天耗费数小时筛选海量无关论文，难以区分哪些是真正具有突破性的工作。\n- **错失关键进展**：由于缺乏系统性的分类整理，极易漏掉像 `MedSAM` 这样专门针对医疗图像分割的最新重要论文，导致技术路线选择滞后。\n- **价值评估困难**：面对大量新发表的论文，难以快速判断其影响力（如引用量、是否达到 SOTA），容易在尚未成熟的“趋势型”研究上浪费宝贵的复现时间。\n- **领域覆盖不全**：人工追踪往往局限于自己熟悉的子领域，可能忽略多模态学习或无监督学习（如 `DINOv2`）中能迁移到医疗场景的通用特征提取方法。\n\n### 使用 awesome-ai-papers 后\n- **精准定位目标**：直接查阅\"Computer Vision\"分类下的 2023 年列表，几分钟内即可锁定 `MedSAM` 和 `Segment Anything (SAM)` 等核心论文，大幅缩短调研周期。\n- **分级决策清晰**：利用仓库定义的图标体系（🏆历史经典、⭐重要成果、⏫新兴趋势），快速识别出高引用且结果可靠的模型，优先复现星级标记的论文以确保基线质量。\n- **跨域灵感激发**：通过浏览“多模态学习”和“无监督学习”板块，发现 `Visual Instruction Tuning` 等跨领域技术，为小样本医疗数据训练提供了新的微调思路。\n- **动态跟踪前沿**：依托按月份更新的列表结构，团队能持续同步最新发布的 `Florence-2` 等统一表示模型，确保技术方案始终处于行业前沿。\n\nawesome-ai-papers 将原本杂乱无章的文献海洋转化为结构化的知识地图，让研发团队从“大海捞针”转变为“按图索骥”，显著提升了技术选型的效率与准确性。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Faimerou_awesome-ai-papers_627d8b7b.png","aimerou","Aïmérou Ndiaye","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Faimerou_a4c3852c.jpg","AI Research Engineer","Baamtu","Senegal",null,"https:\u002F\u002Fgithub.com\u002Faimerou",1289,118,"2026-04-16T02:55:01","","未说明",{"notes":87,"python":85,"dependencies":88},"该仓库（awesome-ai-papers）仅是一个按日期和领域分类的 AI 论文列表索引，不包含任何可执行的源代码、模型权重或安装脚本。因此，它没有特定的运行环境、GPU、内存或依赖库需求。用户只需通过浏览器查看或使用 Git 克隆该仓库即可。若需运行列表中提到的具体论文代码（如 LLaMA, Stable Diffusion 等），需分别参考各论文对应的独立开源项目及其环境要求。",[],[13,14,15,90],"其他",[92,93,94,95,96,97,98,99,100],"ai","deep-learning","machine-learning","papers","research","sota","state-of-the-art","awesome","awesome-list","2026-03-27T02:49:30.150509","2026-04-20T16:24:51.783843",[],[]]