[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Yuan-ManX--ai-game-devtools":3,"tool-Yuan-ManX--ai-game-devtools":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":76,"owner_twitter":76,"owner_website":78,"owner_url":79,"languages":76,"stars":80,"forks":81,"last_commit_at":82,"license":83,"difficulty_score":84,"env_os":85,"env_gpu":86,"env_ram":86,"env_deps":87,"category_tags":90,"github_topics":91,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":103,"updated_at":104,"faqs":105,"releases":106},7979,"Yuan-ManX\u002Fai-game-devtools","ai-game-devtools","Here we will keep track of the latest AI Game Development Tools, including LLM, World Model, Agent, Code, Image, Texture, Shader, 3D Model, Animation, Video, Audio, Music, Singing Voice and Analytics. 🔥","ai-game-devtools 是一个专注于游戏开发领域的 AI 工具资源库，旨在为开发者提供一站式的前沿技术导航。它系统性地整理了涵盖大语言模型（LLM）、世界模型、智能体、代码生成，以及图像、纹理、着色器、3D 模型、动画、音视频处理和分析等全链路的开源项目。\n\n在游戏制作过程中，创作者往往需要在分散的资源中寻找合适的 AI 解决方案，效率较低。ai-game-devtools 通过分类汇总最新的技术成果，解决了信息碎片化问题，帮助团队快速定位能辅助剧情编写、资产生成或逻辑构建的高效工具。无论是独立开发者、游戏工作室的技术美术，还是探索人机交互的研究人员，都能从中找到适配当前工作流的利器。\n\n该项目的独特亮点在于其极高的覆盖广度与更新速度，不仅收录了如 AgentGPT、Auto-GPT 等通用智能体框架，还特别关注 Unity 引擎集成、自动化科学发现等垂直场景应用。它以清晰的表格形式呈现每个工具的来源、功能描述及适用引擎，让用户无需深入阅读大量文档即可评估工具价值。对于希望利用 AI 提升游戏研发效率的专业人士而言，这是一个极具参考价值的实用指南。","# AI Game DevTools (AI-GDT) 🎮\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FYuan-ManX_ai-game-devtools_readme_bdb270fa1bea.png\" alt=\"AI-Game\" style=\"display:block; margin:auto; width:580px;\" \u002F>\n\u003C\u002Fp>\n\nHere we will keep track of the latest AI Game Development Tools, including LLM, World Model, Agent, Code, Image, Texture, Shader, 3D Model, Animation, Video, Audio, Music, Singing Voice and Analytics. 🔥\n\n## Table of Contents\n\n* [LLM (LLM & Tool)](#tool)\n* [VLM (Visual)](#visual)\n* [Game (World Model & Agent)](#game)\n* [Code](#code)\n* [Image](#image)\n* [Texture](#texture)\n* [Shader](#shader)\n* [3D Model](#model)\n* [Avatar](#avatar)\n* [Animation](#animation)\n* [Video](#video)\n* [Audio](#audio)\n* [Music](#music)\n* [Singing Voice](#voice)\n* [Speech](#speech)\n* [Analytics](#analytics)\n\n\n## Project List\n\n###  \u003Cspan id=\"tool\">LLM (LLM & Tool)\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AgentGPT](https:\u002F\u002Fgithub.com\u002Freworkd\u002FAgentGPT)                                                | 🤖 Assemble, configure, and deploy autonomous AI Agents in your browser.                                                                                                                      |          |              |   Tool   |\n| [AICommand](https:\u002F\u002Fgithub.com\u002Fkeijiro\u002FAICommand)                                              | ChatGPT integration with Unity Editor.                                                                                                                                                         |          |     Unity    |   Tool   |\n| [AIOS](https:\u002F\u002Fgithub.com\u002Fagiresearch\u002FAIOS)                                                    | LLM Agent Operating System.                                                                                                                                                                    |          |              |   Tool   |\n| [AI Scientist](https:\u002F\u002Fgithub.com\u002FSakanaAI\u002FAI-Scientist)                                       | The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06292)  |             |   Tool   |\n| [Assistant CLI](https:\u002F\u002Fgithub.com\u002Fdiciaup\u002Fassistant-cli)                                      | A comfortable CLI tool to use ChatGPT service🔥                                                                                                                                               |          |              |   Tool   |\n| [Auto-GPT](https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT)                                   | An experimental open-source attempt to make GPT-4 fully autonomous.                                                                                                                            |           |             |   Tool   |\n| [BabyAGI](https:\u002F\u002Fgithub.com\u002Fyoheinakajima\u002Fbabyagi)                                            | This Python script is an example of an AI-powered task management system.                                                                                                                      |          |              |   Tool   |\n| [👶🤖🖥️ BabyAGI UI](https:\u002F\u002Fgithub.com\u002Fmiurla\u002Fbabyagi-ui)                                    | BabyAGI UI is designed to make it easier to run and develop with babyagi in a web app, like a ChatGPT.                                                                                      |           |             |   Tool   |\n| [baichuan-7B](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002Fbaichuan-7B)                                     | A large-scale 7B pretraining language model developed by Baichuan.                                                                                                                             |           |             |   Tool   |\n| [Baichuan-13B](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-13B)                                   | A 13B large language model developed by Baichuan Intelligent Technology.                                                                                                                       |          |              |   Tool   |\n| [Baichuan 2](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan2)                                        | A series of large language models developed by Baichuan Intelligent Technology.                                                                                                                |           |             |   Tool   |\n| [Bisheng](https:\u002F\u002Fgithub.com\u002Fdataelement\u002Fbisheng)                                              | Bisheng is an open LLM devops platform for next generation AI applications.                                                                                                                    |           |             |   Tool   |\n| [Character-LLM](https:\u002F\u002Fgithub.com\u002Fchoosewhatulike\u002Ftrainable-agents)                           | A Trainable Agent for Role-Playing.                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10158)  |             |   Tool   |\n| [ChatDev](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FChatDev)                                                  | Communicative Agents for Software Development.                                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.07924)  |             |   Tool   |\n| [ChatGPT-API-unity](https:\u002F\u002Fgithub.com\u002Fmochi-neko\u002FChatGPT-API-unity)                           | Binds ChatGPT chat completion API to pure C# on Unity.                                                                                                                                         |          |     Unity    |   Tool   |\n| [ChatGPTForUnity](https:\u002F\u002Fgithub.com\u002Fsunsvip\u002FChatGPTForUnity)                                  | ChatGPT for unity.                                                                                                                                                                             |           |    Unity    |   Tool   |\n| [ChatRWKV](https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FChatRWKV)                                                | ChatRWKV is like ChatGPT but powered by RWKV (100% RNN) language model, and open source.                                                                                                       |           |             |   Tool   |\n| [ChatYuan](https:\u002F\u002Fgithub.com\u002Fclue-ai\u002FChatYuan)                                                | Large Language Model for Dialogue in Chinese and English.                                                                                                                                      |           |             |   Tool   |\n| [Chinese-LLaMA-Alpaca-3](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca-3)                      | (Chinese Llama-3 LLMs) developed from Meta Llama 3.                                                                                                                                            |            |            |   Tool   |\n| [Chrome-GPT](https:\u002F\u002Fgithub.com\u002Frichardyc\u002FChrome-GPT)                                          | An AutoGPT agent that controls Chrome on your desktop.                                                                                                                                         |           |             |   Tool   |\n| [CogVLM](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVLM\u002Fsummary)                              | CogVLM, a powerful open-source visual language foundation model.                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03079)  |             |   Tool   |\n| [CoreNet](https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet)                                                    | A library for training deep neural networks.                                                                                                                                                   |            |            |   Tool   |\n| [Cosmos](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FCosmos)                                                     | Cosmos is a world model development platform that consists of world foundation models, tokenizers and video processing pipeline to accelerate the development of Physical AI at Robotics & AV labs.      |            |             |   LLM   |\n| [DBRX](https:\u002F\u002Fgithub.com\u002Fdatabricks\u002Fdbrx)                                                     | DBRX is a large language model trained by Databricks.                                                                                                                                          |          |              |   Tool   |\n| [DCLM](https:\u002F\u002Fgithub.com\u002Fmlfoundations\u002Fdclm)                                                  | DataComp for Language Models.                                                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.11794)  |             |   Tool   |\n| [DeepSeek-R1](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1)                                      | DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning.       |             |             |   LLM   |\n| [DeepSeek-V3](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-V3)                                      | DeepSeek-V3 is a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token.             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.19437)  |             |   LLM   |\n| [DemoGPT](https:\u002F\u002Fgithub.com\u002Fmelih-unsal\u002FDemoGPT)                                              | Auto Gen-AI App Generator with the Power of Llama 2                                                                                                                                            |          |              |   Tool   |\n| [Design2Code](https:\u002F\u002Fgithub.com\u002FNoviScl\u002FDesign2Code)                                          | Automating Front-End Engineering                                                                                                                                                               |          |              |   Tool   |\n| [Devika](https:\u002F\u002Fgithub.com\u002Fstitionai\u002Fdevika)                                                  | Devika is an Agentic AI Software Engineer.                                                                                                                                                     |          |              |   Tool   |\n| [Devon](https:\u002F\u002Fgithub.com\u002Fentropy-research\u002FDevon)                                             | An open-source pair programmer.                                                                                                                                                                |          |              |   Tool   |\n| [Dora](https:\u002F\u002Fwww.dora.run\u002Fai)                                                                | Generating powerful websites, one prompt at a time.                                                                                                                                            |           |             |   Tool   |\n| [Flowise](https:\u002F\u002Fgithub.com\u002FFlowiseAI\u002FFlowise)                                                | Drag & drop UI to build your customized LLM flow using LangchainJS.                                                                                                                            |           |             |   Tool   |\n| [Gemini](https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini)                                          | Gemini is built from the ground up for multimodality — reasoning seamlessly across text, images, video, audio, and code.                                                                      |          |              |   Tool   |\n| [Gemma](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fgemma_pytorch)                                               | Gemma is a family of lightweight, state-of-the art open models built from research and technology used to create Google Gemini models.                                                      |          |              |   Tool   |\n| [gemma.cpp](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fgemma.cpp)                                               | lightweight, standalone C++ inference engine for Google's Gemma models.                                                                                                                        |          |              |   Tool   |\n| [GLM-4](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FGLM-4)                                                        | GLM-4-9B is the open-source version of the latest generation of pre-trained models in the GLM-4 series launched by Zhipu AI.                                                                   |          |              |   Tool   |\n| [GLM-4.5](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-4.5)                                                  | GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai.                                                                                                          |          |              |   LLM   |\n| [GPT4All](https:\u002F\u002Fgithub.com\u002Fnomic-ai\u002Fgpt4all)                                                 | A chatbot trained on a massive collection of clean assistant data including code, stories and dialogue.                                                                                        |           |             |   Tool   |\n| [GPT-4o](https:\u002F\u002Fopenai.com\u002Findex\u002Fhello-gpt-4o\u002F)                                               | GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs.                                                                                                                                                                |          |              |   Tool   |\n| [gpt-oss](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgpt-oss)                                                   | gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI.                                                                                                                    |          |              |   LLM   |\n| [GPTScript](https:\u002F\u002Fgithub.com\u002Fgptscript-ai\u002Fgptscript)                                         | Develop LLM Apps in Natural Language.                                                                                                                                                          |          |              |   Tool   |\n| [Grok-1](https:\u002F\u002Fx.ai\u002Fblog\u002Fgrok-os)                                                            | The weights and architecture of our 314 billion parameter Mixture-of-Experts model, Grok-1.                                                                                                   |          |              |   Tool   |\n| [HuggingChat](https:\u002F\u002Fhuggingface.co\u002Fchat\u002F)                                                    | Making the community's best AI chat models available to everyone.                                                                                                                              |          |              |   Tool   |\n| [Hugging Face API Unity Integration](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Funity-api)                 | This Unity package provides an easy-to-use integration for the Hugging Face Inference API, allowing developers to access and use Hugging Face AI models within their Unity projects.       |          |     Unity     |   Tool   |\n| [Hunyuan-MT](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuan-MT)                                    | The Hunyuan-MT comprises a translation model, Hunyuan-MT-7B, and an ensemble model, Hunyuan-MT-Chimera. The translation model is used to translate source text into the target language, while the ensemble model integrates multiple translation outputs to produce a higher-quality result.                                                                                      |          |              |   LLM   |\n| [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind)                                     | ImageBind One Embedding Space to Bind Them All.                                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.05665)  |        |   Tool   |\n| [Index-1.9B](https:\u002F\u002Fgithub.com\u002Fbilibili\u002FIndex-1.9B)                                           | A SOTA lightweight multilingual LLM.                                                                                                                                                            |          |              |   Tool   |\n| [InteractML-Unity](https:\u002F\u002Fgithub.com\u002FInteractml\u002Fiml-unity)                                    | InteractML, an Interactive Machine Learning Visual Scripting framework for Unity3D.                                                                                                            |          |     Unity     |   Tool   |\n| [InteractML-Unreal Engine](https:\u002F\u002Fgithub.com\u002FInteractml\u002Fiml-ue4)                              | Bringing Machine Learning to Unreal Engine.                                                                                                                                                    |          | Unreal Engine |   Tool   |\n| [InternLM](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM)                                               | InternLM has open-sourced a 7 billion parameter base model, a chat model tailored for practical scenarios and the training system.   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.17297)  |     |   Tool   |\n| [InternLM-XComposer](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer)                           | InternLM-XComposer2 is a groundbreaking vision-language large model (VLLM) excelling in free-form text-image composition and comprehension.  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.06512)  |     |   Tool   |\n| [Jan](https:\u002F\u002Fgithub.com\u002Fjanhq\u002Fjan)                                                            | Bring AI to your Desktop.                                                                                                                                                                      |          |              |   Tool   |\n| [Janus](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FJanus)                                                  | Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13848)  |     |   LLM   |\n| [Kimi K2](https:\u002F\u002Fgithub.com\u002Fmoonshotai\u002FKimi-K2)                                               | Kimi K2 is a state-of-the-art mixture-of-experts (MoE) language model with 32 billion activated parameters and 1 trillion total parameters.                                                |          |              |   LLM   |\n| [Lamini](https:\u002F\u002Fgithub.com\u002Flamini-ai\u002Flamini)                                                  | Lamini allows any engineering team to outperform general purpose LLMs through RLHF and fine- tuning on their own data.                                                                      |          |              |   Tool   |\n| [LaMini-LM](https:\u002F\u002Fgithub.com\u002Fmbzuai-nlp\u002FLaMini-LM)                                           | LaMini-LM is a collection of small-sized, efficient language models distilled from ChatGPT and trained on a large-scale dataset of 2.58M instructions.                                  |          |              |   Tool   |\n| [LangChain](https:\u002F\u002Fgithub.com\u002Fhwchase17\u002Flangchain)                                            | LangChain is a framework for developing applications powered by language models.                                                                                                               |          |              |   Tool   |\n| [LangFlow](https:\u002F\u002Fgithub.com\u002Flogspace-ai\u002Flangflow)                                            | ⛓️ LangFlow is a UI for LangChain, designed with react-flow to provide an effortless way to experiment and prototype flows.                                                                   |          |              |   Tool   |\n| [LaVague](https:\u002F\u002Fgithub.com\u002Flavague-ai\u002FLaVague)                                               | Automate automation with Large Action Model framework.                                                                                                                                         |          |              |   Tool   |\n| [Lemur](https:\u002F\u002Fgithub.com\u002FOpenLemur\u002FLemur)                                                    | Open Foundation Models for Language Agents.                                                                                                                                                    |          |              |   Tool   |\n| [Lepton AI](https:\u002F\u002Fgithub.com\u002Fleptonai\u002Fleptonai)                                              | A Pythonic framework to simplify AI service building.                                                                                                                                          |          |              |   Tool   |\n| [Lit-LLaMA](https:\u002F\u002Fgithub.com\u002FLightning-AI\u002Flit-llama)                                         | Implementation of the LLaMA language model based on nanoGPT. Supports flash attention, Int8 and GPTQ 4bit quantization, LoRA and LLaMA-Adapter fine-tuning, pre-training.                   |          |              |   Tool   |\n| [llama2-webui](https:\u002F\u002Fgithub.com\u002Fliltom-eth\u002Fllama2-webui)                                     | Run Llama 2 locally with gradio UI on GPU or CPU from anywhere (Linux\u002FWindows\u002FMac).                                                                                                            |          |              |   Tool   |\n| [Llama 3](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama3)                                                | The official Meta Llama 3 GitHub site.                                                                                                                                                         |          |              |   Tool   |\n| [Llama 3.1](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama-models)                                        | Llama is an accessible, open large language model (LLM) designed for developers, researchers, and businesses to build, experiment, and responsibly scale their generative AI ideas.                                                                                                                                                         |          |              |   Tool   |\n| [LLaSM](https:\u002F\u002Fgithub.com\u002FLinkSoul-AI\u002FLLaSM)                                                  | Large Language and Speech Model.                                                                                                                                                               |          |              |   Tool   |\n| [LLM Answer Engine](https:\u002F\u002Fgithub.com\u002Fdevelopersdigest\u002Fllm-answer-engine)                     | Build a Perplexity-Inspired Answer Engine Using Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper.                                                                              |           |             |   Tool   |\n| [llm.c](https:\u002F\u002Fgithub.com\u002Fkarpathy\u002Fllm.c)                                                     | LLM training in simple, raw C\u002FCUDA.                                                                                                                                                            |          |              |   Tool   |\n| [LLMUnity](https:\u002F\u002Fgithub.com\u002Fundreamai\u002FLLMUnity)                                              | Create characters in Unity with LLMs!                                                                                                                                                          |          |     Unity    |   Tool   |\n| [LLocalSearch](https:\u002F\u002Fgithub.com\u002Fnilsherzig\u002FLLocalSearch)                                     | LLocalSearch is a completely locally running search engine using LLM Agents.                                                                                                                   |          |              |   Tool   |\n| [LogicGamesSolver](https:\u002F\u002Fgithub.com\u002Ffabridigua\u002FLogicGamesSolver)                             | A Python tool to solve logic games with AI, Deep Learning and Computer Vision.                                                                                                                 |          |              |   Tool   |\n| [LongCat-Flash](https:\u002F\u002Fgithub.com\u002Fmeituan-longcat\u002FLongCat-Flash-Chat)                         | LongCat-Flash is a powerful and efficient language model with 560 billion total parameters, featuring an innovative Mixture-of-Experts (MoE) architecture. The model incorporates a dynamic computation mechanism that activates 18.6B∼31.3B parameters (averaging∼27B) based on contextual demands, optimizing both computational efficiency and performance.           |          |              |   LLM   |\n| [LongWriter](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FLongWriter)                                              | LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs.                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.07055)  |              |   Tool   |\n| [Large World Model (LWM)](https:\u002F\u002Fgithub.com\u002FLargeWorldModel\u002FLWM)                              | Large World Model (LWM) is a general-purpose large-context multimodal autoregressive model.                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.08268)  |              |   Tool   |\n| [Lumina-T2X](https:\u002F\u002Fgithub.com\u002FAlpha-VLLM\u002FLumina-T2X)                                         | Lumina-T2X is a unified framework for Text to Any Modality Generation.                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.05945)  |              |   Tool   |\n| [MetaGPT](https:\u002F\u002Fgithub.com\u002Fgeekan\u002FMetaGPT)                                                   | The Multi-Agent Framework                                                                                                                                                                      |          |              |   Tool   |\n| [MiniCPM-2B](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM)                                               | An end-side LLM outperforms Llama2-13B.                                                                                                                                                        |          |              |   Tool   |\n| [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4)                                          | Enhancing Vision-language Understanding with Advanced Large Language Models.                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.10592)  |              |   Tool   |\n| [MiniGPT-5](https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5)                                          | Interleaved Vision-and-Language Generation via Generative Vokens.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02239)  |              |   Tool   |\n| [MiniMax-01](https:\u002F\u002Fgithub.com\u002FMiniMax-AI\u002FMiniMax-01)                                         | MiniMax-01: Scaling Foundation Models with Lightning Attention.                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.08313)  |              |   LLM   |\n| [Mixtral 8x7B](https:\u002F\u002Fmistral.ai\u002Fnews\u002Fmixtral-of-experts\u002F)                                    | A high quality Sparse Mixture-of-Experts.                                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.04088)  |              |   Tool   |\n| [Mistral 7B](https:\u002F\u002Fmistral.ai\u002Fnews\u002Fannouncing-mistral-7b\u002F)                                   | The best 7B model to date, Apache 2.0.                                                                                                                                                         |          |              |   Tool   |\n| [Mistral Large](https:\u002F\u002Fmistral.ai\u002Fnews\u002Fmistral-large\u002F)                                        | Mistral Large is a new cutting-edge text generation model. It reaches top-tier reasoning capabilities.                                                                                         |          |              |   Tool   |\n| [MLC LLM](https:\u002F\u002Fgithub.com\u002Fmlc-ai\u002Fmlc-llm)                                                   | Enable everyone to develop, optimize and deploy AI models natively on everyone's devices.                                                                                                      |          |              |   Tool   |\n| [MobiLlama](https:\u002F\u002Fgithub.com\u002Fmbzuai-oryx\u002FMobiLlama)                                          | Towards Accurate and Lightweight Fully Transparent GPT.                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16840)  |              |   Tool   |\n| [MoE-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FMoE-LLaVA)                                        | Mixture of Experts for Large Vision-Language Models.                                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.15947)  |              |   Tool   |\n| [Moshi](https:\u002F\u002Fwww.moshi.chat\u002F?queue_id=talktomoshi)                                          | Moshi is an experimental conversational AI.                                                                                                                                                    |          |              |   Tool   |\n| [Moshi](https:\u002F\u002Fgithub.com\u002Fkyutai-labs\u002Fmoshi)                                                  | Moshi: a speech-text foundation model for real time dialogue.                                                                                                                                                    |          |              |   Tool   |\n| [MOSS](https:\u002F\u002Fgithub.com\u002FOpenLMLab\u002FMOSS)                                                      | An open-source tool-augmented conversational language model from Fudan University.                                                                                                             |          |              |   Tool   |\n| [mPLUG-Owl🦉](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl)                                            | Modularization Empowers Large Language Models with Multimodality.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14178)  |              |   Tool   |\n| [Nemotron-4](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16819)                                                 | A 15-billion-parameter large multilingual language model trained on 8 trillion text tokens.                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16819)  |              |   Tool   |\n| [NExT-GPT](https:\u002F\u002Fgithub.com\u002FNExT-GPT\u002FNExT-GPT)                                               | Any-to-Any Multimodal Large Language Model.                                                                                                                                                    |          |              |   Tool   |\n| [OLMo](https:\u002F\u002Fgithub.com\u002Fallenai\u002FOLMo)                                                        | Open Language Model                                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.00838)  |             |   Tool   |\n| [OmniLMM](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FOmniLMM)                                                  | Large multi-modal models for strong performance and efficient deployment.                                                                                                                      |          |              |   Tool   |\n| [OneLLM](https:\u002F\u002Fgithub.com\u002Fcsuhan\u002FOneLLM)                                                     | One Framework to Align All Modalities with Language.                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03700)  |              |   Tool   |\n| [Open-Assistant](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FOpen-Assistant)                                   | OpenAssistant is a chat-based assistant that understands tasks, can interact with third-party systems, and retrieve information dynamically to do so.                                        |          |              |   Tool   |\n| [Open Deep Research](https:\u002F\u002Fgithub.com\u002Fdzhng\u002Fdeep-research)                                   | An AI-powered research assistant that performs iterative, deep research on any topic by combining search engines, web scraping, and large language models.                                   |          |              |   LLM   |\n| [OpenDevin](https:\u002F\u002Fgithub.com\u002FOpenDevin\u002FOpenDevin)                                            | An autonomous AI software engineer.                                                                                                                                                            |          |              |   Tool   |\n| [Orion-14B](https:\u002F\u002Fgithub.com\u002FOrionStarAI\u002FOrion)                                              | Orion-14B is a family of models includes a 14B foundation LLM, and a series of models.                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.12246)  |              |   Tool   |\n| [Panda](https:\u002F\u002Fgithub.com\u002Fdandelionsllm\u002Fpandallm)                                             | Overseas Chinese open source large language model, based on Llama-7B, -13B, -33B, -65B for continuous pre-training in the Chinese field.                                                    |          |              |   Tool   |\n| [Perplexica](https:\u002F\u002Fgithub.com\u002FItzCrazyKns\u002FPerplexica)                                        | An AI-powered search engine.                                                                                                                                                                   |           |             |   Tool   |\n| [Pi](https:\u002F\u002Fheypi.com\u002Ftalk)                                                                   | AI chatbot designed for personal assistance and emotional support.                                                                                                                             |          |              |   Tool   |\n| [Qwen1.5](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen1.5)                                                   | Qwen1.5 is the improved version of Qwen.                                                                                                                                                       |           |             |   Tool   |\n| [Qwen2](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2)                                                       | Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.                                                                                                                |           |             |   LLM   |\n| [Qwen2.5-Coder](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Coder)                                       | Qwen2.5-Coder is the code version of Qwen2.5, the large language model series developed by Qwen team, Alibaba Cloud.                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12186)  |             |   LLM   |\n| [Qwen-7B](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-7B)                                                   | The official repo of Qwen-7B (通义千问-7B) chat & pretrained large language model proposed by Alibaba Cloud.                                                                                    |          |              |   LLM   |\n| [Qwen3](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3)                                                       | Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud.                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.09388)  |              |   LLM   |\n| [RepoAgent](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FRepoAgent)                                              | RepoAgent is an Open-Source project driven by Large Language Models(LLMs) that aims to provide an intelligent way to document projects.     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16667)  |              |   Tool   |\n| [s1](https:\u002F\u002Fgithub.com\u002Fsimplescaling\u002Fs1)                                                      | s1: Simple test-time scaling.                                                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.19393)  |              |   LLM   |\n| [Sanity AI Engine](https:\u002F\u002Fgithub.com\u002Ftosos\u002FSanityEngine)                                      | Sanity AI Engine for the Unity Game Development Tool.                                                                                                                                          |          |     Unity     |   Tool   |\n| [SearchGPT](https:\u002F\u002Fgithub.com\u002Ftobiasbueschel\u002Fsearch-gpt)                                      | 🌳 Connecting ChatGPT with the Internet                                                                                                                                                       |          |              |   Tool   |\n| [Seed-OSS](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002Fseed-oss)                                         | Seed-OSS is a series of open-source large language models developed by ByteDance's Seed Team, designed for powerful long-context, reasoning, agent and general capabilities, and versatile developer-friendly features.                                                                                                                                                                   |          |              |   LLM   |\n| [ShareGPT4V](https:\u002F\u002Fsharegpt4v.github.io\u002F)                                                    | Improving Large Multi-Modal Models with Better Captions.                                                                                                                                       |          |              |   Tool   |\n| [SkyThought](https:\u002F\u002Fgithub.com\u002FNovaSky-AI\u002FSkyThought)                                         | Sky-T1: Train your own O1 preview model within $450.                                                                                                                                           |          |              |   LLM   |\n| [Skywork](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork)                                                | Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data.                                                                  |          |              |   Tool   |\n| [StableLM](https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableLM)                                           | Stability AI Language Models.                                                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17834)  |              |   Tool   |\n| [Stanford Alpaca](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca)                                | An Instruction-following LLaMA Model.                                                                                                                                                          |          |              |   LLM   |\n| [Text generation web UI](https:\u002F\u002Fgithub.com\u002Foobabooga\u002Ftext-generation-webui)                   | A gradio web UI for running Large Language Models like LLaMA, llama.cpp, GPT-J, OPT, and GALACTICA.                                                                                           |          |              |   Tool   |\n| [TinyChatEngine](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002FTinyChatEngine)                                | On-Device LLM Inference Library.                                                                                                                                                               |          |              |   Tool   |\n| [ToolBench](https:\u002F\u002Fgithub.com\u002Fopenbmb\u002Ftoolbench)                                              | An open platform for training, serving, and evaluating large language model for tool learning.                                                                                            |           |             |   Tool   |\n| [Unity ChatGPT](https:\u002F\u002Fgithub.com\u002Fdilmerv\u002FUnityChatGPT)                                       | Unity ChatGPT Experiments.                                                                                                                                                                     |          |     Unity     |   Tool   |\n| [Unity OpenAI-API Integration](https:\u002F\u002Fgithub.com\u002Fhimanshuskyrockets\u002FUnity_OpenAI)             | Integrate openai GPT-3 language model and ChatGPT API into a Unity project.                                                                                                                    |          |     Unity     |   Tool   |\n| [Unreal Engine 5 Llama LoRA](https:\u002F\u002Fgithub.com\u002Fbublint\u002Fue5-llama-lora)                        | A proof-of-concept project that showcases the potential for using small, locally trainable LLMs to create next-generation documentation tools.                                        |          | Unreal Engine |   Tool   |\n| [UnrealGPT](https:\u002F\u002Fgithub.com\u002FTREE-Ind\u002FUnrealGPT)                                             | A collection of Unreal Engine 5 Editor Utility widgets powered by GPT3\u002F4.                                                                                                                      |          | Unreal Engine |   Tool   |\n| [Video-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA)                                    | Learning United Visual Representation by Alignment Before Projection.                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10122)  |              |   Tool   |\n| [WebGPT](https:\u002F\u002Fgithub.com\u002F0hq\u002FWebGPT)                                                        | Run GPT model on the browser with WebGPU.                                                                                                                                                      |          |              |   Tool   |\n| [Web3-GPT](https:\u002F\u002Fgithub.com\u002FMarkeljan\u002FWeb3GPT)                                               | Deploy smart contracts with AI                                                                                                                                                                 |          |              |   Tool   |\n| [WordGPT](https:\u002F\u002Fgithub.com\u002Ffilippofinke\u002FWordGPT)                                             | 🤖 Bring the power of ChatGPT to Microsoft Word                                                                                                                                               |          |              |   Tool   |\n| [XAgent](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FXAgent)                                                    | An Autonomous LLM Agent for Complex Task Solving.                                                                                                                                              |          |              |   Tool   |\n| [Yi](https:\u002F\u002Fgithub.com\u002F01-ai\u002FYi)                                                              | A series of large language models trained from scratch by developers.                                                                                                                          |          |              |   Tool   |\n| [01 Project](https:\u002F\u002Fgithub.com\u002FOpenInterpreter\u002F01)                                            | The open-source language model computer.                                                                                                                                                       |          |              |   Tool   | \n| [SimpleOllamaUnity](https:\u002F\u002Fgithub.com\u002FHardCodeDev777\u002FSimpleOllamaUnity)                       | Ollama integration for Unity Engine (works in runtime and editor)                                                                                                                              |          |     Unity    |   Tool   |\n| [AI-Writer](https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FAI-Writer)                                              | AI writes novels, generates fantasy and romance web articles, etc. Chinese pre-trained generative model.                                                                                    |               |              |  Writer  |\n| [Notebook.ai](https:\u002F\u002Fgithub.com\u002Findentlabs\u002Fnotebook)                                          | Notebook.ai is a set of tools for writers, game designers, and roleplayers to create magnificent universes – and everything within them.                                                  |               |              |  Writer  |\n| [Novel](https:\u002F\u002Fgithub.com\u002Fsteven-tey\u002Fnovel)                                                   | Notion-style WYSIWYG editor with AI-powered autocompletions.                                                                                                                                   |               |              |  Writer  |\n| [NovelAI](https:\u002F\u002Fnovelai.net\u002F)                                                                | Driven by AI, painlessly construct unique stories, thrilling tales, seductive romances, or just fool around.                                                                                 |               |              |  Writer  |\n\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"visual\">VLM (Visual)\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [Cambrian-1](https:\u002F\u002Fgithub.com\u002Fcambrian-mllm\u002Fcambrian)                                     | Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs.                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.16860)  |              |   Multimodal LLMs  |\n| [CogVLM2](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVLM2)                                                 | GPT4V-level open-source multi-modal model based on Llama3-8B.                                                                                       |                           |              |   Visual  |\n| [CoTracker](https:\u002F\u002Fco-tracker.github.io\u002F)                                                  | It is Better to Track Together.                                                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.07635)  |               | Visual |\n| [dots.vlm1](https:\u002F\u002Fgithub.com\u002Frednote-hilab\u002Fdots.vlm1)                                     | dots.vlm1 is the first vision-language model in the dots model family. Built upon a 1.2 billion-parameter vision encoder and the DeepSeek V3 large language model (LLM), dots.vlm1 demonstrates strong multimodal understanding and reasoning capabilities.                                                                                 |                           |              |   VLM  |\n| [EVF-SAM](https:\u002F\u002Fgithub.com\u002Fhustvl\u002FEVF-SAM)                                                | EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model.                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.20076)  |               | Visual |\n| [FaceHi](https:\u002F\u002Fm.facehi.ai\u002F)                                                              | It is Better to Track Together.                                                                                                                       |                                           |               | Visual |\n| [GLM-V](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-V)                                                   | GLM-4.1V-Thinking and GLM-4.5V: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning.                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.01006)  |               | VLM |\n| [InternLM-XComposer2](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer)                       | InternLM-XComposer2 is a groundbreaking vision-language large model (VLLM) excelling in free-form text-image composition and comprehension.           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.06512)  |               | Visual |\n| [Kangaroo](https:\u002F\u002Fgithub.com\u002FKangarooGroup\u002FKangaroo)                                       | Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input.                                                                        |                                           |               | Visual |\n| [Kwai Keye-VL](https:\u002F\u002Fgithub.com\u002FKwai-Keye\u002FKeye)                                           | Kwai Keye-VL is a cutting-edge multimodal large language model meticulously crafted by the Kwai Keye Team at Kuaishou.              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.01563)  |               | VLM |\n| [LGVI](https:\u002F\u002Fjianzongwu.github.io\u002Fprojects\u002Frovi\u002F)                                         | Towards Language-Driven Video Inpainting via Multimodal Large Language Models.                                                                         |                                           |               | Visual |\n| [LLaVA++](https:\u002F\u002Fgithub.com\u002Fmbzuai-oryx\u002FLLaVA-pp)                                          | Extending Visual Capabilities with LLaMA-3 and Phi-3.                                                                                                     |                                     |              |   Visual  |\n| [LLaVA-OneVision](https:\u002F\u002Fgithub.com\u002FLLaVA-VL\u002FLLaVA-NeXT)                                   | LLaVA-OneVision: Easy Visual Task Transfer.                                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.03326)  |              |   Visual  |\n| [LongVA](https:\u002F\u002Fgithub.com\u002FEvolvingLMMs-Lab\u002FLongVA)                                        | Long Context Transfer from Language to Vision.                                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.16852)  |              |   Visual  |\n| [Lumina-DiMOO](https:\u002F\u002Fgithub.com\u002FAlpha-VLLM\u002FLumina-DiMOO)                                  | Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding.                                                |                                     |              |   VLM  |\n| [MaskViT](https:\u002F\u002Fmaskedvit.github.io\u002F)                                                     | Masked Visual Pre-Training for Video Prediction.                                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.11894)  |              | Visual |\n| [MiniCPM-Llama3-V 2.5](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-V)                                | A GPT-4V Level MLLM on Your Phone.                                                                                                                        |                                      |              |   Visual  |\n| [MiniCPM-V 4.0](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-o)                                       | MiniCPM-V 4.0: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone.                                                                 |                                      |              |   Visual  |\n| [MoE-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FMoE-LLaVA)                                     | Mixture of Experts for Large Vision-Language Models.                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.15947)  |              |   Visual  |\n| [MotionLLM](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FMotionLLM)                                     | Understanding Human Behaviors from Human Motions and Videos.                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.20340)  |              |   Visual  |\n| [PLLaVA](https:\u002F\u002Fgithub.com\u002Fmagic-research\u002FPLLaVA)                                          | Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning.                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16994)  |              |   Visual  |\n| [POINTS-Reader](https:\u002F\u002Fgithub.com\u002FTencent\u002FPOINTS-Reader)                                   | POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion.                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.01215)  |              |   Visual  |\n| [Qwen-VL](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-VL)                                                | A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond.                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12966)  |              |   Visual  |\n| [Sapiens](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsapiens)                                      | Sapiens: Foundation for Human Vision Models.                                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.12569)  |              |   Visual  |\n| [ShareGPT4V](https:\u002F\u002Fgithub.com\u002FShareGPT4Omni\u002FShareGPT4V)                                   | Improving Large Multi-modal Models with Better Captions.                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12793)  |              |   Visual  |\n| [SOLO](https:\u002F\u002Fgithub.com\u002FYangyi-Chen\u002FSOLO)                                                 | SOLO: A Single Transformer for Scalable Vision-Language Modeling.                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.06438)  |              |   Visual  |\n| [VideoAgent](https:\u002F\u002Fgithub.com\u002FYueFan1014\u002FVideoAgent)                                      | VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding.                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.11481)  |              |   Agent  |\n| [Video-CCAM](https:\u002F\u002Fgithub.com\u002FQQ-MM\u002FVideo-CCAM)                                           | Video-CCAM: Advancing Video-Language Understanding with Causal Cross-Attention Masks.                                                                                          |  |              |   Visual  |\n| [Video-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA)                                 | Learning United Visual Representation by Alignment Before Projection.                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10122)  |              |   Visual  |\n| [VideoLLaMA 2](https:\u002F\u002Fgithub.com\u002FDAMO-NLP-SG\u002FVideoLLaMA2)                                  | Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs.                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07476)  |              |   Visual  |\n| [VideoLLaMA 3](https:\u002F\u002Fgithub.com\u002FDAMO-NLP-SG\u002FVideoLLaMA3)                                  | VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding.                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13106)  |              |   Visual  |\n| [Video-MME](https:\u002F\u002Fgithub.com\u002FBradyFU\u002FVideo-MME)                                           | The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis.                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.21075)  |              |   Visual  |\n| [Vitron](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron)                                               | A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing.                                                                      |                                      |              |   Visual  |\n| [VILA](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FVILA)                                                      | VILA: On Pre-training for Visual Language Models.                                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07533)  |              |   Visual  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"game\">Game (World Model & Agent)\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AgentBench](https:\u002F\u002Fgithub.com\u002Fthudm\u002Fagentbench)                                              | A Comprehensive Benchmark to Evaluate LLMs as Agents.                                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03688)  |        |   Agent  |\n| [Agent Group Chat](https:\u002F\u002Fgithub.com\u002FMikeGu721\u002FAgentGroup)                                    | An Interactive Group Chat Simulacra For Better Eliciting Collective Emergent Behavior.                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.13433)  |        |   Agent  |\n| [Agent K](https:\u002F\u002Fgithub.com\u002Fmikekelly\u002FAgentK)                                                 | An autoagentic AGI that is self-evolving and modular.                                                                                                                            |         |              |   Agent  |\n| [Agent Laboratory](https:\u002F\u002Fgithub.com\u002FSamuelSchmidgall\u002FAgentLaboratory)                        | Agent Laboratory: Using LLM Agents as Research Assistants.                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04227)  |        |   Agent  |\n| [AgentScope](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fagentscope)                                         | Start building LLM-empowered multi-agent applications in an easier way.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.14034)  |              |   Agent  |\n| [AgentSims](https:\u002F\u002Fgithub.com\u002Fpy499372727\u002FAgentSims\u002F)                                         | An Open-Source Sandbox for Large Language Model Evaluation.                                                                                                                            |         |              |   Agent  |\n| [AI Town](https:\u002F\u002Fgithub.com\u002Fa16z-infra\u002Fai-town)                                               | AI Town is a virtual town where AI characters live, chat and socialize.                                                                                                                |         |              |   Agent  |\n| [anime.gf](https:\u002F\u002Fgithub.com\u002Fcyanff\u002Fanime.gf)                                                 | Local & Open Source Alternative to CharacterAI.                                                                                                                                         |        |              |   Game   |\n| [Astrocade](https:\u002F\u002Fwww.astrocade.com\u002F)                                                        | Create games with AI                                                                                                                                                                    |        |              |   Game   |\n| [Atomic Agents](https:\u002F\u002Fgithub.com\u002FKennyVaneetvelde\u002Fatomic_agents)                             | The Atomic Agents framework is designed to be modular, extensible, and easy to use.                                                                                                     |        |              |   Agent  |\n| [AutoAgents](https:\u002F\u002Fgithub.com\u002FLink-AGI\u002FAutoAgents)                                           | A Framework for Automatic Agent Generation.                                                                                                                                             |        |              |   Agent  |\n| [AutoGen](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fautogen)                                                | Enable Next-Gen Large Language Model Applications.                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.08155)  |              |   Agent  |\n| [AWorld](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FAWorld)                                             | AWorld: The Agent Runtime for Self-Improvement.                                                                                                                                            |        |              |   Agent  |\n| [behaviac](https:\u002F\u002Fgithub.com\u002FTencent\u002Fbehaviac)                                                | Behaviac is a framework of the game AI development.                                                                                                                               |              |              | Framework |\n| [Biomes](https:\u002F\u002Fgithub.com\u002Fill-inc\u002Fbiomes-game)                                               | Biomes is an open source sandbox MMORPG built for the web using web technologies such as Next.js, Typescript, React and WebAssembly.                                                    |       |              |   Game   |\n| [Buffer of Thoughts](https:\u002F\u002Fgithub.com\u002FYangLing0818\u002Fbuffer-of-thought-llm)                    | Thought-Augmented Reasoning with Large Language Models.                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04271)  |              |   Agent  |\n| [Byzer-Agent](https:\u002F\u002Fgithub.com\u002Fallwefantasy\u002Fbyzer-agent)                                     | Easy, fast, and distributed agent framework for everyone.                                                                                                                               |        |              |   Agent  |\n| [Cat Town](https:\u002F\u002Fgithub.com\u002Fykhli\u002Fcat-town)                                                  | A C(h)atGPT-powered simulation with cats.                                                                                                                                               |        |              |   Agent  |\n| [Cat Town](https:\u002F\u002Fgithub.com\u002Fykhli\u002Fcat-town)                                                  | A C(h)atGPT-powered simulation with cats.                                                                                                                                               |        |              |   Agent  |\n| [CharacterGLM](https:\u002F\u002Fgithub.com\u002Fthu-coai\u002FCharacterGLM-6B)                                    | Customizing Chinese Conversational AI Characters with Large Language Models.                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.16832)  |              |   Agent  |\n| [ChatDev](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FChatDev)                                                  | Communicative Agents for Software Development.                                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.04219)  |              |   Agent  |\n| [CogAgent](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fcogagent-chat\u002Fsummary)                         | CogAgent is an open-source visual language model improved based on CogVLM.                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.08914)  |              |   Agent  |\n| [ComoRAG](https:\u002F\u002Fgithub.com\u002FEternityJune25\u002FComoRAG)                                           | ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning.                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.10419)  |              |   Agent  |\n| [Cradle](https:\u002F\u002Fgithub.com\u002FBAAI-Agents\u002FCradle)                                                | Towards General Computer Control.                                                                                                                                                         |      |              |   Agent  |\n| [crewAI](https:\u002F\u002Fgithub.com\u002Fjoaomdmoura\u002FcrewAI)                                                | Framework for orchestrating role-playing, autonomous AI agents.                                                                                                                          |       |              |   Agent  |\n| [Datarus Jupyter Agent](https:\u002F\u002Fgithub.com\u002FDatarusAI\u002FDatarus-JupyterAgent)                     | The Datarus Jupyter Agent is a powerful multi-step reasoning system that executes complex analytical workflows with step-by-step reasoning, automatic error recovery, and comprehensive result synthesis.                                                                                                                                                                             |       |              |   Agent  |\n| [Dify](https:\u002F\u002Fgithub.com\u002Flanggenius\u002Fdify)                                                     | Dify is an open-source LLM app building platform.                                                                                                                                        |       |              |   Agent  |\n| [Digital Life Project](https:\u002F\u002Fdigital-life-project.com\u002F)                                      | Autonomous 3D Characters with Social Intelligence.                                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.04547)  |              |   Agent  |\n| [everything-ai](https:\u002F\u002Fgithub.com\u002FAstraBert\u002Feverything-ai)                                    | Your fully proficient, AI-powered and local chatbot assistant🤖.                                                                                                                        |       |              |   Agent  |\n| [fabric](https:\u002F\u002Fgithub.com\u002Fdanielmiessler\u002Ffabric)                                             | fabric is an open-source framework for augmenting humans using AI.                                                                                                                       |       |              |   Agent  |\n| [FastGPT](https:\u002F\u002Fgithub.com\u002Flabring\u002FFastGPT)                                                  | FastGPT is a knowledge-based platform built on the LLM.                                                                                                                                  |       |              |   Agent  |\n| [fastRAG](https:\u002F\u002Fgithub.com\u002FIntelLabs\u002FfastRAG)                                                | Efficient Retrieval Augmentation and Generation Framework.                                                                                                                               |       |              |   Agent  |\n| [GameAISDK](https:\u002F\u002Fgithub.com\u002FTencent\u002FGameAISDK)                                              | Image-based game AI automation framework.                                                                                                                                         |              |              | Framework |\n| [GameNGen](https:\u002F\u002Fgamengen.github.io\u002F)                                                        | Diffusion Models Are Real-Time Game Engines.                                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.14837)  |              |   Game  |\n| [GameGen-O](https:\u002F\u002Fgithub.com\u002FGameGen-O\u002FGameGen-O)                                            | GameGen-O: Open-world Video Game Generation.                                                                                                                                           |         |              |   Game   |\n| [GenAgent](https:\u002F\u002Fgithub.com\u002FxxyQwQ\u002FGenAgent)                     | GenAgent: Build Collaborative AI Systems with Automated Workflow Generation - Case Studies on ComfyUI.                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.01392)  |              |   Agent  |\n| [Generative Agents](https:\u002F\u002Fgithub.com\u002Fjoonspk-research\u002Fgenerative_agents)                     | Interactive Simulacra of Human Behavior.                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03442)  |              |   Agent  |\n| [Genesis](https:\u002F\u002Fgithub.com\u002FGenesis-Embodied-AI\u002FGenesis)                                      | Genesis: A Generative and Universal Physics Engine for Robotics and Beyond.                                                                                                            |         |              |   Game   |\n| [Genie](https:\u002F\u002Fsites.google.com\u002Fview\u002Fgenie-2024\u002Fhome)                                         | Generative Interactive Environments.                                                                                                                                                   |         |              |   Game   |\n| [Genie 3](https:\u002F\u002Fdeepmind.google\u002Fdiscover\u002Fblog\u002Fgenie-3-a-new-frontier-for-world-models\u002F)      | Genie 3: A new frontier for world models. Genie 3 is a general purpose world model that can generate an unprecedented diversity of interactive environments.                         |         |              |   Game   |\n| [gigax](https:\u002F\u002Fgithub.com\u002FGigaxGames\u002Fgigax)                                                   | Runtime, LLM-powered NPCs.                                                                                                                                                               |       |              |   Game   |\n| [HippoRAG](https:\u002F\u002Fgithub.com\u002FOSU-NLP-Group\u002FHippoRAG)                                       | Neurobiologically Inspired Long-Term Memory for Large Language Models.                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14831)  |              |   Agent   |\n| [Hunyuan-GameCraft](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuan-GameCraft-1.0)               | Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition.                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.17201)  |              |   Game   |\n| [HunyuanWorld 1.0](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanWorld-1.0)                     | HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels.                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21809)  |              |   Game   |\n| [HunyuanWorld-Voyager](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanWorld-Voyager)             | HunyuanWorld-Voyager is a novel video diffusion framework that generates world-consistent 3D point-cloud sequences from a single image with user-defined camera path. Voyager can generate 3D-consistent scene videos for world exploration following custom camera trajectories.                                                                                                          |       |              |   Game   |\n| [HY-World 1.5](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHY-WorldPlay)                                | HY-World 1.5: A Systematic Framework for Interactive World Modeling with Real-Time Latency and Geometric Consistency.                                                               |       |              |   Game   |\n| [Interactive LLM Powered NPCs](https:\u002F\u002Fgithub.com\u002FAkshitIreddy\u002FInteractive-LLM-Powered-NPCs)   | Interactive LLM Powered NPCs, is an open-source project that completely transforms your interaction with non-player characters (NPCs) in any game!                                       |        |              |   Game   |\n| [IoA](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FIoA)                                                          | An open-source framework for collaborative AI agents, enabling diverse, distributed agents to team up and tackle complex tasks through internet-like connectivity.                      |  |              |   Agent   |\n| [Jaaz](https:\u002F\u002Fgithub.com\u002F11cafe\u002Fjaaz)                                                         | Jaaz - The world's first open-source multimodal creative assistant. AI design agent, local alternative for Lovart. Canva + Cursor. AI agent with ability to design, edit and generate images, posters, storyboards, etc.                |  |              |   Agent   |\n| [KwaiAgents](https:\u002F\u002Fgithub.com\u002FKwaiKEG\u002FKwaiAgents)                                            | A generalized information-seeking agent system with Large Language Models (LLMs).                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.04889)  |              |   Agent  |\n| [LangChain](https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain)                                         | Get your LLM application from prototype to production.                                                                                                                                  |        |              |   Agent  |\n| [Langflow](https:\u002F\u002Fgithub.com\u002Flogspace-ai\u002Flangflow)                                            | Langflow is a UI for LangChain, designed with react-flow to provide an effortless way to experiment and prototype flows.                                                               |        |              |   Agent  |\n| [LangGraph Studio](https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flanggraph-studio)                           | LangGraph Studio offers a new way to develop LLM applications by providing a specialized agent IDE that enables visualization, interaction, and debugging of complex agentic applications.        |        |              |   Agent  |\n| [LARP](https:\u002F\u002Fgithub.com\u002FMiAO-AI-Lab\u002FLARP)                                                    | Language-Agent Role Play for open-world games.                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.17653)  |              |   Agent  |\n| [LLama Agentic System](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama-agentic-system)                     | Agentic components of the Llama Stack APIs.                                                                                                                                               |      |              |   Agent  |\n| [LlamaIndex](https:\u002F\u002Fgithub.com\u002Frun-llama\u002Fllama_index)                                         | LlamaIndex is a data framework for your LLM application.                                                                                                                                  |      |              |   Agent  |\n| [Matrix-Game](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FMatrix-Game)                                        | Matrix-Game: Interactive World Foundation Model. Matrix-Game is a 17B-parameter interactive world foundation model for controllable game world generation.                      |      |              |   Game  |\n| [Matrix-Game 2.0](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FMatrix-Game)                                    | Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model.                                                                                                        |      |              |   Game  |\n| [MindSearch](https:\u002F\u002Fgithub.com\u002FInternLM\u002FMindSearch)                                           | 🔍 An LLM-based Multi-agent Framework of Web Search Engine (like Perplexity.ai Pro and SearchGPT).                                                                                     |      |              |   Agent  |\n| [Mixture of Agents (MoA)](https:\u002F\u002Fgithub.com\u002Ftogethercomputer\u002FMoA)                             | Mixture-of-Agents Enhances Large Language Model Capabilities.                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04692)  |              |   Agent  |\n| [MMRole](https:\u002F\u002Fgithub.com\u002FYanqiDai\u002FMMRole)                                                   | MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents.                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.04203v1)  |              |   Agent  |\n| [Moonlander.ai](https:\u002F\u002Fwww.moonlander.ai\u002F)                                                    | Start building 3D games without any coding using generative AI.                                                                                                                          |       |              | Framework |\n| [MuG Diffusion](https:\u002F\u002Fgithub.com\u002FKeytoyze\u002FMug-Diffusion)                                     | MuG Diffusion is a charting AI for rhythm games based on Stable Diffusion (one of the most powerful AIGC models) with a large modification to incorporate audio waves.               |       |              |   Game   |\n| [NVIDIA NeMo Agent Toolkit](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo-Agent-Toolkit)                      | NVIDIA NeMo Agent toolkit is a flexible, lightweight, and unifying library that allows you to easily connect existing enterprise agents to data sources and tools across any framework.               |       |              |   Agent   |\n| [Oasis](https:\u002F\u002Fgithub.com\u002Fetched-ai\u002Fopen-oasis)                                               | Oasis is an interactive world model developed by Decart and Etched. Based on diffusion transformers, Oasis takes in user keyboard input and generates gameplay in an autoregressive manner.                |       |              |   Game   |\n| [OmAgent](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmAgent)                                                | A multimodal agent framework for solving complex tasks.                                                                                                                                 |        |              |   Agent  |\n| [OpenAgents](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOpenAgents)                                           | An Open Platform for Language Agents in the Wild.                                                                                                                                       |        |              |   Agent  |\n| [Opus](https:\u002F\u002Fopus.ai\u002F)                                                                       | An AI app that turns text into a video game.                                                                                                                                             |       |              |   Game   |\n| [Pipecat](https:\u002F\u002Fgithub.com\u002Fpipecat-ai\u002Fpipecat)                                            | Open Source framework for voice and multimodal conversational AI.                                                                                                                           |       |              |   Agent   |\n| [Qwen-Agent](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Agent)                                             | Qwen-Agent is a framework for developing LLM applications based on the instruction following, tool usage, planning, and memory capabilities of Qwen.                             |        |              |   Agent  |\n| [Ragas](https:\u002F\u002Fgithub.com\u002Fexplodinggradients\u002Fragas)                                           | Ragas is a framework that helps you evaluate your Retrieval Augmented Generation (RAG) pipelines.                                                                                     |       |              |   Agent  |\n| [RPBench-Auto](https:\u002F\u002Fgithub.com\u002Fboson-ai\u002FRPBench-Auto)                                       | An automated pipeline for evaluating LLMs for role-playing.                                                                                                                              |       |              |   Game   |\n| [Rosebud AI](https:\u002F\u002Frosebud.ai)                                                               | Vibe coding platform for creating 3D games and interactive web apps with AI.                                                                                                             |       |              |   Game   |\n| [SIMA](https:\u002F\u002Fdeepmind.google\u002Fdiscover\u002Fblog\u002Fsima-generalist-ai-agent-for-3d-virtual-environments\u002F)          | A generalist AI agent for 3D virtual environments.                                                                                                                         |       |              |   Agent  |\n| [StoryGames.ai](https:\u002F\u002Fstorygames.buildbox.com\u002F)                                              | AI for Dreamers Make Games.                                                                                                                                                              |       |              |   Game   |\n| [SWE-agent](https:\u002F\u002Fgithub.com\u002Fprinceton-nlp\u002FSWE-agent)                                        | Agent Computer Interfaces Enable Software Engineering Language Models.                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.15793)  |              |   Agent  |\n| [TaskGen](https:\u002F\u002Fgithub.com\u002Fsimbianai\u002Ftaskgen)                                                | A Task-based agentic framework building on StrictJSON outputs by LLM agents.                                                                                              |       |              |   Agent  |\n| [TEN Agent](https:\u002F\u002Fgithub.com\u002FTEN-framework\u002FTEN-Agent)                                        | TEN Agent is the world’s first real-time multimodal agent integrated with the OpenAI Realtime API, RTC, and features weather checks, web search, vision, and RAG capabilities.              |       |              |   Agent  |\n| [Translation Agent](https:\u002F\u002Fgithub.com\u002Fandrewyng\u002Ftranslation-agent)                            | Agentic translation using reflection workflow.                                                                                                                            |       |              |   Agent  |\n| [Twitter](https:\u002F\u002Fgithub.com\u002Fwordware-ai\u002Ftwitter)                                              | Twitter Personality is a web application that analyzes your Twitter handle to create a personalized personality profile using Wordware AI Agent.                                      |       |              |   Agent  |\n| [Unbounded](https:\u002F\u002Fgenerative-infinite-game.github.io\u002F)                                         | Unbounded: A Generative Infinite Game of Character Life Simulation.                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.18975)  |              |   Game   |\n| [Video2Game](https:\u002F\u002Fgithub.com\u002Fvideo2game\u002Fvideo2game)                                         | Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video.                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.09833)  |              |   Game   |\n| [V-IRL](https:\u002F\u002Fvirl-platform.github.io\u002F)                                                      | Grounding Virtual Intelligence in Real Life.                                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.03310)  |              |   Agent  |\n| [WebDesignAgent](https:\u002F\u002Fgithub.com\u002FDAMO-NLP-SG\u002FWebDesignAgent)                                | An agent used for webdesign.                                                                                                                                             |        |              |   Agent  |\n| [XAgent](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FXAgent)                                                    | An Autonomous LLM Agent for Complex Task Solving.                                                                                                                                        |       |              |   Agent  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"code\">Code\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AI Code Translator](https:\u002F\u002Fgithub.com\u002Fmckaywrigley\u002Fai-code-translator)                       | Use AI to translate code from one language to another.                                                                                                                         |  |        |   Code   |\n| [aiXcoder-7B](https:\u002F\u002Fgithub.com\u002Faixcoder-plugin\u002FaiXcoder-7B)                                  | aiXcoder-7B Code Large Language Model.                                                                                                           |                                                 |              |   Code   |\n| [bloop](https:\u002F\u002Fgithub.com\u002FBloopAI\u002Fbloop)                                                      | bloop is a fast code search engine written in Rust.                                                                                              |                                                 |              |   Code   |\n| [Chapyter](https:\u002F\u002Fgithub.com\u002Fchapyter\u002Fchapyter)                                               | ChatGPT Code Interpreter in Jupyter Notebooks.                                                                                                     |                                               |              |   Code   |\n| [CodeGeeX](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX)                                                  | An Open Multilingual Code Generation Model.                                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17568)    |              |   Code   |\n| [CodeGeeX2](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX2)                                                | A More Powerful Multilingual Code Generation Model.                                                                                               |                                                |              |   Code   |\n| [CodeGeeX4](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX4)                                                | CodeGeeX4: Open Multilingual Code Generation Model.                                                                                               |                                                |              |   Code   |\n| [CodeGen](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FCodeGen)                                               | CodeGen is an open-source model for program synthesis. Trained on TPU-v4. Competitive with OpenAI Codex.                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13474)    |              |   Code   |\n| [CodeGen2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FCodeGen2)                                             | CodeGen2 models for program synthesis.                                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02309)    |              |   Code   |\n| [Code Llama](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fcodellama)                                    | Code Llama is a large language models for code based on Llama 2.                                                                                    |                                              |              |   Code   |\n| [CodeTF](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002Fcodetf)                                                 | One-stop Transformer Library for State-of-the-art Code LLM.                                                                                        |                                               |              |   Code   |\n| [CodeT5](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002Fcodet5)                                                 | Open Code LLMs for Code Understanding and Generation.                                                                                              |                                               |              |   Code   |\n| [Code World Model (CWM)](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fcwm)                              | Code World Model (CWM) is a 32-billion-parameter open-weights LLM, to advance research on code generation with world models.                       |                                               |              |   Code   |\n| [Cursor](https:\u002F\u002Fwww.cursor.so\u002F)                                                               | Write, edit, and chat about your code with GPT-4 in a new type of editor.                                                                          |                                               |              |   Code   |\n| [DeepSeek Coder](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-Coder)                                | DeepSeek Coder: Let the Code Write Itself.                                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.14196)    |              |   Code   |\n| [OpenAI Codex](https:\u002F\u002Fopenai.com\u002Fblog\u002Fopenai-codex)                                           | OpenAI Codex is a descendant of GPT-3.                                                                                                            |                                                |              |   Code   |\n| [PandasAI](https:\u002F\u002Fgithub.com\u002Fgventuri\u002Fpandas-ai)                                              | Pandas AI is a Python library that integrates generative artificial intelligence capabilities into Pandas, making dataframes conversational.        |                                     |              |   Code   |\n| [RobloxScripterAI](https:\u002F\u002Fwww.haddock.ai\u002Fsearch?platform=Roblox)                              | RobloxScripterAI is an AI-powered code generation tool for Roblox.                                                                                        |                                        |     Roblox    |   Code   |\n| [Scikit-LLM](https:\u002F\u002Fgithub.com\u002Firyna-kondr\u002Fscikit-llm)                                        | Seamlessly integrate powerful language models like ChatGPT into scikit-learn for enhanced text analysis tasks.                                         |                                           |              |   Code   |\n| [SoTaNa](https:\u002F\u002Fgithub.com\u002FDeepSoftwareAnalytics\u002FSoTaNa)                                      | The Open-Source Software Development Assistant.                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.13416)    |              |   Code   |\n| [Stable Code 3B](https:\u002F\u002Fbit.ly\u002F3O4oGWW)                                                       | Coding on the Edge.                                                                                                                                |                                               |              |   Code   |\n| [StarCoder](https:\u002F\u002Fgithub.com\u002Fbigcode-project\u002Fstarcoder)                                      | 💫 StarCoder is a language model (LM) trained on source code and natural language text.                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.06161)    |              |   Code   |\n| [StarCoder 2](https:\u002F\u002Fgithub.com\u002Fbigcode-project\u002Fstarcoder2)                                   | StarCoder2 is a family of code generation models (3B, 7B, and 15B), trained on 600+ programming languages from The Stack v2 and some natural language text such as Wikipedia, Arxiv, and GitHub issues.   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.19173)    |              |   Code   |\n| [UnityGen AI](https:\u002F\u002Fgithub.com\u002Fhimanshuskyrockets\u002FUnityGen-AI)                               | UnityGen AI is an AI-powered code generation plugin for Unity.                                                                                                 |                                   |     Unity     |   Code   |\n| [Void](https:\u002F\u002Fgithub.com\u002Fvoideditor\u002Fvoid)                                                     | Void is an open source Cursor alternative. Write code with the best AI tools, retain full control over your data, and access powerful AI features.             |                                               |              |   Code   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"image\">Image\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AnyDoor](https:\u002F\u002Fali-vilab.github.io\u002FAnyDoor-Page\u002F)                                           | Zero-shot Object-level Image Customization.                                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.09481)  |              |   Image   |\n| [AnyText](https:\u002F\u002Fgithub.com\u002Ftyxsspa\u002FAnyText)                                                  | Multilingual Visual Text Generation And Editing.                                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03054)  |              |   Image   |\n| [AutoStudio](https:\u002F\u002Fgithub.com\u002Fdonahowe\u002FAutoStudio)                                           | Crafting Consistent Subjects in Multi-turn Interactive Image Generation.                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01388)  |              |   Image   |\n| [BAGEL](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel)                                               | BAGEL - Unified Model for Multimodal Understanding and Generation. BAGEL is an open‑source multimodal foundation model with 7B active parameters (14B total) trained on large‑scale interleaved multimodal data.                                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14683)  |              |   Image   |\n| [Blender-ControlNet](https:\u002F\u002Fgithub.com\u002Fcoolzilj\u002FBlender-ControlNet)                           | Using ControlNet right in Blender.                                                                                              |                                          |    Blender    |   Image   |\n| [BriVL](https:\u002F\u002Fgithub.com\u002FBAAI-WuDao\u002FBriVL)                                                   | Bridging Vision and Language Model.                                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.06561)  |              |   Image   |\n| [CatVTON](https:\u002F\u002Fgithub.com\u002FZheng-Chong\u002FCatVTON)                                              | CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models.                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.15886)  |              |   Image   |\n| [CLIPasso](https:\u002F\u002Fgithub.com\u002Fyael-vinker\u002FCLIPasso)                                            | A method for converting an image of an object to a sketch, allowing for varying levels of abstraction.                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.05822)  |              |   Image   |\n| [ClipDrop](https:\u002F\u002Fclipdrop.co\u002F)                                                               | Create stunning visuals in seconds.                                                                                                                                                      |        |              |   Image   |\n| [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI)                                           | A powerful and modular stable diffusion GUI with a graph\u002Fnodes interface.                                                                                                               |         |              |   Image   |\n| [ConceptLab](https:\u002F\u002Fgithub.com\u002Fkfirgoldberg\u002FConceptLab)                                       | Creative Generation using Diffusion Prior Constraints.                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02669)  |              |   Image   |\n| [ControlNet](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FControlNet)                                         | ControlNet is a neural network structure to control diffusion models by adding extra conditions.                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.05543)  |              |   Image   |\n| [CSGO](https:\u002F\u002Fgithub.com\u002FinstantX-research\u002FCSGO)                                              | CSGO: Content-Style Composition in Text-to-Image Generation.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16766)  |              |   Image   |\n| [DALL·E 2](https:\u002F\u002Fopenai.com\u002Fproduct\u002Fdall-e-2)                                                | DALL·E 2 is an AI system that can create realistic images and art from a description in natural language.                                                                             |         |              |   Image   |\n| [Dashtoon Studio](https:\u002F\u002Fwww.dashtoon.ai\u002F)                                                    | Dashtoon Studio is an AI powered comic creation platform.                                                                                                                               |         |              |   Comic   |\n| [DeepAI](https:\u002F\u002Fdeepai.org\u002F)                                                                  | DeepAI offers a suite of tools that use AI to enhance your creativity.                                                                                                                   |        |              |   Image   |\n| [DeepFloyd IF](https:\u002F\u002Fgithub.com\u002Fdeep-floyd\u002FIF)                                               | IF by DeepFloyd Lab at StabilityAI.                                                                                                                                                    |          |              |   Image   |\n| [Depth Anything V2](https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2)                        | Depth Anything V2                                                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.09414)  |              |   Image   |\n| [Depth map library and poser](https:\u002F\u002Fgithub.com\u002Fjexom\u002Fsd-webui-depth-lib)                     | Depth map library for use with the Control Net extension for Automatic1111\u002Fstable-diffusion-webui.                                                                             |          |              |   Image   |\n| [Diffuse to Choose](https:\u002F\u002Fdiffuse2choose.github.io\u002F)                                         | Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All.                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13795)  |              |   Image   |\n| [Disco Diffusion](https:\u002F\u002Fgithub.com\u002Falembics\u002Fdisco-diffusion)                                 | A frankensteinian amalgamation of notebooks, models and techniques for the generation of AI Art and Animations.                                                                       |          |              |   Image   |\n| [DragGAN](https:\u002F\u002Fgithub.com\u002FXingangPan\u002FDragGAN)                                               | Interactive Point-based Manipulation on the Generative Image Manifold.                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973)  |              |   Image   |\n| [Draw Things](https:\u002F\u002Fdrawthings.ai\u002F)                                                          | AI- assisted image generation in Your Pocket.                                                                                                                                          |          |              |   Image   |\n| [DWPose](https:\u002F\u002Fgithub.com\u002Fidea-research\u002Fdwpose)                                              | Effective Whole-body Pose Estimation with Two-stages Distillation.                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.15880)  |              |   Image   |\n| [EasyPhoto](https:\u002F\u002Fgithub.com\u002Faigc-apps\u002Fsd-webui-EasyPhoto)                                   | Your Smart AI Photo Generator.                                                                                                                                                          |         |              |   Image   |\n| [Flux](https:\u002F\u002Fgithub.com\u002Fblack-forest-labs\u002Fflux)                                              | This repo contains minimal inference code to run text-to-image and image-to-image with our Flux latent rectified flow transformers.                                                  |         |              |   Image   |\n| [Follow-Your-Click](https:\u002F\u002Fgithub.com\u002Fmayuelala\u002FFollowYourClick)                              | Open-domain Regional Image Animation via Short Prompts.                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08268)  |              |   Image   |\n| [Fooocus](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FFooocus)                                               | Focus on prompting and generating.                                                                                                                                                   |            |              |   Image   |\n| [GIFfusion](https:\u002F\u002Fgithub.com\u002FDN6\u002Fgiffusion)                                                  | Create GIFs and Videos using Stable Diffusion.                                                                                                                                         |          |              |   Image   |\n| [Grounded-Segment-Anything](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything)        | Automatically Detect , Segment and Generate Anything with Image, Text, and Audio Inputs.                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.14159)  |              |   Image   |\n| [HivisionIDPhotos](https:\u002F\u002Fgithub.com\u002FZeyi-Lin\u002FHivisionIDPhotos)                               | HivisionIDPhotos: a lightweight and efficient AI ID photos tools.                                                                                                                    |            |              |   Image   |\n| [Hua](https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FHua)                                                          | Hua is an AI image editor with Stable Diffusion (and more).                                                                                                                          |            |              |   Image   |\n| [Hunyuan-DiT](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanDiT)                                           | A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding.                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.08748)  |              |   Image   |\n| [HunyuanImage-2.1](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanImage-2.1)                        | HunyuanImage-2.1: An Efficient Diffusion Model for High-Resolution (2K) Text-to-Image Generation​.                                                                                |            |              |   Image   |\n| [HunyuanImage-3.0](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanImage-3.0)                        | HunyuanImage-3.0: A Powerful Native Multimodal Model for Image Generation​.                                                                                                           |            |              |   Image   |\n| [IC-Light](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FIC-Light)                                             | IC-Light is a project to manipulate the illumination of images.                                                                                                                      |            |              |   Image   |\n| [Ideogram](https:\u002F\u002Fideogram.ai\u002Flogin)                                                          | Helping people become more creative.                                                                                                                                                  |           |              |   Image   |\n| [Imagen](https:\u002F\u002Fimagen.research.google\u002F)                                                      | Imagen is an AI system that creates photorealistic images from input text.                                                                                                           |            |              |   Image   |\n| [img2img-turbo](https:\u002F\u002Fgithub.com\u002FGaParmar\u002Fimg2img-turbo)                                     | One-Step Image-to-Image with SD-Turbo.                                                                                                                                               |            |              |   Image   |\n| [Img2Prompt](https:\u002F\u002Fwww.img2prompt.io\u002F)                                                       | Get prompts from stable diffusion generated images.                                                                                                                                  |            |              |   Image   |\n| [Infinity](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FInfinity)                                       | Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis.                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.04431)  |              |   Image   |\n| [InstantID](https:\u002F\u002Fgithub.com\u002FInstantID\u002FInstantID)                                            | Zero-shot Identity-Preserving Generation in Seconds.                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.07519)  |              |   Image   |\n| [InternLM-XComposer2](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer)                          | InternLM-XComposer2 is a groundbreaking vision-language large model (VLLM) excelling in free-form text-image composition and comprehension.    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.16420)  |              |   Image   |\n| [IRG](https:\u002F\u002Fgithub.com\u002FOsilly\u002FInterleaving-Reasoning-Generation)                             | IRG - Interleaving Reasoning for Better Text-to-Image Generation.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.06945)  |              |   Image   |\n| [KOALA](https:\u002F\u002Fyoungwanlee.github.io\u002FKOALA\u002F)                                                  | Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis.                                                       |                |              |   Image   |\n| [Kolors](https:\u002F\u002Fgithub.com\u002FKwai-Kolors\u002FKolors)                                                | Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.                                                                                              |             |              |   Image   |\n| [Komiko](https:\u002F\u002Fkomiko.app\u002F)                                                    | Komiko is an AI-powered storytelling platform that lets you create original characters, comics, and animations with ease.                                                                                                              |         |              |   Comic   |\n| [KREA](https:\u002F\u002Fwww.krea.ai\u002F)                                                                   | Generate images and videos with a delightful AI-powered design tool.                                                                                                                |             |              |   Image   |\n| [LaVi-Bridge](https:\u002F\u002Fgithub.com\u002FShihaoZhaoZSH\u002FLaVi-Bridge)                                    | Bridging Different Language Models and Generative Vision Models for Text-to-Image Generation.                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07860)  |              |   Image   |\n| [LayerDiffusion](https:\u002F\u002Fgithub.com\u002Flayerdiffusion\u002FLayerDiffusion)                             | Transparent Image Layer Diffusion using Latent Transparency.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18676)  |              |   Image   |\n| [Lexica](https:\u002F\u002Flexica.art\u002F)                                                                  | A Stable Diffusion prompts search engine.                                                                                                                                           |             |              |   Image   |\n| [LlamaGen](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FLlamaGen)                                       | Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation.                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06525)  |              |   Image   |\n| [Lumina-Image 2.0](https:\u002F\u002Fgithub.com\u002FAlpha-VLLM\u002FLumina-Image-2.0)                             | Lumina-Image 2.0 : A Unified and Efficient Image Generative Model.                                                                                                                  |             |              |   Image   |\n| [Lumina-mGPT](https:\u002F\u002Fgithub.com\u002FAlpha-VLLM\u002FLumina-mGPT)                                       | Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining.               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.02657)  |              |   Image   |\n| [MakeAnything](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FMakeAnything)                                        | MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation.                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.01572)  |              |   Image   |\n| [MetaShoot](https:\u002F\u002Fmetashoot.vinzi.xyz\u002F)                                                      | MetaShoot is a digital twin of a photo studio, developed as a plugin for Unreal Engine that gives any creator the ability to produce highly realistic renders in the easiest and quickest way. |  | Unreal Engine |   Image   |\n| [Midjourney](https:\u002F\u002Fwww.midjourney.com\u002F)                                                      | Midjourney is an independent research lab exploring new mediums of thought and expanding the imaginative powers of the human species.                                               |            |              |   Image   |\n| [MIGC](https:\u002F\u002Fgithub.com\u002Flimuloo\u002FMIGC)                                                        | MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05408)  |              |   Image   |\n| [MimicBrush](https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FMimicBrush)                                          | Zero-shot Image Editing with Reference Imitation.                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07547)  |              |   Image   |\n| [NextStep-1](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FNextStep-1)                                         | NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale.                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.10711)  |              |   Image   |\n| [OmniGen](https:\u002F\u002Fgithub.com\u002FVectorSpaceLab\u002FOmniGen)                                           | OmniGen: Unified Image Generation.                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.11340)  |              |   Image   |\n| [OmniGen2](https:\u002F\u002Fgithub.com\u002FVectorSpaceLab\u002FOmniGen2)                                         | OmniGen2: Exploration to Advanced Multimodal Generation.                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.18871)  |              |   Image   |\n| [Oniichan](https:\u002F\u002Foniichan.app\u002Fai-sprite-generator)                                                                | AI sprite generator and game character creator. Generate game-ready character sprites and original characters from text prompts using a custom finetuned model, with editing, inpainting, and a reusable character library.  |            |              |   Comic   |\n| [Omost](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FOmost)                                | Omost is a project to convert LLM's coding capability to image generation (or more accurately, image composing) capability.                                                                     |            |              |   Image   |\n| [Openpose Editor](https:\u002F\u002Fgithub.com\u002Ffkunn1326\u002Fopenpose-editor)                                | Openpose Editor for AUTOMATIC1111's stable-diffusion-webui.                                                                                                                          |            |              |   Image   |\n| [Outfit Anyone](https:\u002F\u002Fhumanaigc.github.io\u002Foutfit-anyone\u002F)                                    | Ultra-high quality virtual try-on for Any Clothing and Any Person.                                                                                                                     |          |              |   Image   |\n| [PaintsUndo](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FPaints-UNDO)                                        | PaintsUndo: A Base Model of Drawing Behaviors in Digital Paintings.                                                                                                                    |          |              |   Image   |\n| [PhotoMaker](https:\u002F\u002Fphoto-maker.github.io\u002F)                                                   | Customizing Realistic Human Photos via Stacked ID Embedding.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.04461)  |              |   Image   |\n| [Photoroom](https:\u002F\u002Fwww.photoroom.com\u002Fbackgrounds)                                             | AI Background Generator.                                                                                                                                                              |           |              |   Image   |\n| [Plask](https:\u002F\u002Fplask.ai\u002F)                                                                     | AI image generation in the cloud.                                                                                                                                                      |          |              |   Image   |\n| [PosterCraft](https:\u002F\u002Fgithub.com\u002FEphemeral182\u002FPosterCraft)                                     | PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework.                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.10741)  |              |   Image   |\n| [Prompt.Art](https:\u002F\u002Fprompt.art\u002F)                                                              | The Generators Hub.                                                                                                                                                                     |         |              |   Image   |\n| [PromptEnhancer](https:\u002F\u002Fgithub.com\u002FHunyuan-PromptEnhancer\u002FPromptEnhancer)                     | PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting.                     |[arXiv](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2509.04545)  |              |   Image   |\n| [PuLID](https:\u002F\u002Fgithub.com\u002FToTheBeginning\u002FPuLID)                                               | Pure and Lightning ID Customization via Contrastive Alignment.                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16022)  |              |   Image   |\n| [Qwen-Image](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Image)                                             | Qwen-Image is a powerful image generation foundation model capable of complex text rendering and precise image editing.  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.02324)  |              |   Image   |\n| [Qwen-Image-Edit](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Image)                                        | Built upon our 20B Qwen-Image model, Qwen-Image-Edit successfully extends Qwen-Image’s unique text rendering capabilities to image editing tasks, enabling precise text editing.  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.02324)  |              |   Image   |\n| [Rich-Text-to-Image](https:\u002F\u002Fgithub.com\u002FSongweiGe\u002Frich-text-to-image)                          | Expressive Text-to-Image Generation with Rich Text.                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.06720)  |              |   Image   |\n| [RPG-DiffusionMaster](https:\u002F\u002Fgithub.com\u002FYangLing0818\u002FRPG-DiffusionMaster)                     | Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (PRG).                                                                                  |          |              |   Image   |\n| [SEED-Story](https:\u002F\u002Fgithub.com\u002FTencentARC\u002FSEED-Story)                                         | SEED-Story: Multimodal Long Story Generation with Large Language Model.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08683)  |              |   Image   |\n| [Segment Anything](https:\u002F\u002Fsegment-anything.com\u002F)                                              | Segment Anything Model (SAM): a new AI model from Meta AI that can \"cut out\" any object , in any image , with a single click.   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.02643)  |              |   Image   |\n| [Segment Anything Model 2 (SAM 2)](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything-2)     | SAM 2: Segment Anything in Images and Videos.                                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00714)  |              |   Image   |\n| [sd-webui-controlnet](https:\u002F\u002Fgithub.com\u002FMikubill\u002Fsd-webui-controlnet)                         | WebUI extension for ControlNet.                                                                                                                                                        |          |              |   Image   |\n| [SDXL-Lightning](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FSDXL-Lightning)                              | Progressive Adversarial Diffusion Distillation.                                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.13929)  |              |   Image   |\n| [SDXS](https:\u002F\u002Fgithub.com\u002FIDKiro\u002Fsdxs)                                                         | Real-Time One-Step Latent Diffusion Models with Image Conditions.                                                                                                                     |           |              |   Image   |\n| [SkyworkUniPic](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FUniPic)                                           | SkyworkUniPic - Unified Autoregressive Modeling for Visual Understanding and Generation.                                                                                              |           |              |   Image   |\n| [Stable.art](https:\u002F\u002Fgithub.com\u002Fisekaidev\u002Fstable.art)                                          | Photoshop plugin for Stable Diffusion with Automatic1111 as backend (locally or with Google Colab).                                                                               |          |              |   Image   |\n| [Stable Cascade](https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableCascade)                                | Stable Cascade consists of three models: Stage A, Stage B and Stage C, representing a cascade for generating images, hence the name \"Stable Cascade\".                              |          |              |   Image   |\n| [Stable Diffusion](https:\u002F\u002Fgithub.com\u002FCompVis\u002Fstable-diffusion)                                | A latent text-to-image diffusion model.                                                                                                                                                |          |              |   Image   |\n| [stable-diffusion.cpp](https:\u002F\u002Fgithub.com\u002Fleejet\u002Fstable-diffusion.cpp)                         | Stable Diffusion in pure C\u002FC++.                                                                                                                                                         |         |              |   Image   |\n| [Stable Diffusion web UI](https:\u002F\u002Fgithub.com\u002FAUTOMATIC1111\u002Fstable-diffusion-webui)             | A browser interface based on Gradio library for Stable Diffusion.                                                                                                                       |         |              |   Image   |\n| [Stable Diffusion web UI](https:\u002F\u002Fgithub.com\u002FSygil-Dev\u002Fsygil-webui)                            | Web-based UI for Stable Diffusion.                                                                                                                                                      |         |              |   Image   |\n| [Stable Diffusion WebUI Chinese](https:\u002F\u002Fgithub.com\u002FVinsonLaro\u002Fstable-diffusion-webui-chinese) | Chinese version of stable-diffusion-webui.                                                                                                                                             |          |              |   Image   |\n| [Stable Diffusion XL](https:\u002F\u002Fclipdrop.co\u002Fstable-diffusion)                                    | Generate images from text.                                                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.01952)  |              |   Image   |\n| [Stable Diffusion XL Turbo](https:\u002F\u002Fclipdrop.co\u002Fstable-diffusion-turbo)                        | Real-Time Text-to-Image Generation.                                                                                                                                                     |         |              |   Image   |\n| [Stable Diffusion 3.5](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Fsd3.5)                                  | Stable Diffusion 3.5 open release includes multiple model variants, including Stable Diffusion 3.5 Large and Stable Diffusion 3.5 Large Turbo.                                     |         |              |   Image   |\n| [Stable Doodle](https:\u002F\u002Fclipdrop.co\u002Fstable-doodle)                                             | Stable Doodle is a sketch-to-image tool that converts a simple drawing into a dynamic image.                                                                                        |         |              |   Image   |\n| [StableStudio](https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableStudio)                                   | StableStudio by Stability AI                                                                                                                                                         |            |              |   Image   |\n| [StoryMaker](https:\u002F\u002Fgithub.com\u002FRedAIGC\u002FStoryMaker)                                            | StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation.                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12576)  |              |   Image   |\n| [StreamDiffusion](https:\u002F\u002Fgithub.com\u002Fcumulo-autumn\u002FStreamDiffusion)                            | A Pipeline-Level Solution for Real-Time Interactive Generation.                                                                                                                        |          |              |   Image   |\n| [StyleDrop](https:\u002F\u002Fstyledrop.github.io\u002F)                                                      | Text-To-Image Generation in Any Style.                                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00983)  |              |   Image   |\n| [SyncDreamer](https:\u002F\u002Fgithub.com\u002Fliuyuan-pal\u002FSyncDreamer)                                      | Generating Multiview-consistent Images from a Single-view Image.                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03453)  |              |   Image   |\n| [UltraEdit](https:\u002F\u002Fgithub.com\u002FHaozheZhao\u002FUltraEdit)                                           | UltraEdit: Instruction-based Fine-Grained Image Editing at Scale.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.05282)  |              |   Image   |\n| [UltraPixel](https:\u002F\u002Fgithub.com\u002Fcatcathh\u002FUltraPixel)                                           | UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.02158)  |              |   Image   |\n| [Unity ML Stable Diffusion](https:\u002F\u002Fgithub.com\u002Fkeijiro\u002FUnityMLStableDiffusion)                 | Core ML Stable Diffusion on Unity.                                                                                                                                                    |           |     Unity     |   Image   |\n| [USO](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FUSO)                                                        | USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning.                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.18966)  |              |   Image   |\n| [Vispunk Visions](https:\u002F\u002Fvispunk.com\u002Fimage)                                                   | Text-to-Image generation platform.                                                                                                                                                    |           |              |   Image   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"texture\">Texture\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [CRM](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FCRM)                                                           | Single Image to 3D Textured Mesh with Convolutional Reconstruction Model.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.05034)  |              |  Texture  |\n| [DreamMat](https:\u002F\u002Fgithub.com\u002Fzzzyuqing\u002FDreamMat)                                              | High-quality PBR Material Generation with Geometry- and Light-aware Diffusion Models.                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17176)  |              |  Texture  |\n| [DreamSpace](https:\u002F\u002Fgithub.com\u002Fybbbbt\u002Fdreamspace)                                             | Dreaming Your Room Space with Text-Driven Panoramic Texture Propagation.                                                                                    |                                         |              |  Texture  |\n| [Dream Textures](https:\u002F\u002Fgithub.com\u002Fcarson-katri\u002Fdream-textures)                               | Stable Diffusion built-in to Blender. Create textures, concept art, background assets, and more with a simple text prompt.                             |                                           |    Blender    |  Texture  |\n| [InstructHumans](https:\u002F\u002Fgithub.com\u002Fviridityzhu\u002FInstructHumans)                                | Editing Animated 3D Human Textures with Instructions.                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.04037)  |              |  Texture  |\n| [InteX](https:\u002F\u002Fgithub.com\u002Fashawkey\u002FInTeX)                                                     | Interactive Text-to-Texture Synthesis via Unified Depth-aware Inpainting.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.11878)  |              |  Texture  |\n| [LLaMA-Mesh](https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002FLLaMA-Mesh)                                           | LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models.                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.09595)  |              |  Mesh  |\n| [MaterialSeg3D](https:\u002F\u002Fgithub.com\u002FPROPHETE-pro\u002FMaterialSeg3D_)                                | MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13923)  |              |  Texture  |\n| [MeshAnything](https:\u002F\u002Fgithub.com\u002Fbuaacyw\u002FMeshAnything)                                        | MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.10163)  |              |  Mesh  |\n| [Neuralangelo](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fneuralangelo)                                         | High-Fidelity Neural Surface Reconstruction.                                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03092)  |              |  Texture  |\n| [Paint-it](https:\u002F\u002Fgithub.com\u002Fpostech-ami\u002Fpaint-it)                                            | Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering.                                             |                                              |              |  Texture  |\n| [Polycam](https:\u002F\u002Fpoly.cam\u002Fmaterial-generator)                                                 | Create your own 3D textures just by typing.                                                                                                             |                                             |              |  Texture  |\n| [TexFusion](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002Ftexfusion\u002F)                            | Synthesizing 3D Textures with Text-Guided Image Diffusion Models.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.13772)  |              |  Texture  |\n| [Text2Tex](https:\u002F\u002Fdaveredrum.github.io\u002FText2Tex\u002F)                                             | Text-driven texture Synthesis via Diffusion Models.                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11396)  |              |  Texture  |\n| [Texture Lab](https:\u002F\u002Fwww.texturelab.xyz\u002F)                                                     | AI-generated texures. You can generate your own with a text prompt.                                                                                     |                                             |              |  Texture  |\n| [With Poly](https:\u002F\u002Fwithpoly.com\u002Fbrowse\u002Ftextures)                                              | Create Textures With Poly. Generate 3D materials with AI in a free online editor, or search our growing community library.                          |                                            |              |  Texture  |\n| [X-Mesh](https:\u002F\u002Fgithub.com\u002Fxmu-xiaoma666\u002FX-Mesh)                                              | X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance.                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.15764)  |              |  Texture  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"shader\">Shader\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AI Shader](https:\u002F\u002Fgithub.com\u002Fkeijiro\u002FAIShader)                                               | ChatGPT-powered shader generator for Unity.                                                                                        |                                       |     Unity     |  Shader  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"model\">3D Model\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [Animate3D](https:\u002F\u002Fgithub.com\u002FyanqinJiang\u002FAnimate3D)                                          | Animate3D: Animating Any 3D Model with Multi-view Video Diffusion.                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.11398)  |              |   3D   |\n| [Anything-3D](https:\u002F\u002Fgithub.com\u002FAnything-of-anything\u002FAnything-3D)                             | Segment-Anything + 3D. Let's lift the anything to 3D.                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.10261)  |              |   Model   |\n| [Any2Point](https:\u002F\u002Fgithub.com\u002FIvan-Tang-3D\u002FAny2Point)                                         | Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding.                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07989)  |              |   3D   |\n| [BlenderGPT](https:\u002F\u002Fgithub.com\u002Fgd3kr\u002FBlenderGPT)                                              | Use commands in English to control Blender with OpenAI's GPT-4.                                                                                         |                                          |    Blender    |   Model   |\n| [Blender-GPT](https:\u002F\u002Fgithub.com\u002FTREE-Ind\u002FBlender-GPT)                                         | An all-in-one Blender assistant powered by GPT3\u002F4 + Whisper integration.                                                                              |                                            |    Blender    |   Model   |\n| [BlenderMCP](https:\u002F\u002Fgithub.com\u002Fahujasid\u002Fblender-mcp)                                          | BlenderMCP connects Blender to Claude AI through the Model Context Protocol (MCP), allowing Claude to directly interact with and control Blender. This integration enables prompt assisted 3D modeling, scene creation, and manipulation.                                                                                                   |                                            |    Blender    |   Model   |\n| [Blockade Labs](https:\u002F\u002Fwww.blockadelabs.com\u002F)                                                 | Digital alchemy is real with Skybox Lab - the ultimate AI-powered solution for generating incredible 360° skybox experiences from text prompts.         |                                          |              |   Model   |\n| [CF-3DGS](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FCF-3DGS)                                                   | COLMAP-Free 3D Gaussian Splatting.                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07504)  |              |   3D   |\n| [CharacterGen](https:\u002F\u002Fgithub.com\u002Fzjp-shadow\u002FCharacterGen)                                     | CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization.                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17214)  |              |   3D   |\n| [chatGPT-maya](https:\u002F\u002Fgithub.com\u002FLouisRossouw\u002FchatGPT-maya)                                   | Simple Maya tool that utilizes open AI to perform basic tasks based on descriptive instructions.                                                |                                           |     Maya     |   Model   |\n| [CityDreamer](https:\u002F\u002Fgithub.com\u002Fhzxie\u002Fcity-dreamer)                                           | Compositional Generative Model of Unbounded 3D Cities.                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.00610)  |              |   3D   |\n| [CSM](https:\u002F\u002Fwww.csm.ai\u002F)                                                                     | Generate 3D worlds from images and videos.                                                                                                             |                                           |              |   3D   |\n| [Dash](https:\u002F\u002Fwww.polygonflow.io\u002F)                                                            | Your Copilot for World Building in Unreal Engine.                                                                                                     |                                            | Unreal Engine |   3D   |\n| [Direct3D-S2](https:\u002F\u002Fgithub.com\u002FDreamTechAI\u002FDirect3D-S2)                                      | Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.17412)  |              |   3D   |\n| [DreamCatalyst](https:\u002F\u002Fgithub.com\u002Fkaist-cvml-lab\u002FDreamCatalyst)                               | DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation.                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.11394)  |              |   3D   |\n| [DreamGaussian4D](https:\u002F\u002Fgithub.com\u002Fjiawei-ren\u002Fdreamgaussian4d)                               | Generative 4D Gaussian Splatting.                                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.17142)  |              |   4D   |\n| [DUSt3R](https:\u002F\u002Fgithub.com\u002Fnaver\u002Fdust3r)                                                      | Geometric 3D Vision Made Easy.                                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14132)  |              |   3D   |\n| [Edify 3D](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fdir\u002Fedify-3d\u002F)                                     | Edify 3D: Scalable High-Quality 3D Asset Generation.                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07135)  |              |   3D   |\n| [GALA3D](https:\u002F\u002Fgithub.com\u002FVDIGPKU\u002FGALA3D)                                                    | GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting.                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.07207)  |              |   3D   |\n| [GaussCtrl](https:\u002F\u002Fgithub.com\u002FActiveVisionLab\u002Fgaussctrl)                                      | GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing.                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08733)  |              |   3D   |\n| [GaussianCube](https:\u002F\u002Fgithub.com\u002FGaussianCube\u002FGaussianCube)                                   | A Structured and Explicit Radiance Representation for 3D Generative Modeling.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.19655)  |              |   3D   |\n| [GaussianDreamer](https:\u002F\u002Fgithub.com\u002Fhustvl\u002FGaussianDreamer)                                   | Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors.                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08529)  |              |   3D   |\n| [GenieLabs](https:\u002F\u002Fwww.genielabs.tech\u002F)                                                       | Empower your game with AI-UGC.                                                                                                                         |                                           |              |   3D   |\n| [HiFA](https:\u002F\u002Fhifa-team.github.io\u002FHiFA-site\u002F)                                                 | High-fidelity Text-to-3D with advance Diffusion guidance.                                                                                              |                                           |              |   Model   |\n| [HoloDreamer](https:\u002F\u002Fgithub.com\u002FzhouhyOcean\u002FHoloDreamer)                                      | HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions.                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.15187)  |              |   3D   |\n| [Hunyuan3D-1.0](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuan3D-1)                                        | Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02293)  |              |   3D   |\n| [Hunyuan3D 2.0](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuan3D-2)                                        | Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation.                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12202)  |              |   3D   |\n| [Hunyuan3D 2.1](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuan3D-2.1)                              | Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material.                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.15442)  |              |   3D   |\n| [Infinigen](https:\u002F\u002Fgithub.com\u002Fprinceton-vl\u002Finfinigen)                                         | Infinite Photorealistic Worlds using Procedural Generation.                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09310)  |              |   3D   |\n| [Instruct-NeRF2NeRF](https:\u002F\u002Finstruct-nerf2nerf.github.io\u002F)                                    | Editing 3D Scenes with Instructions.                                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12789)  |              |   Model   |\n| [Interactive3D](https:\u002F\u002Fgithub.com\u002Finteractive-3d\u002Finteractive3d)                               | Create What You Want by Interactive 3D Generation.                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16510)  |              |   3D   |\n| [Isotropic3D](https:\u002F\u002Fgithub.com\u002Fpkunliu\u002FIsotropic3D)                                          | Image-to-3D Generation Based on a Single CLIP Embedding.                                                                                              |                                            |              |   3D   |\n| [LATTE3D](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002FLATTE3D\u002F)                                | Large-scale Amortized Text-To-Enhanced3D Synthesis.                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.15385)  |              |   3D   |\n| [LION](https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002FLION)                                                       | Latent Point Diffusion Models for 3D Shape Generation.                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06978)  |              |   Model   |\n| [Luma AI](https:\u002F\u002Flumalabs.ai\u002F)                                                                | Capture in lifelike 3D. Unmatched photorealism, reflections, and details. The future of VFX is now, for everyone!                                    |                                           |              |   Model   |\n| [lumine AI](https:\u002F\u002Filumine.ai\u002F)                                                               | AI-Powered Creativity.                                                                                                                                |                                            |              |   3D   |\n| [Make-It-3D](https:\u002F\u002Fgithub.com\u002Fjunshutang\u002FMake-It-3D)                                         | High-Fidelity 3D Creation from A Single Image with Diffusion Prior.                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.14184)  |              |   Model   |\n| [Meshy](https:\u002F\u002Fwww.meshy.ai\u002F)                                                                 | Create Stunning 3D Game Assets with AI.                                                                                                                |                                           |              |   3D   |\n| [Mootion](https:\u002F\u002Fmootion.com\u002Flanding)                                                         | Magical 3D AI Animation Maker.                                                                                                                         |                                           |              |   3D   |\n| [MVDream](https:\u002F\u002Fgithub.com\u002FMV-Dream\u002FMVDream)                                                 | Multi-view Diffusion for 3D Generation.                                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.16512)  |              |   3D   |\n| [NVIDIA Instant NeRF](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Finstant-ngp)                                   | Instant neural graphics primitives: lightning fast NeRF and more.                                                                                      |                                           |              |   Model   |\n| [One-2-3-45](https:\u002F\u002Fone-2-3-45.github.io\u002F)                                                    | Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.16928)  |              |   Model   |\n| [Paint3D](https:\u002F\u002Fgithub.com\u002FOpenTexture\u002FPaint3D)                                              | Paint Anything 3D with Lighting-Less Texture Diffusion Models.                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.13913)  |              |   3D   |\n| [PAniC-3D](https:\u002F\u002Fgithub.com\u002Fshuhongchen\u002Fpanic3d-anime-reconstruction)                        | Stylized Single-view 3D Reconstruction from Portraits of Anime Characters.                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.14587)  |              |   Model   |\n| [PhysRig](https:\u002F\u002Fgithub.com\u002Fhaoz19\u002FPhysRig)                                                   | PhysRig: Differentiable Physics-Based Rigging for Realistic Articulated Object Modeling.                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.20936)  |              |   Model   |\n| [Point·E](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fpoint-e)                                                  | Point cloud diffusion for 3D model synthesis.                                                                                                           |                                           |              |   Model   |\n| [ProlificDreamer](https:\u002F\u002Fml.cs.tsinghua.edu.cn\u002Fprolificdreamer\u002F)                              | High-Fidelity and diverse Text-to-3D generation with Variational score Distillation.                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16213)  |              |   Model   |\n| [Seele AI](https:\u002F\u002Fseeles.ai\u002F)                                                                 | Input text to Generate playable 3D Games.                                                                                                                |                                           |              |   3D   |\n| [SF3D](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Fstable-fast-3d)                                         | SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement.                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00653)  |              |   3D   |\n| [Shap-E](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fshap-e)                                                    | Generate 3D objects conditioned on text or images.                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02463)  |              |   Model   |\n| [Sloyd](https:\u002F\u002Fwww.sloyd.ai\u002F)                                                                 | 3D modelling has never been easier.                                                                                                                   |                                            |              |   Model   |\n| [Spline AI](https:\u002F\u002Fspline.design\u002Fai)                                                          | The power of AI is coming to the 3rd dimension. Generate objects, animations, and textures using prompts.                                      |                                           |              |   Model   |\n| [Stable Dreamfusion](https:\u002F\u002Fgithub.com\u002Fashawkey\u002Fstable-dreamfusion)                           | A pytorch implementation of the text-to-3D model Dreamfusion, powered by the Stable Diffusion text-to-2D model.                                   |                                          |              |   Model   |\n| [Step1X-3D](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep1X-3D)                                           | Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets.                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.07747)  |              |   3D   |\n| [SV3D](https:\u002F\u002Fsv3d.github.io\u002F)                                                                | Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion.                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.12008)  |              |   3D   |\n| [Tafi](https:\u002F\u002Fmaketafi.com\u002Fai)                                                                | AI text to 3D character engine.                                                                                                                         |                                          |              |   Model   |\n| [3D-GPT](https:\u002F\u002Fchuny1.github.io\u002F3DGPT\u002F3dgpt.html)                                            | Procedural 3D Modeling with Large Language Models.                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.12945)  |              |   3D   |\n| [3D-LLM](https:\u002F\u002Fgithub.com\u002FUMass-Foundation-Model\u002F3D-LLM)                                     | Injecting the 3D World into Large Language Models.                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.12981)  |              |   3D   |\n| [3Dpresso](https:\u002F\u002F3dpresso.ai\u002F)                                                               | Extract a 3D model of an object, captured on a video.                                                                                                   |                                          |              |   Model   |\n| [3DTopia](https:\u002F\u002Fgithub.com\u002F3DTopia\u002F3DTopia)                                                  | Text-to-3D Generation within 5 Minutes.                                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.02234)  |              |   3D   |\n| [3DTopia-XL](https:\u002F\u002Fgithub.com\u002F3DTopia\u002F3DTopia-XL)                                                  | 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion.                                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12957)  |              |   3D   |\n| [threestudio](https:\u002F\u002Fgithub.com\u002Fthreestudio-project\u002Fthreestudio)                              | A unified framework for 3D content generation.                                                                                                           |                                         |              |   Model   |\n| [TripoSR](https:\u002F\u002Fgithub.com\u002FVAST-AI-Research\u002FTripoSR)                                         | A state-of-the-art open-source model for fast feedforward 3D reconstruction from a single image.                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.02151)  |              |   Model   |\n| [Unique3D](https:\u002F\u002Fgithub.com\u002FAiuniAI\u002FUnique3D)                                                | High-Quality and Efficient 3D Mesh Generation from a Single Image.                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.20343)  |              |   3D   |\n| [UnityGaussianSplatting](https:\u002F\u002Fgithub.com\u002Faras-p\u002FUnityGaussianSplatting)                     | Toy Gaussian Splatting visualization in Unity.                                                                                                          |                                          |     Unity     |   3D   |\n| [ViVid-1-to-3](https:\u002F\u002Fgithub.com\u002Fubc-vision\u002Fvivid123)                                         | Novel View Synthesis with Video Diffusion Models.                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.01305)  |              |   3D   |\n| [Voxcraft](https:\u002F\u002Fvoxcraft.ai\u002F)                                                               | Crafting Ready-to-Use 3D Models with AI.                                                                                                               |                                           |              |   3D   |\n| [Wonder3D](https:\u002F\u002Fgithub.com\u002Fxxlong0\u002FWonder3D)                                                | Single Image to 3D using Cross-Domain Diffusion.                                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.15008)  |              |   3D   |\n| [Zero-1-to-3](https:\u002F\u002Fgithub.com\u002Fcvlab-columbia\u002Fzero123)                                       | Zero-shot One Image to 3D Object.                                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11328)  |              |   Model   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"avatar\">Avatar\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AniPortrait](https:\u002F\u002Fgithub.com\u002FZejun-Yang\u002FAniPortrait)                                       | Audio-Driven Synthesis of Photorealistic Portrait Animations.                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.17694)  |              |  Avatar  |\n| [CALM](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FCALM)                                                         | Conditional Adversarial Latent Models for Directable Virtual Characters.                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02195)  |              |  Avatar  |\n| [ChatAvatar](https:\u002F\u002Fhyperhuman.deemos.com\u002Fchatavatar)                                         | Progressive generation Of Animatable 3D Faces Under Text guidance.                                                              |     |              |  Avatar  |\n| [ChatdollKit](https:\u002F\u002Fgithub.com\u002Fuezo\u002FChatdollKit)                                             | ChatdollKit enables you to make your 3D model into a chatbot.                                                                                                |                                      |     Unity     |  Avatar  |\n| [Ditto](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fditto-talkinghead)                                         | Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis.                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.19509)  |              |  Avatar  |\n| [DreamTalk](https:\u002F\u002Fgithub.com\u002Fali-vilab\u002Fdreamtalk)                                            | When Expressive Talking Head Generation Meets Diffusion Probabilistic Models.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09767)  |              |  Avatar  |\n| [Duix](https:\u002F\u002Fgithub.com\u002FGuijiAI\u002Fduix.ai)                                                     | Duix - Silicon-Based Digital Human SDK 🌐🤖                                                                                                                     |                                  |              |  Avatar  |\n| [EchoMimic](https:\u002F\u002Fgithub.com\u002FBadToBest\u002FEchoMimic)                                            | EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions.                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08136)  |              |  Avatar  |\n| [EMOPortraits](https:\u002F\u002Fgithub.com\u002Fneeek2303\u002FEMOPortraits)                                      | Emotion-enhanced Multimodal One-shot Head Avatars.                                                                                                            |                                     |              |  Avatar  |\n| [EmoVOCA](https:\u002F\u002Fgithub.com\u002Fmiccunifi\u002FEmoVOCA)                                                | EmoVOCA: Speech-Driven Emotional 3D Talking Heads.                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.12886)  |              |  Avatar  |\n| [E3 Gen](https:\u002F\u002Fgithub.com\u002Folivia23333\u002FE3Gen)                                                 | Efficient, Expressive and Editable Avatars Generation.                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.19203)  |              |  Avatar  |\n| [ExAvatar](https:\u002F\u002Fgithub.com\u002Fmks0601\u002FExAvatar_RELEASE)                                        | ExAvatar - Expressive Whole-Body 3D Gaussian Avatar.                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.21686)  |              |  Avatar  |\n| [GeneAvatar](https:\u002F\u002Fgithub.com\u002Fzju3dv\u002FGeneAvatar)                                             | Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image.                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02152)  |              |  Avatar  |\n| [GeneFace++](https:\u002F\u002Fgithub.com\u002Fyerfor\u002FGeneFacePlusPlus)                                       | Generalized and Stable Real-Time 3D Talking Face Generation.                                                                                                     |                                  |              |  Avatar  |\n| [Hallo](https:\u002F\u002Fgithub.com\u002Ffudan-generative-vision\u002Fhallo)                                      | Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation.                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.08801)  |              |  Avatar  |\n| [Hallo2](https:\u002F\u002Fgithub.com\u002Ffudan-generative-vision\u002Fhallo2)                                    | Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation.                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.07718)  |              |  Avatar  |\n| [HeadSculpt](https:\u002F\u002Fbrandonhan.uk\u002FHeadSculpt\u002F)                                                | Crafting 3D Head Avatars with Text.                                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03038)  |              |  Avatar  |\n| [HunyuanPortrait](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanPortrait)                          | HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation.                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.18860)  |              |  Avatar  |\n| [HunyuanVideo-Avatar](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanVideo-Avatar)                  | HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters.                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.20156)  |              |  Avatar  |\n| [IntrinsicAvatar](https:\u002F\u002Fgithub.com\u002Ftaconite\u002FIntrinsicAvatar)                                 | IntrinsicAvatar: Physically Based Inverse Rendering of Dynamic Humans from Monocular Videos via Explicit Ray Tracing.      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.05210)  |              |  Avatar  |\n| [Linly-Talker](https:\u002F\u002Fgithub.com\u002FKedreamix\u002FLinly-Talker)                                      | Digital Avatar Conversational System.                                                                                                                          |                                    |              |  Avatar  |\n| [LivePortrait](https:\u002F\u002Fgithub.com\u002FKwaiVGI\u002FLivePortrait)                                        | LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control.                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.03168)  |              |  Avatar  |\n| [MotionGPT](https:\u002F\u002Fgithub.com\u002FOpenMotionLab\u002FMotionGPT)                                        | Human Motion as a Foreign Language, a unified motion-language generation model using LLMs.                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.14795)  |              |  Avatar  |\n| [MusePose](https:\u002F\u002Fgithub.com\u002FTMElyralab\u002FMusePose)                                             | MusePose: a Pose-Driven Image-to-Video Framework for Virtual Human Generation.                                                                                        |                                    |              |  Avatar  |\n| [MuseTalk](https:\u002F\u002Fgithub.com\u002FTMElyralab\u002FMuseTalk)                                             | Real-Time High Quality Lip Synchorization with Latent Space Inpainting.                                                                                        |                                    |              |  Avatar  |\n| [MuseV](https:\u002F\u002Fgithub.com\u002FTMElyralab\u002FMuseV)                                           | Infinite-length and High Fidelity Virtual Human Video Generation with Visual Conditioned Parallel Denoising.                                                        |                                    |              |  Avatar  |\n| [Portrait4D](https:\u002F\u002Fgithub.com\u002FYuDeng\u002FPortrait-4D)                                            | Learning One-Shot 4D Head Avatar Synthesis using Synthetic Data.                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18729)  |              |  Avatar  |\n| [Ready Player Me](https:\u002F\u002Freadyplayer.me\u002F)                                                     | Integrate customizable avatars into your game or app in days.                                                                                                  |                                    |              |  Avatar  |\n| [RodinHD](https:\u002F\u002Frodinhd.github.io\u002F)                                                          | RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models.                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.06938)  |              |  Avatar  |\n| [StableAvatar](https:\u002F\u002Fgithub.com\u002FFrancis-Rings\u002FStableAvatar)                                  | StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation.                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.08248)  |              |  Avatar  |\n| [StyleAvatar3D](https:\u002F\u002Fgithub.com\u002Ficoz69\u002FStyleAvatar3D)                                       | Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation.                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.19012)  |              |  Avatar  |\n| [Text2Control3D](https:\u002F\u002Ftext2control3d.github.io\u002F)                                            | Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model.                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03550)  |              |  Avatar  |\n| [Topo4D](https:\u002F\u002Fgithub.com\u002FXuanchenLi\u002FTopo4D)                                                 | Topology-Preserving Gaussian Splatting for High-Fidelity 4D Head Capture.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00440)  |              |  Avatar  |\n| [UnityAIWithChatGPT](https:\u002F\u002Fgithub.com\u002Fhaili1234\u002FUnityAIWithChatGPT)                          | Based on Unity, ChatGPT+UnityChan voice interactive display is realized.                                                                                      |                                     |     Unity     |  Avatar  |\n| [Vid2Avatar](https:\u002F\u002Fmoygcc.github.io\u002Fvid2avatar\u002F)                                             | 3D Avatar Reconstruction from Videos in the Wild via Self-supervised Scene Decomposition.                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.11566)  |              |  Avatar  |\n| [VLOGGER](https:\u002F\u002Fenriccorona.github.io\u002Fvlogger\u002F)                                              | Multimodal Diffusion for Embodied Avatar Synthesis.                                                                                                           |                                     |              |  Avatar  |\n| [Wild2Avatar](https:\u002F\u002Fcs.stanford.edu\u002F~xtiange\u002Fprojects\u002Fwild2avatar\u002F)                          | Rendering Humans Behind Occlusions.                                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.00431)  |              |  Avatar  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"animation\">Animation\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [Animate Anyone](https:\u002F\u002Fgithub.com\u002FHumanAIGC\u002FAnimateAnyone)                                   | Consistent and Controllable Image-to-Video Synthesis for Character Animation.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.17117)  |              | Animation |\n| [AnimateAnything](https:\u002F\u002Fanimationai.github.io\u002FAnimateAnything\u002F)                              | Fine-Grained Open Domain Image Animation with Motion Guidance.                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12886)  |              | Animation |\n| [AnimateDiff](https:\u002F\u002Fgithub.com\u002Fguoyww\u002Fanimatediff\u002F)                                          | Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning.                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04725)  |              | Animation |\n| [AnimateLCM](https:\u002F\u002Fgithub.com\u002FG-U-N\u002FAnimateLCM)                                              | Let's Accelerate the Video Generation within 4 Steps!                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.00769)  |              | Animation |\n| [Animate-X](https:\u002F\u002Fgithub.com\u002FLucaria-Academy\u002FAnimate-X)                                      | Animate-X: Universal Character Image Animation with Enhanced Motion Representation.                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10306)  |              | Animation |\n| [AnimateZero](https:\u002F\u002Fvvictoryuki.github.io\u002Fanimatezero.github.io\u002F)                            | Video Diffusion Models are Zero-Shot Image Animators.                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03793)  |              | Animation |\n| [AnimationGPT](https:\u002F\u002Fgithub.com\u002Ffyyakaxyy\u002FAnimationGPT)                                      | An AIGC tool for generating game combat motion assets.                                                                          |                                                                            |              | Animation |\n| [Deforum](https:\u002F\u002Fdeforum.art\u002F)                                                                | Deforum leverages Stable Diffusion to generate evolving AI visuals.                                                             |                                                                            |              | Animation |\n| [DrawingSpinUp](https:\u002F\u002Fgithub.com\u002FLordLiang\u002FDrawingSpinUp)                                    | DrawingSpinUp: 3D Animation from Single Character Drawings.                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.08615)  |              | Animation |\n| [DreaMoving](https:\u002F\u002Fdreamoving.github.io\u002Fdreamoving\u002F)                                         | A Human Video Generation Framework based on Diffusion Models.                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.05107)  |              | Animation |\n| [FaceFusion](https:\u002F\u002Fgithub.com\u002Ffacefusion\u002Ffacefusion)                                         | Next generation face swapper and enhancer.                                                                                       |                                                                           |              | Animation |\n| [FreeInit](https:\u002F\u002Ftianxingwu.github.io\u002Fpages\u002FFreeInit\u002F)                                       | Bridging Initialization Gap in Video Diffusion Models.                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07537)  |              | Animation |\n| [GeneFace](https:\u002F\u002Fgithub.com\u002Fyerfor\u002FGeneFace)                                                 | Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis.                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13430)  |              | Animation |\n| [ID-Animator](https:\u002F\u002Fgithub.com\u002FID-Animator\u002FID-Animator)                                      | Zero-Shot Identity-Preserving Human Video Generation.                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.15275)  |              | Animation |\n| [HY-Motion 1.0](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHY-Motion-1.0)                              | HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation.                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.23464)  |              | Animation |\n| [Index-AniSora](https:\u002F\u002Fgithub.com\u002Fbilibili\u002FIndex-anisora)                                     | Index-AniSora is the most powerful open-source animated video generation model. It enables one-click creation of video shots across diverse anime styles including series episodes, Chinese original animations, manga adaptations, VTuber content, anime PVs, mad-style parodies(鬼畜动画), and more!                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.10255)  |              | Animation |\n| [MagicAnimate](https:\u002F\u002Fshowlab.github.io\u002Fmagicanimate\u002F)                                        | Temporally Consistent Human Image Animation using Diffusion Model.                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.16498)  |              | Animation |\n| [NUWA](https:\u002F\u002Fmsra-nuwa.azurewebsites.net\u002F#\u002F)                                                 | DragNUWA is an open-domain diffusion-based video generation model takes text, image, and trajectory controls as inputs to achieve controllable video generation.   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.08089)  |              | Animation |\n| [NUWA-Infinity](https:\u002F\u002Fnuwa-infinity.microsoft.com\u002F#\u002FNUWAInfinity)                            | NUWA-Infinity is a multimodal generative model that is designed to generate high-quality images and videos from given text, image or video input.       |                                                   |              | Animation |\n| [NUWA-XL](https:\u002F\u002Fmsra-nuwa.azurewebsites.net\u002F#\u002FNUWAXL)                                        | A novel Diffusion over Diffusion architecture for eXtremely Long video generation.                                              |                                                                            |              | Animation |\n| [Omni Animation](https:\u002F\u002Fomnianimation.ai\u002F)                                                    | AI Generated High Fidelity Animations.                                                                                          |                                                                            |              | Animation |\n| [PIA](https:\u002F\u002Fpi-animator.github.io\u002F)                                                          | Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models.                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.13964)  |              | Animation |\n| [SadTalker](https:\u002F\u002Fgithub.com\u002FWinfredy\u002FSadTalker)                                             | Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation.                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.12194)  |              | Animation |\n| [SadTalker-Video-Lip-Sync](https:\u002F\u002Fgithub.com\u002FZz-ww\u002FSadTalker-Video-Lip-Sync)                  | This project is based on SadTalkers Wav2lip for video lip synthesis.                                                           |                                                                             |              | Animation |\n| [Stable Animation](https:\u002F\u002Fstability.ai\u002Fnews\u002Fstable-animation-sdk)                             | A powerful text-to-animation tool for developers.                                                                              |                                                                             |              | Animation |\n| [ToonComposer](https:\u002F\u002Fgithub.com\u002FTencentARC\u002FToonComposer)                                     | ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing.                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.10881)  |              | Animation |\n| [TaleCrafter](https:\u002F\u002Fgithub.com\u002FVideoCrafter\u002FTaleCrafter)                                     | An interactive story visualization tool that support multiple characters.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18247)  |              | Animation |\n| [ToonCrafter](https:\u002F\u002Fgithub.com\u002FToonCrafter\u002FToonCrafter)                                      | ToonCrafter: Generative Cartoon Interpolation.                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17933v1)  |              | Animation |\n| [Wav2Lip](https:\u002F\u002Fgithub.com\u002FRudrabha\u002FWav2Lip)                                                 | Accurately Lip-syncing Videos In The Wild.                                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2008.10010)  |              | Animation |\n| [Wonder Studio](https:\u002F\u002Fwonderdynamics.com\u002F)                                                   | An AI tool that automatically animates, lights and composes CG characters into a live-action scene.                         |                                                                            |              | Animation |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"video\">Video\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [360DVD](https:\u002F\u002Fakaneqwq.github.io\u002F360DVD\u002F)                                                   | Controllable Panorama Video Generation with 360-Degree Video Diffusion Model.                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.06578)     |              |   Video   |\n| [Animate-A-Story](https:\u002F\u002Fgithub.com\u002FVideoCrafter\u002FAnimate-A-Story)                             | Retrieval-Augmented Video Generation for Telling a Story.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.06940)     |              |   Video   |\n| [Anything in Any Scene](https:\u002F\u002Fanythinginanyscene.github.io\u002F)                                 | Photorealistic Video Object Insertion.                                                                                                                                           |               |              |   Video   |\n| [ART•V](https:\u002F\u002Fwarranweng.github.io\u002Fart.v\u002F)                                                   | Auto-Regressive Text-to-Video Generation with Diffusion Models.                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18834)     |              |   Video   |\n| [Assistive](https:\u002F\u002Fassistive.chat\u002Fproduct\u002Fvideo)                                              | Meet the generative video platform that brings your ideas to life.                                                                                                              |                |              |   Video   |\n| [AtomoVideo](https:\u002F\u002Fatomo-video.github.io\u002F)                                                   | High Fidelity Image-to-Video Generation.                                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.01800)     |              |   Video   |\n| [BackgroundRemover](https:\u002F\u002Fgithub.com\u002Fnadermx\u002Fbackgroundremover)                              | Background Remover lets you Remove Background from images and video using AI with a simple command line interface that is free and open source.                           |                |              |   Video   |\n| [Boximator](https:\u002F\u002Fboximator.github.io\u002F)                                                      | Generating Rich and Controllable Motions for Video Synthesis.                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01566)     |              |   Video   |\n| [CoDeF](https:\u002F\u002Fgithub.com\u002Fqiuyu96\u002Fcodef)                                                      | Content Deformation Fields for Temporally Consistent Video Processing.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07926)     |              |   Video   |\n| [CogVideo](https:\u002F\u002Fmodels.aminer.cn\u002Fcogvideo\u002F)                                                 | Generate Videos from Text Descriptions.                                                                                                                                           |              |              |   Video   |\n| [CogVideoX](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo)                                                 | CogVideoX is an open-source version of the video generation model, which is homologous to 清影.                                                                                   |              |              |   Video   |\n| [CogVLM](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVLM)                                                      | CogVLM is a powerful open-source visual language model (VLM).                                                                                                                    |               |              |   Visual   |\n| [CoNR](https:\u002F\u002Fgithub.com\u002Fmegvii-research\u002FCoNR)                                                | Genarate vivid dancing videos from hand-drawn anime character sheets(ACS).                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.05378)     |              |   Video   |\n| [Decohere](https:\u002F\u002Fwww.decohere.ai\u002F)                                                           | Create what can't be filmed.                                                                                                                                                      |              |              |   Video   |\n| [Descript](https:\u002F\u002Fwww.descript.com\u002F)                                                          | Descript is the simple, powerful , and fun way to edit.                                                                                                                           |              |              |   Video   |\n| [Diffutoon](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FDiffSynth-Studio)                                    | High-Resolution Editable Toon Shading via Diffusion Models.                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.16224)     |              |   Video   |\n| [dolphin](https:\u002F\u002Fgithub.com\u002Fkaleido-lab\u002Fdolphin)                                              | General video interaction platform based on LLMs.                                                                                                                                 |              |              |   Video   |\n| [DomoAI](https:\u002F\u002Fdomoai.app\u002F)                                                                  | Amplify Your Creativity with DomoAI.                                                                                                                                             |               |              |   Video   |\n| [DreamCinema](https:\u002F\u002Fgithub.com\u002Fchen-wl20\u002FDreamCinema)                                        | DreamCinema: Cinematic Transfer with Free Camera and 3D Character.                                                           |[arXiv](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2408.12601)     |              |   Video   |\n| [DynamiCrafter](https:\u002F\u002Fdoubiiu.github.io\u002Fprojects\u002FDynamiCrafter\u002F)                             | Animating Open-domain Images with Video Diffusion Priors.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.12190)     |              |   Video   |\n| [EDGE](https:\u002F\u002Fgithub.com\u002FStanford-TML\u002FEDGE)                                                   | We introduce EDGE, a powerful method for editable dance generation that is capable of creating realistic, physically-plausible dances while remaining faithful to arbitrary input music.  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10658)     |              |   Video   |\n| [EMO](https:\u002F\u002Fhumanaigc.github.io\u002Femote-portrait-alive\u002F)                                       | Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions.       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17485)     |              |   Video   |\n| [Emu Video](https:\u002F\u002Femu-video.metademolab.com\u002F)                                                | Factorizing Text-to-Video Generation by Explicit Image Conditioning.                                                                                                             |               |              |   Video   |\n| [Etna](https:\u002F\u002Fetna.7volcanoes.com\u002F)                                                           | Etna can generate corresponding video content based on short text descriptions.                                                                                                   |              |              |   Video   |\n| [Fairy](https:\u002F\u002Ffairy-video2video.github.io\u002F)                                                  | Fast Parallelized Instruction-Guided Video-to-Video Synthesis.                                                                                                                    |              |              |   Video   |\n| [Follow-Your-Canvas](https:\u002F\u002Fgithub.com\u002Fmayuelala\u002FFollowYourCanvas)                            | Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation.                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.01055)     |              |   Video   |\n| [Follow Your Pose](https:\u002F\u002Ffollow-your-pose.github.io\u002F)                                        | Pose-Guided Text-to-Video Generation using Pose-Free Videos.                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01186)     |              |   Video   |\n| [FullJourney](https:\u002F\u002Fwww.fulljourney.ai\u002F)                                                     | Your complete suite of AI Creation tools at your fingertips.                                                                                                                       |             |              |   Video   |\n| [Gen-2](https:\u002F\u002Fresearch.runwayml.com\u002Fgen2)                                                    | A multi-modal AI system that can generate novel videos with text, images, or video clips.                                                                                          |             |              |   Video   |\n| [Generative Dynamics](https:\u002F\u002Fgenerative-dynamics.github.io\u002F)                                  | Generative Image Dynamics.                                                                                                                                                         |             |              |   Video   |\n| [Genie](https:\u002F\u002Fsites.google.com\u002Fview\u002Fgenie-2024\u002Fhome)                                         | Generative Interactive Environments.                                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15391)     |              |   Video   |\n| [Genmo](https:\u002F\u002Fwww.genmo.ai\u002Fcreate\u002Fvideo)                                                     | Magically make videos with AI.                                                                                                                                                      |            |              |   Video   |\n| [GenTron](https:\u002F\u002Fwww.shoufachen.com\u002Fgentron_website\u002F)                                         | Diffusion Transformers for Image and Video Generation.                                                                                                                              |            |              |   Video   |\n| [HiGen](https:\u002F\u002Fhigen-t2v.github.io\u002F)                                                          | Hierarchical Spatio-temporal Decoupling for Text-to-Video generation.                                                                                                               |            |              |   Video   |\n| [Hotshot-XL](https:\u002F\u002Fgithub.com\u002Fhotshotco\u002FHotshot-XL)                                          | Hotshot-XL is an AI text-to-GIF model trained to work alongside Stable Diffusion XL.                                                                                              |              |              |   Video   |\n| [HuMo](https:\u002F\u002Fgithub.com\u002FPhantom-video\u002FHuMo)                                                  | HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning.                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.08519)     |              |   Video   |\n| [HunyuanVideo](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo)                                        | HunyuanVideo: A Systematic Framework For Large Video Generation Model.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03603)     |              |   Video   |\n| [HunyuanVideo-1.5](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanVideo-1.5)                        | HunyuanVideo-1.5: A leading lightweight video generation model.                                                                                                                   |              |              |   Video   |\n| [Imagen Video](https:\u002F\u002Fimagen.research.google\u002Fvideo\u002F)                                          | Given a text prompt, Imagen Video generates high definition videos using a base video generation model and a sequence of interleaved spatial and temporal video super-resolution models. |   |              |   Video   |\n| [InfiniteTalk](https:\u002F\u002Fgithub.com\u002FMeiGen-AI\u002FInfiniteTalk)                                      | InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing.                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.14033)     |              |   Video   |\n| [InstructVideo](https:\u002F\u002Finstructvideo.github.io\u002F)                                              | Instructing Video Diffusion Models with Human Feedback.                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.12490)     |              |   Video   |\n| [I2VGen-XL](https:\u002F\u002Fi2vgen-xl.github.io\u002F)                                                      | High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.04145)     |              |   Video   |\n| [LaVie](https:\u002F\u002Fvchitect.github.io\u002FLaVie-project\u002F)                                             | High-Quality Video Generation with Cascaded Latent Diffusion Models.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15103)     |              |   Video   |\n| [LongLive](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FLongLive)                                                 | LongLive: Real-time Interactive Long Video Generation.                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.22622)     |              |   Video   |\n| [LTX Studio](https:\u002F\u002Fltx.studio\u002F)                                                              | LTX Studio is a holistic, AI-driven filmmaking platform for creators, marketers, filmmakers and studios.                                                                 |              |              |   Video   |\n| [LTX-Video](https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-Video)                                           | LTX-Video is the first DiT-based video generation model that can generate high-quality videos in real-time. It can generate 24 FPS videos at 768x512 resolution, faster than it takes to watch them.                      |              |              |   Video   |\n| [Lumiere](https:\u002F\u002Flumiere-video.github.io\u002F)                                                    | A Space-Time Diffusion Model for Video Generation.                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.12945)     |              |   Video   |\n| [LVDM](https:\u002F\u002Fyingqinghe.github.io\u002FLVDM\u002F)                                                     | Latent Video Diffusion Models for High-Fidelity Long Video Generation.                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.13221)     |              |   Video   |\n| [Lynx](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Flynx)                                                      | Lynx: Towards High-Fidelity Personalized Video Generation.                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.15496)     |              |   Video   |\n| [MagicVideo](https:\u002F\u002Fmagicvideo.github.io\u002F)                                                    | Efficient Video Generation With Latent Diffusion Models.                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.11018)     |              |   Video   |\n| [MagicVideo-V2](https:\u002F\u002Fmagicvideov2.github.io\u002F)                                               | Multi-Stage High-Aesthetic Video Generation.                                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.04468)     |              |   Video   |\n| [Magic Hour](https:\u002F\u002Fmagichour.ai\u002F)                                                            | AI Video for Creators made simple.                                                                                                                                                  |            |              |   Video   |\n| [MAGVIT-v2](https:\u002F\u002Fmagvit.cs.cmu.edu\u002Fv2\u002F)                                                     | Tokenizer is key to visual generation.                                                                                                                                              |            |              |   Video   |\n| [MAGVIT](https:\u002F\u002Fmagvit.cs.cmu.edu\u002F)                                                           | Masked Generative Video Transformer.                                                                                                                                                |            |              |   Video   |\n| [Make-A-Video](https:\u002F\u002Fmakeavideo.studio\u002F)                                                     | Make-A-Video is a state-of-the-art AI system that generates videos from text.                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14792)     |              |   Video   |\n| [Make Pixels Dance](https:\u002F\u002Fmakepixelsdance.github.io\u002F)                                        | High-Dynamic Video Generation.                                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10982)     |              |   Video   |\n| [Make-Your-Video](https:\u002F\u002Fdoubiiu.github.io\u002Fprojects\u002FMake-Your-Video\u002F)                         | Customized Video Generation Using Textual and Structural Guidance.                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00943)     |              |   Video   |\n| [MicroCinema](https:\u002F\u002Fwangyanhui666.github.io\u002FMicroCinema.github.io\u002F)                          | A Divide-and-Conquer Approach for Text-to-Video Generation.                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18829)     |              |   Video   |\n| [MIMO](https:\u002F\u002Fgithub.com\u002Fmenyifang\u002FMIMO)                                                      | MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling.                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.16160)     |              |   Video   |\n| [Mini-Gemini](https:\u002F\u002Fgithub.com\u002Fdvlab-research\u002FMiniGemini)                                    | Mining the Potential of Multi-modality Vision Language Models.                                                                                                                     |             |              |   Vision   |\n| [MobileVidFactory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16371)                                           | Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from Text.                                                                                              |             |              |   Video   |\n| [Mochi 1](https:\u002F\u002Fgithub.com\u002Fgenmoai\u002Fmodels)                                                   | Mochi 1 is an open state-of-the-art video generation model with high-fidelity motion and strong prompt adherence in preliminary evaluation.                                       |             |              |   Video   |\n| [MOFA-Video](https:\u002F\u002Fgithub.com\u002FMyNiuuu\u002FMOFA-Video)                                            | Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model.             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.20222)     |              |   Video   |\n| [MoneyPrinterTurbo](https:\u002F\u002Fgithub.com\u002Fharry0703\u002FMoneyPrinterTurbo)                            | Use large models to generate short videos with one click.                                                                                                                           |            |              |   Video   |\n| [Moonvalley](https:\u002F\u002Fmoonvalley.ai\u002F)                                                           | Moonvalley is a groundbreaking new text-to-video generative AI model.                                                                                                               |            |              |   Video   |\n| [Mora](https:\u002F\u002Fgithub.com\u002Flichao-sun\u002FMora)                                                     | More like Sora for Generalist Video Generation.                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.13248)     |              |   Video   |\n| [Morph Studio](https:\u002F\u002Fwww.morphstudio.com\u002F)                                                   | With our Text-to-Video AI Magic, manifest your creativity through your prompt.                                                                                                     |             |              |   Video   |\n| [MotionClone](https:\u002F\u002Fgithub.com\u002FBujiazi\u002FMotionClone)                                          | MotionClone: Training-Free Motion Cloning for Controllable Video Generation.                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.05338)     |              |   Video   |\n| [MotionCtrl](https:\u002F\u002Fwzhouxiff.github.io\u002Fprojects\u002FMotionCtrl\u002F)                                 | A Unified and Flexible Motion Controller for Video Generation.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03641)     |              |   Video   |\n| [MotionDirector](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FMotionDirector)                                    | Motion Customization of Text-to-Video Diffusion Models.                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08465)     |              |   Video   |\n| [Motionshop](https:\u002F\u002Faigc3d.github.io\u002Fmotionshop\u002F)                                             | An application of replacing the characters in video with 3D avatars.                                                                                                               |             |              |   Video   |\n| [Mov2mov](https:\u002F\u002Fgithub.com\u002FScholar01\u002Fsd-webui-mov2mov)                                       | Mov2mov plugin for Automatic1111\u002Fstable-diffusion-webui.                                                                                                                            |            |              |   Video   |\n| [MovieFactory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07257)                                               | Automatic Movie Creation from Text using Large Generative Models for Language and Images.                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07257)     |              |   Video   |\n| [MoviiGen 1.1](https:\u002F\u002Fgithub.com\u002FZulutionAI\u002FMoviiGen1.1)                                      | MoviiGen 1.1: Towards Cinematic-Quality Video Generative Models. MoviiGen 1.1 is a cutting-edge video generation model that excels in cinematic aesthetics and visual quality. This model is a fine-tuning model based on the Wan2.1. Based on comprehensive evaluations by 11 professional filmmakers and AIGC creators, including industry experts, across 60 aesthetic dimensions, MoviiGen 1.1 demonstrates superior performance in key cinematic aspects.                                                                                   |            |              |   Video   |\n| [Neural Frames](https:\u002F\u002Fwww.neuralframes.com\u002F)                                                 | Discover the synthesizer for the visual world.                                                                                                                                      |            |              |   Video   |\n| [NeverEnds](https:\u002F\u002Fneverends.life\u002F)                                                           | Create your world.                                                                                                                                                                   |           |              |   Video   |\n| [Open-Sora](https:\u002F\u002Fgithub.com\u002Fhpcaitech\u002FOpen-Sora)                                            | Democratizing Efficient Video Production for All.                                                                                                                                    |           |              |   Video   |\n| [Open-Sora](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan)                                   | Open-Sora Plan.                                                                                                                                                                    |            |              |   Video   |\n| [Ovi](https:\u002F\u002Fgithub.com\u002Fcharacter-ai\u002FOvi)                                                     | Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation.                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.01284)     |              |   Video   |\n| [Phenaki](https:\u002F\u002Fphenaki.video\u002F)                                                              | A model for generating videos from text, with prompts that can change over time, and videos that can be as long as multiple minutes.     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02399)     |              |   Video   |\n| [Pika Labs](https:\u002F\u002Fwww.pika.art\u002F)                                                             | Pika Labs is revolutionizing video-making experience with AI.                                                                                                                      |             |              |   Video   |\n| [Pixeling](https:\u002F\u002Fhidream.ai\u002F#\u002FPixeling)                                                      | Pixeling empowers our customers to create highly precise, ultra-realistic, and extremely controllable visual content including images, videos and 3D models.                       |             |              |   Video   |\n| [PixVerse](https:\u002F\u002Fapp.pixverse.ai)                                                            | Create breath-taking videos with AI.                                                                                                                                                |            |              |   Video   |\n| [Pollinations](https:\u002F\u002Fpollinations.ai\u002Fc\u002FVideo)                                                | Creating gets easy, fast, and fun.                                                                                                                                                  |            |              |   Video   |\n| [Reuse and Diffuse](https:\u002F\u002Fanonymous0x233.github.io\u002FReuseAndDiffuse\u002F)                         | Iterative Denoising for Text-to-Video Generation.                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03549)     |              |   Video   |\n| [Ruyi](https:\u002F\u002Fgithub.com\u002FIamCreateAI\u002FRuyi-Models)                                             | Ruyi is an image-to-video model capable of generating cinematic-quality videos at a resolution of 768, with a frame rate of 24 frames per second, totaling 5 seconds and 120 frames.             |              |              |   Video   |\n| [ShortGPT](https:\u002F\u002Fgithub.com\u002FRayVentura\u002FShortGPT)                                             | An experimental AI framework for automated short\u002Fvideo content creation.                                                                                                            |            |              |   Video   |\n| [Show-1](https:\u002F\u002Fshowlab.github.io\u002FShow-1\u002F)                                                    | Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation.                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15818)     |              |   Video   |\n| [Step-Video-T2V](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Video-T2V)                                 | Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model.                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.10248)     |              |   Video   |\n| [SkyReels-A1](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-A1)                                        | SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers.                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.10841)     |              |   Video   |\n| [SkyReels-V1](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1)                                        | SkyReels V1: Human-Centric Video Foundation Model.                                                                                                                          |            |              |   Video   |\n| [Snap Video](https:\u002F\u002Fsnap-research.github.io\u002Fsnapvideo\u002F)                                       | Scaled Spatiotemporal Transformers for Text-to-Video Synthesis.                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.14797)     |              |   Video   |\n| [Sora](https:\u002F\u002Fopenai.com\u002Fsora)                                                                | Creating video from text.                                                                                                                                                           |            |              |   Video   |\n| [SoraWebui](https:\u002F\u002Fgithub.com\u002FSoraWebui\u002FSoraWebui)                                            | SoraWebui is an open-source Sora web client, enabling users to easily create videos from text with OpenAI's Sora model.                                                            |            |              |   Video   |\n| [StableVideo](https:\u002F\u002Fgithub.com\u002Frese1f\u002Fstablevideo)                                           | Text-driven Consistency-aware Diffusion Video Editing.                                                                                                                              |            |              |   Video   |\n| [Stable Video Diffusion](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Fgenerative-models)                    | Stable Video Diffusion (SVD) Image-to-Video.                                                                                                                                         |           |              |   Video   |\n| [StoryDiffusion](https:\u002F\u002Fgithub.com\u002FHVision-NKU\u002FStoryDiffusion)                                | Consistent Self-Attention for Long-Range Image and Video Generation.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.01434)     |              |   Video   |\n| [StoryMem](https:\u002F\u002Fgithub.com\u002FKevin-thu\u002FStoryMem)                                              | StoryMem: Multi-shot Long Video Storytelling with Memory.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.19539)     |              |   Video   |\n| [StreamingT2V](https:\u002F\u002Fgithub.com\u002FPicsart-AI-Research\u002FStreamingT2V)                            | Consistent, Dynamic, and Extendable Long Video Generation from Text.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.14773)     |              |   Video   |\n| [StyleCrafter](https:\u002F\u002Fgongyeliu.github.io\u002FStyleCrafter.github.io\u002F)                            | nhancing Stylized Text-to-Video Generation with Style Adapter.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.00330)     |              |   Video   |\n| [TATS](https:\u002F\u002Fsongweige.github.io\u002Fprojects\u002Ftats\u002Findex.html)                                   | Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer.                                                                                                       |           |              |   Video   |\n| [Text2Video-Zero](https:\u002F\u002Fgithub.com\u002FPicsart-AI-Research\u002FText2Video-Zero)                      | Text-to-Image Diffusion Models are Zero-Shot Video Generators.                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13439)     |              |   Video   |\n| [TF-T2V](https:\u002F\u002Ftf-t2v.github.io\u002F)                                                            | A Recipe for Scaling up Text-to-Video Generation with Text-free Videos.                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.15770)     |              |   Video   |\n| [Tora](https:\u002F\u002Fgithub.com\u002Fali-videoai\u002FTora)                                                    | Tora: Trajectory-oriented Diffusion Transformer for Video Generation.                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.21705)     |              |   Video   |\n| [Track-Anything](https:\u002F\u002Fgithub.com\u002Fgaomingqi\u002FTrack-Anything)                                  | Track-Anything is a flexible and interactive tool for video object tracking and segmentation, based on Segment Anything and XMem.           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.11968)     |              |   Video   |\n| [Tune-A-Video](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FTune-A-Video)                                        | One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation.                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.11565)     |              |   Video   |\n| [TwelveLabs](https:\u002F\u002Fwww.twelvelabs.io\u002F)                                                       | Multimodal AI that understands videos like humans.                                                                                                                                  |            |              |   Video   |\n| [UniVG](https:\u002F\u002Funivg-baidu.github.io\u002F)                                                        | Towards UNIfied-modal Video Generation.                                                                                                                                             |            |              |   Video   |\n| [Vchitect-2.0](https:\u002F\u002Fgithub.com\u002FVchitect\u002FVchitect-2.0)                                       | Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models.                                                                                                           |            |              |   Video   |\n| [VGen](https:\u002F\u002Fgithub.com\u002Fali-vilab\u002Fi2vgen-xl)                                                 | A holistic video generation ecosystem for video generation building on diffusion models.                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.04145)     |              |   Video   |\n| [ViewCrafter](https:\u002F\u002Fgithub.com\u002FDrexubery\u002FViewCrafter)                                        | ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis.                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.02048)     |              |   Video   |\n| [Video-ChatGPT](https:\u002F\u002Fgithub.com\u002Fmbzuai-oryx\u002FVideo-ChatGPT)                                  | Video-ChatGPT is a video conversation model capable of generating meaningful conversation about videos.                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05424)     |              |   Video   |\n| [VideoComposer](https:\u002F\u002Fvideocomposer.github.io\u002F)                                              | Compositional Video Synthesis with Motion Controllability.                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.02018)     |              |   Video   |\n| [VideoCrafter1](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.19512)                                              | Open Diffusion Models for High-Quality Video Generation.                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.19512)     |              |   Video   |\n| [VideoCrafter2](https:\u002F\u002Failab-cvc.github.io\u002Fvideocrafter2\u002F)                                    | Overcoming Data Limitations for High-Quality Video Diffusion Models.                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.09047)     |              |   Video   |\n| [VideoDrafter](https:\u002F\u002Fvideodrafter.github.io\u002F)                                                | Content-Consistent Multi-Scene Video Generation with LLM.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.01256)     |              |   Video   |\n| [VideoElevator](https:\u002F\u002Fgithub.com\u002FYBYBZhang\u002FVideoElevator)                                    | Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models.                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.05438)     |              |   Video   |\n| [VideoFactory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10874)                                               | Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation.                                                                                                         |              |              |   Video   |\n| [VideoGen](https:\u002F\u002Fvideogen.github.io\u002FVideoGen\u002F)                                               | A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation.                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.00398)     |              |   Video   |\n| [VideoLCM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09109)                                                   | Video Latent Consistency Model.                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09109)     |              |   Video   |\n| [Video LDMs](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002FVideoLDM\u002F)                            | Align your Latents: High- resolution Video Synthesis with Latent Diffusion Models.                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08818)     |              |   Video   |\n| [Video-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA)                                    | Learning United Visual Representation by Alignment Before Projection.                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10122)     |              |   Video   |\n| [VideoMamba](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVideoMamba)                                          | State Space Model for Efficient Video Understanding.                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.06977)     |              |   Video   |\n| [Video-of-Thought](https:\u002F\u002Fgithub.com\u002Fscofield7419\u002FVideo-of-Thought)                           | Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition.                                                                                                       |             |              |   Video   |\n| [VideoPoet](https:\u002F\u002Fsites.research.google\u002Fvideopoet\u002F)                                          | A large language model for zero-shot video generation.                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14125)     |              |   Video   |\n| [Vispunk Motion](https:\u002F\u002Fvispunk.com\u002Fvideo)                                                    | Create realistic videos using just text.                                                                                                                                           |             |              |   Video   |\n| [VisualRWKV](https:\u002F\u002Fgithub.com\u002Fhoward-hou\u002FVisualRWKV)                                         | VisualRWKV is the visual-enhanced version of the RWKV language model, enabling RWKV to handle various visual tasks.                                                            |              |              |   Visual   |\n| [V-JEPA](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fjepa)                                             | Video Joint Embedding Predictive Architecture.                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.08471)     |              |   Video   |\n| [W.A.L.T](https:\u002F\u002Fwalt-video-diffusion.github.io\u002F)                                             | Photorealistic Video Generation with Diffusion Models.                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.06662)     |              |   Video   |\n| [Wan2.1](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1)                                                  | Wan: Open and Advanced Large-Scale Video Generative Models.                                                                                                                      |               |              |   Video   |\n| [Wan2.2](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.2)                                                  | Wan: Open and Advanced Large-Scale Video Generative Models.                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20314)     |              |   Video   |\n| [Waver](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FWaver)                                             | Waver 1.0 is a next-generation, universal foundation model family for unified image and video generation, built on rectified flow Transformers and engineered for industry-grade performance.        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.15761)     |              |   Video   |\n| [Zeroscope](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ffffiloni\u002Fzeroscope)                                  | Zeroscope Text-to-Video.                                                                                                                                                         |               |              |   Video   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"audio\">Audio\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AcademiCodec](https:\u002F\u002Fgithub.com\u002Fyangdongchao\u002FAcademiCodec)                                   | An Open Source Audio Codec Model for Academic Research.                                                                                                                  |  |              |   Audio   |\n| [Amphion](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion)                                               | An Open-Source Audio, Music, and Speech Generation Toolkit.                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09911)      |              |   Audio   |\n| [ArchiSound](https:\u002F\u002Fgithub.com\u002Farchinetai\u002Faudio-diffusion-pytorch)                            | Audio generation using diffusion models, in PyTorch.                                                                                                                           |                  |              |   Audio   |\n| [Audiobox](https:\u002F\u002Faudiobox.metademolab.com\u002F)                                                  | Unified Audio Generation with Natural Language Prompts.                                                                                                                        |                  |              |   Audio   |\n| [AudioEditing](https:\u002F\u002Fgithub.com\u002FHilaManor\u002FAudioEditingCode)                                  | Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.10009)      |              |   Audio   |\n| [Audiogen Codec](https:\u002F\u002Fgithub.com\u002FAudiogenAI\u002Fagc)                                            | A low compression 48khz stereo neural audio codec for general audio, optimizing for audio fidelity 🎵.                                                                         |                  |              |   Audio   |\n| [AudioGPT](https:\u002F\u002Fgithub.com\u002FAIGC-Audio\u002FAudioGPT)                                             | Understanding and Generating Speech, Music, Sound, and Talking Head.                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12995)      |              |   Audio   |\n| [AudioLCM](https:\u002F\u002Fgithub.com\u002Fliuhuadai\u002FAudioLCM)                                              | Text-to-Audio Generation with Latent Consistency Models.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00356v1)      |              |   Audio   |\n| [AudioLDM](https:\u002F\u002Faudioldm.github.io\u002F)                                                        | Text-to-Audio Generation with Latent Diffusion Models.                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12503)      |              |   Audio   |\n| [AudioLDM 2](https:\u002F\u002Fgithub.com\u002Fhaoheliu\u002Faudioldm2)                                            | Learning Holistic Audio Generation with Self-supervised Pretraining.                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.05734)      |              |   Audio   |\n| [AudioX](https:\u002F\u002Fgithub.com\u002FZeyueT\u002FAudioX)                                                     | AudioX: Diffusion Transformer for Anything-to-Audio Generation.                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10522)      |              |   Audio   |\n| [Auffusion](https:\u002F\u002Fgithub.com\u002Fhappylittlecat2333\u002FAuffusion)                                   | Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation.                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.01044)      |              |   Audio   |\n| [CTAG](https:\u002F\u002Fgithub.com\u002FPapayaResearch\u002Fctag)                                                 | Creative Text-to-Audio Generation via Synthesizer Programming.                                                                                                                     |              |              |   Audio   |\n| [FoleyCrafter](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FFoleyCrafter)                                     | FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds.                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.01494)      |              |   Audio   |\n| [HunyuanVideo-Foley](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanVideo-Foley)                    | HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation.           |[arXiv](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2508.16930)  |              |   Audio   |\n| [MAGNeT](https:\u002F\u002Fpages.cs.huji.ac.il\u002Fadiyoss-lab\u002FMAGNeT\u002F)                                      | Masked Audio Generation using a Single Non-Autoregressive Transformer.                                                                                                             |              |              |   Audio   |\n| [Make-An-Audio](https:\u002F\u002Ftext-to-audio.github.io\u002F)                                              | Text-To-Audio Generation with Prompt-Enhanced Diffusion Models.                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12661)      |              |   Audio   |\n| [Make-An-Audio 3](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio-3)                            | Transforming Text into Audio via Flow-based Large Diffusion Transformers.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18474)      |              |   Audio   |\n| [MeanAudio](https:\u002F\u002Fgithub.com\u002Fxiquan-li\u002FMeanAudio)                                            | MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows.                                                                                                             |              |              |   Audio   |\n| [MiDashengLM](https:\u002F\u002Fgithub.com\u002Fxiaomi-research\u002Fdasheng-lm)                                   | MiDashengLM: Efficient Audio Understanding with General Audio Captions.                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03983)      |              |   Audio   |\n| [MMAudio](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio)                                               | MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis.                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15322)      |              |   Audio   |\n| [NeuralSound](https:\u002F\u002Fgithub.com\u002Fhellojxt\u002FNeuralSound)                                         | Learning-based Modal Sound Synthesis with Acoustic Transfer.                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.07425)      |              |   Audio   |\n| [OptimizerAI](https:\u002F\u002Fwww.optimizerai.xyz\u002F)                                                    | Sounds for Creators, Game makers, Artists, Video makers.                                                                    |            |              |   Audio   |\n| [Qwen2-Audio](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2-Audio)                                           | Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.10759)      |              |   Audio   |\n| [SEE-2-SOUND](https:\u002F\u002Fgithub.com\u002Fsee2sound\u002Fsee2sound)                                          | Zero-Shot Spatial Environment-to-Spatial Sound.                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06612)      |              |   Audio   |\n| [SoundStorm](https:\u002F\u002Fgoogle-research.github.io\u002Fseanet\u002Fsoundstorm\u002Fexamples\u002F)                    | Efficient Parallel Audio Generation.                                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.09636)      |              |   Audio   |\n| [Stable Audio](https:\u002F\u002Fwww.stableaudio.com\u002F)                                                   | Fast Timing-Conditioned Latent Audio Diffusion.                                                                                                                                      |            |              |   Audio   |\n| [Stable Audio Open](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fstable-audio-open-1.0)                  | Stable Audio Open 1.0 generates variable-length (up to 47s) stereo audio at 44.1kHz from text prompts.                                                                              |            |              |   Audio   |\n| [SyncFusion](https:\u002F\u002Fgithub.com\u002Fmcomunita\u002Fsyncfusion)                                          | SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis.                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.15247)      |              |   Audio   |\n| [TANGO](https:\u002F\u002Fgithub.com\u002Fdeclare-lab\u002Ftango)                                                  | Text-to-Audio Generation using Instruction Tuned LLM and Latent Diffusion Model.                                                                                                      |           |              |   Audio   |\n| [ThinkSound](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FThinkSound)                                        | ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing.           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.21448)      |              |   Audio   |\n| [VTA-LDM](https:\u002F\u002Fgithub.com\u002Fariesssxu\u002Fvta-ldm)                                                | Video-to-Audio Generation with Hidden Alignment.                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.07464)      |              |   Audio   |\n| [WavJourney](https:\u002F\u002Fgithub.com\u002FAudio-AGI\u002FWavJourney)                                          | Compositional Audio Creation with Large Language Models.                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.14335)      |              |   Audio   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"music\">Music\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AIVA](https:\u002F\u002Fwww.aiva.ai\u002F)                                                                   | The Artificial Intelligence composing emotional soundtrack music.                                                                                             |                                    |              |   Music   |\n| [Amper Music](https:\u002F\u002Fwww.shutterstock.com\u002Fdiscover\u002Fampermusic)                                | Custom music generation technology powered by Amper.                                                                                                          |                                    |              |   Music   |\n| [AnyAccomp](https:\u002F\u002Fgithub.com\u002FAmphionTeam\u002FAnyAccomp)                                          | AnyAccomp: Generalizable Accompaniment Generation via Quantized Melodic Bottleneck.                                        | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.14052)      |              |   Music   |\n| [Boomy](https:\u002F\u002Fboomy.com\u002F)                                                                    | Create generative music. Share it with the world.                                                                                                             |                                    |              |   Music   |\n| [ChatMusician](https:\u002F\u002Fshanghaicannon.github.io\u002FChatMusician\u002F)                                 | Fostering Intrinsic Musical Abilities Into LLM.                                                                                                              |                                     |              |   Music   |\n| [Chord2Melody](https:\u002F\u002Fgithub.com\u002Ftanreinama\u002Fchord2melody)                                     | Automatic Music Generation AI.                                                                                                                               |                                     |              |   Music   |\n| [Diff-BGM](https:\u002F\u002Fgithub.com\u002Fsizhelee\u002FDiff-BGM)                                               | A Diffusion Model for Video Background Music Generation.                                                                   | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.11913)      |              |   Music   |\n| [FluxMusic](https:\u002F\u002Fgithub.com\u002Ffeizc\u002FFluxMusic)                                                | FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.                                                       | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00587)      |              |   Music   |\n| [GPTAbleton](https:\u002F\u002Fgithub.com\u002FBurnedGuitarist\u002FGPTAbleton)                                    | Draft script for processing GPT response and sending the MIDI notes into the Ableton clips with AbletonOSC and python-osc.                                |                                   |              |   Music   |\n| [HeyMusic.AI](https:\u002F\u002Fheymusic.ai\u002Fzh)                                                          | AI Music Generator                                                                                                                                             |                                   |              |   Music   |\n| [Image to Music](https:\u002F\u002Fimagetomusic.top\u002F)                                                    | AI Image to Music Generator is a tool that uses artificial intelligence to convert images into music.                                                          |                                   |              |   Music   |\n| [JEN-1](https:\u002F\u002Fwww.futureverse.com\u002Fresearch\u002Fjen\u002Fdemos\u002Fjen1)                                   | Text-Guided Universal Music Generation with Omnidirectional Diffusion Models.                                                                                  |                                   |              |   Music   |\n| [Jukebox](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fjukebox)                                                   | A Generative Model for Music.                                                                                              | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.00341)      |              |   Music   |\n| [Magenta](https:\u002F\u002Fgithub.com\u002Fmagenta\u002Fmagenta)                                                  | Magenta is a research project exploring the role of machine learning in the process of creating art and music.                                              |                                   |              |   Music   |\n| [MeLoDy](https:\u002F\u002Fefficient-melody.github.io\u002F)                                                  | Efficient Neural Music Generation                                                                                                                                |                                 |              |   Music   |\n| [Mubert](https:\u002F\u002Fmubert.com\u002F)                                                                  | AI Generative Music.                                                                                                                                             |                                 |              |   Music   |\n| [MuseNet](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fmusenet)                                                 | A deep neural network that can generate 4-minute musical compositions with 10 different instruments, and can combine styles from country to Mozart to the Beatles.     |                         |              |   Music   |\n| [MusicGen](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Faudiocraft)                                     | Simple and Controllable Music Generation.                                                                                  | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05284)      |              |   Music   |\n| [MusicLDM](https:\u002F\u002Fmusicldm.github.io\u002F)                                                        | Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies.                                     | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.01546)      |              |   Music   |\n| [MusicLM](https:\u002F\u002Fgoogle-research.github.io\u002Fseanet\u002Fmusiclm\u002Fexamples\u002F)                          | Generating Music From Text.                                                                                                | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11325)      |              |   Music   |\n| [Riffusion App](https:\u002F\u002Fgithub.com\u002Friffusion\u002Friffusion-app)                                    | Riffusion is an app for real-time music generation with stable diffusion.                                                                                           |                              |              |   Music   |\n| [Sonauto](https:\u002F\u002Fsonauto.ai\u002FHome)                                                             | Sonauto is an AI music editor that turns prompts, lyrics, or melodies into full songs in any style.                                                                 |                             |              |   Music   |\n| [SonicMaster](https:\u002F\u002Fgithub.com\u002FAMAAI-Lab\u002FSonicMaster)                                        | SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering.                                              | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03448)      |              |   Music   |\n| [SoundRaw](https:\u002F\u002Fsoundraw.io\u002F)                                                               | AI music generator for creators.                                                                                                                                     |                             |              |   Music   |\n| [Soundry AI](https:\u002F\u002Fsoundry.ai\u002F)                                                              | Generative AI tools including text-to-sound and infinite sample packs.                                                                                               |                             |              |   Music   |\n| [YuE](https:\u002F\u002Fgithub.com\u002Fmultimodal-art-projection\u002FYuE)                                        | YuE: Open Full-song Generation Foundation Model, something similar to Suno.ai but open.                                                                              |                             |              |   Music   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"voice\">Singing Voice\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [DiffSinger](https:\u002F\u002Fgithub.com\u002FMoonInTheRiver\u002FDiffSinger)                                     | Singing Voice Synthesis via Shallow Diffusion Mechanism.                                                                   | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.02446)      |              |   Singing Voice   |\n| [Retrieval-based-Voice-Conversion-WebUI](https:\u002F\u002Fgithub.com\u002Fliujing04\u002FRetrieval-based-Voice-Conversion-WebUI)                                     | An easy-to-use SVC framework based on VITS.                                                                             |                      |              |   Singing Voice   |\n| [so-vits-svc](https:\u002F\u002Fgithub.com\u002Fsvc-develop-team\u002Fso-vits-svc)                                 | SoftVC VITS Singing Voice Conversion.                                                                                                                                      |                       |              |   Singing Voice   |\n| [VI-SVS](https:\u002F\u002Fgithub.com\u002FPlayVoice\u002FVI-SVS)                                                  | Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.                                                                                         |                       |              |   Singing Voice   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"speech\">Speech\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |   Paper   |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [Applio](https:\u002F\u002Fgithub.com\u002FIAHispano\u002FApplio)                                                  | Ultimate voice cloning tool, meticulously optimized for unrivaled power, modularity, and user-friendly experience.                              |                                                |              |  Speech  |\n| [Audyo](https:\u002F\u002Fwww.audyo.ai\u002F)                                                                 | Text in. Audio out.                                                                                                                              |                                                |              |  Speech  |\n| [Bark](https:\u002F\u002Fgithub.com\u002Fsuno-ai\u002Fbark)                                                        | Text-Prompted Generative Audio Model.                                                                                                           |                                                 |              |  Speech  |\n| [Bert-VITS2](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002FBert-VITS2)                                          | VITS2 Backbone with multilingual bert.                                                                                                          |                                                 |              |  Speech  |\n| [Chatterbox](https:\u002F\u002Fgithub.com\u002Fresemble-ai\u002Fchatterbox)                                        | Chatterbox TTS is the first production-grade open-source TTS model.                                                                                        |                                      |              |  Speech  |\n| [ChatTTS](https:\u002F\u002Fgithub.com\u002F2noise\u002FChatTTS)                                                   | ChatTTS is a generative speech model for daily dialogue.                                                                                        |                                                 |              |  Speech  |\n| [CLAPSpeech](https:\u002F\u002Fclapspeech.github.io\u002F)                                                    | Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training.                                           | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10763)      |              |  Speech  |\n| [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)                                          | Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.                                   |                                                 |              |  Speech  |\n| [DEX-TTS](https:\u002F\u002Fgithub.com\u002Fwinddori2002\u002FDEX-TTS)                                             | Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.                                         | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.19135)      |              |  Speech  |\n| [EmotiVoice](https:\u002F\u002Fgithub.com\u002Fnetease-youdao\u002FEmotiVoice)                                     | A Multi-Voice and Prompt-Controlled TTS Engine.                                                                                                 |                                                 |              |  Speech  |\n| [FireRedTTS-2](https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRedTTS2)                                     | FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot.                                       | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.02020)      |              |  Speech  |\n| [Fliki](https:\u002F\u002Ffliki.ai\u002F)                                                                     | Turn text into videos with AI voices.                                                                                                           |                                                 |              |  Speech  |\n| [GLM-4-Voice](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FGLM-4-Voice)                                            | GLM-4-Voice is an end-to-end voice model launched by Zhipu AI. GLM-4-Voice can directly understand and generate Chinese and English speech, engage in real-time voice conversations, and change attributes such as emotion, intonation, speech rate, and dialect based on user instructions.                                         |                                                 |              |  Speech  |\n| [Glow-TTS](https:\u002F\u002Fgithub.com\u002Fjaywalnut310\u002Fglow-tts)                                           | A Generative Flow for Text-to-Speech via Monotonic Alignment Search.                                                       | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.11129)      |              |  Speech  |\n| [GPT-SoVITS](https:\u002F\u002Fgithub.com\u002FRVC-Boss\u002FGPT-SoVITS)                                           | A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.                                                                                 |                                                  |              |  Speech  |\n| [Higgs Audio](https:\u002F\u002Fgithub.com\u002Fboson-ai\u002Fhiggs-audio)                                         | Higgs Audio V2: Redefining Expressiveness in Audio Generation.                                                                                 |                                                  |              |  Speech  |\n| [IndexTTS2](https:\u002F\u002Fgithub.com\u002Findex-tts\u002Findex-tts)                                            | IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech.            | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.21619)      |              |  Speech  |\n| [Kitten TTS](https:\u002F\u002Fgithub.com\u002FKittenML\u002FKittenTTS)                                            | Kitten TTS is an open-source realistic text-to-speech model with just 15 million parameters, designed for lightweight deployment and high-quality voice synthesis.        |                                                  |              |  Speech  |\n| [Liquid Audio](https:\u002F\u002Fgithub.com\u002FLiquid4All\u002Fliquid-audio)                                     | Liquid Audio - Speech-to-Speech audio models by Liquid AI.                                                                                     |                                                  |              |  Speech  |\n| [LOVO](https:\u002F\u002Flovo.ai\u002F)                                                                       | LOVO is the go-to AI Voice Generator & Text to Speech platform for thousands of creators.                                                      |                                                  |              |  Speech  |\n| [MahaTTS](https:\u002F\u002Fgithub.com\u002Fdubverse-ai\u002FMahaTTS)                                              | An Open-Source Large Speech Generation Model.                                                                                                   |                                                 |              |  Speech  |\n| [Matcha-TTS](https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS)                                      | A fast TTS architecture with conditional flow matching.                                                                    | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03199)      |              |  Speech  |\n| [MeloTTS](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FMeloTTS)                                               | High-quality multi-lingual text-to-speech library by MyShell.ai. Support English, Spanish, French, Chinese, Japanese and Korean.       |                                                  |              |  Speech  |\n| [MetaVoice-1B](https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src)                                   | AI for human-level speech intelligence.                                                                                                         |                                                 |              |  Speech  |\n| [Narakeet](https:\u002F\u002Fwww.narakeet.com\u002F)                                                          | Easily Create Voiceovers Using Realistic Text to Speech.                                                                                        |                                                 |              |  Speech  |\n| [Mini-Omni](https:\u002F\u002Fgithub.com\u002Fgpt-omni\u002Fmini-omni)                                             | Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming. Mini-Omni is an open-source multimodel large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities.                                                                 | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16725)      |              |  Speech  |\n| [One-Shot-Voice-Cloning](https:\u002F\u002Fgithub.com\u002FCMsmartvoice\u002FOne-Shot-Voice-Cloning)               | One Shot Voice Cloning base on Unet-TTS.                                                                                                       |                                                  |              |  Speech  |\n| [OpenVoice](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FOpenVoice)                                           | Instant voice cloning by MyShell.                                                                                                              |                                                  |              |  Speech  |\n| [OverFlow](https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FOverFlow)                                          | Putting flows on top of neural transducers for better TTS.                                                                                     |                                                  |              |  Speech  |\n| [RealtimeTTS](https:\u002F\u002Fgithub.com\u002FKoljaB\u002FRealtimeTTS)                                           | RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.                                        |                                                  |              |  Speech  |\n| [SenseVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FSenseVoice)                                        | SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).                                                                                            |                                                  |              |  Speech  |\n| [SpeechGPT](https:\u002F\u002Fgithub.com\u002F0nutation\u002FSpeechGPT)                                            | Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.                                      | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11000)      |              |  Speech  |\n| [speech-to-text-gpt3-unity](https:\u002F\u002Fgithub.com\u002Fdr-iskandar\u002Fspeech-to-text-gpt3-unity)          | This is the repo I use Whisper and ChatGPT API from OpenAI in Unity.                                                                           |                                                  |     Unity     |  Speech  |\n| [Stable Speech](https:\u002F\u002Fgithub.com\u002Fsanchit-gandhi\u002Fstable-speech)                               | Stability AI's Text-to-Speech model.                                                                                                          |                                                   |              |  Speech  |\n| [StableTTS](https:\u002F\u002Fgithub.com\u002FKdaiP\u002FStableTTS)                                                | Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.                                                        |                                                   |              |  Speech  |\n| [Step-Audio](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio)                                         | Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction.                                        | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11946)      |              |  Speech  |\n| [Step-Audio 2](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2)                                      | Step-Audio 2 is an end-to-end multi-modal large language model designed for industry-strength audio understanding and speech conversation.         | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16632)      |              |  Speech  |\n| [StyleTTS 2](https:\u002F\u002Fgithub.com\u002Fyl4579\u002FStyleTTS2)                                              | Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.    | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07691)      |              |  Speech  |\n| [tortoise.cpp](https:\u002F\u002Fgithub.com\u002Fbalisujohn\u002Ftortoise.cpp)                                     | tortoise.cpp: GGML implementation of tortoise-tts.                                                                                             |                                                  |              |  Speech  |\n| [TorToiSe-TTS](https:\u002F\u002Fgithub.com\u002Fneonbjb\u002Ftortoise-tts)                                        | A multi-voice TTS system trained with an emphasis on quality.                                                                                  |                                                  |              |  Speech  |\n| [TTS Generation WebUI](https:\u002F\u002Fgithub.com\u002Frsxdalv\u002Ftts-generation-webui)                        | TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).                                                                           |                                                  |              |  Speech  |\n| [VALL-E](https:\u002F\u002Fvalle-demo.github.io\u002F)                                                        | Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.                                                    | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.02111)      |              |  Speech  |\n| [VALL-E X](https:\u002F\u002Fvallex-demo.github.io\u002F)                                                     | Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling                                  | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03926)      |              |  Speech  |\n| [VibeVoice](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FVibeVoice)                                            | VibeVoice is a novel framework designed for generating expressive, long-form, multi-speaker conversational audio, such as podcasts, from text. It addresses significant challenges in traditional Text-to-Speech (TTS) systems, particularly in scalability, speaker consistency, and natural turn-taking.               |                                                   |              |  Speech  |\n| [Vocode](https:\u002F\u002Fdocs.vocode.dev\u002F)                                                             | Vocode is an open-source library for building voice-based LLM applications.                                                                   |                                                   |              |  Speech  |\n| [Voicebox](https:\u002F\u002Fgithub.com\u002FSpeechifyInc\u002FMeta-voicebox)                                      | Text-Guided Multilingual Universal Speech Generation at Scale.                                                             | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.15687)      |              |  Speech  |\n| [VoiceCraft](https:\u002F\u002Fgithub.com\u002Fjasonppy\u002FVoiceCraft)                                           | Zero-Shot Speech Editing and Text-to-Speech in the Wild.                                                                                    |                                                     |              |  Speech  |\n| [VoxCPM](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FVoxCPM)                                                    | VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning.                                          |                                                     |              |  Speech  |\n| [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)                                                   | Whisper is a general-purpose speech recognition model.                                                                                     |                                                      |              |  Speech  |\n| [WhisperSpeech](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperSpeech)                                    | An Open Source text-to-speech system built by inverting Whisper.                                                                           |                                                      |              |  Speech  |\n| [X-E-Speech](https:\u002F\u002Fgithub.com\u002FX-E-Speech\u002FX-E-Speech-code)                                    | Joint Training Framework of Non-Autoregressive Cross-lingual Emotional Text-to-Speech and Voice Conversion.                                |                                                      |              |  Speech  |\n| [XTTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS)                                                        | XTTS is a library for advanced Text-to-Speech generation.                                                                                  |                                                      |              |  Speech  |\n| [YourTTS](https:\u002F\u002Fgithub.com\u002FEdresson\u002FYourTTS)                                                 | Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.                                           | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.02418)      |              |  Speech  |\n| [ZMM-TTS](https:\u002F\u002Fgithub.com\u002Fnii-yamagishilab\u002FZMM-TTS)                                         | Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.  | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14398)     |              |  Speech  |\n| [UniAudio 2.0](https:\u002F\u002Fgithub.com\u002Fyangdongchao\u002FUniAudio2)                                      | UniAudio 2.0: A Multi-task Audio Foundation Model with Reasoning-Augmented Audio Tokenization.                                   |                                                      |              |  Speech  |\n| [UnityNeuroSpeech](https:\u002F\u002Fgithub.com\u002FHardCodeDev777\u002FUnityNeuroSpeech)                         | The world’s first game framework that lets you talk to AI in real time — locally.                                                                                |          |     Unity    |   Speech  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"speech\">Analytics\u003C\u002Fspan>\n\n| Source                                                                                      | Description                                                                                                                                                                                    |  Game Engine  |   Type   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-------: |\n| [Ludo.ai](https:\u002F\u002Fludo.ai\u002F)                                                        | Assistant for game research and design.                                                                                                                        |              |  Analytics  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ Back to Contents ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n","# AI 游戏开发工具 (AI-GDT) 🎮\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FYuan-ManX_ai-game-devtools_readme_bdb270fa1bea.png\" alt=\"AI-Game\" style=\"display:block; margin:auto; width:580px;\" \u002F>\n\u003C\u002Fp>\n\n在这里，我们将持续跟踪最新的 AI 游戏开发工具，涵盖大语言模型、世界模型、智能体、代码、图像、纹理、着色器、3D 模型、动画、视频、音频、音乐、歌声以及数据分析等领域。🔥\n\n## 目录\n\n* [LLM（大语言模型及工具）](#tool)\n* [VLM（视觉相关）](#visual)\n* [游戏（世界模型与智能体）](#game)\n* [代码](#code)\n* [图像](#image)\n* [纹理](#texture)\n* [着色器](#shader)\n* [3D 模型](#model)\n* [虚拟形象](#avatar)\n* [动画](#animation)\n* [视频](#video)\n* [音频](#audio)\n* [音乐](#music)\n* [歌声](#voice)\n* [语音](#speech)\n* [数据分析](#analytics)\n\n\n## 项目列表\n\n###  \u003Cspan id=\"tool\">LLM（大语言模型及工具）\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  | 类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AgentGPT](https:\u002F\u002Fgithub.com\u002Freworkd\u002FAgentGPT)                                                | 🤖 在浏览器中组装、配置并部署自主AI智能体。                                                                                                                      |          |              |   工具   |\n| [AICommand](https:\u002F\u002Fgithub.com\u002Fkeijiro\u002FAICommand)                                              | ChatGPT与Unity编辑器的集成。                                                                                                                                                         |          |     Unity    |   工具   |\n| [AIOS](https:\u002F\u002Fgithub.com\u002Fagiresearch\u002FAIOS)                                                    | LLM智能体操作系统。                                                                                                                                                                    |          |              |   工具   |\n| [AI Scientist](https:\u002F\u002Fgithub.com\u002FSakanaAI\u002FAI-Scientist)                                       | AI科学家：迈向完全自动化的开放式科学发现。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06292)  |             |   工具   |\n| [Assistant CLI](https:\u002F\u002Fgithub.com\u002Fdiciaup\u002Fassistant-cli)                                      | 一款舒适的CLI工具，用于使用ChatGPT服务🔥                                                                                                                                               |          |              |   工具   |\n| [Auto-GPT](https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT)                                   | 一个实验性的开源尝试，旨在使GPT-4完全自主化。                                                                                                                            |           |             |   工具   |\n| [BabyAGI](https:\u002F\u002Fgithub.com\u002Fyoheinakajima\u002Fbabyagi)                                            | 这个Python脚本是一个由AI驱动的任务管理系统的示例。                                                                                                                      |          |              |   工具   |\n| [👶🤖🖥️ BabyAGI UI](https:\u002F\u002Fgithub.com\u002Fmiurla\u002Fbabyagi-ui)                                    | BabyAGI UI旨在通过类似ChatGPT的Web应用，更轻松地运行和开发BabyAGI。                                                                                      |           |             |   工具   |\n| [baichuan-7B](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002Fbaichuan-7B)                                     | 百川公司开发的大规模70亿参数预训练语言模型。                                                                                                                             |           |             |   工具   |\n| [Baichuan-13B](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-13B)                                   | 百川智能科技公司开发的130亿参数大型语言模型。                                                                                                                       |          |              |   工具   |\n| [Baichuan 2](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan2)                                        | 百川智能科技公司开发的一系列大型语言模型。                                                                                                                |           |             |   工具   |\n| [Bisheng](https:\u002F\u002Fgithub.com\u002Fdataelement\u002Fbisheng)                                              | Bisheng是一个面向下一代AI应用的开放LLM DevOps平台。                                                                                                                    |           |             |   工具   |\n| [Character-LLM](https:\u002F\u002Fgithub.com\u002Fchoosewhatulike\u002Ftrainable-agents)                           | 一种可训练的角色扮演智能体。                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10158)  |             |   工具   |\n| [ChatDev](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FChatDev)                                                  | 用于软件开发的沟通型智能体。                                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.07924)  |             |   工具   |\n| [ChatGPT-API-unity](https:\u002F\u002Fgithub.com\u002Fmochi-neko\u002FChatGPT-API-unity)                           | 将ChatGPT聊天完成API绑定到Unity上的纯C#代码中。                                                                                                                                         |          |     Unity    |   工具   |\n| [ChatGPTForUnity](https:\u002F\u002Fgithub.com\u002Fsunsvip\u002FChatGPTForUnity)                                  | 面向Unity的ChatGPT。                                                                                                                                                                             |           |    Unity    |   工具   |\n| [ChatRWKV](https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FChatRWKV)                                                | ChatRWKV类似于ChatGPT，但由RWKV（100% RNN）语言模型驱动，并且是开源的。                                                                                                       |           |             |   工具   |\n| [ChatYuan](https:\u002F\u002Fgithub.com\u002Fclue-ai\u002FChatYuan)                                                | 中英双语对话用大型语言模型。                                                                                                                                      |           |             |   工具   |\n| [Chinese-LLaMA-Alpaca-3](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca-3)                      | （中文Llama-3 LLMs）基于Meta Llama 3开发。                                                                                                                                            |            |            |   工具   |\n| [Chrome-GPT](https:\u002F\u002Fgithub.com\u002Frichardyc\u002FChrome-GPT)                                          | 一个控制桌面Chrome浏览器的AutoGPT智能体。                                                                                                                                         |           |             |   工具   |\n| [CogVLM](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVLM\u002Fsummary)                              | CogVLM是一款强大的开源视觉语言基础模型。                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03079)  |             |   工具   |\n| [CoreNet](https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet)                                                    | 一个用于训练深度神经网络的库。                                                                                                                                                   |            |            |   工具   |\n| [Cosmos](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FCosmos)                                                     | Cosmos是一个世界模型开发平台，由世界基础模型、分词器和视频处理流水线组成，旨在加速机器人和自动驾驶实验室中物理AI的开发。      |            |             |   LLM   |\n| [DBRX](https:\u002F\u002Fgithub.com\u002Fdatabricks\u002Fdbrx)                                                     | DBRX是由Databricks训练的大规模语言模型。                                                                                                                                          |          |              |   工具   |\n| [DCLM](https:\u002F\u002Fgithub.com\u002Fmlfoundations\u002Fdclm)                                                  | 面向语言模型的数据压缩。                                                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.11794)  |             |   工具   |\n| [DeepSeek-R1](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1)                                      | DeepSeek-R1-Zero是一种通过大规模强化学习（RL）训练的模型，无需监督微调（SFT）作为前期步骤，在推理方面表现出色。       |             |             |   LLM   |\n| [DeepSeek-V3](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-V3)                                      | DeepSeek-V3是一个强大的专家混合（MoE）语言模型，总参数量为6710亿，每次处理一个token时激活370亿参数。             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.19437)  |             |   LLM   |\n| [DemoGPT](https:\u002F\u002Fgithub.com\u002Fmelih-unsal\u002FDemoGPT)                                              | 借助Llama 2的力量自动生成AI应用程序                                                                                                                                            |          |              |   工具   |\n| [Design2Code](https:\u002F\u002Fgithub.com\u002FNoviScl\u002FDesign2Code)                                          | 自动化前端工程                                                                                                                                                               |          |              |   工具   |\n| [Devika](https:\u002F\u002Fgithub.com\u002Fstitionai\u002Fdevika)                                                  | Devika是一个基于智能体的AI软件工程师。                                                                                                                                                     |          |              |   工具   |\n| [Devon](https:\u002F\u002Fgithub.com\u002Fentropy-research\u002FDevon)                                             | 一个开源的结对编程工具。                                                                                                                                                                |          |              |   工具   |\n| [Dora](https:\u002F\u002Fwww.dora.run\u002Fai)                                                                | 每次输入一个提示即可生成强大的网站。                                                                                                                                            |           |             |   工具   |\n| [Flowise](https:\u002F\u002Fgithub.com\u002FFlowiseAI\u002FFlowise)                                                | 使用LangchainJS拖放式UI构建自定义LLM流程。                                                                                                                            |           |             |   工具   |\n| [Gemini](https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini)                                          | Gemini从一开始就专为多模态设计——能够无缝地在文本、图像、视频、音频和代码之间进行推理。                                                                      |          |              |   工具   |\n| [Gemma](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fgemma_pytorch)                                               | Gemma是一系列轻量级、最先进的开源模型，基于用于创建Google Gemini模型的研究和技术打造。                                                      |          |              |   工具   |\n| [gemma.cpp](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fgemma.cpp)                                               | 谷歌Gemma模型的轻量级独立C++推理引擎。                                                                                                                        |          |              |   工具   |\n| [GLM-4](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FGLM-4)                                                        | GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本。                                                                   |          |              |   工具   |\n| [GLM-4.5](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-4.5)                                                  | GLM-4.5：Z.ai设计的一款面向智能体的开源大型语言模型。                                                                                                          |          |              |   LLM   |\n| [GPT4All](https:\u002F\u002Fgithub.com\u002Fnomic-ai\u002Fgpt4all)                                                 | 一个基于大量干净助手数据（包括代码、故事和对话）训练的聊天机器人。                                                                                        |           |             |   工具   |\n| [GPT-4o](https:\u002F\u002Fopenai.com\u002Findex\u002Fhello-gpt-4o\u002F)                                               | GPT-4o（“o”代表“omni”）是迈向更加自然的人机交互的重要一步——它可以接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。                                                                                                                                                                |          |              |   工具   |\n| [gpt-oss](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgpt-oss)                                                   | gpt-oss-120b和gpt-oss-20b是OpenAI的两款开放权重语言模型。                                                                                                                    |          |              |   LLM   |\n| [GPTScript](https:\u002F\u002Fgithub.com\u002Fgptscript-ai\u002Fgptscript)                                         | 用自然语言开发LLM应用。                                                                                                                                                          |          |              |   工具   |\n| [Grok-1](https:\u002F\u002Fx.ai\u002Fblog\u002Fgrok-os)                                                            | 我们的3140亿参数专家混合模型Grok-1的权重和架构。                                                                                                   |          |              |   工具   |\n| [HuggingChat](https:\u002F\u002Fhuggingface.co\u002Fchat\u002F)                                                    | 让社区中最优秀的AI聊天模型惠及所有人。                                                                                                                              |          |              |   工具   |\n| [Hugging Face API Unity集成](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Funity-api)                 | 此Unity包提供了Hugging Face推理API的易用集成，使开发者能够在他们的Unity项目中访问和使用Hugging Face AI模型。       |          |     Unity     |   工具   |\n| [Hunyuan-MT](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuan-MT)                                    | Hunyuan-MT由一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera组成。翻译模型用于将源文本翻译成目标语言，而集成模型则整合多个翻译结果以产生更高质量的输出。                                                                                      |          |              |   LLM   |\n| [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind)                                     | ImageBind：一个嵌入空间，连接一切。                                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.05665)  |        |   工具   |\n| [Index-1.9B](https:\u002F\u002Fgithub.com\u002Fbilibili\u002FIndex-1.9B)                                           | 一款SOTA轻量级多语言LLM。                                                                                                                                                            |          |              |   工具   |\n| [InteractML-Unity](https:\u002F\u002Fgithub.com\u002FInteractml\u002Fiml-unity)                                    | InteractML，一个用于Unity3D的交互式机器学习可视化脚本框架。                                                                                                            |          |     Unity     |   工具   |\n| [InteractML-Unreal Engine](https:\u002F\u002Fgithub.com\u002FInteractml\u002Fiml-ue4)                              | 将机器学习引入虚幻引擎。                                                                                                                                                    |          | Unreal Engine |   工具   |\n| [InternLM](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM)                                               | InternLM已开源一个70亿参数的基础模型、一个针对实际场景定制的聊天模型以及训练系统。   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.17297)  |     |   工具   |\n| [InternLM-XComposer](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer)                           | InternLM-XComposer2是一款开创性的视觉-语言大型模型（VLLM），在自由形式的文本-图像创作和理解方面表现出众。  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.06512)  |     |   工具   |\n| [Jan](https:\u002F\u002Fgithub.com\u002Fjanhq\u002Fjan)                                                            | 将AI带到你的桌面。                                                                                                                                                                      |          |              |   工具   |\n| [Janus](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FJanus)                                                  | Janus：解耦视觉编码，实现统一的多模态理解和生成。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13848)  |     |   LLM   |\n| [Kimi K2](https:\u002F\u002Fgithub.com\u002Fmoonshotai\u002FKimi-K2)                                               | Kimi K2是一款最先进的专家混合（MoE）语言模型，拥有320亿激活参数和1万亿总参数。                                                |          |              |   LLM   |\n| [Lamini](https:\u002F\u002Fgithub.com\u002Flamini-ai\u002Flamini)                                                  | Lamini允许任何工程团队通过RLHF和基于自身数据的微调，超越通用LLM的表现。                                                                      |          |              |   工具   |\n| [LaMini-LM](https:\u002F\u002Fgithub.com\u002Fmbzuai-nlp\u002FLaMini-LM)                                           | LaMini-LM是一系列从小型、高效的语言模型中蒸馏而来，这些模型源自ChatGPT，并在包含258万条指令的大规模数据集上训练而成。                                  |          |              |   工具   |\n| [LangChain](https:\u002F\u002Fgithub.com\u002Fhwchase17\u002Flangchain)                                            | LangChain是一个用于开发由语言模型驱动的应用程序的框架。                                                                                                               |          |              |   工具   |\n| [LangFlow](https:\u002F\u002Fgithub.com\u002Flogspace-ai\u002Flangflow)                                            | ⛓️ LangFlow是LangChain的UI，采用react-flow设计，提供了一种轻松的方式来试验和原型化流程。                                                                   |          |              |   工具   |\n| [LaVague](https:\u002F\u002Fgithub.com\u002Flavague-ai\u002FLaVague)                                               | 使用大型行动模型框架自动化自动化。                                                                                                                                         |          |              |   工具   |\n| [Lemur](https:\u002F\u002Fgithub.com\u002FOpenLemur\u002FLemur)                                                    | 面向语言智能体的开放基础模型。                                                                                                                                                    |          |              |   工具   |\n| [Lepton AI](https:\u002F\u002Fgithub.com\u002Fleptonai\u002Fleptonai)                                              | 一个简化AI服务构建的Python框架。                                                                                                                                          |          |              |   工具   |\n| [Lit-LLaMA](https:\u002F\u002Fgithub.com\u002FLightning-AI\u002Flit-llama)                                         | 基于nanoGPT实现的LLaMA语言模型。支持闪存注意力、Int8和GPTQ 4位量化、LoRA和LLaMA-Adapter微调以及预训练。                   |          |              |   工具   |\n| [llama2-webui](https:\u002F\u002Fgithub.com\u002Fliltom-eth\u002Fllama2-webui)                                     | 在GPU或CPU上，通过gradio UI在本地运行Llama 2，无论你身在何处（Linux\u002FWindows\u002FMac）。                                                                                                            |          |              |   工具   |\n| [Llama 3](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama3)                                                | Meta Llama 3的官方GitHub站点。                                                                                                                                                         |          |              |   工具   |\n| [Llama 3.1](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama-models)                                        | Llama是一个易于使用的开放大型语言模型（LLM），专为开发者、研究人员和企业设计，帮助他们构建、实验并负责任地扩展其生成式AI想法。                                                                                                                                                         |          |              |   工具   |\n| [LLaSM](https:\u002F\u002Fgithub.com\u002FLinkSoul-AI\u002FLLaSM)                                                  | 大型语言和语音模型。                                                                                                                                                               |          |              |   工具   |\n| [LLM Answer Engine](https:\u002F\u002Fgithub.com\u002Fdevelopersdigest\u002Fllm-answer-engine)                     | 使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave和Serper构建一个受Perplexity启发的答案引擎。                                                                              |           |             |   工具   |\n| [llm.c](https:\u002F\u002Fgithub.com\u002Fkarpathy\u002Fllm.c)                                                     | 使用简单原始的C\u002FCUDA进行LLM训练。                                                                                                                                                            |          |              |   工具   |\n| [LLMUnity](https:\u002F\u002Fgithub.com\u002Fundreamai\u002FLLMUnity)                                              | 用LLM在Unity中创建角色！                                                                                                                                                          |          |     Unity    |   工具   |\n| [LLocalSearch](https:\u002F\u002Fgithub.com\u002Fnilsherzig\u002FLLocalSearch)                                     | LLocalSearch是一个完全在本地运行的搜索引擎，使用LLM智能体。                                                                                                                   |          |              |   工具   |\n| [LogicGamesSolver](https:\u002F\u002Fgithub.com\u002Ffabridigua\u002FLogicGamesSolver)                             | 一个Python工具，利用AI、深度学习和计算机视觉来解决逻辑游戏。                                                                                                                 |          |              |   工具   |\n| [LongCat-Flash](https:\u002F\u002Fgithub.com\u002Fmeituan-longcat\u002FLongCat-Flash-Chat)                         | LongCat-Flash是一款功能强大且高效的语言模型，总参数量达5600亿，采用了创新的专家混合（MoE）架构。该模型包含动态计算机制，可根据上下文需求激活186亿至313亿个参数（平均约270亿），从而优化计算效率和性能。           |          |              |   LLM   |\n| [LongWriter](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FLongWriter)                                              | LongWriter：释放来自长上下文LLM的1万字以上生成能力。                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.07055)  |              |   工具   |\n| [Large World Model (LWM)](https:\u002F\u002Fgithub.com\u002FLargeWorldModel\u002FLWM)                              | Large World Model（LWM）是一个通用的大上下文多模态自回归模型。                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.08268)  |              |   工具   |\n| [Lumina-T2X](https:\u002F\u002Fgithub.com\u002FAlpha-VLLM\u002FLumina-T2X)                                         | Lumina-T2X是一个用于文本到任意模态生成的统一框架。                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.05945)  |              |   工具   |\n| [MetaGPT](https:\u002F\u002Fgithub.com\u002Fgeekan\u002FMetaGPT)                                                   | 多智能体框架                                                                                                                                                                      |          |              |   工具   |\n| [MiniCPM-2B](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM)                                               | 一款端侧LLM的表现优于Llama2-13B。                                                                                                                                                        |          |              |   工具   |\n| [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4)                                          | 通过先进的大型语言模型增强视觉-语言理解能力。                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.10592)  |              |   工具   |\n| [MiniGPT-5](https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FMiniGPT-5)                                          | 通过生成性词汇进行视觉与语言的交替生成。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02239)  |              |   工具   |\n| [MiniMax-01](https:\u002F\u002Fgithub.com\u002FMiniMax-AI\u002FMiniMax-01)                                         | MiniMax-01：利用闪电注意力扩展基础模型。                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.08313)  |              |   LLM   |\n| [Mixtral 8x7B](https:\u002F\u002Fmistral.ai\u002Fnews\u002Fmixtral-of-experts\u002F)                                    | 一款高质量的稀疏专家混合模型。                                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.04088)  |              |   工具   |\n| [Mistral 7B](https:\u002F\u002Fmistral.ai\u002Fnews\u002Fannouncing-mistral-7b\u002F)                                   | 目前最好的7B模型，采用Apache 2.0许可。                                                                                                                                                         |          |              |   工具   |\n| [Mistral Large](https:\u002F\u002Fmistral.ai\u002Fnews\u002Fmistral-large\u002F)                                        | Mistral Large是一款全新的尖端文本生成模型。它达到了顶级的推理能力。                                                                                         |          |              |   工具   |\n| [MLC LLM](https:\u002F\u002Fgithub.com\u002Fmlc-ai\u002Fmlc-llm)                                                   | 使每个人都能在自己的设备上原生开发、优化和部署AI模型。                                                                                                      |          |              |   工具   |\n| [MobiLlama](https:\u002F\u002Fgithub.com\u002Fmbzuai-oryx\u002FMobiLlama)                                          | 朝着准确、轻量且完全透明的GPT迈进。                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16840)  |              |   工具   |\n| [MoE-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FMoE-LLaVA)                                        | 用于大型视觉-语言模型的专家混合。                                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.15947)  |              |   工具   |\n| [Moshi](https:\u002F\u002Fwww.moshi.chat\u002F?queue_id=talktomoshi)                                          | Moshi是一个实验性的会话式AI。                                                                                                                                                    |          |              |   工具   |\n| [Moshi](https:\u002F\u002Fgithub.com\u002Fkyutai-labs\u002Fmoshi)                                                  | Moshi：一个用于实时对话的语音-文本基础模型。                                                                                                                                                    |          |              |   工具   |\n| [MOSS](https:\u002F\u002Fgithub.com\u002FOpenLMLab\u002FMOSS)                                                      | 复旦大学推出的一款开源工具增强型会话式语言模型。                                                                                                             |          |              |   工具   |\n| [mPLUG-Owl🦉](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl)                                            | 模块化赋予大型语言模型多模态能力。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14178)  |              |   工具   |\n| [Nemotron-4](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16819)                                                 | 一款拥有150亿参数的大规模多语言语言模型，基于8万亿个文本标记进行训练。                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16819)  |              |   工具   |\n| [NExT-GPT](https:\u002F\u002Fgithub.com\u002FNExT-GPT\u002FNExT-GPT)                                               | 一种任意模态之间的大型语言模型。                                                                                                                                                    |          |              |   工具   |\n| [OLMo](https:\u002F\u002Fgithub.com\u002Fallenai\u002FOLMo)                                                        | 开放语言模型                                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.00838)  |             |   工具   |\n| [OmniLMM](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FOmniLMM)                                                  | 大型多模态模型，旨在实现强劲性能和高效部署。                                                                                                                      |          |              |   工具   |\n| [OneLLM](https:\u002F\u002Fgithub.com\u002Fcsuhan\u002FOneLLM)                                                     | 一个框架，用于将所有模态与语言对齐。                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03700)  |              |   工具   |\n| [Open-Assistant](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FOpen-Assistant)                                   | OpenAssistant是一个基于聊天的助手，能够理解任务、与第三方系统交互，并动态检索信息来完成任务。                                        |          |              |   工具   |\n| [Open Deep Research](https:\u002F\u002Fgithub.com\u002Fdzhng\u002Fdeep-research)                                   | 一个由AI驱动的科研助手，通过结合搜索引擎、网页抓取和大型语言模型，对任何主题进行迭代式的深入研究。                                   |          |              |   LLM   |\n| [OpenDevin](https:\u002F\u002Fgithub.com\u002FOpenDevin\u002FOpenDevin)                                            | 一个自主AI软件工程师。                                                                                                                                                            |          |              |   工具   |\n| [Orion-14B](https:\u002F\u002Fgithub.com\u002FOrionStarAI\u002FOrion)                                              | Orion-14B是一系列模型的一部分，包括一个140亿参数的基础LLM，以及一系列其他模型。                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.12246)  |              |   工具   |\n| [Panda](https:\u002F\u002Fgithub.com\u002Fdandelionsllm\u002Fpandallm)                                             | 海外华人开源大型语言模型，基于Llama-7B、-13B、-33B、-65B持续在中国领域进行预训练。                                                    |          |              |   工具   |\n| [Perplexica](https:\u002F\u002Fgithub.com\u002FItzCrazyKns\u002FPerplexica)                                        | 一个由AI驱动的搜索引擎。                                                                                                                                                                   |           |             |   工具   |\n| [Pi](https:\u002F\u002Fheypi.com\u002Ftalk)                                                                   | 一款专为个人协助和情感支持设计的AI聊天机器人。                                                                                                                             |          |              |   工具   |\n| [Qwen1.5](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen1.5)                                                   | Qwen1.5是Qwen的改进版本。                                                                                                                                                       |           |             |   工具   |\n| [Qwen2](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2)                                                       | Qwen2是阿里云Qwen团队开发的大语言模型系列。                                                                                                                |           |             |   LLM   |\n| [Qwen2.5-Coder](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Coder)                                       | Qwen2.5-Coder是阿里云Qwen团队开发的大语言模型系列Qwen2.5的代码版本。                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12186)  |             |   LLM   |\n| [Qwen-7B](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-7B)                                                   | 阿里云提出的Qwen-7B（通义千问-7B）聊天及预训练大型语言模型的官方仓库。                                                                                    |          |              |   LLM   |\n| [Qwen3](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3)                                                       | Qwen3是阿里云Qwen团队开发的大语言模型系列。                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.09388)  |              |   LLM   |\n| [RepoAgent](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FRepoAgent)                                              | RepoAgent是一个由大型语言模型（LLMs）驱动的开源项目，旨在提供一种智能化的项目文档记录方式。     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16667)  |              |   工具   |\n| [s1](https:\u002F\u002Fgithub.com\u002Fsimplescaling\u002Fs1)                                                      | s1：简单的测试时缩放。                                                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.19393)  |              |   LLM   |\n| [Sanity AI Engine](https:\u002F\u002Fgithub.com\u002Ftosos\u002FSanityEngine)                                      | 用于Unity游戏开发工具的Sanity AI引擎。                                                                                                                                          |          |     Unity     |   工具   |\n| [SearchGPT](https:\u002F\u002Fgithub.com\u002Ftobiasbueschel\u002Fsearch-gpt)                                      | 🌳 将ChatGPT与互联网连接起来                                                                                                                                                       |          |              |   工具   |\n| [Seed-OSS](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002Fseed-oss)                                         | Seed-OSS是字节跳动Seed团队开发的一系列开源大型语言模型，专为强大的长上下文、推理、代理和通用能力，以及多功能的开发者友好特性而设计。                                                                                                                                                                   |          |              |   LLM   |\n| [ShareGPT4V](https:\u002F\u002Fsharegpt4v.github.io\u002F)                                                    | 通过更好的字幕改善大型多模态模型。                                                                                                                                       |          |              |   工具   |\n| [SkyThought](https:\u002F\u002Fgithub.com\u002FNovaSky-AI\u002FSkyThought)                                         | Sky-T1：只需450美元即可训练自己的O1预览模型。                                                                                                                                           |          |              |   LLM   |\n| [Skywork](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork)                                                | Skywork系列模型已在3.2TB高质量的多语言（主要是中文和英文）以及代码数据上进行了预训练。                                                                  |          |              |   工具   |\n| [StableLM](https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableLM)                                           | 稳定性AI语言模型。                                                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17834)  |              |   工具   |\n| [Stanford Alpaca](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca)                                | 一款遵循指令的LLaMA模型。                                                                                                                                                          |          |              |   LLM   |\n| [Text generation web UI](https:\u002F\u002Fgithub.com\u002Foobabooga\u002Ftext-generation-webui)                   | 一个用于运行LLaMA、llama.cpp、GPT-J、OPT和GALACTICA等大型语言模型的gradio Web UI。                                                                                           |          |              |   工具   |\n| [TinyChatEngine](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002FTinyChatEngine)                                | 设备端LLM推理库。                                                                                                                                                               |          |              |   工具   |\n| [ToolBench](https:\u002F\u002Fgithub.com\u002Fopenbmb\u002Ftoolbench)                                              | 一个用于训练、服务和评估大型语言模型以进行工具学习的开放平台。                                                                                            |           |             |   工具   |\n| [Unity ChatGPT](https:\u002F\u002Fgithub.com\u002Fdilmerv\u002FUnityChatGPT)                                       | Unity ChatGPT实验。                                                                                                                                                                     |          |     Unity     |   工具   |\n| [Unity OpenAI-API集成](https:\u002F\u002Fgithub.com\u002Fhimanshuskyrockets\u002FUnity_OpenAI)             | 将OpenAI的GPT-3语言模型和ChatGPT API集成到Unity项目中。                                                                                                                    |          |     Unity     |   工具   |\n| [Unreal Engine 5 Llama LoRA](https:\u002F\u002Fgithub.com\u002Fbublint\u002Fue5-llama-lora)                        | 一个概念验证项目，展示了使用小型、可本地训练的LLM创建下一代文档工具的可能性。                                        |          | Unreal Engine |   工具   |\n| [UnrealGPT](https:\u002F\u002Fgithub.com\u002FTREE-Ind\u002FUnrealGPT)                                             | 一组由GPT3\u002F4驱动的Unreal Engine 5编辑器实用工具小部件。                                                                                                                      |          | Unreal Engine |   工具   |\n| [Video-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA)                                    | 通过投影前的对齐学习统一的视觉表征。                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10122)  |              |   工具   |\n| [WebGPT](https:\u002F\u002Fgithub.com\u002F0hq\u002FWebGPT)                                                        | 使用WebGPU在浏览器上运行GPT模型。                                                                                                                                                      |          |              |   工具   |\n| [Web3-GPT](https:\u002F\u002Fgithub.com\u002FMarkeljan\u002FWeb3GPT)                                               | 用AI部署智能合约                                                                                                                                                                 |          |              |   工具   |\n| [WordGPT](https:\u002F\u002Fgithub.com\u002Ffilippofinke\u002FWordGPT)                                             | 🤖 将ChatGPT的强大功能带入Microsoft Word                                                                                                                                               |          |              |   工具   |\n| [XAgent](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FXAgent)                                                    | 一个用于解决复杂任务的自主LLM智能体。                                                                                                                                              |          |              |   工具   |\n| [Yi](https:\u002F\u002Fgithub.com\u002F01-ai\u002FYi)                                                              | 一系列由开发者从零开始训练的大语言模型。                                                                                                                          |          |              |   工具   |\n| [01 Project](https:\u002F\u002Fgithub.com\u002FOpenInterpreter\u002F01)                                            | 开源的语言模型计算机。                                                                                                                                                       |          |              |   工具   | \n| [SimpleOllamaUnity](https:\u002F\u002Fgithub.com\u002FHardCodeDev777\u002FSimpleOllamaUnity)                       | Ollama与Unity引擎的集成（可在运行时和编辑器中使用）                                                                                                                              |          |     Unity    |   工具   |\n| [AI-Writer](https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FAI-Writer)                                              | AI撰写小说、奇幻和言情网络文章等。中国预训练的生成式模型。                                                                                    |               |              |  Writer  |\n| [Notebook.ai](https:\u002F\u002Fgithub.com\u002Findentlabs\u002Fnotebook)                                          | Notebook.ai是一套工具，供作家、游戏设计师和角色扮演者创造宏伟的世界——以及其中的一切。                                                  |               |              |  Writer  |\n| [Novel](https:\u002F\u002Fgithub.com\u002Fsteven-tey\u002Fnovel)                                                   | 带有AI驱动自动补全功能的类Notion WYSIWYG编辑器。                                                                                                                                   |               |              |  Writer  |\n| [NovelAI](https:\u002F\u002Fnovelai.net\u002F)                                                                | 在AI的驱动下，轻松构建独特的故事、惊险的传奇、诱人的浪漫，或者只是随意玩一玩。                                                                                 |               |              |  Writer  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"visual\">VLM（视觉）\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎 | 类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [Cambrian-1](https:\u002F\u002Fgithub.com\u002Fcambrian-mllm\u002Fcambrian)                                     | Cambrian-1：一个完全开源、以视觉为中心的多模态大模型探索。                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.16860)  |              | 多模态大模型  |\n| [CogVLM2](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVLM2)                                                 | 基于Llama3-8B的GPT4V级别开源多模态模型。                                                                                       |                           |              | 视觉  |\n| [CoTracker](https:\u002F\u002Fco-tracker.github.io\u002F)                                                  | 共同追踪更佳。                                                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.07635)  |               | 视觉 |\n| [dots.vlm1](https:\u002F\u002Fgithub.com\u002Frednote-hilab\u002Fdots.vlm1)                                     | dots.vlm1是dots模型家族中的首个视觉-语言模型。它基于一个拥有12亿参数的视觉编码器和DeepSeek V3大型语言模型（LLM），展现出强大的多模态理解和推理能力。                                                                                 |                           |              | VLM  |\n| [EVF-SAM](https:\u002F\u002Fgithub.com\u002Fhustvl\u002FEVF-SAM)                                                | EVF-SAM：用于文本提示分割一切模型的早期视觉-语言融合。                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.20076)  |               | 视觉 |\n| [FaceHi](https:\u002F\u002Fm.facehi.ai\u002F)                                                              | 共同追踪更佳。                                                                                                                       |                                           |               | 视觉 |\n| [GLM-V](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-V)                                                   | GLM-4.1V-Thinking和GLM-4.5V：通过可扩展的强化学习实现多功能多模态推理。                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.01006)  |               | VLM |\n| [InternLM-XComposer2](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer)                       | InternLM-XComposer2是一款突破性的视觉-语言大型模型（VLLM），在自由格式的文本-图像组合与理解方面表现出色。           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.06512)  |               | 视觉 |\n| [Kangaroo](https:\u002F\u002Fgithub.com\u002FKangarooGroup\u002FKangaroo)                                       | Kangaroo：一款支持长上下文视频输入的强大视频-语言模型。                                                                        |                                           |               | 视觉 |\n| [Kwai Keye-VL](https:\u002F\u002Fgithub.com\u002FKwai-Keye\u002FKeye)                                           | Kwai Keye-VL是由快手Kwai Keye团队精心打造的尖端多模态大型语言模型。              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.01563)  |               | VLM |\n| [LGVI](https:\u002F\u002Fjianzongwu.github.io\u002Fprojects\u002Frovi\u002F)                                         | 通过多模态大型语言模型实现语言驱动的视频修复。                                                                         |                                           |               | 视觉 |\n| [LLaVA++](https:\u002F\u002Fgithub.com\u002Fmbzuai-oryx\u002FLLaVA-pp)                                          | 利用LLaMA-3和Phi-3扩展视觉能力。                                                                                                     |                                     |              | 视觉  |\n| [LLaVA-OneVision](https:\u002F\u002Fgithub.com\u002FLLaVA-VL\u002FLLaVA-NeXT)                                   | LLaVA-OneVision：轻松实现视觉任务迁移。                                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.03326)  |              | 视觉  |\n| [LongVA](https:\u002F\u002Fgithub.com\u002FEvolvingLMMs-Lab\u002FLongVA)                                        | 从语言到视觉的长上下文迁移。                                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.16852)  |              | 视觉  |\n| [Lumina-DiMOO](https:\u002F\u002Fgithub.com\u002FAlpha-VLLM\u002FLumina-DiMOO)                                  | Lumina-DiMOO：一款用于多模态生成与理解的全能扩散大型语言模型。                                                |                                     |              | VLM  |\n| [MaskViT](https:\u002F\u002Fmaskedvit.github.io\u002F)                                                     | 用于视频预测的掩码视觉预训练。                                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.11894)  |              | 视觉 |\n| [MiniCPM-Llama3-V 2.5](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-V)                                | 手机上的GPT-4V级别多模态大模型。                                                                                                                        |                                      |              | 视觉  |\n| [MiniCPM-V 4.0](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-o)                                       | MiniCPM-V 4.0：一款可在手机上处理单张图片、多张图片及视频的GPT-4V级别多模态大模型。                                                                 |                                      |              | 视觉  |\n| [MoE-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FMoE-LLaVA)                                     | 针对大型视觉-语言模型的专家混合模型。                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.15947)  |              | 视觉  |\n| [MotionLLM](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FMotionLLM)                                     | 从人类动作和视频中理解人类行为。                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.20340)  |              | 视觉  |\n| [PLLaVA](https:\u002F\u002Fgithub.com\u002Fmagic-research\u002FPLLaVA)                                          | 无需参数的LLaVA扩展，可将图像应用于视频密集字幕生成。                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16994)  |              | 视觉  |\n| [POINTS-Reader](https:\u002F\u002Fgithub.com\u002FTencent\u002FPOINTS-Reader)                                   | POINTS-Reader：用于文档转换的无蒸馏视觉-语言模型适配。                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.01215)  |              | 视觉  |\n| [Qwen-VL](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-VL)                                                | 一款多功能视觉-语言模型，可用于理解、定位、文本阅读等任务。                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12966)  |              | 视觉  |\n| [Sapiens](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsapiens)                                      | Sapiens：人类视觉模型的基础。                                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.12569)  |              | 视觉  |\n| [ShareGPT4V](https:\u002F\u002Fgithub.com\u002FShareGPT4Omni\u002FShareGPT4V)                                   | 通过更好的字幕提升大型多模态模型性能。                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12793)  |              | 视觉  |\n| [SOLO](https:\u002F\u002Fgithub.com\u002FYangyi-Chen\u002FSOLO)                                                 | SOLO：一种用于可扩展视觉-语言建模的单一Transformer。                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.06438)  |              | 视觉  |\n| [VideoAgent](https:\u002F\u002Fgithub.com\u002FYueFan1014\u002FVideoAgent)                                      | VideoAgent：一种记忆增强型多模态代理，用于视频理解。                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.11481)  |              | 代理  |\n| [Video-CCAM](https:\u002F\u002Fgithub.com\u002FQQ-MM\u002FVideo-CCAM)                                           | Video-CCAM：利用因果交叉注意力掩码推进视频-语言理解。                                                                                          |  |              | 视觉  |\n| [Video-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA)                                 | 通过投影前的对齐学习统一的视觉表征。                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10122)  |              | 视觉  |\n| [VideoLLaMA 2](https:\u002F\u002Fgithub.com\u002FDAMO-NLP-SG\u002FVideoLLaMA2)                                  | 在视频LLM中推进时空建模和音频理解。                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07476)  |              | 视觉  |\n| [VideoLLaMA 3](https:\u002F\u002Fgithub.com\u002FDAMO-NLP-SG\u002FVideoLLaMA3)                                  | VideoLLaMA 3：用于图像和视频理解的前沿多模态基础模型。                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13106)  |              | 视觉  |\n| [Video-MME](https:\u002F\u002Fgithub.com\u002FBradyFU\u002FVideo-MME)                                           | 首个全面评估多模态大模型在视频分析中表现的基准测试。                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.21075)  |              | 视觉  |\n| [Vitron](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron)                                               | 一款统一的像素级视觉LLM，可用于理解、生成、分割、编辑。                                                                      |                                      |              | 视觉  |\n| [VILA](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FVILA)                                                      | VILA：关于视觉语言模型预训练的研究。                                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07533)  |              | 视觉  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"game\">游戏（世界模型与智能体）\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  | 类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AgentBench](https:\u002F\u002Fgithub.com\u002Fthudm\u002Fagentbench)                                              | 一个全面的基准测试，用于评估作为代理的大型语言模型。                                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03688)  |        |   代理  |\n| [Agent Group Chat](https:\u002F\u002Fgithub.com\u002FMikeGu721\u002FAgentGroup)                                    | 一种交互式群聊模拟器，用于更好地激发集体涌现行为。                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.13433)  |        |   代理  |\n| [Agent K](https:\u002F\u002Fgithub.com\u002Fmikekelly\u002FAgentK)                                                 | 一个自我进化且模块化的自动代理型AGI。                                                                                                                            |         |              |   代理  |\n| [Agent Laboratory](https:\u002F\u002Fgithub.com\u002FSamuelSchmidgall\u002FAgentLaboratory)                        | 代理实验室：将LLM代理用作研究助理。                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04227)  |        |   代理  |\n| [AgentScope](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fagentscope)                                         | 以更简便的方式开始构建由LLM赋能的多代理应用。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.14034)  |              |   代理  |\n| [AgentSims](https:\u002F\u002Fgithub.com\u002Fpy499372727\u002FAgentSims\u002F)                                         | 一个用于大型语言模型评估的开源沙盒。                                                                                                                            |         |              |   代理  |\n| [AI Town](https:\u002F\u002Fgithub.com\u002Fa16z-infra\u002Fai-town)                                               | AI Town是一个虚拟小镇，AI角色在这里生活、聊天和社交。                                                                                                                |         |              |   代理  |\n| [anime.gf](https:\u002F\u002Fgithub.com\u002Fcyanff\u002Fanime.gf)                                                 | CharacterAI的本地开源替代品。                                                                                                                                         |        |              |   游戏   |\n| [Astrocade](https:\u002F\u002Fwww.astrocade.com\u002F)                                                        | 使用AI创建游戏                                                                                                                                                                    |        |              |   游戏   |\n| [Atomic Agents](https:\u002F\u002Fgithub.com\u002FKennyVaneetvelde\u002Fatomic_agents)                             | Atomic Agents框架设计为模块化、可扩展且易于使用。                                                                                                     |        |              |   代理  |\n| [AutoAgents](https:\u002F\u002Fgithub.com\u002FLink-AGI\u002FAutoAgents)                                           | 一个用于自动生成代理的框架。                                                                                                                                             |        |              |   代理  |\n| [AutoGen](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fautogen)                                                | 启用下一代大型语言模型应用。                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.08155)  |              |   代理  |\n| [AWorld](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FAWorld)                                             | AWorld：用于自我改进的代理运行时。                                                                                                                                            |        |              |   代理  |\n| [behaviac](https:\u002F\u002Fgithub.com\u002FTencent\u002Fbehaviac)                                                | Behaviac是游戏AI开发的一个框架。                                                                                                                               |              |              | 框架 |\n| [Biomes](https:\u002F\u002Fgithub.com\u002Fill-inc\u002Fbiomes-game)                                               | Biomes是一款开源沙盒MMORPG，基于Web技术（如Next.js、TypeScript、React和WebAssembly）构建。                                                    |       |              |   游戏   |\n| [Buffer of Thoughts](https:\u002F\u002Fgithub.com\u002FYangLing0818\u002Fbuffer-of-thought-llm)                    | 基于大型语言模型的思维增强推理。                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04271)  |              |   代理  |\n| [Byzer-Agent](https:\u002F\u002Fgithub.com\u002Fallwefantasy\u002Fbyzer-agent)                                     | 一个简单、快速且分布式的代理框架，适合所有人。                                                                                                                               |        |              |   代理  |\n| [Cat Town](https:\u002F\u002Fgithub.com\u002Fykhli\u002Fcat-town)                                                  | 一款由ChatGPT驱动的猫咪模拟器。                                                                                                                                               |        |              |   代理  |\n| [Cat Town](https:\u002F\u002Fgithub.com\u002Fykhli\u002Fcat-town)                                                  | 一款由ChatGPT驱动的猫咪模拟器。                                                                                                                                               |        |              |   代理  |\n| [CharacterGLM](https:\u002F\u002Fgithub.com\u002Fthu-coai\u002FCharacterGLM-6B)                                    | 使用大型语言模型定制中文对话AI角色。                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.16832)  |              |   代理  |\n| [ChatDev](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FChatDev)                                                  | 用于软件开发的沟通型代理。                                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.04219)  |              |   代理  |\n| [CogAgent](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fcogagent-chat\u002Fsummary)                         | CogAgent是在CogVLM基础上改进的开源视觉语言模型。                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.08914)  |              |   代理  |\n| [ComoRAG](https:\u002F\u002Fgithub.com\u002FEternityJune25\u002FComoRAG)                                           | ComoRAG：一种受认知启发、按记忆组织的RAG系统，用于有状态的长篇叙事推理。                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.10419)  |              |   代理  |\n| [Cradle](https:\u002F\u002Fgithub.com\u002FBAAI-Agents\u002FCradle)                                                | 朝着通用计算机控制迈进。                                                                                                                                                         |      |              |   代理  |\n| [crewAI](https:\u002F\u002Fgithub.com\u002Fjoaomdmoura\u002FcrewAI)                                                | 一个用于编排角色扮演、自主AI代理的框架。                                                                                                                          |       |              |   代理  |\n| [Datarus Jupyter Agent](https:\u002F\u002Fgithub.com\u002FDatarusAI\u002FDatarus-JupyterAgent)                     | Datarus Jupyter Agent是一个强大的多步推理系统，能够通过逐步推理、自动错误恢复和综合结果合成来执行复杂的分析工作流。                                                                                                                                                                             |       |              |   代理  |\n| [Dify](https:\u002F\u002Fgithub.com\u002Flanggenius\u002Fdify)                                                     | Dify是一个开源的LLM应用构建平台。                                                                                                                                        |       |              |   代理  |\n| [Digital Life Project](https:\u002F\u002Fdigital-life-project.com\u002F)                                      | 具有社交智能的自主3D角色。                                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.04547)  |              |   代理  |\n| [everything-ai](https:\u002F\u002Fgithub.com\u002FAstraBert\u002Feverything-ai)                                    | 你的全功能、AI驱动且本地化的聊天机器人助手🤖。                                                                                                                        |       |              |   代理  |\n| [fabric](https:\u002F\u002Fgithub.com\u002Fdanielmiessler\u002Ffabric)                                             | fabric是一个开源框架，用于利用AI增强人类能力。                                                                                                                       |       |              |   代理  |\n| [FastGPT](https:\u002F\u002Fgithub.com\u002Flabring\u002FFastGPT)                                                  | FastGPT是一个基于LLM构建的知识型平台。                                                                                                                                  |       |              |   代理  |\n| [fastRAG](https:\u002F\u002Fgithub.com\u002FIntelLabs\u002FfastRAG)                                                | 高效的检索增强与生成框架。                                                                                                                               |       |              |   代理  |\n| [GameAISDK](https:\u002F\u002Fgithub.com\u002FTencent\u002FGameAISDK)                                              | 基于图像的游戏AI自动化框架。                                                                                                                                         |              |              | 框架 |\n| [GameNGen](https:\u002F\u002Fgamengen.github.io\u002F)                                                        | 扩散模型就是实时游戏引擎。                                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.14837)  |              |   游戏  |\n| [GameGen-O](https:\u002F\u002Fgithub.com\u002FGameGen-O\u002FGameGen-O)                                            | GameGen-O：开放世界视频游戏生成。                                                                                                                                           |         |              |   游戏   |\n| [GenAgent](https:\u002F\u002Fgithub.com\u002FxxyQwQ\u002FGenAgent)                     | GenAgent：通过自动化工作流生成构建协作式AI系统——以ComfyUI为例的案例研究。                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.01392)  |              |   代理  |\n| [Generative Agents](https:\u002F\u002Fgithub.com\u002Fjoonspk-research\u002Fgenerative_agents)                     | 互动的人类行为模拟体。                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03442)  |              |   代理  |\n| [Genesis](https:\u002F\u002Fgithub.com\u002FGenesis-Embodied-AI\u002FGenesis)                                      | Genesis：一个用于机器人及其他领域的生成式通用物理引擎。                                                                                                            |         |              |   游戏   |\n| [Genie](https:\u002F\u002Fsites.google.com\u002Fview\u002Fgenie-2024\u002Fhome)                                         | 生成式互动环境。                                                                                                                                                   |         |              |   游戏   |\n| [Genie 3](https:\u002F\u002Fdeepmind.google\u002Fdiscover\u002Fblog\u002Fgenie-3-a-new-frontier-for-world-models\u002F)      | Genie 3：世界模型的新前沿。Genie 3是一个通用的世界模型，可以生成前所未有的多样化互动环境。                         |         |              |   游戏   |\n| [gigax](https:\u002F\u002Fgithub.com\u002FGigaxGames\u002Fgigax)                                                   | 运行时、LLM驱动的NPC。                                                                                                                                                               |       |              |   游戏   |\n| [HippoRAG](https:\u002F\u002Fgithub.com\u002FOSU-NLP-Group\u002FHippoRAG)                                       | 受神经生物学启发的大型语言模型长期记忆。                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14831)  |              |   代理   |\n| [Hunyuan-GameCraft](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuan-GameCraft-1.0)               | Hunyuan-GameCraft：结合历史条件的高动态互动游戏视频生成。                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.17201)  |              |   游戏   |\n| [HunyuanWorld 1.0](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanWorld-1.0)                     | HunyuanWorld 1.0：从文字或像素生成沉浸式、可探索且互动的3D世界。                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21809)  |              |   游戏   |\n| [HunyuanWorld-Voyager](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanWorld-Voyager)             | HunyuanWorld-Voyager是一个新颖的视频扩散框架，它可以根据单张图片和用户定义的摄像机路径生成世界一致的3D点云序列。Voyager可以按照自定义的摄像机轨迹生成3D一致的场景视频，用于世界探索。                                                                                                          |       |              |   游戏   |\n| [HY-World 1.5](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHY-WorldPlay)                                | HY-World 1.5：一个具有实时延迟和几何一致性的交互式世界建模系统性框架。                                                               |       |              |   游戏   |\n| [Interactive LLM Powered NPCs](https:\u002F\u002Fgithub.com\u002FAkshitIreddy\u002FInteractive-LLM-Powered-NPCs)   | 交互式LLM驱动的NPC，是一个开源项目，彻底改变了你在任何游戏中与非玩家角色（NPC）的互动方式！                                       |        |              |   游戏   |\n| [IoA](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FIoA)                                                          | 一个开源的协作式AI代理框架，使多样化的分布式代理能够通过类似互联网的连接协同合作，解决复杂任务。                      |  |              |   代理   |\n| [Jaaz](https:\u002F\u002Fgithub.com\u002F11cafe\u002Fjaaz)                                                         | Jaaz——全球首个开源多模态创意助手。AI设计代理，Lovart的本地替代品。Canva + Cursor。具备设计、编辑和生成图片、海报、分镜等能力的AI代理。                |  |              |   代理   |\n| [KwaiAgents](https:\u002F\u002Fgithub.com\u002FKwaiKEG\u002FKwaiAgents)                                            | 一个基于大型语言模型（LLMs）的通用信息搜索代理系统。                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.04889)  |              |   代理  |\n| [LangChain](https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain)                                         | 将你的LLM应用从原型推向生产。                                                                                                                                  |        |              |   代理  |\n| [Langflow](https:\u002F\u002Fgithub.com\u002Flogspace-ai\u002Flangflow)                                            | Langflow是LangChain的UI，采用react-flow设计，提供了一种轻松的方式来试验和构建流程原型。                                                               |        |              |   代理  |\n| [LangGraph Studio](https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flanggraph-studio)                           | LangGraph Studio提供了一种新的方式来开发LLM应用，通过提供一个专门的代理IDE，实现对复杂代理应用的可视化、交互和调试。        |        |              |   代理  |\n| [LARP](https:\u002F\u002Fgithub.com\u002FMiAO-AI-Lab\u002FLARP)                                                    | 语言-代理角色扮演，适用于开放世界游戏。                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.17653)  |              |   代理  |\n| [LLama Agentic System](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama-agentic-system)                     | Llama Stack API中的代理组件。                                                                                                                                               |      |              |   代理  |\n| [LlamaIndex](https:\u002F\u002Fgithub.com\u002Frun-llama\u002Fllama_index)                                         | LlamaIndex是你的LLM应用的数据框架。                                                                                                                                  |      |              |   代理  |\n| [Matrix-Game](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FMatrix-Game)                                        | Matrix-Game：互动世界基础模型。Matrix-Game是一个17B参数的互动世界基础模型，用于可控的游戏世界生成。                      |      |              |   游戏  |\n| [Matrix-Game 2.0](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FMatrix-Game)                                    | Matrix-Game 2.0：一个开源、实时且流式的互动世界模型。                                                                                                        |      |              |   游戏  |\n| [MindSearch](https:\u002F\u002Fgithub.com\u002FInternLM\u002FMindSearch)                                           | 🔍 一个基于LLM的多代理网络搜索引擎框架（类似于Perplexity.ai Pro和SearchGPT）。                                                                                     |      |              |   代理  |\n| [Mixture of Agents (MoA)](https:\u002F\u002Fgithub.com\u002Ftogethercomputer\u002FMoA)                             | 多代理混合增强了大型语言模型的能力。                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04692)  |              |   代理  |\n| [MMRole](https:\u002F\u002Fgithub.com\u002FYanqiDai\u002FMMRole)                                                   | MMRole：一个全面的框架，用于开发和评估多模态角色扮演代理。                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.04203v1)  |              |   代理  |\n| [Moonlander.ai](https:\u002F\u002Fwww.moonlander.ai\u002F)                                                    | 使用生成式AI无需任何编码即可开始构建3D游戏。                                                                                                                          |       |              | 框架 |\n| [MuG Diffusion](https:\u002F\u002Fgithub.com\u002FKeytoyze\u002FMug-Diffusion)                                     | MuG Diffusion是一款基于Stable Diffusion（最强大的AIGC模型之一）的节奏游戏绘图AI，并进行了大量修改以融入音频波形。               |       |              |   游戏   |\n| [NVIDIA NeMo Agent Toolkit](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo-Agent-Toolkit)                      | NVIDIA NeMo Agent工具包是一个灵活、轻量且统一的库，允许你轻松地将现有的企业代理连接到任何框架下的数据源和工具。               |       |              |   代理   |\n| [Oasis](https:\u002F\u002Fgithub.com\u002Fetched-ai\u002Fopen-oasis)                                               | Oasis是由Decart和Etched开发的互动世界模型。基于扩散变换器，Oasis接收用户键盘输入并以自回归方式生成游戏内容。                |       |              |   游戏   |\n| [OmAgent](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmAgent)                                                | 一个用于解决复杂任务的多模态代理框架。                                                                                                                                 |        |              |   代理  |\n| [OpenAgents](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOpenAgents)                                           | 一个面向野外语言代理的开放平台。                                                                                                                                       |        |              |   代理  |\n| [Opus](https:\u002F\u002Fopus.ai\u002F)                                                                       | 一个将文本转化为视频游戏的AI应用。                                                                                                                                             |       |              |   游戏   |\n| [Pipecat](https:\u002F\u002Fgithub.com\u002Fpipecat-ai\u002Fpipecat)                                            | 开源的语音和多模态对话AI框架。                                                                                                                           |       |              |   代理   |\n| [Qwen-Agent](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Agent)                                             | Qwen-Agent是一个基于Qwen的指令遵循、工具使用、规划和记忆能力来开发LLM应用的框架。                             |        |              |   代理  |\n| [Ragas](https:\u002F\u002Fgithub.com\u002Fexplodinggradients\u002Fragas)                                           | Ragas是一个帮助你评估检索增强生成（RAG）管道的框架。                                                                                     |       |              |   代理  |\n| [RPBench-Auto](https:\u002F\u002Fgithub.com\u002Fboson-ai\u002FRPBench-Auto)                                       | 一个用于评估大型语言模型角色扮演能力的自动化管道。                                                                                                                              |       |              |   游戏   |\n| [Rosebud AI](https:\u002F\u002Frosebud.ai)                                                               | 一个利用AI创建3D游戏和交互式Web应用的氛围编码平台。                                                                                                             |       |              |   游戏   |\n| [SIMA](https:\u002F\u002Fdeepmind.google\u002Fdiscover\u002Fblog\u002Fsima-generalist-ai-agent-for-3d-virtual-environments\u002F)          | 一个用于3D虚拟环境的通才AI代理。                                                                                                                         |       |              |   代理  |\n| [StoryGames.ai](https:\u002F\u002Fstorygames.buildbox.com\u002F)                                              | 为梦想家打造游戏的AI。                                                                                                                                                              |       |              |   游戏   |\n| [SWE-agent](https:\u002F\u002Fgithub.com\u002Fprinceton-nlp\u002FSWE-agent)                                        | 代理计算机接口使软件工程语言模型成为可能。                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.15793)  |              |   代理  |\n| [TaskGen](https:\u002F\u002Fgithub.com\u002Fsimbianai\u002Ftaskgen)                                                | 一个基于任务的代理框架，建立在LLM代理严格的JSON输出之上。                                                                                              |       |              |   代理  |\n| [TEN Agent](https:\u002F\u002Fgithub.com\u002FTEN-framework\u002FTEN-Agent)                                        | TEN Agent是世界上第一个集成OpenAI Realtime API、RTC，并具备天气查询、网页搜索、视觉和RAG功能的实时多模态代理。              |       |              |   代理  |\n| [Translation Agent](https:\u002F\u002Fgithub.com\u002Fandrewyng\u002Ftranslation-agent)                            | 使用反射式工作流进行代理式翻译。                                                                                                                            |       |              |   代理  |\n| [Twitter](https:\u002F\u002Fgithub.com\u002Fwordware-ai\u002Ftwitter)                                              | Twitter Personality是一款网络应用程序，它通过Wordware AI代理分析你的Twitter账号，为你创建个性化的性格档案。                                      |       |              |   代理  |\n| [Unbounded](https:\u002F\u002Fgenerative-infinite-game.github.io\u002F)                                         | Unbounded：一场角色生命模拟的生成式无限游戏。                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.18975)  |              |   游戏   |\n| [Video2Game](https:\u002F\u002Fgithub.com\u002Fvideo2game\u002Fvideo2game)                                         | 从单个视频中生成实时、互动、逼真且兼容浏览器的环境。                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.09833)  |              |   游戏   |\n| [V-IRL](https:\u002F\u002Fvirl-platform.github.io\u002F)                                                      | 将虚拟智能扎根于现实生活中。                                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.03310)  |              |   代理  |\n| [WebDesignAgent](https:\u002F\u002Fgithub.com\u002FDAMO-NLP-SG\u002FWebDesignAgent)                                | 一个用于网页设计的代理。                                                                                                                                             |        |              |   代理  |\n| [XAgent](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FXAgent)                                                    | 一个用于解决复杂任务的自主LLM代理。                                                                                                                                        |       |              |   代理  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"code\">代码\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   |  游戏引擎  |   类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AI代码翻译器](https:\u002F\u002Fgithub.com\u002Fmckaywrigley\u002Fai-code-translator)                       | 使用AI将代码从一种语言翻译成另一种语言。                                                                                                                         |  |        |   代码   |\n| [aiXcoder-7B](https:\u002F\u002Fgithub.com\u002Faixcoder-plugin\u002FaiXcoder-7B)                                  | aiXcoder-7B代码大型语言模型。                                                                                                           |                                                 |              |   代码   |\n| [bloop](https:\u002F\u002Fgithub.com\u002FBloopAI\u002Fbloop)                                                      | bloop是一个用Rust编写的快速代码搜索引擎。                                                                                              |                                                 |              |   代码   |\n| [Chapyter](https:\u002F\u002Fgithub.com\u002Fchapyter\u002Fchapyter)                                               | Jupyter Notebook中的ChatGPT代码解释器。                                                                                                     |                                               |              |   代码   |\n| [CodeGeeX](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX)                                                  | 一个开源的多语言代码生成模型。                                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17568)    |              |   代码   |\n| [CodeGeeX2](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX2)                                                | 一个更强大的多语言代码生成模型。                                                                                               |                                                |              |   代码   |\n| [CodeGeeX4](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX4)                                                | CodeGeeX4：开源的多语言代码生成模型。                                                                                               |                                                |              |   代码   |\n| [CodeGen](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FCodeGen)                                               | CodeGen是一个用于程序合成的开源模型。在TPU-v4上训练。与OpenAI Codex具有竞争力。                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13474)    |              |   代码   |\n| [CodeGen2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FCodeGen2)                                             | 用于程序合成的CodeGen2模型。                                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02309)    |              |   代码   |\n| [Code Llama](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fcodellama)                                    | Code Llama是基于Llama 2的代码大型语言模型。                                                                                    |                                              |              |   代码   |\n| [CodeTF](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002Fcodetf)                                                 | 用于最先进代码LLM的一站式Transformer库。                                                                                        |                                               |              |   代码   |\n| [CodeT5](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002Fcodet5)                                                 | 开源的代码LLM，用于代码理解和生成。                                                                                              |                                               |              |   代码   |\n| [代码世界模型(CWM)](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fcwm)                              | 代码世界模型(CWM)是一个拥有320亿参数的开放权重LLM，旨在推进使用世界模型进行代码生成的研究。                       |                                               |              |   代码   |\n| [Cursor](https:\u002F\u002Fwww.cursor.so\u002F)                                                               | 在新型编辑器中使用GPT-4编写、编辑和讨论你的代码。                                                                          |                                               |              |   代码   |\n| [DeepSeek Coder](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-Coder)                                | DeepSeek Coder：让代码自动编写。                                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.14196)    |              |   代码   |\n| [OpenAI Codex](https:\u002F\u002Fopenai.com\u002Fblog\u002Fopenai-codex)                                           | OpenAI Codex是GPT-3的后继者。                                                                                                            |                                                |              |   代码   |\n| [PandasAI](https:\u002F\u002Fgithub.com\u002Fgventuri\u002Fpandas-ai)                                              | Pandas AI是一个Python库，它将生成式人工智能功能集成到Pandas中，使数据框具备对话能力。        |                                     |              |   代码   |\n| [RobloxScripterAI](https:\u002F\u002Fwww.haddock.ai\u002Fsearch?platform=Roblox)                              | RobloxScripterAI是用于Roblox的AI驱动代码生成工具。                                                                                        |                                        |     Roblox    |   代码   |\n| [Scikit-LLM](https:\u002F\u002Fgithub.com\u002Firyna-kondr\u002Fscikit-llm)                                        | 将像ChatGPT这样强大的语言模型无缝集成到scikit-learn中，以增强文本分析任务。                                         |                                           |              |   代码   |\n| [SoTaNa](https:\u002F\u002Fgithub.com\u002FDeepSoftwareAnalytics\u002FSoTaNa)                                      | 开源的软件开发助手。                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.13416)    |              |   代码   |\n| [Stable Code 3B](https:\u002F\u002Fbit.ly\u002F3O4oGWW)                                                       | 编码的前沿。                                                                                                                                |                                               |              |   代码   |\n| [StarCoder](https:\u002F\u002Fgithub.com\u002Fbigcode-project\u002Fstarcoder)                                      | 💫 StarCoder是一个在源代码和自然语言文本上训练的语言模型(LM)。                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.06161)    |              |   代码   |\n| [StarCoder 2](https:\u002F\u002Fgithub.com\u002Fbigcode-project\u002Fstarcoder2)                                   | StarCoder2是一系列代码生成模型（3B、7B和15B），它们在The Stack v2中的600多种编程语言以及一些自然语言文本（如维基百科、Arxiv和GitHub问题）上进行了训练。   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.19173)    |              |   代码   |\n| [UnityGen AI](https:\u002F\u002Fgithub.com\u002Fhimanshuskyrockets\u002FUnityGen-AI)                               | UnityGen AI是用于Unity的AI驱动代码生成插件。                                                                                                 |                                   |     Unity     |   代码   |\n| [Void](https:\u002F\u002Fgithub.com\u002Fvoideditor\u002Fvoid)                                                     | Void是开源的Cursor替代品。使用最佳的AI工具编写代码，完全掌控你的数据，并访问强大的AI功能。             |                                               |              |   代码   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"image\">图片\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  |   类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AnyDoor](https:\u002F\u002Fali-vilab.github.io\u002FAnyDoor-Page\u002F)                                           | 零样本对象级图像定制。                                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.09481)  |              |   图像   |\n| [AnyText](https:\u002F\u002Fgithub.com\u002Ftyxsspa\u002FAnyText)                                                  | 多语言视觉文本生成与编辑。                                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03054)  |              |   图像   |\n| [AutoStudio](https:\u002F\u002Fgithub.com\u002Fdonahowe\u002FAutoStudio)                                           | 在多轮交互式图像生成中构建一致的主题。                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01388)  |              |   图像   |\n| [BAGEL](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel)                                               | BAGEL - 多模态理解和生成的统一模型。BAGEL是一个开源的多模态基础模型，具有70亿活跃参数（总140亿），在大规模交错的多模态数据上训练而成。                                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14683)  |              |   图像   |\n| [Blender-ControlNet](https:\u002F\u002Fgithub.com\u002Fcoolzilj\u002FBlender-ControlNet)                           | 直接在Blender中使用ControlNet。                                                                                              |                                          |    Blender    |   图像   |\n| [BriVL](https:\u002F\u002Fgithub.com\u002FBAAI-WuDao\u002FBriVL)                                                   | 桥接视觉与语言模型。                                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.06561)  |              |   图像   |\n| [CatVTON](https:\u002F\u002Fgithub.com\u002FZheng-Chong\u002FCatVTON)                                              | CatVTON：对于基于扩散模型的虚拟试穿，只需拼接即可。                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.15886)  |              |   图像   |\n| [CLIPasso](https:\u002F\u002Fgithub.com\u002Fyael-vinker\u002FCLIPasso)                                            | 一种将物体图像转换为草图的方法，允许不同程度的抽象化。                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.05822)  |              |   图像   |\n| [ClipDrop](https:\u002F\u002Fclipdrop.co\u002F)                                                               | 几秒钟内创建惊艳的视觉效果。                                                                                                                                                      |        |              |   图像   |\n| [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI)                                           | 一个功能强大且模块化的稳定扩散GUI，采用图\u002F节点界面。                                                                                                               |         |              |   图像   |\n| [ConceptLab](https:\u002F\u002Fgithub.com\u002Fkfirgoldberg\u002FConceptLab)                                       | 使用扩散先验约束进行创意生成。                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02669)  |              |   图像   |\n| [ControlNet](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FControlNet)                                         | ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.05543)  |              |   图像   |\n| [CSGO](https:\u002F\u002Fgithub.com\u002FinstantX-research\u002FCSGO)                                              | CSGO：文本到图像生成中的内容-风格组合。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16766)  |              |   图像   |\n| [DALL·E 2](https:\u002F\u002Fopenai.com\u002Fproduct\u002Fdall-e-2)                                                | DALL·E 2是一个能够根据自然语言描述生成逼真图像和艺术作品的AI系统。                                                                             |         |              |   图像   |\n| [Dashtoon Studio](https:\u002F\u002Fwww.dashtoon.ai\u002F)                                                    | Dashtoon Studio是一个由AI驱动的漫画创作平台。                                                                                                                               |         |              |   漫画   |\n| [DeepAI](https:\u002F\u002Fdeepai.org\u002F)                                                                  | DeepAI提供了一系列利用AI提升创造力的工具。                                                                                                                   |        |              |   图像   |\n| [DeepFloyd IF](https:\u002F\u002Fgithub.com\u002Fdeep-floyd\u002FIF)                                               | IF由StabilityAI旗下的DeepFloyd实验室开发。                                                                                                                                                    |          |              |   图像   |\n| [Depth Anything V2](https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2)                        | Depth Anything V2                                                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.09414)  |              |   图像   |\n| [深度图库和姿势器](https:\u002F\u002Fgithub.com\u002Fjexom\u002Fsd-webui-depth-lib)                     | 用于Automatic1111\u002Fstable-diffusion-webui的Control Net扩展的深度图库。                                                                             |          |              |   图像   |\n| [Diffuse to Choose](https:\u002F\u002Fdiffuse2choose.github.io\u002F)                                         | 丰富潜在扩散模型中的图像条件修复，用于虚拟试穿。                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13795)  |              |   图像   |\n| [Disco Diffusion](https:\u002F\u002Fgithub.com\u002Falembics\u002Fdisco-diffusion)                                 | 一个由笔记本、模型和技术拼凑而成的“弗兰肯斯坦”式集合体，用于生成AI艺术和动画。                                                                       |          |              |   图像   |\n| [DragGAN](https:\u002F\u002Fgithub.com\u002FXingangPan\u002FDragGAN)                                               | 基于点的交互式操作，应用于生成式图像流形。                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973)  |              |   图像   |\n| [Draw Things](https:\u002F\u002Fdrawthings.ai\u002F)                                                          | 你口袋里的AI辅助图像生成。                                                                                                                                          |          |              |   图像   |\n| [DWPose](https:\u002F\u002Fgithub.com\u002Fidea-research\u002Fdwpose)                                              | 两阶段蒸馏实现高效全身姿态估计。                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.15880)  |              |   图像   |\n| [EasyPhoto](https:\u002F\u002Fgithub.com\u002Faigc-apps\u002Fsd-webui-EasyPhoto)                                   | 你的智能AI照片生成器。                                                                                                                                                          |         |              |   图像   |\n| [Flux](https:\u002F\u002Fgithub.com\u002Fblack-forest-labs\u002Fflux)                                              | 该仓库包含运行我们Flux潜在校正流变换器进行文本到图像和图像到图像生成所需的最小推理代码。                                                  |         |              |   图像   |\n| [Follow-Your-Click](https:\u002F\u002Fgithub.com\u002Fmayuelala\u002FFollowYourClick)                              | 通过简短提示实现开放域区域图像动画。                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08268)  |              |   图像   |\n| [Fooocus](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FFooocus)                                               | 专注于提示词和生成。                                                                                                                                                   |            |              |   图像   |\n| [GIFfusion](https:\u002F\u002Fgithub.com\u002FDN6\u002Fgiffusion)                                                  | 使用稳定扩散创建GIF和视频。                                                                                                                                         |          |              |   图像   |\n| [Grounded-Segment-Anything](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything)        | 自动检测、分割并根据图像、文本和音频输入生成任何内容。                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.14159)  |              |   图像   |\n| [HivisionIDPhotos](https:\u002F\u002Fgithub.com\u002FZeyi-Lin\u002FHivisionIDPhotos)                               | HivisionIDPhotos：一款轻量且高效的AI身份证照片工具。                                                                                                                    |            |              |   图像   |\n| [Hua](https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FHua)                                                          | Hua是一款带有稳定扩散（以及更多）的AI图像编辑器。                                                                                                                          |            |              |   图像   |\n| [Hunyuan-DiT](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanDiT)                                           | 一款强大的多分辨率扩散Transformer，具备精细的中文理解能力。                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.08748)  |              |   图像   |\n| [HunyuanImage-2.1](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanImage-2.1)                        | HunyuanImage-2.1：一款高效的高分辨率（2K）文本到图像生成扩散模型​。                                                                                |            |              |   图像   |\n| [HunyuanImage-3.0](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanImage-3.0)                        | HunyuanImage-3.0：一款强大的原生多模态图像生成模型​。                                                                                                           |            |              |   图像   |\n| [IC-Light](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FIC-Light)                                             | IC-Light是一个用于操纵图像光照的项目。                                                                                                                      |            |              |   图像   |\n| [Ideogram](https:\u002F\u002Fideogram.ai\u002Flogin)                                                          | 帮助人们变得更有创造力。                                                                                                                                                  |           |              |   图像   |\n| [Imagen](https:\u002F\u002Fimagen.research.google\u002F)                                                      | Imagen是一个能够根据输入文本创建逼真图像的AI系统。                                                                                                           |            |              |   图像   |\n| [img2img-turbo](https:\u002F\u002Fgithub.com\u002FGaParmar\u002Fimg2img-turbo)                                     | 使用SD-Turbo进行一步图像到图像转换。                                                                                                                                               |            |              |   图像   |\n| [Img2Prompt](https:\u002F\u002Fwww.img2prompt.io\u002F)                                                       | 从稳定扩散生成的图像中获取提示词。                                                                                                                                  |            |              |   图像   |\n| [Infinity](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FInfinity)                                       | Infinity：用于高分辨率图像合成的按位自回归建模扩展。                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.04431)  |              |   图像   |\n| [InstantID](https:\u002F\u002Fgithub.com\u002FInstantID\u002FInstantID)                                            | 零样本身份保留生成，几秒钟内完成。                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.07519)  |              |   图像   |\n| [InternLM-XComposer2](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer)                          | InternLM-XComposer2是一款突破性的视觉-语言大型模型（VLLM），在自由格式的文本-图像组合及理解方面表现出色。    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.16420)  |              |   图像   |\n| [IRG](https:\u002F\u002Fgithub.com\u002FOsilly\u002FInterleaving-Reasoning-Generation)                             | IRG - 交错推理以改善文本到图像生成。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.06945)  |              |   图像   |\n| [KOALA](https:\u002F\u002Fyoungwanlee.github.io\u002FKOALA\u002F)                                                  | 自注意力在潜在扩散模型的知识蒸馏中至关重要，有助于实现内存高效且快速的图像合成。                                                       |                |              |   图像   |\n| [Kolors](https:\u002F\u002Fgithub.com\u002FKwai-Kolors\u002FKolors)                                                | Kolors：用于逼真文本到图像合成的扩散模型有效训练。                                                                                              |             |              |   图像   |\n| [Komiko](https:\u002F\u002Fkomiko.app\u002F)                                                    | Komiko是一个由AI驱动的故事讲述平台，可让您轻松创建原创角色、漫画和动画。                                                                                                              |         |              |   漫画   |\n| [KREA](https:\u002F\u002Fwww.krea.ai\u002F)                                                                   | 使用令人愉悦的AI驱动设计工具生成图像和视频。                                                                                                                |             |              |   图像   |\n| [LaVi-Bridge](https:\u002F\u002Fgithub.com\u002FShihaoZhaoZSH\u002FLaVi-Bridge)                                    | 为文本到图像生成桥接不同语言模型和生成式视觉模型。                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07860)  |              |   图像   |\n| [LayerDiffusion](https:\u002F\u002Fgithub.com\u002Flayerdiffusion\u002FLayerDiffusion)                             | 利用潜在透明度进行透明图像层扩散。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18676)  |              |   图像   |\n| [Lexica](https:\u002F\u002Flexica.art\u002F)                                                                  | 一个稳定扩散提示词搜索引擎。                                                                                                                                           |             |              |   图像   |\n| [LlamaGen](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FLlamaGen)                                       | 自回归模型胜过扩散模型：Llama用于可扩展的图像生成。                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06525)  |              |   图像   |\n| [Lumina-Image 2.0](https:\u002F\u002Fgithub.com\u002FAlpha-VLLM\u002FLumina-Image-2.0)                             | Lumina-Image 2.0：一个统一且高效的图像生成模型。                                                                                                                  |             |              |   图像   |\n| [Lumina-mGPT](https:\u002F\u002Fgithub.com\u002FAlpha-VLLM\u002FLumina-mGPT)                                       | Lumina-mGPT：通过多模态生成式预训练，照亮灵活的逼真文本到图像生成。               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.02657)  |              |   图像   |\n| [MakeAnything](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FMakeAnything)                                        | MakeAnything：利用扩散Transformer进行多领域程序性序列生成。                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.01572)  |              |   图像   |\n| [MetaShoot](https:\u002F\u002Fmetashoot.vinzi.xyz\u002F)                                                      | MetaShoot是摄影棚的数字孪生，作为Unreal Engine的插件开发，使任何创作者都能以最简单快捷的方式制作出高度逼真的渲染图。 |  | Unreal Engine |   图像   |\n| [Midjourney](https:\u002F\u002Fwww.midjourney.com\u002F)                                                      | Midjourney是一个独立的研究实验室，探索新的思维媒介，并拓展人类的想象力。                                               |            |              |   图像   |\n| [MIGC](https:\u002F\u002Fgithub.com\u002Flimuloo\u002FMIGC)                                                        | MIGC：用于文本到图像合成的多实例生成控制器。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05408)  |              |   图像   |\n| [MimicBrush](https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FMimicBrush)                                          | 零样本参考模仿图像编辑。                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07547)  |              |   图像   |\n| [NextStep-1](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FNextStep-1)                                         | NextStep-1：迈向大规模连续标记的自回归图像生成。                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.10711)  |              |   图像   |\n| [OmniGen](https:\u002F\u002Fgithub.com\u002FVectorSpaceLab\u002FOmniGen)                                           | OmniGen：统一图像生成。                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.11340)  |              |   图像   |\n| [OmniGen2](https:\u002F\u002Fgithub.com\u002FVectorSpaceLab\u002FOmniGen2)                                         | OmniGen2：探索高级多模态生成。                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.18871)  |              |   图像   |\n| [Oniichan](https:\u002F\u002Foniichan.app\u002Fai-sprite-generator)                                                                | AI精灵生成器和游戏角色创作者。使用自定义微调模型，根据文本提示生成游戏就绪的角色精灵和原创角色，支持编辑、修复和可重用的角色库。  |            |              |   漫画   |\n| [Omost](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FOmost)                                | Omost是一个将LLM的编码能力转化为图像生成（或更准确地说，图像构图）能力的项目。                                                                     |            |              |   图像   |\n| [Openpose Editor](https:\u002F\u002Fgithub.com\u002Ffkunn1326\u002Fopenpose-editor)                                | AUTOMATIC1111的稳定扩散WebUI的Openpose编辑器。                                                                                                                          |            |              |   图像   |\n| [Outfit Anyone](https:\u002F\u002Fhumanaigc.github.io\u002Foutfit-anyone\u002F)                                    | 超高质量的任意服装和任意人物的虚拟试穿。                                                                                                                     |          |              |   图像   |\n| [PaintsUndo](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FPaints-UNDO)                                        | PaintsUndo：数字绘画中绘画行为的基础模型。                                                                                                                    |          |              |   图像   |\n| [PhotoMaker](https:\u002F\u002Fphoto-maker.github.io\u002F)                                                   | 通过堆叠ID嵌入来自定义逼真人像照片。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.04461)  |              |   图像   |\n| [Photoroom](https:\u002F\u002Fwww.photoroom.com\u002Fbackgrounds)                                             | AI背景生成器。                                                                                                                                                              |           |              |   图像   |\n| [Plask](https:\u002F\u002Fplask.ai\u002F)                                                                     | 云端AI图像生成。                                                                                                                                                      |          |              |   图像   |\n| [PosterCraft](https:\u002F\u002Fgithub.com\u002FEphemeral182\u002FPosterCraft)                                     | PosterCraft：在一个统一框架中重新思考高质量美学海报生成。                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.10741)  |              |   图像   |\n| [Prompt.Art](https:\u002F\u002Fprompt.art\u002F)                                                              | 生成器中心。                                                                                                                                                                     |         |              |   图像   |\n| [PromptEnhancer](https:\u002F\u002Fgithub.com\u002FHunyuan-PromptEnhancer\u002FPromptEnhancer)                     | PromptEnhancer：通过思维链提示重写来增强文本到图像模型的简单方法。                     |[arXiv](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2509.04545)  |              |   图像   |\n| [PuLID](https:\u002F\u002Fgithub.com\u002FToTheBeginning\u002FPuLID)                                               | 纯粹而闪电般的ID定制，通过对比对齐实现。                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16022)  |              |   图像   |\n| [Qwen-Image](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Image)                                             | Qwen-Image是一个强大的图像生成基础模型，能够进行复杂的文本渲染和精确的图像编辑。  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.02324)  |              |   图像   |\n| [Qwen-Image-Edit](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Image)                                        | 基于我们200亿参数的Qwen-Image模型，Qwen-Image-Edit成功地将Qwen-Image独特的文本渲染能力扩展到图像编辑任务，实现了精确的文本编辑。  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.02324)  |              |   图像   |\n| [Rich-Text-to-Image](https:\u002F\u002Fgithub.com\u002FSongweiGe\u002Frich-text-to-image)                          | 使用富文本进行富有表现力的文本到图像生成。                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.06720)  |              |   图像   |\n| [RPG-DiffusionMaster](https:\u002F\u002Fgithub.com\u002FYangLing0818\u002FRPG-DiffusionMaster)                     | 掌握文本到图像扩散：使用多模态LLM（PRG）进行重新标题、规划和生成。                                                                                  |          |              |   图像   |\n| [SEED-Story](https:\u002F\u002Fgithub.com\u002FTencentARC\u002FSEED-Story)                                         | SEED-Story：使用大型语言模型进行多模态长篇故事生成。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08683)  |              |   图像   |\n| [Segment Anything](https:\u002F\u002Fsegment-anything.com\u002F)                                              | Segment Anything Model (SAM)：Meta AI推出的一款新型AI模型，只需单击一下，就能在任何图像中“剪切”出任何物体。   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.02643)  |              |   图像   |\n| [Segment Anything Model 2 (SAM 2)](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything-2)     | SAM 2：在图像和视频中分割任何内容。                                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00714)  |              |   图像   |\n| [sd-webui-controlnet](https:\u002F\u002Fgithub.com\u002FMikubill\u002Fsd-webui-controlnet)                         | ControlNet的WebUI扩展。                                                                                                                                                        |          |              |   图像   |\n| [SDXL-Lightning](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FSDXL-Lightning)                              | 渐进式对抗性扩散蒸馏。                                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.13929)  |              |   图像   |\n| [SDXS](https:\u002F\u002Fgithub.com\u002FIDKiro\u002Fsdxs)                                                         | 实时一步式潜在扩散模型，带图像条件。                                                                                                                     |           |              |   图像   |\n| [SkyworkUniPic](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FUniPic)                                           | SkyworkUniPic - 统一的自回归建模，用于视觉理解和生成。                                                                                              |           |              |   图像   |\n| [Stable.art](https:\u002F\u002Fgithub.com\u002Fisekaidev\u002Fstable.art)                                          | 以Automatic1111为后端（本地或通过Google Colab）的Stable Diffusion Photoshop插件。                                                                               |          |              |   图像   |\n| [Stable Cascade](https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableCascade)                                | Stable Cascade由三个模型组成：A阶段、B阶段和C阶段，代表一个用于生成图像的级联过程，因此得名“Stable Cascade”。                              |          |              |   图像   |\n| [Stable Diffusion](https:\u002F\u002Fgithub.com\u002FCompVis\u002Fstable-diffusion)                                | 一种潜在的文本到图像扩散模型。                                                                                                                                                |          |              |   图像   |\n| [stable-diffusion.cpp](https:\u002F\u002Fgithub.com\u002Fleejet\u002Fstable-diffusion.cpp)                         | 纯C\u002FC++实现的稳定扩散。                                                                                                                                                         |         |              |   图像   |\n| [Stable Diffusion web UI](https:\u002F\u002Fgithub.com\u002FAUTOMATIC1111\u002Fstable-diffusion-webui)             | 基于Gradio库的稳定扩散浏览器界面。                                                                                                                       |         |              |   图像   |\n| [Stable Diffusion web UI](https:\u002F\u002Fgithub.com\u002FSygil-Dev\u002Fsygil-webui)                            | 基于网页的稳定扩散用户界面。                                                                                                                                                      |         |              |   图像   |\n| [Stable Diffusion WebUI Chinese](https:\u002F\u002Fgithub.com\u002FVinsonLaro\u002Fstable-diffusion-webui-chinese) | 稳定扩散WebUI的中文版本。                                                                                                                                             |          |              |   图像   |\n| [Stable Diffusion XL](https:\u002F\u002Fclipdrop.co\u002Fstable-diffusion)                                    | 根据文本生成图像。                                                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.01952)  |              |   图像   |\n| [Stable Diffusion XL Turbo](https:\u002F\u002Fclipdrop.co\u002Fstable-diffusion-turbo)                        | 实时文本到图像生成。                                                                                                                                                     |         |              |   图像   |\n| [Stable Diffusion 3.5](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Fsd3.5)                                  | Stable Diffusion 3.5公开发布包括多个模型变体，其中包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。                                     |         |              |   图像   |\n| [Stable Doodle](https:\u002F\u002Fclipdrop.co\u002Fstable-doodle)                                             | Stable Doodle是一款草图转图像工具，可将简单的绘图转换为动态图像。                                                                                        |         |              |   图像   |\n| [StableStudio](https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableStudio)                                   | Stability AI推出的StableStudio                                                                                                                                                         |            |              |   图像   |\n| [StoryMaker](https:\u002F\u002Fgithub.com\u002FRedAIGC\u002FStoryMaker)                                            | StoryMaker：迈向文本到图像生成中整体一致的角色。                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12576)  |              |   图像   |\n| [StreamDiffusion](https:\u002F\u002Fgithub.com\u002Fcumulo-autumn\u002FStreamDiffusion)                            | 一种面向实时交互式生成的流水线级解决方案。                                                                                                                        |          |              |   图像   |\n| [StyleDrop](https:\u002F\u002Fstyledrop.github.io\u002F)                                                      | 以任何风格进行文本到图像生成。                                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00983)  |              |   图像   |\n| [SyncDreamer](https:\u002F\u002Fgithub.com\u002Fliuyuan-pal\u002FSyncDreamer)                                      | 从单视图图像生成多视角一致的图像。                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03453)  |              |   图像   |\n| [UltraEdit](https:\u002F\u002Fgithub.com\u002FHaozheZhao\u002FUltraEdit)                                           | UltraEdit：基于指令的大规模细粒度图像编辑。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.05282)  |              |   图像   |\n| [UltraPixel](https:\u002F\u002Fgithub.com\u002Fcatcathh\u002FUltraPixel)                                           | UltraPixel：将超高分辨率图像合成推进至新高峰。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.02158)  |              |   图像   |\n| [Unity ML Stable Diffusion](https:\u002F\u002Fgithub.com\u002Fkeijiro\u002FUnityMLStableDiffusion)                 | Unity上的Core ML稳定扩散。                                                                                                                                                    |           |     Unity     |   图像   |\n| [USO](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FUSO)                                                        | USO：通过解耦和奖励学习实现统一的风格和主题驱动生成。                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.18966)  |              |   图像   |\n| [Vispunk Visions](https:\u002F\u002Fvispunk.com\u002Fimage)                                                   | 文本到图像生成平台。                                                                                                                                                    |           |              |   图像   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"texture\">纹理\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   |  游戏引擎  |   类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [CRM](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FCRM)                                                           | 基于卷积重建模型，将单张图像转换为3D纹理网格。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.05034)  |              |  纹理  |\n| [DreamMat](https:\u002F\u002Fgithub.com\u002Fzzzyuqing\u002FDreamMat)                                              | 基于几何和光照感知的扩散模型，生成高质量的PBR材质。                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17176)  |              |  纹理  |\n| [DreamSpace](https:\u002F\u002Fgithub.com\u002Fybbbbt\u002Fdreamspace)                                             | 通过文本驱动的全景纹理传播，实现房间空间的梦境化渲染。                                                                                    |                                         |              |  纹理  |\n| [Dream Textures](https:\u002F\u002Fgithub.com\u002Fcarson-katri\u002Fdream-textures)                               | 内置于Blender的Stable Diffusion工具，只需简单的文本提示即可创建纹理、概念艺术、背景素材等。                             |                                           |    Blender    |  纹理  |\n| [InstructHumans](https:\u002F\u002Fgithub.com\u002Fviridityzhu\u002FInstructHumans)                                | 使用指令编辑动画3D人体纹理。                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.04037)  |              |  纹理  |\n| [InteX](https:\u002F\u002Fgithub.com\u002Fashawkey\u002FInTeX)                                                     | 通过统一的深度感知修复技术实现交互式文本到纹理的合成。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.11878)  |              |  纹理  |\n| [LLaMA-Mesh](https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002FLLaMA-Mesh)                                           | LLaMA-Mesh：将3D网格生成与语言模型相结合。                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.09595)  |              |  网格  |\n| [MaterialSeg3D](https:\u002F\u002Fgithub.com\u002FPROPHETE-pro\u002FMaterialSeg3D_)                                | MaterialSeg3D：从2D先验中分割出密集的3D资产材质。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13923)  |              |  纹理  |\n| [MeshAnything](https:\u002F\u002Fgithub.com\u002Fbuaacyw\u002FMeshAnything)                                        | MaterialSeg3D：从2D先验中分割出密集的3D资产材质。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.10163)  |              |  网格  |\n| [Neuralangelo](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fneuralangelo)                                         | 高保真神经表面重建。                                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03092)  |              |  纹理  |\n| [Paint-it](https:\u002F\u002Fgithub.com\u002Fpostech-ami\u002Fpaint-it)                                            | 通过深度卷积纹理贴图优化和物理渲染实现文本到纹理的合成。                                             |                                              |              |  纹理  |\n| [Polycam](https:\u002F\u002Fpoly.cam\u002Fmaterial-generator)                                                 | 只需输入文字即可创建自己的3D纹理。                                                                                                             |                                             |              |  纹理  |\n| [TexFusion](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002Ftexfusion\u002F)                            | 利用文本引导的图像扩散模型合成3D纹理。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.13772)  |              |  纹理  |\n| [Text2Tex](https:\u002F\u002Fdaveredrum.github.io\u002FText2Tex\u002F)                                             | 基于扩散模型的文本驱动纹理合成。                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11396)  |              |  纹理  |\n| [Texture Lab](https:\u002F\u002Fwww.texturelab.xyz\u002F)                                                     | AI生成的纹理。你可以通过文本提示生成属于自己的纹理。                                                                                     |                                             |              |  纹理  |\n| [With Poly](https:\u002F\u002Fwithpoly.com\u002Fbrowse\u002Ftextures)                                              | 使用Poly创建纹理。在免费在线编辑器中利用AI生成3D材质，或浏览我们不断增长的社区资源库。                          |                                            |              |  纹理  |\n| [X-Mesh](https:\u002F\u002Fgithub.com\u002Fxmu-xiaoma666\u002FX-Mesh)                                              | X-Mesh：通过动态文本指导，实现快速且准确的文本驱动3D风格化。                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.15764)  |              |  纹理  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n## \u003Cspan id=\"shader\">着色器\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    | 论文 | 游戏引擎 | 类型 |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AI Shader](https:\u002F\u002Fgithub.com\u002Fkeijiro\u002FAIShader)                                               | 基于 ChatGPT 的 Unity 着色器生成器。                                                                                        |                                       |     Unity     |  着色器  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"model\">3D 模型\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  | 类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [Animate3D](https:\u002F\u002Fgithub.com\u002FyanqinJiang\u002FAnimate3D)                                          | Animate3D：利用多视角视频扩散模型为任意3D模型添加动画。                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.11398)  |              |   3D   |\n| [Anything-3D](https:\u002F\u002Fgithub.com\u002FAnything-of-anything\u002FAnything-3D)                             | Segment-Anything + 3D。让我们将任何内容升级到3D。                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.10261)  |              |   模型   |\n| [Any2Point](https:\u002F\u002Fgithub.com\u002FIvan-Tang-3D\u002FAny2Point)                                         | Any2Point：赋能多模态大型模型，实现高效的3D理解。                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07989)  |              |   3D   |\n| [BlenderGPT](https:\u002F\u002Fgithub.com\u002Fgd3kr\u002FBlenderGPT)                                              | 使用英文指令通过OpenAI的GPT-4控制Blender。                                                                                         |                                          |    Blender    |   模型   |\n| [Blender-GPT](https:\u002F\u002Fgithub.com\u002FTREE-Ind\u002FBlender-GPT)                                         | 由GPT3\u002F4和Whisper集成驱动的一体化Blender助手。                                                                              |                                            |    Blender    |   模型   |\n| [BlenderMCP](https:\u002F\u002Fgithub.com\u002Fahujasid\u002Fblender-mcp)                                          | BlenderMCP通过模型上下文协议（MCP）将Blender与Claude AI连接起来，使Claude能够直接与Blender交互并控制它。这种集成支持基于提示的3D建模、场景创建和操作。                                                                                                   |                                            |    Blender    |   模型   |\n| [Blockade Labs](https:\u002F\u002Fwww.blockadelabs.com\u002F)                                                 | 数字炼金术已成为现实——Skybox Lab是终极的AI驱动解决方案，可根据文本提示生成令人惊叹的360°天空盒体验。         |                                          |              |   模型   |\n| [CF-3DGS](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FCF-3DGS)                                                   | 无需COLMAP的3D高斯泼溅。                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07504)  |              |   3D   |\n| [CharacterGen](https:\u002F\u002Fgithub.com\u002Fzjp-shadow\u002FCharacterGen)                                     | CharacterGen：通过多视角姿态归一化，从单张图像高效生成3D角色。                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17214)  |              |   3D   |\n| [chatGPT-maya](https:\u002F\u002Fgithub.com\u002FLouisRossouw\u002FchatGPT-maya)                                   | 一个简单的Maya工具，利用OpenAI根据描述性指令执行基本任务。                                                |                                           |     Maya     |   模型   |\n| [CityDreamer](https:\u002F\u002Fgithub.com\u002Fhzxie\u002Fcity-dreamer)                                           | 无界3D城市的组合式生成模型。                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.00610)  |              |   3D   |\n| [CSM](https:\u002F\u002Fwww.csm.ai\u002F)                                                                     | 根据图片和视频生成3D世界。                                                                                                             |                                           |              |   3D   |\n| [Dash](https:\u002F\u002Fwww.polygonflow.io\u002F)                                                            | 你在虚幻引擎中构建世界的副驾驶。                                                                                                     |                                            | 虚幻引擎 |   3D   |\n| [Direct3D-S2](https:\u002F\u002Fgithub.com\u002FDreamTechAI\u002FDirect3D-S2)                                      | Direct3D-S2：借助空间稀疏注意力，轻松实现千兆规模的3D生成。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.17412)  |              |   3D   |\n| [DreamCatalyst](https:\u002F\u002Fgithub.com\u002Fkaist-cvml-lab\u002FDreamCatalyst)                               | DreamCatalyst：通过控制可编辑性和身份保留，实现快速高质量的3D编辑。                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.11394)  |              |   3D   |\n| [DreamGaussian4D](https:\u002F\u002Fgithub.com\u002Fjiawei-ren\u002Fdreamgaussian4d)                               | 生成式4D高斯泼溅。                                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.17142)  |              |   4D   |\n| [DUSt3R](https:\u002F\u002Fgithub.com\u002Fnaver\u002Fdust3r)                                                      | 几何3D视觉变得简单易行。                                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14132)  |              |   3D   |\n| [Edify 3D](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fdir\u002Fedify-3d\u002F)                                     | Edify 3D：可扩展的高质量3D资产生成。                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07135)  |              |   3D   |\n| [GALA3D](https:\u002F\u002Fgithub.com\u002FVDIGPKU\u002FGALA3D)                                                    | GALA3D：通过布局引导的生成式高斯泼溅，迈向文本到复杂3D场景的生成。                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.07207)  |              |   3D   |\n| [GaussCtrl](https:\u002F\u002Fgithub.com\u002FActiveVisionLab\u002Fgaussctrl)                                      | GaussCtrl：多视角一致的文本驱动3D高斯泼溅编辑。                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08733)  |              |   3D   |\n| [GaussianCube](https:\u002F\u002Fgithub.com\u002FGaussianCube\u002FGaussianCube)                                   | 一种用于3D生成建模的结构化显式辐射表示。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.19655)  |              |   3D   |\n| [GaussianDreamer](https:\u002F\u002Fgithub.com\u002Fhustvl\u002FGaussianDreamer)                                   | 借助点云先验，从文本快速生成3D高斯泼溅。                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08529)  |              |   3D   |\n| [GenieLabs](https:\u002F\u002Fwww.genielabs.tech\u002F)                                                       | 用AI生成的内容为你的游戏赋能。                                                                                                                         |                                           |              |   3D   |\n| [HiFA](https:\u002F\u002Fhifa-team.github.io\u002FHiFA-site\u002F)                                                 | 高保真文本到3D，配备先进的扩散指导。                                                                                              |                                           |              |   模型   |\n| [HoloDreamer](https:\u002F\u002Fgithub.com\u002FzhouhyOcean\u002FHoloDreamer)                                      | HoloDreamer：根据文本描述生成整体3D全景世界。                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.15187)  |              |   3D   |\n| [Hunyuan3D-1.0](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuan3D-1)                                        | Hunyuan3D-1.0：统一的文本到3D和图像到3D生成框架。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02293)  |              |   3D   |\n| [Hunyuan3D 2.0](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuan3D-2)                                        | Hunyuan3D 2.0：扩展扩散模型以生成高分辨率带纹理的3D资产。                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12202)  |              |   3D   |\n| [Hunyuan3D 2.1](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuan3D-2.1)                              | Hunyuan3D 2.1：从图像生成高保真3D资产，采用可直接用于生产的PBR材质。                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.15442)  |              |   3D   |\n| [Infinigen](https:\u002F\u002Fgithub.com\u002Fprinceton-vl\u002Finfinigen)                                         | 使用程序化生成无限逼真的世界。                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09310)  |              |   3D   |\n| [Instruct-NeRF2NeRF](https:\u002F\u002Finstruct-nerf2nerf.github.io\u002F)                                    | 通过指令编辑3D场景。                                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12789)  |              |   模型   |\n| [Interactive3D](https:\u002F\u002Fgithub.com\u002Finteractive-3d\u002Finteractive3d)                               | 通过交互式3D生成创造你想要的内容。                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16510)  |              |   3D   |\n| [Isotropic3D](https:\u002F\u002Fgithub.com\u002Fpkunliu\u002FIsotropic3D)                                          | 基于单个CLIP嵌入的图像到3D生成。                                                                                              |                                            |              |   3D   |\n| [LATTE3D](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002FLATTE3D\u002F)                                | 大规模摊销式文本到增强3D合成。                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.15385)  |              |   3D   |\n| [LION](https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002FLION)                                                       | 用于3D形状生成的潜在点扩散模型。                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06978)  |              |   模型   |\n| [Luma AI](https:\u002F\u002Flumalabs.ai\u002F)                                                                | 以栩栩如生的3D捕捉。无与伦比的写实感、反射和细节。VFX的未来现在属于每个人！                                    |                                           |              |   模型   |\n| [lumine AI](https:\u002F\u002Filumine.ai\u002F)                                                               | AI驱动的创造力。                                                                                                                                |                                            |              |   3D   |\n| [Make-It-3D](https:\u002F\u002Fgithub.com\u002Fjunshutang\u002FMake-It-3D)                                         | 借助扩散先验，从单张图像高质量地创建3D作品。                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.14184)  |              |   模型   |\n| [Meshy](https:\u002F\u002Fwww.meshy.ai\u002F)                                                                 | 用AI创建惊艳的3D游戏资产。                                                                                                                |                                           |              |   3D   |\n| [Mootion](https:\u002F\u002Fmootion.com\u002Flanding)                                                         | 神奇的3D AI动画制作工具。                                                                                                                         |                                           |              |   3D   |\n| [MVDream](https:\u002F\u002Fgithub.com\u002FMV-Dream\u002FMVDream)                                                 | 多视角扩散用于3D生成。                                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.16512)  |              |   3D   |\n| [NVIDIA Instant NeRF](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Finstant-ngp)                                   | 即时神经图形原语：闪电般的NeRF速度及其他功能。                                                                                      |                                           |              |   模型   |\n| [One-2-3-45](https:\u002F\u002Fone-2-3-45.github.io\u002F)                                                    | 在不进行逐形状优化的情况下，45秒内即可将任意单张图像转换为3D网格。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.16928)  |              |   模型   |\n| [Paint3D](https:\u002F\u002Fgithub.com\u002FOpenTexture\u002FPaint3D)                                              | 使用无光照纹理扩散模型绘制任何3D对象。                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.13913)  |              |   3D   |\n| [PAniC-3D](https:\u002F\u002Fgithub.com\u002Fshuhongchen\u002Fpanic3d-anime-reconstruction)                        | 基于动漫角色肖像的风格化单视图3D重建。                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.14587)  |              |   模型   |\n| [PhysRig](https:\u002F\u002Fgithub.com\u002Fhaoz19\u002FPhysRig)                                                   | PhysRig：用于真实关节物体建模的可微分物理驱动绑定。                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.20936)  |              |   模型   |\n| [Point·E](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fpoint-e)                                                  | 点云扩散用于3D模型合成。                                                                                                           |                                           |              |   模型   |\n| [ProlificDreamer](https:\u002F\u002Fml.cs.tsinghua.edu.cn\u002Fprolificdreamer\u002F)                              | 通过变分分数蒸馏实现高保真且多样化的文本到3D生成。                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16213)  |              |   模型   |\n| [Seele AI](https:\u002F\u002Fseeles.ai\u002F)                                                                 | 输入文本即可生成可玩的3D游戏。                                                                                                                |                                           |              |   3D   |\n| [SF3D](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Fstable-fast-3d)                                         | SF3D：稳定快速的3D网格重建，具备UV展开和光照解耦功能。                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00653)  |              |   3D   |\n| [Shap-E](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fshap-e)                                                    | 根据文本或图像条件生成3D对象。                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02463)  |              |   模型   |\n| [Sloyd](https:\u002F\u002Fwww.sloyd.ai\u002F)                                                                 | 3D建模从未如此简单。                                                                                                                   |                                            |              |   模型   |\n| [Spline AI](https:\u002F\u002Fspline.design\u002Fai)                                                          | AI的力量正在进入第三维度。使用提示生成对象、动画和纹理。                                      |                                           |              |   模型   |\n| [Stable Dreamfusion](https:\u002F\u002Fgithub.com\u002Fashawkey\u002Fstable-dreamfusion)                           | 由Stable Diffusion文本到2D模型驱动的text-to-3D模型Dreamfusion的PyTorch实现。                                   |                                          |              |   模型   |\n| [Step1X-3D](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep1X-3D)                                           | Step1X-3D：迈向高质量且可控的带纹理3D资产生成。                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.07747)  |              |   3D   |\n| [SV3D](https:\u002F\u002Fsv3d.github.io\u002F)                                                                | 利用潜在视频扩散技术，从单张图像实现新颖的多视角合成和3D生成。                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.12008)  |              |   3D   |\n| [Tafi](https:\u002F\u002Fmaketafi.com\u002Fai)                                                                | AI文本到3D角色引擎。                                                                                                                         |                                          |              |   模型   |\n| [3D-GPT](https:\u002F\u002Fchuny1.github.io\u002F3DGPT\u002F3dgpt.html)                                            | 使用大型语言模型进行程序化3D建模。                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.12945)  |              |   3D   |\n| [3D-LLM](https:\u002F\u002Fgithub.com\u002FUMass-Foundation-Model\u002F3D-LLM)                                     | 将3D世界注入大型语言模型中。                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.12981)  |              |   3D   |\n| [3Dpresso](https:\u002F\u002F3dpresso.ai\u002F)                                                               | 从视频中捕获的对象提取3D模型。                                                                                                   |                                          |              |   模型   |\n| [3DTopia](https:\u002F\u002Fgithub.com\u002F3DTopia\u002F3DTopia)                                                  | 文本到3D生成，仅需5分钟。                                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.02234)  |              |   3D   |\n| [3DTopia-XL](https:\u002F\u002Fgithub.com\u002F3DTopia\u002F3DTopia-XL)                                                  | 3DTopia-XL：通过原始扩散技术扩大高质量3D资产生成规模。                                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12957)  |              |   3D   |\n| [threestudio](https:\u002F\u002Fgithub.com\u002Fthreestudio-project\u002Fthreestudio)                              | 一个用于3D内容生成的统一框架。                                                                                                           |                                         |              |   模型   |\n| [TripoSR](https:\u002F\u002Fgithub.com\u002FVAST-AI-Research\u002FTripoSR)                                         | 一款最先进的开源模型，可从单张图像快速进行前馈式3D重建。                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.02151)  |              |   模型   |\n| [Unique3D](https:\u002F\u002Fgithub.com\u002FAiuniAI\u002FUnique3D)                                                | 从单张图像高效生成高质量3D网格。                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.20343)  |              |   3D   |\n| [UnityGaussianSplatting](https:\u002F\u002Fgithub.com\u002Faras-p\u002FUnityGaussianSplatting)                     | 在Unity中展示玩具级的高斯泼溅可视化效果。                                                                                                          |                                          |     Unity     |   3D   |\n| [ViVid-1-to-3](https:\u002F\u002Fgithub.com\u002Fubc-vision\u002Fvivid123)                                         | 利用视频扩散模型进行新颖的视图合成。                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.01305)  |              |   3D   |\n| [Voxcraft](https:\u002F\u002Fvoxcraft.ai\u002F)                                                               | 用AI打造即用型3D模型。                                                                                                               |                                           |              |   3D   |\n| [Wonder3D](https:\u002F\u002Fgithub.com\u002Fxxlong0\u002FWonder3D)                                                | 使用跨域扩散技术将单张图像转换为3D。                                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.15008)  |              |   3D   |\n| [Zero-1-to-3](https:\u002F\u002Fgithub.com\u002Fcvlab-columbia\u002Fzero123)                                       | 零样本单张图像到3D对象。                                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11328)  |              |   模型   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"avatar\">头像\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  | 类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AniPortrait](https:\u002F\u002Fgithub.com\u002FZejun-Yang\u002FAniPortrait)                                       | 基于音频驱动的真实感人像动画合成。                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.17694)  |              |  Avatar  |\n| [CALM](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FCALM)                                                         | 可控虚拟角色的条件对抗潜空间模型。                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02195)  |              |  Avatar  |\n| [ChatAvatar](https:\u002F\u002Fhyperhuman.deemos.com\u002Fchatavatar)                                         | 文本引导下的可动画3D人脸渐进式生成。                                                              |     |              |  Avatar  |\n| [ChatdollKit](https:\u002F\u002Fgithub.com\u002Fuezo\u002FChatdollKit)                                             | ChatdollKit让你可以将你的3D模型变成聊天机器人。                                                                                                |                                      |     Unity     |  Avatar  |\n| [Ditto](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fditto-talkinghead)                                         | Ditto：用于可控实时说话头合成的运动空间扩散模型。                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.19509)  |              |  Avatar  |\n| [DreamTalk](https:\u002F\u002Fgithub.com\u002Fali-vilab\u002Fdreamtalk)                                            | 富有表现力的说话头生成与扩散概率模型的结合。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09767)  |              |  Avatar  |\n| [Duix](https:\u002F\u002Fgithub.com\u002FGuijiAI\u002Fduix.ai)                                                     | Duix - 基于硅基的数字人SDK 🌐🤖                                                                                                                     |                                  |              |  Avatar  |\n| [EchoMimic](https:\u002F\u002Fgithub.com\u002FBadToBest\u002FEchoMimic)                                            | EchoMimic：通过可编辑的特征点条件实现逼真的音频驱动人像动画。                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08136)  |              |  Avatar  |\n| [EMOPortraits](https:\u002F\u002Fgithub.com\u002Fneeek2303\u002FEMOPortraits)                                      | 情感增强的多模态单次拍摄头部Avatar。                                                                                                            |                                     |              |  Avatar  |\n| [EmoVOCA](https:\u002F\u002Fgithub.com\u002Fmiccunifi\u002FEmoVOCA)                                                | EmoVOCA：语音驱动的情感化3D说话头。                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.12886)  |              |  Avatar  |\n| [E3 Gen](https:\u002F\u002Fgithub.com\u002Folivia23333\u002FE3Gen)                                                 | 高效、富有表现力且可编辑的Avatar生成。                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.19203)  |              |  Avatar  |\n| [ExAvatar](https:\u002F\u002Fgithub.com\u002Fmks0601\u002FExAvatar_RELEASE)                                        | ExAvatar - 富有表现力的全身3D高斯Avatar。                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.21686)  |              |  Avatar  |\n| [GeneAvatar](https:\u002F\u002Fgithub.com\u002Fzju3dv\u002FGeneAvatar)                                             | 基于单张图像的通用表情感知体积头部Avatar编辑。                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02152)  |              |  Avatar  |\n| [GeneFace++](https:\u002F\u002Fgithub.com\u002Fyerfor\u002FGeneFacePlusPlus)                                       | 广泛适用且稳定的实时3D说话脸生成。                                                                                                     |                                  |              |  Avatar  |\n| [Hallo](https:\u002F\u002Fgithub.com\u002Ffudan-generative-vision\u002Fhallo)                                      | 用于人像图像动画的分层音频驱动视觉合成。                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.08801)  |              |  Avatar  |\n| [Hallo2](https:\u002F\u002Fgithub.com\u002Ffudan-generative-vision\u002Fhallo2)                                    | Hallo2：长时长、高分辨率的音频驱动人像图像动画。                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.07718)  |              |  Avatar  |\n| [HeadSculpt](https:\u002F\u002Fbrandonhan.uk\u002FHeadSculpt\u002F)                                                | 使用文本制作3D头部Avatar。                                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03038)  |              |  Avatar  |\n| [HunyuanPortrait](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanPortrait)                          | HunyuanPortrait：用于增强人像动画的隐式条件控制。                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.18860)  |              |  Avatar  |\n| [HunyuanVideo-Avatar](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanVideo-Avatar)                  | HunyuanVideo-Avatar：面向多角色的高保真音频驱动人体动画。                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.20156)  |              |  Avatar  |\n| [IntrinsicAvatar](https:\u002F\u002Fgithub.com\u002Ftaconite\u002FIntrinsicAvatar)                                 | IntrinsicAvatar：基于物理的逆向渲染，通过显式光线追踪从单目视频中重建动态人类。      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.05210)  |              |  Avatar  |\n| [Linly-Talker](https:\u002F\u002Fgithub.com\u002FKedreamix\u002FLinly-Talker)                                      | 数字Avatar对话系统。                                                                                                                          |                                    |              |  Avatar  |\n| [LivePortrait](https:\u002F\u002Fgithub.com\u002FKwaiVGI\u002FLivePortrait)                                        | LivePortrait：具有拼接和重定向控制的高效人像动画。                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.03168)  |              |  Avatar  |\n| [MotionGPT](https:\u002F\u002Fgithub.com\u002FOpenMotionLab\u002FMotionGPT)                                        | 将人体运动视为一门外语，利用LLM构建统一的运动-语言生成模型。                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.14795)  |              |  Avatar  |\n| [MusePose](https:\u002F\u002Fgithub.com\u002FTMElyralab\u002FMusePose)                                             | MusePose：一种基于姿态驱动的图生视频框架，用于虚拟人类生成。                                                                                        |                                    |              |  Avatar  |\n| [MuseTalk](https:\u002F\u002Fgithub.com\u002FTMElyralab\u002FMuseTalk)                                             | 利用潜在空间修复技术实现高质量的实时唇形同步。                                                                                        |                                    |              |  Avatar  |\n| [MuseV](https:\u002F\u002Fgithub.com\u002FTMElyralab\u002FMuseV)                                           | 基于视觉条件并行去噪技术，实现无限长度、高保真的虚拟人类视频生成。                                                        |                                    |              |  Avatar  |\n| [Portrait4D](https:\u002F\u002Fgithub.com\u002FYuDeng\u002FPortrait-4D)                                            | 使用合成数据学习单次拍摄的4D头部Avatar合成。                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18729)  |              |  Avatar  |\n| [Ready Player Me](https:\u002F\u002Freadyplayer.me\u002F)                                                     | 在几天内将可定制的Avatar集成到你的游戏或应用中。                                                                                                  |                                    |              |  Avatar  |\n| [RodinHD](https:\u002F\u002Frodinhd.github.io\u002F)                                                          | RodinHD：使用扩散模型生成高保真3DAvatar。                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.06938)  |              |  Avatar  |\n| [StableAvatar](https:\u002F\u002Fgithub.com\u002FFrancis-Rings\u002FStableAvatar)                                  | StableAvatar：无限长度的音频驱动Avatar视频生成。                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.08248)  |              |  Avatar  |\n| [StyleAvatar3D](https:\u002F\u002Fgithub.com\u002Ficoz69\u002FStyleAvatar3D)                                       | 利用图文扩散模型生成高保真3DAvatar。                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.19012)  |              |  Avatar  |\n| [Text2Control3D](https:\u002F\u002Ftext2control3d.github.io\u002F)                                            | 使用几何引导的图文扩散模型，在神经辐射场中实现可控的3DAvatar生成。                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03550)  |              |  Avatar  |\n| [Topo4D](https:\u002F\u002Fgithub.com\u002FXuanchenLi\u002FTopo4D)                                                 | 保持拓扑结构的高斯泼溅技术，用于高保真4D头部捕捉。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00440)  |              |  Avatar  |\n| [UnityAIWithChatGPT](https:\u002F\u002Fgithub.com\u002Fhaili1234\u002FUnityAIWithChatGPT)                          | 基于Unity，实现了ChatGPT+UnityChan的语音交互展示。                                                                                      |                                     |     Unity     |  Avatar  |\n| [Vid2Avatar](https:\u002F\u002Fmoygcc.github.io\u002Fvid2avatar\u002F)                                             | 通过自监督场景分解，从野外视频中重建3DAvatar。                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.11566)  |              |  Avatar  |\n| [VLOGGER](https:\u002F\u002Fenriccorona.github.io\u002Fvlogger\u002F)                                              | 多模态扩散模型用于具身Avatar合成。                                                                                                           |                                     |              |  Avatar  |\n| [Wild2Avatar](https:\u002F\u002Fcs.stanford.edu\u002F~xtiange\u002Fprojects\u002Fwild2avatar\u002F)                          | 渲染被遮挡的人体。                                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.00431)  |              |  Avatar  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"animation\">动画\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  |   类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [Animate Anyone](https:\u002F\u002Fgithub.com\u002FHumanAIGC\u002FAnimateAnyone)                                   | 用于角色动画的一致且可控的图像到视频合成。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.17117)  |              | 动画 |\n| [AnimateAnything](https:\u002F\u002Fanimationai.github.io\u002FAnimateAnything\u002F)                              | 基于运动引导的细粒度开放域图像动画。                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12886)  |              | 动画 |\n| [AnimateDiff](https:\u002F\u002Fgithub.com\u002Fguoyww\u002Fanimatediff\u002F)                                          | 无需特定微调即可动画化您的个性化文本到图像扩散模型。                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04725)  |              | 动画 |\n| [AnimateLCM](https:\u002F\u002Fgithub.com\u002FG-U-N\u002FAnimateLCM)                                              | 让我们在4步内加速视频生成！                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.00769)  |              | 动画 |\n| [Animate-X](https:\u002F\u002Fgithub.com\u002FLucaria-Academy\u002FAnimate-X)                                      | Animate-X：具有增强运动表示的通用角色图像动画。                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10306)  |              | 动画 |\n| [AnimateZero](https:\u002F\u002Fvvictoryuki.github.io\u002Fanimatezero.github.io\u002F)                            | 视频扩散模型是零样本图像动画器。                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03793)  |              | 动画 |\n| [AnimationGPT](https:\u002F\u002Fgithub.com\u002Ffyyakaxyy\u002FAnimationGPT)                                      | 用于生成游戏战斗动作资源的AIGC工具。                                                                          |                                                                            |              | 动画 |\n| [Deforum](https:\u002F\u002Fdeforum.art\u002F)                                                                | Deforum 利用 Stable Diffusion 生成不断演变的 AI 视觉效果。                                                             |                                                                            |              | 动画 |\n| [DrawingSpinUp](https:\u002F\u002Fgithub.com\u002FLordLiang\u002FDrawingSpinUp)                                    | DrawingSpinUp：从单个角色绘画中生成3D动画。                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.08615)  |              | 动画 |\n| [DreaMoving](https:\u002F\u002Fdreamoving.github.io\u002Fdreamoving\u002F)                                         | 基于扩散模型的人类视频生成框架。                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.05107)  |              | 动画 |\n| [FaceFusion](https:\u002F\u002Fgithub.com\u002Ffacefusion\u002Ffacefusion)                                         | 新一代人脸替换与增强工具。                                                                                       |                                                                           |              | 动画 |\n| [FreeInit](https:\u002F\u002Ftianxingwu.github.io\u002Fpages\u002FFreeInit\u002F)                                       | 弥补视频扩散模型中的初始化差距。                                                                          |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07537)  |              | 动画 |\n| [GeneFace](https:\u002F\u002Fgithub.com\u002Fyerfor\u002FGeneFace)                                                 | 广义且高保真度的音频驱动3D说话人脸合成。                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13430)  |              | 动画 |\n| [ID-Animator](https:\u002F\u002Fgithub.com\u002FID-Animator\u002FID-Animator)                                      | 零样本身份保留的人类视频生成。                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.15275)  |              | 动画 |\n| [HY-Motion 1.0](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHY-Motion-1.0)                              | HY-Motion 1.0：用于文本到运动生成的缩放流匹配模型。                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.23464)  |              | 动画 |\n| [Index-AniSora](https:\u002F\u002Fgithub.com\u002Fbilibili\u002FIndex-anisora)                                     | Index-AniSora 是功能最强大的开源动画视频生成模型。它支持一键创建涵盖多种动漫风格的视频片段，包括系列剧集、国产原创动画、漫画改编作品、VTuber 内容、动漫 PV、鬼畜动画等！                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.10255)  |              | 动画 |\n| [MagicAnimate](https:\u002F\u002Fshowlab.github.io\u002Fmagicanimate\u002F)                                        | 使用扩散模型进行时间一致的人像动画。                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.16498)  |              | 动画 |\n| [NUWA](https:\u002F\u002Fmsra-nuwa.azurewebsites.net\u002F#\u002F)                                                 | DragNUWA 是一款开放域的基于扩散的视频生成模型，以文本、图像和轨迹控制作为输入，实现可控的视频生成。   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.08089)  |              | 动画 |\n| [NUWA-Infinity](https:\u002F\u002Fnuwa-infinity.microsoft.com\u002F#\u002FNUWAInfinity)                            | NUWA-Infinity 是一款多模态生成模型，旨在根据给定的文本、图像或视频输入生成高质量的图像和视频。       |                                                   |              | 动画 |\n| [NUWA-XL](https:\u002F\u002Fmsra-nuwa.azurewebsites.net\u002F#\u002FNUWAXL)                                        | 一种用于生成超长视频的新型“扩散之上扩散”架构。                                              |                                                                            |              | 动画 |\n| [Omni Animation](https:\u002F\u002Fomnianimation.ai\u002F)                                                    | AI 生成的高保真动画。                                                                                          |                                                                            |              | 动画 |\n| [PIA](https:\u002F\u002Fpi-animator.github.io\u002F)                                                          | 通过文本到图像模型中的即插即用模块，打造您的个性化图像动画师。                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.13964)  |              | 动画 |\n| [SadTalker](https:\u002F\u002Fgithub.com\u002FWinfredy\u002FSadTalker)                                             | 学习逼真的3D运动系数，用于风格化的音频驱动单张图片说话人脸动画。                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.12194)  |              | 动画 |\n| [SadTalker-Video-Lip-Sync](https:\u002F\u002Fgithub.com\u002FZz-ww\u002FSadTalker-Video-Lip-Sync)                  | 该项目基于 SadTalkers Wav2lip 进行视频口型同步。                                                           |                                                                             |              | 动画 |\n| [Stable Animation](https:\u002F\u002Fstability.ai\u002Fnews\u002Fstable-animation-sdk)                             | 一款功能强大的面向开发者的文本到动画工具。                                                                              |                                                                             |              | 动画 |\n| [ToonComposer](https:\u002F\u002Fgithub.com\u002FTencentARC\u002FToonComposer)                                     | ToonComposer：通过生成式后期关键帧技术简化卡通制作流程。                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.10881)  |              | 动画 |\n| [TaleCrafter](https:\u002F\u002Fgithub.com\u002FVideoCrafter\u002FTaleCrafter)                                     | 一款支持多角色的互动故事可视化工具。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18247)  |              | 动画 |\n| [ToonCrafter](https:\u002F\u002Fgithub.com\u002FToonCrafter\u002FToonCrafter)                                      | ToonCrafter：生成式卡通插值。                                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17933v1)  |              | 动画 |\n| [Wav2Lip](https:\u002F\u002Fgithub.com\u002FRudrabha\u002FWav2Lip)                                                 | 准确地为真实场景中的视频进行口型同步。                                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2008.10010)  |              | 动画 |\n| [Wonder Studio](https:\u002F\u002Fwonderdynamics.com\u002F)                                                   | 一款AI工具，可自动将CG角色动画化、打光并合成到真人场景中。                         |                                                                            |              | 动画 |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"video\">视频\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  | 类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [360DVD](https:\u002F\u002Fakaneqwq.github.io\u002F360DVD\u002F)                                                   | 基于360度视频扩散模型的可控全景视频生成。                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.06578)     |              |   视频   |\n| [Animate-A-Story](https:\u002F\u002Fgithub.com\u002FVideoCrafter\u002FAnimate-A-Story)                             | 基于检索增强的叙事视频生成。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.06940)     |              |   视频   |\n| [Anything in Any Scene](https:\u002F\u002Fanythinginanyscene.github.io\u002F)                                 | 照片级真实感视频对象插入。                                                                                                                                           |               |              |   视频   |\n| [ART•V](https:\u002F\u002Fwarranweng.github.io\u002Fart.v\u002F)                                                   | 基于扩散模型的自回归文本到视频生成。                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18834)     |              |   视频   |\n| [Assistive](https:\u002F\u002Fassistive.chat\u002Fproduct\u002Fvideo)                                              | 遇见能将你的创意变为现实的生成式视频平台。                                                                                                              |                |              |   视频   |\n| [AtomoVideo](https:\u002F\u002Fatomo-video.github.io\u002F)                                                   | 高保真图像到视频生成。                                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.01800)     |              |   视频   |\n| [BackgroundRemover](https:\u002F\u002Fgithub.com\u002Fnadermx\u002Fbackgroundremover)                              | Background Remover 允许你使用 AI 通过一个简单且免费开源的命令行界面移除图片和视频中的背景。                           |                |              |   视频   |\n| [Boximator](https:\u002F\u002Fboximator.github.io\u002F)                                                      | 为视频合成生成丰富且可控的运动。                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01566)     |              |   视频   |\n| [CoDeF](https:\u002F\u002Fgithub.com\u002Fqiuyu96\u002Fcodef)                                                      | 用于时序一致视频处理的内容变形场。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07926)     |              |   视频   |\n| [CogVideo](https:\u002F\u002Fmodels.aminer.cn\u002Fcogvideo\u002F)                                                 | 根据文本描述生成视频。                                                                                                                                           |              |              |   视频   |\n| [CogVideoX](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo)                                                 | CogVideoX 是视频生成模型的开源版本，与清影同源。                                                                                   |              |              |   视频   |\n| [CogVLM](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVLM)                                                      | CogVLM 是一款强大的开源视觉语言模型 (VLM)。                                                                                                                    |               |              |   视觉   |\n| [CoNR](https:\u002F\u002Fgithub.com\u002Fmegvii-research\u002FCoNR)                                                | 从手绘动漫角色原画 (ACS) 生成生动的舞蹈视频。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.05378)     |              |   视频   |\n| [Decohere](https:\u002F\u002Fwww.decohere.ai\u002F)                                                           | 创造无法拍摄的内容。                                                                                                                                                      |              |              |   视频   |\n| [Descript](https:\u002F\u002Fwww.descript.com\u002F)                                                          | Descript 是一种简单、强大且有趣的编辑方式。                                                                                                                           |              |              |   视频   |\n| [Diffutoon](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FDiffSynth-Studio)                                    | 基于扩散模型的高分辨率可编辑卡通渲染。                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.16224)     |              |   视频   |\n| [dolphin](https:\u002F\u002Fgithub.com\u002Fkaleido-lab\u002Fdolphin)                                              | 基于 LLM 的通用视频交互平台。                                                                                                                                 |              |              |   视频   |\n| [DomoAI](https:\u002F\u002Fdomoai.app\u002F)                                                                  | 用 DomoAI 提升你的创造力。                                                                                                                                             |               |              |   视频   |\n| [DreamCinema](https:\u002F\u002Fgithub.com\u002Fchen-wl20\u002FDreamCinema)                                        | DreamCinema：自由摄像机与 3D 角色的电影化迁移。                                                           |[arXiv](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2408.12601)     |              |   视频   |\n| [DynamiCrafter](https:\u002F\u002Fdoubiiu.github.io\u002Fprojects\u002FDynamiCrafter\u002F)                             | 使用视频扩散先验对开放域图像进行动画化。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.12190)     |              |   视频   |\n| [EDGE](https:\u002F\u002Fgithub.com\u002FStanford-TML\u002FEDGE)                                                   | 我们介绍了 EDGE，这是一种功能强大的可编辑舞蹈生成方法，能够在忠实于任意输入音乐的同时生成逼真且符合物理规律的舞蹈。  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10658)     |              |   视频   |\n| [EMO](https:\u002F\u002Fhumanaigc.github.io\u002Femote-portrait-alive\u002F)                                       | Emote Portrait Alive - 在弱条件下使用 Audio2Video 扩散模型生成富有表现力的肖像视频。       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17485)     |              |   视频   |\n| [Emu Video](https:\u002F\u002Femu-video.metademolab.com\u002F)                                                | 通过显式图像条件化实现文本到视频生成的因子分解。                                                                                                             |               |              |   视频   |\n| [Etna](https:\u002F\u002Fetna.7volcanoes.com\u002F)                                                           | Etna 可以根据简短的文本描述生成相应的视频内容。                                                                                                   |              |              |   视频   |\n| [Fairy](https:\u002F\u002Ffairy-video2video.github.io\u002F)                                                  | 快速并行化的指令引导型视频到视频合成。                                                                                                                    |              |              |   视频   |\n| [Follow-Your-Canvas](https:\u002F\u002Fgithub.com\u002Fmayuelala\u002FFollowYourCanvas)                            | Follow-Your-Canvas：更高分辨率的视频外延与大量内容生成。                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.01055)     |              |   视频   |\n| [Follow Your Pose](https:\u002F\u002Ffollow-your-pose.github.io\u002F)                                        | 使用无姿态视频进行姿态引导的文本到视频生成。                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01186)     |              |   视频   |\n| [FullJourney](https:\u002F\u002Fwww.fulljourney.ai\u002F)                                                     | 你触手可及的完整 AI 创作工具套件。                                                                                                                       |             |              |   视频   |\n| [Gen-2](https:\u002F\u002Fresearch.runwayml.com\u002Fgen2)                                                    | 一个多模态 AI 系统，能够根据文本、图像或视频片段生成新颖的视频。                                                                                          |             |              |   视频   |\n| [Generative Dynamics](https:\u002F\u002Fgenerative-dynamics.github.io\u002F)                                  | 生成式图像动力学。                                                                                                                                                         |             |              |   视频   |\n| [Genie](https:\u002F\u002Fsites.google.com\u002Fview\u002Fgenie-2024\u002Fhome)                                         | 生成式交互环境。                                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15391)     |              |   视频   |\n| [Genmo](https:\u002F\u002Fwww.genmo.ai\u002Fcreate\u002Fvideo)                                                     | 用 AI 巧妙地制作视频。                                                                                                                                                      |            |              |   视频   |\n| [GenTron](https:\u002F\u002Fwww.shoufachen.com\u002Fgentron_website\u002F)                                         | 用于图像和视频生成的扩散变换器。                                                                                                                              |            |              |   视频   |\n| [HiGen](https:\u002F\u002Fhigen-t2v.github.io\u002F)                                                          | 用于文本到视频生成的分层时空解耦。                                                                                                               |            |              |   视频   |\n| [Hotshot-XL](https:\u002F\u002Fgithub.com\u002Fhotshotco\u002FHotshot-XL)                                          | Hotshot-XL 是一个与 Stable Diffusion XL 配合使用的 AI 文本到 GIF 模型。                                                                                              |              |              |   视频   |\n| [HuMo](https:\u002F\u002Fgithub.com\u002FPhantom-video\u002FHuMo)                                                  | HuMo：通过协作式多模态条件化实现以人为本的视频生成。                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.08519)     |              |   视频   |\n| [HunyuanVideo](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo)                                        | HunyuanVideo：大型视频生成模型的系统性框架。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03603)     |              |   视频   |\n| [HunyuanVideo-1.5](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanVideo-1.5)                        | HunyuanVideo-1.5：领先的轻量级视频生成模型。                                                                                                                   |              |              |   视频   |\n| [Imagen Video](https:\u002F\u002Fimagen.research.google\u002Fvideo\u002F)                                          | 给定一个文本提示，Imagen Video 使用基础视频生成模型以及一系列交错的空间和时间视频超分辨率模型生成高清视频。 |   |              |   视频   |\n| [InfiniteTalk](https:\u002F\u002Fgithub.com\u002FMeiGen-AI\u002FInfiniteTalk)                                      | InfiniteTalk：基于音频驱动的稀帧视频配音视频生成。                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.14033)     |              |   视频   |\n| [InstructVideo](https:\u002F\u002Finstructvideo.github.io\u002F)                                              | 通过人类反馈指导视频扩散模型。                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.12490)     |              |   视频   |\n| [I2VGen-XL](https:\u002F\u002Fi2vgen-xl.github.io\u002F)                                                      | 通过级联扩散模型实现高质量的图像到视频合成。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.04145)     |              |   视频   |\n| [LaVie](https:\u002F\u002Fvchitect.github.io\u002FLaVie-project\u002F)                                             | 使用级联潜在扩散模型进行高质量视频生成。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15103)     |              |   视频   |\n| [LongLive](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FLongLive)                                                 | LongLive：实时交互式长视频生成。                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.22622)     |              |   视频   |\n| [LTX Studio](https:\u002F\u002Fltx.studio\u002F)                                                              | LTX Studio 是一个面向创作者、营销人员、电影制作人和工作室的全方位 AI 驱动的电影制作平台。                                                                 |              |              |   视频   |\n| [LTX-Video](https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-Video)                                           | LTX-Video 是首个基于 DiT 的视频生成模型，能够实时生成高质量视频。它可以以 768x512 分辨率生成 24 FPS 的视频，速度比观看它们还快。                      |              |              |   视频   |\n| [Lumiere](https:\u002F\u002Flumiere-video.github.io\u002F)                                                    | 用于视频生成的时空扩散模型。                                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.12945)     |              |   视频   |\n| [LVDM](https:\u002F\u002Fyingqinghe.github.io\u002FLVDM\u002F)                                                     | 用于高保真长视频生成的潜在视频扩散模型。                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.13221)     |              |   视频   |\n| [Lynx](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Flynx)                                                      | Lynx：迈向高保真个性化视频生成。                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.15496)     |              |   视频   |\n| [MagicVideo](https:\u002F\u002Fmagicvideo.github.io\u002F)                                                    | 使用潜在扩散模型高效生成视频。                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.11018)     |              |   视频   |\n| [MagicVideo-V2](https:\u002F\u002Fmagicvideov2.github.io\u002F)                                               | 多阶段高审美视频生成。                                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.04468)     |              |   视频   |\n| [Magic Hour](https:\u002F\u002Fmagichour.ai\u002F)                                                            | 为创作者打造的简单易用的 AI 视频。                                                                                                                                                  |            |              |   视频   |\n| [MAGVIT-v2](https:\u002F\u002Fmagvit.cs.cmu.edu\u002Fv2\u002F)                                                     | 令牌化是视觉生成的关键。                                                                                                                                              |            |              |   视频   |\n| [MAGVIT](https:\u002F\u002Fmagvit.cs.cmu.edu\u002F)                                                           | 掩码生成式视频变压器。                                                                                                                                                |            |              |   视频   |\n| [Make-A-Video](https:\u002F\u002Fmakeavideo.studio\u002F)                                                     | Make-A-Video 是一个最先进的 AI 系统，可以根据文本生成视频。                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14792)     |              |   视频   |\n| [Make Pixels Dance](https:\u002F\u002Fmakepixelsdance.github.io\u002F)                                        | 高动态范围视频生成。                                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10982)     |              |   视频   |\n| [Make-Your-Video](https:\u002F\u002Fdoubiiu.github.io\u002Fprojects\u002FMake-Your-Video\u002F)                         | 使用文本和结构引导进行定制化视频生成。                                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00943)     |              |   视频   |\n| [MicroCinema](https:\u002F\u002Fwangyanhui666.github.io\u002FMicroCinema.github.io\u002F)                          | 一种用于文本到视频生成的分治法。                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18829)     |              |   视频   |\n| [MIMO](https:\u002F\u002Fgithub.com\u002Fmenyifang\u002FMIMO)                                                      | MIMO：利用空间分解建模进行可控的角色视频合成。                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.16160)     |              |   视频   |\n| [Mini-Gemini](https:\u002F\u002Fgithub.com\u002Fdvlab-research\u002FMiniGemini)                                    | 挖掘多模态视觉语言模型的潜力。                                                                                                                     |             |              |   视觉   |\n| [MobileVidFactory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16371)                                           | 基于扩散的自动社交媒体视频生成，适用于移动设备，输入为文本。                                                                                              |             |              |   视频   |\n| [Mochi 1](https:\u002F\u002Fgithub.com\u002Fgenmoai\u002Fmodels)                                                   | Mochi 1 是一款开放式的先进视频生成模型，在初步评估中表现出高保真的运动效果和强大的提示遵循能力。                                       |             |              |   视频   |\n| [MOFA-Video](https:\u002F\u002Fgithub.com\u002FMyNiuuu\u002FMOFA-Video)                                            | 通过在冻结的图像到视频扩散模型中应用生成式运动场适配，实现可控的图像动画。             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.20222)     |              |   视频   |\n| [MoneyPrinterTurbo](https:\u002F\u002Fgithub.com\u002Fharry0703\u002FMoneyPrinterTurbo)                            | 使用大模型一键生成短视频。                                                                                                                           |            |              |   视频   |\n| [Moonvalley](https:\u002F\u002Fmoonvalley.ai\u002F)                                                           | Moonvalley 是一款突破性的新型文本到视频生成 AI 模型。                                                                                                               |            |              |   视频   |\n| [Mora](https:\u002F\u002Fgithub.com\u002Flichao-sun\u002FMora)                                                     | 更接近 Sora 的通用视频生成模型。                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.13248)     |              |   视频   |\n| [Morph Studio](https:\u002F\u002Fwww.morphstudio.com\u002F)                                                   | 借助我们的文本到视频 AI 魔法，通过你的提示展现你的创造力。                                                                                                     |             |              |   视频   |\n| [MotionClone](https:\u002F\u002Fgithub.com\u002FBujiazi\u002FMotionClone)                                          | MotionClone：无需训练即可进行运动克隆，用于可控视频生成。                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.05338)     |              |   视频   |\n| [MotionCtrl](https:\u002F\u002Fwzhouxiff.github.io\u002Fprojects\u002FMotionCtrl\u002F)                                 | 用于视频生成的统一且灵活的运动控制器。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03641)     |              |   视频   |\n| [MotionDirector](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FMotionDirector)                                    | 对文本到视频扩散模型进行运动自定义。                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08465)     |              |   视频   |\n| [Motionshop](https:\u002F\u002Faigc3d.github.io\u002Fmotionshop\u002F)                                             | 将视频中的角色替换为 3D 头像的应用程序。                                                                                                               |             |              |   视频   |\n| [Mov2mov](https:\u002F\u002Fgithub.com\u002FScholar01\u002Fsd-webui-mov2mov)                                       | Automatic1111\u002Fstable-diffusion-webui 的 Mov2mov 插件。                                                                                                                            |            |              |   视频   |\n| [MovieFactory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07257)                                               | 使用大型语言和图像生成模型，根据文本自动创建电影。                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07257)     |              |   视频   |\n| [MoviiGen 1.1](https:\u002F\u002Fgithub.com\u002FZulutionAI\u002FMoviiGen1.1)                                      | MoviiGen 1.1：迈向电影级质量的视频生成模型。MoviiGen 1.1 是一款尖端的视频生成模型，擅长电影美学和视觉质量。该模型是在 Wan2.1 的基础上进行微调的。根据包括行业专家在内的 11 名专业电影制作人和 AIGC 创作者在 60 个美学维度上的综合评估，MoviiGen 1.1 在关键的电影方面表现出色。                                                                                   |            |              |   视频   |\n| [Neural Frames](https:\u002F\u002Fwww.neuralframes.com\u002F)                                                 | 发现视觉世界的合成器。                                                                                                                                      |            |              |   视频   |\n| [NeverEnds](https:\u002F\u002Fneverends.life\u002F)                                                           | 创造属于你的世界。                                                                                                                                                                   |           |              |   视频   |\n| [Open-Sora](https:\u002F\u002Fgithub.com\u002Fhpcaitech\u002FOpen-Sora)                                            | 使高效的视频制作民主化，惠及所有人。                                                                                                                                    |           |              |   视频   |\n| [Open-Sora](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan)                                   | Open-Sora 计划。                                                                                                                                                                    |            |              |   视频   |\n| [Ovi](https:\u002F\u002Fgithub.com\u002Fcharacter-ai\u002FOvi)                                                     | Ovi：用于音视频生成的双骨干跨模态融合。                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.01284)     |              |   视频   |\n| [Phenaki](https:\u002F\u002Fphenaki.video\u002F)                                                              | 一种根据文本生成视频的模型，支持随时间变化的提示，生成的视频最长可达数分钟。     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02399)     |              |   视频   |\n| [Pika Labs](https:\u002F\u002Fwww.pika.art\u002F)                                                             | Pika Labs 正在用 AI 彻底改变视频制作体验。                                                                                                                      |             |              |   视频   |\n| [Pixeling](https:\u002F\u002Fhidream.ai\u002F#\u002FPixeling)                                                      | Pixeling 使我们的客户能够创建高度精确、超逼真且极具控制力的视觉内容，包括图像、视频和 3D 模型。                       |             |              |   视频   |\n| [PixVerse](https:\u002F\u002Fapp.pixverse.ai)                                                            | 用 AI 创造令人惊叹的视频。                                                                                                                                                |            |              |   视频   |\n| [Pollinations](https:\u002F\u002Fpollinations.ai\u002Fc\u002FVideo)                                                | 创作变得轻松、快速且有趣。                                                                                                                                                  |            |              |   视频   |\n| [Reuse and Diffuse](https:\u002F\u002Fanonymous0x233.github.io\u002FReuseAndDiffuse\u002F)                         | 用于文本到视频生成的迭代去噪。                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03549)     |              |   视频   |\n| [Ruyi](https:\u002F\u002Fgithub.com\u002FIamCreateAI\u002FRuyi-Models)                                             | Ruyi 是一款图像到视频模型，能够以 768×768 分辨率、24 帧\u002F秒的帧率生成 5 秒共 120 帧的电影级视频。             |              |              |   视频   |\n| [ShortGPT](https:\u002F\u002Fgithub.com\u002FRayVentura\u002FShortGPT)                                             | 一个用于自动化短视频\u002F视频内容创作的实验性 AI 框架。                                                                                                            |            |              |   视频   |\n| [Show-1](https:\u002F\u002Fshowlab.github.io\u002FShow-1\u002F)                                                    | 将像素和潜在扩散模型结合用于文本到视频生成。                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15818)     |              |   视频   |\n| [Step-Video-T2V](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Video-T2V)                                 | Step-Video-T2V 技术报告：视频基础模型的实践、挑战与未来。                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.10248)     |              |   视频   |\n| [SkyReels-A1](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-A1)                                        | SkyReels-A1：在视频扩散变压器中进行富有表现力的肖像动画。                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.10841)     |              |   视频   |\n| [SkyReels-V1](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1)                                        | SkyReels V1：以人为本的视频基础模型。                                                                                                                          |            |              |   视频   |\n| [Snap Video](https:\u002F\u002Fsnap-research.github.io\u002Fsnapvideo\u002F)                                       | 用于文本到视频合成的缩放时空变换器。                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.14797)     |              |   视频   |\n| [Sora](https:\u002F\u002Fopenai.com\u002Fsora)                                                                | 根据文本创建视频。                                                                                                                                                           |            |              |   视频   |\n| [SoraWebui](https:\u002F\u002Fgithub.com\u002FSoraWebui\u002FSoraWebui)                                            | SoraWebui 是一个开源的 Sora 网页客户端，允许用户使用 OpenAI 的 Sora 模型轻松地根据文本创建视频。                                                            |            |              |   视频   |\n| [StableVideo](https:\u002F\u002Fgithub.com\u002Frese1f\u002Fstablevideo)                                           | 基于文本的一致性感知扩散视频编辑。                                                                                                                              |            |              |   视频   |\n| [Stable Video Diffusion](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Fgenerative-models)                    | 稳定视频扩散 (SVD) 图像到视频。                                                                                                                                         |           |              |   视频   |\n| [StoryDiffusion](https:\u002F\u002Fgithub.com\u002FHVision-NKU\u002FStoryDiffusion)                                | 用于长距离图像和视频生成的一致性自注意力。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.01434)     |              |   视频   |\n| [StoryMem](https:\u002F\u002Fgithub.com\u002FKevin-thu\u002FStoryMem)                                              | StoryMem：带有记忆的多镜头长视频叙事。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.19539)     |              |   视频   |\n| [StreamingT2V](https:\u002F\u002Fgithub.com\u002FPicsart-AI-Research\u002FStreamingT2V)                            | 从文本生成一致、动态且可扩展的长视频。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.14773)     |              |   视频   |\n| [StyleCrafter](https:\u002F\u002Fgongyeliu.github.io\u002FStyleCrafter.github.io\u002F)                            | 使用风格适配器提升风格化文本到视频生成的质量。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.00330)     |              |   视频   |\n| [TATS](https:\u002F\u002Fsongweige.github.io\u002Fprojects\u002Ftats\u002Findex.html)                                   | 使用时间无关的 VQGAN 和时间敏感的变压器进行长视频生成。                                                                                                       |           |              |   视频   |\n| [Text2Video-Zero](https:\u002F\u002Fgithub.com\u002FPicsart-AI-Research\u002FText2Video-Zero)                      | 图像扩散模型是零样本视频生成器。                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13439)     |              |   视频   |\n| [TF-T2V](https:\u002F\u002Ftf-t2v.github.io\u002F)                                                            | 使用无姿态视频扩大文本到视频生成规模的配方。                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.15770)     |              |   视频   |\n| [Tora](https:\u002F\u002Fgithub.com\u002Fali-videoai\u002FTora)                                                    | Tora：面向轨迹的视频生成扩散变压器。                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.21705)     |              |   视频   |\n| [Track-Anything](https:\u002F\u002Fgithub.com\u002Fgaomingqi\u002FTrack-Anything)                                  | Track-Anything 是一个灵活且交互式的视频目标跟踪和分割工具，基于 Segment Anything 和 XMem。           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.11968)     |              |   视频   |\n| [Tune-A-Video](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FTune-A-Video)                                        | 一次性调整图像扩散模型以用于文本到视频生成。                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.11565)     |              |   视频   |\n| [TwelveLabs](https:\u002F\u002Fwww.twelvelabs.io\u002F)                                                       | 多模态 AI 能够像人类一样理解视频。                                                                                                                                  |            |              |   视频   |\n| [UniVG](https:\u002F\u002Funivg-baidu.github.io\u002F)                                                        | 朝着统一模态视频生成迈进。                                                                                                                                             |            |              |   视频   |\n| [Vchitect-2.0](https:\u002F\u002Fgithub.com\u002FVchitect\u002FVchitect-2.0)                                       | Vchitect-2.0：用于扩大视频扩散模型规模的并行变压器。                                                                                                           |            |              |   视频   |\n| [VGen](https:\u002F\u002Fgithub.com\u002Fali-vilab\u002Fi2vgen-xl)                                                 | 一个基于扩散模型构建的视频生成生态系统。                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.04145)     |              |   视频   |\n| [ViewCrafter](https:\u002F\u002Fgithub.com\u002FDrexubery\u002FViewCrafter)                                        | ViewCrafter：驯服视频扩散模型以实现高保真新视角合成。                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.02048)     |              |   视频   |\n| [Video-ChatGPT](https:\u002F\u002Fgithub.com\u002Fmbzuai-oryx\u002FVideo-ChatGPT)                                  | Video-ChatGPT 是一个视频对话模型，能够生成关于视频的有意义对话。                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05424)     |              |   视频   |\n| [VideoComposer](https:\u002F\u002Fvideocomposer.github.io\u002F)                                              | 具有运动可控性的组合式视频合成。                                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.02018)     |              |   视频   |\n| [VideoCrafter1](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.19512)                                              | 开放式扩散模型用于高质量视频生成。                                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.19512)     |              |   视频   |\n| [VideoCrafter2](https:\u002F\u002Failab-cvc.github.io\u002Fvideocrafter2\u002F)                                    | 克服数据限制以实现高质量视频扩散模型。                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.09047)     |              |   视频   |\n| [VideoDrafter](https:\u002F\u002Fvideodrafter.github.io\u002F)                                                | 基于 LLM 的内容一致多场景视频生成。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.01256)     |              |   视频   |\n| [VideoElevator](https:\u002F\u002Fgithub.com\u002FYBYBZhang\u002FVideoElevator)                                    | 通过多功能图像到视频扩散模型提升视频生成质量。                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.05438)     |              |   视频   |\n| [VideoFactory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10874)                                               | 在时空扩散中交换注意力以进行文本到视频生成。                                                                                                         |              |              |   视频   |\n| [VideoGen](https:\u002F\u002Fvideogen.github.io\u002FVideoGen\u002F)                                               | 一种参考引导的潜在扩散方法，用于高清文本到视频生成。                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.00398)     |              |   视频   |\n| [VideoLCM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09109)                                                   | 视频潜在一致性模型。                                                                                              |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09109)     |              |   视频   |\n| [Video LDMs](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002FVideoLDM\u002F)                            | 对齐你的潜在空间：使用潜在扩散模型进行高分辨率视频合成。                                           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08818)     |              |   视频   |\n| [Video-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA)                                    | 通过投影前对齐学习统一的视觉表示。                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10122)     |              |   视频   |\n| [VideoMamba](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVideoMamba)                                          | 用于高效视频理解的状态空间模型。                                                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.06977)     |              |   视频   |\n| [Video-of-Thought](https:\u002F\u002Fgithub.com\u002Fscofield7419\u002FVideo-of-Thought)                           | Video-of-Thought：从感知到认知的逐步视频推理。                                                                                                       |             |              |   视频   |\n| [VideoPoet](https:\u002F\u002Fsites.research.google\u002Fvideopoet\u002F)                                          | 一个用于零样本视频生成的大语言模型。                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14125)     |              |   视频   |\n| [Vispunk Motion](https:\u002F\u002Fvispunk.com\u002Fvideo)                                                    | 仅用文本就能创建逼真的视频。                                                                                                                                           |             |              |   视频   |\n| [VisualRWKV](https:\u002F\u002Fgithub.com\u002Fhoward-hou\u002FVisualRWKV)                                         | VisualRWKV 是 RWKV 语言模型的视觉增强版，使 RWKV 能够处理各种视觉任务。                                                            |              |              |   视觉   |\n| [V-JEPA](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fjepa)                                             | 视频联合嵌入预测架构。                                                                               |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.08471)     |              |   视频   |\n| [W.A.L.T](https:\u002F\u002Fwalt-video-diffusion.github.io\u002F)                                             | 基于扩散模型的照相写实主义视频生成。                                                                       |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.06662)     |              |   视频   |\n| [Wan2.1](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1)                                                  | Wan：开放且先进的大规模视频生成模型。                                                                                                                      |               |              |   视频   |\n| [Wan2.2](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.2)                                                  | Wan：开放且先进的大规模视频生成模型。                                                                  |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20314)     |              |   视频   |\n| [Waver](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FWaver)                                             | Waver 1.0 是下一代通用基础模型家族，用于统一的图像和视频生成，基于校正流 Transformer 构建，并专为工业级性能而设计。        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.15761)     |              |   视频   |\n| [Zeroscope](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ffffiloni\u002Fzeroscope)                                  | Zeroscope 文本到视频。                                                                                                                                                         |               |              |   视频   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"audio\">音频\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  |   类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AcademiCodec](https:\u002F\u002Fgithub.com\u002Fyangdongchao\u002FAcademiCodec)                                   | 用于学术研究的开源音频编解码器模型。                                                                                                                  |  |              |   音频   |\n| [Amphion](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion)                                               | 开源音频、音乐和语音生成工具包。                                                                 |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09911)      |              |   音频   |\n| [ArchiSound](https:\u002F\u002Fgithub.com\u002Farchinetai\u002Faudio-diffusion-pytorch)                            | 使用扩散模型在 PyTorch 中进行音频生成。                                                                                                                           |                  |              |   音频   |\n| [Audiobox](https:\u002F\u002Faudiobox.metademolab.com\u002F)                                                  | 基于自然语言提示的统一音频生成。                                                                                                                        |                  |              |   音频   |\n| [AudioEditing](https:\u002F\u002Fgithub.com\u002FHilaManor\u002FAudioEditingCode)                                  | 使用 DDPM 反演实现零样本无监督及基于文本的音频编辑。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.10009)      |              |   音频   |\n| [Audiogen Codec](https:\u002F\u002Fgithub.com\u002FAudiogenAI\u002Fagc)                                            | 适用于通用音频的低压缩率 48kHz 立体声神经网络音频编解码器，专注于音频保真度 🎵。                                                                         |                  |              |   音频   |\n| [AudioGPT](https:\u002F\u002Fgithub.com\u002FAIGC-Audio\u002FAudioGPT)                                             | 理解并生成语音、音乐、声音及说话人头像。                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12995)      |              |   音频   |\n| [AudioLCM](https:\u002F\u002Fgithub.com\u002Fliuhuadai\u002FAudioLCM)                                              | 使用潜在一致性模型进行文本到音频生成。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00356v1)      |              |   音频   |\n| [AudioLDM](https:\u002F\u002Faudioldm.github.io\u002F)                                                        | 使用潜在扩散模型进行文本到音频生成。                                                                      |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12503)      |              |   音频   |\n| [AudioLDM 2](https:\u002F\u002Fgithub.com\u002Fhaoheliu\u002Faudioldm2)                                            | 通过自监督预训练学习整体音频生成。                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.05734)      |              |   音频   |\n| [AudioX](https:\u002F\u002Fgithub.com\u002FZeyueT\u002FAudioX)                                                     | AudioX：用于任意内容到音频生成的扩散 Transformer。                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10522)      |              |   音频   |\n| [Auffusion](https:\u002F\u002Fgithub.com\u002Fhappylittlecat2333\u002FAuffusion)                                   | 利用扩散模型和大型语言模型的力量进行文本到音频生成。                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.01044)      |              |   音频   |\n| [CTAG](https:\u002F\u002Fgithub.com\u002FPapayaResearch\u002Fctag)                                                 | 通过合成器编程实现创意文本到音频生成。                                                                                                                     |              |              |   音频   |\n| [FoleyCrafter](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FFoleyCrafter)                                     | FoleyCrafter：为无声视频赋予逼真且同步的声音。                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.01494)      |              |   音频   |\n| [HunyuanVideo-Foley](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FHunyuanVideo-Foley)                    | HunyuanVideo-Foley：通过表征对齐的多模态扩散模型实现高保真 Foley 音效生成。           |[arXiv](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2508.16930)  |              |   音频   |\n| [MAGNeT](https:\u002F\u002Fpages.cs.huji.ac.il\u002Fadiyoss-lab\u002FMAGNeT\u002F)                                      | 使用单个非自回归 Transformer 进行掩码音频生成。                                                                                                             |              |              |   音频   |\n| [Make-An-Audio](https:\u002F\u002Ftext-to-audio.github.io\u002F)                                              | 使用提示增强的扩散模型进行文本到音频生成。                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12661)      |              |   音频   |\n| [Make-An-Audio 3](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio-3)                            | 通过基于流的大规模扩散 Transformer 将文本转换为音频。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18474)      |              |   音频   |\n| [MeanAudio](https:\u002F\u002Fgithub.com\u002Fxiquan-li\u002FMeanAudio)                                            | MeanAudio：使用均值流实现快速且忠实的文本到音频生成。                                                                                                             |              |              |   音频   |\n| [MiDashengLM](https:\u002F\u002Fgithub.com\u002Fxiaomi-research\u002Fdasheng-lm)                                   | MiDashengLM：利用通用音频字幕实现高效的音频理解。                                                     |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03983)      |              |   音频   |\n| [MMAudio](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio)                                               | MMAudio：驯服多模态联合训练，实现高质量的视频到音频合成。                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15322)      |              |   音频   |\n| [NeuralSound](https:\u002F\u002Fgithub.com\u002Fhellojxt\u002FNeuralSound)                                         | 基于学习的模态声音合成，结合声学迁移。                                                                |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.07425)      |              |   音频   |\n| [OptimizerAI](https:\u002F\u002Fwww.optimizerai.xyz\u002F)                                                    | 为创作者、游戏开发者、艺术家和视频制作者提供的声音服务。                                                                    |            |              |   音频   |\n| [Qwen2-Audio](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2-Audio)                                           | 阿里云提出的 Qwen2-Audio 聊天及预训练大型音频语言模型。                                         |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.10759)      |              |   音频   |\n| [SEE-2-SOUND](https:\u002F\u002Fgithub.com\u002Fsee2sound\u002Fsee2sound)                                          | 零样本空间环境到空间声音。                                                                             |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06612)      |              |   音频   |\n| [SoundStorm](https:\u002F\u002Fgoogle-research.github.io\u002Fseanet\u002Fsoundstorm\u002Fexamples\u002F)                    | 高效的并行音频生成。                                                                                        |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.09636)      |              |   音频   |\n| [Stable Audio](https:\u002F\u002Fwww.stableaudio.com\u002F)                                                   | 快速的时序条件潜在音频扩散。                                                                                                                                      |            |              |   音频   |\n| [Stable Audio Open](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fstable-audio-open-1.0)                  | Stable Audio Open 1.0 根据文本提示生成可变长度（最长 47 秒）的 44.1kHz 立体声音频。                                                                              |            |              |   音频   |\n| [SyncFusion](https:\u002F\u002Fgithub.com\u002Fmcomunita\u002Fsyncfusion)                                          | SyncFusion：多模态起始时刻同步的视频到音频 Foley 合成。                                                   |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.15247)      |              |   音频   |\n| [TANGO](https:\u002F\u002Fgithub.com\u002Fdeclare-lab\u002Ftango)                                                  | 使用指令微调的 LLM 和潜在扩散模型进行文本到音频生成。                                                                                                      |           |              |   音频   |\n| [ThinkSound](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FThinkSound)                                        | ThinkSound：在多模态大型语言模型中运用思维链推理进行音频生成与编辑。           |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.21448)      |              |   音频   |\n| [VTA-LDM](https:\u002F\u002Fgithub.com\u002Fariesssxu\u002Fvta-ldm)                                                | 带有隐式对齐的视频到音频生成。                                                                            |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.07464)      |              |   音频   |\n| [WavJourney](https:\u002F\u002Fgithub.com\u002FAudio-AGI\u002FWavJourney)                                          | 使用大型语言模型进行组合式音频创作。                                                                    |[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.14335)      |              |   音频   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"music\">音乐\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎  |   类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [AIVA](https:\u002F\u002Fwww.aiva.ai\u002F)                                                                   | 基于人工智能的情感配乐创作。                                                                                             |                                    |              |   音乐   |\n| [Amper Music](https:\u002F\u002Fwww.shutterstock.com\u002Fdiscover\u002Fampermusic)                                | 由 Amper 提供支持的定制化音乐生成技术。                                                                                                          |                                    |              |   音乐   |\n| [AnyAccomp](https:\u002F\u002Fgithub.com\u002FAmphionTeam\u002FAnyAccomp)                                          | AnyAccomp：通过量化旋律瓶颈实现可泛化的伴奏生成。                                        | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.14052)      |              |   音乐   |\n| [Boomy](https:\u002F\u002Fboomy.com\u002F)                                                                    | 创造生成式音乐，并与全世界分享。                                                                                                             |                                    |              |   音乐   |\n| [ChatMusician](https:\u002F\u002Fshanghaicannon.github.io\u002FChatMusician\u002F)                                 | 在大型语言模型中培养内在的音乐能力。                                                                                                              |                                     |              |   音乐   |\n| [Chord2Melody](https:\u002F\u002Fgithub.com\u002Ftanreinama\u002Fchord2melody)                                     | 自动音乐生成 AI。                                                                                                                               |                                     |              |   音乐   |\n| [Diff-BGM](https:\u002F\u002Fgithub.com\u002Fsizhelee\u002FDiff-BGM)                                               | 用于视频背景音乐生成的扩散模型。                                                                   | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.11913)      |              |   音乐   |\n| [FluxMusic](https:\u002F\u002Fgithub.com\u002Ffeizc\u002FFluxMusic)                                                | FluxMusic：基于修正流变换器的文本到音乐生成。                                                       | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00587)      |              |   音乐   |\n| [GPTAbleton](https:\u002F\u002Fgithub.com\u002FBurnedGuitarist\u002FGPTAbleton)                                    | 用于处理 GPT 响应并将 MIDI 音符通过 AbletonOSC 和 python-osc 发送到 Ableton 片段中的脚本草稿。                                |                                   |              |   音乐   |\n| [HeyMusic.AI](https:\u002F\u002Fheymusic.ai\u002Fzh)                                                          | AI 音乐生成器                                                                                                                                             |                                   |              |   音乐   |\n| [Image to Music](https:\u002F\u002Fimagetomusic.top\u002F)                                                    | AI 图片转音乐生成器是一种利用人工智能将图片转换为音乐的工具。                                                          |                                   |              |   音乐   |\n| [JEN-1](https:\u002F\u002Fwww.futureverse.com\u002Fresearch\u002Fjen\u002Fdemos\u002Fjen1)                                   | 基于全向扩散模型的文本引导通用音乐生成。                                                                                  |                                   |              |   音乐   |\n| [Jukebox](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fjukebox)                                                   | 一种音乐生成模型。                                                                                              | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.00341)      |              |   音乐   |\n| [Magenta](https:\u002F\u002Fgithub.com\u002Fmagenta\u002Fmagenta)                                                  | Magenta 是一个研究项目，探索机器学习在艺术和音乐创作过程中的作用。                                              |                                   |              |   音乐   |\n| [MeLoDy](https:\u002F\u002Fefficient-melody.github.io\u002F)                                                  | 高效的神经网络音乐生成                                                                                                                                |                                 |              |   音乐   |\n| [Mubert](https:\u002F\u002Fmubert.com\u002F)                                                                  | AI 生成式音乐。                                                                                                                                             |                                 |              |   音乐   |\n| [MuseNet](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fmusenet)                                                 | 一种深度神经网络，能够生成包含 10 种不同乐器的 4 分钟音乐作品，并能融合从乡村音乐到莫扎特再到披头士等多种风格。     |                         |              |   音乐   |\n| [MusicGen](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Faudiocraft)                                     | 简单且可控的音乐生成。                                                                                  | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05284)      |              |   音乐   |\n| [MusicLDM](https:\u002F\u002Fmusicldm.github.io\u002F)                                                        | 利用节拍同步混合策略提升文本到音乐生成的新颖性。                                     | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.01546)      |              |   音乐   |\n| [MusicLM](https:\u002F\u002Fgoogle-research.github.io\u002Fseanet\u002Fmusiclm\u002Fexamples\u002F)                          | 从文本生成音乐。                                                                                                | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11325)      |              |   音乐   |\n| [Riffusion App](https:\u002F\u002Fgithub.com\u002Friffusion\u002Friffusion-app)                                    | Riffusion 是一款使用稳定扩散进行实时音乐生成的应用程序。                                                                                           |                              |              |   音乐   |\n| [Sonauto](https:\u002F\u002Fsonauto.ai\u002FHome)                                                             | Sonauto 是一款 AI 音乐编辑器，可以将提示词、歌词或旋律转化为任何风格的完整歌曲。                                                                 |                             |              |   音乐   |\n| [SonicMaster](https:\u002F\u002Fgithub.com\u002FAMAAI-Lab\u002FSonicMaster)                                        | SonicMaster：迈向可控的一体化音乐修复与母带处理。                                              | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03448)      |              |   音乐   |\n| [SoundRaw](https:\u002F\u002Fsoundraw.io\u002F)                                                               | 为创作者提供的 AI 音乐生成器。                                                                                                                                     |                             |              |   音乐   |\n| [Soundry AI](https:\u002F\u002Fsoundry.ai\u002F)                                                              | 包括文本转声音和无限样本包在内的生成式 AI 工具。                                                                                               |                             |              |   音乐   |\n| [YuE](https:\u002F\u002Fgithub.com\u002Fmultimodal-art-projection\u002FYuE)                                        | YuE：开源的整首歌曲生成基础模型，类似于 Suno.ai 但为开源版本。                                                                              |                             |              |   音乐   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"voice\">歌声\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   |  游戏引擎  |   类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [DiffSinger](https:\u002F\u002Fgithub.com\u002FMoonInTheRiver\u002FDiffSinger)                                     | 基于浅层扩散机制的歌声合成。                                                                   | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.02446)      |              |   歌声   |\n| [Retrieval-based-Voice-Conversion-WebUI](https:\u002F\u002Fgithub.com\u002Fliujing04\u002FRetrieval-based-Voice-Conversion-WebUI)                                     | 基于VITS的易用型语音转换框架。                                                                             |                      |              |   歌声   |\n| [so-vits-svc](https:\u002F\u002Fgithub.com\u002Fsvc-develop-team\u002Fso-vits-svc)                                 | SoftVC VITS 歌声转换。                                                                                                                                      |                       |              |   歌声   |\n| [VI-SVS](https:\u002F\u002Fgithub.com\u002FPlayVoice\u002FVI-SVS)                                                  | 使用VITS和Opencpop开发歌声合成；与VISinger不同。                                                                                         |                       |              |   歌声   |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n## \u003Cspan id=\"speech\">语音\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   | 游戏引擎 | 类型 |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |\n| [Applio](https:\u002F\u002Fgithub.com\u002FIAHispano\u002FApplio)                                                  | 终极语音克隆工具，经过精心优化，具有无与伦比的强大功能、模块化设计和用户友好的体验。                              |                                                |              | 语音  |\n| [Audyo](https:\u002F\u002Fwww.audyo.ai\u002F)                                                                 | 输入文本，输出音频。                                                                                                                              |                                                |              | 语音  |\n| [Bark](https:\u002F\u002Fgithub.com\u002Fsuno-ai\u002Fbark)                                                        | 文本提示生成式音频模型。                                                                                                           |                                                 |              | 语音  |\n| [Bert-VITS2](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002FBert-VITS2)                                          | 基于多语言BERT的VITS2骨干网络。                                                                                                          |                                                 |              | 语音  |\n| [Chatterbox](https:\u002F\u002Fgithub.com\u002Fresemble-ai\u002Fchatterbox)                                        | Chatterbox TTS是首个生产级开源TTS模型。                                                                                        |                                      |              | 语音  |\n| [ChatTTS](https:\u002F\u002Fgithub.com\u002F2noise\u002FChatTTS)                                                   | ChatTTS是一款用于日常对话的生成式语音模型。                                                                                        |                                                 |              | 语音  |\n| [CLAPSpeech](https:\u002F\u002Fclapspeech.github.io\u002F)                                                    | 通过对比语言-音频预训练学习文本上下文中的韵律。                                           | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10763)      |              | 语音  |\n| [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)                                          | 多语言大型语音生成模型，提供推理、训练和部署的全栈能力。                                   |                                                 |              | 语音  |\n| [DEX-TTS](https:\u002F\u002Fgithub.com\u002Fwinddori2002\u002FDEX-TTS)                                             | 基于扩散模型的表情丰富文本到语音合成，并在时间变异性上进行风格建模。                                         | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.19135)      |              | 语音  |\n| [EmotiVoice](https:\u002F\u002Fgithub.com\u002Fnetease-youdao\u002FEmotiVoice)                                     | 多语音且受提示控制的TTS引擎。                                                                                                 |                                                 |              | 语音  |\n| [FireRedTTS-2](https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRedTTS2)                                     | FireRedTTS-2：面向播客和聊天机器人的长对话语音生成。                                       | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.02020)      |              | 语音  |\n| [Fliki](https:\u002F\u002Ffliki.ai\u002F)                                                                     | 将文本转换为带有AI语音的视频。                                                                                                           |                                                 |              | 语音  |\n| [GLM-4-Voice](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FGLM-4-Voice)                                            | GLM-4-Voice是由智谱AI推出的一体化语音模型。GLM-4-Voice可以直接理解和生成中文和英文语音，进行实时语音对话，并根据用户指令改变情感、语调、语速和方言等属性。                                         |                                                 |              | 语音  |\n| [Glow-TTS](https:\u002F\u002Fgithub.com\u002Fjaywalnut310\u002Fglow-tts)                                           | 通过单调对齐搜索实现文本到语音的生成流模型。                                                       | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.11129)      |              | 语音  |\n| [GPT-SoVITS](https:\u002F\u002Fgithub.com\u002FRVC-Boss\u002FGPT-SoVITS)                                           | 强大的少样本语音转换和文本到语音WebUI。                                                                                 |                                                  |              | 语音  |\n| [Higgs Audio](https:\u002F\u002Fgithub.com\u002Fboson-ai\u002Fhiggs-audio)                                         | Higgs Audio V2：重新定义音频生成中的表现力。                                                                                 |                                                  |              | 语音  |\n| [IndexTTS2](https:\u002F\u002Fgithub.com\u002Findex-tts\u002Findex-tts)                                            | IndexTTS2：在情感丰富且时长可控的自回归零样本文本到语音合成方面的突破。            | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.21619)      |              | 语音  |\n| [Kitten TTS](https:\u002F\u002Fgithub.com\u002FKittenML\u002FKittenTTS)                                            | Kitten TTS是一个开源的逼真文本到语音模型，仅需1500万参数，专为轻量级部署和高质量语音合成而设计。        |                                                  |              | 语音  |\n| [Liquid Audio](https:\u002F\u002Fgithub.com\u002FLiquid4All\u002Fliquid-audio)                                     | Liquid Audio - Liquid AI推出的语音到语音音频模型。                                                                                     |                                                  |              | 语音  |\n| [LOVO](https:\u002F\u002Flovo.ai\u002F)                                                                       | LOVO是数千名创作者首选的AI语音生成器和文本到语音平台。                                                      |                                                  |              | 语音  |\n| [MahaTTS](https:\u002F\u002Fgithub.com\u002Fdubverse-ai\u002FMahaTTS)                                              | 一款开源的大规模语音生成模型。                                                                                                   |                                                 |              | 语音  |\n| [Matcha-TTS](https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS)                                      | 一种基于条件流匹配的快速TTS架构。                                                                    | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03199)      |              | 语音  |\n| [MeloTTS](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FMeloTTS)                                               | MyShell.ai出品的高质量多语言文本到语音库。支持英语、西班牙语、法语、中文、日语和韩语。       |                                                  |              | 语音  |\n| [MetaVoice-1B](https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src)                                   | 用于实现人类水平语音智能的AI。                                                                                                         |                                                 |              | 语音  |\n| [Narakeet](https:\u002F\u002Fwww.narakeet.com\u002F)                                                          | 轻松使用逼真的文本到语音技术创建配音。                                                                                        |                                                 |              | 语音  |\n| [Mini-Omni](https:\u002F\u002Fgithub.com\u002Fgpt-omni\u002Fmini-omni)                                             | Mini-Omni：语言模型可以在流式处理中听、说并思考。Mini-Omni是一款开源的多模态大型语言模型，能够边听边说边思考。具备实时端到端语音输入和流式音频输出的对话能力。                                                                 | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16725)      |              | 语音  |\n| [One-Shot-Voice-Cloning](https:\u002F\u002Fgithub.com\u002FCMsmartvoice\u002FOne-Shot-Voice-Cloning)               | 基于Unet-TTS的一次性语音克隆。                                                                                                       |                                                  |              | 语音  |\n| [OpenVoice](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FOpenVoice)                                           | MyShell提供的即时语音克隆服务。                                                                                                              |                                                  |              | 语音  |\n| [OverFlow](https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FOverFlow)                                          | 在神经换能器之上应用流模型以改善TTS性能。                                                                                     |                                                  |              | 语音  |\n| [RealtimeTTS](https:\u002F\u002Fgithub.com\u002FKoljaB\u002FRealtimeTTS)                                           | RealtimeTTS是一款最先进的文本到语音（TTS）库，专为实时应用而设计。                                        |                                                  |              | 语音  |\n| [SenseVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FSenseVoice)                                        | SenseVoice是一款语音基础模型，具备多种语音理解能力，包括自动语音识别（ASR）、口语语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。                                                                                            |                                                  |              | 语音  |\n| [SpeechGPT](https:\u002F\u002Fgithub.com\u002F0nutation\u002FSpeechGPT)                                            | 通过内在的跨模态对话能力增强大型语言模型。                                      | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11000)      |              | 语音  |\n| [speech-to-text-gpt3-unity](https:\u002F\u002Fgithub.com\u002Fdr-iskandar\u002Fspeech-to-text-gpt3-unity)          | 这是我使用Whisper和OpenAI的ChatGPT API在Unity中实现的项目仓库。                                                                           |                                                  |     Unity     | 语音  |\n| [Stable Speech](https:\u002F\u002Fgithub.com\u002Fsanchit-gandhi\u002Fstable-speech)                               | Stability AI的文本到语音模型。                                                                                                          |                                                   |              | 语音  |\n| [StableTTS](https:\u002F\u002Fgithub.com\u002FKdaiP\u002FStableTTS)                                                | 下一代TTS模型，采用流匹配和DiT技术，灵感来自Stable Diffusion 3。                                                        |                                                   |              | 语音  |\n| [Step-Audio](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio)                                         | Step-Audio：智能语音交互中的统一理解与生成。                                        | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11946)      |              | 语音  |\n| [Step-Audio 2](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2)                                      | Step-Audio 2是一款端到端的多模态大型语言模型，专为工业级音频理解和语音对话而设计。         | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16632)      |              | 语音  |\n| [StyleTTS 2](https:\u002F\u002Fgithub.com\u002Fyl4579\u002FStyleTTS2)                                              | 通过风格扩散和对抗训练，结合大型语音语言模型，迈向人类水平的文本到语音合成。    | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07691)      |              | 语音  |\n| [tortoise.cpp](https:\u002F\u002Fgithub.com\u002Fbalisujohn\u002Ftortoise.cpp)                                     | tortoise.cpp：tortoise-tts的GGML实现。                                                                                             |                                                  |              | 语音  |\n| [TorToiSe-TTS](https:\u002F\u002Fgithub.com\u002Fneonbjb\u002Ftortoise-tts)                                        | 一个注重质量的多语音TTS系统。                                                                                  |                                                  |              | 语音  |\n| [TTS Generation WebUI](https:\u002F\u002Fgithub.com\u002Frsxdalv\u002Ftts-generation-webui)                        | TTS生成WebUI（Bark、MusicGen、Tortoise、RVC、Vocos、Demucs）。                                                                           |                                                  |              | 语音  |\n| [VALL-E](https:\u002F\u002Fvalle-demo.github.io\u002F)                                                        | 神经编解码语言模型是零样本文本到语音合成器。                                                    | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.02111)      |              | 语音  |\n| [VALL-E X](https:\u002F\u002Fvallex-demo.github.io\u002F)                                                     | 用自己的声音说外语：跨语言神经编解码语言建模                                  | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03926)      |              | 语音  |\n| [VibeVoice](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FVibeVoice)                                            | VibeVoice是一种新颖的框架，旨在从文本生成富有表现力、长篇幅、多说话者的对话式音频，例如播客。它解决了传统文本到语音（TTS）系统中的重大挑战，特别是在可扩展性、说话者一致性以及自然的轮流发言方面。               |                                                   |              | 语音  |\n| [Vocode](https:\u002F\u002Fdocs.vocode.dev\u002F)                                                             | Vocode是一个用于构建基于语音的LLM应用的开源库。                                                                   |                                                   |              | 语音  |\n| [Voicebox](https:\u002F\u002Fgithub.com\u002FSpeechifyInc\u002FMeta-voicebox)                                      | 文本引导的多语言通用大规模语音生成。                                                             | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.15687)      |              | 语音  |\n| [VoiceCraft](https:\u002F\u002Fgithub.com\u002Fjasonppy\u002FVoiceCraft)                                           | 零样本语音编辑和野外环境下的文本到语音合成。                                                                                    |                                                     |              | 语音  |\n| [VoxCPM](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FVoxCPM)                                                    | VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和逼真语音克隆。                                          |                                                     |              | 语音  |\n| [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)                                                   | Whisper是一款通用的语音识别模型。                                                                                     |                                                      |              | 语音  |\n| [WhisperSpeech](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperSpeech)                                    | 一个通过反转Whisper构建的开源文本到语音系统。                                                                           |                                                      |              | 语音  |\n| [X-E-Speech](https:\u002F\u002Fgithub.com\u002FX-E-Speech\u002FX-E-Speech-code)                                    | 非自回归跨语言情感文本到语音与语音转换的联合训练框架。                                |                                                      |              | 语音  |\n| [XTTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS)                                                        | XTTS是一个用于高级文本到语音生成的库。                                                                                  |                                                      |              | 语音  |\n| [YourTTS](https:\u002F\u002Fgithub.com\u002FEdresson\u002FYourTTS)                                                 | 努力实现面向所有人的零样本多说话者TTS和零样本语音转换。                                           | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.02418)      |              | 语音  |\n| [ZMM-TTS](https:\u002F\u002Fgithub.com\u002Fnii-yamagishilab\u002FZMM-TTS)                                         | 基于自监督离散语音表示的零样本多语言、多说话者语音合成。  | [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14398)     |              | 语音  |\n| [UniAudio 2.0](https:\u002F\u002Fgithub.com\u002Fyangdongchao\u002FUniAudio2)                                      | UniAudio 2.0：一种多任务音频基础模型，配备推理增强型音频分词。                                   |                                                      |              | 语音  |\n| [UnityNeuroSpeech](https:\u002F\u002Fgithub.com\u002FHardCodeDev777\u002FUnityNeuroSpeech)                         | 全球首个允许您与AI实时对话的游戏框架——本地运行。                                                                                |          |     Unity    |   语音  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>\n\n\n\n\n## \u003Cspan id=\"speech\">分析工具\u003C\u002Fspan>\n\n| 来源                                                                                      | 描述                                                                                                                                                                                    | 游戏引擎  | 类型   |\n| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-------: |\n| [Ludo.ai](https:\u002F\u002Fludo.ai\u002F)                                                        | 游戏研究与设计助手。                                                                                                                        |              | 分析工具  |\n\n\u003Cp style=\"text-align: right;\">\u003Ca href=\"#table-of-contents\">^ 返回目录 ^\u003C\u002Fa>\u003C\u002Fp>","# AI Game DevTools (AI-GDT) 快速上手指南\n\n**注意**：`ai-game-devtools` 并非一个单一的独立软件包，而是一个**开源工具集合列表**（Awesome List），旨在汇总游戏开发领域最新的 AI 工具（涵盖 LLM、世界模型、代码生成、3D 资产、音频等）。\n\n因此，本指南将指导你如何获取该资源列表，并选取其中两个最具代表性的工具（通用 Agent 框架 **Auto-GPT** 和 Unity 集成工具 **AICommand**）进行快速安装与演示。\n\n---\n\n## 1. 环境准备\n\n在开始使用列表中的具体工具前，请确保你的开发环境满足以下通用要求：\n\n*   **操作系统**：Windows 10\u002F11, macOS, 或 Linux (Ubuntu 20.04+)\n*   **Python 环境**：Python 3.8 - 3.11 (推荐通过 `conda` 或 `venv` 管理虚拟环境)\n*   **版本控制**：Git\n*   **API 密钥**：大部分工具需要配置 LLM API Key（如 OpenAI, DeepSeek, Baichuan 等）。\n    *   *国内开发者建议*：优先使用 **DeepSeek**, **Baichuan (百川)**, 或 **ZhipuAI (智谱)** 的 API，以获得更低的延迟和本土化支持。\n*   **游戏引擎（可选）**：若使用引擎插件，需安装 **Unity 2021+** 或 **Unreal Engine 5**。\n\n---\n\n## 2. 获取资源列表\n\n首先克隆该仓库以浏览完整的工具目录：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fzhaocheng-huang\u002Fai-game-devtools.git\ncd ai-game-devtools\n```\n\n你可以直接在本地查看 `README.md` 文件，根据分类（如 `Code`, `3D Model`, `Audio`）查找适合你项目的具体工具链接。\n\n---\n\n## 3. 快速实战示例\n\n以下展示两类典型场景的快速启动方法。\n\n### 场景 A：自主游戏逻辑代理 (基于 Auto-GPT)\n\n适用于自动生成游戏脚本、测试用例或策划文档。\n\n#### 安装步骤\n```bash\n# 创建并激活虚拟环境\npython -m venv venv\nsource venv\u002Fbin\u002Factivate  # Windows 用户请使用: venv\\Scripts\\activate\n\n# 克隆项目\ngit clone https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT.git\ncd Auto-GPT\n\n# 安装依赖 (建议使用国内镜像源加速)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 复制配置文件\ncp .env.template .env\n```\n\n#### 基本使用\n1. 编辑 `.env` 文件，填入你的大模型 API Key（支持兼容 OpenAI 格式的国内模型）：\n   ```env\n   OPENAI_API_KEY=sk-your-api-key-here\n   OPENAI_API_BASE=https:\u002F\u002Fapi.deepseek.com\u002Fv1  # 示例：使用 DeepSeek 接口\n   ```\n2. 运行交互模式：\n   ```bash\n   python -m autogpt\n   ```\n3. **输入指令示例**：\n   > \"Create a Python script for a Unity player controller that handles movement and jumping.\"\n   > (创建一个处理移动和跳跃的 Unity 玩家控制器 Python 脚本。)\n\n---\n\n### 场景 B：Unity 引擎内集成 (基于 AICommand)\n\n适用于在 Unity 编辑器中直接通过自然语言生成代码或修改场景。\n\n#### 安装步骤\n1. 打开 **Unity Editor**。\n2. 菜单栏选择 `Window` > `Package Manager`。\n3. 点击左上角 `+` 号，选择 `Add package from git URL...`。\n4. 输入以下地址并添加：\n   ```text\n   https:\u002F\u002Fgithub.com\u002Fkeijiro\u002FAICommand.git\n   ```\n   *(注：若网络受限，可手动下载 ZIP 包解压至 `Packages` 文件夹)*\n\n#### 基本使用\n1. 在 Unity 顶部菜单栏找到 `AICommand` > `Settings`。\n2. 在 Inspector 面板中输入你的 API Key。\n3. 打开 `Window` > `AICommand` 调出控制台。\n4. **输入指令示例**：\n   > \"Create a red cube at position (0, 0, 0).\"\n   > (在坐标 (0,0,0) 处创建一个红色立方体。)\n   \n   或直接请求代码：\n   > \"Write a C# script to rotate this object around the Y axis.\"\n   > (写一个 C# 脚本让该物体绕 Y 轴旋转。)\n\n---\n\n## 4. 更多工具探索\n\n回到主目录，你可以根据需求尝试其他细分领域的工具：\n\n*   **3D 模型生成**: 查看 `3D Model` 章节，尝试 `Shap-E` 或 `DreamFusion` 相关实现。\n*   **纹理生成**: 查看 `Texture` 章节，利用 SDXL 等模型生成游戏贴图。\n*   **世界模型**: 关注 `Game` 章节中的 `Cosmos` (NVIDIA) 等项目，用于物理仿真训练。\n\n请前往各工具的独立 GitHub 页面查阅详细的参数配置和进阶用法。","独立游戏开发者小林正独自开发一款科幻题材的 3D 冒险游戏，需要在极短的时间内完成从代码逻辑到美术资源的全流程制作。\n\n### 没有 ai-game-devtools 时\n- **多工具切换繁琐**：需要分别在 GitHub 搜索代码助手、去专门网站找纹理生成器、再另寻音乐创作工具，频繁跳转导致工作流支离破碎。\n- **资产风格不统一**：由于使用不同来源的非集成工具，生成的 3D 模型、贴图和角色动画在美术风格上难以保持一致，后期调整耗时巨大。\n- **智能体开发门槛高**：想要为 NPC 添加基于大模型的自主行为，需手动配置复杂的 API 接口和本地环境，缺乏像 AgentGPT 或 AIOS 这样的现成框架支持。\n- **引擎集成困难**：生成的代码和资源无法直接导入 Unity 等引擎，需要大量人工重写和格式转换，严重拖慢迭代速度。\n\n### 使用 ai-game-devtools 后\n- **一站式资源获取**：通过 ai-game-devtools 的项目列表，小林能直接在同一个页面找到涵盖代码、纹理、音乐及智能体的最新工具链，大幅减少检索时间。\n- **全链路风格协同**：利用列表中推荐的专用模型工具（如针对 Shader 和 3D Model 的特定 AI），可以更有针对性地控制输出参数，确保视觉资产风格高度统一。\n- **快速部署游戏智能体**：直接复用列表中集成的 Unity 插件（如 AICommand）或自主智能体框架，几分钟内即可让 NPC 具备对话和自主决策能力。\n- **无缝引擎对接**：所选工具大多标注了支持的引擎类型，生成的代码和资产可直接导入项目，实现了从创意到可玩原型的极速转化。\n\nai-game-devtools 通过聚合全产业链的最新 AI 工具，将独立开发者的“单兵作战”效率提升至团队级水平，让创意落地不再受限于技术栈的广度。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FYuan-ManX_ai-game-devtools_bdb270fa.png","Yuan-ManX","Yuan-Man","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FYuan-ManX_7235e038.jpg","Founder | AI Research | Product Builder",null,"Shanghai, China","ym1076302261@163.com","https:\u002F\u002Fgithub.com\u002FYuan-ManX",1141,111,"2026-04-15T18:10:36","MIT",1,"","未说明",{"notes":88,"python":86,"dependencies":89},"该 README 是一个 AI 游戏开发工具的汇总列表（Awesome List），包含了 LLM、代理、代码生成、图像、3D 模型等多个领域的独立开源项目。它本身不是一个单一的可运行软件，因此没有统一的运行环境需求。每个列出的工具（如 AgentGPT, Auto-GPT, Baichuan 等）都有各自独立的仓库和具体的环境配置要求，用户需前往对应项目的页面查看详细信息。",[],[14],[92,93,94,95,96,97,98,99,100,101,102],"ai-platform","ai-toolkit","game-ai","game-development","game-engine","deep-learning","mechine-learing","artificial-intelligence","awesome-list","unity","aigc","2026-03-27T02:49:30.150509","2026-04-16T10:47:43.304667",[],[]]