ai-game-devtools

1.1k 111 非常简单 1 次阅读今天MIT开发框架

AI 解读由 AI 自动生成，仅供参考

ai-game-devtools 是一个专注于游戏开发领域的 AI 工具资源库，旨在为开发者提供一站式的前沿技术导航。它系统性地整理了涵盖大语言模型（LLM）、世界模型、智能体、代码生成，以及图像、纹理、着色器、3D 模型、动画、音视频处理和分析等全链路的开源项目。

在游戏制作过程中，创作者往往需要在分散的资源中寻找合适的 AI 解决方案，效率较低。ai-game-devtools 通过分类汇总最新的技术成果，解决了信息碎片化问题，帮助团队快速定位能辅助剧情编写、资产生成或逻辑构建的高效工具。无论是独立开发者、游戏工作室的技术美术，还是探索人机交互的研究人员，都能从中找到适配当前工作流的利器。

该项目的独特亮点在于其极高的覆盖广度与更新速度，不仅收录了如 AgentGPT、Auto-GPT 等通用智能体框架，还特别关注 Unity 引擎集成、自动化科学发现等垂直场景应用。它以清晰的表格形式呈现每个工具的来源、功能描述及适用引擎，让用户无需深入阅读大量文档即可评估工具价值。对于希望利用 AI 提升游戏研发效率的专业人士而言，这是一个极具参考价值的实用指南。

使用场景

独立游戏开发者小林正独自开发一款科幻题材的 3D 冒险游戏，需要在极短的时间内完成从代码逻辑到美术资源的全流程制作。

没有 ai-game-devtools 时

多工具切换繁琐：需要分别在 GitHub 搜索代码助手、去专门网站找纹理生成器、再另寻音乐创作工具，频繁跳转导致工作流支离破碎。
资产风格不统一：由于使用不同来源的非集成工具，生成的 3D 模型、贴图和角色动画在美术风格上难以保持一致，后期调整耗时巨大。
智能体开发门槛高：想要为 NPC 添加基于大模型的自主行为，需手动配置复杂的 API 接口和本地环境，缺乏像 AgentGPT 或 AIOS 这样的现成框架支持。
引擎集成困难：生成的代码和资源无法直接导入 Unity 等引擎，需要大量人工重写和格式转换，严重拖慢迭代速度。

使用 ai-game-devtools 后

一站式资源获取：通过 ai-game-devtools 的项目列表，小林能直接在同一个页面找到涵盖代码、纹理、音乐及智能体的最新工具链，大幅减少检索时间。
全链路风格协同：利用列表中推荐的专用模型工具（如针对 Shader 和 3D Model 的特定 AI），可以更有针对性地控制输出参数，确保视觉资产风格高度统一。
快速部署游戏智能体：直接复用列表中集成的 Unity 插件（如 AICommand）或自主智能体框架，几分钟内即可让 NPC 具备对话和自主决策能力。
无缝引擎对接：所选工具大多标注了支持的引擎类型，生成的代码和资产可直接导入项目，实现了从创意到可玩原型的极速转化。

ai-game-devtools 通过聚合全产业链的最新 AI 工具，将独立开发者的“单兵作战”效率提升至团队级水平，让创意落地不再受限于技术栈的广度。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该 README 是一个 AI 游戏开发工具的汇总列表（Awesome List），包含了 LLM、代理、代码生成、图像、3D 模型等多个领域的独立开源项目。它本身不是一个单一的可运行软件，因此没有统一的运行环境需求。每个列出的工具（如 AgentGPT, Auto-GPT, Baichuan 等）都有各自独立的仓库和具体的环境配置要求，用户需前往对应项目的页面查看详细信息。

python未说明

快速开始

AI 游戏开发工具 (AI-GDT) 🎮

AI-Game

在这里，我们将持续跟踪最新的 AI 游戏开发工具，涵盖大语言模型、世界模型、智能体、代码、图像、纹理、着色器、3D 模型、动画、视频、音频、音乐、歌声以及数据分析等领域。🔥

项目列表

LLM（大语言模型及工具）

来源	描述	论文	游戏引擎	类型
AgentGPT	🤖 在浏览器中组装、配置并部署自主AI智能体。			工具
AICommand	ChatGPT与Unity编辑器的集成。		Unity	工具
AIOS	LLM智能体操作系统。			工具
AI Scientist	AI科学家：迈向完全自动化的开放式科学发现。	arXiv		工具
Assistant CLI	一款舒适的CLI工具，用于使用ChatGPT服务🔥			工具
Auto-GPT	一个实验性的开源尝试，旨在使GPT-4完全自主化。			工具
BabyAGI	这个Python脚本是一个由AI驱动的任务管理系统的示例。			工具
👶🤖🖥️ BabyAGI UI	BabyAGI UI旨在通过类似ChatGPT的Web应用，更轻松地运行和开发BabyAGI。			工具
baichuan-7B	百川公司开发的大规模70亿参数预训练语言模型。			工具
Baichuan-13B	百川智能科技公司开发的130亿参数大型语言模型。			工具
Baichuan 2	百川智能科技公司开发的一系列大型语言模型。			工具
Bisheng	Bisheng是一个面向下一代AI应用的开放LLM DevOps平台。			工具
Character-LLM	一种可训练的角色扮演智能体。	arXiv		工具
ChatDev	用于软件开发的沟通型智能体。	arXiv		工具
ChatGPT-API-unity	将ChatGPT聊天完成API绑定到Unity上的纯C#代码中。		Unity	工具
ChatGPTForUnity	面向Unity的ChatGPT。		Unity	工具
ChatRWKV	ChatRWKV类似于ChatGPT，但由RWKV（100% RNN）语言模型驱动，并且是开源的。			工具
ChatYuan	中英双语对话用大型语言模型。			工具
Chinese-LLaMA-Alpaca-3	（中文Llama-3 LLMs）基于Meta Llama 3开发。			工具
Chrome-GPT	一个控制桌面Chrome浏览器的AutoGPT智能体。			工具
CogVLM	CogVLM是一款强大的开源视觉语言基础模型。	arXiv		工具
CoreNet	一个用于训练深度神经网络的库。			工具
Cosmos	Cosmos是一个世界模型开发平台，由世界基础模型、分词器和视频处理流水线组成，旨在加速机器人和自动驾驶实验室中物理AI的开发。			LLM
DBRX	DBRX是由Databricks训练的大规模语言模型。			工具
DCLM	面向语言模型的数据压缩。	arXiv		工具
DeepSeek-R1	DeepSeek-R1-Zero是一种通过大规模强化学习（RL）训练的模型，无需监督微调（SFT）作为前期步骤，在推理方面表现出色。			LLM
DeepSeek-V3	DeepSeek-V3是一个强大的专家混合（MoE）语言模型，总参数量为6710亿，每次处理一个token时激活370亿参数。	arXiv		LLM
DemoGPT	借助Llama 2的力量自动生成AI应用程序			工具
Design2Code	自动化前端工程			工具
Devika	Devika是一个基于智能体的AI软件工程师。			工具
Devon	一个开源的结对编程工具。			工具
Dora	每次输入一个提示即可生成强大的网站。			工具
Flowise	使用LangchainJS拖放式UI构建自定义LLM流程。			工具
Gemini	Gemini从一开始就专为多模态设计——能够无缝地在文本、图像、视频、音频和代码之间进行推理。			工具
Gemma	Gemma是一系列轻量级、最先进的开源模型，基于用于创建Google Gemini模型的研究和技术打造。			工具
gemma.cpp	谷歌Gemma模型的轻量级独立C++推理引擎。			工具
GLM-4	GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本。			工具
GLM-4.5	GLM-4.5：Z.ai设计的一款面向智能体的开源大型语言模型。			LLM
GPT4All	一个基于大量干净助手数据（包括代码、故事和对话）训练的聊天机器人。			工具
GPT-4o	GPT-4o（“o”代表“omni”）是迈向更加自然的人机交互的重要一步——它可以接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。			工具
gpt-oss	gpt-oss-120b和gpt-oss-20b是OpenAI的两款开放权重语言模型。			LLM
GPTScript	用自然语言开发LLM应用。			工具
Grok-1	我们的3140亿参数专家混合模型Grok-1的权重和架构。			工具
HuggingChat	让社区中最优秀的AI聊天模型惠及所有人。			工具
Hugging Face API Unity集成	此Unity包提供了Hugging Face推理API的易用集成，使开发者能够在他们的Unity项目中访问和使用Hugging Face AI模型。		Unity	工具
Hunyuan-MT	Hunyuan-MT由一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera组成。翻译模型用于将源文本翻译成目标语言，而集成模型则整合多个翻译结果以产生更高质量的输出。			LLM
ImageBind	ImageBind：一个嵌入空间，连接一切。	arXiv		工具
Index-1.9B	一款SOTA轻量级多语言LLM。			工具
InteractML-Unity	InteractML，一个用于Unity3D的交互式机器学习可视化脚本框架。		Unity	工具
InteractML-Unreal Engine	将机器学习引入虚幻引擎。		Unreal Engine	工具
InternLM	InternLM已开源一个70亿参数的基础模型、一个针对实际场景定制的聊天模型以及训练系统。	arXiv		工具
InternLM-XComposer	InternLM-XComposer2是一款开创性的视觉-语言大型模型（VLLM），在自由形式的文本-图像创作和理解方面表现出众。	arXiv		工具
Jan	将AI带到你的桌面。			工具
Janus	Janus：解耦视觉编码，实现统一的多模态理解和生成。	arXiv		LLM
Kimi K2	Kimi K2是一款最先进的专家混合（MoE）语言模型，拥有320亿激活参数和1万亿总参数。			LLM
Lamini	Lamini允许任何工程团队通过RLHF和基于自身数据的微调，超越通用LLM的表现。			工具
LaMini-LM	LaMini-LM是一系列从小型、高效的语言模型中蒸馏而来，这些模型源自ChatGPT，并在包含258万条指令的大规模数据集上训练而成。			工具
LangChain	LangChain是一个用于开发由语言模型驱动的应用程序的框架。			工具
LangFlow	⛓️ LangFlow是LangChain的UI，采用react-flow设计，提供了一种轻松的方式来试验和原型化流程。			工具
LaVague	使用大型行动模型框架自动化自动化。			工具
Lemur	面向语言智能体的开放基础模型。			工具
Lepton AI	一个简化AI服务构建的Python框架。			工具
Lit-LLaMA	基于nanoGPT实现的LLaMA语言模型。支持闪存注意力、Int8和GPTQ 4位量化、LoRA和LLaMA-Adapter微调以及预训练。			工具
llama2-webui	在GPU或CPU上，通过gradio UI在本地运行Llama 2，无论你身在何处（Linux/Windows/Mac）。			工具
Llama 3	Meta Llama 3的官方GitHub站点。			工具
Llama 3.1	Llama是一个易于使用的开放大型语言模型（LLM），专为开发者、研究人员和企业设计，帮助他们构建、实验并负责任地扩展其生成式AI想法。			工具
LLaSM	大型语言和语音模型。			工具
LLM Answer Engine	使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave和Serper构建一个受Perplexity启发的答案引擎。			工具
llm.c	使用简单原始的C/CUDA进行LLM训练。			工具
LLMUnity	用LLM在Unity中创建角色！		Unity	工具
LLocalSearch	LLocalSearch是一个完全在本地运行的搜索引擎，使用LLM智能体。			工具
LogicGamesSolver	一个Python工具，利用AI、深度学习和计算机视觉来解决逻辑游戏。			工具
LongCat-Flash	LongCat-Flash是一款功能强大且高效的语言模型，总参数量达5600亿，采用了创新的专家混合（MoE）架构。该模型包含动态计算机制，可根据上下文需求激活186亿至313亿个参数（平均约270亿），从而优化计算效率和性能。			LLM
LongWriter	LongWriter：释放来自长上下文LLM的1万字以上生成能力。	arXiv		工具
Large World Model (LWM)	Large World Model（LWM）是一个通用的大上下文多模态自回归模型。	arXiv		工具
Lumina-T2X	Lumina-T2X是一个用于文本到任意模态生成的统一框架。	arXiv		工具
MetaGPT	多智能体框架			工具
MiniCPM-2B	一款端侧LLM的表现优于Llama2-13B。			工具
MiniGPT-4	通过先进的大型语言模型增强视觉-语言理解能力。	arXiv		工具
MiniGPT-5	通过生成性词汇进行视觉与语言的交替生成。	arXiv		工具
MiniMax-01	MiniMax-01：利用闪电注意力扩展基础模型。	arXiv		LLM
Mixtral 8x7B	一款高质量的稀疏专家混合模型。	arXiv		工具
Mistral 7B	目前最好的7B模型，采用Apache 2.0许可。			工具
Mistral Large	Mistral Large是一款全新的尖端文本生成模型。它达到了顶级的推理能力。			工具
MLC LLM	使每个人都能在自己的设备上原生开发、优化和部署AI模型。			工具
MobiLlama	朝着准确、轻量且完全透明的GPT迈进。	arXiv		工具
MoE-LLaVA	用于大型视觉-语言模型的专家混合。	arXiv		工具
Moshi	Moshi是一个实验性的会话式AI。			工具
Moshi	Moshi：一个用于实时对话的语音-文本基础模型。			工具
MOSS	复旦大学推出的一款开源工具增强型会话式语言模型。			工具
mPLUG-Owl🦉	模块化赋予大型语言模型多模态能力。	arXiv		工具
Nemotron-4	一款拥有150亿参数的大规模多语言语言模型，基于8万亿个文本标记进行训练。	arXiv		工具
NExT-GPT	一种任意模态之间的大型语言模型。			工具
OLMo	开放语言模型	arXiv		工具
OmniLMM	大型多模态模型，旨在实现强劲性能和高效部署。			工具
OneLLM	一个框架，用于将所有模态与语言对齐。	arXiv		工具
Open-Assistant	OpenAssistant是一个基于聊天的助手，能够理解任务、与第三方系统交互，并动态检索信息来完成任务。			工具
Open Deep Research	一个由AI驱动的科研助手，通过结合搜索引擎、网页抓取和大型语言模型，对任何主题进行迭代式的深入研究。			LLM
OpenDevin	一个自主AI软件工程师。			工具
Orion-14B	Orion-14B是一系列模型的一部分，包括一个140亿参数的基础LLM，以及一系列其他模型。	arXiv		工具
Panda	海外华人开源大型语言模型，基于Llama-7B、-13B、-33B、-65B持续在中国领域进行预训练。			工具
Perplexica	一个由AI驱动的搜索引擎。			工具
Pi	一款专为个人协助和情感支持设计的AI聊天机器人。			工具
Qwen1.5	Qwen1.5是Qwen的改进版本。			工具
Qwen2	Qwen2是阿里云Qwen团队开发的大语言模型系列。			LLM
Qwen2.5-Coder	Qwen2.5-Coder是阿里云Qwen团队开发的大语言模型系列Qwen2.5的代码版本。	arXiv		LLM
Qwen-7B	阿里云提出的Qwen-7B（通义千问-7B）聊天及预训练大型语言模型的官方仓库。			LLM
Qwen3	Qwen3是阿里云Qwen团队开发的大语言模型系列。	arXiv		LLM
RepoAgent	RepoAgent是一个由大型语言模型（LLMs）驱动的开源项目，旨在提供一种智能化的项目文档记录方式。	arXiv		工具
s1	s1：简单的测试时缩放。	arXiv		LLM
Sanity AI Engine	用于Unity游戏开发工具的Sanity AI引擎。		Unity	工具
SearchGPT	🌳 将ChatGPT与互联网连接起来			工具
Seed-OSS	Seed-OSS是字节跳动Seed团队开发的一系列开源大型语言模型，专为强大的长上下文、推理、代理和通用能力，以及多功能的开发者友好特性而设计。			LLM
ShareGPT4V	通过更好的字幕改善大型多模态模型。			工具
SkyThought	Sky-T1：只需450美元即可训练自己的O1预览模型。			LLM
Skywork	Skywork系列模型已在3.2TB高质量的多语言（主要是中文和英文）以及代码数据上进行了预训练。			工具
StableLM	稳定性AI语言模型。	arXiv		工具
Stanford Alpaca	一款遵循指令的LLaMA模型。			LLM
Text generation web UI	一个用于运行LLaMA、llama.cpp、GPT-J、OPT和GALACTICA等大型语言模型的gradio Web UI。			工具
TinyChatEngine	设备端LLM推理库。			工具
ToolBench	一个用于训练、服务和评估大型语言模型以进行工具学习的开放平台。			工具
Unity ChatGPT	Unity ChatGPT实验。		Unity	工具
Unity OpenAI-API集成	将OpenAI的GPT-3语言模型和ChatGPT API集成到Unity项目中。		Unity	工具
Unreal Engine 5 Llama LoRA	一个概念验证项目，展示了使用小型、可本地训练的LLM创建下一代文档工具的可能性。		Unreal Engine	工具
UnrealGPT	一组由GPT3/4驱动的Unreal Engine 5编辑器实用工具小部件。		Unreal Engine	工具
Video-LLaVA	通过投影前的对齐学习统一的视觉表征。	arXiv		工具
WebGPT	使用WebGPU在浏览器上运行GPT模型。			工具
Web3-GPT	用AI部署智能合约			工具
WordGPT	🤖 将ChatGPT的强大功能带入Microsoft Word			工具
XAgent	一个用于解决复杂任务的自主LLM智能体。			工具
Yi	一系列由开发者从零开始训练的大语言模型。			工具
01 Project	开源的语言模型计算机。			工具
SimpleOllamaUnity	Ollama与Unity引擎的集成（可在运行时和编辑器中使用）		Unity	工具
AI-Writer	AI撰写小说、奇幻和言情网络文章等。中国预训练的生成式模型。			Writer
Notebook.ai	Notebook.ai是一套工具，供作家、游戏设计师和角色扮演者创造宏伟的世界——以及其中的一切。			Writer
Novel	带有AI驱动自动补全功能的类Notion WYSIWYG编辑器。			Writer
NovelAI	在AI的驱动下，轻松构建独特的故事、惊险的传奇、诱人的浪漫，或者只是随意玩一玩。			Writer

^ 返回目录 ^

VLM（视觉）

来源	描述	论文	类型
Cambrian-1	Cambrian-1：一个完全开源、以视觉为中心的多模态大模型探索。	arXiv	多模态大模型
CogVLM2	基于Llama3-8B的GPT4V级别开源多模态模型。		视觉
CoTracker	共同追踪更佳。	arXiv	视觉
dots.vlm1	dots.vlm1是dots模型家族中的首个视觉-语言模型。它基于一个拥有12亿参数的视觉编码器和DeepSeek V3大型语言模型（LLM），展现出强大的多模态理解和推理能力。		VLM
EVF-SAM	EVF-SAM：用于文本提示分割一切模型的早期视觉-语言融合。	arXiv	视觉
FaceHi	共同追踪更佳。		视觉
GLM-V	GLM-4.1V-Thinking和GLM-4.5V：通过可扩展的强化学习实现多功能多模态推理。	arXiv	VLM
InternLM-XComposer2	InternLM-XComposer2是一款突破性的视觉-语言大型模型（VLLM），在自由格式的文本-图像组合与理解方面表现出色。	arXiv	视觉
Kangaroo	Kangaroo：一款支持长上下文视频输入的强大视频-语言模型。		视觉
Kwai Keye-VL	Kwai Keye-VL是由快手Kwai Keye团队精心打造的尖端多模态大型语言模型。	arXiv	VLM
LGVI	通过多模态大型语言模型实现语言驱动的视频修复。		视觉
LLaVA++	利用LLaMA-3和Phi-3扩展视觉能力。		视觉
LLaVA-OneVision	LLaVA-OneVision：轻松实现视觉任务迁移。	arXiv	视觉
LongVA	从语言到视觉的长上下文迁移。	arXiv	视觉
Lumina-DiMOO	Lumina-DiMOO：一款用于多模态生成与理解的全能扩散大型语言模型。		VLM
MaskViT	用于视频预测的掩码视觉预训练。	arXiv	视觉
MiniCPM-Llama3-V 2.5	手机上的GPT-4V级别多模态大模型。		视觉
MiniCPM-V 4.0	MiniCPM-V 4.0：一款可在手机上处理单张图片、多张图片及视频的GPT-4V级别多模态大模型。		视觉
MoE-LLaVA	针对大型视觉-语言模型的专家混合模型。	arXiv	视觉
MotionLLM	从人类动作和视频中理解人类行为。	arXiv	视觉
PLLaVA	无需参数的LLaVA扩展，可将图像应用于视频密集字幕生成。	arXiv	视觉
POINTS-Reader	POINTS-Reader：用于文档转换的无蒸馏视觉-语言模型适配。	arXiv	视觉
Qwen-VL	一款多功能视觉-语言模型，可用于理解、定位、文本阅读等任务。	arXiv	视觉
Sapiens	Sapiens：人类视觉模型的基础。	arXiv	视觉
ShareGPT4V	通过更好的字幕提升大型多模态模型性能。	arXiv	视觉
SOLO	SOLO：一种用于可扩展视觉-语言建模的单一Transformer。	arXiv	视觉
VideoAgent	VideoAgent：一种记忆增强型多模态代理，用于视频理解。	arXiv	代理
Video-CCAM	Video-CCAM：利用因果交叉注意力掩码推进视频-语言理解。		视觉
Video-LLaVA	通过投影前的对齐学习统一的视觉表征。	arXiv	视觉
VideoLLaMA 2	在视频LLM中推进时空建模和音频理解。	arXiv	视觉
VideoLLaMA 3	VideoLLaMA 3：用于图像和视频理解的前沿多模态基础模型。	arXiv	视觉
Video-MME	首个全面评估多模态大模型在视频分析中表现的基准测试。	arXiv	视觉
Vitron	一款统一的像素级视觉LLM，可用于理解、生成、分割、编辑。		视觉
VILA	VILA：关于视觉语言模型预训练的研究。	arXiv	视觉

^ 返回目录 ^

游戏（世界模型与智能体）

来源	描述	论文	类型
AgentBench	一个全面的基准测试，用于评估作为代理的大型语言模型。	arXiv	代理
Agent Group Chat	一种交互式群聊模拟器，用于更好地激发集体涌现行为。	arXiv	代理
Agent K	一个自我进化且模块化的自动代理型AGI。		代理
Agent Laboratory	代理实验室：将LLM代理用作研究助理。	arXiv	代理
AgentScope	以更简便的方式开始构建由LLM赋能的多代理应用。	arXiv	代理
AgentSims	一个用于大型语言模型评估的开源沙盒。		代理
AI Town	AI Town是一个虚拟小镇，AI角色在这里生活、聊天和社交。		代理
anime.gf	CharacterAI的本地开源替代品。		游戏
Astrocade	使用AI创建游戏		游戏
Atomic Agents	Atomic Agents框架设计为模块化、可扩展且易于使用。		代理
AutoAgents	一个用于自动生成代理的框架。		代理
AutoGen	启用下一代大型语言模型应用。	arXiv	代理
AWorld	AWorld：用于自我改进的代理运行时。		代理
behaviac	Behaviac是游戏AI开发的一个框架。		框架
Biomes	Biomes是一款开源沙盒MMORPG，基于Web技术（如Next.js、TypeScript、React和WebAssembly）构建。		游戏
Buffer of Thoughts	基于大型语言模型的思维增强推理。	arXiv	代理
Byzer-Agent	一个简单、快速且分布式的代理框架，适合所有人。		代理
Cat Town	一款由ChatGPT驱动的猫咪模拟器。		代理
Cat Town	一款由ChatGPT驱动的猫咪模拟器。		代理
CharacterGLM	使用大型语言模型定制中文对话AI角色。	arXiv	代理
ChatDev	用于软件开发的沟通型代理。	arXiv	代理
CogAgent	CogAgent是在CogVLM基础上改进的开源视觉语言模型。	arXiv	代理
ComoRAG	ComoRAG：一种受认知启发、按记忆组织的RAG系统，用于有状态的长篇叙事推理。	arXiv	代理
Cradle	朝着通用计算机控制迈进。		代理
crewAI	一个用于编排角色扮演、自主AI代理的框架。		代理
Datarus Jupyter Agent	Datarus Jupyter Agent是一个强大的多步推理系统，能够通过逐步推理、自动错误恢复和综合结果合成来执行复杂的分析工作流。		代理
Dify	Dify是一个开源的LLM应用构建平台。		代理
Digital Life Project	具有社交智能的自主3D角色。	arXiv	代理
everything-ai	你的全功能、AI驱动且本地化的聊天机器人助手🤖。		代理
fabric	fabric是一个开源框架，用于利用AI增强人类能力。		代理
FastGPT	FastGPT是一个基于LLM构建的知识型平台。		代理
fastRAG	高效的检索增强与生成框架。		代理
GameAISDK	基于图像的游戏AI自动化框架。		框架
GameNGen	扩散模型就是实时游戏引擎。	arXiv	游戏
GameGen-O	GameGen-O：开放世界视频游戏生成。		游戏
GenAgent	GenAgent：通过自动化工作流生成构建协作式AI系统——以ComfyUI为例的案例研究。	arXiv	代理
Generative Agents	互动的人类行为模拟体。	arXiv	代理
Genesis	Genesis：一个用于机器人及其他领域的生成式通用物理引擎。		游戏
Genie	生成式互动环境。		游戏
Genie 3	Genie 3：世界模型的新前沿。Genie 3是一个通用的世界模型，可以生成前所未有的多样化互动环境。		游戏
gigax	运行时、LLM驱动的NPC。		游戏
HippoRAG	受神经生物学启发的大型语言模型长期记忆。	arXiv	代理
Hunyuan-GameCraft	Hunyuan-GameCraft：结合历史条件的高动态互动游戏视频生成。	arXiv	游戏
HunyuanWorld 1.0	HunyuanWorld 1.0：从文字或像素生成沉浸式、可探索且互动的3D世界。	arXiv	游戏
HunyuanWorld-Voyager	HunyuanWorld-Voyager是一个新颖的视频扩散框架，它可以根据单张图片和用户定义的摄像机路径生成世界一致的3D点云序列。Voyager可以按照自定义的摄像机轨迹生成3D一致的场景视频，用于世界探索。		游戏
HY-World 1.5	HY-World 1.5：一个具有实时延迟和几何一致性的交互式世界建模系统性框架。		游戏
Interactive LLM Powered NPCs	交互式LLM驱动的NPC，是一个开源项目，彻底改变了你在任何游戏中与非玩家角色（NPC）的互动方式！		游戏
IoA	一个开源的协作式AI代理框架，使多样化的分布式代理能够通过类似互联网的连接协同合作，解决复杂任务。		代理
Jaaz	Jaaz——全球首个开源多模态创意助手。AI设计代理，Lovart的本地替代品。Canva + Cursor。具备设计、编辑和生成图片、海报、分镜等能力的AI代理。		代理
KwaiAgents	一个基于大型语言模型（LLMs）的通用信息搜索代理系统。	arXiv	代理
LangChain	将你的LLM应用从原型推向生产。		代理
Langflow	Langflow是LangChain的UI，采用react-flow设计，提供了一种轻松的方式来试验和构建流程原型。		代理
LangGraph Studio	LangGraph Studio提供了一种新的方式来开发LLM应用，通过提供一个专门的代理IDE，实现对复杂代理应用的可视化、交互和调试。		代理
LARP	语言-代理角色扮演，适用于开放世界游戏。	arXiv	代理
LLama Agentic System	Llama Stack API中的代理组件。		代理
LlamaIndex	LlamaIndex是你的LLM应用的数据框架。		代理
Matrix-Game	Matrix-Game：互动世界基础模型。Matrix-Game是一个17B参数的互动世界基础模型，用于可控的游戏世界生成。		游戏
Matrix-Game 2.0	Matrix-Game 2.0：一个开源、实时且流式的互动世界模型。		游戏
MindSearch	🔍 一个基于LLM的多代理网络搜索引擎框架（类似于Perplexity.ai Pro和SearchGPT）。		代理
Mixture of Agents (MoA)	多代理混合增强了大型语言模型的能力。	arXiv	代理
MMRole	MMRole：一个全面的框架，用于开发和评估多模态角色扮演代理。	arXiv	代理
Moonlander.ai	使用生成式AI无需任何编码即可开始构建3D游戏。		框架
MuG Diffusion	MuG Diffusion是一款基于Stable Diffusion（最强大的AIGC模型之一）的节奏游戏绘图AI，并进行了大量修改以融入音频波形。		游戏
NVIDIA NeMo Agent Toolkit	NVIDIA NeMo Agent工具包是一个灵活、轻量且统一的库，允许你轻松地将现有的企业代理连接到任何框架下的数据源和工具。		代理
Oasis	Oasis是由Decart和Etched开发的互动世界模型。基于扩散变换器，Oasis接收用户键盘输入并以自回归方式生成游戏内容。		游戏
OmAgent	一个用于解决复杂任务的多模态代理框架。		代理
OpenAgents	一个面向野外语言代理的开放平台。		代理
Opus	一个将文本转化为视频游戏的AI应用。		游戏
Pipecat	开源的语音和多模态对话AI框架。		代理
Qwen-Agent	Qwen-Agent是一个基于Qwen的指令遵循、工具使用、规划和记忆能力来开发LLM应用的框架。		代理
Ragas	Ragas是一个帮助你评估检索增强生成（RAG）管道的框架。		代理
RPBench-Auto	一个用于评估大型语言模型角色扮演能力的自动化管道。		游戏
Rosebud AI	一个利用AI创建3D游戏和交互式Web应用的氛围编码平台。		游戏
SIMA	一个用于3D虚拟环境的通才AI代理。		代理
StoryGames.ai	为梦想家打造游戏的AI。		游戏
SWE-agent	代理计算机接口使软件工程语言模型成为可能。	arXiv	代理
TaskGen	一个基于任务的代理框架，建立在LLM代理严格的JSON输出之上。		代理
TEN Agent	TEN Agent是世界上第一个集成OpenAI Realtime API、RTC，并具备天气查询、网页搜索、视觉和RAG功能的实时多模态代理。		代理
Translation Agent	使用反射式工作流进行代理式翻译。		代理
Twitter	Twitter Personality是一款网络应用程序，它通过Wordware AI代理分析你的Twitter账号，为你创建个性化的性格档案。		代理
Unbounded	Unbounded：一场角色生命模拟的生成式无限游戏。	arXiv	游戏
Video2Game	从单个视频中生成实时、互动、逼真且兼容浏览器的环境。	arXiv	游戏
V-IRL	将虚拟智能扎根于现实生活中。	arXiv	代理
WebDesignAgent	一个用于网页设计的代理。		代理
XAgent	一个用于解决复杂任务的自主LLM代理。		代理

^ 返回目录 ^

代码

来源	描述	论文	游戏引擎	类型
AI代码翻译器	使用AI将代码从一种语言翻译成另一种语言。			代码
aiXcoder-7B	aiXcoder-7B代码大型语言模型。			代码
bloop	bloop是一个用Rust编写的快速代码搜索引擎。			代码
Chapyter	Jupyter Notebook中的ChatGPT代码解释器。			代码
CodeGeeX	一个开源的多语言代码生成模型。	arXiv		代码
CodeGeeX2	一个更强大的多语言代码生成模型。			代码
CodeGeeX4	CodeGeeX4：开源的多语言代码生成模型。			代码
CodeGen	CodeGen是一个用于程序合成的开源模型。在TPU-v4上训练。与OpenAI Codex具有竞争力。	arXiv		代码
CodeGen2	用于程序合成的CodeGen2模型。	arXiv		代码
Code Llama	Code Llama是基于Llama 2的代码大型语言模型。			代码
CodeTF	用于最先进代码LLM的一站式Transformer库。			代码
CodeT5	开源的代码LLM，用于代码理解和生成。			代码
代码世界模型(CWM)	代码世界模型(CWM)是一个拥有320亿参数的开放权重LLM，旨在推进使用世界模型进行代码生成的研究。			代码
Cursor	在新型编辑器中使用GPT-4编写、编辑和讨论你的代码。			代码
DeepSeek Coder	DeepSeek Coder：让代码自动编写。	arXiv		代码
OpenAI Codex	OpenAI Codex是GPT-3的后继者。			代码
PandasAI	Pandas AI是一个Python库，它将生成式人工智能功能集成到Pandas中，使数据框具备对话能力。			代码
RobloxScripterAI	RobloxScripterAI是用于Roblox的AI驱动代码生成工具。		Roblox	代码
Scikit-LLM	将像ChatGPT这样强大的语言模型无缝集成到scikit-learn中，以增强文本分析任务。			代码
SoTaNa	开源的软件开发助手。	arXiv		代码
Stable Code 3B	编码的前沿。			代码
StarCoder	💫 StarCoder是一个在源代码和自然语言文本上训练的语言模型(LM)。	arXiv		代码
StarCoder 2	StarCoder2是一系列代码生成模型（3B、7B和15B），它们在The Stack v2中的600多种编程语言以及一些自然语言文本（如维基百科、Arxiv和GitHub问题）上进行了训练。	arXiv		代码
UnityGen AI	UnityGen AI是用于Unity的AI驱动代码生成插件。		Unity	代码
Void	Void是开源的Cursor替代品。使用最佳的AI工具编写代码，完全掌控你的数据，并访问强大的AI功能。			代码

^ 返回目录 ^

图片

来源	描述	论文	游戏引擎	类型
AnyDoor	零样本对象级图像定制。	arXiv		图像
AnyText	多语言视觉文本生成与编辑。	arXiv		图像
AutoStudio	在多轮交互式图像生成中构建一致的主题。	arXiv		图像
BAGEL	BAGEL - 多模态理解和生成的统一模型。BAGEL是一个开源的多模态基础模型，具有70亿活跃参数（总140亿），在大规模交错的多模态数据上训练而成。	arXiv		图像
Blender-ControlNet	直接在Blender中使用ControlNet。		Blender	图像
BriVL	桥接视觉与语言模型。	arXiv		图像
CatVTON	CatVTON：对于基于扩散模型的虚拟试穿，只需拼接即可。	arXiv		图像
CLIPasso	一种将物体图像转换为草图的方法，允许不同程度的抽象化。	arXiv		图像
ClipDrop	几秒钟内创建惊艳的视觉效果。			图像
ComfyUI	一个功能强大且模块化的稳定扩散GUI，采用图/节点界面。			图像
ConceptLab	使用扩散先验约束进行创意生成。	arXiv		图像
ControlNet	ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。	arXiv		图像
CSGO	CSGO：文本到图像生成中的内容-风格组合。	arXiv		图像
DALL·E 2	DALL·E 2是一个能够根据自然语言描述生成逼真图像和艺术作品的AI系统。			图像
Dashtoon Studio	Dashtoon Studio是一个由AI驱动的漫画创作平台。			漫画
DeepAI	DeepAI提供了一系列利用AI提升创造力的工具。			图像
DeepFloyd IF	IF由StabilityAI旗下的DeepFloyd实验室开发。			图像
Depth Anything V2	Depth Anything V2	arXiv		图像
深度图库和姿势器	用于Automatic1111/stable-diffusion-webui的Control Net扩展的深度图库。			图像
Diffuse to Choose	丰富潜在扩散模型中的图像条件修复，用于虚拟试穿。	arXiv		图像
Disco Diffusion	一个由笔记本、模型和技术拼凑而成的“弗兰肯斯坦”式集合体，用于生成AI艺术和动画。			图像
DragGAN	基于点的交互式操作，应用于生成式图像流形。	arXiv		图像
Draw Things	你口袋里的AI辅助图像生成。			图像
DWPose	两阶段蒸馏实现高效全身姿态估计。	arXiv		图像
EasyPhoto	你的智能AI照片生成器。			图像
Flux	该仓库包含运行我们Flux潜在校正流变换器进行文本到图像和图像到图像生成所需的最小推理代码。			图像
Follow-Your-Click	通过简短提示实现开放域区域图像动画。	arXiv		图像
Fooocus	专注于提示词和生成。			图像
GIFfusion	使用稳定扩散创建GIF和视频。			图像
Grounded-Segment-Anything	自动检测、分割并根据图像、文本和音频输入生成任何内容。	arXiv		图像
HivisionIDPhotos	HivisionIDPhotos：一款轻量且高效的AI身份证照片工具。			图像
Hua	Hua是一款带有稳定扩散（以及更多）的AI图像编辑器。			图像
Hunyuan-DiT	一款强大的多分辨率扩散Transformer，具备精细的中文理解能力。	arXiv		图像
HunyuanImage-2.1	HunyuanImage-2.1：一款高效的高分辨率（2K）文本到图像生成扩散模型。			图像
HunyuanImage-3.0	HunyuanImage-3.0：一款强大的原生多模态图像生成模型。			图像
IC-Light	IC-Light是一个用于操纵图像光照的项目。			图像
Ideogram	帮助人们变得更有创造力。			图像
Imagen	Imagen是一个能够根据输入文本创建逼真图像的AI系统。			图像
img2img-turbo	使用SD-Turbo进行一步图像到图像转换。			图像
Img2Prompt	从稳定扩散生成的图像中获取提示词。			图像
Infinity	Infinity：用于高分辨率图像合成的按位自回归建模扩展。	arXiv		图像
InstantID	零样本身份保留生成，几秒钟内完成。	arXiv		图像
InternLM-XComposer2	InternLM-XComposer2是一款突破性的视觉-语言大型模型（VLLM），在自由格式的文本-图像组合及理解方面表现出色。	arXiv		图像
IRG	IRG - 交错推理以改善文本到图像生成。	arXiv		图像
KOALA	自注意力在潜在扩散模型的知识蒸馏中至关重要，有助于实现内存高效且快速的图像合成。			图像
Kolors	Kolors：用于逼真文本到图像合成的扩散模型有效训练。			图像
Komiko	Komiko是一个由AI驱动的故事讲述平台，可让您轻松创建原创角色、漫画和动画。			漫画
KREA	使用令人愉悦的AI驱动设计工具生成图像和视频。			图像
LaVi-Bridge	为文本到图像生成桥接不同语言模型和生成式视觉模型。	arXiv		图像
LayerDiffusion	利用潜在透明度进行透明图像层扩散。	arXiv		图像
Lexica	一个稳定扩散提示词搜索引擎。			图像
LlamaGen	自回归模型胜过扩散模型：Llama用于可扩展的图像生成。	arXiv		图像
Lumina-Image 2.0	Lumina-Image 2.0：一个统一且高效的图像生成模型。			图像
Lumina-mGPT	Lumina-mGPT：通过多模态生成式预训练，照亮灵活的逼真文本到图像生成。	arXiv		图像
MakeAnything	MakeAnything：利用扩散Transformer进行多领域程序性序列生成。	arXiv		图像
MetaShoot	MetaShoot是摄影棚的数字孪生，作为Unreal Engine的插件开发，使任何创作者都能以最简单快捷的方式制作出高度逼真的渲染图。		Unreal Engine	图像
Midjourney	Midjourney是一个独立的研究实验室，探索新的思维媒介，并拓展人类的想象力。			图像
MIGC	MIGC：用于文本到图像合成的多实例生成控制器。	arXiv		图像
MimicBrush	零样本参考模仿图像编辑。	arXiv		图像
NextStep-1	NextStep-1：迈向大规模连续标记的自回归图像生成。	arXiv		图像
OmniGen	OmniGen：统一图像生成。	arXiv		图像
OmniGen2	OmniGen2：探索高级多模态生成。	arXiv		图像
Oniichan	AI精灵生成器和游戏角色创作者。使用自定义微调模型，根据文本提示生成游戏就绪的角色精灵和原创角色，支持编辑、修复和可重用的角色库。			漫画
Omost	Omost是一个将LLM的编码能力转化为图像生成（或更准确地说，图像构图）能力的项目。			图像
Openpose Editor	AUTOMATIC1111的稳定扩散WebUI的Openpose编辑器。			图像
Outfit Anyone	超高质量的任意服装和任意人物的虚拟试穿。			图像
PaintsUndo	PaintsUndo：数字绘画中绘画行为的基础模型。			图像
PhotoMaker	通过堆叠ID嵌入来自定义逼真人像照片。	arXiv		图像
Photoroom	AI背景生成器。			图像
Plask	云端AI图像生成。			图像
PosterCraft	PosterCraft：在一个统一框架中重新思考高质量美学海报生成。	arXiv		图像
Prompt.Art	生成器中心。			图像
PromptEnhancer	PromptEnhancer：通过思维链提示重写来增强文本到图像模型的简单方法。	arXiv		图像
PuLID	纯粹而闪电般的ID定制，通过对比对齐实现。	arXiv		图像
Qwen-Image	Qwen-Image是一个强大的图像生成基础模型，能够进行复杂的文本渲染和精确的图像编辑。	arXiv		图像
Qwen-Image-Edit	基于我们200亿参数的Qwen-Image模型，Qwen-Image-Edit成功地将Qwen-Image独特的文本渲染能力扩展到图像编辑任务，实现了精确的文本编辑。	arXiv		图像
Rich-Text-to-Image	使用富文本进行富有表现力的文本到图像生成。	arXiv		图像
RPG-DiffusionMaster	掌握文本到图像扩散：使用多模态LLM（PRG）进行重新标题、规划和生成。			图像
SEED-Story	SEED-Story：使用大型语言模型进行多模态长篇故事生成。	arXiv		图像
Segment Anything	Segment Anything Model (SAM)：Meta AI推出的一款新型AI模型，只需单击一下，就能在任何图像中“剪切”出任何物体。	arXiv		图像
Segment Anything Model 2 (SAM 2)	SAM 2：在图像和视频中分割任何内容。	arXiv		图像
sd-webui-controlnet	ControlNet的WebUI扩展。			图像
SDXL-Lightning	渐进式对抗性扩散蒸馏。	arXiv		图像
SDXS	实时一步式潜在扩散模型，带图像条件。			图像
SkyworkUniPic	SkyworkUniPic - 统一的自回归建模，用于视觉理解和生成。			图像
Stable.art	以Automatic1111为后端（本地或通过Google Colab）的Stable Diffusion Photoshop插件。			图像
Stable Cascade	Stable Cascade由三个模型组成：A阶段、B阶段和C阶段，代表一个用于生成图像的级联过程，因此得名“Stable Cascade”。			图像
Stable Diffusion	一种潜在的文本到图像扩散模型。			图像
stable-diffusion.cpp	纯C/C++实现的稳定扩散。			图像
Stable Diffusion web UI	基于Gradio库的稳定扩散浏览器界面。			图像
Stable Diffusion web UI	基于网页的稳定扩散用户界面。			图像
Stable Diffusion WebUI Chinese	稳定扩散WebUI的中文版本。			图像
Stable Diffusion XL	根据文本生成图像。	arXiv		图像
Stable Diffusion XL Turbo	实时文本到图像生成。			图像
Stable Diffusion 3.5	Stable Diffusion 3.5公开发布包括多个模型变体，其中包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。			图像
Stable Doodle	Stable Doodle是一款草图转图像工具，可将简单的绘图转换为动态图像。			图像
StableStudio	Stability AI推出的StableStudio			图像
StoryMaker	StoryMaker：迈向文本到图像生成中整体一致的角色。	arXiv		图像
StreamDiffusion	一种面向实时交互式生成的流水线级解决方案。			图像
StyleDrop	以任何风格进行文本到图像生成。	arXiv		图像
SyncDreamer	从单视图图像生成多视角一致的图像。	arXiv		图像
UltraEdit	UltraEdit：基于指令的大规模细粒度图像编辑。	arXiv		图像
UltraPixel	UltraPixel：将超高分辨率图像合成推进至新高峰。	arXiv		图像
Unity ML Stable Diffusion	Unity上的Core ML稳定扩散。		Unity	图像
USO	USO：通过解耦和奖励学习实现统一的风格和主题驱动生成。	arXiv		图像
Vispunk Visions	文本到图像生成平台。			图像

^ 返回目录 ^

纹理

来源	描述	论文	游戏引擎	类型
CRM	基于卷积重建模型，将单张图像转换为3D纹理网格。	arXiv		纹理
DreamMat	基于几何和光照感知的扩散模型，生成高质量的PBR材质。	arXiv		纹理
DreamSpace	通过文本驱动的全景纹理传播，实现房间空间的梦境化渲染。			纹理
Dream Textures	内置于Blender的Stable Diffusion工具，只需简单的文本提示即可创建纹理、概念艺术、背景素材等。		Blender	纹理
InstructHumans	使用指令编辑动画3D人体纹理。	arXiv		纹理
InteX	通过统一的深度感知修复技术实现交互式文本到纹理的合成。	arXiv		纹理
LLaMA-Mesh	LLaMA-Mesh：将3D网格生成与语言模型相结合。	arXiv		网格
MaterialSeg3D	MaterialSeg3D：从2D先验中分割出密集的3D资产材质。	arXiv		纹理
MeshAnything	MaterialSeg3D：从2D先验中分割出密集的3D资产材质。	arXiv		网格
Neuralangelo	高保真神经表面重建。	arXiv		纹理
Paint-it	通过深度卷积纹理贴图优化和物理渲染实现文本到纹理的合成。			纹理
Polycam	只需输入文字即可创建自己的3D纹理。			纹理
TexFusion	利用文本引导的图像扩散模型合成3D纹理。	arXiv		纹理
Text2Tex	基于扩散模型的文本驱动纹理合成。	arXiv		纹理
Texture Lab	AI生成的纹理。你可以通过文本提示生成属于自己的纹理。			纹理
With Poly	使用Poly创建纹理。在免费在线编辑器中利用AI生成3D材质，或浏览我们不断增长的社区资源库。			纹理
X-Mesh	X-Mesh：通过动态文本指导，实现快速且准确的文本驱动3D风格化。	arXiv		纹理

^ 返回目录 ^

着色器

来源	描述	论文	游戏引擎	类型
AI Shader	基于 ChatGPT 的 Unity 着色器生成器。		Unity	着色器

^ 返回目录 ^

3D 模型

来源	描述	论文	游戏引擎	类型
Animate3D	Animate3D：利用多视角视频扩散模型为任意3D模型添加动画。	arXiv		3D
Anything-3D	Segment-Anything + 3D。让我们将任何内容升级到3D。	arXiv		模型
Any2Point	Any2Point：赋能多模态大型模型，实现高效的3D理解。	arXiv		3D
BlenderGPT	使用英文指令通过OpenAI的GPT-4控制Blender。		Blender	模型
Blender-GPT	由GPT3/4和Whisper集成驱动的一体化Blender助手。		Blender	模型
BlenderMCP	BlenderMCP通过模型上下文协议（MCP）将Blender与Claude AI连接起来，使Claude能够直接与Blender交互并控制它。这种集成支持基于提示的3D建模、场景创建和操作。		Blender	模型
Blockade Labs	数字炼金术已成为现实——Skybox Lab是终极的AI驱动解决方案，可根据文本提示生成令人惊叹的360°天空盒体验。			模型
CF-3DGS	无需COLMAP的3D高斯泼溅。	arXiv		3D
CharacterGen	CharacterGen：通过多视角姿态归一化，从单张图像高效生成3D角色。	arXiv		3D
chatGPT-maya	一个简单的Maya工具，利用OpenAI根据描述性指令执行基本任务。		Maya	模型
CityDreamer	无界3D城市的组合式生成模型。	arXiv		3D
CSM	根据图片和视频生成3D世界。			3D
Dash	你在虚幻引擎中构建世界的副驾驶。		虚幻引擎	3D
Direct3D-S2	Direct3D-S2：借助空间稀疏注意力，轻松实现千兆规模的3D生成。	arXiv		3D
DreamCatalyst	DreamCatalyst：通过控制可编辑性和身份保留，实现快速高质量的3D编辑。	arXiv		3D
DreamGaussian4D	生成式4D高斯泼溅。	arXiv		4D
DUSt3R	几何3D视觉变得简单易行。	arXiv		3D
Edify 3D	Edify 3D：可扩展的高质量3D资产生成。	arXiv		3D
GALA3D	GALA3D：通过布局引导的生成式高斯泼溅，迈向文本到复杂3D场景的生成。	arXiv		3D
GaussCtrl	GaussCtrl：多视角一致的文本驱动3D高斯泼溅编辑。	arXiv		3D
GaussianCube	一种用于3D生成建模的结构化显式辐射表示。	arXiv		3D
GaussianDreamer	借助点云先验，从文本快速生成3D高斯泼溅。	arXiv		3D
GenieLabs	用AI生成的内容为你的游戏赋能。			3D
HiFA	高保真文本到3D，配备先进的扩散指导。			模型
HoloDreamer	HoloDreamer：根据文本描述生成整体3D全景世界。	arXiv		3D
Hunyuan3D-1.0	Hunyuan3D-1.0：统一的文本到3D和图像到3D生成框架。	arXiv		3D
Hunyuan3D 2.0	Hunyuan3D 2.0：扩展扩散模型以生成高分辨率带纹理的3D资产。	arXiv		3D
Hunyuan3D 2.1	Hunyuan3D 2.1：从图像生成高保真3D资产，采用可直接用于生产的PBR材质。	arXiv		3D
Infinigen	使用程序化生成无限逼真的世界。	arXiv		3D
Instruct-NeRF2NeRF	通过指令编辑3D场景。	arXiv		模型
Interactive3D	通过交互式3D生成创造你想要的内容。	arXiv		3D
Isotropic3D	基于单个CLIP嵌入的图像到3D生成。			3D
LATTE3D	大规模摊销式文本到增强3D合成。	arXiv		3D
LION	用于3D形状生成的潜在点扩散模型。	arXiv		模型
Luma AI	以栩栩如生的3D捕捉。无与伦比的写实感、反射和细节。VFX的未来现在属于每个人！			模型
lumine AI	AI驱动的创造力。			3D
Make-It-3D	借助扩散先验，从单张图像高质量地创建3D作品。	arXiv		模型
Meshy	用AI创建惊艳的3D游戏资产。			3D
Mootion	神奇的3D AI动画制作工具。			3D
MVDream	多视角扩散用于3D生成。	arXiv		3D
NVIDIA Instant NeRF	即时神经图形原语：闪电般的NeRF速度及其他功能。			模型
One-2-3-45	在不进行逐形状优化的情况下，45秒内即可将任意单张图像转换为3D网格。	arXiv		模型
Paint3D	使用无光照纹理扩散模型绘制任何3D对象。	arXiv		3D
PAniC-3D	基于动漫角色肖像的风格化单视图3D重建。	arXiv		模型
PhysRig	PhysRig：用于真实关节物体建模的可微分物理驱动绑定。	arXiv		模型
Point·E	点云扩散用于3D模型合成。			模型
ProlificDreamer	通过变分分数蒸馏实现高保真且多样化的文本到3D生成。	arXiv		模型
Seele AI	输入文本即可生成可玩的3D游戏。			3D
SF3D	SF3D：稳定快速的3D网格重建，具备UV展开和光照解耦功能。	arXiv		3D
Shap-E	根据文本或图像条件生成3D对象。	arXiv		模型
Sloyd	3D建模从未如此简单。			模型
Spline AI	AI的力量正在进入第三维度。使用提示生成对象、动画和纹理。			模型
Stable Dreamfusion	由Stable Diffusion文本到2D模型驱动的text-to-3D模型Dreamfusion的PyTorch实现。			模型
Step1X-3D	Step1X-3D：迈向高质量且可控的带纹理3D资产生成。	arXiv		3D
SV3D	利用潜在视频扩散技术，从单张图像实现新颖的多视角合成和3D生成。	arXiv		3D
Tafi	AI文本到3D角色引擎。			模型
3D-GPT	使用大型语言模型进行程序化3D建模。	arXiv		3D
3D-LLM	将3D世界注入大型语言模型中。	arXiv		3D
3Dpresso	从视频中捕获的对象提取3D模型。			模型
3DTopia	文本到3D生成，仅需5分钟。	arXiv		3D
3DTopia-XL	3DTopia-XL：通过原始扩散技术扩大高质量3D资产生成规模。	arXiv		3D
threestudio	一个用于3D内容生成的统一框架。			模型
TripoSR	一款最先进的开源模型，可从单张图像快速进行前馈式3D重建。	arXiv		模型
Unique3D	从单张图像高效生成高质量3D网格。	arXiv		3D
UnityGaussianSplatting	在Unity中展示玩具级的高斯泼溅可视化效果。		Unity	3D
ViVid-1-to-3	利用视频扩散模型进行新颖的视图合成。	arXiv		3D
Voxcraft	用AI打造即用型3D模型。			3D
Wonder3D	使用跨域扩散技术将单张图像转换为3D。	arXiv		3D
Zero-1-to-3	零样本单张图像到3D对象。	arXiv		模型

^ 返回目录 ^

头像

来源	描述	论文	游戏引擎	类型
AniPortrait	基于音频驱动的真实感人像动画合成。	arXiv		Avatar
CALM	可控虚拟角色的条件对抗潜空间模型。	arXiv		Avatar
ChatAvatar	文本引导下的可动画3D人脸渐进式生成。			Avatar
ChatdollKit	ChatdollKit让你可以将你的3D模型变成聊天机器人。		Unity	Avatar
Ditto	Ditto：用于可控实时说话头合成的运动空间扩散模型。	arXiv		Avatar
DreamTalk	富有表现力的说话头生成与扩散概率模型的结合。	arXiv		Avatar
Duix	Duix - 基于硅基的数字人SDK 🌐🤖			Avatar
EchoMimic	EchoMimic：通过可编辑的特征点条件实现逼真的音频驱动人像动画。	arXiv		Avatar
EMOPortraits	情感增强的多模态单次拍摄头部Avatar。			Avatar
EmoVOCA	EmoVOCA：语音驱动的情感化3D说话头。	arXiv		Avatar
E3 Gen	高效、富有表现力且可编辑的Avatar生成。	arXiv		Avatar
ExAvatar	ExAvatar - 富有表现力的全身3D高斯Avatar。	arXiv		Avatar
GeneAvatar	基于单张图像的通用表情感知体积头部Avatar编辑。	arXiv		Avatar
GeneFace++	广泛适用且稳定的实时3D说话脸生成。			Avatar
Hallo	用于人像图像动画的分层音频驱动视觉合成。	arXiv		Avatar
Hallo2	Hallo2：长时长、高分辨率的音频驱动人像图像动画。	arXiv		Avatar
HeadSculpt	使用文本制作3D头部Avatar。	arXiv		Avatar
HunyuanPortrait	HunyuanPortrait：用于增强人像动画的隐式条件控制。	arXiv		Avatar
HunyuanVideo-Avatar	HunyuanVideo-Avatar：面向多角色的高保真音频驱动人体动画。	arXiv		Avatar
IntrinsicAvatar	IntrinsicAvatar：基于物理的逆向渲染，通过显式光线追踪从单目视频中重建动态人类。	arXiv		Avatar
Linly-Talker	数字Avatar对话系统。			Avatar
LivePortrait	LivePortrait：具有拼接和重定向控制的高效人像动画。	arXiv		Avatar
MotionGPT	将人体运动视为一门外语，利用LLM构建统一的运动-语言生成模型。	arXiv		Avatar
MusePose	MusePose：一种基于姿态驱动的图生视频框架，用于虚拟人类生成。			Avatar
MuseTalk	利用潜在空间修复技术实现高质量的实时唇形同步。			Avatar
MuseV	基于视觉条件并行去噪技术，实现无限长度、高保真的虚拟人类视频生成。			Avatar
Portrait4D	使用合成数据学习单次拍摄的4D头部Avatar合成。	arXiv		Avatar
Ready Player Me	在几天内将可定制的Avatar集成到你的游戏或应用中。			Avatar
RodinHD	RodinHD：使用扩散模型生成高保真3DAvatar。	arXiv		Avatar
StableAvatar	StableAvatar：无限长度的音频驱动Avatar视频生成。	arXiv		Avatar
StyleAvatar3D	利用图文扩散模型生成高保真3DAvatar。	arXiv		Avatar
Text2Control3D	使用几何引导的图文扩散模型，在神经辐射场中实现可控的3DAvatar生成。	arXiv		Avatar
Topo4D	保持拓扑结构的高斯泼溅技术，用于高保真4D头部捕捉。	arXiv		Avatar
UnityAIWithChatGPT	基于Unity，实现了ChatGPT+UnityChan的语音交互展示。		Unity	Avatar
Vid2Avatar	通过自监督场景分解，从野外视频中重建3DAvatar。	arXiv		Avatar
VLOGGER	多模态扩散模型用于具身Avatar合成。			Avatar
Wild2Avatar	渲染被遮挡的人体。	arXiv		Avatar

^ 返回目录 ^

动画

来源	描述	论文	类型
Animate Anyone	用于角色动画的一致且可控的图像到视频合成。	arXiv	动画
AnimateAnything	基于运动引导的细粒度开放域图像动画。	arXiv	动画
AnimateDiff	无需特定微调即可动画化您的个性化文本到图像扩散模型。	arXiv	动画
AnimateLCM	让我们在4步内加速视频生成！	arXiv	动画
Animate-X	Animate-X：具有增强运动表示的通用角色图像动画。	arXiv	动画
AnimateZero	视频扩散模型是零样本图像动画器。	arXiv	动画
AnimationGPT	用于生成游戏战斗动作资源的AIGC工具。		动画
Deforum	Deforum 利用 Stable Diffusion 生成不断演变的 AI 视觉效果。		动画
DrawingSpinUp	DrawingSpinUp：从单个角色绘画中生成3D动画。	arXiv	动画
DreaMoving	基于扩散模型的人类视频生成框架。	arXiv	动画
FaceFusion	新一代人脸替换与增强工具。		动画
FreeInit	弥补视频扩散模型中的初始化差距。	arXiv	动画
GeneFace	广义且高保真度的音频驱动3D说话人脸合成。	arXiv	动画
ID-Animator	零样本身份保留的人类视频生成。	arXiv	动画
HY-Motion 1.0	HY-Motion 1.0：用于文本到运动生成的缩放流匹配模型。	arXiv	动画
Index-AniSora	Index-AniSora 是功能最强大的开源动画视频生成模型。它支持一键创建涵盖多种动漫风格的视频片段，包括系列剧集、国产原创动画、漫画改编作品、VTuber 内容、动漫 PV、鬼畜动画等！	arXiv	动画
MagicAnimate	使用扩散模型进行时间一致的人像动画。	arXiv	动画
NUWA	DragNUWA 是一款开放域的基于扩散的视频生成模型，以文本、图像和轨迹控制作为输入，实现可控的视频生成。	arXiv	动画
NUWA-Infinity	NUWA-Infinity 是一款多模态生成模型，旨在根据给定的文本、图像或视频输入生成高质量的图像和视频。		动画
NUWA-XL	一种用于生成超长视频的新型“扩散之上扩散”架构。		动画
Omni Animation	AI 生成的高保真动画。		动画
PIA	通过文本到图像模型中的即插即用模块，打造您的个性化图像动画师。	arXiv	动画
SadTalker	学习逼真的3D运动系数，用于风格化的音频驱动单张图片说话人脸动画。	arXiv	动画
SadTalker-Video-Lip-Sync	该项目基于 SadTalkers Wav2lip 进行视频口型同步。		动画
Stable Animation	一款功能强大的面向开发者的文本到动画工具。		动画
ToonComposer	ToonComposer：通过生成式后期关键帧技术简化卡通制作流程。	arXiv	动画
TaleCrafter	一款支持多角色的互动故事可视化工具。	arXiv	动画
ToonCrafter	ToonCrafter：生成式卡通插值。	arXiv	动画
Wav2Lip	准确地为真实场景中的视频进行口型同步。	arXiv	动画
Wonder Studio	一款AI工具，可自动将CG角色动画化、打光并合成到真人场景中。		动画

^ 返回目录 ^

视频

来源	描述	论文	类型
360DVD	基于360度视频扩散模型的可控全景视频生成。	arXiv	视频
Animate-A-Story	基于检索增强的叙事视频生成。	arXiv	视频
Anything in Any Scene	照片级真实感视频对象插入。		视频
ART•V	基于扩散模型的自回归文本到视频生成。	arXiv	视频
Assistive	遇见能将你的创意变为现实的生成式视频平台。		视频
AtomoVideo	高保真图像到视频生成。	arXiv	视频
BackgroundRemover	Background Remover 允许你使用 AI 通过一个简单且免费开源的命令行界面移除图片和视频中的背景。		视频
Boximator	为视频合成生成丰富且可控的运动。	arXiv	视频
CoDeF	用于时序一致视频处理的内容变形场。	arXiv	视频
CogVideo	根据文本描述生成视频。		视频
CogVideoX	CogVideoX 是视频生成模型的开源版本，与清影同源。		视频
CogVLM	CogVLM 是一款强大的开源视觉语言模型 (VLM)。		视觉
CoNR	从手绘动漫角色原画 (ACS) 生成生动的舞蹈视频。	arXiv	视频
Decohere	创造无法拍摄的内容。		视频
Descript	Descript 是一种简单、强大且有趣的编辑方式。		视频
Diffutoon	基于扩散模型的高分辨率可编辑卡通渲染。	arXiv	视频
dolphin	基于 LLM 的通用视频交互平台。		视频
DomoAI	用 DomoAI 提升你的创造力。		视频
DreamCinema	DreamCinema：自由摄像机与 3D 角色的电影化迁移。	arXiv	视频
DynamiCrafter	使用视频扩散先验对开放域图像进行动画化。	arXiv	视频
EDGE	我们介绍了 EDGE，这是一种功能强大的可编辑舞蹈生成方法，能够在忠实于任意输入音乐的同时生成逼真且符合物理规律的舞蹈。	arXiv	视频
EMO	Emote Portrait Alive - 在弱条件下使用 Audio2Video 扩散模型生成富有表现力的肖像视频。	arXiv	视频
Emu Video	通过显式图像条件化实现文本到视频生成的因子分解。		视频
Etna	Etna 可以根据简短的文本描述生成相应的视频内容。		视频
Fairy	快速并行化的指令引导型视频到视频合成。		视频
Follow-Your-Canvas	Follow-Your-Canvas：更高分辨率的视频外延与大量内容生成。	arXiv	视频
Follow Your Pose	使用无姿态视频进行姿态引导的文本到视频生成。	arXiv	视频
FullJourney	你触手可及的完整 AI 创作工具套件。		视频
Gen-2	一个多模态 AI 系统，能够根据文本、图像或视频片段生成新颖的视频。		视频
Generative Dynamics	生成式图像动力学。		视频
Genie	生成式交互环境。	arXiv	视频
Genmo	用 AI 巧妙地制作视频。		视频
GenTron	用于图像和视频生成的扩散变换器。		视频
HiGen	用于文本到视频生成的分层时空解耦。		视频
Hotshot-XL	Hotshot-XL 是一个与 Stable Diffusion XL 配合使用的 AI 文本到 GIF 模型。		视频
HuMo	HuMo：通过协作式多模态条件化实现以人为本的视频生成。	arXiv	视频
HunyuanVideo	HunyuanVideo：大型视频生成模型的系统性框架。	arXiv	视频
HunyuanVideo-1.5	HunyuanVideo-1.5：领先的轻量级视频生成模型。		视频
Imagen Video	给定一个文本提示，Imagen Video 使用基础视频生成模型以及一系列交错的空间和时间视频超分辨率模型生成高清视频。		视频
InfiniteTalk	InfiniteTalk：基于音频驱动的稀帧视频配音视频生成。	arXiv	视频
InstructVideo	通过人类反馈指导视频扩散模型。	arXiv	视频
I2VGen-XL	通过级联扩散模型实现高质量的图像到视频合成。	arXiv	视频
LaVie	使用级联潜在扩散模型进行高质量视频生成。	arXiv	视频
LongLive	LongLive：实时交互式长视频生成。	arXiv	视频
LTX Studio	LTX Studio 是一个面向创作者、营销人员、电影制作人和工作室的全方位 AI 驱动的电影制作平台。		视频
LTX-Video	LTX-Video 是首个基于 DiT 的视频生成模型，能够实时生成高质量视频。它可以以 768x512 分辨率生成 24 FPS 的视频，速度比观看它们还快。		视频
Lumiere	用于视频生成的时空扩散模型。	arXiv	视频
LVDM	用于高保真长视频生成的潜在视频扩散模型。	arXiv	视频
Lynx	Lynx：迈向高保真个性化视频生成。	arXiv	视频
MagicVideo	使用潜在扩散模型高效生成视频。	arXiv	视频
MagicVideo-V2	多阶段高审美视频生成。	arXiv	视频
Magic Hour	为创作者打造的简单易用的 AI 视频。		视频
MAGVIT-v2	令牌化是视觉生成的关键。		视频
MAGVIT	掩码生成式视频变压器。		视频
Make-A-Video	Make-A-Video 是一个最先进的 AI 系统，可以根据文本生成视频。	arXiv	视频
Make Pixels Dance	高动态范围视频生成。	arXiv	视频
Make-Your-Video	使用文本和结构引导进行定制化视频生成。	arXiv	视频
MicroCinema	一种用于文本到视频生成的分治法。	arXiv	视频
MIMO	MIMO：利用空间分解建模进行可控的角色视频合成。	arXiv	视频
Mini-Gemini	挖掘多模态视觉语言模型的潜力。		视觉
MobileVidFactory	基于扩散的自动社交媒体视频生成，适用于移动设备，输入为文本。		视频
Mochi 1	Mochi 1 是一款开放式的先进视频生成模型，在初步评估中表现出高保真的运动效果和强大的提示遵循能力。		视频
MOFA-Video	通过在冻结的图像到视频扩散模型中应用生成式运动场适配，实现可控的图像动画。	arXiv	视频
MoneyPrinterTurbo	使用大模型一键生成短视频。		视频
Moonvalley	Moonvalley 是一款突破性的新型文本到视频生成 AI 模型。		视频
Mora	更接近 Sora 的通用视频生成模型。	arXiv	视频
Morph Studio	借助我们的文本到视频 AI 魔法，通过你的提示展现你的创造力。		视频
MotionClone	MotionClone：无需训练即可进行运动克隆，用于可控视频生成。	arXiv	视频
MotionCtrl	用于视频生成的统一且灵活的运动控制器。	arXiv	视频
MotionDirector	对文本到视频扩散模型进行运动自定义。	arXiv	视频
Motionshop	将视频中的角色替换为 3D 头像的应用程序。		视频
Mov2mov	Automatic1111/stable-diffusion-webui 的 Mov2mov 插件。		视频
MovieFactory	使用大型语言和图像生成模型，根据文本自动创建电影。	arXiv	视频
MoviiGen 1.1	MoviiGen 1.1：迈向电影级质量的视频生成模型。MoviiGen 1.1 是一款尖端的视频生成模型，擅长电影美学和视觉质量。该模型是在 Wan2.1 的基础上进行微调的。根据包括行业专家在内的 11 名专业电影制作人和 AIGC 创作者在 60 个美学维度上的综合评估，MoviiGen 1.1 在关键的电影方面表现出色。		视频
Neural Frames	发现视觉世界的合成器。		视频
NeverEnds	创造属于你的世界。		视频
Open-Sora	使高效的视频制作民主化，惠及所有人。		视频
Open-Sora	Open-Sora 计划。		视频
Ovi	Ovi：用于音视频生成的双骨干跨模态融合。	arXiv	视频
Phenaki	一种根据文本生成视频的模型，支持随时间变化的提示，生成的视频最长可达数分钟。	arXiv	视频
Pika Labs	Pika Labs 正在用 AI 彻底改变视频制作体验。		视频
Pixeling	Pixeling 使我们的客户能够创建高度精确、超逼真且极具控制力的视觉内容，包括图像、视频和 3D 模型。		视频
PixVerse	用 AI 创造令人惊叹的视频。		视频
Pollinations	创作变得轻松、快速且有趣。		视频
Reuse and Diffuse	用于文本到视频生成的迭代去噪。	arXiv	视频
Ruyi	Ruyi 是一款图像到视频模型，能够以 768×768 分辨率、24 帧/秒的帧率生成 5 秒共 120 帧的电影级视频。		视频
ShortGPT	一个用于自动化短视频/视频内容创作的实验性 AI 框架。		视频
Show-1	将像素和潜在扩散模型结合用于文本到视频生成。	arXiv	视频
Step-Video-T2V	Step-Video-T2V 技术报告：视频基础模型的实践、挑战与未来。	arXiv	视频
SkyReels-A1	SkyReels-A1：在视频扩散变压器中进行富有表现力的肖像动画。	arXiv	视频
SkyReels-V1	SkyReels V1：以人为本的视频基础模型。		视频
Snap Video	用于文本到视频合成的缩放时空变换器。	arXiv	视频
Sora	根据文本创建视频。		视频
SoraWebui	SoraWebui 是一个开源的 Sora 网页客户端，允许用户使用 OpenAI 的 Sora 模型轻松地根据文本创建视频。		视频
StableVideo	基于文本的一致性感知扩散视频编辑。		视频
Stable Video Diffusion	稳定视频扩散 (SVD) 图像到视频。		视频
StoryDiffusion	用于长距离图像和视频生成的一致性自注意力。	arXiv	视频
StoryMem	StoryMem：带有记忆的多镜头长视频叙事。	arXiv	视频
StreamingT2V	从文本生成一致、动态且可扩展的长视频。	arXiv	视频
StyleCrafter	使用风格适配器提升风格化文本到视频生成的质量。	arXiv	视频
TATS	使用时间无关的 VQGAN 和时间敏感的变压器进行长视频生成。		视频
Text2Video-Zero	图像扩散模型是零样本视频生成器。	arXiv	视频
TF-T2V	使用无姿态视频扩大文本到视频生成规模的配方。	arXiv	视频
Tora	Tora：面向轨迹的视频生成扩散变压器。	arXiv	视频
Track-Anything	Track-Anything 是一个灵活且交互式的视频目标跟踪和分割工具，基于 Segment Anything 和 XMem。	arXiv	视频
Tune-A-Video	一次性调整图像扩散模型以用于文本到视频生成。	arXiv	视频
TwelveLabs	多模态 AI 能够像人类一样理解视频。		视频
UniVG	朝着统一模态视频生成迈进。		视频
Vchitect-2.0	Vchitect-2.0：用于扩大视频扩散模型规模的并行变压器。		视频
VGen	一个基于扩散模型构建的视频生成生态系统。	arXiv	视频
ViewCrafter	ViewCrafter：驯服视频扩散模型以实现高保真新视角合成。	arXiv	视频
Video-ChatGPT	Video-ChatGPT 是一个视频对话模型，能够生成关于视频的有意义对话。	arXiv	视频
VideoComposer	具有运动可控性的组合式视频合成。	arXiv	视频
VideoCrafter1	开放式扩散模型用于高质量视频生成。	arXiv	视频
VideoCrafter2	克服数据限制以实现高质量视频扩散模型。	arXiv	视频
VideoDrafter	基于 LLM 的内容一致多场景视频生成。	arXiv	视频
VideoElevator	通过多功能图像到视频扩散模型提升视频生成质量。	arXiv	视频
VideoFactory	在时空扩散中交换注意力以进行文本到视频生成。		视频
VideoGen	一种参考引导的潜在扩散方法，用于高清文本到视频生成。	arXiv	视频
VideoLCM	视频潜在一致性模型。	arXiv	视频
Video LDMs	对齐你的潜在空间：使用潜在扩散模型进行高分辨率视频合成。	arXiv	视频
Video-LLaVA	通过投影前对齐学习统一的视觉表示。	arXiv	视频
VideoMamba	用于高效视频理解的状态空间模型。	arXiv	视频
Video-of-Thought	Video-of-Thought：从感知到认知的逐步视频推理。		视频
VideoPoet	一个用于零样本视频生成的大语言模型。	arXiv	视频
Vispunk Motion	仅用文本就能创建逼真的视频。		视频
VisualRWKV	VisualRWKV 是 RWKV 语言模型的视觉增强版，使 RWKV 能够处理各种视觉任务。		视觉
V-JEPA	视频联合嵌入预测架构。	arXiv	视频
W.A.L.T	基于扩散模型的照相写实主义视频生成。	arXiv	视频
Wan2.1	Wan：开放且先进的大规模视频生成模型。		视频
Wan2.2	Wan：开放且先进的大规模视频生成模型。	arXiv	视频
Waver	Waver 1.0 是下一代通用基础模型家族，用于统一的图像和视频生成，基于校正流 Transformer 构建，并专为工业级性能而设计。	arXiv	视频
Zeroscope	Zeroscope 文本到视频。		视频

^ 返回目录 ^

音频

来源	描述	论文	类型
AcademiCodec	用于学术研究的开源音频编解码器模型。		音频
Amphion	开源音频、音乐和语音生成工具包。	arXiv	音频
ArchiSound	使用扩散模型在 PyTorch 中进行音频生成。		音频
Audiobox	基于自然语言提示的统一音频生成。		音频
AudioEditing	使用 DDPM 反演实现零样本无监督及基于文本的音频编辑。	arXiv	音频
Audiogen Codec	适用于通用音频的低压缩率 48kHz 立体声神经网络音频编解码器，专注于音频保真度 🎵。		音频
AudioGPT	理解并生成语音、音乐、声音及说话人头像。	arXiv	音频
AudioLCM	使用潜在一致性模型进行文本到音频生成。	arXiv	音频
AudioLDM	使用潜在扩散模型进行文本到音频生成。	arXiv	音频
AudioLDM 2	通过自监督预训练学习整体音频生成。	arXiv	音频
AudioX	AudioX：用于任意内容到音频生成的扩散 Transformer。	arXiv	音频
Auffusion	利用扩散模型和大型语言模型的力量进行文本到音频生成。	arXiv	音频
CTAG	通过合成器编程实现创意文本到音频生成。		音频
FoleyCrafter	FoleyCrafter：为无声视频赋予逼真且同步的声音。	arXiv	音频
HunyuanVideo-Foley	HunyuanVideo-Foley：通过表征对齐的多模态扩散模型实现高保真 Foley 音效生成。	arXiv	音频
MAGNeT	使用单个非自回归 Transformer 进行掩码音频生成。		音频
Make-An-Audio	使用提示增强的扩散模型进行文本到音频生成。	arXiv	音频
Make-An-Audio 3	通过基于流的大规模扩散 Transformer 将文本转换为音频。	arXiv	音频
MeanAudio	MeanAudio：使用均值流实现快速且忠实的文本到音频生成。		音频
MiDashengLM	MiDashengLM：利用通用音频字幕实现高效的音频理解。	arXiv	音频
MMAudio	MMAudio：驯服多模态联合训练，实现高质量的视频到音频合成。	arXiv	音频
NeuralSound	基于学习的模态声音合成，结合声学迁移。	arXiv	音频
OptimizerAI	为创作者、游戏开发者、艺术家和视频制作者提供的声音服务。		音频
Qwen2-Audio	阿里云提出的 Qwen2-Audio 聊天及预训练大型音频语言模型。	arXiv	音频
SEE-2-SOUND	零样本空间环境到空间声音。	arXiv	音频
SoundStorm	高效的并行音频生成。	arXiv	音频
Stable Audio	快速的时序条件潜在音频扩散。		音频
Stable Audio Open	Stable Audio Open 1.0 根据文本提示生成可变长度（最长 47 秒）的 44.1kHz 立体声音频。		音频
SyncFusion	SyncFusion：多模态起始时刻同步的视频到音频 Foley 合成。	arXiv	音频
TANGO	使用指令微调的 LLM 和潜在扩散模型进行文本到音频生成。		音频
ThinkSound	ThinkSound：在多模态大型语言模型中运用思维链推理进行音频生成与编辑。	arXiv	音频
VTA-LDM	带有隐式对齐的视频到音频生成。	arXiv	音频
WavJourney	使用大型语言模型进行组合式音频创作。	arXiv	音频

^ 返回目录 ^

音乐

来源	描述	论文	类型
AIVA	基于人工智能的情感配乐创作。		音乐
Amper Music	由 Amper 提供支持的定制化音乐生成技术。		音乐
AnyAccomp	AnyAccomp：通过量化旋律瓶颈实现可泛化的伴奏生成。	arXiv	音乐
Boomy	创造生成式音乐，并与全世界分享。		音乐
ChatMusician	在大型语言模型中培养内在的音乐能力。		音乐
Chord2Melody	自动音乐生成 AI。		音乐
Diff-BGM	用于视频背景音乐生成的扩散模型。	arXiv	音乐
FluxMusic	FluxMusic：基于修正流变换器的文本到音乐生成。	arXiv	音乐
GPTAbleton	用于处理 GPT 响应并将 MIDI 音符通过 AbletonOSC 和 python-osc 发送到 Ableton 片段中的脚本草稿。		音乐
HeyMusic.AI	AI 音乐生成器		音乐
Image to Music	AI 图片转音乐生成器是一种利用人工智能将图片转换为音乐的工具。		音乐
JEN-1	基于全向扩散模型的文本引导通用音乐生成。		音乐
Jukebox	一种音乐生成模型。	arXiv	音乐
Magenta	Magenta 是一个研究项目，探索机器学习在艺术和音乐创作过程中的作用。		音乐
MeLoDy	高效的神经网络音乐生成		音乐
Mubert	AI 生成式音乐。		音乐
MuseNet	一种深度神经网络，能够生成包含 10 种不同乐器的 4 分钟音乐作品，并能融合从乡村音乐到莫扎特再到披头士等多种风格。		音乐
MusicGen	简单且可控的音乐生成。	arXiv	音乐
MusicLDM	利用节拍同步混合策略提升文本到音乐生成的新颖性。	arXiv	音乐
MusicLM	从文本生成音乐。	arXiv	音乐
Riffusion App	Riffusion 是一款使用稳定扩散进行实时音乐生成的应用程序。		音乐
Sonauto	Sonauto 是一款 AI 音乐编辑器，可以将提示词、歌词或旋律转化为任何风格的完整歌曲。		音乐
SonicMaster	SonicMaster：迈向可控的一体化音乐修复与母带处理。	arXiv	音乐
SoundRaw	为创作者提供的 AI 音乐生成器。		音乐
Soundry AI	包括文本转声音和无限样本包在内的生成式 AI 工具。		音乐
YuE	YuE：开源的整首歌曲生成基础模型，类似于 Suno.ai 但为开源版本。		音乐

^ 返回目录 ^

歌声

来源	描述	论文	类型
DiffSinger	基于浅层扩散机制的歌声合成。	arXiv	歌声
Retrieval-based-Voice-Conversion-WebUI	基于VITS的易用型语音转换框架。		歌声
so-vits-svc	SoftVC VITS 歌声转换。		歌声
VI-SVS	使用VITS和Opencpop开发歌声合成；与VISinger不同。		歌声

^ 返回目录 ^

语音

来源	描述	论文	游戏引擎	类型
Applio	终极语音克隆工具，经过精心优化，具有无与伦比的强大功能、模块化设计和用户友好的体验。			语音
Audyo	输入文本，输出音频。			语音
Bark	文本提示生成式音频模型。			语音
Bert-VITS2	基于多语言BERT的VITS2骨干网络。			语音
Chatterbox	Chatterbox TTS是首个生产级开源TTS模型。			语音
ChatTTS	ChatTTS是一款用于日常对话的生成式语音模型。			语音
CLAPSpeech	通过对比语言-音频预训练学习文本上下文中的韵律。	arXiv		语音
CosyVoice	多语言大型语音生成模型，提供推理、训练和部署的全栈能力。			语音
DEX-TTS	基于扩散模型的表情丰富文本到语音合成，并在时间变异性上进行风格建模。	arXiv		语音
EmotiVoice	多语音且受提示控制的TTS引擎。			语音
FireRedTTS-2	FireRedTTS-2：面向播客和聊天机器人的长对话语音生成。	arXiv		语音
Fliki	将文本转换为带有AI语音的视频。			语音
GLM-4-Voice	GLM-4-Voice是由智谱AI推出的一体化语音模型。GLM-4-Voice可以直接理解和生成中文和英文语音，进行实时语音对话，并根据用户指令改变情感、语调、语速和方言等属性。			语音
Glow-TTS	通过单调对齐搜索实现文本到语音的生成流模型。	arXiv		语音
GPT-SoVITS	强大的少样本语音转换和文本到语音WebUI。			语音
Higgs Audio	Higgs Audio V2：重新定义音频生成中的表现力。			语音
IndexTTS2	IndexTTS2：在情感丰富且时长可控的自回归零样本文本到语音合成方面的突破。	arXiv		语音
Kitten TTS	Kitten TTS是一个开源的逼真文本到语音模型，仅需1500万参数，专为轻量级部署和高质量语音合成而设计。			语音
Liquid Audio	Liquid Audio - Liquid AI推出的语音到语音音频模型。			语音
LOVO	LOVO是数千名创作者首选的AI语音生成器和文本到语音平台。			语音
MahaTTS	一款开源的大规模语音生成模型。			语音
Matcha-TTS	一种基于条件流匹配的快速TTS架构。	arXiv		语音
MeloTTS	MyShell.ai出品的高质量多语言文本到语音库。支持英语、西班牙语、法语、中文、日语和韩语。			语音
MetaVoice-1B	用于实现人类水平语音智能的AI。			语音
Narakeet	轻松使用逼真的文本到语音技术创建配音。			语音
Mini-Omni	Mini-Omni：语言模型可以在流式处理中听、说并思考。Mini-Omni是一款开源的多模态大型语言模型，能够边听边说边思考。具备实时端到端语音输入和流式音频输出的对话能力。	arXiv		语音
One-Shot-Voice-Cloning	基于Unet-TTS的一次性语音克隆。			语音
OpenVoice	MyShell提供的即时语音克隆服务。			语音
OverFlow	在神经换能器之上应用流模型以改善TTS性能。			语音
RealtimeTTS	RealtimeTTS是一款最先进的文本到语音（TTS）库，专为实时应用而设计。			语音
SenseVoice	SenseVoice是一款语音基础模型，具备多种语音理解能力，包括自动语音识别（ASR）、口语语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。			语音
SpeechGPT	通过内在的跨模态对话能力增强大型语言模型。	arXiv		语音
speech-to-text-gpt3-unity	这是我使用Whisper和OpenAI的ChatGPT API在Unity中实现的项目仓库。		Unity	语音
Stable Speech	Stability AI的文本到语音模型。			语音
StableTTS	下一代TTS模型，采用流匹配和DiT技术，灵感来自Stable Diffusion 3。			语音
Step-Audio	Step-Audio：智能语音交互中的统一理解与生成。	arXiv		语音
Step-Audio 2	Step-Audio 2是一款端到端的多模态大型语言模型，专为工业级音频理解和语音对话而设计。	arXiv		语音
StyleTTS 2	通过风格扩散和对抗训练，结合大型语音语言模型，迈向人类水平的文本到语音合成。	arXiv		语音
tortoise.cpp	tortoise.cpp：tortoise-tts的GGML实现。			语音
TorToiSe-TTS	一个注重质量的多语音TTS系统。			语音
TTS Generation WebUI	TTS生成WebUI（Bark、MusicGen、Tortoise、RVC、Vocos、Demucs）。			语音
VALL-E	神经编解码语言模型是零样本文本到语音合成器。	arXiv		语音
VALL-E X	用自己的声音说外语：跨语言神经编解码语言建模	arXiv		语音
VibeVoice	VibeVoice是一种新颖的框架，旨在从文本生成富有表现力、长篇幅、多说话者的对话式音频，例如播客。它解决了传统文本到语音（TTS）系统中的重大挑战，特别是在可扩展性、说话者一致性以及自然的轮流发言方面。			语音
Vocode	Vocode是一个用于构建基于语音的LLM应用的开源库。			语音
Voicebox	文本引导的多语言通用大规模语音生成。	arXiv		语音
VoiceCraft	零样本语音编辑和野外环境下的文本到语音合成。			语音
VoxCPM	VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和逼真语音克隆。			语音
Whisper	Whisper是一款通用的语音识别模型。			语音
WhisperSpeech	一个通过反转Whisper构建的开源文本到语音系统。			语音
X-E-Speech	非自回归跨语言情感文本到语音与语音转换的联合训练框架。			语音
XTTS	XTTS是一个用于高级文本到语音生成的库。			语音
YourTTS	努力实现面向所有人的零样本多说话者TTS和零样本语音转换。	arXiv		语音
ZMM-TTS	基于自监督离散语音表示的零样本多语言、多说话者语音合成。	arXiv		语音
UniAudio 2.0	UniAudio 2.0：一种多任务音频基础模型，配备推理增强型音频分词。			语音
UnityNeuroSpeech	全球首个允许您与AI实时对话的游戏框架——本地运行。		Unity	语音

^ 返回目录 ^

分析工具

来源	描述	游戏引擎	类型
Ludo.ai	游戏研究与设计助手。		分析工具

^ 返回目录 ^

AI Game DevTools (AI-GDT) 快速上手指南

注意：ai-game-devtools 并非一个单一的独立软件包，而是一个开源工具集合列表（Awesome List），旨在汇总游戏开发领域最新的 AI 工具（涵盖 LLM、世界模型、代码生成、3D 资产、音频等）。

因此，本指南将指导你如何获取该资源列表，并选取其中两个最具代表性的工具（通用 Agent 框架 Auto-GPT 和 Unity 集成工具 AICommand）进行快速安装与演示。

1. 环境准备

在开始使用列表中的具体工具前，请确保你的开发环境满足以下通用要求：

操作系统：Windows 10/11, macOS, 或 Linux (Ubuntu 20.04+)
Python 环境：Python 3.8 - 3.11 (推荐通过 conda 或 venv 管理虚拟环境)
版本控制：Git
API 密钥：大部分工具需要配置 LLM API Key（如 OpenAI, DeepSeek, Baichuan 等）。
- 国内开发者建议：优先使用 DeepSeek, Baichuan (百川), 或 ZhipuAI (智谱) 的 API，以获得更低的延迟和本土化支持。
游戏引擎（可选）：若使用引擎插件，需安装 Unity 2021+ 或 Unreal Engine 5。

2. 获取资源列表

首先克隆该仓库以浏览完整的工具目录：

git clone https://github.com/zhaocheng-huang/ai-game-devtools.git
cd ai-game-devtools

你可以直接在本地查看 README.md 文件，根据分类（如 Code, 3D Model, Audio）查找适合你项目的具体工具链接。

3. 快速实战示例

以下展示两类典型场景的快速启动方法。

场景 A：自主游戏逻辑代理 (基于 Auto-GPT)

适用于自动生成游戏脚本、测试用例或策划文档。

安装步骤

# 创建并激活虚拟环境
python -m venv venv
source venv/bin/activate  # Windows 用户请使用: venv\Scripts\activate

# 克隆项目
git clone https://github.com/Significant-Gravitas/Auto-GPT.git
cd Auto-GPT

# 安装依赖 (建议使用国内镜像源加速)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 复制配置文件
cp .env.template .env

基本使用

编辑 .env 文件，填入你的大模型 API Key（支持兼容 OpenAI 格式的国内模型）：

OPENAI_API_KEY=sk-your-api-key-here
OPENAI_API_BASE=https://api.deepseek.com/v1  # 示例：使用 DeepSeek 接口

运行交互模式：
```
python -m autogpt
```
输入指令示例：

"Create a Python script for a Unity player controller that handles movement and jumping." (创建一个处理移动和跳跃的 Unity 玩家控制器 Python 脚本。)

场景 B：Unity 引擎内集成 (基于 AICommand)

适用于在 Unity 编辑器中直接通过自然语言生成代码或修改场景。

安装步骤

打开 Unity Editor。
菜单栏选择 Window > Package Manager。
点击左上角 + 号，选择 Add package from git URL...。
输入以下地址并添加：
```
https://github.com/keijiro/AICommand.git
```
(注：若网络受限，可手动下载 ZIP 包解压至 Packages 文件夹)

基本使用

在 Unity 顶部菜单栏找到 AICommand > Settings。
在 Inspector 面板中输入你的 API Key。
打开 Window > AICommand 调出控制台。
输入指令示例：

"Create a red cube at position (0, 0, 0)." (在坐标 (0,0,0) 处创建一个红色立方体。)

或直接请求代码：

"Write a C# script to rotate this object around the Y axis." (写一个 C# 脚本让该物体绕 Y 轴旋转。)

4. 更多工具探索

回到主目录，你可以根据需求尝试其他细分领域的工具：

3D 模型生成: 查看 3D Model 章节，尝试 Shap-E 或 DreamFusion 相关实现。
纹理生成: 查看 Texture 章节，利用 SDXL 等模型生成游戏贴图。
世界模型: 关注 Game 章节中的 Cosmos (NVIDIA) 等项目，用于物理仿真训练。

请前往各工具的独立 GitHub 页面查阅详细的参数配置和进阶用法。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 157.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架