ai-game-devtools

GitHub
1.1k 111 非常简单 1 次阅读 今天MIT开发框架
AI 解读 由 AI 自动生成,仅供参考

ai-game-devtools 是一个专注于游戏开发领域的 AI 工具资源库,旨在为开发者提供一站式的前沿技术导航。它系统性地整理了涵盖大语言模型(LLM)、世界模型、智能体、代码生成,以及图像、纹理、着色器、3D 模型、动画、音视频处理和分析等全链路的开源项目。

在游戏制作过程中,创作者往往需要在分散的资源中寻找合适的 AI 解决方案,效率较低。ai-game-devtools 通过分类汇总最新的技术成果,解决了信息碎片化问题,帮助团队快速定位能辅助剧情编写、资产生成或逻辑构建的高效工具。无论是独立开发者、游戏工作室的技术美术,还是探索人机交互的研究人员,都能从中找到适配当前工作流的利器。

该项目的独特亮点在于其极高的覆盖广度与更新速度,不仅收录了如 AgentGPT、Auto-GPT 等通用智能体框架,还特别关注 Unity 引擎集成、自动化科学发现等垂直场景应用。它以清晰的表格形式呈现每个工具的来源、功能描述及适用引擎,让用户无需深入阅读大量文档即可评估工具价值。对于希望利用 AI 提升游戏研发效率的专业人士而言,这是一个极具参考价值的实用指南。

使用场景

独立游戏开发者小林正独自开发一款科幻题材的 3D 冒险游戏,需要在极短的时间内完成从代码逻辑到美术资源的全流程制作。

没有 ai-game-devtools 时

  • 多工具切换繁琐:需要分别在 GitHub 搜索代码助手、去专门网站找纹理生成器、再另寻音乐创作工具,频繁跳转导致工作流支离破碎。
  • 资产风格不统一:由于使用不同来源的非集成工具,生成的 3D 模型、贴图和角色动画在美术风格上难以保持一致,后期调整耗时巨大。
  • 智能体开发门槛高:想要为 NPC 添加基于大模型的自主行为,需手动配置复杂的 API 接口和本地环境,缺乏像 AgentGPT 或 AIOS 这样的现成框架支持。
  • 引擎集成困难:生成的代码和资源无法直接导入 Unity 等引擎,需要大量人工重写和格式转换,严重拖慢迭代速度。

使用 ai-game-devtools 后

  • 一站式资源获取:通过 ai-game-devtools 的项目列表,小林能直接在同一个页面找到涵盖代码、纹理、音乐及智能体的最新工具链,大幅减少检索时间。
  • 全链路风格协同:利用列表中推荐的专用模型工具(如针对 Shader 和 3D Model 的特定 AI),可以更有针对性地控制输出参数,确保视觉资产风格高度统一。
  • 快速部署游戏智能体:直接复用列表中集成的 Unity 插件(如 AICommand)或自主智能体框架,几分钟内即可让 NPC 具备对话和自主决策能力。
  • 无缝引擎对接:所选工具大多标注了支持的引擎类型,生成的代码和资产可直接导入项目,实现了从创意到可玩原型的极速转化。

ai-game-devtools 通过聚合全产业链的最新 AI 工具,将独立开发者的“单兵作战”效率提升至团队级水平,让创意落地不再受限于技术栈的广度。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该 README 是一个 AI 游戏开发工具的汇总列表(Awesome List),包含了 LLM、代理、代码生成、图像、3D 模型等多个领域的独立开源项目。它本身不是一个单一的可运行软件,因此没有统一的运行环境需求。每个列出的工具(如 AgentGPT, Auto-GPT, Baichuan 等)都有各自独立的仓库和具体的环境配置要求,用户需前往对应项目的页面查看详细信息。
python未说明
ai-game-devtools hero image

快速开始

AI 游戏开发工具 (AI-GDT) 🎮

AI-Game

在这里,我们将持续跟踪最新的 AI 游戏开发工具,涵盖大语言模型、世界模型、智能体、代码、图像、纹理、着色器、3D 模型、动画、视频、音频、音乐、歌声以及数据分析等领域。🔥

目录

项目列表

LLM(大语言模型及工具)

来源 描述 论文 游戏引擎 类型
AgentGPT 🤖 在浏览器中组装、配置并部署自主AI智能体。 工具
AICommand ChatGPT与Unity编辑器的集成。 Unity 工具
AIOS LLM智能体操作系统。 工具
AI Scientist AI科学家:迈向完全自动化的开放式科学发现。 arXiv 工具
Assistant CLI 一款舒适的CLI工具,用于使用ChatGPT服务🔥 工具
Auto-GPT 一个实验性的开源尝试,旨在使GPT-4完全自主化。 工具
BabyAGI 这个Python脚本是一个由AI驱动的任务管理系统的示例。 工具
👶🤖🖥️ BabyAGI UI BabyAGI UI旨在通过类似ChatGPT的Web应用,更轻松地运行和开发BabyAGI。 工具
baichuan-7B 百川公司开发的大规模70亿参数预训练语言模型。 工具
Baichuan-13B 百川智能科技公司开发的130亿参数大型语言模型。 工具
Baichuan 2 百川智能科技公司开发的一系列大型语言模型。 工具
Bisheng Bisheng是一个面向下一代AI应用的开放LLM DevOps平台。 工具
Character-LLM 一种可训练的角色扮演智能体。 arXiv 工具
ChatDev 用于软件开发的沟通型智能体。 arXiv 工具
ChatGPT-API-unity 将ChatGPT聊天完成API绑定到Unity上的纯C#代码中。 Unity 工具
ChatGPTForUnity 面向Unity的ChatGPT。 Unity 工具
ChatRWKV ChatRWKV类似于ChatGPT,但由RWKV(100% RNN)语言模型驱动,并且是开源的。 工具
ChatYuan 中英双语对话用大型语言模型。 工具
Chinese-LLaMA-Alpaca-3 (中文Llama-3 LLMs)基于Meta Llama 3开发。 工具
Chrome-GPT 一个控制桌面Chrome浏览器的AutoGPT智能体。 工具
CogVLM CogVLM是一款强大的开源视觉语言基础模型。 arXiv 工具
CoreNet 一个用于训练深度神经网络的库。 工具
Cosmos Cosmos是一个世界模型开发平台,由世界基础模型、分词器和视频处理流水线组成,旨在加速机器人和自动驾驶实验室中物理AI的开发。 LLM
DBRX DBRX是由Databricks训练的大规模语言模型。 工具
DCLM 面向语言模型的数据压缩。 arXiv 工具
DeepSeek-R1 DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,无需监督微调(SFT)作为前期步骤,在推理方面表现出色。 LLM
DeepSeek-V3 DeepSeek-V3是一个强大的专家混合(MoE)语言模型,总参数量为6710亿,每次处理一个token时激活370亿参数。 arXiv LLM
DemoGPT 借助Llama 2的力量自动生成AI应用程序 工具
Design2Code 自动化前端工程 工具
Devika Devika是一个基于智能体的AI软件工程师。 工具
Devon 一个开源的结对编程工具。 工具
Dora 每次输入一个提示即可生成强大的网站。 工具
Flowise 使用LangchainJS拖放式UI构建自定义LLM流程。 工具
Gemini Gemini从一开始就专为多模态设计——能够无缝地在文本、图像、视频、音频和代码之间进行推理。 工具
Gemma Gemma是一系列轻量级、最先进的开源模型,基于用于创建Google Gemini模型的研究和技术打造。 工具
gemma.cpp 谷歌Gemma模型的轻量级独立C++推理引擎。 工具
GLM-4 GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本。 工具
GLM-4.5 GLM-4.5:Z.ai设计的一款面向智能体的开源大型语言模型。 LLM
GPT4All 一个基于大量干净助手数据(包括代码、故事和对话)训练的聊天机器人。 工具
GPT-4o GPT-4o(“o”代表“omni”)是迈向更加自然的人机交互的重要一步——它可以接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 工具
gpt-oss gpt-oss-120b和gpt-oss-20b是OpenAI的两款开放权重语言模型。 LLM
GPTScript 用自然语言开发LLM应用。 工具
Grok-1 我们的3140亿参数专家混合模型Grok-1的权重和架构。 工具
HuggingChat 让社区中最优秀的AI聊天模型惠及所有人。 工具
Hugging Face API Unity集成 此Unity包提供了Hugging Face推理API的易用集成,使开发者能够在他们的Unity项目中访问和使用Hugging Face AI模型。 Unity 工具
Hunyuan-MT Hunyuan-MT由一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera组成。翻译模型用于将源文本翻译成目标语言,而集成模型则整合多个翻译结果以产生更高质量的输出。 LLM
ImageBind ImageBind:一个嵌入空间,连接一切。 arXiv 工具
Index-1.9B 一款SOTA轻量级多语言LLM。 工具
InteractML-Unity InteractML,一个用于Unity3D的交互式机器学习可视化脚本框架。 Unity 工具
InteractML-Unreal Engine 将机器学习引入虚幻引擎。 Unreal Engine 工具
InternLM InternLM已开源一个70亿参数的基础模型、一个针对实际场景定制的聊天模型以及训练系统。 arXiv 工具
InternLM-XComposer InternLM-XComposer2是一款开创性的视觉-语言大型模型(VLLM),在自由形式的文本-图像创作和理解方面表现出众。 arXiv 工具
Jan 将AI带到你的桌面。 工具
Janus Janus:解耦视觉编码,实现统一的多模态理解和生成。 arXiv LLM
Kimi K2 Kimi K2是一款最先进的专家混合(MoE)语言模型,拥有320亿激活参数和1万亿总参数。 LLM
Lamini Lamini允许任何工程团队通过RLHF和基于自身数据的微调,超越通用LLM的表现。 工具
LaMini-LM LaMini-LM是一系列从小型、高效的语言模型中蒸馏而来,这些模型源自ChatGPT,并在包含258万条指令的大规模数据集上训练而成。 工具
LangChain LangChain是一个用于开发由语言模型驱动的应用程序的框架。 工具
LangFlow ⛓️ LangFlow是LangChain的UI,采用react-flow设计,提供了一种轻松的方式来试验和原型化流程。 工具
LaVague 使用大型行动模型框架自动化自动化。 工具
Lemur 面向语言智能体的开放基础模型。 工具
Lepton AI 一个简化AI服务构建的Python框架。 工具
Lit-LLaMA 基于nanoGPT实现的LLaMA语言模型。支持闪存注意力、Int8和GPTQ 4位量化、LoRA和LLaMA-Adapter微调以及预训练。 工具
llama2-webui 在GPU或CPU上,通过gradio UI在本地运行Llama 2,无论你身在何处(Linux/Windows/Mac)。 工具
Llama 3 Meta Llama 3的官方GitHub站点。 工具
Llama 3.1 Llama是一个易于使用的开放大型语言模型(LLM),专为开发者、研究人员和企业设计,帮助他们构建、实验并负责任地扩展其生成式AI想法。 工具
LLaSM 大型语言和语音模型。 工具
LLM Answer Engine 使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave和Serper构建一个受Perplexity启发的答案引擎。 工具
llm.c 使用简单原始的C/CUDA进行LLM训练。 工具
LLMUnity 用LLM在Unity中创建角色! Unity 工具
LLocalSearch LLocalSearch是一个完全在本地运行的搜索引擎,使用LLM智能体。 工具
LogicGamesSolver 一个Python工具,利用AI、深度学习和计算机视觉来解决逻辑游戏。 工具
LongCat-Flash LongCat-Flash是一款功能强大且高效的语言模型,总参数量达5600亿,采用了创新的专家混合(MoE)架构。该模型包含动态计算机制,可根据上下文需求激活186亿至313亿个参数(平均约270亿),从而优化计算效率和性能。 LLM
LongWriter LongWriter:释放来自长上下文LLM的1万字以上生成能力。 arXiv 工具
Large World Model (LWM) Large World Model(LWM)是一个通用的大上下文多模态自回归模型。 arXiv 工具
Lumina-T2X Lumina-T2X是一个用于文本到任意模态生成的统一框架。 arXiv 工具
MetaGPT 多智能体框架 工具
MiniCPM-2B 一款端侧LLM的表现优于Llama2-13B。 工具
MiniGPT-4 通过先进的大型语言模型增强视觉-语言理解能力。 arXiv 工具
MiniGPT-5 通过生成性词汇进行视觉与语言的交替生成。 arXiv 工具
MiniMax-01 MiniMax-01:利用闪电注意力扩展基础模型。 arXiv LLM
Mixtral 8x7B 一款高质量的稀疏专家混合模型。 arXiv 工具
Mistral 7B 目前最好的7B模型,采用Apache 2.0许可。 工具
Mistral Large Mistral Large是一款全新的尖端文本生成模型。它达到了顶级的推理能力。 工具
MLC LLM 使每个人都能在自己的设备上原生开发、优化和部署AI模型。 工具
MobiLlama 朝着准确、轻量且完全透明的GPT迈进。 arXiv 工具
MoE-LLaVA 用于大型视觉-语言模型的专家混合。 arXiv 工具
Moshi Moshi是一个实验性的会话式AI。 工具
Moshi Moshi:一个用于实时对话的语音-文本基础模型。 工具
MOSS 复旦大学推出的一款开源工具增强型会话式语言模型。 工具
mPLUG-Owl🦉 模块化赋予大型语言模型多模态能力。 arXiv 工具
Nemotron-4 一款拥有150亿参数的大规模多语言语言模型,基于8万亿个文本标记进行训练。 arXiv 工具
NExT-GPT 一种任意模态之间的大型语言模型。 工具
OLMo 开放语言模型 arXiv 工具
OmniLMM 大型多模态模型,旨在实现强劲性能和高效部署。 工具
OneLLM 一个框架,用于将所有模态与语言对齐。 arXiv 工具
Open-Assistant OpenAssistant是一个基于聊天的助手,能够理解任务、与第三方系统交互,并动态检索信息来完成任务。 工具
Open Deep Research 一个由AI驱动的科研助手,通过结合搜索引擎、网页抓取和大型语言模型,对任何主题进行迭代式的深入研究。 LLM
OpenDevin 一个自主AI软件工程师。 工具
Orion-14B Orion-14B是一系列模型的一部分,包括一个140亿参数的基础LLM,以及一系列其他模型。 arXiv 工具
Panda 海外华人开源大型语言模型,基于Llama-7B、-13B、-33B、-65B持续在中国领域进行预训练。 工具
Perplexica 一个由AI驱动的搜索引擎。 工具
Pi 一款专为个人协助和情感支持设计的AI聊天机器人。 工具
Qwen1.5 Qwen1.5是Qwen的改进版本。 工具
Qwen2 Qwen2是阿里云Qwen团队开发的大语言模型系列。 LLM
Qwen2.5-Coder Qwen2.5-Coder是阿里云Qwen团队开发的大语言模型系列Qwen2.5的代码版本。 arXiv LLM
Qwen-7B 阿里云提出的Qwen-7B(通义千问-7B)聊天及预训练大型语言模型的官方仓库。 LLM
Qwen3 Qwen3是阿里云Qwen团队开发的大语言模型系列。 arXiv LLM
RepoAgent RepoAgent是一个由大型语言模型(LLMs)驱动的开源项目,旨在提供一种智能化的项目文档记录方式。 arXiv 工具
s1 s1:简单的测试时缩放。 arXiv LLM
Sanity AI Engine 用于Unity游戏开发工具的Sanity AI引擎。 Unity 工具
SearchGPT 🌳 将ChatGPT与互联网连接起来 工具
Seed-OSS Seed-OSS是字节跳动Seed团队开发的一系列开源大型语言模型,专为强大的长上下文、推理、代理和通用能力,以及多功能的开发者友好特性而设计。 LLM
ShareGPT4V 通过更好的字幕改善大型多模态模型。 工具
SkyThought Sky-T1:只需450美元即可训练自己的O1预览模型。 LLM
Skywork Skywork系列模型已在3.2TB高质量的多语言(主要是中文和英文)以及代码数据上进行了预训练。 工具
StableLM 稳定性AI语言模型。 arXiv 工具
Stanford Alpaca 一款遵循指令的LLaMA模型。 LLM
Text generation web UI 一个用于运行LLaMA、llama.cpp、GPT-J、OPT和GALACTICA等大型语言模型的gradio Web UI。 工具
TinyChatEngine 设备端LLM推理库。 工具
ToolBench 一个用于训练、服务和评估大型语言模型以进行工具学习的开放平台。 工具
Unity ChatGPT Unity ChatGPT实验。 Unity 工具
Unity OpenAI-API集成 将OpenAI的GPT-3语言模型和ChatGPT API集成到Unity项目中。 Unity 工具
Unreal Engine 5 Llama LoRA 一个概念验证项目,展示了使用小型、可本地训练的LLM创建下一代文档工具的可能性。 Unreal Engine 工具
UnrealGPT 一组由GPT3/4驱动的Unreal Engine 5编辑器实用工具小部件。 Unreal Engine 工具
Video-LLaVA 通过投影前的对齐学习统一的视觉表征。 arXiv 工具
WebGPT 使用WebGPU在浏览器上运行GPT模型。 工具
Web3-GPT 用AI部署智能合约 工具
WordGPT 🤖 将ChatGPT的强大功能带入Microsoft Word 工具
XAgent 一个用于解决复杂任务的自主LLM智能体。 工具
Yi 一系列由开发者从零开始训练的大语言模型。 工具
01 Project 开源的语言模型计算机。 工具
SimpleOllamaUnity Ollama与Unity引擎的集成(可在运行时和编辑器中使用) Unity 工具
AI-Writer AI撰写小说、奇幻和言情网络文章等。中国预训练的生成式模型。 Writer
Notebook.ai Notebook.ai是一套工具,供作家、游戏设计师和角色扮演者创造宏伟的世界——以及其中的一切。 Writer
Novel 带有AI驱动自动补全功能的类Notion WYSIWYG编辑器。 Writer
NovelAI 在AI的驱动下,轻松构建独特的故事、惊险的传奇、诱人的浪漫,或者只是随意玩一玩。 Writer

^ 返回目录 ^

VLM(视觉)

来源 描述 论文 游戏引擎 类型
Cambrian-1 Cambrian-1:一个完全开源、以视觉为中心的多模态大模型探索。 arXiv 多模态大模型
CogVLM2 基于Llama3-8B的GPT4V级别开源多模态模型。 视觉
CoTracker 共同追踪更佳。 arXiv 视觉
dots.vlm1 dots.vlm1是dots模型家族中的首个视觉-语言模型。它基于一个拥有12亿参数的视觉编码器和DeepSeek V3大型语言模型(LLM),展现出强大的多模态理解和推理能力。 VLM
EVF-SAM EVF-SAM:用于文本提示分割一切模型的早期视觉-语言融合。 arXiv 视觉
FaceHi 共同追踪更佳。 视觉
GLM-V GLM-4.1V-Thinking和GLM-4.5V:通过可扩展的强化学习实现多功能多模态推理。 arXiv VLM
InternLM-XComposer2 InternLM-XComposer2是一款突破性的视觉-语言大型模型(VLLM),在自由格式的文本-图像组合与理解方面表现出色。 arXiv 视觉
Kangaroo Kangaroo:一款支持长上下文视频输入的强大视频-语言模型。 视觉
Kwai Keye-VL Kwai Keye-VL是由快手Kwai Keye团队精心打造的尖端多模态大型语言模型。 arXiv VLM
LGVI 通过多模态大型语言模型实现语言驱动的视频修复。 视觉
LLaVA++ 利用LLaMA-3和Phi-3扩展视觉能力。 视觉
LLaVA-OneVision LLaVA-OneVision:轻松实现视觉任务迁移。 arXiv 视觉
LongVA 从语言到视觉的长上下文迁移。 arXiv 视觉
Lumina-DiMOO Lumina-DiMOO:一款用于多模态生成与理解的全能扩散大型语言模型。 VLM
MaskViT 用于视频预测的掩码视觉预训练。 arXiv 视觉
MiniCPM-Llama3-V 2.5 手机上的GPT-4V级别多模态大模型。 视觉
MiniCPM-V 4.0 MiniCPM-V 4.0:一款可在手机上处理单张图片、多张图片及视频的GPT-4V级别多模态大模型。 视觉
MoE-LLaVA 针对大型视觉-语言模型的专家混合模型。 arXiv 视觉
MotionLLM 从人类动作和视频中理解人类行为。 arXiv 视觉
PLLaVA 无需参数的LLaVA扩展,可将图像应用于视频密集字幕生成。 arXiv 视觉
POINTS-Reader POINTS-Reader:用于文档转换的无蒸馏视觉-语言模型适配。 arXiv 视觉
Qwen-VL 一款多功能视觉-语言模型,可用于理解、定位、文本阅读等任务。 arXiv 视觉
Sapiens Sapiens:人类视觉模型的基础。 arXiv 视觉
ShareGPT4V 通过更好的字幕提升大型多模态模型性能。 arXiv 视觉
SOLO SOLO:一种用于可扩展视觉-语言建模的单一Transformer。 arXiv 视觉
VideoAgent VideoAgent:一种记忆增强型多模态代理,用于视频理解。 arXiv 代理
Video-CCAM Video-CCAM:利用因果交叉注意力掩码推进视频-语言理解。 视觉
Video-LLaVA 通过投影前的对齐学习统一的视觉表征。 arXiv 视觉
VideoLLaMA 2 在视频LLM中推进时空建模和音频理解。 arXiv 视觉
VideoLLaMA 3 VideoLLaMA 3:用于图像和视频理解的前沿多模态基础模型。 arXiv 视觉
Video-MME 首个全面评估多模态大模型在视频分析中表现的基准测试。 arXiv 视觉
Vitron 一款统一的像素级视觉LLM,可用于理解、生成、分割、编辑。 视觉
VILA VILA:关于视觉语言模型预训练的研究。 arXiv 视觉

^ 返回目录 ^

游戏(世界模型与智能体)

来源 描述 论文 游戏引擎 类型
AgentBench 一个全面的基准测试,用于评估作为代理的大型语言模型。 arXiv 代理
Agent Group Chat 一种交互式群聊模拟器,用于更好地激发集体涌现行为。 arXiv 代理
Agent K 一个自我进化且模块化的自动代理型AGI。 代理
Agent Laboratory 代理实验室:将LLM代理用作研究助理。 arXiv 代理
AgentScope 以更简便的方式开始构建由LLM赋能的多代理应用。 arXiv 代理
AgentSims 一个用于大型语言模型评估的开源沙盒。 代理
AI Town AI Town是一个虚拟小镇,AI角色在这里生活、聊天和社交。 代理
anime.gf CharacterAI的本地开源替代品。 游戏
Astrocade 使用AI创建游戏 游戏
Atomic Agents Atomic Agents框架设计为模块化、可扩展且易于使用。 代理
AutoAgents 一个用于自动生成代理的框架。 代理
AutoGen 启用下一代大型语言模型应用。 arXiv 代理
AWorld AWorld:用于自我改进的代理运行时。 代理
behaviac Behaviac是游戏AI开发的一个框架。 框架
Biomes Biomes是一款开源沙盒MMORPG,基于Web技术(如Next.js、TypeScript、React和WebAssembly)构建。 游戏
Buffer of Thoughts 基于大型语言模型的思维增强推理。 arXiv 代理
Byzer-Agent 一个简单、快速且分布式的代理框架,适合所有人。 代理
Cat Town 一款由ChatGPT驱动的猫咪模拟器。 代理
Cat Town 一款由ChatGPT驱动的猫咪模拟器。 代理
CharacterGLM 使用大型语言模型定制中文对话AI角色。 arXiv 代理
ChatDev 用于软件开发的沟通型代理。 arXiv 代理
CogAgent CogAgent是在CogVLM基础上改进的开源视觉语言模型。 arXiv 代理
ComoRAG ComoRAG:一种受认知启发、按记忆组织的RAG系统,用于有状态的长篇叙事推理。 arXiv 代理
Cradle 朝着通用计算机控制迈进。 代理
crewAI 一个用于编排角色扮演、自主AI代理的框架。 代理
Datarus Jupyter Agent Datarus Jupyter Agent是一个强大的多步推理系统,能够通过逐步推理、自动错误恢复和综合结果合成来执行复杂的分析工作流。 代理
Dify Dify是一个开源的LLM应用构建平台。 代理
Digital Life Project 具有社交智能的自主3D角色。 arXiv 代理
everything-ai 你的全功能、AI驱动且本地化的聊天机器人助手🤖。 代理
fabric fabric是一个开源框架,用于利用AI增强人类能力。 代理
FastGPT FastGPT是一个基于LLM构建的知识型平台。 代理
fastRAG 高效的检索增强与生成框架。 代理
GameAISDK 基于图像的游戏AI自动化框架。 框架
GameNGen 扩散模型就是实时游戏引擎。 arXiv 游戏
GameGen-O GameGen-O:开放世界视频游戏生成。 游戏
GenAgent GenAgent:通过自动化工作流生成构建协作式AI系统——以ComfyUI为例的案例研究。 arXiv 代理
Generative Agents 互动的人类行为模拟体。 arXiv 代理
Genesis Genesis:一个用于机器人及其他领域的生成式通用物理引擎。 游戏
Genie 生成式互动环境。 游戏
Genie 3 Genie 3:世界模型的新前沿。Genie 3是一个通用的世界模型,可以生成前所未有的多样化互动环境。 游戏
gigax 运行时、LLM驱动的NPC。 游戏
HippoRAG 受神经生物学启发的大型语言模型长期记忆。 arXiv 代理
Hunyuan-GameCraft Hunyuan-GameCraft:结合历史条件的高动态互动游戏视频生成。 arXiv 游戏
HunyuanWorld 1.0 HunyuanWorld 1.0:从文字或像素生成沉浸式、可探索且互动的3D世界。 arXiv 游戏
HunyuanWorld-Voyager HunyuanWorld-Voyager是一个新颖的视频扩散框架,它可以根据单张图片和用户定义的摄像机路径生成世界一致的3D点云序列。Voyager可以按照自定义的摄像机轨迹生成3D一致的场景视频,用于世界探索。 游戏
HY-World 1.5 HY-World 1.5:一个具有实时延迟和几何一致性的交互式世界建模系统性框架。 游戏
Interactive LLM Powered NPCs 交互式LLM驱动的NPC,是一个开源项目,彻底改变了你在任何游戏中与非玩家角色(NPC)的互动方式! 游戏
IoA 一个开源的协作式AI代理框架,使多样化的分布式代理能够通过类似互联网的连接协同合作,解决复杂任务。 代理
Jaaz Jaaz——全球首个开源多模态创意助手。AI设计代理,Lovart的本地替代品。Canva + Cursor。具备设计、编辑和生成图片、海报、分镜等能力的AI代理。 代理
KwaiAgents 一个基于大型语言模型(LLMs)的通用信息搜索代理系统。 arXiv 代理
LangChain 将你的LLM应用从原型推向生产。 代理
Langflow Langflow是LangChain的UI,采用react-flow设计,提供了一种轻松的方式来试验和构建流程原型。 代理
LangGraph Studio LangGraph Studio提供了一种新的方式来开发LLM应用,通过提供一个专门的代理IDE,实现对复杂代理应用的可视化、交互和调试。 代理
LARP 语言-代理角色扮演,适用于开放世界游戏。 arXiv 代理
LLama Agentic System Llama Stack API中的代理组件。 代理
LlamaIndex LlamaIndex是你的LLM应用的数据框架。 代理
Matrix-Game Matrix-Game:互动世界基础模型。Matrix-Game是一个17B参数的互动世界基础模型,用于可控的游戏世界生成。 游戏
Matrix-Game 2.0 Matrix-Game 2.0:一个开源、实时且流式的互动世界模型。 游戏
MindSearch 🔍 一个基于LLM的多代理网络搜索引擎框架(类似于Perplexity.ai Pro和SearchGPT)。 代理
Mixture of Agents (MoA) 多代理混合增强了大型语言模型的能力。 arXiv 代理
MMRole MMRole:一个全面的框架,用于开发和评估多模态角色扮演代理。 arXiv 代理
Moonlander.ai 使用生成式AI无需任何编码即可开始构建3D游戏。 框架
MuG Diffusion MuG Diffusion是一款基于Stable Diffusion(最强大的AIGC模型之一)的节奏游戏绘图AI,并进行了大量修改以融入音频波形。 游戏
NVIDIA NeMo Agent Toolkit NVIDIA NeMo Agent工具包是一个灵活、轻量且统一的库,允许你轻松地将现有的企业代理连接到任何框架下的数据源和工具。 代理
Oasis Oasis是由Decart和Etched开发的互动世界模型。基于扩散变换器,Oasis接收用户键盘输入并以自回归方式生成游戏内容。 游戏
OmAgent 一个用于解决复杂任务的多模态代理框架。 代理
OpenAgents 一个面向野外语言代理的开放平台。 代理
Opus 一个将文本转化为视频游戏的AI应用。 游戏
Pipecat 开源的语音和多模态对话AI框架。 代理
Qwen-Agent Qwen-Agent是一个基于Qwen的指令遵循、工具使用、规划和记忆能力来开发LLM应用的框架。 代理
Ragas Ragas是一个帮助你评估检索增强生成(RAG)管道的框架。 代理
RPBench-Auto 一个用于评估大型语言模型角色扮演能力的自动化管道。 游戏
Rosebud AI 一个利用AI创建3D游戏和交互式Web应用的氛围编码平台。 游戏
SIMA 一个用于3D虚拟环境的通才AI代理。 代理
StoryGames.ai 为梦想家打造游戏的AI。 游戏
SWE-agent 代理计算机接口使软件工程语言模型成为可能。 arXiv 代理
TaskGen 一个基于任务的代理框架,建立在LLM代理严格的JSON输出之上。 代理
TEN Agent TEN Agent是世界上第一个集成OpenAI Realtime API、RTC,并具备天气查询、网页搜索、视觉和RAG功能的实时多模态代理。 代理
Translation Agent 使用反射式工作流进行代理式翻译。 代理
Twitter Twitter Personality是一款网络应用程序,它通过Wordware AI代理分析你的Twitter账号,为你创建个性化的性格档案。 代理
Unbounded Unbounded:一场角色生命模拟的生成式无限游戏。 arXiv 游戏
Video2Game 从单个视频中生成实时、互动、逼真且兼容浏览器的环境。 arXiv 游戏
V-IRL 将虚拟智能扎根于现实生活中。 arXiv 代理
WebDesignAgent 一个用于网页设计的代理。 代理
XAgent 一个用于解决复杂任务的自主LLM代理。 代理

^ 返回目录 ^

代码

来源 描述 论文 游戏引擎 类型
AI代码翻译器 使用AI将代码从一种语言翻译成另一种语言。 代码
aiXcoder-7B aiXcoder-7B代码大型语言模型。 代码
bloop bloop是一个用Rust编写的快速代码搜索引擎。 代码
Chapyter Jupyter Notebook中的ChatGPT代码解释器。 代码
CodeGeeX 一个开源的多语言代码生成模型。 arXiv 代码
CodeGeeX2 一个更强大的多语言代码生成模型。 代码
CodeGeeX4 CodeGeeX4:开源的多语言代码生成模型。 代码
CodeGen CodeGen是一个用于程序合成的开源模型。在TPU-v4上训练。与OpenAI Codex具有竞争力。 arXiv 代码
CodeGen2 用于程序合成的CodeGen2模型。 arXiv 代码
Code Llama Code Llama是基于Llama 2的代码大型语言模型。 代码
CodeTF 用于最先进代码LLM的一站式Transformer库。 代码
CodeT5 开源的代码LLM,用于代码理解和生成。 代码
代码世界模型(CWM) 代码世界模型(CWM)是一个拥有320亿参数的开放权重LLM,旨在推进使用世界模型进行代码生成的研究。 代码
Cursor 在新型编辑器中使用GPT-4编写、编辑和讨论你的代码。 代码
DeepSeek Coder DeepSeek Coder:让代码自动编写。 arXiv 代码
OpenAI Codex OpenAI Codex是GPT-3的后继者。 代码
PandasAI Pandas AI是一个Python库,它将生成式人工智能功能集成到Pandas中,使数据框具备对话能力。 代码
RobloxScripterAI RobloxScripterAI是用于Roblox的AI驱动代码生成工具。 Roblox 代码
Scikit-LLM 将像ChatGPT这样强大的语言模型无缝集成到scikit-learn中,以增强文本分析任务。 代码
SoTaNa 开源的软件开发助手。 arXiv 代码
Stable Code 3B 编码的前沿。 代码
StarCoder 💫 StarCoder是一个在源代码和自然语言文本上训练的语言模型(LM)。 arXiv 代码
StarCoder 2 StarCoder2是一系列代码生成模型(3B、7B和15B),它们在The Stack v2中的600多种编程语言以及一些自然语言文本(如维基百科、Arxiv和GitHub问题)上进行了训练。 arXiv 代码
UnityGen AI UnityGen AI是用于Unity的AI驱动代码生成插件。 Unity 代码
Void Void是开源的Cursor替代品。使用最佳的AI工具编写代码,完全掌控你的数据,并访问强大的AI功能。 代码

^ 返回目录 ^

图片

来源 描述 论文 游戏引擎 类型
AnyDoor 零样本对象级图像定制。 arXiv 图像
AnyText 多语言视觉文本生成与编辑。 arXiv 图像
AutoStudio 在多轮交互式图像生成中构建一致的主题。 arXiv 图像
BAGEL BAGEL - 多模态理解和生成的统一模型。BAGEL是一个开源的多模态基础模型,具有70亿活跃参数(总140亿),在大规模交错的多模态数据上训练而成。 arXiv 图像
Blender-ControlNet 直接在Blender中使用ControlNet。 Blender 图像
BriVL 桥接视觉与语言模型。 arXiv 图像
CatVTON CatVTON:对于基于扩散模型的虚拟试穿,只需拼接即可。 arXiv 图像
CLIPasso 一种将物体图像转换为草图的方法,允许不同程度的抽象化。 arXiv 图像
ClipDrop 几秒钟内创建惊艳的视觉效果。 图像
ComfyUI 一个功能强大且模块化的稳定扩散GUI,采用图/节点界面。 图像
ConceptLab 使用扩散先验约束进行创意生成。 arXiv 图像
ControlNet ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。 arXiv 图像
CSGO CSGO:文本到图像生成中的内容-风格组合。 arXiv 图像
DALL·E 2 DALL·E 2是一个能够根据自然语言描述生成逼真图像和艺术作品的AI系统。 图像
Dashtoon Studio Dashtoon Studio是一个由AI驱动的漫画创作平台。 漫画
DeepAI DeepAI提供了一系列利用AI提升创造力的工具。 图像
DeepFloyd IF IF由StabilityAI旗下的DeepFloyd实验室开发。 图像
Depth Anything V2 Depth Anything V2 arXiv 图像
深度图库和姿势器 用于Automatic1111/stable-diffusion-webui的Control Net扩展的深度图库。 图像
Diffuse to Choose 丰富潜在扩散模型中的图像条件修复,用于虚拟试穿。 arXiv 图像
Disco Diffusion 一个由笔记本、模型和技术拼凑而成的“弗兰肯斯坦”式集合体,用于生成AI艺术和动画。 图像
DragGAN 基于点的交互式操作,应用于生成式图像流形。 arXiv 图像
Draw Things 你口袋里的AI辅助图像生成。 图像
DWPose 两阶段蒸馏实现高效全身姿态估计。 arXiv 图像
EasyPhoto 你的智能AI照片生成器。 图像
Flux 该仓库包含运行我们Flux潜在校正流变换器进行文本到图像和图像到图像生成所需的最小推理代码。 图像
Follow-Your-Click 通过简短提示实现开放域区域图像动画。 arXiv 图像
Fooocus 专注于提示词和生成。 图像
GIFfusion 使用稳定扩散创建GIF和视频。 图像
Grounded-Segment-Anything 自动检测、分割并根据图像、文本和音频输入生成任何内容。 arXiv 图像
HivisionIDPhotos HivisionIDPhotos:一款轻量且高效的AI身份证照片工具。 图像
Hua Hua是一款带有稳定扩散(以及更多)的AI图像编辑器。 图像
Hunyuan-DiT 一款强大的多分辨率扩散Transformer,具备精细的中文理解能力。 arXiv 图像
HunyuanImage-2.1 HunyuanImage-2.1:一款高效的高分辨率(2K)文本到图像生成扩散模型​。 图像
HunyuanImage-3.0 HunyuanImage-3.0:一款强大的原生多模态图像生成模型​。 图像
IC-Light IC-Light是一个用于操纵图像光照的项目。 图像
Ideogram 帮助人们变得更有创造力。 图像
Imagen Imagen是一个能够根据输入文本创建逼真图像的AI系统。 图像
img2img-turbo 使用SD-Turbo进行一步图像到图像转换。 图像
Img2Prompt 从稳定扩散生成的图像中获取提示词。 图像
Infinity Infinity:用于高分辨率图像合成的按位自回归建模扩展。 arXiv 图像
InstantID 零样本身份保留生成,几秒钟内完成。 arXiv 图像
InternLM-XComposer2 InternLM-XComposer2是一款突破性的视觉-语言大型模型(VLLM),在自由格式的文本-图像组合及理解方面表现出色。 arXiv 图像
IRG IRG - 交错推理以改善文本到图像生成。 arXiv 图像
KOALA 自注意力在潜在扩散模型的知识蒸馏中至关重要,有助于实现内存高效且快速的图像合成。 图像
Kolors Kolors:用于逼真文本到图像合成的扩散模型有效训练。 图像
Komiko Komiko是一个由AI驱动的故事讲述平台,可让您轻松创建原创角色、漫画和动画。 漫画
KREA 使用令人愉悦的AI驱动设计工具生成图像和视频。 图像
LaVi-Bridge 为文本到图像生成桥接不同语言模型和生成式视觉模型。 arXiv 图像
LayerDiffusion 利用潜在透明度进行透明图像层扩散。 arXiv 图像
Lexica 一个稳定扩散提示词搜索引擎。 图像
LlamaGen 自回归模型胜过扩散模型:Llama用于可扩展的图像生成。 arXiv 图像
Lumina-Image 2.0 Lumina-Image 2.0:一个统一且高效的图像生成模型。 图像
Lumina-mGPT Lumina-mGPT:通过多模态生成式预训练,照亮灵活的逼真文本到图像生成。 arXiv 图像
MakeAnything MakeAnything:利用扩散Transformer进行多领域程序性序列生成。 arXiv 图像
MetaShoot MetaShoot是摄影棚的数字孪生,作为Unreal Engine的插件开发,使任何创作者都能以最简单快捷的方式制作出高度逼真的渲染图。 Unreal Engine 图像
Midjourney Midjourney是一个独立的研究实验室,探索新的思维媒介,并拓展人类的想象力。 图像
MIGC MIGC:用于文本到图像合成的多实例生成控制器。 arXiv 图像
MimicBrush 零样本参考模仿图像编辑。 arXiv 图像
NextStep-1 NextStep-1:迈向大规模连续标记的自回归图像生成。 arXiv 图像
OmniGen OmniGen:统一图像生成。 arXiv 图像
OmniGen2 OmniGen2:探索高级多模态生成。 arXiv 图像
Oniichan AI精灵生成器和游戏角色创作者。使用自定义微调模型,根据文本提示生成游戏就绪的角色精灵和原创角色,支持编辑、修复和可重用的角色库。 漫画
Omost Omost是一个将LLM的编码能力转化为图像生成(或更准确地说,图像构图)能力的项目。 图像
Openpose Editor AUTOMATIC1111的稳定扩散WebUI的Openpose编辑器。 图像
Outfit Anyone 超高质量的任意服装和任意人物的虚拟试穿。 图像
PaintsUndo PaintsUndo:数字绘画中绘画行为的基础模型。 图像
PhotoMaker 通过堆叠ID嵌入来自定义逼真人像照片。 arXiv 图像
Photoroom AI背景生成器。 图像
Plask 云端AI图像生成。 图像
PosterCraft PosterCraft:在一个统一框架中重新思考高质量美学海报生成。 arXiv 图像
Prompt.Art 生成器中心。 图像
PromptEnhancer PromptEnhancer:通过思维链提示重写来增强文本到图像模型的简单方法。 arXiv 图像
PuLID 纯粹而闪电般的ID定制,通过对比对齐实现。 arXiv 图像
Qwen-Image Qwen-Image是一个强大的图像生成基础模型,能够进行复杂的文本渲染和精确的图像编辑。 arXiv 图像
Qwen-Image-Edit 基于我们200亿参数的Qwen-Image模型,Qwen-Image-Edit成功地将Qwen-Image独特的文本渲染能力扩展到图像编辑任务,实现了精确的文本编辑。 arXiv 图像
Rich-Text-to-Image 使用富文本进行富有表现力的文本到图像生成。 arXiv 图像
RPG-DiffusionMaster 掌握文本到图像扩散:使用多模态LLM(PRG)进行重新标题、规划和生成。 图像
SEED-Story SEED-Story:使用大型语言模型进行多模态长篇故事生成。 arXiv 图像
Segment Anything Segment Anything Model (SAM):Meta AI推出的一款新型AI模型,只需单击一下,就能在任何图像中“剪切”出任何物体。 arXiv 图像
Segment Anything Model 2 (SAM 2) SAM 2:在图像和视频中分割任何内容。 arXiv 图像
sd-webui-controlnet ControlNet的WebUI扩展。 图像
SDXL-Lightning 渐进式对抗性扩散蒸馏。 arXiv 图像
SDXS 实时一步式潜在扩散模型,带图像条件。 图像
SkyworkUniPic SkyworkUniPic - 统一的自回归建模,用于视觉理解和生成。 图像
Stable.art 以Automatic1111为后端(本地或通过Google Colab)的Stable Diffusion Photoshop插件。 图像
Stable Cascade Stable Cascade由三个模型组成:A阶段、B阶段和C阶段,代表一个用于生成图像的级联过程,因此得名“Stable Cascade”。 图像
Stable Diffusion 一种潜在的文本到图像扩散模型。 图像
stable-diffusion.cpp 纯C/C++实现的稳定扩散。 图像
Stable Diffusion web UI 基于Gradio库的稳定扩散浏览器界面。 图像
Stable Diffusion web UI 基于网页的稳定扩散用户界面。 图像
Stable Diffusion WebUI Chinese 稳定扩散WebUI的中文版本。 图像
Stable Diffusion XL 根据文本生成图像。 arXiv 图像
Stable Diffusion XL Turbo 实时文本到图像生成。 图像
Stable Diffusion 3.5 Stable Diffusion 3.5公开发布包括多个模型变体,其中包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。 图像
Stable Doodle Stable Doodle是一款草图转图像工具,可将简单的绘图转换为动态图像。 图像
StableStudio Stability AI推出的StableStudio 图像
StoryMaker StoryMaker:迈向文本到图像生成中整体一致的角色。 arXiv 图像
StreamDiffusion 一种面向实时交互式生成的流水线级解决方案。 图像
StyleDrop 以任何风格进行文本到图像生成。 arXiv 图像
SyncDreamer 从单视图图像生成多视角一致的图像。 arXiv 图像
UltraEdit UltraEdit:基于指令的大规模细粒度图像编辑。 arXiv 图像
UltraPixel UltraPixel:将超高分辨率图像合成推进至新高峰。 arXiv 图像
Unity ML Stable Diffusion Unity上的Core ML稳定扩散。 Unity 图像
USO USO:通过解耦和奖励学习实现统一的风格和主题驱动生成。 arXiv 图像
Vispunk Visions 文本到图像生成平台。 图像

^ 返回目录 ^

纹理

来源 描述 论文 游戏引擎 类型
CRM 基于卷积重建模型,将单张图像转换为3D纹理网格。 arXiv 纹理
DreamMat 基于几何和光照感知的扩散模型,生成高质量的PBR材质。 arXiv 纹理
DreamSpace 通过文本驱动的全景纹理传播,实现房间空间的梦境化渲染。 纹理
Dream Textures 内置于Blender的Stable Diffusion工具,只需简单的文本提示即可创建纹理、概念艺术、背景素材等。 Blender 纹理
InstructHumans 使用指令编辑动画3D人体纹理。 arXiv 纹理
InteX 通过统一的深度感知修复技术实现交互式文本到纹理的合成。 arXiv 纹理
LLaMA-Mesh LLaMA-Mesh:将3D网格生成与语言模型相结合。 arXiv 网格
MaterialSeg3D MaterialSeg3D:从2D先验中分割出密集的3D资产材质。 arXiv 纹理
MeshAnything MaterialSeg3D:从2D先验中分割出密集的3D资产材质。 arXiv 网格
Neuralangelo 高保真神经表面重建。 arXiv 纹理
Paint-it 通过深度卷积纹理贴图优化和物理渲染实现文本到纹理的合成。 纹理
Polycam 只需输入文字即可创建自己的3D纹理。 纹理
TexFusion 利用文本引导的图像扩散模型合成3D纹理。 arXiv 纹理
Text2Tex 基于扩散模型的文本驱动纹理合成。 arXiv 纹理
Texture Lab AI生成的纹理。你可以通过文本提示生成属于自己的纹理。 纹理
With Poly 使用Poly创建纹理。在免费在线编辑器中利用AI生成3D材质,或浏览我们不断增长的社区资源库。 纹理
X-Mesh X-Mesh:通过动态文本指导,实现快速且准确的文本驱动3D风格化。 arXiv 纹理

^ 返回目录 ^

着色器

来源 描述 论文 游戏引擎 类型
AI Shader 基于 ChatGPT 的 Unity 着色器生成器。 Unity 着色器

^ 返回目录 ^

3D 模型

来源 描述 论文 游戏引擎 类型
Animate3D Animate3D:利用多视角视频扩散模型为任意3D模型添加动画。 arXiv 3D
Anything-3D Segment-Anything + 3D。让我们将任何内容升级到3D。 arXiv 模型
Any2Point Any2Point:赋能多模态大型模型,实现高效的3D理解。 arXiv 3D
BlenderGPT 使用英文指令通过OpenAI的GPT-4控制Blender。 Blender 模型
Blender-GPT 由GPT3/4和Whisper集成驱动的一体化Blender助手。 Blender 模型
BlenderMCP BlenderMCP通过模型上下文协议(MCP)将Blender与Claude AI连接起来,使Claude能够直接与Blender交互并控制它。这种集成支持基于提示的3D建模、场景创建和操作。 Blender 模型
Blockade Labs 数字炼金术已成为现实——Skybox Lab是终极的AI驱动解决方案,可根据文本提示生成令人惊叹的360°天空盒体验。 模型
CF-3DGS 无需COLMAP的3D高斯泼溅。 arXiv 3D
CharacterGen CharacterGen:通过多视角姿态归一化,从单张图像高效生成3D角色。 arXiv 3D
chatGPT-maya 一个简单的Maya工具,利用OpenAI根据描述性指令执行基本任务。 Maya 模型
CityDreamer 无界3D城市的组合式生成模型。 arXiv 3D
CSM 根据图片和视频生成3D世界。 3D
Dash 你在虚幻引擎中构建世界的副驾驶。 虚幻引擎 3D
Direct3D-S2 Direct3D-S2:借助空间稀疏注意力,轻松实现千兆规模的3D生成。 arXiv 3D
DreamCatalyst DreamCatalyst:通过控制可编辑性和身份保留,实现快速高质量的3D编辑。 arXiv 3D
DreamGaussian4D 生成式4D高斯泼溅。 arXiv 4D
DUSt3R 几何3D视觉变得简单易行。 arXiv 3D
Edify 3D Edify 3D:可扩展的高质量3D资产生成。 arXiv 3D
GALA3D GALA3D:通过布局引导的生成式高斯泼溅,迈向文本到复杂3D场景的生成。 arXiv 3D
GaussCtrl GaussCtrl:多视角一致的文本驱动3D高斯泼溅编辑。 arXiv 3D
GaussianCube 一种用于3D生成建模的结构化显式辐射表示。 arXiv 3D
GaussianDreamer 借助点云先验,从文本快速生成3D高斯泼溅。 arXiv 3D
GenieLabs 用AI生成的内容为你的游戏赋能。 3D
HiFA 高保真文本到3D,配备先进的扩散指导。 模型
HoloDreamer HoloDreamer:根据文本描述生成整体3D全景世界。 arXiv 3D
Hunyuan3D-1.0 Hunyuan3D-1.0:统一的文本到3D和图像到3D生成框架。 arXiv 3D
Hunyuan3D 2.0 Hunyuan3D 2.0:扩展扩散模型以生成高分辨率带纹理的3D资产。 arXiv 3D
Hunyuan3D 2.1 Hunyuan3D 2.1:从图像生成高保真3D资产,采用可直接用于生产的PBR材质。 arXiv 3D
Infinigen 使用程序化生成无限逼真的世界。 arXiv 3D
Instruct-NeRF2NeRF 通过指令编辑3D场景。 arXiv 模型
Interactive3D 通过交互式3D生成创造你想要的内容。 arXiv 3D
Isotropic3D 基于单个CLIP嵌入的图像到3D生成。 3D
LATTE3D 大规模摊销式文本到增强3D合成。 arXiv 3D
LION 用于3D形状生成的潜在点扩散模型。 arXiv 模型
Luma AI 以栩栩如生的3D捕捉。无与伦比的写实感、反射和细节。VFX的未来现在属于每个人! 模型
lumine AI AI驱动的创造力。 3D
Make-It-3D 借助扩散先验,从单张图像高质量地创建3D作品。 arXiv 模型
Meshy 用AI创建惊艳的3D游戏资产。 3D
Mootion 神奇的3D AI动画制作工具。 3D
MVDream 多视角扩散用于3D生成。 arXiv 3D
NVIDIA Instant NeRF 即时神经图形原语:闪电般的NeRF速度及其他功能。 模型
One-2-3-45 在不进行逐形状优化的情况下,45秒内即可将任意单张图像转换为3D网格。 arXiv 模型
Paint3D 使用无光照纹理扩散模型绘制任何3D对象。 arXiv 3D
PAniC-3D 基于动漫角色肖像的风格化单视图3D重建。 arXiv 模型
PhysRig PhysRig:用于真实关节物体建模的可微分物理驱动绑定。 arXiv 模型
Point·E 点云扩散用于3D模型合成。 模型
ProlificDreamer 通过变分分数蒸馏实现高保真且多样化的文本到3D生成。 arXiv 模型
Seele AI 输入文本即可生成可玩的3D游戏。 3D
SF3D SF3D:稳定快速的3D网格重建,具备UV展开和光照解耦功能。 arXiv 3D
Shap-E 根据文本或图像条件生成3D对象。 arXiv 模型
Sloyd 3D建模从未如此简单。 模型
Spline AI AI的力量正在进入第三维度。使用提示生成对象、动画和纹理。 模型
Stable Dreamfusion 由Stable Diffusion文本到2D模型驱动的text-to-3D模型Dreamfusion的PyTorch实现。 模型
Step1X-3D Step1X-3D:迈向高质量且可控的带纹理3D资产生成。 arXiv 3D
SV3D 利用潜在视频扩散技术,从单张图像实现新颖的多视角合成和3D生成。 arXiv 3D
Tafi AI文本到3D角色引擎。 模型
3D-GPT 使用大型语言模型进行程序化3D建模。 arXiv 3D
3D-LLM 将3D世界注入大型语言模型中。 arXiv 3D
3Dpresso 从视频中捕获的对象提取3D模型。 模型
3DTopia 文本到3D生成,仅需5分钟。 arXiv 3D
3DTopia-XL 3DTopia-XL:通过原始扩散技术扩大高质量3D资产生成规模。 arXiv 3D
threestudio 一个用于3D内容生成的统一框架。 模型
TripoSR 一款最先进的开源模型,可从单张图像快速进行前馈式3D重建。 arXiv 模型
Unique3D 从单张图像高效生成高质量3D网格。 arXiv 3D
UnityGaussianSplatting 在Unity中展示玩具级的高斯泼溅可视化效果。 Unity 3D
ViVid-1-to-3 利用视频扩散模型进行新颖的视图合成。 arXiv 3D
Voxcraft 用AI打造即用型3D模型。 3D
Wonder3D 使用跨域扩散技术将单张图像转换为3D。 arXiv 3D
Zero-1-to-3 零样本单张图像到3D对象。 arXiv 模型

^ 返回目录 ^

头像

来源 描述 论文 游戏引擎 类型
AniPortrait 基于音频驱动的真实感人像动画合成。 arXiv Avatar
CALM 可控虚拟角色的条件对抗潜空间模型。 arXiv Avatar
ChatAvatar 文本引导下的可动画3D人脸渐进式生成。 Avatar
ChatdollKit ChatdollKit让你可以将你的3D模型变成聊天机器人。 Unity Avatar
Ditto Ditto:用于可控实时说话头合成的运动空间扩散模型。 arXiv Avatar
DreamTalk 富有表现力的说话头生成与扩散概率模型的结合。 arXiv Avatar
Duix Duix - 基于硅基的数字人SDK 🌐🤖 Avatar
EchoMimic EchoMimic:通过可编辑的特征点条件实现逼真的音频驱动人像动画。 arXiv Avatar
EMOPortraits 情感增强的多模态单次拍摄头部Avatar。 Avatar
EmoVOCA EmoVOCA:语音驱动的情感化3D说话头。 arXiv Avatar
E3 Gen 高效、富有表现力且可编辑的Avatar生成。 arXiv Avatar
ExAvatar ExAvatar - 富有表现力的全身3D高斯Avatar。 arXiv Avatar
GeneAvatar 基于单张图像的通用表情感知体积头部Avatar编辑。 arXiv Avatar
GeneFace++ 广泛适用且稳定的实时3D说话脸生成。 Avatar
Hallo 用于人像图像动画的分层音频驱动视觉合成。 arXiv Avatar
Hallo2 Hallo2:长时长、高分辨率的音频驱动人像图像动画。 arXiv Avatar
HeadSculpt 使用文本制作3D头部Avatar。 arXiv Avatar
HunyuanPortrait HunyuanPortrait:用于增强人像动画的隐式条件控制。 arXiv Avatar
HunyuanVideo-Avatar HunyuanVideo-Avatar:面向多角色的高保真音频驱动人体动画。 arXiv Avatar
IntrinsicAvatar IntrinsicAvatar:基于物理的逆向渲染,通过显式光线追踪从单目视频中重建动态人类。 arXiv Avatar
Linly-Talker 数字Avatar对话系统。 Avatar
LivePortrait LivePortrait:具有拼接和重定向控制的高效人像动画。 arXiv Avatar
MotionGPT 将人体运动视为一门外语,利用LLM构建统一的运动-语言生成模型。 arXiv Avatar
MusePose MusePose:一种基于姿态驱动的图生视频框架,用于虚拟人类生成。 Avatar
MuseTalk 利用潜在空间修复技术实现高质量的实时唇形同步。 Avatar
MuseV 基于视觉条件并行去噪技术,实现无限长度、高保真的虚拟人类视频生成。 Avatar
Portrait4D 使用合成数据学习单次拍摄的4D头部Avatar合成。 arXiv Avatar
Ready Player Me 在几天内将可定制的Avatar集成到你的游戏或应用中。 Avatar
RodinHD RodinHD:使用扩散模型生成高保真3DAvatar。 arXiv Avatar
StableAvatar StableAvatar:无限长度的音频驱动Avatar视频生成。 arXiv Avatar
StyleAvatar3D 利用图文扩散模型生成高保真3DAvatar。 arXiv Avatar
Text2Control3D 使用几何引导的图文扩散模型,在神经辐射场中实现可控的3DAvatar生成。 arXiv Avatar
Topo4D 保持拓扑结构的高斯泼溅技术,用于高保真4D头部捕捉。 arXiv Avatar
UnityAIWithChatGPT 基于Unity,实现了ChatGPT+UnityChan的语音交互展示。 Unity Avatar
Vid2Avatar 通过自监督场景分解,从野外视频中重建3DAvatar。 arXiv Avatar
VLOGGER 多模态扩散模型用于具身Avatar合成。 Avatar
Wild2Avatar 渲染被遮挡的人体。 arXiv Avatar

^ 返回目录 ^

动画

来源 描述 论文 游戏引擎 类型
Animate Anyone 用于角色动画的一致且可控的图像到视频合成。 arXiv 动画
AnimateAnything 基于运动引导的细粒度开放域图像动画。 arXiv 动画
AnimateDiff 无需特定微调即可动画化您的个性化文本到图像扩散模型。 arXiv 动画
AnimateLCM 让我们在4步内加速视频生成! arXiv 动画
Animate-X Animate-X:具有增强运动表示的通用角色图像动画。 arXiv 动画
AnimateZero 视频扩散模型是零样本图像动画器。 arXiv 动画
AnimationGPT 用于生成游戏战斗动作资源的AIGC工具。 动画
Deforum Deforum 利用 Stable Diffusion 生成不断演变的 AI 视觉效果。 动画
DrawingSpinUp DrawingSpinUp:从单个角色绘画中生成3D动画。 arXiv 动画
DreaMoving 基于扩散模型的人类视频生成框架。 arXiv 动画
FaceFusion 新一代人脸替换与增强工具。 动画
FreeInit 弥补视频扩散模型中的初始化差距。 arXiv 动画
GeneFace 广义且高保真度的音频驱动3D说话人脸合成。 arXiv 动画
ID-Animator 零样本身份保留的人类视频生成。 arXiv 动画
HY-Motion 1.0 HY-Motion 1.0:用于文本到运动生成的缩放流匹配模型。 arXiv 动画
Index-AniSora Index-AniSora 是功能最强大的开源动画视频生成模型。它支持一键创建涵盖多种动漫风格的视频片段,包括系列剧集、国产原创动画、漫画改编作品、VTuber 内容、动漫 PV、鬼畜动画等! arXiv 动画
MagicAnimate 使用扩散模型进行时间一致的人像动画。 arXiv 动画
NUWA DragNUWA 是一款开放域的基于扩散的视频生成模型,以文本、图像和轨迹控制作为输入,实现可控的视频生成。 arXiv 动画
NUWA-Infinity NUWA-Infinity 是一款多模态生成模型,旨在根据给定的文本、图像或视频输入生成高质量的图像和视频。 动画
NUWA-XL 一种用于生成超长视频的新型“扩散之上扩散”架构。 动画
Omni Animation AI 生成的高保真动画。 动画
PIA 通过文本到图像模型中的即插即用模块,打造您的个性化图像动画师。 arXiv 动画
SadTalker 学习逼真的3D运动系数,用于风格化的音频驱动单张图片说话人脸动画。 arXiv 动画
SadTalker-Video-Lip-Sync 该项目基于 SadTalkers Wav2lip 进行视频口型同步。 动画
Stable Animation 一款功能强大的面向开发者的文本到动画工具。 动画
ToonComposer ToonComposer:通过生成式后期关键帧技术简化卡通制作流程。 arXiv 动画
TaleCrafter 一款支持多角色的互动故事可视化工具。 arXiv 动画
ToonCrafter ToonCrafter:生成式卡通插值。 arXiv 动画
Wav2Lip 准确地为真实场景中的视频进行口型同步。 arXiv 动画
Wonder Studio 一款AI工具,可自动将CG角色动画化、打光并合成到真人场景中。 动画

^ 返回目录 ^

视频

来源 描述 论文 游戏引擎 类型
360DVD 基于360度视频扩散模型的可控全景视频生成。 arXiv 视频
Animate-A-Story 基于检索增强的叙事视频生成。 arXiv 视频
Anything in Any Scene 照片级真实感视频对象插入。 视频
ART•V 基于扩散模型的自回归文本到视频生成。 arXiv 视频
Assistive 遇见能将你的创意变为现实的生成式视频平台。 视频
AtomoVideo 高保真图像到视频生成。 arXiv 视频
BackgroundRemover Background Remover 允许你使用 AI 通过一个简单且免费开源的命令行界面移除图片和视频中的背景。 视频
Boximator 为视频合成生成丰富且可控的运动。 arXiv 视频
CoDeF 用于时序一致视频处理的内容变形场。 arXiv 视频
CogVideo 根据文本描述生成视频。 视频
CogVideoX CogVideoX 是视频生成模型的开源版本,与清影同源。 视频
CogVLM CogVLM 是一款强大的开源视觉语言模型 (VLM)。 视觉
CoNR 从手绘动漫角色原画 (ACS) 生成生动的舞蹈视频。 arXiv 视频
Decohere 创造无法拍摄的内容。 视频
Descript Descript 是一种简单、强大且有趣的编辑方式。 视频
Diffutoon 基于扩散模型的高分辨率可编辑卡通渲染。 arXiv 视频
dolphin 基于 LLM 的通用视频交互平台。 视频
DomoAI 用 DomoAI 提升你的创造力。 视频
DreamCinema DreamCinema:自由摄像机与 3D 角色的电影化迁移。 arXiv 视频
DynamiCrafter 使用视频扩散先验对开放域图像进行动画化。 arXiv 视频
EDGE 我们介绍了 EDGE,这是一种功能强大的可编辑舞蹈生成方法,能够在忠实于任意输入音乐的同时生成逼真且符合物理规律的舞蹈。 arXiv 视频
EMO Emote Portrait Alive - 在弱条件下使用 Audio2Video 扩散模型生成富有表现力的肖像视频。 arXiv 视频
Emu Video 通过显式图像条件化实现文本到视频生成的因子分解。 视频
Etna Etna 可以根据简短的文本描述生成相应的视频内容。 视频
Fairy 快速并行化的指令引导型视频到视频合成。 视频
Follow-Your-Canvas Follow-Your-Canvas:更高分辨率的视频外延与大量内容生成。 arXiv 视频
Follow Your Pose 使用无姿态视频进行姿态引导的文本到视频生成。 arXiv 视频
FullJourney 你触手可及的完整 AI 创作工具套件。 视频
Gen-2 一个多模态 AI 系统,能够根据文本、图像或视频片段生成新颖的视频。 视频
Generative Dynamics 生成式图像动力学。 视频
Genie 生成式交互环境。 arXiv 视频
Genmo 用 AI 巧妙地制作视频。 视频
GenTron 用于图像和视频生成的扩散变换器。 视频
HiGen 用于文本到视频生成的分层时空解耦。 视频
Hotshot-XL Hotshot-XL 是一个与 Stable Diffusion XL 配合使用的 AI 文本到 GIF 模型。 视频
HuMo HuMo:通过协作式多模态条件化实现以人为本的视频生成。 arXiv 视频
HunyuanVideo HunyuanVideo:大型视频生成模型的系统性框架。 arXiv 视频
HunyuanVideo-1.5 HunyuanVideo-1.5:领先的轻量级视频生成模型。 视频
Imagen Video 给定一个文本提示,Imagen Video 使用基础视频生成模型以及一系列交错的空间和时间视频超分辨率模型生成高清视频。 视频
InfiniteTalk InfiniteTalk:基于音频驱动的稀帧视频配音视频生成。 arXiv 视频
InstructVideo 通过人类反馈指导视频扩散模型。 arXiv 视频
I2VGen-XL 通过级联扩散模型实现高质量的图像到视频合成。 arXiv 视频
LaVie 使用级联潜在扩散模型进行高质量视频生成。 arXiv 视频
LongLive LongLive:实时交互式长视频生成。 arXiv 视频
LTX Studio LTX Studio 是一个面向创作者、营销人员、电影制作人和工作室的全方位 AI 驱动的电影制作平台。 视频
LTX-Video LTX-Video 是首个基于 DiT 的视频生成模型,能够实时生成高质量视频。它可以以 768x512 分辨率生成 24 FPS 的视频,速度比观看它们还快。 视频
Lumiere 用于视频生成的时空扩散模型。 arXiv 视频
LVDM 用于高保真长视频生成的潜在视频扩散模型。 arXiv 视频
Lynx Lynx:迈向高保真个性化视频生成。 arXiv 视频
MagicVideo 使用潜在扩散模型高效生成视频。 arXiv 视频
MagicVideo-V2 多阶段高审美视频生成。 arXiv 视频
Magic Hour 为创作者打造的简单易用的 AI 视频。 视频
MAGVIT-v2 令牌化是视觉生成的关键。 视频
MAGVIT 掩码生成式视频变压器。 视频
Make-A-Video Make-A-Video 是一个最先进的 AI 系统,可以根据文本生成视频。 arXiv 视频
Make Pixels Dance 高动态范围视频生成。 arXiv 视频
Make-Your-Video 使用文本和结构引导进行定制化视频生成。 arXiv 视频
MicroCinema 一种用于文本到视频生成的分治法。 arXiv 视频
MIMO MIMO:利用空间分解建模进行可控的角色视频合成。 arXiv 视频
Mini-Gemini 挖掘多模态视觉语言模型的潜力。 视觉
MobileVidFactory 基于扩散的自动社交媒体视频生成,适用于移动设备,输入为文本。 视频
Mochi 1 Mochi 1 是一款开放式的先进视频生成模型,在初步评估中表现出高保真的运动效果和强大的提示遵循能力。 视频
MOFA-Video 通过在冻结的图像到视频扩散模型中应用生成式运动场适配,实现可控的图像动画。 arXiv 视频
MoneyPrinterTurbo 使用大模型一键生成短视频。 视频
Moonvalley Moonvalley 是一款突破性的新型文本到视频生成 AI 模型。 视频
Mora 更接近 Sora 的通用视频生成模型。 arXiv 视频
Morph Studio 借助我们的文本到视频 AI 魔法,通过你的提示展现你的创造力。 视频
MotionClone MotionClone:无需训练即可进行运动克隆,用于可控视频生成。 arXiv 视频
MotionCtrl 用于视频生成的统一且灵活的运动控制器。 arXiv 视频
MotionDirector 对文本到视频扩散模型进行运动自定义。 arXiv 视频
Motionshop 将视频中的角色替换为 3D 头像的应用程序。 视频
Mov2mov Automatic1111/stable-diffusion-webui 的 Mov2mov 插件。 视频
MovieFactory 使用大型语言和图像生成模型,根据文本自动创建电影。 arXiv 视频
MoviiGen 1.1 MoviiGen 1.1:迈向电影级质量的视频生成模型。MoviiGen 1.1 是一款尖端的视频生成模型,擅长电影美学和视觉质量。该模型是在 Wan2.1 的基础上进行微调的。根据包括行业专家在内的 11 名专业电影制作人和 AIGC 创作者在 60 个美学维度上的综合评估,MoviiGen 1.1 在关键的电影方面表现出色。 视频
Neural Frames 发现视觉世界的合成器。 视频
NeverEnds 创造属于你的世界。 视频
Open-Sora 使高效的视频制作民主化,惠及所有人。 视频
Open-Sora Open-Sora 计划。 视频
Ovi Ovi:用于音视频生成的双骨干跨模态融合。 arXiv 视频
Phenaki 一种根据文本生成视频的模型,支持随时间变化的提示,生成的视频最长可达数分钟。 arXiv 视频
Pika Labs Pika Labs 正在用 AI 彻底改变视频制作体验。 视频
Pixeling Pixeling 使我们的客户能够创建高度精确、超逼真且极具控制力的视觉内容,包括图像、视频和 3D 模型。 视频
PixVerse 用 AI 创造令人惊叹的视频。 视频
Pollinations 创作变得轻松、快速且有趣。 视频
Reuse and Diffuse 用于文本到视频生成的迭代去噪。 arXiv 视频
Ruyi Ruyi 是一款图像到视频模型,能够以 768×768 分辨率、24 帧/秒的帧率生成 5 秒共 120 帧的电影级视频。 视频
ShortGPT 一个用于自动化短视频/视频内容创作的实验性 AI 框架。 视频
Show-1 将像素和潜在扩散模型结合用于文本到视频生成。 arXiv 视频
Step-Video-T2V Step-Video-T2V 技术报告:视频基础模型的实践、挑战与未来。 arXiv 视频
SkyReels-A1 SkyReels-A1:在视频扩散变压器中进行富有表现力的肖像动画。 arXiv 视频
SkyReels-V1 SkyReels V1:以人为本的视频基础模型。 视频
Snap Video 用于文本到视频合成的缩放时空变换器。 arXiv 视频
Sora 根据文本创建视频。 视频
SoraWebui SoraWebui 是一个开源的 Sora 网页客户端,允许用户使用 OpenAI 的 Sora 模型轻松地根据文本创建视频。 视频
StableVideo 基于文本的一致性感知扩散视频编辑。 视频
Stable Video Diffusion 稳定视频扩散 (SVD) 图像到视频。 视频
StoryDiffusion 用于长距离图像和视频生成的一致性自注意力。 arXiv 视频
StoryMem StoryMem:带有记忆的多镜头长视频叙事。 arXiv 视频
StreamingT2V 从文本生成一致、动态且可扩展的长视频。 arXiv 视频
StyleCrafter 使用风格适配器提升风格化文本到视频生成的质量。 arXiv 视频
TATS 使用时间无关的 VQGAN 和时间敏感的变压器进行长视频生成。 视频
Text2Video-Zero 图像扩散模型是零样本视频生成器。 arXiv 视频
TF-T2V 使用无姿态视频扩大文本到视频生成规模的配方。 arXiv 视频
Tora Tora:面向轨迹的视频生成扩散变压器。 arXiv 视频
Track-Anything Track-Anything 是一个灵活且交互式的视频目标跟踪和分割工具,基于 Segment Anything 和 XMem。 arXiv 视频
Tune-A-Video 一次性调整图像扩散模型以用于文本到视频生成。 arXiv 视频
TwelveLabs 多模态 AI 能够像人类一样理解视频。 视频
UniVG 朝着统一模态视频生成迈进。 视频
Vchitect-2.0 Vchitect-2.0:用于扩大视频扩散模型规模的并行变压器。 视频
VGen 一个基于扩散模型构建的视频生成生态系统。 arXiv 视频
ViewCrafter ViewCrafter:驯服视频扩散模型以实现高保真新视角合成。 arXiv 视频
Video-ChatGPT Video-ChatGPT 是一个视频对话模型,能够生成关于视频的有意义对话。 arXiv 视频
VideoComposer 具有运动可控性的组合式视频合成。 arXiv 视频
VideoCrafter1 开放式扩散模型用于高质量视频生成。 arXiv 视频
VideoCrafter2 克服数据限制以实现高质量视频扩散模型。 arXiv 视频
VideoDrafter 基于 LLM 的内容一致多场景视频生成。 arXiv 视频
VideoElevator 通过多功能图像到视频扩散模型提升视频生成质量。 arXiv 视频
VideoFactory 在时空扩散中交换注意力以进行文本到视频生成。 视频
VideoGen 一种参考引导的潜在扩散方法,用于高清文本到视频生成。 arXiv 视频
VideoLCM 视频潜在一致性模型。 arXiv 视频
Video LDMs 对齐你的潜在空间:使用潜在扩散模型进行高分辨率视频合成。 arXiv 视频
Video-LLaVA 通过投影前对齐学习统一的视觉表示。 arXiv 视频
VideoMamba 用于高效视频理解的状态空间模型。 arXiv 视频
Video-of-Thought Video-of-Thought:从感知到认知的逐步视频推理。 视频
VideoPoet 一个用于零样本视频生成的大语言模型。 arXiv 视频
Vispunk Motion 仅用文本就能创建逼真的视频。 视频
VisualRWKV VisualRWKV 是 RWKV 语言模型的视觉增强版,使 RWKV 能够处理各种视觉任务。 视觉
V-JEPA 视频联合嵌入预测架构。 arXiv 视频
W.A.L.T 基于扩散模型的照相写实主义视频生成。 arXiv 视频
Wan2.1 Wan:开放且先进的大规模视频生成模型。 视频
Wan2.2 Wan:开放且先进的大规模视频生成模型。 arXiv 视频
Waver Waver 1.0 是下一代通用基础模型家族,用于统一的图像和视频生成,基于校正流 Transformer 构建,并专为工业级性能而设计。 arXiv 视频
Zeroscope Zeroscope 文本到视频。 视频

^ 返回目录 ^

音频

来源 描述 论文 游戏引擎 类型
AcademiCodec 用于学术研究的开源音频编解码器模型。 音频
Amphion 开源音频、音乐和语音生成工具包。 arXiv 音频
ArchiSound 使用扩散模型在 PyTorch 中进行音频生成。 音频
Audiobox 基于自然语言提示的统一音频生成。 音频
AudioEditing 使用 DDPM 反演实现零样本无监督及基于文本的音频编辑。 arXiv 音频
Audiogen Codec 适用于通用音频的低压缩率 48kHz 立体声神经网络音频编解码器,专注于音频保真度 🎵。 音频
AudioGPT 理解并生成语音、音乐、声音及说话人头像。 arXiv 音频
AudioLCM 使用潜在一致性模型进行文本到音频生成。 arXiv 音频
AudioLDM 使用潜在扩散模型进行文本到音频生成。 arXiv 音频
AudioLDM 2 通过自监督预训练学习整体音频生成。 arXiv 音频
AudioX AudioX:用于任意内容到音频生成的扩散 Transformer。 arXiv 音频
Auffusion 利用扩散模型和大型语言模型的力量进行文本到音频生成。 arXiv 音频
CTAG 通过合成器编程实现创意文本到音频生成。 音频
FoleyCrafter FoleyCrafter:为无声视频赋予逼真且同步的声音。 arXiv 音频
HunyuanVideo-Foley HunyuanVideo-Foley:通过表征对齐的多模态扩散模型实现高保真 Foley 音效生成。 arXiv 音频
MAGNeT 使用单个非自回归 Transformer 进行掩码音频生成。 音频
Make-An-Audio 使用提示增强的扩散模型进行文本到音频生成。 arXiv 音频
Make-An-Audio 3 通过基于流的大规模扩散 Transformer 将文本转换为音频。 arXiv 音频
MeanAudio MeanAudio:使用均值流实现快速且忠实的文本到音频生成。 音频
MiDashengLM MiDashengLM:利用通用音频字幕实现高效的音频理解。 arXiv 音频
MMAudio MMAudio:驯服多模态联合训练,实现高质量的视频到音频合成。 arXiv 音频
NeuralSound 基于学习的模态声音合成,结合声学迁移。 arXiv 音频
OptimizerAI 为创作者、游戏开发者、艺术家和视频制作者提供的声音服务。 音频
Qwen2-Audio 阿里云提出的 Qwen2-Audio 聊天及预训练大型音频语言模型。 arXiv 音频
SEE-2-SOUND 零样本空间环境到空间声音。 arXiv 音频
SoundStorm 高效的并行音频生成。 arXiv 音频
Stable Audio 快速的时序条件潜在音频扩散。 音频
Stable Audio Open Stable Audio Open 1.0 根据文本提示生成可变长度(最长 47 秒)的 44.1kHz 立体声音频。 音频
SyncFusion SyncFusion:多模态起始时刻同步的视频到音频 Foley 合成。 arXiv 音频
TANGO 使用指令微调的 LLM 和潜在扩散模型进行文本到音频生成。 音频
ThinkSound ThinkSound:在多模态大型语言模型中运用思维链推理进行音频生成与编辑。 arXiv 音频
VTA-LDM 带有隐式对齐的视频到音频生成。 arXiv 音频
WavJourney 使用大型语言模型进行组合式音频创作。 arXiv 音频

^ 返回目录 ^

音乐

来源 描述 论文 游戏引擎 类型
AIVA 基于人工智能的情感配乐创作。 音乐
Amper Music 由 Amper 提供支持的定制化音乐生成技术。 音乐
AnyAccomp AnyAccomp:通过量化旋律瓶颈实现可泛化的伴奏生成。 arXiv 音乐
Boomy 创造生成式音乐,并与全世界分享。 音乐
ChatMusician 在大型语言模型中培养内在的音乐能力。 音乐
Chord2Melody 自动音乐生成 AI。 音乐
Diff-BGM 用于视频背景音乐生成的扩散模型。 arXiv 音乐
FluxMusic FluxMusic:基于修正流变换器的文本到音乐生成。 arXiv 音乐
GPTAbleton 用于处理 GPT 响应并将 MIDI 音符通过 AbletonOSC 和 python-osc 发送到 Ableton 片段中的脚本草稿。 音乐
HeyMusic.AI AI 音乐生成器 音乐
Image to Music AI 图片转音乐生成器是一种利用人工智能将图片转换为音乐的工具。 音乐
JEN-1 基于全向扩散模型的文本引导通用音乐生成。 音乐
Jukebox 一种音乐生成模型。 arXiv 音乐
Magenta Magenta 是一个研究项目,探索机器学习在艺术和音乐创作过程中的作用。 音乐
MeLoDy 高效的神经网络音乐生成 音乐
Mubert AI 生成式音乐。 音乐
MuseNet 一种深度神经网络,能够生成包含 10 种不同乐器的 4 分钟音乐作品,并能融合从乡村音乐到莫扎特再到披头士等多种风格。 音乐
MusicGen 简单且可控的音乐生成。 arXiv 音乐
MusicLDM 利用节拍同步混合策略提升文本到音乐生成的新颖性。 arXiv 音乐
MusicLM 从文本生成音乐。 arXiv 音乐
Riffusion App Riffusion 是一款使用稳定扩散进行实时音乐生成的应用程序。 音乐
Sonauto Sonauto 是一款 AI 音乐编辑器,可以将提示词、歌词或旋律转化为任何风格的完整歌曲。 音乐
SonicMaster SonicMaster:迈向可控的一体化音乐修复与母带处理。 arXiv 音乐
SoundRaw 为创作者提供的 AI 音乐生成器。 音乐
Soundry AI 包括文本转声音和无限样本包在内的生成式 AI 工具。 音乐
YuE YuE:开源的整首歌曲生成基础模型,类似于 Suno.ai 但为开源版本。 音乐

^ 返回目录 ^

歌声

来源 描述 论文 游戏引擎 类型
DiffSinger 基于浅层扩散机制的歌声合成。 arXiv 歌声
Retrieval-based-Voice-Conversion-WebUI 基于VITS的易用型语音转换框架。 歌声
so-vits-svc SoftVC VITS 歌声转换。 歌声
VI-SVS 使用VITS和Opencpop开发歌声合成;与VISinger不同。 歌声

^ 返回目录 ^

语音

来源 描述 论文 游戏引擎 类型
Applio 终极语音克隆工具,经过精心优化,具有无与伦比的强大功能、模块化设计和用户友好的体验。 语音
Audyo 输入文本,输出音频。 语音
Bark 文本提示生成式音频模型。 语音
Bert-VITS2 基于多语言BERT的VITS2骨干网络。 语音
Chatterbox Chatterbox TTS是首个生产级开源TTS模型。 语音
ChatTTS ChatTTS是一款用于日常对话的生成式语音模型。 语音
CLAPSpeech 通过对比语言-音频预训练学习文本上下文中的韵律。 arXiv 语音
CosyVoice 多语言大型语音生成模型,提供推理、训练和部署的全栈能力。 语音
DEX-TTS 基于扩散模型的表情丰富文本到语音合成,并在时间变异性上进行风格建模。 arXiv 语音
EmotiVoice 多语音且受提示控制的TTS引擎。 语音
FireRedTTS-2 FireRedTTS-2:面向播客和聊天机器人的长对话语音生成。 arXiv 语音
Fliki 将文本转换为带有AI语音的视频。 语音
GLM-4-Voice GLM-4-Voice是由智谱AI推出的一体化语音模型。GLM-4-Voice可以直接理解和生成中文和英文语音,进行实时语音对话,并根据用户指令改变情感、语调、语速和方言等属性。 语音
Glow-TTS 通过单调对齐搜索实现文本到语音的生成流模型。 arXiv 语音
GPT-SoVITS 强大的少样本语音转换和文本到语音WebUI。 语音
Higgs Audio Higgs Audio V2:重新定义音频生成中的表现力。 语音
IndexTTS2 IndexTTS2:在情感丰富且时长可控的自回归零样本文本到语音合成方面的突破。 arXiv 语音
Kitten TTS Kitten TTS是一个开源的逼真文本到语音模型,仅需1500万参数,专为轻量级部署和高质量语音合成而设计。 语音
Liquid Audio Liquid Audio - Liquid AI推出的语音到语音音频模型。 语音
LOVO LOVO是数千名创作者首选的AI语音生成器和文本到语音平台。 语音
MahaTTS 一款开源的大规模语音生成模型。 语音
Matcha-TTS 一种基于条件流匹配的快速TTS架构。 arXiv 语音
MeloTTS MyShell.ai出品的高质量多语言文本到语音库。支持英语、西班牙语、法语、中文、日语和韩语。 语音
MetaVoice-1B 用于实现人类水平语音智能的AI。 语音
Narakeet 轻松使用逼真的文本到语音技术创建配音。 语音
Mini-Omni Mini-Omni:语言模型可以在流式处理中听、说并思考。Mini-Omni是一款开源的多模态大型语言模型,能够边听边说边思考。具备实时端到端语音输入和流式音频输出的对话能力。 arXiv 语音
One-Shot-Voice-Cloning 基于Unet-TTS的一次性语音克隆。 语音
OpenVoice MyShell提供的即时语音克隆服务。 语音
OverFlow 在神经换能器之上应用流模型以改善TTS性能。 语音
RealtimeTTS RealtimeTTS是一款最先进的文本到语音(TTS)库,专为实时应用而设计。 语音
SenseVoice SenseVoice是一款语音基础模型,具备多种语音理解能力,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。 语音
SpeechGPT 通过内在的跨模态对话能力增强大型语言模型。 arXiv 语音
speech-to-text-gpt3-unity 这是我使用Whisper和OpenAI的ChatGPT API在Unity中实现的项目仓库。 Unity 语音
Stable Speech Stability AI的文本到语音模型。 语音
StableTTS 下一代TTS模型,采用流匹配和DiT技术,灵感来自Stable Diffusion 3。 语音
Step-Audio Step-Audio:智能语音交互中的统一理解与生成。 arXiv 语音
Step-Audio 2 Step-Audio 2是一款端到端的多模态大型语言模型,专为工业级音频理解和语音对话而设计。 arXiv 语音
StyleTTS 2 通过风格扩散和对抗训练,结合大型语音语言模型,迈向人类水平的文本到语音合成。 arXiv 语音
tortoise.cpp tortoise.cpp:tortoise-tts的GGML实现。 语音
TorToiSe-TTS 一个注重质量的多语音TTS系统。 语音
TTS Generation WebUI TTS生成WebUI(Bark、MusicGen、Tortoise、RVC、Vocos、Demucs)。 语音
VALL-E 神经编解码语言模型是零样本文本到语音合成器。 arXiv 语音
VALL-E X 用自己的声音说外语:跨语言神经编解码语言建模 arXiv 语音
VibeVoice VibeVoice是一种新颖的框架,旨在从文本生成富有表现力、长篇幅、多说话者的对话式音频,例如播客。它解决了传统文本到语音(TTS)系统中的重大挑战,特别是在可扩展性、说话者一致性以及自然的轮流发言方面。 语音
Vocode Vocode是一个用于构建基于语音的LLM应用的开源库。 语音
Voicebox 文本引导的多语言通用大规模语音生成。 arXiv 语音
VoiceCraft 零样本语音编辑和野外环境下的文本到语音合成。 语音
VoxCPM VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和逼真语音克隆。 语音
Whisper Whisper是一款通用的语音识别模型。 语音
WhisperSpeech 一个通过反转Whisper构建的开源文本到语音系统。 语音
X-E-Speech 非自回归跨语言情感文本到语音与语音转换的联合训练框架。 语音
XTTS XTTS是一个用于高级文本到语音生成的库。 语音
YourTTS 努力实现面向所有人的零样本多说话者TTS和零样本语音转换。 arXiv 语音
ZMM-TTS 基于自监督离散语音表示的零样本多语言、多说话者语音合成。 arXiv 语音
UniAudio 2.0 UniAudio 2.0:一种多任务音频基础模型,配备推理增强型音频分词。 语音
UnityNeuroSpeech 全球首个允许您与AI实时对话的游戏框架——本地运行。 Unity 语音

^ 返回目录 ^

分析工具

来源 描述 游戏引擎 类型
Ludo.ai 游戏研究与设计助手。 分析工具

^ 返回目录 ^

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

157.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|5天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|6天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架