ai-game-devtools
ai-game-devtools 是一个专注于游戏开发领域的 AI 工具资源库,旨在为开发者提供一站式的前沿技术导航。它系统性地整理了涵盖大语言模型(LLM)、世界模型、智能体、代码生成,以及图像、纹理、着色器、3D 模型、动画、音视频处理和分析等全链路的开源项目。
在游戏制作过程中,创作者往往需要在分散的资源中寻找合适的 AI 解决方案,效率较低。ai-game-devtools 通过分类汇总最新的技术成果,解决了信息碎片化问题,帮助团队快速定位能辅助剧情编写、资产生成或逻辑构建的高效工具。无论是独立开发者、游戏工作室的技术美术,还是探索人机交互的研究人员,都能从中找到适配当前工作流的利器。
该项目的独特亮点在于其极高的覆盖广度与更新速度,不仅收录了如 AgentGPT、Auto-GPT 等通用智能体框架,还特别关注 Unity 引擎集成、自动化科学发现等垂直场景应用。它以清晰的表格形式呈现每个工具的来源、功能描述及适用引擎,让用户无需深入阅读大量文档即可评估工具价值。对于希望利用 AI 提升游戏研发效率的专业人士而言,这是一个极具参考价值的实用指南。
使用场景
独立游戏开发者小林正独自开发一款科幻题材的 3D 冒险游戏,需要在极短的时间内完成从代码逻辑到美术资源的全流程制作。
没有 ai-game-devtools 时
- 多工具切换繁琐:需要分别在 GitHub 搜索代码助手、去专门网站找纹理生成器、再另寻音乐创作工具,频繁跳转导致工作流支离破碎。
- 资产风格不统一:由于使用不同来源的非集成工具,生成的 3D 模型、贴图和角色动画在美术风格上难以保持一致,后期调整耗时巨大。
- 智能体开发门槛高:想要为 NPC 添加基于大模型的自主行为,需手动配置复杂的 API 接口和本地环境,缺乏像 AgentGPT 或 AIOS 这样的现成框架支持。
- 引擎集成困难:生成的代码和资源无法直接导入 Unity 等引擎,需要大量人工重写和格式转换,严重拖慢迭代速度。
使用 ai-game-devtools 后
- 一站式资源获取:通过 ai-game-devtools 的项目列表,小林能直接在同一个页面找到涵盖代码、纹理、音乐及智能体的最新工具链,大幅减少检索时间。
- 全链路风格协同:利用列表中推荐的专用模型工具(如针对 Shader 和 3D Model 的特定 AI),可以更有针对性地控制输出参数,确保视觉资产风格高度统一。
- 快速部署游戏智能体:直接复用列表中集成的 Unity 插件(如 AICommand)或自主智能体框架,几分钟内即可让 NPC 具备对话和自主决策能力。
- 无缝引擎对接:所选工具大多标注了支持的引擎类型,生成的代码和资产可直接导入项目,实现了从创意到可玩原型的极速转化。
ai-game-devtools 通过聚合全产业链的最新 AI 工具,将独立开发者的“单兵作战”效率提升至团队级水平,让创意落地不再受限于技术栈的广度。
运行环境要求
未说明
未说明

快速开始
AI 游戏开发工具 (AI-GDT) 🎮
在这里,我们将持续跟踪最新的 AI 游戏开发工具,涵盖大语言模型、世界模型、智能体、代码、图像、纹理、着色器、3D 模型、动画、视频、音频、音乐、歌声以及数据分析等领域。🔥
目录
项目列表
LLM(大语言模型及工具)
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| AgentGPT | 🤖 在浏览器中组装、配置并部署自主AI智能体。 | 工具 | ||
| AICommand | ChatGPT与Unity编辑器的集成。 | Unity | 工具 | |
| AIOS | LLM智能体操作系统。 | 工具 | ||
| AI Scientist | AI科学家:迈向完全自动化的开放式科学发现。 | arXiv | 工具 | |
| Assistant CLI | 一款舒适的CLI工具,用于使用ChatGPT服务🔥 | 工具 | ||
| Auto-GPT | 一个实验性的开源尝试,旨在使GPT-4完全自主化。 | 工具 | ||
| BabyAGI | 这个Python脚本是一个由AI驱动的任务管理系统的示例。 | 工具 | ||
| 👶🤖🖥️ BabyAGI UI | BabyAGI UI旨在通过类似ChatGPT的Web应用,更轻松地运行和开发BabyAGI。 | 工具 | ||
| baichuan-7B | 百川公司开发的大规模70亿参数预训练语言模型。 | 工具 | ||
| Baichuan-13B | 百川智能科技公司开发的130亿参数大型语言模型。 | 工具 | ||
| Baichuan 2 | 百川智能科技公司开发的一系列大型语言模型。 | 工具 | ||
| Bisheng | Bisheng是一个面向下一代AI应用的开放LLM DevOps平台。 | 工具 | ||
| Character-LLM | 一种可训练的角色扮演智能体。 | arXiv | 工具 | |
| ChatDev | 用于软件开发的沟通型智能体。 | arXiv | 工具 | |
| ChatGPT-API-unity | 将ChatGPT聊天完成API绑定到Unity上的纯C#代码中。 | Unity | 工具 | |
| ChatGPTForUnity | 面向Unity的ChatGPT。 | Unity | 工具 | |
| ChatRWKV | ChatRWKV类似于ChatGPT,但由RWKV(100% RNN)语言模型驱动,并且是开源的。 | 工具 | ||
| ChatYuan | 中英双语对话用大型语言模型。 | 工具 | ||
| Chinese-LLaMA-Alpaca-3 | (中文Llama-3 LLMs)基于Meta Llama 3开发。 | 工具 | ||
| Chrome-GPT | 一个控制桌面Chrome浏览器的AutoGPT智能体。 | 工具 | ||
| CogVLM | CogVLM是一款强大的开源视觉语言基础模型。 | arXiv | 工具 | |
| CoreNet | 一个用于训练深度神经网络的库。 | 工具 | ||
| Cosmos | Cosmos是一个世界模型开发平台,由世界基础模型、分词器和视频处理流水线组成,旨在加速机器人和自动驾驶实验室中物理AI的开发。 | LLM | ||
| DBRX | DBRX是由Databricks训练的大规模语言模型。 | 工具 | ||
| DCLM | 面向语言模型的数据压缩。 | arXiv | 工具 | |
| DeepSeek-R1 | DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,无需监督微调(SFT)作为前期步骤,在推理方面表现出色。 | LLM | ||
| DeepSeek-V3 | DeepSeek-V3是一个强大的专家混合(MoE)语言模型,总参数量为6710亿,每次处理一个token时激活370亿参数。 | arXiv | LLM | |
| DemoGPT | 借助Llama 2的力量自动生成AI应用程序 | 工具 | ||
| Design2Code | 自动化前端工程 | 工具 | ||
| Devika | Devika是一个基于智能体的AI软件工程师。 | 工具 | ||
| Devon | 一个开源的结对编程工具。 | 工具 | ||
| Dora | 每次输入一个提示即可生成强大的网站。 | 工具 | ||
| Flowise | 使用LangchainJS拖放式UI构建自定义LLM流程。 | 工具 | ||
| Gemini | Gemini从一开始就专为多模态设计——能够无缝地在文本、图像、视频、音频和代码之间进行推理。 | 工具 | ||
| Gemma | Gemma是一系列轻量级、最先进的开源模型,基于用于创建Google Gemini模型的研究和技术打造。 | 工具 | ||
| gemma.cpp | 谷歌Gemma模型的轻量级独立C++推理引擎。 | 工具 | ||
| GLM-4 | GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本。 | 工具 | ||
| GLM-4.5 | GLM-4.5:Z.ai设计的一款面向智能体的开源大型语言模型。 | LLM | ||
| GPT4All | 一个基于大量干净助手数据(包括代码、故事和对话)训练的聊天机器人。 | 工具 | ||
| GPT-4o | GPT-4o(“o”代表“omni”)是迈向更加自然的人机交互的重要一步——它可以接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 | 工具 | ||
| gpt-oss | gpt-oss-120b和gpt-oss-20b是OpenAI的两款开放权重语言模型。 | LLM | ||
| GPTScript | 用自然语言开发LLM应用。 | 工具 | ||
| Grok-1 | 我们的3140亿参数专家混合模型Grok-1的权重和架构。 | 工具 | ||
| HuggingChat | 让社区中最优秀的AI聊天模型惠及所有人。 | 工具 | ||
| Hugging Face API Unity集成 | 此Unity包提供了Hugging Face推理API的易用集成,使开发者能够在他们的Unity项目中访问和使用Hugging Face AI模型。 | Unity | 工具 | |
| Hunyuan-MT | Hunyuan-MT由一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera组成。翻译模型用于将源文本翻译成目标语言,而集成模型则整合多个翻译结果以产生更高质量的输出。 | LLM | ||
| ImageBind | ImageBind:一个嵌入空间,连接一切。 | arXiv | 工具 | |
| Index-1.9B | 一款SOTA轻量级多语言LLM。 | 工具 | ||
| InteractML-Unity | InteractML,一个用于Unity3D的交互式机器学习可视化脚本框架。 | Unity | 工具 | |
| InteractML-Unreal Engine | 将机器学习引入虚幻引擎。 | Unreal Engine | 工具 | |
| InternLM | InternLM已开源一个70亿参数的基础模型、一个针对实际场景定制的聊天模型以及训练系统。 | arXiv | 工具 | |
| InternLM-XComposer | InternLM-XComposer2是一款开创性的视觉-语言大型模型(VLLM),在自由形式的文本-图像创作和理解方面表现出众。 | arXiv | 工具 | |
| Jan | 将AI带到你的桌面。 | 工具 | ||
| Janus | Janus:解耦视觉编码,实现统一的多模态理解和生成。 | arXiv | LLM | |
| Kimi K2 | Kimi K2是一款最先进的专家混合(MoE)语言模型,拥有320亿激活参数和1万亿总参数。 | LLM | ||
| Lamini | Lamini允许任何工程团队通过RLHF和基于自身数据的微调,超越通用LLM的表现。 | 工具 | ||
| LaMini-LM | LaMini-LM是一系列从小型、高效的语言模型中蒸馏而来,这些模型源自ChatGPT,并在包含258万条指令的大规模数据集上训练而成。 | 工具 | ||
| LangChain | LangChain是一个用于开发由语言模型驱动的应用程序的框架。 | 工具 | ||
| LangFlow | ⛓️ LangFlow是LangChain的UI,采用react-flow设计,提供了一种轻松的方式来试验和原型化流程。 | 工具 | ||
| LaVague | 使用大型行动模型框架自动化自动化。 | 工具 | ||
| Lemur | 面向语言智能体的开放基础模型。 | 工具 | ||
| Lepton AI | 一个简化AI服务构建的Python框架。 | 工具 | ||
| Lit-LLaMA | 基于nanoGPT实现的LLaMA语言模型。支持闪存注意力、Int8和GPTQ 4位量化、LoRA和LLaMA-Adapter微调以及预训练。 | 工具 | ||
| llama2-webui | 在GPU或CPU上,通过gradio UI在本地运行Llama 2,无论你身在何处(Linux/Windows/Mac)。 | 工具 | ||
| Llama 3 | Meta Llama 3的官方GitHub站点。 | 工具 | ||
| Llama 3.1 | Llama是一个易于使用的开放大型语言模型(LLM),专为开发者、研究人员和企业设计,帮助他们构建、实验并负责任地扩展其生成式AI想法。 | 工具 | ||
| LLaSM | 大型语言和语音模型。 | 工具 | ||
| LLM Answer Engine | 使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave和Serper构建一个受Perplexity启发的答案引擎。 | 工具 | ||
| llm.c | 使用简单原始的C/CUDA进行LLM训练。 | 工具 | ||
| LLMUnity | 用LLM在Unity中创建角色! | Unity | 工具 | |
| LLocalSearch | LLocalSearch是一个完全在本地运行的搜索引擎,使用LLM智能体。 | 工具 | ||
| LogicGamesSolver | 一个Python工具,利用AI、深度学习和计算机视觉来解决逻辑游戏。 | 工具 | ||
| LongCat-Flash | LongCat-Flash是一款功能强大且高效的语言模型,总参数量达5600亿,采用了创新的专家混合(MoE)架构。该模型包含动态计算机制,可根据上下文需求激活186亿至313亿个参数(平均约270亿),从而优化计算效率和性能。 | LLM | ||
| LongWriter | LongWriter:释放来自长上下文LLM的1万字以上生成能力。 | arXiv | 工具 | |
| Large World Model (LWM) | Large World Model(LWM)是一个通用的大上下文多模态自回归模型。 | arXiv | 工具 | |
| Lumina-T2X | Lumina-T2X是一个用于文本到任意模态生成的统一框架。 | arXiv | 工具 | |
| MetaGPT | 多智能体框架 | 工具 | ||
| MiniCPM-2B | 一款端侧LLM的表现优于Llama2-13B。 | 工具 | ||
| MiniGPT-4 | 通过先进的大型语言模型增强视觉-语言理解能力。 | arXiv | 工具 | |
| MiniGPT-5 | 通过生成性词汇进行视觉与语言的交替生成。 | arXiv | 工具 | |
| MiniMax-01 | MiniMax-01:利用闪电注意力扩展基础模型。 | arXiv | LLM | |
| Mixtral 8x7B | 一款高质量的稀疏专家混合模型。 | arXiv | 工具 | |
| Mistral 7B | 目前最好的7B模型,采用Apache 2.0许可。 | 工具 | ||
| Mistral Large | Mistral Large是一款全新的尖端文本生成模型。它达到了顶级的推理能力。 | 工具 | ||
| MLC LLM | 使每个人都能在自己的设备上原生开发、优化和部署AI模型。 | 工具 | ||
| MobiLlama | 朝着准确、轻量且完全透明的GPT迈进。 | arXiv | 工具 | |
| MoE-LLaVA | 用于大型视觉-语言模型的专家混合。 | arXiv | 工具 | |
| Moshi | Moshi是一个实验性的会话式AI。 | 工具 | ||
| Moshi | Moshi:一个用于实时对话的语音-文本基础模型。 | 工具 | ||
| MOSS | 复旦大学推出的一款开源工具增强型会话式语言模型。 | 工具 | ||
| mPLUG-Owl🦉 | 模块化赋予大型语言模型多模态能力。 | arXiv | 工具 | |
| Nemotron-4 | 一款拥有150亿参数的大规模多语言语言模型,基于8万亿个文本标记进行训练。 | arXiv | 工具 | |
| NExT-GPT | 一种任意模态之间的大型语言模型。 | 工具 | ||
| OLMo | 开放语言模型 | arXiv | 工具 | |
| OmniLMM | 大型多模态模型,旨在实现强劲性能和高效部署。 | 工具 | ||
| OneLLM | 一个框架,用于将所有模态与语言对齐。 | arXiv | 工具 | |
| Open-Assistant | OpenAssistant是一个基于聊天的助手,能够理解任务、与第三方系统交互,并动态检索信息来完成任务。 | 工具 | ||
| Open Deep Research | 一个由AI驱动的科研助手,通过结合搜索引擎、网页抓取和大型语言模型,对任何主题进行迭代式的深入研究。 | LLM | ||
| OpenDevin | 一个自主AI软件工程师。 | 工具 | ||
| Orion-14B | Orion-14B是一系列模型的一部分,包括一个140亿参数的基础LLM,以及一系列其他模型。 | arXiv | 工具 | |
| Panda | 海外华人开源大型语言模型,基于Llama-7B、-13B、-33B、-65B持续在中国领域进行预训练。 | 工具 | ||
| Perplexica | 一个由AI驱动的搜索引擎。 | 工具 | ||
| Pi | 一款专为个人协助和情感支持设计的AI聊天机器人。 | 工具 | ||
| Qwen1.5 | Qwen1.5是Qwen的改进版本。 | 工具 | ||
| Qwen2 | Qwen2是阿里云Qwen团队开发的大语言模型系列。 | LLM | ||
| Qwen2.5-Coder | Qwen2.5-Coder是阿里云Qwen团队开发的大语言模型系列Qwen2.5的代码版本。 | arXiv | LLM | |
| Qwen-7B | 阿里云提出的Qwen-7B(通义千问-7B)聊天及预训练大型语言模型的官方仓库。 | LLM | ||
| Qwen3 | Qwen3是阿里云Qwen团队开发的大语言模型系列。 | arXiv | LLM | |
| RepoAgent | RepoAgent是一个由大型语言模型(LLMs)驱动的开源项目,旨在提供一种智能化的项目文档记录方式。 | arXiv | 工具 | |
| s1 | s1:简单的测试时缩放。 | arXiv | LLM | |
| Sanity AI Engine | 用于Unity游戏开发工具的Sanity AI引擎。 | Unity | 工具 | |
| SearchGPT | 🌳 将ChatGPT与互联网连接起来 | 工具 | ||
| Seed-OSS | Seed-OSS是字节跳动Seed团队开发的一系列开源大型语言模型,专为强大的长上下文、推理、代理和通用能力,以及多功能的开发者友好特性而设计。 | LLM | ||
| ShareGPT4V | 通过更好的字幕改善大型多模态模型。 | 工具 | ||
| SkyThought | Sky-T1:只需450美元即可训练自己的O1预览模型。 | LLM | ||
| Skywork | Skywork系列模型已在3.2TB高质量的多语言(主要是中文和英文)以及代码数据上进行了预训练。 | 工具 | ||
| StableLM | 稳定性AI语言模型。 | arXiv | 工具 | |
| Stanford Alpaca | 一款遵循指令的LLaMA模型。 | LLM | ||
| Text generation web UI | 一个用于运行LLaMA、llama.cpp、GPT-J、OPT和GALACTICA等大型语言模型的gradio Web UI。 | 工具 | ||
| TinyChatEngine | 设备端LLM推理库。 | 工具 | ||
| ToolBench | 一个用于训练、服务和评估大型语言模型以进行工具学习的开放平台。 | 工具 | ||
| Unity ChatGPT | Unity ChatGPT实验。 | Unity | 工具 | |
| Unity OpenAI-API集成 | 将OpenAI的GPT-3语言模型和ChatGPT API集成到Unity项目中。 | Unity | 工具 | |
| Unreal Engine 5 Llama LoRA | 一个概念验证项目,展示了使用小型、可本地训练的LLM创建下一代文档工具的可能性。 | Unreal Engine | 工具 | |
| UnrealGPT | 一组由GPT3/4驱动的Unreal Engine 5编辑器实用工具小部件。 | Unreal Engine | 工具 | |
| Video-LLaVA | 通过投影前的对齐学习统一的视觉表征。 | arXiv | 工具 | |
| WebGPT | 使用WebGPU在浏览器上运行GPT模型。 | 工具 | ||
| Web3-GPT | 用AI部署智能合约 | 工具 | ||
| WordGPT | 🤖 将ChatGPT的强大功能带入Microsoft Word | 工具 | ||
| XAgent | 一个用于解决复杂任务的自主LLM智能体。 | 工具 | ||
| Yi | 一系列由开发者从零开始训练的大语言模型。 | 工具 | ||
| 01 Project | 开源的语言模型计算机。 | 工具 | ||
| SimpleOllamaUnity | Ollama与Unity引擎的集成(可在运行时和编辑器中使用) | Unity | 工具 | |
| AI-Writer | AI撰写小说、奇幻和言情网络文章等。中国预训练的生成式模型。 | Writer | ||
| Notebook.ai | Notebook.ai是一套工具,供作家、游戏设计师和角色扮演者创造宏伟的世界——以及其中的一切。 | Writer | ||
| Novel | 带有AI驱动自动补全功能的类Notion WYSIWYG编辑器。 | Writer | ||
| NovelAI | 在AI的驱动下,轻松构建独特的故事、惊险的传奇、诱人的浪漫,或者只是随意玩一玩。 | Writer |
VLM(视觉)
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| Cambrian-1 | Cambrian-1:一个完全开源、以视觉为中心的多模态大模型探索。 | arXiv | 多模态大模型 | |
| CogVLM2 | 基于Llama3-8B的GPT4V级别开源多模态模型。 | 视觉 | ||
| CoTracker | 共同追踪更佳。 | arXiv | 视觉 | |
| dots.vlm1 | dots.vlm1是dots模型家族中的首个视觉-语言模型。它基于一个拥有12亿参数的视觉编码器和DeepSeek V3大型语言模型(LLM),展现出强大的多模态理解和推理能力。 | VLM | ||
| EVF-SAM | EVF-SAM:用于文本提示分割一切模型的早期视觉-语言融合。 | arXiv | 视觉 | |
| FaceHi | 共同追踪更佳。 | 视觉 | ||
| GLM-V | GLM-4.1V-Thinking和GLM-4.5V:通过可扩展的强化学习实现多功能多模态推理。 | arXiv | VLM | |
| InternLM-XComposer2 | InternLM-XComposer2是一款突破性的视觉-语言大型模型(VLLM),在自由格式的文本-图像组合与理解方面表现出色。 | arXiv | 视觉 | |
| Kangaroo | Kangaroo:一款支持长上下文视频输入的强大视频-语言模型。 | 视觉 | ||
| Kwai Keye-VL | Kwai Keye-VL是由快手Kwai Keye团队精心打造的尖端多模态大型语言模型。 | arXiv | VLM | |
| LGVI | 通过多模态大型语言模型实现语言驱动的视频修复。 | 视觉 | ||
| LLaVA++ | 利用LLaMA-3和Phi-3扩展视觉能力。 | 视觉 | ||
| LLaVA-OneVision | LLaVA-OneVision:轻松实现视觉任务迁移。 | arXiv | 视觉 | |
| LongVA | 从语言到视觉的长上下文迁移。 | arXiv | 视觉 | |
| Lumina-DiMOO | Lumina-DiMOO:一款用于多模态生成与理解的全能扩散大型语言模型。 | VLM | ||
| MaskViT | 用于视频预测的掩码视觉预训练。 | arXiv | 视觉 | |
| MiniCPM-Llama3-V 2.5 | 手机上的GPT-4V级别多模态大模型。 | 视觉 | ||
| MiniCPM-V 4.0 | MiniCPM-V 4.0:一款可在手机上处理单张图片、多张图片及视频的GPT-4V级别多模态大模型。 | 视觉 | ||
| MoE-LLaVA | 针对大型视觉-语言模型的专家混合模型。 | arXiv | 视觉 | |
| MotionLLM | 从人类动作和视频中理解人类行为。 | arXiv | 视觉 | |
| PLLaVA | 无需参数的LLaVA扩展,可将图像应用于视频密集字幕生成。 | arXiv | 视觉 | |
| POINTS-Reader | POINTS-Reader:用于文档转换的无蒸馏视觉-语言模型适配。 | arXiv | 视觉 | |
| Qwen-VL | 一款多功能视觉-语言模型,可用于理解、定位、文本阅读等任务。 | arXiv | 视觉 | |
| Sapiens | Sapiens:人类视觉模型的基础。 | arXiv | 视觉 | |
| ShareGPT4V | 通过更好的字幕提升大型多模态模型性能。 | arXiv | 视觉 | |
| SOLO | SOLO:一种用于可扩展视觉-语言建模的单一Transformer。 | arXiv | 视觉 | |
| VideoAgent | VideoAgent:一种记忆增强型多模态代理,用于视频理解。 | arXiv | 代理 | |
| Video-CCAM | Video-CCAM:利用因果交叉注意力掩码推进视频-语言理解。 | 视觉 | ||
| Video-LLaVA | 通过投影前的对齐学习统一的视觉表征。 | arXiv | 视觉 | |
| VideoLLaMA 2 | 在视频LLM中推进时空建模和音频理解。 | arXiv | 视觉 | |
| VideoLLaMA 3 | VideoLLaMA 3:用于图像和视频理解的前沿多模态基础模型。 | arXiv | 视觉 | |
| Video-MME | 首个全面评估多模态大模型在视频分析中表现的基准测试。 | arXiv | 视觉 | |
| Vitron | 一款统一的像素级视觉LLM,可用于理解、生成、分割、编辑。 | 视觉 | ||
| VILA | VILA:关于视觉语言模型预训练的研究。 | arXiv | 视觉 |
游戏(世界模型与智能体)
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| AgentBench | 一个全面的基准测试,用于评估作为代理的大型语言模型。 | arXiv | 代理 | |
| Agent Group Chat | 一种交互式群聊模拟器,用于更好地激发集体涌现行为。 | arXiv | 代理 | |
| Agent K | 一个自我进化且模块化的自动代理型AGI。 | 代理 | ||
| Agent Laboratory | 代理实验室:将LLM代理用作研究助理。 | arXiv | 代理 | |
| AgentScope | 以更简便的方式开始构建由LLM赋能的多代理应用。 | arXiv | 代理 | |
| AgentSims | 一个用于大型语言模型评估的开源沙盒。 | 代理 | ||
| AI Town | AI Town是一个虚拟小镇,AI角色在这里生活、聊天和社交。 | 代理 | ||
| anime.gf | CharacterAI的本地开源替代品。 | 游戏 | ||
| Astrocade | 使用AI创建游戏 | 游戏 | ||
| Atomic Agents | Atomic Agents框架设计为模块化、可扩展且易于使用。 | 代理 | ||
| AutoAgents | 一个用于自动生成代理的框架。 | 代理 | ||
| AutoGen | 启用下一代大型语言模型应用。 | arXiv | 代理 | |
| AWorld | AWorld:用于自我改进的代理运行时。 | 代理 | ||
| behaviac | Behaviac是游戏AI开发的一个框架。 | 框架 | ||
| Biomes | Biomes是一款开源沙盒MMORPG,基于Web技术(如Next.js、TypeScript、React和WebAssembly)构建。 | 游戏 | ||
| Buffer of Thoughts | 基于大型语言模型的思维增强推理。 | arXiv | 代理 | |
| Byzer-Agent | 一个简单、快速且分布式的代理框架,适合所有人。 | 代理 | ||
| Cat Town | 一款由ChatGPT驱动的猫咪模拟器。 | 代理 | ||
| Cat Town | 一款由ChatGPT驱动的猫咪模拟器。 | 代理 | ||
| CharacterGLM | 使用大型语言模型定制中文对话AI角色。 | arXiv | 代理 | |
| ChatDev | 用于软件开发的沟通型代理。 | arXiv | 代理 | |
| CogAgent | CogAgent是在CogVLM基础上改进的开源视觉语言模型。 | arXiv | 代理 | |
| ComoRAG | ComoRAG:一种受认知启发、按记忆组织的RAG系统,用于有状态的长篇叙事推理。 | arXiv | 代理 | |
| Cradle | 朝着通用计算机控制迈进。 | 代理 | ||
| crewAI | 一个用于编排角色扮演、自主AI代理的框架。 | 代理 | ||
| Datarus Jupyter Agent | Datarus Jupyter Agent是一个强大的多步推理系统,能够通过逐步推理、自动错误恢复和综合结果合成来执行复杂的分析工作流。 | 代理 | ||
| Dify | Dify是一个开源的LLM应用构建平台。 | 代理 | ||
| Digital Life Project | 具有社交智能的自主3D角色。 | arXiv | 代理 | |
| everything-ai | 你的全功能、AI驱动且本地化的聊天机器人助手🤖。 | 代理 | ||
| fabric | fabric是一个开源框架,用于利用AI增强人类能力。 | 代理 | ||
| FastGPT | FastGPT是一个基于LLM构建的知识型平台。 | 代理 | ||
| fastRAG | 高效的检索增强与生成框架。 | 代理 | ||
| GameAISDK | 基于图像的游戏AI自动化框架。 | 框架 | ||
| GameNGen | 扩散模型就是实时游戏引擎。 | arXiv | 游戏 | |
| GameGen-O | GameGen-O:开放世界视频游戏生成。 | 游戏 | ||
| GenAgent | GenAgent:通过自动化工作流生成构建协作式AI系统——以ComfyUI为例的案例研究。 | arXiv | 代理 | |
| Generative Agents | 互动的人类行为模拟体。 | arXiv | 代理 | |
| Genesis | Genesis:一个用于机器人及其他领域的生成式通用物理引擎。 | 游戏 | ||
| Genie | 生成式互动环境。 | 游戏 | ||
| Genie 3 | Genie 3:世界模型的新前沿。Genie 3是一个通用的世界模型,可以生成前所未有的多样化互动环境。 | 游戏 | ||
| gigax | 运行时、LLM驱动的NPC。 | 游戏 | ||
| HippoRAG | 受神经生物学启发的大型语言模型长期记忆。 | arXiv | 代理 | |
| Hunyuan-GameCraft | Hunyuan-GameCraft:结合历史条件的高动态互动游戏视频生成。 | arXiv | 游戏 | |
| HunyuanWorld 1.0 | HunyuanWorld 1.0:从文字或像素生成沉浸式、可探索且互动的3D世界。 | arXiv | 游戏 | |
| HunyuanWorld-Voyager | HunyuanWorld-Voyager是一个新颖的视频扩散框架,它可以根据单张图片和用户定义的摄像机路径生成世界一致的3D点云序列。Voyager可以按照自定义的摄像机轨迹生成3D一致的场景视频,用于世界探索。 | 游戏 | ||
| HY-World 1.5 | HY-World 1.5:一个具有实时延迟和几何一致性的交互式世界建模系统性框架。 | 游戏 | ||
| Interactive LLM Powered NPCs | 交互式LLM驱动的NPC,是一个开源项目,彻底改变了你在任何游戏中与非玩家角色(NPC)的互动方式! | 游戏 | ||
| IoA | 一个开源的协作式AI代理框架,使多样化的分布式代理能够通过类似互联网的连接协同合作,解决复杂任务。 | 代理 | ||
| Jaaz | Jaaz——全球首个开源多模态创意助手。AI设计代理,Lovart的本地替代品。Canva + Cursor。具备设计、编辑和生成图片、海报、分镜等能力的AI代理。 | 代理 | ||
| KwaiAgents | 一个基于大型语言模型(LLMs)的通用信息搜索代理系统。 | arXiv | 代理 | |
| LangChain | 将你的LLM应用从原型推向生产。 | 代理 | ||
| Langflow | Langflow是LangChain的UI,采用react-flow设计,提供了一种轻松的方式来试验和构建流程原型。 | 代理 | ||
| LangGraph Studio | LangGraph Studio提供了一种新的方式来开发LLM应用,通过提供一个专门的代理IDE,实现对复杂代理应用的可视化、交互和调试。 | 代理 | ||
| LARP | 语言-代理角色扮演,适用于开放世界游戏。 | arXiv | 代理 | |
| LLama Agentic System | Llama Stack API中的代理组件。 | 代理 | ||
| LlamaIndex | LlamaIndex是你的LLM应用的数据框架。 | 代理 | ||
| Matrix-Game | Matrix-Game:互动世界基础模型。Matrix-Game是一个17B参数的互动世界基础模型,用于可控的游戏世界生成。 | 游戏 | ||
| Matrix-Game 2.0 | Matrix-Game 2.0:一个开源、实时且流式的互动世界模型。 | 游戏 | ||
| MindSearch | 🔍 一个基于LLM的多代理网络搜索引擎框架(类似于Perplexity.ai Pro和SearchGPT)。 | 代理 | ||
| Mixture of Agents (MoA) | 多代理混合增强了大型语言模型的能力。 | arXiv | 代理 | |
| MMRole | MMRole:一个全面的框架,用于开发和评估多模态角色扮演代理。 | arXiv | 代理 | |
| Moonlander.ai | 使用生成式AI无需任何编码即可开始构建3D游戏。 | 框架 | ||
| MuG Diffusion | MuG Diffusion是一款基于Stable Diffusion(最强大的AIGC模型之一)的节奏游戏绘图AI,并进行了大量修改以融入音频波形。 | 游戏 | ||
| NVIDIA NeMo Agent Toolkit | NVIDIA NeMo Agent工具包是一个灵活、轻量且统一的库,允许你轻松地将现有的企业代理连接到任何框架下的数据源和工具。 | 代理 | ||
| Oasis | Oasis是由Decart和Etched开发的互动世界模型。基于扩散变换器,Oasis接收用户键盘输入并以自回归方式生成游戏内容。 | 游戏 | ||
| OmAgent | 一个用于解决复杂任务的多模态代理框架。 | 代理 | ||
| OpenAgents | 一个面向野外语言代理的开放平台。 | 代理 | ||
| Opus | 一个将文本转化为视频游戏的AI应用。 | 游戏 | ||
| Pipecat | 开源的语音和多模态对话AI框架。 | 代理 | ||
| Qwen-Agent | Qwen-Agent是一个基于Qwen的指令遵循、工具使用、规划和记忆能力来开发LLM应用的框架。 | 代理 | ||
| Ragas | Ragas是一个帮助你评估检索增强生成(RAG)管道的框架。 | 代理 | ||
| RPBench-Auto | 一个用于评估大型语言模型角色扮演能力的自动化管道。 | 游戏 | ||
| Rosebud AI | 一个利用AI创建3D游戏和交互式Web应用的氛围编码平台。 | 游戏 | ||
| SIMA | 一个用于3D虚拟环境的通才AI代理。 | 代理 | ||
| StoryGames.ai | 为梦想家打造游戏的AI。 | 游戏 | ||
| SWE-agent | 代理计算机接口使软件工程语言模型成为可能。 | arXiv | 代理 | |
| TaskGen | 一个基于任务的代理框架,建立在LLM代理严格的JSON输出之上。 | 代理 | ||
| TEN Agent | TEN Agent是世界上第一个集成OpenAI Realtime API、RTC,并具备天气查询、网页搜索、视觉和RAG功能的实时多模态代理。 | 代理 | ||
| Translation Agent | 使用反射式工作流进行代理式翻译。 | 代理 | ||
| Twitter Personality是一款网络应用程序,它通过Wordware AI代理分析你的Twitter账号,为你创建个性化的性格档案。 | 代理 | |||
| Unbounded | Unbounded:一场角色生命模拟的生成式无限游戏。 | arXiv | 游戏 | |
| Video2Game | 从单个视频中生成实时、互动、逼真且兼容浏览器的环境。 | arXiv | 游戏 | |
| V-IRL | 将虚拟智能扎根于现实生活中。 | arXiv | 代理 | |
| WebDesignAgent | 一个用于网页设计的代理。 | 代理 | ||
| XAgent | 一个用于解决复杂任务的自主LLM代理。 | 代理 |
代码
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| AI代码翻译器 | 使用AI将代码从一种语言翻译成另一种语言。 | 代码 | ||
| aiXcoder-7B | aiXcoder-7B代码大型语言模型。 | 代码 | ||
| bloop | bloop是一个用Rust编写的快速代码搜索引擎。 | 代码 | ||
| Chapyter | Jupyter Notebook中的ChatGPT代码解释器。 | 代码 | ||
| CodeGeeX | 一个开源的多语言代码生成模型。 | arXiv | 代码 | |
| CodeGeeX2 | 一个更强大的多语言代码生成模型。 | 代码 | ||
| CodeGeeX4 | CodeGeeX4:开源的多语言代码生成模型。 | 代码 | ||
| CodeGen | CodeGen是一个用于程序合成的开源模型。在TPU-v4上训练。与OpenAI Codex具有竞争力。 | arXiv | 代码 | |
| CodeGen2 | 用于程序合成的CodeGen2模型。 | arXiv | 代码 | |
| Code Llama | Code Llama是基于Llama 2的代码大型语言模型。 | 代码 | ||
| CodeTF | 用于最先进代码LLM的一站式Transformer库。 | 代码 | ||
| CodeT5 | 开源的代码LLM,用于代码理解和生成。 | 代码 | ||
| 代码世界模型(CWM) | 代码世界模型(CWM)是一个拥有320亿参数的开放权重LLM,旨在推进使用世界模型进行代码生成的研究。 | 代码 | ||
| Cursor | 在新型编辑器中使用GPT-4编写、编辑和讨论你的代码。 | 代码 | ||
| DeepSeek Coder | DeepSeek Coder:让代码自动编写。 | arXiv | 代码 | |
| OpenAI Codex | OpenAI Codex是GPT-3的后继者。 | 代码 | ||
| PandasAI | Pandas AI是一个Python库,它将生成式人工智能功能集成到Pandas中,使数据框具备对话能力。 | 代码 | ||
| RobloxScripterAI | RobloxScripterAI是用于Roblox的AI驱动代码生成工具。 | Roblox | 代码 | |
| Scikit-LLM | 将像ChatGPT这样强大的语言模型无缝集成到scikit-learn中,以增强文本分析任务。 | 代码 | ||
| SoTaNa | 开源的软件开发助手。 | arXiv | 代码 | |
| Stable Code 3B | 编码的前沿。 | 代码 | ||
| StarCoder | 💫 StarCoder是一个在源代码和自然语言文本上训练的语言模型(LM)。 | arXiv | 代码 | |
| StarCoder 2 | StarCoder2是一系列代码生成模型(3B、7B和15B),它们在The Stack v2中的600多种编程语言以及一些自然语言文本(如维基百科、Arxiv和GitHub问题)上进行了训练。 | arXiv | 代码 | |
| UnityGen AI | UnityGen AI是用于Unity的AI驱动代码生成插件。 | Unity | 代码 | |
| Void | Void是开源的Cursor替代品。使用最佳的AI工具编写代码,完全掌控你的数据,并访问强大的AI功能。 | 代码 |
图片
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| AnyDoor | 零样本对象级图像定制。 | arXiv | 图像 | |
| AnyText | 多语言视觉文本生成与编辑。 | arXiv | 图像 | |
| AutoStudio | 在多轮交互式图像生成中构建一致的主题。 | arXiv | 图像 | |
| BAGEL | BAGEL - 多模态理解和生成的统一模型。BAGEL是一个开源的多模态基础模型,具有70亿活跃参数(总140亿),在大规模交错的多模态数据上训练而成。 | arXiv | 图像 | |
| Blender-ControlNet | 直接在Blender中使用ControlNet。 | Blender | 图像 | |
| BriVL | 桥接视觉与语言模型。 | arXiv | 图像 | |
| CatVTON | CatVTON:对于基于扩散模型的虚拟试穿,只需拼接即可。 | arXiv | 图像 | |
| CLIPasso | 一种将物体图像转换为草图的方法,允许不同程度的抽象化。 | arXiv | 图像 | |
| ClipDrop | 几秒钟内创建惊艳的视觉效果。 | 图像 | ||
| ComfyUI | 一个功能强大且模块化的稳定扩散GUI,采用图/节点界面。 | 图像 | ||
| ConceptLab | 使用扩散先验约束进行创意生成。 | arXiv | 图像 | |
| ControlNet | ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。 | arXiv | 图像 | |
| CSGO | CSGO:文本到图像生成中的内容-风格组合。 | arXiv | 图像 | |
| DALL·E 2 | DALL·E 2是一个能够根据自然语言描述生成逼真图像和艺术作品的AI系统。 | 图像 | ||
| Dashtoon Studio | Dashtoon Studio是一个由AI驱动的漫画创作平台。 | 漫画 | ||
| DeepAI | DeepAI提供了一系列利用AI提升创造力的工具。 | 图像 | ||
| DeepFloyd IF | IF由StabilityAI旗下的DeepFloyd实验室开发。 | 图像 | ||
| Depth Anything V2 | Depth Anything V2 | arXiv | 图像 | |
| 深度图库和姿势器 | 用于Automatic1111/stable-diffusion-webui的Control Net扩展的深度图库。 | 图像 | ||
| Diffuse to Choose | 丰富潜在扩散模型中的图像条件修复,用于虚拟试穿。 | arXiv | 图像 | |
| Disco Diffusion | 一个由笔记本、模型和技术拼凑而成的“弗兰肯斯坦”式集合体,用于生成AI艺术和动画。 | 图像 | ||
| DragGAN | 基于点的交互式操作,应用于生成式图像流形。 | arXiv | 图像 | |
| Draw Things | 你口袋里的AI辅助图像生成。 | 图像 | ||
| DWPose | 两阶段蒸馏实现高效全身姿态估计。 | arXiv | 图像 | |
| EasyPhoto | 你的智能AI照片生成器。 | 图像 | ||
| Flux | 该仓库包含运行我们Flux潜在校正流变换器进行文本到图像和图像到图像生成所需的最小推理代码。 | 图像 | ||
| Follow-Your-Click | 通过简短提示实现开放域区域图像动画。 | arXiv | 图像 | |
| Fooocus | 专注于提示词和生成。 | 图像 | ||
| GIFfusion | 使用稳定扩散创建GIF和视频。 | 图像 | ||
| Grounded-Segment-Anything | 自动检测、分割并根据图像、文本和音频输入生成任何内容。 | arXiv | 图像 | |
| HivisionIDPhotos | HivisionIDPhotos:一款轻量且高效的AI身份证照片工具。 | 图像 | ||
| Hua | Hua是一款带有稳定扩散(以及更多)的AI图像编辑器。 | 图像 | ||
| Hunyuan-DiT | 一款强大的多分辨率扩散Transformer,具备精细的中文理解能力。 | arXiv | 图像 | |
| HunyuanImage-2.1 | HunyuanImage-2.1:一款高效的高分辨率(2K)文本到图像生成扩散模型。 | 图像 | ||
| HunyuanImage-3.0 | HunyuanImage-3.0:一款强大的原生多模态图像生成模型。 | 图像 | ||
| IC-Light | IC-Light是一个用于操纵图像光照的项目。 | 图像 | ||
| Ideogram | 帮助人们变得更有创造力。 | 图像 | ||
| Imagen | Imagen是一个能够根据输入文本创建逼真图像的AI系统。 | 图像 | ||
| img2img-turbo | 使用SD-Turbo进行一步图像到图像转换。 | 图像 | ||
| Img2Prompt | 从稳定扩散生成的图像中获取提示词。 | 图像 | ||
| Infinity | Infinity:用于高分辨率图像合成的按位自回归建模扩展。 | arXiv | 图像 | |
| InstantID | 零样本身份保留生成,几秒钟内完成。 | arXiv | 图像 | |
| InternLM-XComposer2 | InternLM-XComposer2是一款突破性的视觉-语言大型模型(VLLM),在自由格式的文本-图像组合及理解方面表现出色。 | arXiv | 图像 | |
| IRG | IRG - 交错推理以改善文本到图像生成。 | arXiv | 图像 | |
| KOALA | 自注意力在潜在扩散模型的知识蒸馏中至关重要,有助于实现内存高效且快速的图像合成。 | 图像 | ||
| Kolors | Kolors:用于逼真文本到图像合成的扩散模型有效训练。 | 图像 | ||
| Komiko | Komiko是一个由AI驱动的故事讲述平台,可让您轻松创建原创角色、漫画和动画。 | 漫画 | ||
| KREA | 使用令人愉悦的AI驱动设计工具生成图像和视频。 | 图像 | ||
| LaVi-Bridge | 为文本到图像生成桥接不同语言模型和生成式视觉模型。 | arXiv | 图像 | |
| LayerDiffusion | 利用潜在透明度进行透明图像层扩散。 | arXiv | 图像 | |
| Lexica | 一个稳定扩散提示词搜索引擎。 | 图像 | ||
| LlamaGen | 自回归模型胜过扩散模型:Llama用于可扩展的图像生成。 | arXiv | 图像 | |
| Lumina-Image 2.0 | Lumina-Image 2.0:一个统一且高效的图像生成模型。 | 图像 | ||
| Lumina-mGPT | Lumina-mGPT:通过多模态生成式预训练,照亮灵活的逼真文本到图像生成。 | arXiv | 图像 | |
| MakeAnything | MakeAnything:利用扩散Transformer进行多领域程序性序列生成。 | arXiv | 图像 | |
| MetaShoot | MetaShoot是摄影棚的数字孪生,作为Unreal Engine的插件开发,使任何创作者都能以最简单快捷的方式制作出高度逼真的渲染图。 | Unreal Engine | 图像 | |
| Midjourney | Midjourney是一个独立的研究实验室,探索新的思维媒介,并拓展人类的想象力。 | 图像 | ||
| MIGC | MIGC:用于文本到图像合成的多实例生成控制器。 | arXiv | 图像 | |
| MimicBrush | 零样本参考模仿图像编辑。 | arXiv | 图像 | |
| NextStep-1 | NextStep-1:迈向大规模连续标记的自回归图像生成。 | arXiv | 图像 | |
| OmniGen | OmniGen:统一图像生成。 | arXiv | 图像 | |
| OmniGen2 | OmniGen2:探索高级多模态生成。 | arXiv | 图像 | |
| Oniichan | AI精灵生成器和游戏角色创作者。使用自定义微调模型,根据文本提示生成游戏就绪的角色精灵和原创角色,支持编辑、修复和可重用的角色库。 | 漫画 | ||
| Omost | Omost是一个将LLM的编码能力转化为图像生成(或更准确地说,图像构图)能力的项目。 | 图像 | ||
| Openpose Editor | AUTOMATIC1111的稳定扩散WebUI的Openpose编辑器。 | 图像 | ||
| Outfit Anyone | 超高质量的任意服装和任意人物的虚拟试穿。 | 图像 | ||
| PaintsUndo | PaintsUndo:数字绘画中绘画行为的基础模型。 | 图像 | ||
| PhotoMaker | 通过堆叠ID嵌入来自定义逼真人像照片。 | arXiv | 图像 | |
| Photoroom | AI背景生成器。 | 图像 | ||
| Plask | 云端AI图像生成。 | 图像 | ||
| PosterCraft | PosterCraft:在一个统一框架中重新思考高质量美学海报生成。 | arXiv | 图像 | |
| Prompt.Art | 生成器中心。 | 图像 | ||
| PromptEnhancer | PromptEnhancer:通过思维链提示重写来增强文本到图像模型的简单方法。 | arXiv | 图像 | |
| PuLID | 纯粹而闪电般的ID定制,通过对比对齐实现。 | arXiv | 图像 | |
| Qwen-Image | Qwen-Image是一个强大的图像生成基础模型,能够进行复杂的文本渲染和精确的图像编辑。 | arXiv | 图像 | |
| Qwen-Image-Edit | 基于我们200亿参数的Qwen-Image模型,Qwen-Image-Edit成功地将Qwen-Image独特的文本渲染能力扩展到图像编辑任务,实现了精确的文本编辑。 | arXiv | 图像 | |
| Rich-Text-to-Image | 使用富文本进行富有表现力的文本到图像生成。 | arXiv | 图像 | |
| RPG-DiffusionMaster | 掌握文本到图像扩散:使用多模态LLM(PRG)进行重新标题、规划和生成。 | 图像 | ||
| SEED-Story | SEED-Story:使用大型语言模型进行多模态长篇故事生成。 | arXiv | 图像 | |
| Segment Anything | Segment Anything Model (SAM):Meta AI推出的一款新型AI模型,只需单击一下,就能在任何图像中“剪切”出任何物体。 | arXiv | 图像 | |
| Segment Anything Model 2 (SAM 2) | SAM 2:在图像和视频中分割任何内容。 | arXiv | 图像 | |
| sd-webui-controlnet | ControlNet的WebUI扩展。 | 图像 | ||
| SDXL-Lightning | 渐进式对抗性扩散蒸馏。 | arXiv | 图像 | |
| SDXS | 实时一步式潜在扩散模型,带图像条件。 | 图像 | ||
| SkyworkUniPic | SkyworkUniPic - 统一的自回归建模,用于视觉理解和生成。 | 图像 | ||
| Stable.art | 以Automatic1111为后端(本地或通过Google Colab)的Stable Diffusion Photoshop插件。 | 图像 | ||
| Stable Cascade | Stable Cascade由三个模型组成:A阶段、B阶段和C阶段,代表一个用于生成图像的级联过程,因此得名“Stable Cascade”。 | 图像 | ||
| Stable Diffusion | 一种潜在的文本到图像扩散模型。 | 图像 | ||
| stable-diffusion.cpp | 纯C/C++实现的稳定扩散。 | 图像 | ||
| Stable Diffusion web UI | 基于Gradio库的稳定扩散浏览器界面。 | 图像 | ||
| Stable Diffusion web UI | 基于网页的稳定扩散用户界面。 | 图像 | ||
| Stable Diffusion WebUI Chinese | 稳定扩散WebUI的中文版本。 | 图像 | ||
| Stable Diffusion XL | 根据文本生成图像。 | arXiv | 图像 | |
| Stable Diffusion XL Turbo | 实时文本到图像生成。 | 图像 | ||
| Stable Diffusion 3.5 | Stable Diffusion 3.5公开发布包括多个模型变体,其中包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。 | 图像 | ||
| Stable Doodle | Stable Doodle是一款草图转图像工具,可将简单的绘图转换为动态图像。 | 图像 | ||
| StableStudio | Stability AI推出的StableStudio | 图像 | ||
| StoryMaker | StoryMaker:迈向文本到图像生成中整体一致的角色。 | arXiv | 图像 | |
| StreamDiffusion | 一种面向实时交互式生成的流水线级解决方案。 | 图像 | ||
| StyleDrop | 以任何风格进行文本到图像生成。 | arXiv | 图像 | |
| SyncDreamer | 从单视图图像生成多视角一致的图像。 | arXiv | 图像 | |
| UltraEdit | UltraEdit:基于指令的大规模细粒度图像编辑。 | arXiv | 图像 | |
| UltraPixel | UltraPixel:将超高分辨率图像合成推进至新高峰。 | arXiv | 图像 | |
| Unity ML Stable Diffusion | Unity上的Core ML稳定扩散。 | Unity | 图像 | |
| USO | USO:通过解耦和奖励学习实现统一的风格和主题驱动生成。 | arXiv | 图像 | |
| Vispunk Visions | 文本到图像生成平台。 | 图像 |
纹理
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| CRM | 基于卷积重建模型,将单张图像转换为3D纹理网格。 | arXiv | 纹理 | |
| DreamMat | 基于几何和光照感知的扩散模型,生成高质量的PBR材质。 | arXiv | 纹理 | |
| DreamSpace | 通过文本驱动的全景纹理传播,实现房间空间的梦境化渲染。 | 纹理 | ||
| Dream Textures | 内置于Blender的Stable Diffusion工具,只需简单的文本提示即可创建纹理、概念艺术、背景素材等。 | Blender | 纹理 | |
| InstructHumans | 使用指令编辑动画3D人体纹理。 | arXiv | 纹理 | |
| InteX | 通过统一的深度感知修复技术实现交互式文本到纹理的合成。 | arXiv | 纹理 | |
| LLaMA-Mesh | LLaMA-Mesh:将3D网格生成与语言模型相结合。 | arXiv | 网格 | |
| MaterialSeg3D | MaterialSeg3D:从2D先验中分割出密集的3D资产材质。 | arXiv | 纹理 | |
| MeshAnything | MaterialSeg3D:从2D先验中分割出密集的3D资产材质。 | arXiv | 网格 | |
| Neuralangelo | 高保真神经表面重建。 | arXiv | 纹理 | |
| Paint-it | 通过深度卷积纹理贴图优化和物理渲染实现文本到纹理的合成。 | 纹理 | ||
| Polycam | 只需输入文字即可创建自己的3D纹理。 | 纹理 | ||
| TexFusion | 利用文本引导的图像扩散模型合成3D纹理。 | arXiv | 纹理 | |
| Text2Tex | 基于扩散模型的文本驱动纹理合成。 | arXiv | 纹理 | |
| Texture Lab | AI生成的纹理。你可以通过文本提示生成属于自己的纹理。 | 纹理 | ||
| With Poly | 使用Poly创建纹理。在免费在线编辑器中利用AI生成3D材质,或浏览我们不断增长的社区资源库。 | 纹理 | ||
| X-Mesh | X-Mesh:通过动态文本指导,实现快速且准确的文本驱动3D风格化。 | arXiv | 纹理 |
着色器
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| AI Shader | 基于 ChatGPT 的 Unity 着色器生成器。 | Unity | 着色器 |
3D 模型
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| Animate3D | Animate3D:利用多视角视频扩散模型为任意3D模型添加动画。 | arXiv | 3D | |
| Anything-3D | Segment-Anything + 3D。让我们将任何内容升级到3D。 | arXiv | 模型 | |
| Any2Point | Any2Point:赋能多模态大型模型,实现高效的3D理解。 | arXiv | 3D | |
| BlenderGPT | 使用英文指令通过OpenAI的GPT-4控制Blender。 | Blender | 模型 | |
| Blender-GPT | 由GPT3/4和Whisper集成驱动的一体化Blender助手。 | Blender | 模型 | |
| BlenderMCP | BlenderMCP通过模型上下文协议(MCP)将Blender与Claude AI连接起来,使Claude能够直接与Blender交互并控制它。这种集成支持基于提示的3D建模、场景创建和操作。 | Blender | 模型 | |
| Blockade Labs | 数字炼金术已成为现实——Skybox Lab是终极的AI驱动解决方案,可根据文本提示生成令人惊叹的360°天空盒体验。 | 模型 | ||
| CF-3DGS | 无需COLMAP的3D高斯泼溅。 | arXiv | 3D | |
| CharacterGen | CharacterGen:通过多视角姿态归一化,从单张图像高效生成3D角色。 | arXiv | 3D | |
| chatGPT-maya | 一个简单的Maya工具,利用OpenAI根据描述性指令执行基本任务。 | Maya | 模型 | |
| CityDreamer | 无界3D城市的组合式生成模型。 | arXiv | 3D | |
| CSM | 根据图片和视频生成3D世界。 | 3D | ||
| Dash | 你在虚幻引擎中构建世界的副驾驶。 | 虚幻引擎 | 3D | |
| Direct3D-S2 | Direct3D-S2:借助空间稀疏注意力,轻松实现千兆规模的3D生成。 | arXiv | 3D | |
| DreamCatalyst | DreamCatalyst:通过控制可编辑性和身份保留,实现快速高质量的3D编辑。 | arXiv | 3D | |
| DreamGaussian4D | 生成式4D高斯泼溅。 | arXiv | 4D | |
| DUSt3R | 几何3D视觉变得简单易行。 | arXiv | 3D | |
| Edify 3D | Edify 3D:可扩展的高质量3D资产生成。 | arXiv | 3D | |
| GALA3D | GALA3D:通过布局引导的生成式高斯泼溅,迈向文本到复杂3D场景的生成。 | arXiv | 3D | |
| GaussCtrl | GaussCtrl:多视角一致的文本驱动3D高斯泼溅编辑。 | arXiv | 3D | |
| GaussianCube | 一种用于3D生成建模的结构化显式辐射表示。 | arXiv | 3D | |
| GaussianDreamer | 借助点云先验,从文本快速生成3D高斯泼溅。 | arXiv | 3D | |
| GenieLabs | 用AI生成的内容为你的游戏赋能。 | 3D | ||
| HiFA | 高保真文本到3D,配备先进的扩散指导。 | 模型 | ||
| HoloDreamer | HoloDreamer:根据文本描述生成整体3D全景世界。 | arXiv | 3D | |
| Hunyuan3D-1.0 | Hunyuan3D-1.0:统一的文本到3D和图像到3D生成框架。 | arXiv | 3D | |
| Hunyuan3D 2.0 | Hunyuan3D 2.0:扩展扩散模型以生成高分辨率带纹理的3D资产。 | arXiv | 3D | |
| Hunyuan3D 2.1 | Hunyuan3D 2.1:从图像生成高保真3D资产,采用可直接用于生产的PBR材质。 | arXiv | 3D | |
| Infinigen | 使用程序化生成无限逼真的世界。 | arXiv | 3D | |
| Instruct-NeRF2NeRF | 通过指令编辑3D场景。 | arXiv | 模型 | |
| Interactive3D | 通过交互式3D生成创造你想要的内容。 | arXiv | 3D | |
| Isotropic3D | 基于单个CLIP嵌入的图像到3D生成。 | 3D | ||
| LATTE3D | 大规模摊销式文本到增强3D合成。 | arXiv | 3D | |
| LION | 用于3D形状生成的潜在点扩散模型。 | arXiv | 模型 | |
| Luma AI | 以栩栩如生的3D捕捉。无与伦比的写实感、反射和细节。VFX的未来现在属于每个人! | 模型 | ||
| lumine AI | AI驱动的创造力。 | 3D | ||
| Make-It-3D | 借助扩散先验,从单张图像高质量地创建3D作品。 | arXiv | 模型 | |
| Meshy | 用AI创建惊艳的3D游戏资产。 | 3D | ||
| Mootion | 神奇的3D AI动画制作工具。 | 3D | ||
| MVDream | 多视角扩散用于3D生成。 | arXiv | 3D | |
| NVIDIA Instant NeRF | 即时神经图形原语:闪电般的NeRF速度及其他功能。 | 模型 | ||
| One-2-3-45 | 在不进行逐形状优化的情况下,45秒内即可将任意单张图像转换为3D网格。 | arXiv | 模型 | |
| Paint3D | 使用无光照纹理扩散模型绘制任何3D对象。 | arXiv | 3D | |
| PAniC-3D | 基于动漫角色肖像的风格化单视图3D重建。 | arXiv | 模型 | |
| PhysRig | PhysRig:用于真实关节物体建模的可微分物理驱动绑定。 | arXiv | 模型 | |
| Point·E | 点云扩散用于3D模型合成。 | 模型 | ||
| ProlificDreamer | 通过变分分数蒸馏实现高保真且多样化的文本到3D生成。 | arXiv | 模型 | |
| Seele AI | 输入文本即可生成可玩的3D游戏。 | 3D | ||
| SF3D | SF3D:稳定快速的3D网格重建,具备UV展开和光照解耦功能。 | arXiv | 3D | |
| Shap-E | 根据文本或图像条件生成3D对象。 | arXiv | 模型 | |
| Sloyd | 3D建模从未如此简单。 | 模型 | ||
| Spline AI | AI的力量正在进入第三维度。使用提示生成对象、动画和纹理。 | 模型 | ||
| Stable Dreamfusion | 由Stable Diffusion文本到2D模型驱动的text-to-3D模型Dreamfusion的PyTorch实现。 | 模型 | ||
| Step1X-3D | Step1X-3D:迈向高质量且可控的带纹理3D资产生成。 | arXiv | 3D | |
| SV3D | 利用潜在视频扩散技术,从单张图像实现新颖的多视角合成和3D生成。 | arXiv | 3D | |
| Tafi | AI文本到3D角色引擎。 | 模型 | ||
| 3D-GPT | 使用大型语言模型进行程序化3D建模。 | arXiv | 3D | |
| 3D-LLM | 将3D世界注入大型语言模型中。 | arXiv | 3D | |
| 3Dpresso | 从视频中捕获的对象提取3D模型。 | 模型 | ||
| 3DTopia | 文本到3D生成,仅需5分钟。 | arXiv | 3D | |
| 3DTopia-XL | 3DTopia-XL:通过原始扩散技术扩大高质量3D资产生成规模。 | arXiv | 3D | |
| threestudio | 一个用于3D内容生成的统一框架。 | 模型 | ||
| TripoSR | 一款最先进的开源模型,可从单张图像快速进行前馈式3D重建。 | arXiv | 模型 | |
| Unique3D | 从单张图像高效生成高质量3D网格。 | arXiv | 3D | |
| UnityGaussianSplatting | 在Unity中展示玩具级的高斯泼溅可视化效果。 | Unity | 3D | |
| ViVid-1-to-3 | 利用视频扩散模型进行新颖的视图合成。 | arXiv | 3D | |
| Voxcraft | 用AI打造即用型3D模型。 | 3D | ||
| Wonder3D | 使用跨域扩散技术将单张图像转换为3D。 | arXiv | 3D | |
| Zero-1-to-3 | 零样本单张图像到3D对象。 | arXiv | 模型 |
头像
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| AniPortrait | 基于音频驱动的真实感人像动画合成。 | arXiv | Avatar | |
| CALM | 可控虚拟角色的条件对抗潜空间模型。 | arXiv | Avatar | |
| ChatAvatar | 文本引导下的可动画3D人脸渐进式生成。 | Avatar | ||
| ChatdollKit | ChatdollKit让你可以将你的3D模型变成聊天机器人。 | Unity | Avatar | |
| Ditto | Ditto:用于可控实时说话头合成的运动空间扩散模型。 | arXiv | Avatar | |
| DreamTalk | 富有表现力的说话头生成与扩散概率模型的结合。 | arXiv | Avatar | |
| Duix | Duix - 基于硅基的数字人SDK 🌐🤖 | Avatar | ||
| EchoMimic | EchoMimic:通过可编辑的特征点条件实现逼真的音频驱动人像动画。 | arXiv | Avatar | |
| EMOPortraits | 情感增强的多模态单次拍摄头部Avatar。 | Avatar | ||
| EmoVOCA | EmoVOCA:语音驱动的情感化3D说话头。 | arXiv | Avatar | |
| E3 Gen | 高效、富有表现力且可编辑的Avatar生成。 | arXiv | Avatar | |
| ExAvatar | ExAvatar - 富有表现力的全身3D高斯Avatar。 | arXiv | Avatar | |
| GeneAvatar | 基于单张图像的通用表情感知体积头部Avatar编辑。 | arXiv | Avatar | |
| GeneFace++ | 广泛适用且稳定的实时3D说话脸生成。 | Avatar | ||
| Hallo | 用于人像图像动画的分层音频驱动视觉合成。 | arXiv | Avatar | |
| Hallo2 | Hallo2:长时长、高分辨率的音频驱动人像图像动画。 | arXiv | Avatar | |
| HeadSculpt | 使用文本制作3D头部Avatar。 | arXiv | Avatar | |
| HunyuanPortrait | HunyuanPortrait:用于增强人像动画的隐式条件控制。 | arXiv | Avatar | |
| HunyuanVideo-Avatar | HunyuanVideo-Avatar:面向多角色的高保真音频驱动人体动画。 | arXiv | Avatar | |
| IntrinsicAvatar | IntrinsicAvatar:基于物理的逆向渲染,通过显式光线追踪从单目视频中重建动态人类。 | arXiv | Avatar | |
| Linly-Talker | 数字Avatar对话系统。 | Avatar | ||
| LivePortrait | LivePortrait:具有拼接和重定向控制的高效人像动画。 | arXiv | Avatar | |
| MotionGPT | 将人体运动视为一门外语,利用LLM构建统一的运动-语言生成模型。 | arXiv | Avatar | |
| MusePose | MusePose:一种基于姿态驱动的图生视频框架,用于虚拟人类生成。 | Avatar | ||
| MuseTalk | 利用潜在空间修复技术实现高质量的实时唇形同步。 | Avatar | ||
| MuseV | 基于视觉条件并行去噪技术,实现无限长度、高保真的虚拟人类视频生成。 | Avatar | ||
| Portrait4D | 使用合成数据学习单次拍摄的4D头部Avatar合成。 | arXiv | Avatar | |
| Ready Player Me | 在几天内将可定制的Avatar集成到你的游戏或应用中。 | Avatar | ||
| RodinHD | RodinHD:使用扩散模型生成高保真3DAvatar。 | arXiv | Avatar | |
| StableAvatar | StableAvatar:无限长度的音频驱动Avatar视频生成。 | arXiv | Avatar | |
| StyleAvatar3D | 利用图文扩散模型生成高保真3DAvatar。 | arXiv | Avatar | |
| Text2Control3D | 使用几何引导的图文扩散模型,在神经辐射场中实现可控的3DAvatar生成。 | arXiv | Avatar | |
| Topo4D | 保持拓扑结构的高斯泼溅技术,用于高保真4D头部捕捉。 | arXiv | Avatar | |
| UnityAIWithChatGPT | 基于Unity,实现了ChatGPT+UnityChan的语音交互展示。 | Unity | Avatar | |
| Vid2Avatar | 通过自监督场景分解,从野外视频中重建3DAvatar。 | arXiv | Avatar | |
| VLOGGER | 多模态扩散模型用于具身Avatar合成。 | Avatar | ||
| Wild2Avatar | 渲染被遮挡的人体。 | arXiv | Avatar |
动画
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| Animate Anyone | 用于角色动画的一致且可控的图像到视频合成。 | arXiv | 动画 | |
| AnimateAnything | 基于运动引导的细粒度开放域图像动画。 | arXiv | 动画 | |
| AnimateDiff | 无需特定微调即可动画化您的个性化文本到图像扩散模型。 | arXiv | 动画 | |
| AnimateLCM | 让我们在4步内加速视频生成! | arXiv | 动画 | |
| Animate-X | Animate-X:具有增强运动表示的通用角色图像动画。 | arXiv | 动画 | |
| AnimateZero | 视频扩散模型是零样本图像动画器。 | arXiv | 动画 | |
| AnimationGPT | 用于生成游戏战斗动作资源的AIGC工具。 | 动画 | ||
| Deforum | Deforum 利用 Stable Diffusion 生成不断演变的 AI 视觉效果。 | 动画 | ||
| DrawingSpinUp | DrawingSpinUp:从单个角色绘画中生成3D动画。 | arXiv | 动画 | |
| DreaMoving | 基于扩散模型的人类视频生成框架。 | arXiv | 动画 | |
| FaceFusion | 新一代人脸替换与增强工具。 | 动画 | ||
| FreeInit | 弥补视频扩散模型中的初始化差距。 | arXiv | 动画 | |
| GeneFace | 广义且高保真度的音频驱动3D说话人脸合成。 | arXiv | 动画 | |
| ID-Animator | 零样本身份保留的人类视频生成。 | arXiv | 动画 | |
| HY-Motion 1.0 | HY-Motion 1.0:用于文本到运动生成的缩放流匹配模型。 | arXiv | 动画 | |
| Index-AniSora | Index-AniSora 是功能最强大的开源动画视频生成模型。它支持一键创建涵盖多种动漫风格的视频片段,包括系列剧集、国产原创动画、漫画改编作品、VTuber 内容、动漫 PV、鬼畜动画等! | arXiv | 动画 | |
| MagicAnimate | 使用扩散模型进行时间一致的人像动画。 | arXiv | 动画 | |
| NUWA | DragNUWA 是一款开放域的基于扩散的视频生成模型,以文本、图像和轨迹控制作为输入,实现可控的视频生成。 | arXiv | 动画 | |
| NUWA-Infinity | NUWA-Infinity 是一款多模态生成模型,旨在根据给定的文本、图像或视频输入生成高质量的图像和视频。 | 动画 | ||
| NUWA-XL | 一种用于生成超长视频的新型“扩散之上扩散”架构。 | 动画 | ||
| Omni Animation | AI 生成的高保真动画。 | 动画 | ||
| PIA | 通过文本到图像模型中的即插即用模块,打造您的个性化图像动画师。 | arXiv | 动画 | |
| SadTalker | 学习逼真的3D运动系数,用于风格化的音频驱动单张图片说话人脸动画。 | arXiv | 动画 | |
| SadTalker-Video-Lip-Sync | 该项目基于 SadTalkers Wav2lip 进行视频口型同步。 | 动画 | ||
| Stable Animation | 一款功能强大的面向开发者的文本到动画工具。 | 动画 | ||
| ToonComposer | ToonComposer:通过生成式后期关键帧技术简化卡通制作流程。 | arXiv | 动画 | |
| TaleCrafter | 一款支持多角色的互动故事可视化工具。 | arXiv | 动画 | |
| ToonCrafter | ToonCrafter:生成式卡通插值。 | arXiv | 动画 | |
| Wav2Lip | 准确地为真实场景中的视频进行口型同步。 | arXiv | 动画 | |
| Wonder Studio | 一款AI工具,可自动将CG角色动画化、打光并合成到真人场景中。 | 动画 |
视频
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| 360DVD | 基于360度视频扩散模型的可控全景视频生成。 | arXiv | 视频 | |
| Animate-A-Story | 基于检索增强的叙事视频生成。 | arXiv | 视频 | |
| Anything in Any Scene | 照片级真实感视频对象插入。 | 视频 | ||
| ART•V | 基于扩散模型的自回归文本到视频生成。 | arXiv | 视频 | |
| Assistive | 遇见能将你的创意变为现实的生成式视频平台。 | 视频 | ||
| AtomoVideo | 高保真图像到视频生成。 | arXiv | 视频 | |
| BackgroundRemover | Background Remover 允许你使用 AI 通过一个简单且免费开源的命令行界面移除图片和视频中的背景。 | 视频 | ||
| Boximator | 为视频合成生成丰富且可控的运动。 | arXiv | 视频 | |
| CoDeF | 用于时序一致视频处理的内容变形场。 | arXiv | 视频 | |
| CogVideo | 根据文本描述生成视频。 | 视频 | ||
| CogVideoX | CogVideoX 是视频生成模型的开源版本,与清影同源。 | 视频 | ||
| CogVLM | CogVLM 是一款强大的开源视觉语言模型 (VLM)。 | 视觉 | ||
| CoNR | 从手绘动漫角色原画 (ACS) 生成生动的舞蹈视频。 | arXiv | 视频 | |
| Decohere | 创造无法拍摄的内容。 | 视频 | ||
| Descript | Descript 是一种简单、强大且有趣的编辑方式。 | 视频 | ||
| Diffutoon | 基于扩散模型的高分辨率可编辑卡通渲染。 | arXiv | 视频 | |
| dolphin | 基于 LLM 的通用视频交互平台。 | 视频 | ||
| DomoAI | 用 DomoAI 提升你的创造力。 | 视频 | ||
| DreamCinema | DreamCinema:自由摄像机与 3D 角色的电影化迁移。 | arXiv | 视频 | |
| DynamiCrafter | 使用视频扩散先验对开放域图像进行动画化。 | arXiv | 视频 | |
| EDGE | 我们介绍了 EDGE,这是一种功能强大的可编辑舞蹈生成方法,能够在忠实于任意输入音乐的同时生成逼真且符合物理规律的舞蹈。 | arXiv | 视频 | |
| EMO | Emote Portrait Alive - 在弱条件下使用 Audio2Video 扩散模型生成富有表现力的肖像视频。 | arXiv | 视频 | |
| Emu Video | 通过显式图像条件化实现文本到视频生成的因子分解。 | 视频 | ||
| Etna | Etna 可以根据简短的文本描述生成相应的视频内容。 | 视频 | ||
| Fairy | 快速并行化的指令引导型视频到视频合成。 | 视频 | ||
| Follow-Your-Canvas | Follow-Your-Canvas:更高分辨率的视频外延与大量内容生成。 | arXiv | 视频 | |
| Follow Your Pose | 使用无姿态视频进行姿态引导的文本到视频生成。 | arXiv | 视频 | |
| FullJourney | 你触手可及的完整 AI 创作工具套件。 | 视频 | ||
| Gen-2 | 一个多模态 AI 系统,能够根据文本、图像或视频片段生成新颖的视频。 | 视频 | ||
| Generative Dynamics | 生成式图像动力学。 | 视频 | ||
| Genie | 生成式交互环境。 | arXiv | 视频 | |
| Genmo | 用 AI 巧妙地制作视频。 | 视频 | ||
| GenTron | 用于图像和视频生成的扩散变换器。 | 视频 | ||
| HiGen | 用于文本到视频生成的分层时空解耦。 | 视频 | ||
| Hotshot-XL | Hotshot-XL 是一个与 Stable Diffusion XL 配合使用的 AI 文本到 GIF 模型。 | 视频 | ||
| HuMo | HuMo:通过协作式多模态条件化实现以人为本的视频生成。 | arXiv | 视频 | |
| HunyuanVideo | HunyuanVideo:大型视频生成模型的系统性框架。 | arXiv | 视频 | |
| HunyuanVideo-1.5 | HunyuanVideo-1.5:领先的轻量级视频生成模型。 | 视频 | ||
| Imagen Video | 给定一个文本提示,Imagen Video 使用基础视频生成模型以及一系列交错的空间和时间视频超分辨率模型生成高清视频。 | 视频 | ||
| InfiniteTalk | InfiniteTalk:基于音频驱动的稀帧视频配音视频生成。 | arXiv | 视频 | |
| InstructVideo | 通过人类反馈指导视频扩散模型。 | arXiv | 视频 | |
| I2VGen-XL | 通过级联扩散模型实现高质量的图像到视频合成。 | arXiv | 视频 | |
| LaVie | 使用级联潜在扩散模型进行高质量视频生成。 | arXiv | 视频 | |
| LongLive | LongLive:实时交互式长视频生成。 | arXiv | 视频 | |
| LTX Studio | LTX Studio 是一个面向创作者、营销人员、电影制作人和工作室的全方位 AI 驱动的电影制作平台。 | 视频 | ||
| LTX-Video | LTX-Video 是首个基于 DiT 的视频生成模型,能够实时生成高质量视频。它可以以 768x512 分辨率生成 24 FPS 的视频,速度比观看它们还快。 | 视频 | ||
| Lumiere | 用于视频生成的时空扩散模型。 | arXiv | 视频 | |
| LVDM | 用于高保真长视频生成的潜在视频扩散模型。 | arXiv | 视频 | |
| Lynx | Lynx:迈向高保真个性化视频生成。 | arXiv | 视频 | |
| MagicVideo | 使用潜在扩散模型高效生成视频。 | arXiv | 视频 | |
| MagicVideo-V2 | 多阶段高审美视频生成。 | arXiv | 视频 | |
| Magic Hour | 为创作者打造的简单易用的 AI 视频。 | 视频 | ||
| MAGVIT-v2 | 令牌化是视觉生成的关键。 | 视频 | ||
| MAGVIT | 掩码生成式视频变压器。 | 视频 | ||
| Make-A-Video | Make-A-Video 是一个最先进的 AI 系统,可以根据文本生成视频。 | arXiv | 视频 | |
| Make Pixels Dance | 高动态范围视频生成。 | arXiv | 视频 | |
| Make-Your-Video | 使用文本和结构引导进行定制化视频生成。 | arXiv | 视频 | |
| MicroCinema | 一种用于文本到视频生成的分治法。 | arXiv | 视频 | |
| MIMO | MIMO:利用空间分解建模进行可控的角色视频合成。 | arXiv | 视频 | |
| Mini-Gemini | 挖掘多模态视觉语言模型的潜力。 | 视觉 | ||
| MobileVidFactory | 基于扩散的自动社交媒体视频生成,适用于移动设备,输入为文本。 | 视频 | ||
| Mochi 1 | Mochi 1 是一款开放式的先进视频生成模型,在初步评估中表现出高保真的运动效果和强大的提示遵循能力。 | 视频 | ||
| MOFA-Video | 通过在冻结的图像到视频扩散模型中应用生成式运动场适配,实现可控的图像动画。 | arXiv | 视频 | |
| MoneyPrinterTurbo | 使用大模型一键生成短视频。 | 视频 | ||
| Moonvalley | Moonvalley 是一款突破性的新型文本到视频生成 AI 模型。 | 视频 | ||
| Mora | 更接近 Sora 的通用视频生成模型。 | arXiv | 视频 | |
| Morph Studio | 借助我们的文本到视频 AI 魔法,通过你的提示展现你的创造力。 | 视频 | ||
| MotionClone | MotionClone:无需训练即可进行运动克隆,用于可控视频生成。 | arXiv | 视频 | |
| MotionCtrl | 用于视频生成的统一且灵活的运动控制器。 | arXiv | 视频 | |
| MotionDirector | 对文本到视频扩散模型进行运动自定义。 | arXiv | 视频 | |
| Motionshop | 将视频中的角色替换为 3D 头像的应用程序。 | 视频 | ||
| Mov2mov | Automatic1111/stable-diffusion-webui 的 Mov2mov 插件。 | 视频 | ||
| MovieFactory | 使用大型语言和图像生成模型,根据文本自动创建电影。 | arXiv | 视频 | |
| MoviiGen 1.1 | MoviiGen 1.1:迈向电影级质量的视频生成模型。MoviiGen 1.1 是一款尖端的视频生成模型,擅长电影美学和视觉质量。该模型是在 Wan2.1 的基础上进行微调的。根据包括行业专家在内的 11 名专业电影制作人和 AIGC 创作者在 60 个美学维度上的综合评估,MoviiGen 1.1 在关键的电影方面表现出色。 | 视频 | ||
| Neural Frames | 发现视觉世界的合成器。 | 视频 | ||
| NeverEnds | 创造属于你的世界。 | 视频 | ||
| Open-Sora | 使高效的视频制作民主化,惠及所有人。 | 视频 | ||
| Open-Sora | Open-Sora 计划。 | 视频 | ||
| Ovi | Ovi:用于音视频生成的双骨干跨模态融合。 | arXiv | 视频 | |
| Phenaki | 一种根据文本生成视频的模型,支持随时间变化的提示,生成的视频最长可达数分钟。 | arXiv | 视频 | |
| Pika Labs | Pika Labs 正在用 AI 彻底改变视频制作体验。 | 视频 | ||
| Pixeling | Pixeling 使我们的客户能够创建高度精确、超逼真且极具控制力的视觉内容,包括图像、视频和 3D 模型。 | 视频 | ||
| PixVerse | 用 AI 创造令人惊叹的视频。 | 视频 | ||
| Pollinations | 创作变得轻松、快速且有趣。 | 视频 | ||
| Reuse and Diffuse | 用于文本到视频生成的迭代去噪。 | arXiv | 视频 | |
| Ruyi | Ruyi 是一款图像到视频模型,能够以 768×768 分辨率、24 帧/秒的帧率生成 5 秒共 120 帧的电影级视频。 | 视频 | ||
| ShortGPT | 一个用于自动化短视频/视频内容创作的实验性 AI 框架。 | 视频 | ||
| Show-1 | 将像素和潜在扩散模型结合用于文本到视频生成。 | arXiv | 视频 | |
| Step-Video-T2V | Step-Video-T2V 技术报告:视频基础模型的实践、挑战与未来。 | arXiv | 视频 | |
| SkyReels-A1 | SkyReels-A1:在视频扩散变压器中进行富有表现力的肖像动画。 | arXiv | 视频 | |
| SkyReels-V1 | SkyReels V1:以人为本的视频基础模型。 | 视频 | ||
| Snap Video | 用于文本到视频合成的缩放时空变换器。 | arXiv | 视频 | |
| Sora | 根据文本创建视频。 | 视频 | ||
| SoraWebui | SoraWebui 是一个开源的 Sora 网页客户端,允许用户使用 OpenAI 的 Sora 模型轻松地根据文本创建视频。 | 视频 | ||
| StableVideo | 基于文本的一致性感知扩散视频编辑。 | 视频 | ||
| Stable Video Diffusion | 稳定视频扩散 (SVD) 图像到视频。 | 视频 | ||
| StoryDiffusion | 用于长距离图像和视频生成的一致性自注意力。 | arXiv | 视频 | |
| StoryMem | StoryMem:带有记忆的多镜头长视频叙事。 | arXiv | 视频 | |
| StreamingT2V | 从文本生成一致、动态且可扩展的长视频。 | arXiv | 视频 | |
| StyleCrafter | 使用风格适配器提升风格化文本到视频生成的质量。 | arXiv | 视频 | |
| TATS | 使用时间无关的 VQGAN 和时间敏感的变压器进行长视频生成。 | 视频 | ||
| Text2Video-Zero | 图像扩散模型是零样本视频生成器。 | arXiv | 视频 | |
| TF-T2V | 使用无姿态视频扩大文本到视频生成规模的配方。 | arXiv | 视频 | |
| Tora | Tora:面向轨迹的视频生成扩散变压器。 | arXiv | 视频 | |
| Track-Anything | Track-Anything 是一个灵活且交互式的视频目标跟踪和分割工具,基于 Segment Anything 和 XMem。 | arXiv | 视频 | |
| Tune-A-Video | 一次性调整图像扩散模型以用于文本到视频生成。 | arXiv | 视频 | |
| TwelveLabs | 多模态 AI 能够像人类一样理解视频。 | 视频 | ||
| UniVG | 朝着统一模态视频生成迈进。 | 视频 | ||
| Vchitect-2.0 | Vchitect-2.0:用于扩大视频扩散模型规模的并行变压器。 | 视频 | ||
| VGen | 一个基于扩散模型构建的视频生成生态系统。 | arXiv | 视频 | |
| ViewCrafter | ViewCrafter:驯服视频扩散模型以实现高保真新视角合成。 | arXiv | 视频 | |
| Video-ChatGPT | Video-ChatGPT 是一个视频对话模型,能够生成关于视频的有意义对话。 | arXiv | 视频 | |
| VideoComposer | 具有运动可控性的组合式视频合成。 | arXiv | 视频 | |
| VideoCrafter1 | 开放式扩散模型用于高质量视频生成。 | arXiv | 视频 | |
| VideoCrafter2 | 克服数据限制以实现高质量视频扩散模型。 | arXiv | 视频 | |
| VideoDrafter | 基于 LLM 的内容一致多场景视频生成。 | arXiv | 视频 | |
| VideoElevator | 通过多功能图像到视频扩散模型提升视频生成质量。 | arXiv | 视频 | |
| VideoFactory | 在时空扩散中交换注意力以进行文本到视频生成。 | 视频 | ||
| VideoGen | 一种参考引导的潜在扩散方法,用于高清文本到视频生成。 | arXiv | 视频 | |
| VideoLCM | 视频潜在一致性模型。 | arXiv | 视频 | |
| Video LDMs | 对齐你的潜在空间:使用潜在扩散模型进行高分辨率视频合成。 | arXiv | 视频 | |
| Video-LLaVA | 通过投影前对齐学习统一的视觉表示。 | arXiv | 视频 | |
| VideoMamba | 用于高效视频理解的状态空间模型。 | arXiv | 视频 | |
| Video-of-Thought | Video-of-Thought:从感知到认知的逐步视频推理。 | 视频 | ||
| VideoPoet | 一个用于零样本视频生成的大语言模型。 | arXiv | 视频 | |
| Vispunk Motion | 仅用文本就能创建逼真的视频。 | 视频 | ||
| VisualRWKV | VisualRWKV 是 RWKV 语言模型的视觉增强版,使 RWKV 能够处理各种视觉任务。 | 视觉 | ||
| V-JEPA | 视频联合嵌入预测架构。 | arXiv | 视频 | |
| W.A.L.T | 基于扩散模型的照相写实主义视频生成。 | arXiv | 视频 | |
| Wan2.1 | Wan:开放且先进的大规模视频生成模型。 | 视频 | ||
| Wan2.2 | Wan:开放且先进的大规模视频生成模型。 | arXiv | 视频 | |
| Waver | Waver 1.0 是下一代通用基础模型家族,用于统一的图像和视频生成,基于校正流 Transformer 构建,并专为工业级性能而设计。 | arXiv | 视频 | |
| Zeroscope | Zeroscope 文本到视频。 | 视频 |
音频
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| AcademiCodec | 用于学术研究的开源音频编解码器模型。 | 音频 | ||
| Amphion | 开源音频、音乐和语音生成工具包。 | arXiv | 音频 | |
| ArchiSound | 使用扩散模型在 PyTorch 中进行音频生成。 | 音频 | ||
| Audiobox | 基于自然语言提示的统一音频生成。 | 音频 | ||
| AudioEditing | 使用 DDPM 反演实现零样本无监督及基于文本的音频编辑。 | arXiv | 音频 | |
| Audiogen Codec | 适用于通用音频的低压缩率 48kHz 立体声神经网络音频编解码器,专注于音频保真度 🎵。 | 音频 | ||
| AudioGPT | 理解并生成语音、音乐、声音及说话人头像。 | arXiv | 音频 | |
| AudioLCM | 使用潜在一致性模型进行文本到音频生成。 | arXiv | 音频 | |
| AudioLDM | 使用潜在扩散模型进行文本到音频生成。 | arXiv | 音频 | |
| AudioLDM 2 | 通过自监督预训练学习整体音频生成。 | arXiv | 音频 | |
| AudioX | AudioX:用于任意内容到音频生成的扩散 Transformer。 | arXiv | 音频 | |
| Auffusion | 利用扩散模型和大型语言模型的力量进行文本到音频生成。 | arXiv | 音频 | |
| CTAG | 通过合成器编程实现创意文本到音频生成。 | 音频 | ||
| FoleyCrafter | FoleyCrafter:为无声视频赋予逼真且同步的声音。 | arXiv | 音频 | |
| HunyuanVideo-Foley | HunyuanVideo-Foley:通过表征对齐的多模态扩散模型实现高保真 Foley 音效生成。 | arXiv | 音频 | |
| MAGNeT | 使用单个非自回归 Transformer 进行掩码音频生成。 | 音频 | ||
| Make-An-Audio | 使用提示增强的扩散模型进行文本到音频生成。 | arXiv | 音频 | |
| Make-An-Audio 3 | 通过基于流的大规模扩散 Transformer 将文本转换为音频。 | arXiv | 音频 | |
| MeanAudio | MeanAudio:使用均值流实现快速且忠实的文本到音频生成。 | 音频 | ||
| MiDashengLM | MiDashengLM:利用通用音频字幕实现高效的音频理解。 | arXiv | 音频 | |
| MMAudio | MMAudio:驯服多模态联合训练,实现高质量的视频到音频合成。 | arXiv | 音频 | |
| NeuralSound | 基于学习的模态声音合成,结合声学迁移。 | arXiv | 音频 | |
| OptimizerAI | 为创作者、游戏开发者、艺术家和视频制作者提供的声音服务。 | 音频 | ||
| Qwen2-Audio | 阿里云提出的 Qwen2-Audio 聊天及预训练大型音频语言模型。 | arXiv | 音频 | |
| SEE-2-SOUND | 零样本空间环境到空间声音。 | arXiv | 音频 | |
| SoundStorm | 高效的并行音频生成。 | arXiv | 音频 | |
| Stable Audio | 快速的时序条件潜在音频扩散。 | 音频 | ||
| Stable Audio Open | Stable Audio Open 1.0 根据文本提示生成可变长度(最长 47 秒)的 44.1kHz 立体声音频。 | 音频 | ||
| SyncFusion | SyncFusion:多模态起始时刻同步的视频到音频 Foley 合成。 | arXiv | 音频 | |
| TANGO | 使用指令微调的 LLM 和潜在扩散模型进行文本到音频生成。 | 音频 | ||
| ThinkSound | ThinkSound:在多模态大型语言模型中运用思维链推理进行音频生成与编辑。 | arXiv | 音频 | |
| VTA-LDM | 带有隐式对齐的视频到音频生成。 | arXiv | 音频 | |
| WavJourney | 使用大型语言模型进行组合式音频创作。 | arXiv | 音频 |
音乐
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| AIVA | 基于人工智能的情感配乐创作。 | 音乐 | ||
| Amper Music | 由 Amper 提供支持的定制化音乐生成技术。 | 音乐 | ||
| AnyAccomp | AnyAccomp:通过量化旋律瓶颈实现可泛化的伴奏生成。 | arXiv | 音乐 | |
| Boomy | 创造生成式音乐,并与全世界分享。 | 音乐 | ||
| ChatMusician | 在大型语言模型中培养内在的音乐能力。 | 音乐 | ||
| Chord2Melody | 自动音乐生成 AI。 | 音乐 | ||
| Diff-BGM | 用于视频背景音乐生成的扩散模型。 | arXiv | 音乐 | |
| FluxMusic | FluxMusic:基于修正流变换器的文本到音乐生成。 | arXiv | 音乐 | |
| GPTAbleton | 用于处理 GPT 响应并将 MIDI 音符通过 AbletonOSC 和 python-osc 发送到 Ableton 片段中的脚本草稿。 | 音乐 | ||
| HeyMusic.AI | AI 音乐生成器 | 音乐 | ||
| Image to Music | AI 图片转音乐生成器是一种利用人工智能将图片转换为音乐的工具。 | 音乐 | ||
| JEN-1 | 基于全向扩散模型的文本引导通用音乐生成。 | 音乐 | ||
| Jukebox | 一种音乐生成模型。 | arXiv | 音乐 | |
| Magenta | Magenta 是一个研究项目,探索机器学习在艺术和音乐创作过程中的作用。 | 音乐 | ||
| MeLoDy | 高效的神经网络音乐生成 | 音乐 | ||
| Mubert | AI 生成式音乐。 | 音乐 | ||
| MuseNet | 一种深度神经网络,能够生成包含 10 种不同乐器的 4 分钟音乐作品,并能融合从乡村音乐到莫扎特再到披头士等多种风格。 | 音乐 | ||
| MusicGen | 简单且可控的音乐生成。 | arXiv | 音乐 | |
| MusicLDM | 利用节拍同步混合策略提升文本到音乐生成的新颖性。 | arXiv | 音乐 | |
| MusicLM | 从文本生成音乐。 | arXiv | 音乐 | |
| Riffusion App | Riffusion 是一款使用稳定扩散进行实时音乐生成的应用程序。 | 音乐 | ||
| Sonauto | Sonauto 是一款 AI 音乐编辑器,可以将提示词、歌词或旋律转化为任何风格的完整歌曲。 | 音乐 | ||
| SonicMaster | SonicMaster:迈向可控的一体化音乐修复与母带处理。 | arXiv | 音乐 | |
| SoundRaw | 为创作者提供的 AI 音乐生成器。 | 音乐 | ||
| Soundry AI | 包括文本转声音和无限样本包在内的生成式 AI 工具。 | 音乐 | ||
| YuE | YuE:开源的整首歌曲生成基础模型,类似于 Suno.ai 但为开源版本。 | 音乐 |
歌声
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| DiffSinger | 基于浅层扩散机制的歌声合成。 | arXiv | 歌声 | |
| Retrieval-based-Voice-Conversion-WebUI | 基于VITS的易用型语音转换框架。 | 歌声 | ||
| so-vits-svc | SoftVC VITS 歌声转换。 | 歌声 | ||
| VI-SVS | 使用VITS和Opencpop开发歌声合成;与VISinger不同。 | 歌声 |
语音
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
|---|---|---|---|---|
| Applio | 终极语音克隆工具,经过精心优化,具有无与伦比的强大功能、模块化设计和用户友好的体验。 | 语音 | ||
| Audyo | 输入文本,输出音频。 | 语音 | ||
| Bark | 文本提示生成式音频模型。 | 语音 | ||
| Bert-VITS2 | 基于多语言BERT的VITS2骨干网络。 | 语音 | ||
| Chatterbox | Chatterbox TTS是首个生产级开源TTS模型。 | 语音 | ||
| ChatTTS | ChatTTS是一款用于日常对话的生成式语音模型。 | 语音 | ||
| CLAPSpeech | 通过对比语言-音频预训练学习文本上下文中的韵律。 | arXiv | 语音 | |
| CosyVoice | 多语言大型语音生成模型,提供推理、训练和部署的全栈能力。 | 语音 | ||
| DEX-TTS | 基于扩散模型的表情丰富文本到语音合成,并在时间变异性上进行风格建模。 | arXiv | 语音 | |
| EmotiVoice | 多语音且受提示控制的TTS引擎。 | 语音 | ||
| FireRedTTS-2 | FireRedTTS-2:面向播客和聊天机器人的长对话语音生成。 | arXiv | 语音 | |
| Fliki | 将文本转换为带有AI语音的视频。 | 语音 | ||
| GLM-4-Voice | GLM-4-Voice是由智谱AI推出的一体化语音模型。GLM-4-Voice可以直接理解和生成中文和英文语音,进行实时语音对话,并根据用户指令改变情感、语调、语速和方言等属性。 | 语音 | ||
| Glow-TTS | 通过单调对齐搜索实现文本到语音的生成流模型。 | arXiv | 语音 | |
| GPT-SoVITS | 强大的少样本语音转换和文本到语音WebUI。 | 语音 | ||
| Higgs Audio | Higgs Audio V2:重新定义音频生成中的表现力。 | 语音 | ||
| IndexTTS2 | IndexTTS2:在情感丰富且时长可控的自回归零样本文本到语音合成方面的突破。 | arXiv | 语音 | |
| Kitten TTS | Kitten TTS是一个开源的逼真文本到语音模型,仅需1500万参数,专为轻量级部署和高质量语音合成而设计。 | 语音 | ||
| Liquid Audio | Liquid Audio - Liquid AI推出的语音到语音音频模型。 | 语音 | ||
| LOVO | LOVO是数千名创作者首选的AI语音生成器和文本到语音平台。 | 语音 | ||
| MahaTTS | 一款开源的大规模语音生成模型。 | 语音 | ||
| Matcha-TTS | 一种基于条件流匹配的快速TTS架构。 | arXiv | 语音 | |
| MeloTTS | MyShell.ai出品的高质量多语言文本到语音库。支持英语、西班牙语、法语、中文、日语和韩语。 | 语音 | ||
| MetaVoice-1B | 用于实现人类水平语音智能的AI。 | 语音 | ||
| Narakeet | 轻松使用逼真的文本到语音技术创建配音。 | 语音 | ||
| Mini-Omni | Mini-Omni:语言模型可以在流式处理中听、说并思考。Mini-Omni是一款开源的多模态大型语言模型,能够边听边说边思考。具备实时端到端语音输入和流式音频输出的对话能力。 | arXiv | 语音 | |
| One-Shot-Voice-Cloning | 基于Unet-TTS的一次性语音克隆。 | 语音 | ||
| OpenVoice | MyShell提供的即时语音克隆服务。 | 语音 | ||
| OverFlow | 在神经换能器之上应用流模型以改善TTS性能。 | 语音 | ||
| RealtimeTTS | RealtimeTTS是一款最先进的文本到语音(TTS)库,专为实时应用而设计。 | 语音 | ||
| SenseVoice | SenseVoice是一款语音基础模型,具备多种语音理解能力,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。 | 语音 | ||
| SpeechGPT | 通过内在的跨模态对话能力增强大型语言模型。 | arXiv | 语音 | |
| speech-to-text-gpt3-unity | 这是我使用Whisper和OpenAI的ChatGPT API在Unity中实现的项目仓库。 | Unity | 语音 | |
| Stable Speech | Stability AI的文本到语音模型。 | 语音 | ||
| StableTTS | 下一代TTS模型,采用流匹配和DiT技术,灵感来自Stable Diffusion 3。 | 语音 | ||
| Step-Audio | Step-Audio:智能语音交互中的统一理解与生成。 | arXiv | 语音 | |
| Step-Audio 2 | Step-Audio 2是一款端到端的多模态大型语言模型,专为工业级音频理解和语音对话而设计。 | arXiv | 语音 | |
| StyleTTS 2 | 通过风格扩散和对抗训练,结合大型语音语言模型,迈向人类水平的文本到语音合成。 | arXiv | 语音 | |
| tortoise.cpp | tortoise.cpp:tortoise-tts的GGML实现。 | 语音 | ||
| TorToiSe-TTS | 一个注重质量的多语音TTS系统。 | 语音 | ||
| TTS Generation WebUI | TTS生成WebUI(Bark、MusicGen、Tortoise、RVC、Vocos、Demucs)。 | 语音 | ||
| VALL-E | 神经编解码语言模型是零样本文本到语音合成器。 | arXiv | 语音 | |
| VALL-E X | 用自己的声音说外语:跨语言神经编解码语言建模 | arXiv | 语音 | |
| VibeVoice | VibeVoice是一种新颖的框架,旨在从文本生成富有表现力、长篇幅、多说话者的对话式音频,例如播客。它解决了传统文本到语音(TTS)系统中的重大挑战,特别是在可扩展性、说话者一致性以及自然的轮流发言方面。 | 语音 | ||
| Vocode | Vocode是一个用于构建基于语音的LLM应用的开源库。 | 语音 | ||
| Voicebox | 文本引导的多语言通用大规模语音生成。 | arXiv | 语音 | |
| VoiceCraft | 零样本语音编辑和野外环境下的文本到语音合成。 | 语音 | ||
| VoxCPM | VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和逼真语音克隆。 | 语音 | ||
| Whisper | Whisper是一款通用的语音识别模型。 | 语音 | ||
| WhisperSpeech | 一个通过反转Whisper构建的开源文本到语音系统。 | 语音 | ||
| X-E-Speech | 非自回归跨语言情感文本到语音与语音转换的联合训练框架。 | 语音 | ||
| XTTS | XTTS是一个用于高级文本到语音生成的库。 | 语音 | ||
| YourTTS | 努力实现面向所有人的零样本多说话者TTS和零样本语音转换。 | arXiv | 语音 | |
| ZMM-TTS | 基于自监督离散语音表示的零样本多语言、多说话者语音合成。 | arXiv | 语音 | |
| UniAudio 2.0 | UniAudio 2.0:一种多任务音频基础模型,配备推理增强型音频分词。 | 语音 | ||
| UnityNeuroSpeech | 全球首个允许您与AI实时对话的游戏框架——本地运行。 | Unity | 语音 |
分析工具
| 来源 | 描述 | 游戏引擎 | 类型 |
|---|---|---|---|
| Ludo.ai | 游戏研究与设计助手。 | 分析工具 |
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器